大数据

时间:2019-01-17

大数据时代已经来临,它最核心的价值就是在于对海量的数据进行存储和分析,通过分析和挖掘全量的非抽样的数据来辅助决策,大数据可以实现的应用可以概括为两个方向,一个是精准化定制,第二个是预测。

传统意义上的数据整合主要针对结构化数据展开,采用的主要方式是将多源数据库存储的结构化数据,通过ETL处理后将其装载到数据仓库中,并建立数据分析主题从中提炼有用的知识。基于数据仓库的整合方式在面对传统少量的结构化数据时极为有效,但大数据环境下,半/非结构化数据以及实时流式数据迅速增加,这使得传统数据的整合存储架构需要进行适应性的调整。引入数据湖概念,其核心思想是在不考虑数据来源和数据模式异构的前提下,直接将各数据源的原始数据装载到统一的数据存储中,然后对其进行加工处理,这种模式与传统数据仓库的最大区别是保留了原始数据的全貌,使得分析人员可以根据各自的需求进行提取;同时,数据湖还支持日志、文本、图片以及视频等多模态的数据存储。

博达软件的客户一般都是知识密集型的客户(高校、政府、集团企业),这些客户组织内部存在着大量的非结构数据, 分散在不同的位置,保存于各种软硬件系统中,这些内容包括海量的文章、图片、视频、音频以及其他各种知识文档,我们称之为内容大数据。如何构建这个内容大数据平台,并让这些内容大数据产生价值,为单位提供类似于人工智能的自动分类、检索、决策、推荐、知识发现等再利用的价值,是博达客户现在和未来普遍存在的需求。

将图片、文字、视频等非结构化数据打上标签,并且可以按照标签进行分类,在数据的采集过程中通过自动学习数据来源进行分类,存储图像、音视频等大对象数据。同时针对结构化数据,在内存中建立数据表,适应数据量较少,但查询并发与响应速度要求很高的应用需求。系统支持列存储,实现特定数据列的高效访问,提高特定数据列的分类统计和排序的速度。基于Hadoop体系提供的分布式存储和处理引擎,通过Hive、HBase等存储结构化数据,采用MongoDB、Neo4J存储文档型和图关系数据,利用Elasticsearch实现内容大数据的快速索引以及全文检索。

博达技术研究院将致力于为我们的客户提供内容大数据的产生、发现、分析、采集、构建、管理、保存、分类、挖掘、利用等领域,为客户创造价值,帮助客户将内容大数据导入到各种内容应用场景,包括新闻网站、教师主页、微信发布平台、VR/AR、人工智能等等。

联系博达
7x24小时服务咨询电话 18049438766 / 18991834110
工作时间咨询电话 400-605-1065