大数据的特征、相关技术和重要意义
主要特征
大数据的主要特征可以归结为“5V+1C”。
(1)差异化(Variety)程度高。随着电子商务、社交网络、物联网等的发展,新的数据源和数据采集技术不断出现,使数据类型不断增多。大数据中的数据集往往来自不同的单位和部门,在编码方式、数据格式、数据标准等多个方面存在差异,包含大量异构数据。
(2)数据量(Volume)极大。2011年6月,美国国际数据公司(IDC)发布了题为《从混沌中汲取价值》的报告。根据该报告,全球数据量大约每两年翻一番。全球过去三年内产生的数据量比以往四万年产生的数据量还要多。数据量的计量单位如表1–1所示。
表1–1 用以表示数据量的单位
随着物联网技术的广泛应用,通过各种设备产生的海量数据,其数据规模极为庞大,远大于目前互联网上的信息流量,PB级别是常态。例如,谷歌每天处理的数据量超过20 PB。
值得指出的是,大数据的真正意义不在“数据量大”,而是通过数据分析、比对、挖掘等发现新知识,创造新价值,提升新能力。
(3)处理速度(Velocity)快。涉及感知、传输、决策、控制开放式循环的大数据,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值。为了提高大数据集的处理速度,目前普遍采用云计算、实时数据库等技术。
(4)时效性(Vitality)强。大数据分析结果,只有在特定时间和空间中才有意义。如果在需要时拿不到大数据分析结果,大数据分析就失去了现实意义。例如,在军事领域,对战场情况进行大数据分析,时效性就要求很高。
(5)分析结果可视化(Visualization)。可视化是数据科学家寻求问题以及探索数据集新特性的一种方式。数据可视化可以帮助领导干部直观地进行决策。
(6)复杂度(Complexity)高。各种非结构化的数据增加了大数据的复杂性,使传统数据库技术无法对其进行高效的分析,需要建立复杂的专业模型。通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求。
在互联网时代,数据的移动成为信息系统最大的开销。信息系统需要从“数据围着处理器转”转变为“处理器围着数据转”。
相关技术
大数据相关技术包括数据挖掘、联机分析处理、数据仓库、数据集市、数据湖、Hadoop等。
1.数据挖掘
所谓数据挖掘(Data Mining,DM),是指从数据库的大量数据中揭示出隐含的、先前未知的且有潜在价值的信息的过程。
数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。例如,零售公司跟踪客户的购买情况,发现某个客户购买了大量的真丝衬衣,这时数据挖掘系统就会在此客户和真丝衬衣之间创建关系。销售部门就会看到此信息,直接将真丝衬衣的当前行情以及所有关于真丝衬衣的资料发给该客户。这样零售商店通过数据挖掘系统就发现了以前未知的关于客户的新信息,并且扩大经营范围。
2.联机分析处理
联机分析处理(On-Line Analytical Processing,OLAP)的概念最早是由关系型数据库之父埃德加·科德博士于1993年提出的。运用联机分析处理技术,可以使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解并真实反映企业维特性的信息进行快速、一致、交互的存取,从而获得对数据更深入的了解。也就是说,联机分析处理技术使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
3.数据仓库
数据仓库(Data Warehouse,DW)概念由比尔·恩门于1990年提出,是指面向主题的、集成的、相对稳定的、反映历史变化的数据集合,主要用于支持管理决策。数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,为了决策需要而产生的,它并不是所谓的“大型数据库”。
4.数据集市
数据集市(Data Mart)是指满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。
数据集市属于数据仓库的一种,支持特定应用和服务,以具体部门或应用为主,属于面向工作组、部门、小型的、集中的数据仓库。数据集市是一种比数据仓库更集中、更小、更便捷、更简单的数据集合,适用于小型企业的数据分析。数据集市是数据仓库的子集和一部分,继承了数据仓库的特征和优势,和数据仓库具有一样的数据结构。
5.数据湖
2010年,詹姆斯·狄克逊提出数据湖(Data Lake)的概念。2011年,丹·伍德斯在《福布斯》杂志发表《大数据需要更大的新架构》(Big Data Requires a Big New Architecture)一文,数据湖开始广为传播。数据湖主要是为了解决数据仓库漫长的开发周期,高昂的开发和维护成本,细节数据丢失等问题。
数据湖是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无须事先对数据进行结构化处理。一个数据湖可以存储结构化数据、半结构化数据和非结构化数据。
数据湖其实就是一个集中存储数据库,可用其原生格式存储任何类型的数据,没有大小限制。数据湖主要是为了处理大数据量的非结构化数据。数据湖中的每个数据元素都会被分配一个唯一的标识符,并对其进行标记,以后可通过查询找到该元素。
数据湖和数据仓库的区别,如图1–1所示。
数据湖由元数据平台、数据湖仓库和数据湖服务三个部分组成。其中元数据平台用于数据资产登记、盘点、评估和处置,数据湖仓库用于原生数据可管理、可扩展的统一存储,数据湖服务用于对外提供数据发现、准备和提取服务。
图1–1 数据湖与数据仓库的区别
如果说数据集市是一个商店的瓶装水,经过过滤包装和结构化以供饮用,那么数据湖则是在更自然状态下的大量的水。数据湖中的数据源于不同的地方,用户可以进入数据湖中提取所需要的数据。
数据湖的核心原则是集中存储原始的、未经改变的全量数据,在提取数据时才进行转换。数据湖存储各种类型的数据,重点是非结构化和半结构化数据,通过统一视图提供开放访问。数据湖具有强大的元数据管理能力,保证所存储数据资源的语义一致性,这是进行大数据分析的基本前提。
数据湖的定位和搜索引擎类似,核心的技术实现是多源异构数据的自动化标注,才能像在搜索引擎上查找信息一样实现按需检索、即取即用。可以把数据湖想象成一个元数据标注的机器人,它每时每刻会对进入数据湖的数据进行认读——这篇文章、这张图片、这段视频、这段语音、这些传感器数据等等,到底说了什么;然后进行编目——数据从哪里来,作者是谁,标题是什么,主题词、关键字是什么,从而建立数据目录,以支撑数据资源管理和服务活动。这就牵涉到人工智能技术在元数据管理领域的综合运用。例如,文书型数据要用到自然语言处理,媒体型数据要用到图像识别和语音识别。为了提高元数据标注的速度和准确性,还要引入机器学习。
6.Hadoop
Hadoop由Apache(阿帕奇)软件基金会研发,是一个能够对大数据进行分布式处理的软件框架,能够以一种可靠、高效、可伸缩的方式对大数据进行处理。Hadoop可靠性高,它假设计算元素和存储会失败,为此维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据集。
7.数据中台
数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念,由阿里巴巴最先提出,被誉为大数据的发展趋势。不过值得指出的是,数据中台不是大数据平台。
在数据开发中,核心数据模型的变化是相对缓慢的,同时对数据进行维护的工作量也非常大,但业务创新的速度、对数据提出的需求的变化是非常快的。数据中台就是为了弥补数据开发和应用开发之间,由于开发速度不匹配,出现的响应力跟不上的问题。
数据中台可以解决以下三个问题。
(1)效率问题。为什么应用开发增加一个报表,就要十几天时间?为什么不能实时获得用户推荐清单?当业务人员对数据产生一点疑问的时候,需要花费很长的时间,结果发现是数据源的数据变了,最终影响信息系统上线时间。
(2)协作问题。当业务应用开发的时候,虽然和别的项目需求大致差不多,但因为是别的项目组维护的,所以数据还是要自己再开发一遍。
(3)能力问题。数据的处理和维护是一个相对独立的技术,需要相当专业的人来完成,但在很多时候,应用开发人员往往很多,而数据开发人员则很少。
这三类问题都会导致应用开发团队变慢,而中台的关键作用是可以使前台开发团队的开发速度不受后台数据开发的影响。
延伸阅读 数据、信息、知识的区别和联系
数据是指任何以电子或者非电子形式对信息的记录,主要包括结构化数据、非结构化数据、半结构化数据三种类型。关系型数据库的行和列是结构化数据。CSV(逗号分隔值)、日志、XML(可扩展标记语言)、JSON(JavaScript对象简谱)、HTML(超文本标记语言)、报表、资源库等是半结构化数据。电子邮件、文档、PDF(便携式文档格式)、图像、音频、视频等是非结构化数据。
信息是指有上下文的数据,上下文包括数据元素和相关术语的业务含义、数据表达的格式、数据所处的时间范围、数据与特定用法的相关性等。数据是一些原始材料,经过不断解析和加工从而产生信息。
知识是指对情景的理解、意识、认知、识别,以及对其复杂性的把握。知识源于信息。知识是基于某一角度的信息整合形成的一种观点。
近年来,物联网、云计算、移动互联网、人工智能、虚拟现实等新一代信息技术飞速发展。大数据与这些新一代信息技术密切相关,例如,物联网可以采集数据,云计算可以处理数据,移动互联网可以传输数据,人工智能可以分析数据,虚拟现实可以展示数据。
重要意义
随着我国信息化建设的深入,许多政府部门和企事业单位都积累了海量的数据资源,迫切需要利用大数据技术对这些数据资源进行处理、分析和挖掘,提高政府部门的行政效能,提高企业的生产经营水平,使海量的数据资源转化为巨大的社会财富。深化大数据应用,发展大数据产业,对于推进国家治理体系和治理能力现代化、推动高质量发展具有重要意义。
(1)大数据成为推动经济转型发展的新动力。大力发展以大数据产业为代表的数字经济,是加快新旧动能转换、建设现代化经济体系、推动高质量发展的重要举措。以数据流引领技术流、物质流、资金流、人才流,将深刻影响社会分工协作的组织模式,促进生产组织方式的集约和创新。大数据推动社会生产要素的网络化共享、集约化整合、协作化开发和高效化利用,改变了传统的生产经营方式和经济运行机制,可显著提升经济运行水平和效率。大数据持续激发商业模式创新,不断催生新业态、新模式,已成为新旧动能转换的重要驱动力。大数据产业正在成为新的经济增长点,将对未来信息产业格局产生重要影响。许多行业都可以利用大数据提高市场资源配置效率,减少不必要的浪费,促进新想法和新见解的产生。
(2)大数据成为重塑国家竞争优势的新机遇。在全球信息化快速发展的大背景下,大数据已成为国家重要的基础性战略资源,正引领新一轮科技创新。充分利用我国的数据规模优势,实现数据规模、质量和应用水平同步提升,发掘和释放数据资源的潜在价值,有利于更好发挥数据资源的战略作用,增强网络空间数据主权保护能力,维护国家安全,有效提升国家竞争力。
(3)大数据成为提升政府治理能力的新途径。深化大数据在党政机关的应用,是推进国家治理体系和治理能力现代化的重要手段。大数据应用能够揭示传统技术方式难以展现的关联关系,为有效处理复杂的经济社会问题提供了新的手段。树立“用数据说话、用数据决策、用数据管理、用数据创新”的大数据思维,有利于促进决策科学化、行政管理精细化和精确化、公共资源配置合理化、公共服务人性化,创新市场监管和社会治理模式,提高政府运行整体化和智能化水平,加快构建整体政府、智慧政府、开放政府和服务型政府等新型政府,推进政府治理体系和治理能力现代化。