1.1 大数据的特性
在大数据技术出现早期,道格·莱尼指出大数据包括数据容量(Volume)、数据更新频率(Velocity)及数据多样性(Variety)方面的特征(“3V”特征)。此后,研究者纷纷从特性角度去分析和理解大数据,并对这种“3V”特征的观点加以丰富。特别地,研究人员增加了准确性(Veracity)及价值性(Value)方面的特征,从而构成“5V”特征,如图1-1所示。
图1-1 大数据的“5V”特征
1.1.1 数据容量大
随着互联网、传感器及各种数字化终端设备的普及,收集、存储、处理数据的成本不断降低,使我们处于一个数据采集无处不在的世界,从而不间断地产生大量数据。目前,每天有超过50亿个消费者与数据关联,到2025年,这一数字将上升到60亿。仅Facebook就已经有超过9亿名用户了,这些人每天上传3.5亿张图片,发送超过100亿条信息,每天产生300TB数据。事实上,除了本身由计算机或数据处理系统创造出来的数码信息,还有大量数据来自实体世界,比如城市监视录像机等拍摄的音视频,或者可穿戴设备监测的心率、排汗等物理活动数据。2025年,预计全球联网的数十亿台物联网设备将产生超过90ZB数据,与此同时,全球总的数据量将从2018年的33ZB迅速增加至175ZB(见图1-2)。为了满足数据爆炸产生的存储需求,IDC 预计,从2018 年到2025年,所有介质类型的存储容量出货量必须超过 22ZB,其中近 59% 的容量来自 HDD产业。随着数据呈现指数级增长,数字化已经成为构建现代社会的基础力量,并推动我们走向一个深度变革的时代。
图1-2 全球每年的数据规模
1.1.2 数据种类多
早期的计算机数据都是结构化的,如航班到港/离港数据、学生成绩单等。但是现在世界上80% 的数据是非结构化的,而且种类繁多,如电子邮件、网络日志、音频、视频、图片、传感器数据、社交数据等。这些数据有三个来源:①企业数据中心产生的大量核心数据;②边缘服务器及小型数据中心等企业级计算机或设备产生的边缘服务器数据;③终端设备产生的终端数据。
按照内容来分,数据可以归纳为以下三类。①文件数据。据Radicati Group统计,电子邮件是用户日常获取信息的重要渠道之一。2018年全球电子邮件用户量达到38亿人,即全球近一半的人在使用电子邮件。2019年全球每天收发2936亿封电子邮件。②物联网数据。据英特尔公司预测,到2020年,一辆拥有数百个车载传感器的自动驾驶汽车,每小时将产生500GB数据。另外,据HIS预测,到2025年,全球物联网连接设备的总安装量将达到754.4亿个,约是2015年的5倍。无处不在的物联网设备正在将世界变成一个“数字地球”。③社交数据。人们可以用智能手机随时随地进行社交活动,每天在社交网络上花费的时间越来越多,导致社交数据量也相应地不断增长。据Facebook统计,Facebook每天产生4PB数据,包含100亿条消息、3.5亿张照片和1亿小时的视频浏览。类似地,Instagram用户每天要分享9500万张照片,Twitter用户每天要发送5亿条信息。
当前的大量数据不是结构化的,不能直接采用关系数据库来存储和处理。幸运的是,大数据技术可以将不同类型的数据与传统的结构化数据结合在一起进行统一处理。
1.1.3 更新频率快
数据更新频率指数据的生成速度、移动速度及处理速度。国际数据公司报告显示,2018年全球智能手机共出货14亿部。这些手机用户随时随地产生新的照片、视频、音频、健身数据等。与此同时,快速增长的物联网设备产生的物联网数据呈现指数级增长,由此导致的网络反应速度也成为大家关注的焦点,因为网络的带宽及反应速度直接影响企业的效率甚至竞争的成败。特别地,手机在移动互联网应用中扮演着极其重要的角色。现在全世界平均每个智能手机用户每个月会产生近3GB数据,比2017年同期增长了50%以上[5]。基于这种情况,大数据对处理速度有非常严格的要求,服务器中大量的资源用于处理和计算数据,很多平台都需要做到实时分析数据,谁的数据分析速度更快且更准确,谁就可以更快地更新决策,获得优势。
1.1.4 准确性高
准确性指数据的可信度。由于原始数据类型、来源与形式很多,它们的质量和准确性参差不齐。所有与数据有关的应用,不论是基础的数据统计、复杂的数据多维分析,还是个性化推荐、用户画像等更加深入的应用,对数据的准确性都有较高的要求。可是,人为因素、技术原因或其他商业因素等都可能使数据采集环节、传输环节、存储环节、分析环节及结果表示环节产生误差。这些误差如果处理不当,就会使得出的结果无法反映实际情况,从而导致企业决策错误。也就是说,由于大数据中的内容是与真实世界息息相关的,数据的准确性直接影响数据应用最终的呈现效果,从而影响基于数据的商业决策和产品智能效果,所以准确性的重要性可想而知。
大数据分析就是要从庞大且杂乱的数据集中分析得出独特的见解,从而解释和预测现实事件。显然,数据量越多,得出的结果就会越准确,就越利于做出最优决策。
1.1.5 价值密度低
价值性是大数据的核心特征。在一个大数据集中,数据总量很大,但数据的同质性通常很高,其中有价值的数据所占的比例很小。因此,随着数据量增加,虽然数据整体的价值会提高,但随之而来的是数据的价值密度降低了。相比于传统的小数据,大数据最大的价值在于,通过机器学习等方法,可从大量不相关的各类数据中发现新规律、新知识和对预测分析有价值的结果。借助于大数据,可提升各国社会治理、企业生产和科学研究的能力,也可迅速提升国家竞争力。例如,2018年中国数字经济规模已经达到31.3万亿元,数字经济占比继续提升,2018年中国GDP总量的1/3借助数字技术实现,数字中国初具规模。