1.1 什么是大数据
1.1.1 大数据产生的背景
随着以博客、社交网络、基于位置服务(Location Based Service,LBS)为代表的新型信息发布方式的不断涌现,以及云计算、物联网等技术的兴起,数据正以前所未有的速度在不断地增长和累积,大数据时代已经来到。
根据国际数据公司(IDC)做出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量,预计到2020年,全球将拥有35ZB的数据量,相较于2010年,数据量将增长近30倍。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。学术界、工业界以及政府机构都已经开始密切关注大数据问题,并对其产生浓厚兴趣。Nature早在2008年就推出了Big Data专刊。计算社区联盟(Computing Community Consortium)在2008年发表了报告Big-Data Computing:Creating revolutionary breakthroughs in commerce, science, and society,阐述了在数据驱动的研究背景下,解决大数据问题所需的技术以及面临的一些挑战。Science在2011年2月推出专刊Dealing with Data,主要围绕科学研究中大数据的问题展开讨论,说明大数据对于科学研究的重要性。美国一些知名数据管理领域的专家学者则从专业的研究角度出发,联合发布了一份白皮书Challenges and Opportunities with Big Data。该白皮书从学术的角度出发,介绍了大数据的产生,分析了大数据的处理流程,并提出大数据所面临的若干挑战。全球知名的咨询公司麦肯锡(McKinsey)于2016年6月发布了一份关于大数据的详尽报告Big data: The next frontier for innovation, competition, and productivity,对大数据的影响、关键技术和应用领域等都进行了详尽分析。从2012年以来,大数据的关注度与日俱增。2012年1月的达沃斯世界经济论坛上,大数据是主题之一,该次会议还特别针对大数据发布了报告Big Data, Big Impact: New Possibilities for International Development,探讨了新的数据产生方式下,如何更好地利用数据来产生良好的社会效益。该报告重点关注了个人产生的移动数据与其他数据的融合与利用。2012年3月,美国政府发布了《大数据研究和发展倡议》(Big Data Research and Development Initiative),投资2亿以上美元,正式启动“大数据发展计划”。计划在科学研究、环境、生物医学等领域利用大数据技术进行突破。美国政府的这一计划被视为美国政府继信息高速公路(Information Highway)计划之后在信息科学领域的又一重大举措。与此同时,联合国一个名为Global Pulse的倡议项目在2016年5月发布报告Big Data for Development:Challenges & Opportunities,该报告主要阐述大数据时代各国特别是发展中国家在面临数据洪流(Data Deluge)的情况下所遇到的机遇与挑战,同时还对大数据的应用进行了初步解读。《纽约时报》的文章The Age of Big Data则通过主流媒体的宣传使普通民众开始意识到大数据的存在,以及大数据对于人们日常生活的影响。
人类历史上从未有哪个时代和今天一样产生如此海量的数据。数据的产生已经完全不受时间、地点的限制。从开始采用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历了以下3个阶段。
(1)运营式系统阶段。数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,作为运营系统的数据管理子系统,如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。人类社会数据量第一次大的飞跃正是建立在运营式系统广泛使用数据库开始。这个阶段最主要的特点是数据往往伴随着一定的运营活动而产生并记录在数据库中,比如超市每销售出一件产品就会在数据库中产生相应的一条销售记录。这种数据的产生方式是被动的。
(2)用户原创内容阶段。互联网的诞生促使人类社会数据量出现第二次大的飞跃。但是真正的数据爆发产生于Web 2.0时代,而Web 2.0的重要标志就是用户原创内容(User Generated Content,UGC)。这类数据近几年一直呈现爆炸性增长,主要有两个方面的原因。首先,以博客、微博为代表的新型社交网络的出现和快速发展,使得用户产生数据的意愿更加强烈;其次,以智能手机、平板电脑为代表的新型移动设备的出现,这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便捷。这个阶段数据的产生方式是主动的。
(3)感知式系统阶段。人类社会数据量第三次大的飞跃最终导致了大数据的产生,今天我们正处于这个阶段。这次飞跃的根本原因在于感知式系统的广泛使用。随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备广泛布置于社会的各个角落,通过这些设备对整个社会的运转进行监控。这些设备会源源不断地产生新数据,这种数据的产生方式是自动的。简单来说,数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动的数据共同构成了大数据的数据来源,但其中自动式的数据才是大数据产生的根本原因。这一阶段的大数据主要来源为:
1.互联网数据源
互联网作为信息交换和网络服务的主要平台,集中大量特征形态各异的数据,成为产生大数据的重要源泉之一。在信息科技发展的历程中,互联网的出现可以比肩于人类社会“火”与“电”的发明,具有里程碑式意义。如今互联网从早期的几台机器联网已发展成全球机器联网模式,可以完全透明化地实施通信交流和资源共享。基于互联网平台的相关服务和应用已经深度融入社会,影响人们的生活工作方式,同时为社会带来巨大的经济效益。2009年阿里巴巴旗下淘宝商城“双十一”营销额为5000万元;2011年同期达到34亿元;2012年的“双十一”为191亿元;2013年淘宝商城销售总额达到350亿元;2014年“双十一”销售额571亿元;2015在线交易额912亿元;2016“双十一”购物狂欢节天猫交易额达1207亿;2017年双十一1小时0分49秒,成交额超过571亿元,与2014年“双十一”全天成交额持平,7点22分54秒成交额达912亿元,与2015年“双十一”全天成交额持平,9点0分4秒,成交额超1000亿元,10点40分48秒,无线成交额超过1000亿元,10点54分26秒,成交额超过1100亿元,无线占比91%,12点整,成交额1161亿元,13点9分49秒,成交额超1207亿元,与2016年“双十一”全天成交额持平,全天成交额达到1682亿元。这些新型网络服务的出现改变了传统的行为习惯,并触发新一轮的思维变革。
据2015年第36次中国互联网应用调查报告可知,中国网民的总体规模上升较快,互联网的普及率约为48.8%,网民人数达到6.7亿。大量网民聚集于网络平台,享受着互联网提供的各种优质资源,如网络新闻、搜索引擎、电子商务、即时通信/社交网络、博客微博、网络音视频和网络游戏等,主动或被动地留下大量网络使用“足迹”,汇聚成PB或EB数量级的网络数据。2014年小米云用户达到6795.5万人,云端数据总存储量达到47PB,而在2014年单日数据存储量最高达到380TB。目前,国内个人云存储运营较好的是百度云,在2014年百度云整体的数据存储量超过5EB,平均每个用户存储量约为26.84GB。淘宝网会员约3.7亿,在线商品8.8亿,每天交易产生的数据约20TB。根据我国互联网数据中心的《中国互联网市场洞见:互联网大数据技术创新研究2015》报告显示:截至2015年年底,中国互联网行业持有的数据总量已达到7900EB,预计2020年数据持有量将增长到8600EB以上。
在国外搜索巨头谷歌公司每天处理的数据量达到24PB,换句话说,谷歌公司每天处理的数据量相当于美国国家图书馆所有纸质出版物所含数据量的上千倍。美国另一知名的社交网站Facebook,每天更新的照片数量超过1000万张,每天网民在其网站点击按钮或写评论约30亿次。YouTube流媒体网站每月约有8亿人次的访问量,平均每秒就会有一段时长一小时以上的视频上传共享。
2.物联网数据源
2013年中国大数据专家委员会发表的《中国大数据技术与产业发展白皮书》中提出:物联网作为当前信息科技发展中的热点,其应用所产生的数据成为大数据的重要来源之一。物联网究其本质是传感器技术进步的产物。当前各种传感监控网络无处不在,从大气监测、交通路况监测、桥梁矿井的安全监测等,到各种仪器设备状态监控和科学实验的监控传感网络,都长期不间断地返回各种数据,汇聚成大数据。当前在智慧城市建设浪潮中,几乎每个城市都在建立各种监控网络。在城市各个角落部署大量的高清监控摄像头,一个1080P的摄像头按照码流率为8Mbit/s,在一天时间内将会产生86.4GB的视频数据。飞机汽轮机压缩器叶片的监控数据约为588GB/天,大约是Twitter每天产生数据的7倍左右。目前,形态各异的物联网平台不断自主产生数据,正成为大数据主要源泉之一,同时也为大数据的分析处理带来更多的挑战。
3.智能终端数据源
近年来智能终端的大量普及和带宽使用成本的逐步下降,基于通信网络平台所设计的各种服务吸引大量用户,人们通过智能终端享受网络服务已成为潮流和趋势。这一新的应用方式,对大数据的产生更是起到推波助澜的作用。截至2016年12月,我国手机网民规模达6.95亿人,与2015年相比增加7550万人。网民中使用手机上网人群的占比提升至95.1%,网民手机上网比例进一步攀升。中国移动凭借其在移动领域内的优势,与全国大量企业和政府机构展开合作,形成一系列基于移动网络的服务,如电话会议、视频会议、集团V网、移动办公、企业一卡通、M2M应用、视频监控、车务通等生产控制类型服务。2011年中国移动数据流量达5.77亿GB,2013年底翻番达到14.33亿GB,这种快速增长趋势将在近段时期内得到保持。据GSMA估计,至2018年全球移动数据流量将比2012年增加12倍。高速的流量增长必然导致大量的数据产生,通过对数据的挖掘分析将产生高额的经济效益回报,如在2015年电信行业的大数据应用产生的市场价值达到18.3亿元。
正如Google的首席经济学家Hal Varian所说,数据是广泛可用的,所缺乏的是从中提取出知识的能力。数据收集的根本目的是根据需求从数据中提取有用的知识,并将其应用到具体的领域之中。不同领域的大数据应用有不同的特点,表1-1列举了若干具有代表性的大数据应用及其特征。
表1-1 若干具有代表性的大数据应用及其特征
正是由于大数据的广泛存在,才使得大数据问题的解决很具挑战性。而它的广泛应用,则促使越来越多的人开始关注和研究大数据问题。