大数据技术与应用
上QQ阅读APP看书,第一时间看更新

1.3 大数据的发展

大数据本身并不是一个新的概念。特别是仅仅从数据量的角度来看的话,大数据在过去就已经存在了。例如,波音的喷气发动机每30min就会产生10TB的运行信息数据,安装有4台发动机的大型客机,每次飞越大西洋就会产生640TB的数据。世界各地每天有超过2.5万架的飞机在工作,可见其数据量是何等庞大。生物技术领域中的基因组分析,以及以NASA(美国国家航空航天局)为中心的太空开发领域,从很早就开始使用十分昂贵的高端超级计算机来对庞大的数据进行分析和处理了。 

现在和过去的区别之一,就是大数据已经不仅产生于特定领域中,而且还产生于人们每天的日常生活中,微信、Facebook(脸谱)和Twitter(推特)等社交媒体上的文本数据就是最好的例子。而且,尽管人们无法得到全部数据,但大部分数据可以通过公开的API(应用程序编程接口)相对容易地进行采集。在B2C(商家对顾客)企业中,使用文本挖掘(text mining)和情感分析等技术,就可以分析消费者对自家产品的评价。 

1.3.1 硬件性价比提高与软件技术进步

计算机性价比的提高,磁盘价格的下降,利用通用服务器对大量数据进行高速处理的软件技术Hadoop的诞生,以及随着云计算的兴起,甚至已经无须自行搭建这样的大规模环境—上述这些因素大幅降低了大数据存储和处理的门槛。因此,过去只有像NASA这样的研究机构及屈指可数的几家特大企业才能做到对大量数据的深入分析,现在只需极小的成本和时间就可以完成。无论是刚刚创业的公司还是存在多年的公司,也无论是中小企业还是大企业,都可以对大数据进行充分利用。 

1.计算机性价比的提高

承担数据处理任务的计算机,其处理能力遵循摩尔定律,一直在不断进化。所谓摩尔定律,是美国英特尔公司共同创始人之一的高登•摩尔(Gordon Moore,1929—)于1965年提出的一个观点,即“半导体芯片的集成度,大约每18个月会翻一番”。从家电卖场中所陈列的计算机规格指标就可以一目了然地看出,现在以同样的价格能够买到的计算机,其处理能力已经和过去不可同日而语了。 

2.磁盘价格的下降

除了CPU性能的提高,硬盘等存储器(数据的存储装置)的价格也在明显下降。2000年的硬盘驱动器平均每GB容量的单价约为16~19美元,而现在只有7美分(换算成人民币的话,就相当于4~5角),相当于下降到了10年前的230~270分之一。 

变化的不仅仅是价格,存储器在重量方面也有了巨大进步。1982年日立公司最早开发的超1GB级硬盘驱动器(容量为1.2GB),重量约为250lb(约合113kg)。而现在,32GB的微型SD卡重量却只有0.5g左右,技术进步的速度相当惊人。 

3.大规模数据分布式处理技术Hadoop的诞生

Hadoop是一个可以在通用服务器上运行的开源分布式处理软件,它的诞生成为目前大数据浪潮的第一推动力。如果只是结构化数据不断增长,用传统的关系型数据库和数据仓库,或者其衍生技术,就可以进行存储和处理了,但这样的技术无法对非结构化数据进行处理。Hadoop的最大特征就是能够对大量非结构化数据进行高速处理。 

1.3.2 云计算的普及

如今,很多情况下,大数据的处理环境并不一定要自行搭建。例如,使用亚马逊的云计算服务EC2(Elastic Compute Cloud)和S3(Simple Storage Service),就可以在无须自行搭建大规模数据处理环境的前提下,以按用量付费的方式,来使用由计算机集群组成的计算处理环境和大规模数据存储环境。此外,在EC2和S3上还利用预先配置的Hadoop工作环境提供了EMR(Elastic Map Reduce)服务。利用这样的云计算环境,即使是资金不太充裕的创业型公司,也可以进行大数据的分析。 

实际上,在美国,新的IT创业公司如雨后春笋般不断涌现,它们利用亚马逊的云计算环境,对大数据进行处理,从而催生出新型的服务。这些公司有网络广告公司Razorfish、提供预测航班起飞晚点等航班预报服务的FlightCaster和对消费电子产品价格走势进行预测的Decide.com等。 

1.Decide.com 

Decide.com是一家成立于2010年的创业型公司,它提供的服务主要是告诉大家数码相机、计算机、智能手机和电视机等数码产品什么时候购买最划算。 

Decide.oom每天要从数百家网上商城中收集超过10万条家电和数码产品的价格数据,同时还会搜索关于这些产品的博客和新闻报道,以获取是否会有新型号准备发售等信息。这些数据的数据量每天超过25GB,整体用于分析的数据量则高达100TB。这些收集到的数据会被发送到亚马逊的云计算平台,并通过Hadoop来进行统计和分析工作。 

Decide.com竞争力的源泉,来自公司中4位计算机科学博士所开发的算法,这种算法可以对家电和数码产品价格的上涨或下降走势做出高精度的预测。 

2.FlightCaster 

FlightCaster创立于2009年,它所提供的服务是在航空公司发出正式通知6h之前,就能够对航班晚点做出预报。 

FlightCaster的预报是基于交通统计局的数据、联邦航空局航空交通管制系统指令中心的警报、FlightStats(一个发布航班运营状况信息的网站)的数据和美国气象局的天气预报等所发布的。这些数据都是公开数据,若有需要的话,任何人都可以获得。 

基于这些数据,FlightCaster可以做出类似“正点概率为3%,轻微晚点(60min以内)概率为14%,晚点60min以上概率为83% ”这样的预测。如果预报显示该航班有很大概率会晚点,还会给出相应的理由,如“目的地因暴雨天气风力较强”“(往返飞行的)到达航班已经晚点72min”等。 

该公司服务的强项在于,可以对过去10年的统计数据加上实时数据所构成的庞大数据,通过其拥有专利的人工智能算法进行分析,做出准确率高达85%~90%的航班晚点预测。 

FlightCaster是一家创业型公司,为了控制初期投资,其庞大的数据处理都是在亚马逊Amazon)的云计算平台(EC2和S3)上搭建的Hadoop集群中完成的。这个Hadoop集群是Cloudera公司提供的一项名为AMI(Amazon Machine Image)的服务,而FlightCaster正是利用了这个集群上的机器学习功能来进行数据挖掘的。 

另一方面,其前端部分是在Heroku公司(被Salesforce.com收购)的云计算平台上开发的,Heroku提供了Ruby on Rails(开发框架)的PaaS(Platform as a Service)服务,这是部署在EC2、S3等亚马逊云平台上的。 

此外,该公司还运用了大量的新技术,如将Hadoop进行抽象化的高级工作流语言Casoading,以及用Java编写的Lisp方言动态语言Clojure等,对于技术极客 ../Text/Chapter01_0006.xhtml#foot2 们来说还是相当有吸引力的。 

1.3.3 大数据作为BI的进化形式

要认识大数据,还需要理解BI(Business Intelligence,商业智能)的潮流和大数据之间的关系。对企业内外所存储的数据进行组织性、系统性的集中、整理和分析,从而获得对各种商务决策有价值的知识和观点,这样的概念、技术及行为称为BI。大数据作为BI的进化形式,充分利用后不仅能够高效地预测未来,也能够提高预测的准确率。 

BI这个概念是1989年由时任美国高德纳(Gartner)咨询公司的分析师Howard Dresner提出的。Dresner当时提出的观点是,应该将过去100%依赖信息系统部门来完成的销售分析、客户分析等业务,通过让作为数据使用者的管理人员及一般商务人员等最终用户亲自参与,从而实现决策的迅速化及生产效率的提高。 

BI的主要目的是分析从过去到现在发生了什么、为什么会发生,并做出报告。也就是说,是将过去和现在进行可视化的一种方式。例如,过去一年中商品A的销售额如何,它在各个门店中的销售额又分别如何。 

然而,现在的商业环境变化十分剧烈。对于企业今后的活动来说,在将过去和现在进行可视化的基础上,预测出接下来会发生什么显得更为重要。也就是说,从看到现在到预测未来,BI也正在经历着不断的进化,如图1-6所示。 

978-7-111-53304-7-Chapter01-6.jpg

图1-6 BI(商业智能)的发展

要对未来进行预测,从庞大的数据中发现有价值的规则和模式的数据挖掘(Data Mining)是一种非常有用的手段。为了让数据挖掘的执行更加高效,就要使用能够从大量数据中自动学习知识和有用规则的机器学习技术。从特性上来说,机器学习对数据的要求是越多越好。也就是说,它和大数据可谓是天生一对。一直以来,机器学习的瓶颈在于如何存储并高效处理学习所需的大量数据。然而,随着硬盘单价的大幅下降、Hadoop的诞生,以及云计算的普及,这些问题正逐步得到解决。现实中,对大数据应用机器学习的实例正在不断涌现。 

1.3.4 从交易数据分析到交互数据分析 

对从像“卖出了一件商品”“一位客户解除了合同”这样的交易数据中得到的“点”信息进行统计还不够,人们想要得到的是“为什么卖出了这件商品”“为什么这位客户离开了”这样的上下文(背景)信息。而这样的信息需要从与客户之间产生的交互数据这种“线”信息中来探索。以非结构化数据为中心的大数据分析需求的不断高涨,也正是这种趋势的一个反映。 

例如,像亚马逊这种运营电商网站的企业,可以通过网站的点击流数据,追踪用户在网站内的行为,从而对用户从访问网站到最终购买商品的行为路线进行分析。这种点击流数据,正是表现客户与公司网站之间相互作用的一种交互数据。 

举个例子,如果知道通过点击站内广告最终购买产品的客户比例较高,那么针对其他客户,就可以根据其过去的点击记录来展示他可能感兴趣的商品广告,从而提高其最终购买商品的概率。或者,如果知道很多用户都会从某一个特定的页面离开网站,就可以下工夫来改善这个页面的可用性。通过交互数据分析所得到的价值是非常大的。 

对于消费品公司来说,可以通过客户的会员数据、购物记录和呼叫中心通话记录等数据来寻找客户解约的原因。最近,随着“社交化CRM”呼声的高涨,越来越多的企业都开始利用微信、Twitter等社交媒体来提供客户支持服务。上述这些都是表现与客户之间交流的交互数据,只要推进对这些交互数据的分析,就可以越来越清晰地掌握客户离开的原因。 

一般来说,网络上的数据比真实世界中的数据更加容易收集,因此来自网络的交互数据也得到了越来越多的利用。不过,今后随着传感器等物态探测技术的发展和普及,在真实世界中对交互数据的利用也将不断推进。 

例如,在超市中,可以将由植入购物车中的IC标签收集到的顾客行动路线数据和POS等销售数据结合,从而分析出顾客买或不买某种商品的理由,这样的应用现在已经开始出现了。或者,也可以像前面讲过的那样,通过分析监控摄像机的视频资料来分析店内顾客的行为。以前也并不是没有对店内的购买行为进行分析的方法,不过,那种分析大多是由调查员肉眼观察并记录的,这种记录是非数字化的,成本很高,而且收集到的数据也比较有限。 

进一步讲,今后更为重要的是对连接网络世界和真实世界的交互数据进行分析。在市场营销的世界中,O2O(Online to Offline,线上与线下的结合)已经逐步成为一个热门的关键词。所谓O2O,就是指网络上的信息(在线)对真实世界(线下)的购买行为产生的影响。举例来说,很多人在准备购买一种商品时会先到评论网站去查询商品的价格和评价,然后再到实体店去购买该商品。 

在O2O中,网络上的哪些信息会对实际来店顾客的消费行为产生关联?对这种线索的分析,即对交互数据的分析,显得尤为重要。