1.3 对大数据的不同认识
我们所处的时代,数据以惊人的速度产生,数据的存储设备也在以惊人的速度发展,那么到底什么是大数据?这个问题再一次摆在我们眼前,接下来,看看不同领域的人们对大数据的认识。
1.3.1 资深编程者眼中的大数据
图1-1所示的都是公司的Logo,这些是正在使用大数据技术的公司,如Google、IBM等世界著名企业。编程者最关心的是,目前哪些公司在使用大数据技术?这门技术的应用普遍性如何?值不值得学习这门技术?
图1-1
计算机存储数据的方式是二进制,海量数据存储在一个大型的计算机集群上,在集群上可以搭建各种数据处理平台,比如后面将要讲的Flume海量日志采集平台、Hadoop分布式文件系统、MapReduce分布式并行处理计算框架、Hive数据仓库、Storm流式计算,HBase分布式实时数据库、Kafka消息队列、Spark内存计算等。利用这些平台,可以对数据进行采集、存储、计算和展示,将二进制数处理成人们能够识别的数字,或者人们视觉能够感受的图片或者视频。但是,在这个处理过程中也会出现各种各样的问题,如资源丢失、节点宕机等。
所以,编程者眼中的大数据,其实就是技术。
1.3.2 营销者和学者眼中的大数据
营销者是站在市场前沿的人,他们负责销售大数据产品和宣传大数据的价值;学者是站在科技前沿进行学术研究的人,比如各大研究机构的科研人员、各大高校的教授专家等。他们认为,大数据有4个特征,如图1-2所示。
第1特征是数据体量(Volume)巨大,大到什么程度呢?PB级别起步!很多人对PB可能没什么概念,那么我们就来换算一下:1024MB= 1GB,1024GB =1TB,1024TB=1PB。
图1-2
第2个特征是数据类型多样(Variety),大数据能支持文本、图像、视频、音频等几乎所有的文件类型的存储。关系型数据库只支持结构化的数据存储,而且关系型数据库存储的数据体量的峰值在GB级别。
第3个特征是商业价值(Value)高,也就是大数据中所蕴含的价值高。
第4个特征是速度(Velocity)快,数据输入/输出的速度要快。这也是大数据最核心的一个特征,可以说,如果没有这个特征,就不能称之为大数据了。从某种意义上讲,前3个特征都属于大数据本身的固有特征,只有速度快是大数据技术层面的独有特征。营销者和学者,敏锐地捕捉到了大数据的特征——4个V。4个V紧密相连,缺一不可,构成了大数据的初步原型。
1.3.3 商家看大数据
如果买啤酒和尿布这类商品,人们一般会去超市购买。
有一天,美国某沃尔玛分店的数据分析员意外发现,每逢周五,尿布和啤酒的销量便会大大增加,后来他在超市计算机的数据库后台中发现,购买者多为年轻男性。虽然这两种商品似乎“风马牛不相及”,但这名细心的数据分析员在周五进行了现场观察,终于发现了一个秘密。原来这些购买尿布的年轻男性,假日会狂欢玩乐,没时间购买孩子用的东西,所以他们每到周五下班后,会一次买齐孩子周末和下一周使用的尿布,以及聚会时豪饮的啤酒。
原本啤酒在一层摆放,尿布在地下一层摆放。发现这个秘密后,沃尔玛超市及时调整了商店的货品摆放位置,把尿布放在啤酒的旁边卖,这一个小小的位置调整,带来了奇迹,沃尔玛超市的啤酒和尿布的销售业绩增长了十几倍。通过数据分析竟然能发现这么大的潜在商业价值,看来这些数据里藏着很多宝藏,等待着我们去挖掘。自此,超市开始重视积累销售记录数据。
过去,人们不重视数据,因为它们不仅无法为企业创造直接的价值,而且存储数据还要花费很大成本,数据成了企业沉重的包袱。但当我们的思维发生变化后,去挖掘数据,才发现数据的价值极其珍贵。
所以,大数据不仅是技术,是商业价值,它更是一种思维方式。