1.2 数据能为我们做的事
IBM的研究报告说明,表现比较优异的公司和表现相对没那么好的公司之间最大的差距往往在于对数据的使用。对数据应用比较好的公司主要做对了下面的几件事。
(1)用大数据分析来吸引、发展和维护用户;
(2)用数据来优化流程;
(3)把所有可能产生的数据都收集起来;
(4)在可以应用数据作决策的地方都不作主观判断;
(5)快速获取信息;
(6)快速作出决策。
总而言之,这些表现比较优异的公司是基于数据作管理(data-driven decision making),而且往往会引领他们所在的领域和行业。
数据具体可以有哪些应用呢?
(1)数据长期的保存。因为有些数据需要实时分析,有些需要线下分析,还有一些目前可能用不到,不过在未来可能会有用。
(2)欺诈分析和预防。这不仅仅是在金融领域,还可以在任何与用户交互的地方。
(3)社交网络和人、企业等的关系分析。
(4)产品和市场的分析、设计和优化。
(5)根据物联网上采集的数据作数据分析,并作实时响应。
上述的这些应用在本书中都有具体的案例。
1.2.1 用户画像和任何企业都需要关注的数据
当我们在和任何一家企业讨论基于数据的管理时,首要的基础就是数据。我们来看看企业中都有哪些数据。
(1)网站和移动应用程序流量分析;
(2)产品和服务销售分析;
(3)市场调查分析;
(4)设备和机器监控和数据分析;
(5)人力资源员工数据分析;
(6)(潜在)竞争对手市场分析;
(7)互联网口碑分析。
我们在这里只是简单地列举了一些数据点,而实际情况是企业任何一个部门、任何一个员工、任何一台设备或者任何一个市场活动都会持续不断地产生各种各样的数据。对这些数据进行分析和挖掘,是企业转向基于数据管理的关键。
我们经常听到的一个词是“用户画像”,如图1-5所示,那么“用户画像”究竟是什么呢?
图1-5 用户画像
我们认为用户画像其实就是关于这个用户的各种数据的整合。当我们获取了图1-5中的各种数据,而且这些数据还能确保真实的时候,我们可能会比用户本人更加了解他自己。
(1)社交网络上的各种信息;
(2)游戏中的各种数据;
(3)用户所关注的娱乐内容;
(4)用户的信用、借贷和消费记录;
(5)用户在电商网站上的购买和浏览记录;
(6)用户在原有传统数据库中的数据等。
我们在本书后面的章节中会多次提到“画像”的概念,读者可以在我们写的实际案例中更多了解究竟什么是“画像”。
1.2.2 大数据的3V、4V和N个V
最早是IBM提出了大数据领域的“3V”概念,即大量化(Volume)、多样化(Variety)和快速化(Velocity)。3V是大数据时代的显著特征,正是这些特征给今天的企业带来了巨大的挑战。
业内也有学者和从业者提出了其他关于大数据的V,比如:
(1)数据的价值(Value);
(2)数据的可验证性(Verification);
(3)数据的可变性(Variability);
(4)数据的真实性(Veracity);
(5)数据的邻近性(Vicinity)。
可验证性(Verification)指的是数据需要经过验证,因为数据量大了之后,带来的一个后果必然是数据质量的良莠不齐,以及因不同级别用户介入而产生的数据安全问题。可变性(Variability)主要指的是数据格式的可变性,着重于非关系型数据。真实性(Veracity)指的是因为数据来自不同的源头,而有些来源的数据(比如Facebook上的评论和Twitter上的跟帖)其本身的可信度是需要考虑的。邻近性(Vicinity)和大数据的存储相关,处理数据的程序和服务器需要能够就近获取资源,不然会造成大量的浪费和效率的降低。
专家和学者们会将上述的某一个或者几个V与Volume、Variety、Velocity合在一起,并称为4V或者5V、6V,至于选用的是哪一个V,则要看他们想要推送的理念、产品和服务与哪一个或者哪几个V最接近。
在这N个V中,我们认为最值得关注的当然是数据的价值(value)。所有的大数据应用如果不落到价值体现上,是没有意义的。以商业应用为核心,这是我们在本书中从头到尾都在讲述的概念。
1.2.3 从数据分析到数据挖掘
什么是数据挖掘呢?古人云“物以类聚,人以群分”,这句话其实描述的就是数据挖掘中的一类算法——聚类算法。
要看一个人是怎样的,只需要看他周围都有什么样的朋友;而从数据挖掘的角度来说,聚类算法要预测一个对象的特征,只需要看它周围对象的特征。
大数据挖掘在本书中的定义是在海量数据的基础上进行数据挖掘的过程,也就是对数据进行处理和研究,并从数据中提取有用信息和发现知识的过程。
对数据进行分析和处理,那么数据分析和数据挖掘之间有什么区别呢?
从本质上来说,数据分析和数据挖掘都是为了从收集来的数据中提取有用信息,发现知识,而对数据加以详细研究和概括总结的过程。在不少场景中,数据分析和数据挖掘这两个概念是可以互换的,而它们之间最大的区别是数据本身的不同,这主要表现在以下两个方面。
(1)数据量的不同。数据分析的数据对象通常是存储在数据库或者文件中,而数据挖掘对应的数据对象一般是在分布式数据库或者数据仓库中。在今天,一个数据分析应用的对象数量级会是在MB或是GB,而数据挖掘的应用数据动辄TB,甚至PB。
(2)数据类型的不同。数据分析处理的对象一般是文本或者纯数字,而数据挖掘的对象不仅仅是文本,还有音频、视频和图片数据;数据挖掘面对的不仅仅是规范化数据,还有半规范化数据和不规范数据。
从某种意义上来讲,数据分析和数据挖掘之间的区别就像淘金客和矿山主,不同点在于淘金客只在一条小溪上工作,甚至几十个人共享一条小溪,通常只能通过手工作业用沙漏从沙里淘金;而矿山主则占有整座巨大的矿山,由于矿山拥有成分复杂的矿石和数量繁多的伴生矿物,这时候矿山主就不能仅仅依靠手工作业,而需要建立一个以机器为劳动力的现代化工业企业,才能做到最大限度和效率的产出。
数据挖掘与传统的数据分析(如查询、报表、联机应用分析等)的本质区别在于数据挖掘往往是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得出的信息通常具有先前未知性、有效性和可实用性三个特征,如图1-6所示。而从本质上讲,数据分析主要是一个假设检验的过程,是一个严重依赖于数据分析师手工作业的过程。数据分析就像是我们在淘金,如果有高水平的淘金客,我们就能淘出金子。
图1-6 数据挖掘所得信息的三个特征
数据挖掘或者大数据挖掘,是传统手工业式的数据分析的现代大工业形式。数据挖掘建立在拥有大量数据,并且能够让机器方便读取的数据仓库之上,采用机器学习的算法,是自动挖掘知识的过程。
当然这并不意味着数据分析会完全被数据挖掘所取代。就像现代大工业只是取代了手工生产的组织形式,而手工生产中的方法、技能等都被现代大工业吸收进来,重新赋予了意义。同样地,大数据挖掘也需要数据分析的算法和思路,只是用新的方法组织施行。而如今这一过程也才刚刚开始。
数据挖掘并不是一门崭新的科学,而是综合了统计分析、机器学习、人工智能、数据库等诸多方面的研究成果的边缘学科。其与专家系统、知识管理等研究方向的不同之处在于,数据挖掘更侧重于企业应用。
在2015年年初,PWC普华永道发布了一份针对77国逾1300位CEO的调查。结果显示,在推动数字技术发展、提高组织能力方面,提高客户参与度的移动技术排在第一位,而数据挖掘分析占有第二重要的战略地位。同时,这些CEO还认为,提供更好的客户体验并提高业务效率也是数据分析最为重要的一项能力。
笔者认为,数据逐渐成为最大的一类交易商品。在互联网上,继“入口为王”“流量为王”和“应用为王”之后,下一个概念理所当然应该是“数据为王”。在今天,大数据已经像公用设施一样,有数据提供方、管理方、运营商、第三方服务商和监管方,而且数据交易的流程也在被完善。
数据的供应、交易和处理将会形成一个新的大产业链,而Hadoop将是一把利器。
1.2.4 大数据处理的三个维度
当我们在讨论大数据的时候,需要更多关注的是对大数据的处理。如果我们只是把数据存储在那里,而没有充分使用它们,那么这是没有意义的。
面对大数据,NetApp公司作过一个值得借鉴的分析,如图1-7所示。
图1-7 大数据处理的三个维度
从图1-7中我们可以看到,大数据处理要分成三个维度。
(1)Content,在内容上,我们要有安全的无限数据存储;
(2)Brandwidth,在速度上,我们要能做快速的数据密集性处理;
(3)Analytics,在分析层面,我们要能处理超大的数据集。
其实,就前文所讲的3V来说,Content对应的是Volume, Bandwidth对应的是Velocity,而Analytics对应的是其中两项:Variety和Volume。
简而言之,数据挖掘(Data Mining)是有组织、有目的地收集数据,通过分析数据,使之成为信息,从而从大量数据中寻找潜在规律以形成规则或知识的技术。
图1-8表明数据分析是一个循环的流程。
图1-8 数据分析的最终价值在于洞察和分析
(1)用户和市场行为产生大量的数据。
(2)数据在经过解析之后产生洞察和分析。
(3)数据要产生价值就需要把洞察应用到用户和市场行为上。
(4)优化了的用户和市场行为又产生了大量的数据,循环再一次开始。
我们经常听到的“大数据挖掘”其实包含了“大数据”和“数据挖掘”两个不同的概念,前者说的是数据的规模,而后者说的是数据的使用。
基于大数据的服务创新有很大的想象空间。我们认为,讨论大数据挖掘是否“大”本身没多大意义,是否能充分把数据利用起来才是关键。