1.1 大数据的概念与关键技术_Spark编程基础（Scala版）-QQ阅读男生玄幻网

上QQ阅读APP看书，第一时间看更新

1.1 大数据的概念与关键技术

随着大数据时代的到来，“大数据”已经成为互联网信息技术行业的流行词汇。本节介绍大数据的概念与关键技术。

1.1.1 大数据的概念

关于“什么是大数据”这个问题，学术界和业界比较认可关于大数据的“4V”说法。大数据的4个“V”，或者说是大数据的4个特点，包含4个层面：数据量大（Volume）、数据类型繁多（Variety）、处理速度快（Velocity）和价值密度低（Value）。

（1）数据量大。根据著名咨询机构IDC（Internet Data Center）做出的估测，人类社会产生的数据一直都在以每年50%的速度增长，这被称为“大数据摩尔定律”。这意味着，人类在最近两年产生的数据量相当于之前产生的全部数据量之和。预计到2020年，全球将总共拥有35ZB的数据量，数据量将增长到2010年数据的近30倍。

（2）数据类型繁多。大数据的数据类型丰富，包括结构化数据和非结构化数据，其中，前者占10%左右，主要是指存储在关系数据库中的数据，后者占90%左右，种类繁多，主要包括邮件、音频、视频、微信、微博、位置信息、链接信息、手机呼叫信息、网络日志等。

（3）处理速度快。大数据时代的很多应用，都需要基于快速生成的数据给出实时分析结果，用于指导生产和生活实践，因此，数据处理和分析的速度通常要达到秒级响应，这一点和传统的数据挖掘技术有着本质的不同，后者通常不要求给出实时分析结果。

（4）价值密度低。大数据价值密度却远远低于传统关系数据库中已经有的那些数据，在大数据时代，很多有价值的信息都是分散在海量数据中的。

1.1.2 大数据关键技术

大数据的基本处理流程，主要包括数据采集、存储管理、处理分析、结果呈现等环节。因此，从数据分析全流程的角度来看，大数据技术主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据可视化、数据安全和隐私保护等几个层面的内容（具体如表1-1所示）。

表1-1 大数据技术的不同层面及其功能

此外，大数据技术及其代表性软件种类繁多，不同的技术都有其适用和不适用的场景。总体而言，不同的企业应用场景，都对应着不同的大数据计算模式，根据不同的大数据计算模式，可以选择相应的大数据计算产品，具体如表1-2所示。

表1-2 大数据计算模式及其代表产品

批处理计算主要解决针对大规模数据的批量处理，也是我们日常数据分析工作中非常常见的一类数据处理需求。比如，爬虫程序把大量网页抓取过来存储到数据库中以后，可以使用 MapReduce对这些网页数据进行批量处理，生成索引，加快搜索引擎的查询速度。代表性的批处理框架包括MapReduce、Spark等。

流计算主要是实时处理来自不同数据源的、连续到达的流数据，经过实时分析处理，给出有价值的分析结果。比如，用户在访问淘宝网等电子商务网站时，用户在网页中的每次点击的相关信息（比如选取了什么商品）都会像水流一样实时传播到大数据分析平台，平台采用流计算技术对这些数据进行实时处理分析，构建用户“画像”，为其推荐可能感兴趣的其他相关商品。代表性的流计算框架包括Twitter Storm、Yahoo! S4等。Twitter Storm是一个免费、开源的分布式实时计算系统， Storm对于实时计算的意义类似于Hadoop对于批处理的意义，Storm可以简单、高效、可靠地处理流数据，并支持多种编程语言。Storm框架可以方便地与数据库系统进行整合，从而开发出强大的实时计算系统。Storm可用于许多领域中，如实时分析、在线机器学习、持续计算、远程RPC、数据提取加载转换等。由于Storm具有可扩展、高容错性、能可靠地处理消息等特点，目前已经被广泛应用于流计算应用中。

在大数据时代，许多大数据都是以大规模图或网络的形式呈现，如社交网络、传染病传播途径、交通事故对路网的影响等。此外，许多非图结构的大数据，也常常会被转换为图模型后再进行处理分析。图计算软件是专门针对图结构数据开发的，在处理大规模图结构数据时可以获得很好的性能。谷歌公司的Pregel是一种基于BSP模型实现的图计算框架。为了解决大型图的分布式计算问题， Pregel搭建了一套可扩展的、有容错机制的平台，该平台提供了一套非常灵活的API，可以描述各种各样的图计算。Pregel 作为分布式图计算的计算框架，主要用于图遍历、最短路径、PageRank计算等。

查询分析计算也是一种在企业中常见的应用场景，主要是面向大规模数据的存储管理和查询分析，用户一般只需要输入查询语句（如SQL），就可以快速得到相关的查询结果。典型的查询分析计算产品包括Dremel、Hive、Cassandra、Impala等。其中，Dremel是一种可扩展的、交互式的实时查询系统，用于只读嵌套数据的分析。通过结合多级树状执行过程和列式数据结构，它能做到几秒内完成对万亿张表的聚合查询。系统可以扩展到成千上万的CPU上，满足谷歌上万用户操作PB级的数据，并且可以在2～3秒完成PB级别数据的查询。Hive是一个构建于Hadoop顶层的数据仓库工具，允许用户输入SQL语句进行查询。Hive在某种程度上可以看作是用户编程接口，其本身并不存储和处理数据，而是依赖HDFS来存储数据，依赖MapReduce来处理数据。Hive作为现有比较流行的数据仓库分析工具之一，得到了广泛的应用，但是由于Hive采用MapReduce来完成批量数据处理，因此，实时性不好，查询延迟较高。Impala 作为新一代开源大数据分析引擎，支持实时计算，它提供了与Hive类似的功能，通过SQL语句能查询存储在Hadoop的HDFS和HBase上的PB级别海量数据，并在性能上比Hive高出3～30倍。