1.3 大数据的商用化
大数据是传统的架构、传统的技术无法解决的数据处理问题。Hadoop的出现,解决了大数据的快速存储和读取,也为我们提供了大数据分析的众多工具,但是,对于大数据商用而言,这并不够!因为大数据的名字有“大”,所以很多人把重点集中在了数据的容量上,简单地认为数据量是最大的问题。实际上大数据除了数据量的问题外,还会把信息管理的各项需求都推向极致(如图1-1所示)。
图1-1 大数据商用需求
最下面的这一层是大数据基本的问题,包括大数据量、多样性、高速和低价值。解决这四个方面的问题只是大数据商用化的基础,这只是支撑起大数据的平台。Hadoop技术很好地解决了这一层的问题。Hadoop也被认为是下一代IT架构的基础,Hadoop系统将逐步替换以关系型数据库为基础的传统系统。
中间这一层是关于访问权限的问题。数据的敏感性是一个很基础的问题,但是现有的Hadoop技术还没有对数据的敏感性提供可行的解决方案。那些提供大数据解决方案的IT企业不仅仅要关注大数据的4V量化指标,还需要把注意力放在“数据敏感性分级”上。国内超过80%的数据在政府的系统内。如果我们的大数据解决方案没有给政府数据提供诸如敏感性分级的权限管理机制,那么,政府是很难往前迈一步的。比如:公安、税务、工商等各部门的数据在一个平台上所产生的访问控制问题。共享协议是指数据将会以什么形式,通过什么样的接口实现数据交换,这是大数据的重点问题之一。数据交换的所有的方式都是以标准的协议来支持,因为在大数据的时代,数据的来源本身是多样性的,数据的格式甚至是无法管理的,很多的数据是来自于企业的外部,来自于互联网的提供商。到底如何通过这些协议和统一数据模型自动化地将数据放到大数据平台上来,这是一个很严重的问题。Hadoop本身并没有技术工具来解决这些方面的问题。
最上面一层是有关大数据质量的管理。数据本身是一种资产,资产质量怎么来衡量,我们如何确保数据的质量。这个也是我们在实施大数据商用上需要考虑的一个问题。质量管理是传统的数据管理里非常重要的一个方面,这包括数据的有效性和有效期限。Hadoop本身并没有技术工具来解决这些方面的问题,但是我们需要相应的大数据工具和技术来解决这些问题,这就是我们下面阐述的大数据管理平台的作用。除了提供大数据质量的管理,这个管理平台还提供上述的大数据访问的权限管理等功能。
如图1-2所示,从用户的角度,从大数据平台的功能性的角度来看,我们把大数据平台细分为三个平台:大数据云平台、大数据管理平台和大数据应用(分析)平台。大数据采集(也叫数据交换和共享)包含在大数据管理平台之中。
图1-2 大数据建设总体架构图
大数据云平台是集约化建设的IT基础设施层,为大数据处理和应用提供统一的基础支撑服务;大数据管理平台是数据资源层,为大数据应用提供统一数据采集、分析和处理等支持服务;大数据应用平台是业务应用层,为大数据在各领域的应用提供综合服务。从逻辑结构上看,很多大数据应用需要基于大数据管理平台,而Hadoop技术只能完成大数据的底层功能,即:大数据的快速采取、存储和读取,所以Hadoop是大数据管理平台的基础。正是因为Hadoop缺少相应的数据管理技术和工具的支持,上述的一些非常基本的商用问题到现在还没有解决,这就凸显了大数据管理平台的重要性。只有提供了统一的大数据管理平台,数据的集成尤其是跨行业、跨不同的部门、跨各种技术的集成才能成为可能。整个大数据应用的架构必然是构建在一个大数据管理平台之上,这才可能实现大数据应用的大规模商用和普及,而不应该只是基于裸露的Hadoop。
大数据顾名思义数据量庞大。在大数据时代,企业的数据不仅仅有传统的结构化数据,还有各类非结构化数据。结合对数据吞吐量的合理设计,将这些数据采集到大数据平台应该不会是很难的事情。比较难的是数据的转换、协调、确保不同数据源之间的一致性、检查数据的质量,这些是大数据采集中比较难实施的部分,而且在这些方面我们可用的自动化工具较少。
国内的大数据软件企业基本上都处于相对初级的阶段。很多新兴的公司提供Hadoop的发行版本的安装和配置,并针对Hadoop提供了一些定制化的应用。国内大数据软件产品和技术就是处于这么一个刚刚开始的状态。数据访问、安全、隐私、归档等,对数据管理来说,一些非常重要的、甚至于可以说是非常致命的需求,到现在仍然没有足够的解决方案。我们必须重点关注有关数据管理的问题,因为这可能是大数据商用解决方案中的一个最薄弱的环节。