大数据技术入门
上QQ阅读APP看书,第一时间看更新

3.1 Hadoop发行版

Hadoop包含了很多子项目,它们一起构成了Hadoop生态圈。在这十年间,新技术(如:Spark)和新版本不断推出,日新月异。这给我们带来2个痛点:

●我们很难及时地跟踪所有这些新技术和新版本;

●怎么确保这些新旧版本的不同软件组件之间没有冲突。

国外出现了这样的一些公司来解决这些痛点:他们将所有这些版本兼容的技术产品打成一个包,并提供了简单的安装程序和集成管理系统。虽然这些公司采用不同的方式方法,但是都基本解决了上述的痛点。这些公司就是“推出了各自版本的Hadoop”的公司。

不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera's Distribution Including Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Platform,简称HDP),下面我们简单介绍后面2个版本。

3.1.1 Cloudera

Cloudera公司于2008年在美国硅谷创建,是企业级Hadoop技术服务提供商,已经获得了6.7亿美元的投资。Cloudera提供了第一个基于开源Hadoop的商业发行版,第一个添加NoSQL(HBase)到Hadoop平台,第一个在HDFS上提供SQL查询能力的平台(Impala),第一个将流数据处理能力(Spark)添加到Hadoop发行版的厂商。

用户真正在乎基于Hadoop的平台和能达到的业务结果,而不是Hadoop本身。Hadoop之初的定位就是一个经济型的深度存储和数据处理平台,我们陆续看到如今大大小小的企业都在用这个平台进行部署,涉及的创新应用也越发广泛。而Cloudera提供的Cloudera Hadoop发行版(简称CDH)就是一个稳定的Hadoop版本,它简化了Hadoop本身的安装和管理,让Hadoop使用者省心省力(当然,如你果技术能力强,可以用原生Hadoop,自己定制,这也会更灵活)。

CDH的系统架构如图3-1所示。截至2016年5月的最新的版本是CDH 5.7。它的下载地址为:http://www.cloudera.com/downloads.html。推荐的安装方法是使用cloudera-manager-installer.bin安装。我们只要从官网下载cloudera-manager-installer.bin,然后执行这个bin文件,剩下的就是等待下载和安装。

图3-1 CDH产品架构(来自CDH官网)

3.1.2 HortonWorks

HortonWorks公司于2011年在美国硅谷创建,已经在NASDAQ上市。HortonWorks提供的Hadoop发行版为Hortonworks Data Platform(HDP)。HDP的整个架构如图3-2所示。

图3-2 HDP体系架构

如图3-2所示,HDP包含了Apache Hadoop的必要的组件,它包括:YARN、HDFS、Pig、Hive、HBase、Zookeeper和Ambari。HDP还包含了Apache Spark、Solr和Storm等新兴技术。HDFS为大数据提供可扩展、容错、具有成本效益的存储。YARN提供资源管理和可插拔架构,以支持广泛的数据访问方法。YARN为各种处理引擎提供基础,能够同时以多种方式与相同数据交互(从批量到交互式SQL或使用NoSQL的低延迟访问)。HDP能够根据策略加载和管理数据进行身份验证、授权和数据保护。HDP支持大规模配置、管理、监控和运营Hadoop集群。HDP提供了一整套运营功能,不仅提供集群运行状况的可见性,还提供工具来管理配置。Apache Ambari提供API与现有管理系统集成。HDP能够与其他的数据分析工具集成。HDP支持Windows系统的安装和配置,并支持以下版本的Linux:

●RHEL v6.x和v5.x

●CentOS v6.x和v5.x

●Oracle Linux v6.x和v5.x

●SLES v11, SP1和SP3

●Ubuntu Precise v12.04

本章后续的安装和配置是以HDP为基础进行阐述。

3.1.3 MapR

MapR也是位于美国硅谷的一个软件公司,专门开发和销售Apache Hadoop的衍生软件,它对Apache Hadoop主要贡献有:HBase、Pig、Apache Hive以及Apache ZooKeeper。MapR的Apache Hadoop发行版提供了完整的数据保护和无单点故障,提高了性能与易用性。MapR被选择为亚马逊Elastic Map Reduce(EMR)的升级版本。

MapR的MapR Converged Data Platform如图3-3所示。它提供了2个版本:免费的社区版(Converged Community Edition)和收费的企业版(Converged Enterprise Edition)。

图3-3 MapR Converged Data Platform