《架构师》2022年1月
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

撕掉“Hadoop”标签,Cloudera未来还可期吗?

作者 褚杏娟 采访嘉宾 刘隶放

2000年初,Google的三篇论文奠定了最近二十年大数据的技术发展基调,也催生了Hadoop生态的发展和繁荣。借助Hadoop的东风,一批大数据企业成长了起来,Cloudera便是代表之一。不过,Hadoop势弱、Spark和云计算快速崛起后,Cloudera等大数据企业面临着或淘汰或转型的命运。

Hadoop真的死了吗?

2009年到2013年是Hadoop的繁盛时期,也是Cloudera快速发展的时期。

Cloudera成立于2008年,次年便推出了首个Hadoop发行版CDH。2014年,Cloudera完成了一轮9亿美元的融资,此轮融资包括英特尔投资的7.4亿美元和T. Powe Price领投、Google Ventures等跟投的1.6亿美元。Cloudera在此轮融资中的估值约41亿美元,牢牢坐稳了Hadoop发行商的头把交椅。Cloudera共计为Hadoop贡献了五六十个组件。

成本节约和分析性能是Hadoop在2010年代最吸引人的两个点。但随着企业需求的变化,这两个优势转变成制约企业发展的因素。本地硬件扩容虽然可以满足高峰期的使用需求,但大多数时间这些资源都会被闲置。本地Hadoop环境中无法将存储和计算分离,因此成本也会随着数据集的增加而增加。此时,云成了企业们的首选。

2016年,Cloudera试图转型成云计算大数据服务提供商,但由于资金等问题未能实现。不过,Cloudera次年还是在纳斯达克上市了。招股书显示,在截至2017年1月31日的财年内,Cloudera营收为2.61亿美元,亏损1.87亿美元。

来源:nextplatform

随着Hadoop风光不再,Hadoop提供商们也各寻出路。2018年,Cloudera与Hortonworks合并;2019年,MapR被HPE收购;2021年6月Cloudera退市,完成私有化。今年4月,Apache软件基金会宣布从Hadoop生态系统中淘汰掉10个项目。

Hadoop依旧在生长

不过,这些能够说明Hadoop已死吗?在Cloudera大中华区技术总监刘隶放看来,判断一个产品“生死”的标准是其是否还在解决用户的真实需求。

Cloudera和Hortonworks创始人们当初投身Hadoop的重要原因是,他们在原公司使用Hadoop平台做数仓改造后,发现成本得到大规模降低。而在刘隶放看来,Hadoop为数仓建设带来的这一优势,短时间内并不会改变。

企业需要处理的数据量越来越大。数据数仓管理有“3+1”、“6+1”的说法,即数仓管理着一个月的流动数据加上三个月或六个月的存储数据,时间一过,数据便将以离线存储形式转出。现在,转出数据改为近线存储,数据转出后形成历史数据再对外服务,这个基础之上又形成了数据集市。现在为了获得更高的有效数据使用能力,企业们将目光投向了数据湖。

如此大量的数据处理,首先需要足够的存储空间,其次要有足够的算力。在使用Hadoop对数仓进行优化后,企业可以直接将数据存储在HDFS上,之后再进行ETL处理。

数仓不仅贵,对精简性要求也高,数据太多可能导致性能不够。出于成本考虑,很多企业选择了数仓一体机。刘隶放表示,虽然企业不会快速将这些机器下线,但对Hadoop的接受程度越来越高。原因是这些海量数据中,有一部分并不需要进入数仓进行处理,大数据平台也可以做出很多数仓的固定报表。当这部分数据越来越多时,企业首先想到的会是大数据平台,而非数仓。

无论是对数仓的优化还是替换上,Hadoop都可以做很多事情。

另外,在历史数据查询方面,国内银行、电信、监管等领域的企业仍在用Hadoop做数仓前端的加工和处理。没有Hadoop之前,数据存储在属于内容管理的库,通过分级存储然后添加索引的方式实现。内容存储也存在成本高,性能会随着数据量增加而大幅下降的问题。Hadoop生态中的HBase,天然适合做这种超大规模数据的检查,越来越多企业选择用HBase管理库。

大数据讲究数量、多样性和速度,即可以快速处理大量各种类型的数据。Hadoop靠“量”起家,这点在很多企业系统里仍发挥着很重要的作用。

此外,Hadoop也在不断演化。Hadoop 3.0版本拥抱Kubernetes做容器化编排,加入了Airflow、Flink等新组件,部分缺乏“生命力”的组件也会被淘汰掉。

在刘隶放看来,Hadoop在变得更好、更全面。只要数据还在增长,Hadoop体系就无可替代。在当前的大数据平台里,只有Hadoop生态圈可以把控这样的大数据计算能力。

然而不得不承认,没有弹性资源供给、扩展成本快速增加等问题已经成为企业发展的主要矛盾,但Hadoop无法完全解决。

Hadoop已经过了技术生命周期的高峰时段,进入低谷期。幸存的Cloudera只有改进产品满足早期用户需求才能继续。换句话说,Hadoop即使不死,也不会再是Cloudera的主打产品。

新征程已经开始

2019年,Cloudera与Hortonworks合并后,彻底完成了转型。Cloudera果断宣布,对CDH和HDP两条产品线将仅支持到2022年。对于两个产品高度重合的部分会做删减和融合,结果就是推出新的数据平台CDP (Cloudera Data Platform)。2022年后,原CDH和HDP用户会被转移到CDP上。

2019年,Cloudera推出了CDP公有云平台,2020年又推出了CDP私有云平台。Cloudera希望通过统一的平台界面,对数据进行整个生命周期管理,并提供一致的安全和治理服务。

新的主打产品

CDP是CDH和HDP的大融合。数仓工具Hive和查询系统Impala会被保留下来,而两家都有的工具,如HDP的管理工具Ambari和CDH的Cloudera Manager则只保留一个,标准就是看生态是否鲜活。

现在,Cloudera做选择时会倾向更加开放的生态。“今年我们淡出了很多项目,包括之前两家公司主导的项目,首先是因为项目本身发展不够快,新发展起来的项目可以替代它们。”刘隶放说道,“其次,有些相似产品虽然只保留一个名字,但两个产品背后的研发小组是融合的,各自产品的优势也被保留了下来。”此外,也有新的组件融合进CDP ,比如Flink、Airflow等。

目前,CDP总共引入了三十多个开源组件,这些组件构成了CDP的五大模块:

•  数据仓库(CDW,Cloudera Data Warehouse)。计算引擎包括Hive、Impala等。
•  机器学习(CML - Cloudera Machine Learning)。Spark也是机器学习的利器。CDP集成了Spark 3.0的RAPIDS加速器,加速数据管道并大幅提升数据和机器学习工作流。
•  数据工程(CDE,Cloudera Data Engineering)。主要包括Spark等在数据工程方面能力很强的组件。其中Spark是Cloudera的重点项目,但在方向上会做一些调整。
•  数据流式处理(CDF,Cloudera Data Flow)。主要包括Kafka来保证数据加工传输,Flink做流式数据计算,Nifi在边缘(Edge)节点上做加工处理。
•  操作型数据库(COD,Cloudera Operational Database)。主要是HBase负责历史数据海量存储和查询。目前HBase版本已更新至2.2,支持Phoenix二级索引等功能。

此外,在存储上,CDP公有云上支持 对象存储S3和ADSL;私有云上支持传统的Kudu、HDFS、HBase和对象存储Ozone。

安全优势

安全问题并不是一家企业刚开始发展时的首要考虑因素,但却是企业规模越来越大后不得不面对的问题。最初纯封闭式管理就可以满足需要,但随着业务量的增加,数据对外服务需求也越来越多。此时,企业如果没有很好的数据安全方案就无法放心对外。

如果只追求单节点性能,机器几乎就会处于裸奔状态。产品的安全性如果较差,企业无法直接在自己的大数据平台上进行数据处理,只能让提供商单独处理,这样会造成整个数据使用的割裂。因此,企业最开始选择的平台是非常重要的。

在刘隶放看来,数据全生命周期管理首先要保证的就是数据安全,具体包括对数据的传输和存储加密、加工处理和调研服务过程中严格约束文件系统访问权限、确保整个行为可追溯等。

企业经营中,如果财务、业务等各部门能看到所有数据,那对开发者来说并不友好。有的企业为了避免测试人员看到敏感信息,可能就会放弃测试。为避免泄露,数据利用方面也会大打折扣。因此,更细粒度的权限认证是必要的。

针对安全问题,Cloudera提出了SDX(Shared Data Experience)框架。SDX独立于计算和存储层,可以对元数据的全生命周期进行统一治理。SDX目前采用了Atlas来解决之前遇到的性能瓶颈,企业不用在乎节点数量,只需要跟着机器做水平扩展就可以。SDX被用在CDP中,成为整个跨私有云、跨公有云以及跨混合云平台的基础。

由于CDP还引用了第三方库,如果不能及时更新维护也可能导致安全问题。Cloudera通过版本更新、第三方服务等方式,主动维护产品安全和帮助用户解决问题。刘隶放提到,有些竞品品拿了Cloudera发布的老版本做二次开发,设置上自己的壁垒后就对外服务,但竞品的提供商可能不清楚哪些地方如何引用了第三方库,也就没办法做针对性的修复,这也是潜在的安全问题。

据刘隶放透露,Cloudera主张的大数据全生命周期安全治理方案,即从生产端捕获数据后进行数据加工、转换和分析,最终成为可对外服务的数据,已经吸引了金融等对数据管控要求较高的企业。

目前,有的企业已经将业务全部迁移到CDP上,有的企业则根据自身某方面的需求使用CDP私有云等平台。今年,CDP也入驻了阿里云,逐步在国内建立自己的公有云服务体系。

 

“要把云原生支持做好”

“云原生是一个不能回避的话题,我们要去拥抱云原生,把云原生支持做好。”刘隶放表示。

企业对公有云和私有云有不同的需求。公有云适合爆发性增长业务,私有云更适合规模比较固定的业务。因此,混合云是一个必然趋势。不过,各大厂商早已纷纷推出了自己的混合云解决方案,这个市场不缺混合云产品。

在刘隶放看来,混合云服务需要完成从数据生产到分析服务的完整闭环。比如工业领域,随着机器更加数字化,前端能够捕获的数据越来越多,相关数据分析可以直接在前端进行,后端管控整个过程,并对前端做指导。

不过,目前大部分解决方案有个问题:厂商是将其公有云方案中的一部分做线下的部署和输出,即线上和线下的技术路线完全相同。这导致的结果就是企业很容易被锁定在一家供应商中,从而议价权越来越低。

为了避免被锁定,国内外很多企业即使上了公有云,但依然会用标准的IaaS,尤其是在大数据领域,因为只选择裸机和VM服务可以在未来跨平台迁移时变得容易。

针对这种情况,Cloudera提出了跨云服务。企业可以在任何私有云或AWS、Azure和Google Cloud等公共云以及任何格式的数据上进行各种分析。跨云平台之间的迁移主要是应用迁移和数据迁移。不同云平台的界面和操作相同,应用迁移很简单。针对比较复杂的数据迁移,Cloudera研发了迁移工具,企业也只需要在BDR中进行配置就可以完成。

刘隶放表示,PaaS、SaaS平台将是Cloudera未来的重点之一。今年6月,Cloudera宣布收购了两家公司:Datacoral和Cazena。Datacoral完全托管服务通过多租户SaaS架构可以快速完成数据转换和集成,Cazena的Instant Cloud Data Lake将分析时间和AI/ML从几个月缩短到了几分钟。

具有趋势性的技术背后,都映射着企业不断发展过程中需要解决的一些具体问题。比如,计算资源和存储资源并不需要1 : 1匹配,其中一方过多就会资源浪费,因此出现了存储计算分离。之前物理紧耦合的系统,一个组件升级其他组件也必须跟着一起升级,但不同组件可能来自不同的厂商,未升级的厂商只能单开一个集群运行,长期下来就会造成集群数据重复和存储冗余。因此私有云、公有云做了存储计算分离之后,企业可以按需使用资源,也可以自由选择计算组件的新旧版本。

刘隶放表示,“Cloudera一定会跟进趋势技术,如果不推陈出新就一定会被市场淘汰。”

写在最后

“Cloudera现在就是抓紧时间把产品做得更好。”刘隶放说道。

产品迭代快是这个时代赋予的机会,也是挑战。在刘隶放看来,任何产品都有时代的局限性,企业使用产品时指出来的问题也有时效性,因此产品也随之不断地在迭代、演进。站在现在的时间点上去批判多年前的产品是不合适的。

今年6月,Cloudera被CD&R和KKR以53亿美元的金额收购。现在的Cloudera不缺资金和业务经验,但缺少能够成为爆款的产品。对此,面对各个层面上所谓的竞品,刘隶放表示,“我们会把每个模块的性能做好,不怕大家在性能上做比较。”

嘉宾介绍

刘隶放,Cloudera大中华区技术总监,2016年1月加入Cloudera公司,管理大中华区产品售前支持团队。售前工作期间,负责支持国内重要客户的交易系统搭建和电信行业经营分析系统的平台建设工作;同时肩负软件部重要合作伙伴的支持工作,包括在SAP客户领域中推广IBM信息管理软件产品。

全书完,更多原著好书尽在QQ阅读