不仅仅是流计算:Apache Flink实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

愿更多的开发者融入Apache Flink社区

作者 王绍翾(花名:大沙)阿里巴巴 资深技术专家

Apache Flink是德国柏林工业大学的几个博士生和研究生从学校开始做起来的项目,之前叫做Stratosphere。他们在2014年开源了这个项目,起名为Flink。我从2015年开始接触Apache Flink,完成并见证了Apache Flink作为一款卓越的流计算引擎在阿里集团的落地,连续多年帮助阿里平稳的度过了一个又一个双十一大促。在刚刚过去的2018年双十一,Flink引擎完美的支撑了高达17亿每秒的流量洪峰。

为了让大家更为全面的了解Flink,我和InfoQ的徐川老师一起合作制作了这本介绍Apache Flink的中文专刊。它融合了Apache Flink在国内各大顶级互联网公司的大规模实践。在这本专刊里你可以了解到:Flink如何为整个阿里集团平稳度过双十一立下汗马功劳?如何为满足滴滴极为复杂的业务需求提供简单直观的API支持?如何在字节跳动逐步取代原有的JStorm引擎,成为公司内部流式数据处理唯一标准?

Apache Flink已经被业界公认是最好的流计算引擎。然而Flink其实并不是一个仅仅局限于做流处理的引擎。Apache Flink的定位是一套兼具流、批、机器学习等多种计算功能的大数据引擎。在最近的一段时间,Flink在批处理以及机器学习等诸多大数据场景都有长足的突破。一方面Flink的批计算在经过阿里的优化后有了数量级的提升。另一方面,Flink社区在tableAPI, Python,以及ML等诸多领域都在逐步发力,持续提升用户做Data science和AI计算的体验。此外,Flink也在逐步提升和其他开源软件融合的体验,包括Hive,还有Notebook(Zeppelin, Jupyter)等等。由于准备时间的仓促,本次专刊并没有收录很多关于Flink在这些新场景的进展的介绍。我们后续还会组织发布更多关于Apache Flink的系列专刊。

Apache Flink自2014年开源至今也才4年,我们期待更多的企业和开发者们和我们一起参与到Apache Flink的社区和生态建设中来,共同把它打造成为全球最一流的开源大数据引擎。