上QQ阅读APP看书，第一时间看更新

前言

Spark是发源于美国加州大学伯克利分校AMPLab的大数据分析平台，它立足于内存计算，从多迭代批量处理出发，兼顾数据仓库、流处理和图计算等多种计算范式，是大数据系统领域的全栈计算平台。Spark当下已成为Apache基金会的顶级开源项目，拥有庞大的社区支持，技术也逐渐走向成熟。

为什么要写这本书

大数据还在如火如荼地发展着，突然之间，Spark就火了。还记得最开始接触Spark技术时资料匮乏，只有官方文档和源码可以作为研究学习的资料。写一本Spark系统方面的技术书籍，是我持续了很久的一个想法。由于学习和工作较为紧张，最初只是通过几篇笔记在博客中分享自己学习Spark过程的点滴，但是随着时间的推移，笔记不断增多，最终还是打算将笔记整理成书，也算是一个总结和分享。

在国外Yahoo!、Intel、Amazon、Cloudera等公司率先应用并推广Spark技术，在国内淘宝、腾讯、网易、星环等公司敢为人先，并乐于分享。在随后的发展中，IBM、MapR、Hortonworks、微策略等公司纷纷将Spark融进现有解决方案，并加入Spark阵营。Spark在工业界的应用也呈星火燎原之势。

随着Spark技术在国内的大范围落地、Spark中国峰会的召开，及各地meetup的火爆举行，开源软件Spark也因此水涨船高。随着大数据相关技术和产业的逐渐成熟，公司生产环境往往需要同时进行多种类型的大数据分析作业：批处理、各种机器学习、流式计算、图计算、SQL查询等。在Spark出现前，要在一个平台内同时完成以上数种大数据分析任务，就不得不与多套独立的系统打交道，这需要系统间进行代价较大的数据转储，但是这无疑会增加运维负担。

在1年之前，关注Spark的人和公司不多，由于它包含的软件种类多，版本升级较快，技术较为新颖，初学者难以在有限的时间内快速掌握Spark蕴含的价值。同时国内缺少一本实践与理论相结合的Spark书籍，很多Spark初学者和开发人员只能参考网络上零星的Spark技术相关博客，自己一点一滴地阅读源码和文档，缓慢地学习Spark。本书也正是为了解决上面的问题而编写的。

本书从一个系统化的视角，秉承大道至简的主导思想，介绍Spark中最值得关注的内容，讲解Spark部署、开发实战，并结合Spark的运行机制及拓展，帮读者开启Spark技术之旅。

本书特色

本书是国内首本系统讲解Spark编程实战的书籍，涵盖Spark技术的方方面面。

1）对Spark的架构、运行机制、系统环境搭建、测试和调优进行深入讲解，以期让读者知其所以然。讲述Spark最核心的技术内容，以激发读者的联想，进而衍化至繁。

2）实战部分不但给出编程示例，还给出可拓展的应用场景。

3）剖析BDAS生态系统的主要组件的原理和应用，让读者充分了解Spark生态系统。

本书的理论和实战安排得当，突破传统讲解方式，使读者读而不厌。

本书中一些讲解实操部署和示例的章节，比较适合作为运维和开发人员工作时手边的书；运行机制深入分析方面的章节，比较适合架构师和Spark研究人员，可帮他们拓展解决问题的思路。

读者对象

❏Spark初学者

❏Spark二次开发人员

❏Spark应用开发人员

❏Spark运维工程师

❏开源软件爱好者

❏其他对大数据技术感兴趣的人员

如何阅读本书

本书分为两大部分，共计9章内容。

第1章从Spark概念出发，介绍了Spark的来龙去脉，阐述Spark生态系统全貌。

第2章详细介绍了Spark在Linux集群和Windows上如何进行部署和安装。

第3章详细介绍了Spark的计算模型，RDD的概念与原理，RDD上的函数算子的原理和使用，广播和累加变量。

第4章详细介绍了Spark应用执行机制、Spark调度与任务分配、Spark I/O机制、Spark通信模块、容错机制、Shuffle机制，并对Spark机制原理进行了深入剖析。

第5章从实际出发，详细介绍了如何在Intellij、Eclipse中配置开发环境，如何使用SBT构建项目，如何使用SparkShell进行交互式分析、远程调试和编译Spark源码，以及如何构建Spark源码阅读环境。

第6章由浅入深，详细介绍了Spark的编程案例，通过WordCount、Top K到倾斜连接等，以帮助读者快速掌握开发Spark程序的技巧。

第7章展开介绍了主流的大数据Benchmark的原理，并对比了Benchmark优劣势，指导Spark系统性能测试和性能问题诊断。

第8章围绕Spark生态系统，介绍了Spark之上的SQL on Spark、Spark Streaming、GraphX、MLlib的原理和应用。

第9章详细介绍了如何对Spark进行性能调优，以及调优方法的原理。

如果您是一位有着一定经验的资深开发人员，能够理解Spark的相关基础知识和使用技巧，那么可以直接阅读4章、7章、8章、9章。如果你是一名初学者，请一定从第1章的基础知识开始学起。

勘误和支持

由于笔者的水平有限，编写时间仓促，书中难免会出现一些错误或者不准确的地方，恳请读者批评指正。如果您有更多的宝贵意见，欢迎访问我的个人Github上的Spark大数据处理专版：https://github.com/YanjieGao/SparkInAction，您可以将书中的错误提交PR或者进行评论，我会尽量在线上为读者提供最满意的解答。您也可以通过微博@高彦杰gyj、微信公共号@Spark大数据、博客http://blog.csdn.net/gaoyanjie55或者邮箱gaoyanjie55@163.com联系到我，期待能够得到读者朋友们的真挚反馈，在技术之路上互勉共进。

致谢

感谢中国人民大学的杜小勇老师、何军老师、陈跃国老师，是老师们将我带进大数据技术领域，教授我专业知识与学习方法，并在每一次迷茫时给予我鼓励与支持。

感谢微软亚洲研究院的闫莺老师和其他老师及同事，在实习工作中给予我的帮助和指导。

感谢IBM中国研究院的陈冠诚老师和其他老师及同事，在实习工作中给予我的帮助和指导。

感谢连城、明风、Daoyuan Wang等大牛以及Michael Armbrust、Reynold Xin、Sean Owen等多位社区大牛，在开发和技术学习中对我的点拨和指导，以及社区的各位技术专家们的博客文章。本书多处引用了他们的观点和思想。

感谢机械工业出版社华章公司的首席策划杨福川和编辑高婧雅，在近半年的时间中始终支持我的写作，给我鼓励和帮助，引导我顺利完成全部书稿。

特别致谢

最后，我要特别感谢我的女友蒋丹彤对我的支持，我为写作这本书，牺牲了很多陪伴你的时间。同时也要感谢你花了很大的精力帮助我进行书稿校对。正因为有了你的付出与支持，我才能坚持写下去。

感谢我的父母、姐姐，有了你们的帮助和支持，我才有时间和精力去完成全部写作。

谨以此书献给我最亲爱的家人，以及众多热爱大数据技术的朋友们！