本章探讨了大数据的基本概念和大数据处理所面临的挑战,介绍了基本的大数据处理框架,讨论了用于支持不同大数据应用的通用编程模型,最后重点讲述了大数据处理框架的4层结构。通过本章可以了解到用户层如何开发应用,分布式数据并行处理层如何执行数据处理流程,资源管理和任务调度层如何分配资源、调度任务,物理执行层如何执行具体的任务,以及大数据处理框架的错误容忍机制。在各个章节中,我们还介绍了与大数据系统相关的各种前沿研究工作。这些背景知识是探讨下面章节中的Spark设计与实现原理的基础。