基于Hadoop与Spark的大数据开发实战
上QQ阅读APP看书,第一时间看更新

第2章 Hadoop分布式文件系统

技能目标

掌握HDFS文件系统的访问方式

掌握HDFS的体系结构

掌握HDFS数据的读写流程

了解HDFS的序列化使用

本章任务

学习本章,需要完成以下4个工作任务。记录学习过程中遇到的问题,通过自己的努力或访问kgc.cn解决。

任务1:HDFS入门

了解HDFS的产生背景、HDFS文件系统是什么及其特点和设计目标,掌握HDFS文件系统的架构组成。

任务2:HDFS基本操作

掌握使用HDFS shell和Java API操作HDFS文件系统。

任务3:HDFS运行原理

掌握HDFS文件的读写流程、副本摆放策略,认知HDFS数据负载均衡和机架感知。

任务4:HDFS高级知识

了解Hadoop的序列化操作,掌握Sequence File和Map File的常用操作。