更新时间:2024-09-23 17:50:36
封面
版权信息
版权
内容提要
前言
资源与支持
资源获取
提交勘误
第1章 大数据概述
1.1 基本概念
1.1.1 5V特征
1.1.2 数据类型
1.1.3 大数据平台
1.1.4 大数据的处理流程
1.2 相关技术
1.2.1 数据采集
1.2.2 数据预处理
1.2.3 数据存储
1.2.4 数据挖掘与数据分析
1.2.5 数据可视化
1.3 应用领域
1.4 课后习题
第2章 Python大数据分析
2.1 Python介绍
2.1.1 Python的应用场景
2.1.2 Python的优点与缺点
2.2 NumPy介绍
2.2.1 NumPy的应用场景
2.2.2 NumPy的数组对象与用法
2.3 pandas介绍
2.3.1 pandas的应用场景
2.3.2 pandas的数据结构与用法
2.4 Matplotlib介绍
2.4.1 Matplotlib库的应用场景
2.4.2 图表绘制
2.5 实践操作
2.6 小结
2.7 课后习题
第3章 Kafka
3.1 Kafka介绍
3.1.1 Kafka的基本架构
3.1.2 Kafka的作用
3.2 Kafka的重要特性
3.2.1 高吞吐
3.2.2 高可用
3.3 安装与配置
3.3.1 ZooKeeper的安装与配置
3.3.2 Kafka的安装与配置
3.4 实践操作
3.5 小结
3.6 课后习题
第4章 数据存储
4.1 HDFS
4.1.1 Hadoop介绍
4.1.2 HDFS介绍
4.1.3 安装与配置
4.1.4 实践操作
4.1.5 小结
4.1.6 课后习题
4.2 HBase
4.2.1 HBase介绍
4.2.2 技术对比
4.2.3 安装与配置
4.2.4 实践操作
4.2.5 小结
4.2.6 课后习题
4.3 Redis
4.3.1 Redis介绍
4.3.2 安装与配置
4.3.3 实践操作
4.3.4 小结
4.3.5 课后习题
第5章 图数据处理
5.1 Neo4j
5.1.1 Neo4j介绍
5.1.2 安装与配置
5.1.3 实践操作
5.1.4 小结
5.1.5 课后习题
5.2 Spark GraphX
5.2.1 图计算基础知识
5.2.2 Spark GraphX介绍
5.2.3 实践操作
5.2.4 小结
5.2.5 课后习题
第6章 离线计算
6.1 MapReduce
6.1.1 MapReduce介绍
6.1.2 安装与配置
6.1.3 实践操作
6.1.4 小结
6.1.5 课后习题
6.2 Spark
6.2.1 Spark介绍
6.2.2 RDD
6.2.3 安装与配置
6.2.4 实践操作
6.2.5 小结
6.2.6 课后习题
第7章 实时计算