更新时间:2022-07-28 20:16:31
封面
版权信息
内容简介
作者简介
推荐序1
推荐序2
推荐序3
前言
第1章 数据驱动程序设计
1.1 套件管理
1.1.1 基本套件
1.1.2 建议套件
1.1.3 贡献套件
1.2 环境与辅助说明
1.3 R语言数据对象
1.3.1 向量
1.3.2 矩阵
1.3.3 数组
1.3.4 列表
1.3.5 数据集
1.3.6 因子
1.3.7 R语言原生数据对象取值
1.3.8 R语言衍生数据对象
1.4 Python语言数据对象
1.4.1 Python语言原生数据对象处理
1.4.2 Python语言衍生数据对象取值
1.4.3 Python语言类别变量编码
1.5 向量化与隐式循环
1.6 编程范式与面向对象概念
1.6.1 R语言S3类别
1.6.2 Python语言面向对象
1.7 控制流程与自定义函数
1.7.1 控制流程
1.7.2 自定义函数
1.8 数据导入与导出
1.8.1 R语言数据导入及导出
1.8.2 Python语言数据导入及导出
1.9 程序调试与效率监测
第2章 数据前处理
2.1 数据管理
2.1.1 R语言数据组织与排序
2.1.2 Python语言数据排序
2.1.3 R语言数据变形
2.1.4 Python语言数据变形
2.1.5 R语言数据清理
2.1.6 Python语言数据清理
2.2 数据摘要与汇总
2.2.1 摘要统计量
2.2.2 R语言群组与摘要
2.2.3 Python语言群组与摘要
2.3 特征工程
2.3.1 特征转换与移除
2.3.2 特征提取的主成分分析
2.3.3 特征选择
2.3.4 结语
2.4 大数据处理概念
2.4.1 文本数据处理
2.4.2 Hadoop分布式文件系统
2.4.3 Spark集群计算框架
第3章 统计机器学习基础
3.1 随机误差模型
3.1.1 统计机器学习类型
3.1.2 过度拟合
3.2 模型性能评量
3.2.1 回归模型性能指标
3.2.2 分类模型性能指标
3.2.3 模型性能可视化
3.3 模型选择与评定
3.3.1 重抽样与数据分割方法
3.3.2 单类模型参数调校
3.3.3 比较不同类的模型
3.4 相似性与距离
3.5 相关与独立
3.5.1 数值变量与顺序尺度类别变量
3.5.2 名目尺度类别变量
3.5.3 类别变量可视化关联检验
第4章 无监督式学习
4.1 数据可视化
4.2 关联形态挖掘
4.2.1 关联形态评估准则
4.2.2 在线音乐城关联规则分析
4.2.3 结语
4.3 聚类分析
4.3.1 k均值聚类法
4.3.2 阶层式聚类
4.3.3 密度聚类
4.3.4 聚类结果评估
4.3.5 结语
第5章 监督式学习
5.1 线性回归与分类
5.1.1 多元线性回归
5.1.2 偏最小二乘法回归
5.1.3 岭回归、套索回归与弹性网罩惩罚模型
5.1.4 线性判别分析
5.1.5 逻辑回归分类与广义线性模型
5.2 非线性分类与回归
5.2.1 朴素贝叶斯分类
5.2.2 k近邻法分类
5.2.3 支持向量机分类
5.2.4 分类与回归树