统计学习必学的十个问题:理论与实践
上QQ阅读APP看书,第一时间看更新

前言

人工智能技术广泛出现在各个应用场景中,包括人脸识别、语音识别、机器对话、推荐系统等方面,其背后离不开数据的增加和算力的增强。统计学习和深度学习作为人工智能技术的两大核心也日益受到人们的关注,虽然目前现阶段的人工智能和真正的“智能”无法相提并论,但理解和掌握统计学习和深度学习知识会让我们更加接近“通用智能”的理想。

关于人工智能的书籍浩如烟海,大部分人已经对于大部头的书籍望而生畏,但又希望获得体系化的知识,而本书有两个重要的特点:

1.更强调对理论的深入理解。针对性地选择了20个主题,希望可以解决很多人面临的困境——不满足于知识堆砌,想达到体系化的理解。例如,对于大多数书直接引入的sigmoid和softmax函数,本书会介绍其背后隐藏的广义线性模型;大多数书直接引入的正则化作为过拟合的常用手段,本书会介绍其与极大后验估计的关系……

2.用代码实践结合理论讲解。采用了算法理论和代码实践相结合的方式,代码实践提供了算法实现的某一种或者某几种方式,其目的主要是用来更好地理解算法。在这里,算法和代码的关系,更像是理论与实践的关系,我们用实践来帮助大家更好地理解理论。

本书包含机器学习的基础知识和统计学习模型,分为10章。第1章将过拟合问题结合VC维作为机器学习的基础概念进行讲解,并提供参数模型中防止过拟合的一般方法;第2章提供机器学习的手动特征选择的办法;第3章、第4章从最简单的线性模型出发经过概率统计的解读来得到分类和回归算法;第5章讨论不依赖于假设分布的非参数模型;第6章将核方法作为一种非线性拓展的技巧,介绍如何将该方法应用到很多算法中,并且引出了著名的高斯过程;第7章以混合高斯作为软分配聚类的代表性方法,来引出著名的EM算法;第8章讨论了机器学习的集成算法;第9章介绍的线性和非线性降维方法将会解决维度灾难问题,并且不同于单纯的特征选择;第10章讨论不依赖于独立同分布假设的时间序列算法。

人工智能的发展太过迅速,本书只是广阔无边大海里的一艘小船。学问广袤无际,做学问更要勤勉躬亲,作者深知诠才末学,书中难免错漏谬言,希望读者指正和交流,感激不尽。

编 者

2021年5月