机器学习:从公理到算法
上QQ阅读APP看书,第一时间看更新

前言

机器学习的主要目的是从有限的数据中学习到知识,而知识的基本单元是概念。借助于概念,人类可以在繁复的思想与多彩的世界之间建立起映射,指认各种对象,发现各种规律,表达各种想法,交流各种观念。一旦缺失相应的概念,人们将无法思考、交流,甚至无法顺利地生活、学习、工作、医疗、娱乐等。哲学家如卡西尔等甚至认为人类的本质特性是能够使用和创造各种符号概念。因此,如何使机器能够像人一样自动发现、运用概念,正是机器学习的基本研究内容。本书将集中讨论这个问题。

所谓的概念发现,是指从一个给定概念(或者概念集合)的有限外延子集提取对应的概念(或者概念集合)表示,又称归类问题。通过自然进化,人类可以从一个概念(或概念集合)的有限外延子集(有限的对象)中轻松提取概念(或概念集合)自身。对于人类如何处理归类问题,人们已经研究了很多年,发明了许多理论,比如经典概念理论、原型理论、样例理论和知识理论等,积累了很多的研究成果。本书借助认知科学的研究成果,提出了类的统一表示数学模型,以及与之相关的归类问题的统一数学表示。由此提出了类表示公理、归类公理和分类测试公理。据此,本书分别研究了归类结果分类、归类算法分类等诸多问题。特别需要提出的是,本书首次归纳了归类算法设计应该遵循的4条准则——类一致性准则、类紧致性准则、类分离性准则和奥卡姆剃刀准则。在理论上,任何机器学习算法的目标函数设计都遵循上述4条准则的1条或者数条。

对于具体的机器学习问题,本书依据奥卡姆剃刀准则,按照归类表示从简单到复杂的顺序,重新进行了组织。本书不仅论述了单类问题比多类问题的归类表示简单,聚类问题比分类问题的归类表示简单,单源数据学习比多源数据学习的归类表示简单,而且对于单类问题、多类问题自身的归类表示复杂度也进行了研究。在此基础上,指出单类问题包括密度估计、回归和单类数据降维等,并借助提出的公理框架以统一的方式演绎推出了在密度估计、回归、数据降维、聚类和分类等问题中常用的机器学习算法。

本书中章节的组织结构都是类似的,特别是与具体学习算法有关的章节。每章有一个简短的开篇词。如果该章是学习算法章节,该开篇词用来简要说明本章算法的主要设计思想。如果该章是理论章节,该开篇词说明该理论问题的主要目标。每章结尾有延伸阅读或者讨论,延伸阅读提供更深入的相关阅读文献,讨论说明本章的相关内容与分析或者尚未解决的问题。

作者讲授机器学习已十数年,有感于当前的机器学习算法理论依据过多过杂,同时也一直羡慕欧氏几何从五条公理出发导出所有结论的风格。撰写本书,既是将欧氏几何风格移植到机器学习的一个尝试,更是试图为机器学习与模式识别提供一个统一但又简单的理论视角。总之,机器学习公理化这个问题在本书中提出,也在本书中解决了。

于剑

2017年3月