延伸阅读
目前有多种不同的视角和观点研究机器学习。例如,可以从概率图角度来看待机器学习,可以从统计角度来讨论机器学习,还可以从神经网络的观点来阐述机器学习,也可以调和以上各派观点来阐述机器学习。客观地说,上述观点都有一定道理,但是也有一个共同而重要的缺陷,那就是没有给出一个统管一切学习(包括机器、人类和生物)的理论。这正是Jordan和Mitchell在2015年在Science上发文指出的,机器学习所关注的两大问题之一:是否存在统管一切机器、人类和生物的学习规律。本书将致力于解决这一个问题。为此,本书采取了不同于以往的观点,从知识表示这一角度来阐述机器学习,并以此为出发点对现在的机器学习方法进行统一研究。
本书的基本出发点是,每个机器学习算法都有自己的知识表示。如果数据中含有的知识不适合特定机器学习算法的知识表示,期望这种机器学习算法能够学到数据中含有的知识并不现实。因此,知识表示对于机器学习至关重要。但是,众所周知,经典的知识定义是柏拉图提出的,在2000多年的时间里未受到严重的挑战。直到1963年,盖梯尔写了一生唯一的一篇三页纸论文。这短短的三页纸使盖梯尔成为哲学史上绕不过去的人物,改变了盖梯尔的命运,也改变了知识论的发展进程。这三页纸中提出的盖梯尔难题直接否定了经典的知识定义。其直接后果是到目前并没有一个统一的知识定义,更不用说知识的统一表示。因此,暂时放弃知识的整体研究,而致力于知识的基本组成单位研究也许是一条更为可行的路径。本书即是这样的一个尝试和努力。
注意到知识的最小组成单位是概念,而目前的机器学习主要关注于从数据中提取概念。因此,研究概念的表示也将有助于机器学习的研究。正是从这一点出发,本书以一种统一的方式研究了常见的机器学习算法,如密度估计、回归、数据降维、聚类和分类等。
当然,机器学习的发展不仅与知识表示直接相关,也与最优化、统计等密切相关。历史上,计算机、数学、心理学、神经学、生物信息学、哲学等很多学科都曾极大地促进了机器学习的发展。未来是否还有其他学科对机器学习有重要影响,也是一个有趣的话题。
最后,稍微讨论一下与机器学习相关的学习、研究资料。目前,机器学习的发展方兴未艾,特别是学习算法的研究成果日新月异。除了已经列入参考文献的部分经典著作外,还有很多有影响的学术会议、学术期刊和网络资源等,如机器学习相关学术会议ICML、NIPS、COLT,学术期刊TPAMI和JMLR,网络资源http://videolectures.net/,有兴趣的读者可以自行查阅。