机器学习:从公理到算法
上QQ阅读APP看书,第一时间看更新

讨论

回归问题在机器学习研究中具有特别重要的作用。特别是在统计机器学习中,学习问题被定义为:学习就是一个基于经验数据的函数估计问题Vapnik V N. The nature of statistical learning theory. 2nd ed. New York: Springer-Verlag. 1999.(中文版见:统计学习理论的本质.张学工,译,北京:清华大学出版社, 2000)。这是机器学习一个经典而且易懂的可操作性定义。为了方便,我们称其为机器学习的Vapnik定义。显然,在这种定义下,回归问题是最具代表性的机器学习问题。

根据本章的研究可以知道,机器学习的Vapnik定义是将学习问题当成了一种特殊的单类问题来处理。应该说,机器学习的Vapnik定义是机器学习问题的一个简化表示,特别有利于理论分析。实际上,机器学习的Vapnik定义在传统的机器学习理论分析中几乎是机器学习一个不言而喻的假定。

但是,对于单类问题来说,由于归类公理天然成立,机器学习的Vapnik定义不仅让读者不易看出学习的目的,而且忽略了学习的本质约束。比如,对于单类问题,归类公理由于天然成立自然可以无视,类相似性映射似乎也不十分重要。然而,机器学习不仅仅是单类问题。更重要的是,机器学习的Vapnik定义假设样本的输入特征和输出特征相同,这也不是所有机器学习问题都满足的假设。因此,对于机器学习公理化研究来说,机器学习的Vapnik定义并不是特别合适,甚至增大了发现机器学习公理化体系的难度。当然,这并不妨碍在算法设计方面,机器学习的Vapnik定义对于某些类型的学习算法设计特别有用,比如以前的神经网络,现在的深度学习。

在传统机器学习中,将特征分成属性特征和决策特征。如果一个学习问题,其样本集的属性特征和决策特征都已知,则为有监督学习。如果样本集的属性特征已知而决策特征未知,该学习问题为无监督学习。在传统的机器学习研究中,回归问题属于监督学习,或者有教师学习。原因是任一样本特征中,为属性特征,而为决策特征。密度估计属于无监督学习。对于多类问题,输入数据(X,U)中,X为属性特征,U为决策特征。因此,如果U已知,则该学习问题属于有监督学习;如果U未知,则该学习问题属于无监督学习;如果知道U的部分信息,则该学习问题属于弱监督学习,本书未研究这类问题。

容易知道,监督学习、无监督学习、弱监督学习的分类方式是基于机器学习的Vapnik定义。