类别不平衡学习:理论与算法
上QQ阅读APP看书,第一时间看更新

2.5 文献导读

若读者初入机器学习领域,对机器学习的基础概念、理论与算法还不甚理解,建议首先学习周志华老师的《机器学习》一书[2],该书深入浅出地讲解了机器学习的相关理论与算法,所举例子生动活泼,涵盖面也较为广泛,非常适于初学者学习所用。

有关样本分布对类别不平衡学习性能的影响,Japkowicz与Stephen于2002年便进行过深入的研究,并构造了大量的虚拟样本集,利用实验测得了各影响因素的规律及强度[8]。针对此问题,Lopez等人[9]在2013年又进行了深入的探讨,并有了一些新的发现。他们强调,应充分挖掘并利用样本的内部分布特征来自适应地改善分类器的性能。关于小样本[11]、高噪声[12]及高维度[13]等影响类别不平衡学习性能的因素,前人的研究对其关注明显不够,直到最近几年才有相关成果出现。

事实上,关于ROC曲线[18]及AUC测度[17],已有很多相关理论解释,且不仅应用于机器学习领域。由于本书篇幅有限,有关上述两个测度的深入理论解释及相关用法,建议读者阅读有关文献以进一步加深理解。