1.2 基本概念
类别不平衡就是指在分类任务中不同类别的训练样本数目差别很大的情况。不失一般性,我们可以假设训练集中只包含两类样本,即待处理的分类问题为二分类问题,同时,为了保证更好的可视化效果,不妨设每个样本均具有两个特征。图1-2给出了平衡样本集及不平衡样本集的对比效果,其中:平衡样本集中两类各有500个样本,类别1样本在特征1的[0,0.7]取值区间及特征2的[0,1]取值区间上分别服从均匀分布,而类别2样本在特征1的[0.5,1]取值区间及特征2的[0,1]取值区间内服从均匀分布;不平衡样本集同样包含1000个样本,但类别1被分配900个样本,而类别2仅有100个样本,其各自的分布与平衡样本集完全一致。
图1-2 平衡样本集与不平衡样本集的对比效果
(a)平衡样本集分布;(b)不平衡样本集分布
从图1-2中不难观察到一个有趣的现象,即仅从视觉效果来看,在平衡与不平衡训练集上,两类样本具有完全不同的分割位置,即表明它们的分类边界不同。但据我们所知,在这两个训练集上,同类样本的分布是完全一致的。那么,这难道仅仅是由于人类视力的缺陷而引起的错觉么?事实却非如此,因为绝大多数传统的分类算法都犯了和人类眼睛同样的错误。
众所周知,尽管传统的分类算法在构造机理上各不相同,但却几乎均遵循一个共有的原则,即训练误差最小化原则。在平衡训练集上,采用训练误差最小化原则无疑会得出最优结果,而当训练集为不平衡时,若仍然坚持采用这一原则则会产生严重后果。回顾图1-2(b),可清晰地观察到两类样本在特征1的[0.5, 0.7]取值区间内相互交叠,且在这一区间内类别1(多数类)的样本个数远多于类别2(少数类),若采用训练误差最小化原则,则处于此区间内的少数类样本均会被误判,导致少数类的分类精度远低于多数类,从而致使所训练分类模型的质量大打折扣,甚至完全失效。这便是类别不平衡问题对传统分类算法所提出的挑战。
在类别不平衡问题中,人们习惯将包含样本数较多的类别称为负类(negative class),而将样本数较少的类别称为正类(positive class)。此外,另一个较重要的概念为不平衡比率(imbalanced ratio, IR),它的值为负类样本数与正类样本数之比。通常,IR值越大,其对传统分类器性能的危害也会越大。考虑一个IR值为99的训练样本集,若在构造分类器时,将所有的正类样本均误判为负类,其分类精度仍可达到99%,而这样的精度对于建立在训练误差最小化原则之上的传统分类算法而言,是绝对可以接受的,但这样的分类模型又有什么用呢?
根据不同的划分标准,类别不平衡问题也可被分为多个不同的类别,具体分类标准如下:
(1)以类别数作为划分标准,可将类别不平衡问题划分为一类不平衡问题[18]、二类不平衡问题及多类不平衡问题[19],[20]。其中,二类不平衡问题在实际应用中最为常见,目前研究得也最为充分;多类不平衡问题相对最为复杂,目前仍是该领域的研究热点与难点;而一类不平衡问题则独树一帜,目前已有多种有效的解决方案。
(2)以IR值作为划分标准,可将类别不平衡问题划分为轻度不平衡问题和极度不平衡问题[21]。其中,前者的IR值较小,对传统分类器性能的影响强度也不大,而后者则会对传统分类算法构成较大威胁,极端情况下会令其完全失效。
(3)以作用范围作为划分标准,可将类别不平衡问题划分为类内不平衡问题与类间不平衡问题。其中,前者又被称作类内子聚集或小析取项问题,其主要是由同类样本在特征空间分布不均所致,而后者则被视为传统意义上的类别不平衡问题。上述二者既有区别,又相互关联,当二者共同出现时,将为学习任务制造更多的困难[22],[23]。
除上述概念外,读者还有必要弄清类别不平衡学习与代价敏感学习之间的区别与联系[24]。实际上,上述二者是两个完全不同的概念,在机器学习领域也分属两个完全不同的分支。在代价敏感学习中,代价的定义往往分多种,包括误分代价、测试代价、查询代价、样本代价、计算代价等。仅当考虑误分代价时,代价敏感学习才能与类别不平衡学习建立起联系,并被用作类别不平衡学习方法使用。因此,读者不要混淆上述两类学习方法的概念。