2.2 类别不平衡学习的影响因素_类别不平衡学习：理论与算法-QQ阅读男生科幻网

上QQ阅读APP看书，第一时间看更新

2.2 类别不平衡学习的影响因素

从2.1节的理论分析可以看出，类别不平衡分布是会对各种传统分类算法的性能产生负面影响的。然而，这种负面影响的大小却与很多因素有关，具体包括以下几方面[8-10]。

1．类别不平衡比率

如前所述，在不平衡分类问题中，类别不平衡比率（imbalanced ratio, IR）是一个较为重要的概念，其具体可表示为多数类样本数与少数类样本数的比值，即IR=N-/N+。一般而言，IR值越高，其对分类器的负面影响往往也越大，如在朴素贝叶斯分类器中，若P（c_）与P（c+）的差值越大，则显然分类面就会越偏向于少数类区域；在支持向量机分类器中，IR值越大，少数类错误率的上限也会随之越大；而在极限学习机中，IR值越大，其在交叠的致密区域中的子类别不平衡比率S也可能会越大，从而导致少数类样本被误分的概率更高。为了更清晰地向读者展示类别不平衡比率的影响，这里仍以图1-2（b）为例，分别给出了在IR=9及IR=90时的样本分布图，具体如图2-5所示。

图2-5 IR=9及IR=90的样本分布

（a）IR=9;（b）IR=90

从图2-5不难看出，不同的类别不平衡比率对分类器的危害程度是不一样的。因此，在进行类别不平衡学习时，要考虑到类别不平衡比率的影响。实际上，在很多实际的类别不平衡学习任务中，其类别不平衡比率均可达到100以上，甚至达到10000。

2．重叠区域的大小

然而，是不是只要类别不平衡比率高，就会对传统分类器的性能产生较大危害呢？事实并非如此，我们还有必要考虑样本的其他分布因素，其中，不同类样本的重叠区域大小也会对分类性能产生较大影响。所谓重叠区域，即是指不同类样本在属性空间的交叠区域。图2-6刻画了两个具有相同IR值，但重叠区域大小不同的不平衡样本集的样本分布情况。

图2-6 两个具有相同IR值，但重叠区域大小不同的样本集的样本分布示意图

（a）大重叠区域；（b）小重叠区域

从图2-6可以看出，两类样本在图2-6（a）所刻画的分布中具有较大的重叠区域，而在图2-6（b）中则具有清晰的间隔。那么，显而易见，尽管两种分布均具有相同的IR值，但在图2-6（b）中，更易于找到一个将两类样本完全正确分类的划分超平面。实际上，前人研究已经发现：在不平衡分类任务中，不同类样本的重叠区域越大，则对传统分类器性能的影响也会越大，而若不同类样本在属性空间中可清晰地分开，则对传统分类器性能的影响将是十分有限的，2.1节的理论证明部分也充分地表明了上述观点的正确性。

3．训练样本的绝对数量

在类别不平衡学习任务中，训练样本的绝对数量，也就是训练集的规模，也会对分类器的性能产生较大影响。这一问题并不难理解，其实即使是在类别平衡的学习任务中，若训练样本规模过小，也会大幅降低分类器的训练精度。因为在小样本数据集上，难以通过统计学方法获取样本的真实分布，即使统计得到一个分布特征，距真实分布的偏差也会较大，从而造成最后学习的结果不准确。不过，在类别不平衡问题中，这一因素的影响又被进一步放大了，可以想象：在训练样本总数本身就不足的情况下，少数类样本的分布必将更加稀疏，从而只能体现出一定的随机性，而完全无法从中观察到其真实分布的情况[11]。图2-7给出对应图示，对该因素的影响加以直观说明。

图2-7 两个具有相同IR值，相同重叠区域大小，但训练样本规模不同的样本集的样本分布示意图

（a）训练样本充足；（b）训练样本稀疏

从图2.7中不难看出，尽管两个子图中的样本来源于完全相同的分布，且IR值与重叠区域的大小也完全相同，但从图2-7（a）能够清晰看出样本的分布情况，而在图2-7（b）中，样本的分布形状并不清晰，尤其是少数类样本，由于分布过于稀疏，已完全看不出具体的分布情况。由此可知，在类别不平衡学习任务中，训练样本的绝对数量越少，其学习可能越不充分，所训练的分类面的偏差也可能越大。

4．类内子聚集现象的严重程度

类内子聚集，也被称作类内不平衡或小析取项，通常指代少数类样本中出现两个或者多个概念，且概念有主次之分的情况。图2-8给出了一个少数类出现类内子聚集的示例。

图2-8 类内子聚集示意图

从图2-8中不难看出，在特征空间中，少数类样本分别被聚集到了两堆，大部分样本服从特征1取值为[0.6,1]、特征2取值为[0,1]的均匀分布，还有少部分样本服从特征1取值为[0,0.2]、特征2取值为[0,0.4]的均匀分布。显然，上述第一个分布描述了少数类样本的主概念，而第二个分布则描述了次概念。少数类样本本就受到类间不平衡因素的影响，若再存在类内不平衡现象，而需分类器同时学习多个概念，则必然会加剧分类算法的学习难度，而进一步降低少数类的分类精度。

5．噪声样本的比率

噪声样本的比率通常也是影响类别不平衡学习性能的一个重要因素。所谓噪声样本，主要是指那些不符合同类样本分布的样本，它们在属性空间中通常是以离群点的形式存在。若这些噪声样本恰好出现在了其他类样本的决策区域，则会对其他类样本的决策造成危害。对于不平衡分类问题而言，多数类中的噪声样本比率只要偏高，便可严重损害到少数类的分类精度，而少数类噪声样本的比率即使很高，对多数类所造成的危害也将是十分有限的。上述问题可通过图2-9加以说明。

图2-9 多数类及少数类分别含有较高比例噪声样本的分布情况

（a）多数类噪声；（b）少数类噪声

从图2-9可以看出，对于不平衡分类问题而言，若多数类中含有较高比例的噪声样本，则可能会极大地降低对少数类样本判别正确的可能性，而若少数类噪声样本的比例偏高，则往往会湮没在多数类样本之中，不会对后者的性能产生多少负面影响。故在类别不平衡数据中，噪声样本对于多数类与少数类的危害性往往是不对称的。因此，较高的噪声样本比率往往会加大类别不平衡学习的难度[12]。

除上述影响因素外，样本的维度，即样本的属性数的多少也会对类别不平衡学习的性能产生影响。对于高维的不平衡分类问题而言，常规的做法是先对训练集进行降维处理，然后再在低维的样本空间中调用类别不平衡学习方法进行训练[13],[14]。

我们也采用真实分类器检测了三个最重要的因素，即类别不平衡比率IR、重叠区域大小及训练样本的绝对数量对其分类边界的影响，以使读者能够对该问题有更深入的理解。考虑到在真实世界应用中，同类样本通常近似呈高斯正态分布，故在本例中，我们采用随机高斯函数来生成符合正态分布的虚拟样本集。此外，为了有更好的可视化效果，我们将虚拟样本的维度固定为两维，即每个样本由两个属性组成。这里分别采用μ+和μ-表示正类与负类样本的均值，而以σ来表示两类样本分布的标准差。为方便起见，σ的取值被固定为0.3。分类器采用极限学习机，其中，隐层节点数L及惩罚因子C均固定为10，激活函数选用Sigmoid函数。另外，在测试过程中，每测试一个参数，均固定另外两个参数的取值，默认参数为μ+=0.7, μ-=0.3, IR=10∶1，训练样本绝对数为1100。分类面随各参数取值的变化趋势如图2-10所示。

图2-10 极限学习机分类边界随重叠区域大小、类别不平衡比率及训练样本绝对数量的变化趋势图

（a）随重叠区域大小的变化；（b）随类别不平衡比率的变化；（c）随样本绝对数量的变化

从图2-10中不难看出，上述各参数均与分类器性能存在着较为密切的联系，当某一参数的取值相对极端时，甚至会造成少数类样本完全被错分，分类模型完全失效。而上述每个实验还仅仅是考查了一个因素的影响，若将各因素综合考量，则将是一个非常复杂的问题。