3.5 实验结果及讨论
3.5.1 数据集描述及参数设置
为验证各类采样算法的有效性,并比较它们之间的性能,本章实验采用了4个基准的不平衡DNA微阵列数据集,分别为结肠癌(Colon)数据集[29]、中枢神经系统(CNS)数据集[30]、肺癌(Lung)数据集[31]以及胶质瘤(Glioma)数据集[32]。特别需要指出的是,前3个数据集均含有两个类别,而胶质瘤数据集则包含有4个亚型:癌症恶性胶质瘤(CG)、非癌症恶性胶质瘤(NG)、癌症少突神经胶质瘤(CO)及非癌症少突神经胶质瘤(NO)。在本章实验中,以CG(含14个样本)作为正类,而将其他3类的36个样本视为负类。有关这4个数据集的详细描述信息如表3-1所示。
表3-1 本章实验所用数据集
由于实验所采用的数据集均具有高维小样本的特点,故首先采用信噪比(signal-to-noise ratio, SNR)[33]的方法进行特征选择,将每个数据集的特征降到100维。实验比较了分类器在未经采样的原始数据集(original data set, ORI),及分别经ROS、RUS、SMOTE、BSO1、BSO2、OSS、ADA-SYN、SBC及ACOSampling等样本采样算法采样后的数据集上的分类性能。为实验比较方便,对于ROS、RUS、SMOTE、BSO1、BSO2、ADA-SYN及SBC等采样算法,采样率均保持绝对平衡,即SR=IR-1。而对于各算法中的其他参数,均使用相关文献中给出的默认参数。分类算法选用的是基于高斯径向基核函数的SVM分类器。SVM分类器及ACOSampling算法中的初始参数设置如表3-2所示。
表3-2 ACOSampling算法与SVM分类器中的初始参数设置
此外,本章实验采用了四种常用的分类性能评价测度:Acc、F-measure、G-mean及AUC。为尽量保证实验结果不受随机因素的干扰与影响,实验结果均以10次随机3折交叉验证的均值±标准差的形式给出。
3.5.2 结果与讨论
各类采样算法的实验结果如图3-12及表3-3所示。从这两个图表可以看出,对于不平衡分类问题而言,样本采样技术确实可有效提升其分类质量,在上述四个数据集上,这种质量的提升不仅体现在F-measure、G-mean及AUC等三个类别不平衡学习专用评价测度上,而且也体现在了Acc测度上。
图3-12 各种采样算法在4个数据集上的性能比较
(a)结肠癌数据集;(b)中枢神经系统数据集;(c)肺癌数据集;(d)胶质瘤数据集
单纯对比RUS与ROS算法,前者要略好于后者。究其原因,不难发现:本章实验所采用数据集的类别不平衡比率均相对较低,即类别不平衡问题体现得并不严重,因此其可能对RUS算法的性能不会产生较大影响。相反,ROS则可能会表现出一定程度的过适应现象,这可从SMOTE算法几乎全方位优于ROS算法的结果体现出来。而当对比三种改进的SMOTE算法(BSO1、BSO2与ADA-SYN算法)与原始的SMOTE算法时,我们发现:在大多数情况下,前者比后者在性能上均有或多或少的提高,从而证明了各种改进思路的正确性。进一步,对比两种改进的降采样算法(OSS及SBC算法)与RUS算法的性能,可以观察到:OSS算法要普遍优于RUS算法,而SBC算法则没有体现出足够的优势。最后,从实验结果中还可以看出,作为一种自适应的降采样算法,ACOSampling算法仅在Colon数据集和CNS数据集的Acc测度上略低于ADA-SYN算法,并在CNS数据集和Glioma数据集上略低于BSO1算法,这也体现出了该算法的巨大优势。当然,这种优势是通过消耗更多的时空资源获取而来的。
表3-3 各类采样方法在4个数据集上的性能比较结果