第3章 样本采样技术
3.1 样本采样技术的基本思想及发展历程
如前所述采样技术是一种数据层的处理方法,它通过修正数据集的方式来平衡训练样本的类分布,以达到修复分类结果的目的。严格来讲,采样可被视作一种数据预处理技术,其最为突出的优点即是与后期选用何种分类算法无关。实际上,因其简便性,采样也是在类别不平衡学习领域中应用最为广泛的一项技术,在面向实际应用问题时,人们首先会考虑采用此技术。
根据采样时所针对样本类别的不同,样本采样技术可大致分为以下三类:①降采样技术,该技术针对的是多数类样本,通过删除该类中部分样本的方式来达成训练集的类分布平衡;②过采样技术,该技术针对的是少数类样本,通过为此类补充一定样本的方式来谋求训练集的平衡;③混合采样技术,该技术针对的是每类样本,即通过结合过采样与降采样的方式来寻求训练集平衡,对于极端不平衡的数据而言,此类技术通常较为有效[1]。
在样本采样技术中,还有一个较为重要的概念,那就是采样率(sampling rate, SR)。假设某二类不平衡样本集中共有N个训练样本,其中包括N+个少数类样本与N-个多数类样本,N=N++N-。则对于过采样而言,其需生成的少数类样本为N+× SR个,而对于降采样而言,其需移除的多数类样本则为N-× SR/(SR+1)个。特别需要指明的是,SR的取值范围通常在(0, IR-1]之间,当SR=IR-1时,可保证采样后的样本集达到完全平衡,即N+=N-。
接下来回顾一下样本采样技术的发展史。可以说,自20世纪90年代末起,样本采样技术一共经历了以下三个主要的发展阶段:
第一阶段(1997—2001年):在该阶段,随机采样技术开始流行,人们尝试去初步探索了类别不平衡问题的本质,并观察到了样本采样技术的有效性。
第二阶段(2002—2008年):在这一阶段,随机采样技术的缺点被发现并不断放大,取而代之的是人工采样技术。人工采样技术既可在一定程度上缓解随机降采样所带来的重要分类信息缺失问题,又可以避免随机过采样所导致的过适应问题。
第三阶段(2009年至今):在这一阶段,一些更为复杂的样本采样算法被陆续提出,人们开始注意到优化算法及集成学习算法在克服传统采样算法弱点方面的优势,同时也注意到在采样时保持样本原始分布的重要性。
下面,将分别从上述三个发展阶段,选出一些有代表性的样本采样算法,对其核心思想、算法流程及优缺点做详细说明与评述。