1.5 本书主要内容及安排
本书将完全围绕类别不平衡学习问题展开,具体内容及章节安排如下:
第1章:本章简要概述了类别不平衡学习的基本概念、常用技术及相关的应用领域,使读者可以对该问题建立起基本认识,为后续的学习打下基础。
第2章:在本章中,首先,以三种不同分类器为例从理论上解释了为何要进行类别不平衡学习;然后,从样本分布的角度探讨了影响类别不平衡学习效果的几个因素;最后,简单介绍了几种用于评价类别不平衡学习算法性能的测度。
第3章:本章详细阐述了样本采样技术的基本思想,回顾了其发展历程,并介绍了几种常用的样本采样算法,其中,着重描述了一种启发式的降采样算法——蚁群采样(ACOSampling)算法,并给出了一些样本采样算法的实验比较结果。
第4章:在本章中,首先,阐述了代价敏感学习技术的基本思想;然后,分别给出了二类与多类问题中的经验代价分配原则;接下来,从先验分布估计的角度阐释了样本个性化代价权重设置的必要性,并分别以支持向量机和极限学习机两类分类器为例,描述了其对应的模糊代价敏感加权算法;最后,给出了多种算法的实验比较结果。
第5章:在本章中,首先,解释了何为决策输出补偿技术;继而,着重描述了几种现有的决策输出补偿算法,指明补偿值的确定问题为影响该技术性能的关键所在;最后,提供了多种相关算法的实验比较结果。
第6章:本章简要介绍了两种常用的集成学习框架——Bagging及Boosting,进而分别在上述框架下着重描述了几种具有代表性的类别不平衡学习算法,并给出了实验的比较结果。
第7章:本章主要分为两个部分,第一部分介绍如何利用主动学习来解决类别不平衡问题,第二部分将探讨类别不平衡问题如何对主动学习的性能产生影响及对应的解决方案。
第8章:本章针对类别不平衡问题中的一种极端情况,即训练集只包含一类样本的场景,展开探讨。主要介绍了一类分类技术的基本思想,并描述了几种常用的一类分类算法,给出了多种算法的实验比较结果。
第9章:本章重点关注了样本分布对分类算法的危害问题,并详细描述了两种用于预评估类别不平衡危害性的测度——几何可分性测度及留一交叉验证测度,给出了实验验证结果。
第10章:本章将从笔者的角度对类别不平衡学习技术现有的挑战做出总结并对未来的发展方向及前景做出归纳与展望。