前言
随着数据生成与收集技术的快速发展,如今每天在各行各业的服务器中都会新增海量的数据,这就迫使我们不得不大跨步地迈入“大数据”时代。在很多领域(尤其是商业和科研领域)的从业人员眼中,大数据犹如一座未开采的宝矿,内中裹有取之不尽的财富。而机器学习与数据挖掘技术就是那柄能开山凿路、攫取财富的“利剑”。
近年来,在产业界与学术界的双重关注下,机器学习与数据挖掘技术得到了飞速的发展,且在不断面向新应用与新挑战时,衍生出众多的新分支。类别不平衡学习便是这众多分支之一,其在机器学习与数据挖掘领域备受瞩目,很多业内主流的会议与期刊都曾以此为题举办过专刊或研讨会,如AAAI'00, ICML'03, ACM SIGKDD Explorations Newsletter'04以及PAKDD'09等。在ICDM'05会议上,类别不平衡问题更是被列为数据挖掘领域待解决的十大挑战性难题之一。
所谓类别不平衡问题,顾名思义,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致传统的分类模型失效的问题。通常,将用于解决上述问题的算法称为类别不平衡学习算法。类别不平衡学习有着较为广阔的应用范围,如文本分类、网络入侵检测、信用卡欺诈检测、工业故障检测、软件缺陷检测、石油泄漏检测、医学诊断、药物筛选及生物信息学等。故对这一技术展开深入研究不但具有理论意义,而且还有着广泛的应用价值。
本书主要对类别不平衡学习的基本概念、基础理论及主流技术与算法展开介绍。全书共10章,大体上可分为以下3个部分:第1部分包括第1,2章,介绍类别不平衡的基本概念和基础理论;第2部分包括第3~9章,主要介绍一些用于解决类别不平衡问题的基础技术与前沿算法;第3部分为第10章,从笔者的视角对该技术未来的发展方向和应用前景做出了评述与展望。特别需要说明的是,由于此领域文献众多,初入此领域者难免会有该选读何种文献的困惑,故笔者已将一些重要及经典的文献列出,并加以说明,置于每章后面的文献导读部分。
在此,向那些为本书出版工作提供帮助的人表达谢意。首先,感谢东南大学自动化学院的博士后合作导师孙长银教授,在东南大学做博士后的几年时间里,孙老师给了我充分的自由度,使我能安心于自己的研究课题,本书很多内容都是在这段时间研究完成的。此外,江苏科技大学的高尚教授、杨习贝副教授、王平心副教授、左欣副教授、邵长斌、郑尚、秦斌、徐丹、鞠恒荣、洪淑芳、袁玉龙、杨菊、李青雯、席晓燕,东南大学的杨万扣副教授、刘金花、姚乔兵,天津大学的穆朝絮老师以及美国爱荷华大学的倪军副教授等均在本书出版过程中给予了支持与帮助,在此一并表示感谢。
其次,感谢国家自然科学基金(No.61305058)、江苏省自然科学基金(No. BK20130471)、国家博士后特别资助计划项目(No.2015T80481)、国家博士后基金(No.2013M540404)、江苏省博士后基金(No.1401037B)、江苏省教育厅高等学校自然科学研究项目(No.12KJB520003)及江苏科技大学“深蓝学者”计划培养基金对本课题研究工作及本书出版工作所提供的经费支持。
笔者深知自己才疏学浅,对类别不平衡学习技术仅可做到管中窥豹,且鉴于时间与精力有限,成稿仓促,书中难免会有错误与疏漏之处,望读者不吝指出,笔者将不胜感激。
笔者
于江苏科技大学