1.4 应用领域
类别不平衡学习技术并不仅仅停留在理论上,在很多现实世界的应用领域中,都会用到此类技术。其应用领域包括但不限于以下几方面。
1.网络入侵检测
目前,随着互联网产业的快速发展,人类的日常生活和网络的联系也变得日益紧密。每天,有不计其数的服务器、计算机以及移动设备在彼此通过互联网传输海量的数据。这些数据中的绝大部分都是健康可用的,然而其中也包括了一小部分的恶意攻击程序,包括病毒、蠕虫、木马、后门、广告插件以及黑客程序等。网络入侵检测系统(intrusion detection system, IDS)的任务就是要准确高效地检测到这些恶意攻击程序,并将其隔离或删除,以避免其对设备造成损害。然而,在我们训练一个IDS系统时,所收集的训练数据往往是极度不平衡的,正常的数据包往往远多于异常的数据包,若不考虑不平衡性而直接训练分类器,则系统会基本丧失防护的功能[62]。因此,一个准确可靠的IDS系统对类别不平衡学习技术是具有较强依赖性的。
2.信用卡欺诈检测
近年来,随着经济的发展与世界各国经济市场的逐步放开,各国政府都在积极推动各种有关金融自由化与国际化的措施,导致国内外信用卡市场不断成长,以信用卡为媒介的行为不断激增,逐步成为支付领域的主要媒介。然而,在每天海量的信用卡交易记录中,都会存在少量的欺诈记录,如身份信息欺诈、伪造卡、卡丢失或卡被盗等。对上述欺诈行为的识别实际上是可以依赖计算机程序的。但考虑到欺诈行为在全部记录中只占有很小一部分比例,故应将其视为一个类别不平衡问题,否则检测程序会完全失效[63]。
3.异常行为检测
所谓异常行为,从广义上来讲,即指代不同于主体正常活动的行为,在此,主体可以是人,也可以是物。举例来说,对于一个用于安防的视频监控系统而言,如视频中出现了打架、抢劫、晕倒、丢包等行为,可以将其视为异常行为;而若对于一台设备而言,如出现设备故障,也可以将其视为异常行为。在全部行为活动中,异常行为通常占绝对少数,故需在异常行为检测系统中考虑类别不平衡因素的影响,否则会导致很多的异常行为被漏检,从而导致检测系统失效[64]。
4.垃圾邮件过滤
电子邮件是使用最为广泛的互联网产品之一,是人们日常工作和生活的交流工具,它正在发挥着越来越重要的作用。与此同时,垃圾邮件的出现破坏了和谐的网络文明,浪费了互联网资源和网民的时间,已经引起了社会各界的高度关注。为有效缓解垃圾邮件的负面影响,垃圾邮件过滤系统应运而生。但对于绝大多数网民而言,其每天接收的正常邮件数量通常要远少于垃圾邮件的数量,故在设计垃圾邮件过滤系统时,要考虑到类别不平衡因素的影响,否则会导致部分正常邮件被误判为垃圾邮件,从而可能给用户造成无法估量的损失[65]。
5.文本分类
众所周知,文本是人类独有且最为常用的一种信息传输载体。近年来,随着互联网产业的快速发展,特别是随着推特、微博、论坛、社交网络及购物网站等互联网工具的迅速普及,产业界对文本处理与分析技术的需求也正变得日益迫切。作为文本处理与分析技术的重要组成部分,文本分类技术目前也经常会受到类别不平衡问题的困扰[66]。如能有效消除类别不平衡因素的影响,则文本分类技术也将有望在情感判别、舆情分析及推荐系统等应用中发挥出更加重要的作用。
6.医学诊断
相信很多人都有在医院就诊的经历,那么不知大家是否已经注意到这种经历在最近数年所悄然发生的变化呢?是的,这种变化是由医学技术,或者说是医学检测技术的进步而引发的。如今,对于就诊者,医生通常不会再武断地给出诊断结果,而是更多地依赖各种医学检测设备的反馈结果来做综合判断。由于各类检测指标均可被数字化,故也可训练一个类似于医学专家系统的疾病诊断程序来为就诊者服务。然而,考虑到各类疾病在出现频率上的差异性,则在样本采集时就不得不考虑类别不平衡因素的影响,否则可能会造成较多的医疗事故,直接危害到很多病人的健康与生命[54]。
7.生物信息学
生物信息学也是饱受类别不平衡问题困扰的应用领域之一[12],[67]。举例来讲,从氨基酸序列所翻译的具有不同结构和功能的蛋白质可能在数量上存在较大差异,又如在药物分子的活性检测数据中,非活性位点的数量也通常要远多于活性位点的数量。从上述两例不难看出,生物信息学研究需要依赖类别不平衡学习技术,唯有如此才能得到真实可靠的实验结果,为加速生物学的发展提供有力的保障。
除上述应用领域外,类别不平衡学习技术还已在软件缺陷检测[68],[69]以及基于遥感图像的目标识别[70]等领域得到了具体的应用。在不久的将来,类别不平衡学习技术的应用领域还有望进一步得到扩展,建议读者可根据自身实际需求来判断是否需要采用该技术。