模式识别与智能计算:Matlab技术实现(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 特征空间优化设计问题

如何确定合适的特征空间是设计模式识别系统中一个十分重要,甚至更为关键的问题。如果所选用的特征空间能使同类物体分布具有紧致性,即各类样本能分布在该特征空间中彼此分割开的区域内,这就为分类器设计成功提供良好的基础。反之,如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。

在已有了特征的描述方法之后,也就是已有了一个初始的特征空间,需要对它进行改造,改造目的在于提高其某方面的性能,因此又称特征的优化问题。一般来说,对初始的特征空间进行优化就是为了降维,即初始的特征空间维数较高,能否改成一个维数较低的空间。优化后的特征空间应该更有利于后续的分类计算。对特征空间进行优化有两种基本方法:一种是特征选择,另一种是特征的组合优化。特征选择就是对原特征空间进行筛选,筛选掉一些次要的特征,构造出一个新的精简的特征空间,涉及对要识别的事物用什么方法进行描述和分析的问题;而特征的组合优化通过一种映射变换改造原特征空间,也就是说,新的每一个特征是原有特征的一个函数,使用变换的手段,在这里主要限定在线性变换的方法上,通过变换来实现降维。

1.特征选择

在模式识别中特征选择是一个重要问题,直接从样品得到的数据量往往是相当大的。例如,从一个图像中可以有几十万个数据,而一个卫星云图的数据量更多。为了对样品进行准确的识别,需要进行特征选择或特征压缩。特征选择指对原始数据进行抽取,抽取那些对区别不同类别最为重要的特征,而舍去那些对分类并无多大贡献的特征,得到能反映分类本质的特征。如果把区别不同类别的特征都从输入数据中找到,这时自动模式识别问题就简化为匹配和查表,模式识别就简单多了。对一个模式类特征选择得好与坏,很难在事先完全预测,而只能针对从整个分类识别系统获得的分类结果给予评价。

对分类器设计来说,使用什么样的特征描述事物,也就是说,使用什么样的特征空间是个很重要的问题。颜色指标对区分红灯与绿灯很有效。因为前者是红色,后者是绿色,用这个指标上的差异很容易将红灯与绿灯区分开。但是如果用颜色指标区别人脸就会困难得多。换句话说,在这种情况下,这个指标就不太有效了。

特征的选择常常面临着保留哪些描述量,删除哪些描述量,通常要经过从多到少的过程,因为在设计识别方案的初期阶段,应该尽量多地列举出各种可能与分类有关的特征,这样可以充分利用各种有用的信息,改善分类效果。但大量的特征中肯定会包含许多彼此相关的因素,造成特征的重复和浪费,给计算带来困难。Kanal.L曾经总结过经验:样品数N与特征数n之比应足够大,通常样本数N是特征数n的5~10倍。为了使特征数从多变少,需要进行特征选择,特征选择通常包括两方面内容:一方面是对单个特征的选择,即对每个特征分别进行评价,从中找出对识别作用最大的那些特征;另一方面是从大量的原有特征出发构造出少数的有效新特征,这种方法称为降维映射。

对一个具体问题来说,有以下两个不同的层次。

(1)物理量的获取与转换

这是指用什么样的传感器获取电信号,对从传感器中得到的信号,可以称为原始信息,因为它要经过加工、处理才能得到对模式分类更加有用的信号,如摄取景物要用到摄像机。文字与数字识别首先要用扫描仪等设备。手写体文字所用传感器与印刷体文字也很可能不同。这些都属于物理量的获取,并且已转换成电信号,为计算机分析打下基础。

(2)描述事物方法的选择与设计

在得到了原始信息之后,必须对原始信息进行加工,以获取对分类最有效的信息。设计所要信息的形式是十分关键的。例如,对数字的识别特征提取可以有多种方法,有的分析从框架的左边框到数字之间的距离变化反映了不同数字的不同形状,这可以用来作为数字分类的依据。另外一种方法是在每个数字图形上提取特征值,定义一个N×N模板,在本书实例程序中设定N=5,将每个样品的长度和宽度5等分,平均有25个等份,构成一个5×5模板。对每一份内的像素个数进行统计,再除以每一份的面积总数,即得特征初值,将特征初值大于20%所对应的模板置为1,取得该数字对应的特征。

对事物的描述方法是充分发挥设计者智慧的过程,这个层次的工作往往因事物而异,与设计者本人的知识结构也有关。这是一个目前还无法自动进行的过程。这个层次的工作是最关键的,但因为太缺乏共性,也不是本书讨论的内容。

2.特征优化

假设已有D维特征向量空间,Y={y1y2,…,yD},特征的组合优化问题涉及到特征选择和特征提取两部分。特征选择是指从原有的D维特征空间,删去一些特征描述量,从而得到精简后的特征空间。在这个特征空间中,样本由n维的特征向量描述:X={x1x2,…,xn},nD。由于X只是Y的一个子集,因此每个分量xi必然能在原特征集中找到其对应的描述量xi=yj

特征优化则是找到一个映射关系:

AYX

使样本新特征描述维数比原维数低。其中每个分量xi是原特征向量各分量的函数,即

xi=Ay1y2,…,yD

因此这两种降维的基本方法是不同的。在实际应用中可将两者结合起来使用,例如,先进行特征选择,指从原有的D维特征空间,删去一些特征描述量,从而得到精简后的特征空间,然后再进一步进行特征优化,或反过来操作。

要对原特征空间进行优化,就要对优化的结果进行评价,在实际应用中经常采用的评价方法是对系统性能进行测试。最主要的测试指标是识别正确率,其他指标还有识别计算速度、存储容量等。需要有定量分析比较的方法,判断所得到的特征维数及所使用特征是否对分类最有利,这种用以定量检验分类性能的准则称为类别可分离性判据。为此,人们设法从另一些更直观的方法出发,设计类别可分离性判据,用来检验不同的特征组合对分类性能好坏的影响,甚至用来导出特征选择与特征提取的方法。对特征空间进行优化是一种计算过程,它的基本方法仍然是模式识别的典型方法,即找到一种准则(或称判据),通常用一种式子表示,以及计算出一种优化方法,使这种计算准则达到一个极值。

总之,特征选择与特征优化的任务是求出一组对分类最有效的特征。有效是指在特征维数减少到同等水平时,其分类性能最佳。