模式识别
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

4.2 Fisher线性判别函数

Fisher 线性判别分析是R.A.Fisher于1936年提出来的方法[2]。两类的线性判别问题可以看作把所有样本都投影到一个方向上,然后确定一个分类的阈值。过了这个阈值点且与投影方向垂直的超平面就是两类样本的分类面。如何通过不同投影方向成功地将两类样本分开?

从图4-7中可以看出,按图4-7(a)所示的方向投影后,两类样本混在一起,而按图4-7(b)所示的方向投影后,两类样本很容易区分。显然,图4-7(b)所示的投影方向是更好的选择。Fisher线性判别的思想就是选择投影方向,使得投影后两类样本相隔尽可能远,同时使同一类别的样本尽可能聚集。

img

图4-7 样本投影后的区分程度比较

这里只讨论两类分类的问题。设训练样本集img={x1,…,xN},每个样本是一个d 维向量,其中第一类样本img=img,第二类样本img=img。找一个投影方向imgimg也是d维向量),投影以后的样本变为

img

(4-10)

其中,i=1,2,…,N。在原样本空间中,类均值向量为

img

(4-11)

其中,i=1,2。定义各类的类内离散度矩阵(Within-Class Scatter Matrix),即样本协方差矩阵为

img

(4-12)

总类内离散度矩阵(Pooled Within-Class Scatter Matrix)为

img

(4-13)

类间离散度矩阵(Between-Class Scatter Matrix)为

img

(4-14)

在投影后的一维空间中,两类的均值分别为

img

(4-15)

其中,i=1,2。此时,类内离散度为

img

(4-16)

其中,i=1,2。总类内离散度为img,而类间离散度就成为两类均值差的平方,即

img

(4-17)

因为人们希望寻找到的投影方向可使投影后的两类样本尽可能分开,而各类内部又尽可能聚集,所以这一目标可以表示成如下的函数。

img

(4-18)

这就是Fisher判别函数。

把式(4-10)代入式(4-16)和式(4-17)得到

img

(4-19)

以及

img

(4-20)

因此Fisher判别函数变为

img

(4-21)

应注意到,我们的目的是求使式(4-21)最大的投影方向img。由于对img幅值的调节并不会影响img的方向,即不会影响img的值。因此,可以设定式(4-21)的分母为非零常数而最大化分子部分,即把式(4-21)的优化问题转化为

img

(4-22)

这是一个等式约束下的极值问题,可以通过引入拉格朗日(Lagrange)乘子转化成以下拉格朗日函数的无约束极值问题。

img

(4-23)

在式(4-23)的极值处应满足

img

(4-24)

由此可得,极值解img应满足

img

(4-25)

假定img是非奇异的,把式(4-14)变为

img

(4-26)

其中,img的方向是由img决定的。我们要求解的是img的方向,因此可以取

img

(4-27)

这就是Fisher判别准则下的最优投影方向。

需要注意的是,Fisher线性判别函数最优的解本身只给出了一个投影方向,并没有给出我们要的决策面,想要得到决策面,需要在投影后的一维空间上确定一个分类阈值img。若不考虑先验概率的不同,则可以采用阈值img,其中img是所有样本在投影后的均值。

直观地解释,Fisher线性判别就是把待决策的样本投影到Fisher线性判别的方向上,通过与两类均值投影的平分点进行比较做出分类判别。在先验概率相同的情况下,以该平分点为两类样本的分界点;在先验概率不同的情况下,分界点向先验概率小的一侧偏移。

Fisher 线性判别并不假设样本分布,但在很多情况下,当样本维数比较高且样本数较多时,投影到一维空间后,样本接近正态分布。此时可以在一维空间中用样本拟合正态分布,并用得到的参数来确定分类阈值。