2.2 过滤法Filter
可以看到包裹法没有对要剔除掉的特征作出解释,对其他特征的剔除只是因为它们会影响泛化性能。过滤法更多来自于数学,有着较高的可解释性。具体的过滤又可以分为有监督的过滤和无监督的过滤,前者需要利用数据的目标值,后者则完全不需要,所以我们一般采用有监督的过滤来找出无关特征,采用无监督的过滤来找出多余特征。
我们用简单的皮尔逊相关系数(Pearson Correlation Coefficient)来解释过滤法的应用,皮尔逊相关系数被定义为变量的协方差与标准差的比:
定义2.1 假设两组随机变量X,Y均为实数,均值分别为,它们的协方差被定义为:
两组相同变量的协方差就是该变量的方差。可以看出,如果变量同时比自身平均值增大或者减小,也就是说两个变量有着相同的变化趋势,协方差将为正,否则为负。
从协方差的定义2.1,可以看出皮尔逊相关系数可以刻画两组变量之间的线性关系,它的取值介于[-1,1],1代表正的线性相关,-1代表负的线性相关,当等于零的时候,代表线性无关(不代表独立)。
通过皮尔逊相关系数,我们可以画出相关性矩阵,如果特征与特征的相关系数为1,那么就代表着一定出现了多余特征,如果特征与目标值的相关系数为零,那么可能是无关特征。
皮尔逊相关系数在面对为零的情况,就无法作出可靠的判断,我们还会使用互信息(Mutual Information)的办法,假设有两组随机变量X,Y,互信息就被定义为:
这只是离散变量的情形,连续变量要求将求和变为积分。如果两组变量存在相关性,那么当一个变量确定下来,另一个变量不确定度就会减少,互信息度量的就是这种减少的程度。可以看到p(x,y)为两种变量的联合分布,当两组随机变量互相独立就有p(x,y)=p(x)p(y),使得互信息为零,一个变量的确定不会对另一个变量产生任何影响。
互信息的值越大代表着这种不确定减少的程度越大,如果特征与特征的互信息越大,那么就可能代表着多余特征的出现,如果特征与目标值的互信息很小,那么可能是无关特征。至于多大才算大、多小才算小,还要根据具体任务而定,皮尔逊相关系数也是一样。