2.2 过滤法Filter_统计学习必学的十个问题：理论与实践-QQ阅读男生科幻网

上QQ阅读APP看书，第一时间看更新

2.2　过滤法Filter

可以看到包裹法没有对要剔除掉的特征作出解释，对其他特征的剔除只是因为它们会影响泛化性能。过滤法更多来自于数学，有着较高的可解释性。具体的过滤又可以分为有监督的过滤和无监督的过滤，前者需要利用数据的目标值，后者则完全不需要，所以我们一般采用有监督的过滤来找出无关特征，采用无监督的过滤来找出多余特征。

我们用简单的皮尔逊相关系数（Pearson Correlation Coefficient）来解释过滤法的应用，皮尔逊相关系数被定义为变量的协方差与标准差的比：

定义2.1　假设两组随机变量X，Y均为实数，均值分别为，它们的协方差被定义为：

两组相同变量的协方差就是该变量的方差。可以看出，如果变量同时比自身平均值增大或者减小，也就是说两个变量有着相同的变化趋势，协方差将为正，否则为负。

从协方差的定义2.1，可以看出皮尔逊相关系数可以刻画两组变量之间的线性关系，它的取值介于[-1，1]，1代表正的线性相关，-1代表负的线性相关，当等于零的时候，代表线性无关（不代表独立）。

通过皮尔逊相关系数，我们可以画出相关性矩阵，如果特征与特征的相关系数为1，那么就代表着一定出现了多余特征，如果特征与目标值的相关系数为零，那么可能是无关特征。

皮尔逊相关系数在面对为零的情况，就无法作出可靠的判断，我们还会使用互信息（Mutual Information）的办法，假设有两组随机变量X，Y，互信息就被定义为：

这只是离散变量的情形，连续变量要求将求和变为积分。如果两组变量存在相关性，那么当一个变量确定下来，另一个变量不确定度就会减少，互信息度量的就是这种减少的程度。可以看到p（x，y）为两种变量的联合分布，当两组随机变量互相独立就有p（x，y）=p（x）p（y），使得互信息为零，一个变量的确定不会对另一个变量产生任何影响。

互信息的值越大代表着这种不确定减少的程度越大，如果特征与特征的互信息越大，那么就可能代表着多余特征的出现，如果特征与目标值的互信息很小，那么可能是无关特征。至于多大才算大、多小才算小，还要根据具体任务而定，皮尔逊相关系数也是一样。