2.4 使用scikit-learn_统计学习必学的十个问题：理论与实践-QQ阅读男生历史网

上QQ阅读APP看书，第一时间看更新

2.4　使用scikit-learn

我们仍然使用sklearn的diabetes数据集，比起第1章简单粗暴的处理，我们会应用特征选择的办法对这个数据集作进一步了解。首先，我们来使用皮尔逊相关系数和互信息来处理整体数据，得到每个特征对目标值的贡献，以找出无关特征。

从图2.2可以看出，‘sex’和‘age’分别被相关系数和互信息给出了最低的值，代表着这两个特征可能是无关特征。值得注意的是，左边的皮尔逊相关系数的图中，特征与目标值的相关系数并不是在[-1，1]，这是因为我们使用的sklearn中的‘f_regression’方法对相关系数做Fisher变换，来进行假设检验，我们最后返回的结果是变换后分布的均值。我们可以在样本空间中找出这两个特征与目标值的散点图，对无关特征进行直观的解读，在上述的基础上添加以下代码：

图2.2　（a）为相关系数的结果，（b）为互信息的结果

从图2.3可以看出，对于不同的目标值，性别‘sex’有两种取值，年龄‘age’与目标值的散点几乎均匀地分布在平面图上，都可能是无关的特征（严格来说，年龄是无关特征的可能性要高于性别，因为从图像看来，对于同一个目标值，年龄有着更多的取值）。

接着，我们考虑目标值只对数据的特征进行相关性分析，以找出多余的特征。虽然可以沿用皮尔逊和互信息的办法来得到相关性矩阵，但是为了能让大家掌握相关性分析的更多方法，我们在这里使用斯皮尔曼相关系数（Spearman Correlation Coefficient），与皮尔逊相关系数相比，它的作用更多。皮尔逊系数只有在严格线性关系时才会为1，而斯皮尔曼考察的是两组变量是否单调变化，所以它允许了一定的非线性。在上述的基础上添加以下代码：

图2.3　（a）为sex与目标值的平面图，（b）为age与目标值的平面图

观察图2.4，我们首先会注意矩阵的对角元全部为1，这是最正常不过的结果，因为变量与其自身是严格的简单线性关系，并且它是一个对称矩阵，因为斯皮尔曼相关系数本身就可以交换变量。

要找出多余的特征，我们需要额外注意那些数值较大的区域，比如序号为4和5的特征的相关系数高达0.88，很有可能是多余特征，序号6和7的特征相关系数较大，为0.97，我们在数据集上找到对应的特征名称（它们分别代表着人体不同血清），并且将它们的关系展示在样本空间上，对多余特征进行直观的理解。在上述基础上添加代码：

图2.4　相关系数矩阵维度就是特征维度（10×10），每一个矩阵元表示两组特征的斯皮尔曼相关系数

从图2.5中可以看出，S1血清和S2血清呈现很好的线性关系，而S3血清和S4血清在不同的取值处表现出阶梯状的线性关系，在S3的均匀取值的情形下，S4只能取到一些特定的值。面对这两对可能线性相关的变量，我们只需要分别保留其中一个即可。

然后，我们采用包裹法来进行特征挑选。在上述的数据集中可以很方便地使用sklearn中的特征递归消除方法，并结合交叉验证来评价特征子集，如果减去的特征无法使得性能提升，那么我们就会停止剔除过程。采用岭回归作为我们的学习器，岭回归带来的权重缩减，使得交叉验证的泛化性能尽可能地稳定，有利于我们的性能评估，在上述代码的基础上添加以下代码：

图2.5　（a）是S1和S2血清的散点图，（b）是S3和S4血清的散点图

在图2.6中，可以看到递归消除法得到的最佳特征数为5，此时保留的特征打印出来分别为‘sex’、‘bmi’、‘bp’、‘s3’、‘s5’，发现前面所得出的无关特征‘age’已经被剔除掉，‘sex’被保留下来，而得出的多余特征‘s4’也被剔除，这符合我们的认知。同时，可能会让读者疑惑的是，强线性相关的‘s1’和‘s2’全部被剔除，为什么学习器不保留其中的一个呢，这可能是因为我们采用了岭回归作为学习器，它本身就可以消除一定的多重共线性。

作为嵌入式方法的代表，最后让我们来尝试一下弹性网模型具备的稀疏能力，弹性网涉及两个超参数，所以可以根据这两个参数的相对大小，来观察是要缩减权重到小的值还是将有些权重直接缩减为零，我们在1.6节已经使用过网格搜索的技巧，在这里，我们会采用sklearn中的GridSearchCV方法来快速完成两个超参数的网格搜索。它的方法就是穷尽每一对可能的参数组合，依次进行交叉验证，我们选用10折交叉验证，这两个超参数都有5种可能的取值，那么就会进行250次训练。在上述代码的基础上添加以下代码：

图2.6　学习器交叉验证的泛化误差随特征数的变化

最后我们会得到最佳的参数组合，为{‘alpha’：1e-06，‘l1_ratio’：0}，超参数为零意味着这个超参数可以在此模型中安全的去掉。从图2.7中可以看出，在固定另一个超参数的情况下，L₁正则化系数几乎不会对测试误差造成什么影响，测试误差的差异几乎由总的正则化项系数所提供。如果我们深入探讨超参数选择的整个过程，会发现某些超参数的不同取值会得到相同结果，这是我们在超参数调节中经常会遇到的情况，这也是随机搜索（Randomized Search）在很多时候都比网格搜索高效且优越的原因。

图2.7　两组超参数的不同组合下的测试误差，横轴为正则化项系数的取值，纵轴为L₁正则化项在整个正则化中占比的取值