统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

10.15.1 基于得分组的平滑残差分布图:EDA模型与非EDA模型对比

我们为非EDA模型制作了基于得分组的平滑残差散点图,见图10.14。根据一般关联性检验结果,这幅图不是零散点图。所以,这个非EDA模型的预测质量整体上是不够好的。

图10.14 非EDA(FD2_OPEN、MOS_OPEN)模型的得分组平滑残差散点图

在零线之下的右下角,有5个平滑点(分别标以I,II,III,IV,V)形成了一个局部形态。这5个平滑点表明,对这5个得分组中的个体的预测一般会出现正偏差。也就是说,TXN_ADD预测值倾向于比TXN_ADD实际值更大。在图的上部有一个标注VI的平滑点,表明有一组具有负的平均偏差。也就是说,其TXN_ADD预测值倾向于比TXN_ADD实际值更小。

用非EDA模型制作的基于得分组的平滑预测与实际值散点图,其描述统计量如下:平滑残差的最小值、最大值和区间分别为-0.33,0.29和0.62,平滑残差的标准差是0.167。

对比EDA模型和非EDA模型的残差,EDA模型的平滑残差(预测误差)更小。EDA模型平滑残差极差明显比非EDA模型更小:小了32.3%(=(0.62-0.42)/0.62)。EDA平滑残差的标准差也明显更小:小了25.7%(=(0.167-0.124)/0.167)。这说明该EDA模型的预测质量更好。