![统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)](https://wfqqreader-1252317822.image.myqcloud.com/cover/26/40868026/b_40868026.jpg)
上QQ阅读APP看书,第一时间看更新
10.17 本案例的其他数据挖掘工作
我们尝试通过加入平滑变量CH_TYPE提高3变量(MOS_OPEN、MOS_DUM、FD2_RCP)模型的预测质量。我们用MOS_OPEN、MOS_DUM、FD2_RCP、CH_FTY_1和CH_FTY_2对TXN_ADD进行LRM方法处理。结果见表10.20。FD2_RCP的Wald卡方值小于4。所以我们从模型中删除FD2_RCP,得到含有4个变量的模型。这个4变量(MOS_OPEN、MOS_DUM、CH_FTY_1和CH_FTY_2)模型中的4个变量的Wald卡方值相差不大,结果见表10.21,G/df值是64.348(=257.395/4),比3变量(MOS_OPEN、MOS_DUM、FD2_RCP)模型的G/df值(62.02)略大。G/df值没有表明4变量模型的预测能力比3变量模型更强。
表10.20 逻辑斯谛回归模型:EDA变量加上CH_TYPE变量
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/10b20.jpg?sign=1739017570-gvveATuUMfCtX1a86TPWSBzqkNaurJX9-0-c576c1d1e76da9fc991cce788545bbce)
表10.21 逻辑斯谛回归模型:4变量EDA模型
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/10b21.jpg?sign=1739017570-ejZ7tx8TP3prtw1WCgPb1M8T5rBP6gnX-0-fc32b3b3ea2326a4dce3bf82e8c4ef4b)
在10.17.1节到10.17.4节,我们做个比较分析,方法类似10.15节EDA和非EDA的对比分析,以确定4变量EDA模型是否优于3变量EDA模型。因为我已经有前一个模型的描述统计量,所以我需要后一个模型的平滑散点图描述统计量。