统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

10.15 评估数据挖掘工作

为了展示3变量EDA模型的数据挖掘分析优点,我们构建一个非EDA模型进行比较,使用的是分步逻辑斯谛回归变量选择过程,这是非EDA变量选择过程的一个“不错”的方法,尽管我们在第13章会讨论它的弱点。分步变量选择过程和其他统计变量选择过程恐怕难以归入最小化数据挖掘技术,因为它们只能用于寻找原始变量的最佳子集合,而不能生成重要变量,在搜寻最佳变量子集合的过程中无法生成结构。具体说,就是它们不能产生和原始变量的重述变量或由原始变量衍生出的哑变量类似的新变量。相反,最强大的数据挖掘技术可以用原始变量生成结构,并根据这些原始变量,用这些结构拼接出最佳组合。更多内容请阅读第13章和第41章。

我用5个原变量对TXN_ADD做了分步逻辑斯谛回归分析。分析表明最佳非EDA子集合只包含2个变量:FD2_OPEN和MOS_OPEN。结果见表10.17。G/df值为61.3(=122.631),与3变量(FD2_RCP、MOS_OPEN、MOS_DUM)EDA模型的G/df值(62.02)相近。根据10.10.4节,不能说这个3变量EDA模型优于这个2变量非EDA模型。

表10.17 评估模型拟合的最佳非EDA模型标准

是否可以说所有EDA探索性工作都是徒劳的——快速而不精确的非EDA模型才是我们该用的模型呢?答案是否定的。记住,一个指标有时候只用作指向另一件事的指针,比如指向幂阶梯,有时候,它是我们基于表象自动做出决定的工具,比如确定一个关系是否足够直,或者平滑残差散点图上的点是否随机分布。而且有时候一个低级指标仅凭自己无法给出信息,需要其他指标(比如平滑散点图和整体相关系数)的配合。

我们做一个简单的比较分析,用EDA模型和非EDA模型的描述性统计量判断哪个模型更好。我只需要构建3个平滑散点图——得分组的平滑残差、十分位的平滑实际值,以及得分组的平滑实际值,我们可以从中得出非EDA模型的描述性统计量。