统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

7.7.2 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析结果

1)R_CD的6个元素生成了6个主成分变量。PCA事实陈述:k个原始变量往往可以产生出k个主成分变量。

2)前两项R1和R2贡献了总变化的80.642%,其中R1贡献了50.634%。

3)R1是X3和X6与X2、X4和X5的对比。数据挖掘得到的对比是PCA的一个成果。

4)R3是6个正元素的加权平均值。PCA事实陈述:加权平均的因子也被称作一般化因子,R3是一个一般化因子,也是PCA数据挖掘法的一个结果。一般化因子通常用于替代一个或者全部原始变量。

5)在表7.5里,变量的顺序是按照与RESPONSE(回应变量)的相关系数的绝对值从大到小排列的。

a.PC变量R1、R3、R4和R6比原始X变量有更大的相关系数。

b.PCA事实陈述:通常PC变量的相关系数要比一些原始变量的相关系数大。

c.实际上,这是我们采用PCA法的一个原因。

d.只有R1和R3具有统计显著性,p值小于0.0001。其他变量的p值介于0.015和0.7334之间。

表7.5 相关系数:RESPONSE、原始变量和按照系数绝对值排序的主成分变量

①p<0.0001。

②0.015<p<0.7334。

我构建了一个RESPONSE(回应)模型,用到的预测变量集合包括6个原始变量和6个主成分变量。(模型的详细情况从略。)我只能展示一个两变量模型,包括(毫不意外地)R1和R3。关于这个模型的预测能力:

1)模型识别出了前10%回应最强的个体,应答率24%高于随机模型(即这个数据文件的平均应答率)。

2)这个模型识别出了后10%的回应最弱的个体,应答率68%低于随机模型。

3)所以说,这个模型的预测能力指数(前10%/后10%)为1.8(即124/68)。

这个指数值表明该模型具备中等水平的预测能力,而且我只使用了两个主成分变量。如果在这个预测变量集合汇总增加额外的变量,则构建一个具有更强预测能力的模型是有可能的。而且我相信主成分变量R1和R3应该会包含在模型里。

也许有人认为我忘记了第5章提到的直度和对称度的重要性,我要说明一下,主成分变量通常是正态分布,而且由于直度和对称度是同时出现的,所以无须检查R1和R3的直度。