统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

第7章 主成分分析:多变量评估的统计数据挖掘方法

7.1 引言

由卡尔·皮尔逊于1901年首先提出的主成分分析法(PCA)[1]作为一个经典的数据删减技术,揭开了众多变量之间的内部联系。PCA用作重新表述工具的文献很少见[2]。本章将PCA作为一种数据挖掘方法。我认为PCA是一个可以用于常规应用场景,且能从中得出预期解决方案的统计数据挖掘工具。此外,PCA也能应用于非常规的应用场景,并得出可靠、稳健的结果。而且,我还将介绍PCA用于构建准交互变量的有用方法,进一步推广PCA作为一个强大数据挖掘工具的应用范围。本章提供PCA用于构建准交互变量的SAS子程序。

[1] 参见Pearson,K.,On lines and planes of closest fit to systems of points in space,Philosophical Magazine,2(6),559-572,1901。Harold Hotelling在1933年独立提出了主成分分析法。

[2] 图基首先提出了重新表述(reexpression)这个说法,但是并没有给出定义。我需要给所用的术语一个定义。我将重新表述定义为借助函数,比如算术函数、数学函数和截断函数,改变原变量的成分、结构或量度范围,得出原变量经过重新表述后的新变量。经过重新表述是为了从中发现比原变量更多的信息。