统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

4.6 本章小结

基本(原始数据)散点图和平滑散点图是目前用来评估预测变量和因变量关系的数据挖掘方法,这是构建模型过程中的一项基本工作。对于蕴藏着有价值信息的大数据来说,数据分析师发现要从中提取有价值信息是很困难的。大数据使得散点图充斥着数据点或信息。诡异的是,承载了更多信息的散点图反而参考价值更小。为了在数据过载的散点图上进行数据挖掘,我们回顾了平滑散点图,以求从中找出隐含在原始数据散点图中的关系。继而,我们提出了一种基于CHAID的数据挖掘方法,用于成对变量的评估,这是用于获取更光滑的散点图的一种新技术,可以使我们更容易找出比平滑散点图中隐含的更可靠的数据关系。平滑散点图用的是原始数据的平均值,而更平滑散点图用的是终端节点的CHAID拟合值。我用一个真实例子展示了基本散点图、平滑散点图和更平滑散点图的使用方法。

图4.8 CHAID回归树的中间部分:基于HI_BALANCE对RECENCY_MOS回归