统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

1.5 EDA的弱点

尽管EDA有很多优点,但这种方法原本就有的两个小缺点可能阻碍了它被更多人接受。其中一个是主观性,即心理学特点,另一个是容易造成误解。数据分析师知道,如果无法研究清楚具有多个可能性的情况,可能会得出有缺陷的分析结果,将自己置于数据的泥潭之中。所以,EDA可能加深了数据分析师的不安全感,让他们觉得自己的工作永远无法完成。个人计算机可以帮助数据分析师做好分析调研工作,但没有承担改变人们对EDA的傲慢看法的义务。

虽然EDA最初是为小数据设计的,但是说它无法处理好大量数据是个误解。事实上,一些图形方法(如茎叶图),以及一些数值和计数方法(如折叠和分箱),确实可以用于处理大容量数据样本。尽管如此,EDA方法基本不会受到数据规模的影响。采用EDA的方式不影响结果的有效性。一些非常有用的EDA技术可以用于大量数据分析,但是需要个人计算机进行高强度的大数据处理[1][12]。例如,幂阶梯法、重述[2]和平滑法都是处理大量数据或大数据应用时的有用工具。

[1] Weiss、Indurkhya和我用的是“大”数据的通用概念。只是,我们强调的是这个概念的不同特征。

[2] 图基在他的那本打破常规的EDA著作里将“重述”概念放在各种EDA数据挖掘工具的前列,但是他没有给出定义。我猜想他认为这个术语是一目了然的。图基在这本书的第61页首次提到了重述:“用处最大的重述方式是怎样的?”我需要重述的定义,而且在本书中给出了一个。