1.5 EDA的弱点_统计挖掘与机器学习：大数据预测建模和分析技术（原书第3版）-QQ阅读男频轻小说网

上QQ阅读APP看书，第一时间看更新

1.5　EDA的弱点

尽管EDA有很多优点，但这种方法原本就有的两个小缺点可能阻碍了它被更多人接受。其中一个是主观性，即心理学特点，另一个是容易造成误解。数据分析师知道，如果无法研究清楚具有多个可能性的情况，可能会得出有缺陷的分析结果，将自己置于数据的泥潭之中。所以，EDA可能加深了数据分析师的不安全感，让他们觉得自己的工作永远无法完成。个人计算机可以帮助数据分析师做好分析调研工作，但没有承担改变人们对EDA的傲慢看法的义务。

虽然EDA最初是为小数据设计的，但是说它无法处理好大量数据是个误解。事实上，一些图形方法（如茎叶图），以及一些数值和计数方法（如折叠和分箱），确实可以用于处理大容量数据样本。尽管如此，EDA方法基本不会受到数据规模的影响。采用EDA的方式不影响结果的有效性。一些非常有用的EDA技术可以用于大量数据分析，但是需要个人计算机进行高强度的大数据处理[1][12]。例如，幂阶梯法、重述[2]和平滑法都是处理大量数据或大数据应用时的有用工具。

[1] Weiss、Indurkhya和我用的是“大”数据的通用概念。只是，我们强调的是这个概念的不同特征。

[2] 图基在他的那本打破常规的EDA著作里将“重述”概念放在各种EDA数据挖掘工具的前列，但是他没有给出定义。我猜想他认为这个术语是一目了然的。图基在这本书的第61页首次提到了重述：“用处最大的重述方式是怎样的？”我需要重述的定义，而且在本书中给出了一个。