1.7 数据挖掘范式
数据挖掘这个说法是在20世纪70年代末80年代初由数据库营销行业提出来的。由于从数据中发现的模式和关系(结构)并无新奇之处,所以统计学家忽视了这种新技术带来的兴奋感和这方面的工作。他们听说数据挖掘已经很久了,尽管叫法不同,比如数据垂钓、打探、挖掘,以及最轻蔑的说法——倒腾数据。由于所有发现过程都需要利用数据,却得到了令人怀疑的结果,所以统计学家对数据挖掘的评价不高。
马斯洛锤子[1]的一种说法是:“如果你手里有一把锤子,你就会只看到钉子。”这句格言的统计学版本是:“只要寻找结构,一般都会发现结构。”所有数据都有虚假的结构,这些结构是由一些让事物聚集在一起的东西(比如机会)造成的。数据越多,得到虚假结构的机会就越大。所以,我们可以预见到数据挖掘可以制造结构,而真的结构和假的结构之间没有任何区别。
如今,统计学家只是因为EDA范式蕴藏在数据挖掘之中,才接受了数据挖掘方法。他们把数据挖掘看成可以发现数据中出乎意料的结构的过程,其中用到了EDA方法,用于探索数据,而不是利用数据(见图1.1)。请留意这里的“出乎意料”这个说法,它指的是这个过程是探索性的,并不确定可以发现不可预料的结构。如果人们只是去寻找自己想要的结构,对于这种结构来说,就没有任何不确定性了。
统计学家了解数据挖掘本身的问题,并尝试做一些调整,把虚假结构的数量减到最少。在传统的统计分析中,统计学家已经改进了用来寻找有趣数据结构的大多数分析方法,比如调整阿尔法/I类误差率,或者提高自由度[13,14]。在数据挖掘中,统计学家无法做出这样的调整,只能在EDA范式内进行微调。下面讨论的步骤展示了数据挖掘/EDA范式。这些步骤是由一些软规则确定的。假设目标是找出一个结构,以便对未来的直邮销售活动做出好的预测。下面就是所需采取的步骤。
·取得包含与未来直邮销售相似的邮件的数据库。
·从数据库中抽取一个样本。样本大小可以是1万的整数倍,最大为10万。
·对样本做一些探索性测试。进行所需的计算,以确定有趣或值得注意的结构。
·停止用于寻找值得注意的结构的计算。
·计数值得注意的结构。这些结构不一定是所需的结果,也不一定是重要的发现。
·找出指标变量,无论是可视化的还是数字的,并且找出间接信息。
·对所有指标变量和间接信息做出反馈。
·提出问题。每个结构是否有意义?是否有结构形成了自然的群组?这些群组是否有意义?一组里的结构是否是一致的?
·尝试更多方法。用这个数据库中的新样本重复进行多次探索性测试,检查结果的稳定性。如果结果不一致,则可能不存在用来预测对未来直邮销售活动进行反馈的结构,因为数据可能受到随机的影响。如果结果是相似的,则评估各种结构和每个群组的可变性。
·挑选最稳定的结构和群组,预测对未来直邮销售活动的反馈。
[1] 亚伯拉罕·马斯洛(Abraham Maslow)提出的概念“人性”,为心理学领域带来了一个新鲜观点,他将其称为心理学继巴甫洛夫的“行为主义”和弗洛伊德的“心理分析”之后的“第三大力量”。人们经常提到“马斯洛锤子”,但是似乎没有多少人知道这个独特而精辟的说法的发起人是在表达一个行为准则。马斯洛的犹太双亲为了逃脱严酷的社会政治动荡环境而从俄罗斯移民到美国。他于1908年4月出生在纽约布鲁克林,1970年6月因心脏病发作去世。