第2版前言
本书很特别。这是至今唯一一本将统计数据挖掘和机器学习数据挖掘加以区分的书。在彻底认识到统计学在处理大数据方面的不足之前,我一直是一名传统的统计学家。现在,作为一名统计改革派,我不再受过去的统计学方法的束缚,有很多自由空间可供发挥。我在本书的第一部分整理了实用的统计数据挖掘技术。作为一个替代统计回归的机器学习模型,GenIQ模型引领了本书所有创新且有用的机器学习数据挖掘技术。
本书收集整理了一系列文章,提供了解决大数据预测性建模和分析中碰到的最常见问题的详细背景和具体方法。各章的共同主题是介绍每种方法及其在特定问题上的应用。为了帮助读者打下更坚实的基础,我花了大量篇幅讨论预测性建模和分析的基本方法。尽管这种综述以前也有人做过,但我提供了一个更详细的循序渐进的方法论,以便让这个领域的新手和专家都能从中获益。数据分析师的主要工作是预测和解释目标变量的结果,比如RESPONSE(回应)或PROFIT(利润)。目标变量要么是一个二值变量(例如RESPONSE),要么是一个连续变量(例如PROFIT)。除了一个例外,本书内容有意限制于依赖模型:目标变量通常是指方程的“左边”,而用来预测或解释的变量则在方程的“右边”。这与相关模型不区分左边和右边是不同的。我用了一整章介绍一种相关模型,该模型与一个依赖模型是有联系的。因为相关模型包含的数据分析工作是最少的,所以我想说的是,本书的出发点是实用。
所以,本书各章的组织方式如下。第1章介绍对我的职业生涯产生重大影响的两个因素:约翰·图基和个人计算机。个人计算机改变了统计学世界的一切。个人计算机可以轻松完成精确的计算,并且减轻统计学带来的计算负担——人们只需要提出正确的问题。不幸的是,个人计算机和统计学的结合将只具备最低程度统计学知识的通才变成了准统计学家,给了他们一种虚假的自信。
1962年,约翰·图基在一篇影响广泛的文章“The Future of Data Analysis”[1]里,预言了统计学的僵化会被打破。但是直到1977年Exploratory Data Analysis[2]出版,图基才将僵化的统计学带入一个新领域,人们称之为EDA(源自他那本杰作的名字的首字母)。EDA的核心就是现在的数据挖掘或统计数据挖掘(正式名称),这是一项需要大量数字、计算和图形检测的工作。
为了顺利过渡到更难懂的方法,第2章介绍相关系数。尽管如此,我还是要提到很多人不熟悉的一些知识,并介绍两种有用的变量评估方法。基于第2章介绍的平滑散点图的概念,我在第3章引入基于CHAID(卡方自动交互探测)的平滑散点图。与平滑散点图相比,新方法能给出成对变量评估中未掩盖关系的更可靠描述。
在第4章,我展示了校直数据的简单性和可取性对于好的建模的重要性。第5章介绍了对有序数据进行对称处理的方法,并且将其加入第4章讨论的简单性和可取性范式之中。
主成分分析法是1901年发明的降维方法,我在第6章将其作为一种面向多变量评估的数据挖掘方法加以介绍。在第7章,我将再次提到相关系数。我将讨论基于相关系数区间的两个变量的分布效应,然后提供一个计算调整后的相关系数的程序。
第8章介绍逻辑斯谛回归法,这是一种常见的分类技术,而在本书里,它是研究一个案例的工具,本章给出一个为投资产品建立回应模型的案例。通过这种方式,我介绍了一系列新的数据挖掘技术。第9章将介绍目标变量的连续回归法。在第8章和第9章讨论统计回归优点的基础上,我再次回顾了有关变量选择方法缺点的文献,在第10章重新提到了一个用来指定回归模型的著名的解决方案。第11章重点用CHAID作为数据挖掘工具解释逻辑斯谛回归模型。第12章重新关注回归系数,并且给出了其缺点导致的常见错误解释。第13章拓展了这个系数的概念,引入了平均相关系数,提供了一个评估各种预测模型和预测变量重要性的量化标准。
第14章展示了如何通过变量提高一个模型的预测能力。这需要建立一个交互变量,即两个或多个变量的乘积。为了测试这个交互变量的显著性,我采用了CHAID的一种不常见的用法作为一个我认为很有说服力的案例。在第15章,我继续创造性地使用一些著名的技术,同时采用逻辑斯谛回归和CHAID解决市场细分分类建模问题。在第16章,CHAID再次被用于一种不太常见的场合——作为填补缺失数据的一种方法。为了引入一个有趣的真实问题,我在第17章介绍了几种方法,以方便需要识别最佳客户的方法的市场营销人员使用,通过讨论形似刻画方法对预测性客户刻画方法的优点加以展示和拓展。
第18章讨论了营销人员如何评估一个模型的准确度,其中涉及模型评估的三个概念:传统十分位分析、精确度和可分性。第19章指出了十分位分析在应用中的缺点,并提供了一种称作自助法的新方法,用于测量市场营销模型的效力。
第20章介绍用于流行的逻辑斯谛回归模型的一种自助式验证方法的主要特征。第21章提供了一对图形或视图,其使用价值超过了常用的探索性分析手段。在这一章,我演示了视图迄今尚未被开发的在描述用于预测的最终模型的功能方面的潜力。
第22章结束本书对统计数据挖掘的介绍,并提供一种替代的数据挖掘指标,即预测贡献系数,用于对系数进行标准化处理。
在介绍了这些内容之后,我们开始学习新知识。
第1章介绍了机器学习数据挖掘的概念,并且将其定义为不包含EDA/统计元素的个人计算机学习,而第23章用一个度量说法“是否要拟合模型”引入了机器学习的GenIQ方法及有用的数据挖掘技巧。
第24章介绍了用数据定义模型的机器学习范式,这个方法对于大数据特别有效。之后展示了一个遗传逻辑斯谛回归优于统计逻辑斯谛回归的有代表性的例子,与前者不同的是,后者是用数据去拟合一个预先定义的模型。第25章简要地介绍了一个典型的数据挖掘概念:数据重用。数据重用是在构建GenIQ模型时在原数据集中引入新变量。数据复用的好处是明显的:原数据集因增加了新的预测性的全GenIQ数据挖掘变量而得到增强。
第26~28章讨论解决日常统计问题的带有GenIQ模型数据挖掘特点的方法。在统计学里,离群值是指位于整体数据之外的某个观察值。离群值是有问题的:统计回归模型对于离群值非常敏感,形成的预测回归模型会得出有问题的预测值。处理离群值的常规方法是“确定并剔除”它们。第26章介绍一种调整而不是剔除离群值的替代方法。第27章介绍一种解决过拟合这个老问题的新方法,展示了GenIQ模型如何识别过拟合的结构因素(复杂性),然后指出如何从数据集中删除那些造成复杂性的数据。第28章再次讨论了第4章和第9章的例子(校直数据的重要性),直接给出了解决方法,因为理解这个方法的知识还没有介绍,所以没有给出更多解释。而此时背景知识已经具备,所以出于完整性考虑,这一章详细讨论了那些方法。
第29章介绍的GenIQ方法是一个与统计学完全无关的机器学习模型。而且在第30章,GenIQ作为一种高效方法用于为一个模型找到最佳可能变量的子集合。由于GenIQ不包含任何系数——系数是预测的关键,第31章给出了一种计算准回归系数的方法,因而提供了一个可靠的无须假设的回归系数的替代方法。这种方法提供了评估和使用无系数模型的参考框架,让数据分析师可以自由地探索新思想,比如GenIQ方法。