统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

第3版前言

大数据的预测分析法在本书第2版出版之后的四年来一直保持着稳定的热度。我之所以决定写作新版,不是因为第2版的成功,而是因为我收到的大量正面反馈(读者来信)。而且,重要的是,我需要分享解决问题的方法。这些问题还没有被人们普遍接受的、可靠的或者已知的解决方案。与上一版一样,约翰·图基(John Tukey)原则是推进统计学的发展以及提高灵活性、实用性、创新性和普遍性所必需的,是各章介绍的新分析法和建模方法论的试金石。

第3版的主要目标如下:

1)扩充核心内容,包括解决问题的策略和方法,它们来自顶级预测分析学术会议和统计建模研讨会,以及我对Statistics on the Table[1]的一些想法。

2)重新编辑现有章节,提高写作质量;修改结尾部分,使内容更紧凑。

3)提供本书推荐的分析方法和建模的统计子程序。我使用Base SAS和STAT/SAS。这些子程序也可以从http://www.geniq.net/articles.html#section9下载,代码很容易转换成用户喜欢的其他语言。

在第2版的基础上,本书新增了13章,它们穿插在原来的章节中间,以最大限度地保证内容的连贯性。新章节如下:

第2章介绍统计学与数据科学。如果人们不留意,可能就会按下删除键,删掉统计学和统计学家,代之以科学和数据科学家。我讨论了近期出现的术语——数据科学是否意味着统计学是一个发展更快的领域的子集合,或者数据科学是否掩盖了当前的统计学应用状况。

第8章介绍一个市场份额估算模型,其独特之处是不采用常规的基于抽样调研的市场份额情境分析,而是采用主成分分析(PCA)作为估算一个真实案例的市场份额的基础。我提供了构建这个案例研究的市场份额模型的SAS子程序。

第11章介绍无抽样调研数据预测钱包份额。这种预测钱包份额(SOW)的日常方法需要抽样调研数据。由于抽样调研工作耗时多、成本高,而且会出现不可靠数据,所以通常不采用。我提供了一种不需要数据就能预测SOW的两步法。第一步定义一个准SOW并通过模拟法对总金额进行估算。第二步采用分数逻辑斯谛回归法预测SOW_q,巧妙地将普通的逻辑斯谛回归用于比例或比率不变的因变量。我给出了详细的案例分析和SAS子程序,读者会发现这种方法很有价值。

第19章提出了一种基于模型的潜在类别分析(LCA)聚类方法。这种细分的创新型策略包含在时间序列数据的应用之中。时间序列LCA模型是一种完全不同的方法,可以作为处理截面数据集中的时间序列数据的模板。这种LCA法可以替代目前流行的基于数据的启发式k均值法。我提供了SAS子程序,数据挖掘人员可以用来执行与演示类似的市场细分工作。我还提供了一种将时间序列数据合并到其他截面数据集中的独特方法。

随后是第20章。文献通常会介绍各种可以用来进行市场细分的聚类方法,而有关如何解读细分结果的文献却寥寥无几。这一章提供了一种理解客户细分的便捷方法。我用一个常见的简单例子说明新方法,以充分展示这种方法的威力。本章提供了执行这种新方法所用的SAS子程序,数据挖掘人员可以将这个有价值的统计技术收入工具箱。

第21章是第20章的扩展。本章的目的是提供一种理解统计回归模型的简单方法,即普通最小二乘法和逻辑斯谛回归(LR)模型。我用一个LR模型演示了这种方法,展示了这种方法的威力。这种方法含有补充信息,用于弥补一直以来人们需要依靠回归系数才能理解统计回归模型的不足。我提供了SAS子程序,可以作为其他统计方法的一个有价值的补充。

第23章介绍大数据建模,接在使用CHAID作为归因方法的章节之后。缺失的数据会警告统计学家:“除非你知道如何接纳我,否则你毫无胜算。”在大数据出现之前,用传统的基于数据的方法(完整案例分析)处理任何数据集都会出现问题。这些方法能否有效用于大数据分析令人怀疑。我提出了一个两步法,即先用完整的回应数据建模,然后用PCA对不完整的回应数据建模。这两个模型可以单独使用,也可以与具体任务目标结合使用。我提供了这种方法的SAS子程序,它会成为统计建模者的一个有用工具。

第24章高度融合了艺术、科学、数字和诗歌,它们都受到了埃及金字塔、达·芬奇和爱因斯坦的启发。这一章会引发你的思考。

第27章是对前一章的补充。营销人员使用十分位分析评估他们的回应模型相对于随机获得的回应的可预测优势。我定义了两种新指标,即回应模型十分位分析精确度和随机模型十分位精确度,可以让营销人员对回应模型的优缺点进行更深入的评估。我提供了构建这两种新指标的SAS子程序,这会成为市场营销统计学家的可靠工具。

第28章将评估回应模型的方法扩展到适当使用对照组(文献中使用诸如提升或净提升度模型这类名称),以替代第27章中讨论的随机模型。有关净提升度模型的文献有很多,有些相互矛盾而且容易引起混淆。我提供了另一种方法——T-C净提升度模型,这是一个简单、直观、可靠、易于实现和理解的模型,缓解了有关这个主题的文献之间的不相容情况。我提供了T-C净提升度模型的SAS子程序,统计学家可以用于建模,而不必购买昂贵的软件。

对于统计学家来说,当踏上数据处理旅程时,第34章会给他们提供有价值的内容。我用散文式的轻快笔法介绍了在分析数据集时该进行哪些步骤。我提供了12个步骤的子程序,供有兴趣的读者练手。

第43章有三个目标:第一,作为一个入门指南,它易读、简明且详尽,介绍文本挖掘中碰到的问题,以及如何进行基础的文本挖掘;第二,用小文本展示了文本挖掘示例,内容很有趣;第三,提供了SAS子程序TXTDM,有兴趣的读者可以用来进行文本挖掘。

第44章包括本书引用的部分子程序以及第2版删去的章节里的一些通用子程序。最后,我提供了一些我喜欢的几乎对所有分析都有帮助的子程序。

勘误表见http://www.geniq.net/articles.html#section9

参考资料