统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

2.3 统计学与数据科学的比较

作为一名接受了良好学术训练和具有丰富实践经验的统计学家,我采用统计学的视角——现代阿什瓦尔数据科学的说法四步流程——讨论我找出的那些数据科学的相关文献。这个四步流程是评估数据科学中的某个说法是在描述一个类似于统计学的领域,还是将统计学扩展到了新创建的数据科学领域的试金石。我会根据这个检验标准对特定说法进行批判性评估,但是不进行事无巨细的文献对比。由于引用、评述、现象和致谢是非结构性的,所以无法进行文字比较。

查找这些内容的工作非常烦琐,而且谷歌检索的效力非常低。出乎意料的是,谷歌搜索“数据科学”的第一页就刊登了四则关于数据科学家培训和那些寻求数据科学工作的广告:(1)IBM数据科学峰会,(2)Indeed.com的数据科学相关职位,(3)数据科学——12周,以及(4)数据科学——在Hired.com上找工作。我查看了“培训”链接,想要获取数据科学的定义或解释。我发现手头没有适合这项研究的东西。

有意思的是,在一个子页里,我发现了一个数据科学课程的微软链接,其内容包括数据排序、R语言和Python介绍、机器学习,以及更多有关编程的内容——基本都是面向信息科技(IT)专业人士的。其余几个页面包含了更多数据科学培训和IT内容的链接。总之,我的谷歌搜索不是那么富有成果。谷歌为数据科学培训和数据科学记叙(而非定义)博客制作了不成比例的广告,这些都是令人生厌的语无伦次的陈述。

我从一个有用的参考资料收集整理的内容,它来自网站Kaggle,由此引出其他相关内容。最后得到的内容并不是很多,我在检索不到更新的内容、事实和知识时,就停止了检索。(在后面会提到这个检索终止规则。)我把这些内容按照时间先后排序,通过文字对比分析判断数据科学是否等同或者非常接近统计学。对比结果见下节。

统计学与数据科学

1960年,彼得·诺尔(Peter Naur)[1]用“数据科学”作为计算机科学的替代叫法,因为他不喜欢后面这个说法。诺尔建议将“计算机科学”改名为“数据学”或者“数据科学”。

这一条很有趣,但是与我们的话题关系不大。不过,这个说法与统计学的差距不大,因为当今统计学需要大量的计算工作。诺尔的数据科学叫法可能是来自统计学的启发。我们不讨论他的这个说法的背景。

1)在1971年国际信息处理联盟(IFIP)有关数据处理的指南[5]上,找到了两条有关数据科学的简要说明。

a.数据科学是处理数据的科学,在这门学科形成之后,其所讨论的数据和数据关系则被委托给了其他学科领域。

b.数据科学的一个基本原理是:必须根据要实现的转换和可用的数据处理工具来选择数据表示形式。这强调了关注数据处理工具特性的重要性。

对于以上两种关于数据科学的说法,我有两个看法。奇怪的是,第一点可以追溯到Achenwall之前说过的同样一句话“处理数据的科学”。尽管如此,这句话的后半部分却认为统计学家应该将数据委托给其他学科。统计学家并不是这样做的。所以,第一点不符合处理数据的人们所理解的统计学概念,也不符合现代统计学所说的四步流程。第二点只强调了计算能力,这只是统计学四步流程的一部分,而不是其精髓。所以,基于这两点,我认为数据科学与统计学并不相同。

判断I:IFIP数据处理指南表明数据科学不等同于统计学。

数据科学与统计学的相似度:0/1

2)1997年,统计学家吴建福以“统计学=数据科学?”为题做了一个讲座。如果吴教授的讲座题目提出了一个零假设(H0),那么我们的问题是:吴教授的讲座提供驳倒这个零假设的证据了吗?如果没有充分的反驳证据,则人们可能得出“统计学=数据科学”为真的结论。换言之,数据科学等同于统计学。在他的讲座上,吴教授将统计工作归结为数据收集、数据建模和分析以及决策工作的三位一体。他呼吁统计学界采用“数据科学”这个叫法,倡议用数据科学替代统计学,改称统计学家为数据科学家(http://www2.isye.gatech.edu/~jeffwu/presentations/datascience.pdf)。

吴教授的统计学“三位一体”观点非常接近四步流程法。(他未能提供驳倒零假设H0:统计学=数据科学的证据。)所以说,吴教授的观点支持数据科学等同于统计学这个说法。显然,作为一名统计学家,他选择这个题目做讲座,表明他是站在统计学界前沿的。就吴教授对这个流行叫法的关注而言,对于他主张重新命名统计学和统计学家,我很困惑。

判断II:吴教授1997年的讲座“统计学=数据科学吗?”认为数据科学等同于统计学。

数据科学与统计学的相似度:1/2

3)2001年,理论统计学家威廉·S.克利夫兰提出数据科学是一个独立学科,将统计学领域扩展到包括“数据计算的进展”[6]

克利夫兰所说的数据科学就是统计学。他认为大数据需要算力方面的提升,表明他承认统计学,特别是其功能部分——四步流程的第2步。

判断III:克利夫兰的说法显然是认为数据科学等同于统计学。

数据科学与统计学的相似度:2/3

4)2003年,哥伦比亚大学开始出版The Journal of Data Science(http://www.jstage.jst.go.jp/browse/dsj/_vols),为数据工作者提供了一个发表观点和交流思想的平台。该杂志主要致力于统计学方法的应用和量化研究。

这表明哥伦比亚大学的这份杂志是数据工作者的一个平台,提供了很好的表面效度,说明数据科学与统计学有关联,两者之间不存在差别。如果这份新杂志的目的是划分数据科学和统计学,哥伦比亚大学应该重新审视该杂志的使命声明,因为这一引文并不表明数据科学与统计学相似。

判断IV:哥伦比亚大学的The Journal of Data Science无疑表明数据科学与统计学没有相似之处。

数据科学与统计学的相似度:2/4

5)2005年,美国科学委员会给出定义:“数据科学家是信息和计算机科学家、与数据库和软件相关的工程师和程序员、学科专家、馆长和专家注释员、图书管理员、档案管理员,以及其他对成功管理数字数据收集至关重要的人。”[7]

这个定义包含了各领域的专家,从计算机科学家、程序员到图书管理员等,唯独没有提到统计学家。不仅如此,这个定义也没有提到四步法流程。

判断V:由美国科学委员会对数据科学的定义,可以看到数据科学家的范围十分广泛,数据科学与统计学不相似。

数据科学与统计学的相似度:2/5

6)2007年,复旦大学建立数据学与数据科学研究中心。2009年,该中心的两名研究人员朱扬勇和熊赟作为计算机科学家发表了“Introduction to Dataology and Data Science”,提出“数据学和数据科学从网络空间提取数据作为研究对象。这是一个新领域”[8]

尽管做出了明显限制,但这条引文将数据学和数据科学两个孪生学科区分开,却没有提出相应的定义和理由。奇怪的是,该引文将数据视为这两个学科在网络空间的关注点,即便认为统计学与其中任何一个学科有关联,统计学也不是网络空间中的重要角色。

判断VI:两位学者描画了网络空间的数据科学,而那里并没有统计学的身影。他们所说的数据科学和统计学没有相似点。

数据科学与统计学的相似度:2/6

7)2008年,联合信息系统委员会(JISC)出版了一项研究的结题报告,该项研究旨在“检讨并对数据科学家的角色和职业发展,以及向研究界提供数据管理技能建议”。报告定义“数据科学家是工作在数据中心的研究人员,其工作是与数据的创造者密切合作,而且可能参与创新性的数据查询和分析工作,以便其他人得以使用数字化数据,并从事数据库技术研发”(http://www.dcc.ac.uk/news/jisc-funding-opportunity-itt-skills-role-and-career-structure-data-s-ci-entists-and-curators)。

JISC的这个定义所指的数据科学家,至少部分参与了数据创建工作,其工作可能包括“创新性的分析”,但没有提到统计学,也没有提到四步法流程。

判断VII:JISC的数据科学定义没有提到统计学的任何明确特征,与统计学没有相似性。

数据科学与统计学的相似度:2/7

8)2009年,迈克尔·蒂斯科尔在“The Three Sexy Skills of Data Geeks”里写道:“……在我们所处的这个数据时代里,那些会建模、处理数据,并进行可视化数据沟通的人——称我们为统计学家或数据极客——这是一个大热的圈子”[9]。2010年,他又写了“The Seven Secrets of Successful Data Scientists”(http://medriscoll.com/post/4740326157/the-seven-secrets-of-successful-data-scientists)。

蒂斯科尔拥有生物信息学博士学位,这个学科的课程与统计学有大量重叠。所以他差不多算是一名统计学家。蒂斯科尔在定义那些建模、处理数据和做数据可视化的人时,交换使用了统计学家、数据科学家和数据极客这三种说法。蒂斯科尔接受的博士教育让他将数据科学和统计学理解为同一个知识分支。

判断VIII:蒂斯科尔使用的三种叫法清晰表明数据科学等同于统计学。

数据科学与统计学的相似度:3/8

9)2009年,谷歌首席经济学家哈尔·瓦里安(拥有经济学博士学位,该专业的课程也主要与统计学重叠)在接受《麦肯锡季刊》采访时说:“我一直都说,未来10年最有吸引力的工作就是统计学家。人们以为我在开玩笑,但是有谁在20年前说过计算机工程师会成为最紧俏的职业呢?取得数据的能力——能够理解数据,处理数据,从中提取有价值的东西,对其进行可视化处理并用于沟通——这将会成为未来10年非常重要的技能。”(http://www.conversion-rate-experts.com/the-datarati/)。

瓦里安的说法表明他很了解数据科学需要统计学家和统计学。我从他的讲话里推断出,他在提到最有吸引力的统计工作时,会交换使用数据科学和统计学这两种叫法。

判断IX:瓦里安同时使用数据科学和统计学,表明他所指的数据科学是和统计学一样的。

数据科学与统计学的相似度:4/9

10)2009年,内森在文章“Rise of the Data Scientist”中写道:“正如我们都看过1月份那篇采访谷歌首席经济学家哈尔·瓦里安的文章,里面提到下个10年最吸引人的工作就是统计学家。我完全同意这个说法。而且我的看法还要更近一步,这个工作现在就已经非常有吸引力。”(https://flowingdata.com/2009/06/04/rise-of-the-data-scientist/)。

内森互换使用数据科学和统计学两个叫法,明显表明他认为统计学家和数据科学家是一回事。

判断X:内森认为数据科学就是统计学。

数据科学与统计学的相似度:5/10

11)2010年,精通数据和数字产品的肯尼斯·库克耶在《经济学人》上发表了一篇专题报告,其中提到“无处不在的数据,”“……一种新职业出现了,这就是数据科学家,他们同时具备软件程序员、统计学家和小说家/艺术家的技能,能从堆积如山的数据里找到金块。”(http://www.economist.com/node/15557443)。

库克耶的说法基本上表明数据科学家是统计学家,并不支持他所说的数据科学家是一个新职业。他还将编程作为预设条件,并且提到了艺术和文学。我不太赞同他说的数据科学家的“首要”任务是寻找重要信息。

库克耶的说法让我对他的学术背景产生了兴趣,但是我在他的网站上没有找到一丁点有关他的教育背景的信息。我不知道他是否接受过统计学训练。不过,基于他出版了大量数据方面的出版物,我认为他可能是一名统计编年史专家。

判断XI:撇开那些华而不实的说法不谈,库克耶所说的数据科学就是统计学。

数据科学与统计学的相似度:6/11

12)2010年,麦克·路凯茨写了“What Is Data Science?”(https://www.oreilly.com/ideas/what-is-data-science):“数据科学家融合了创业精神和耐心,打造数字产品的愿望,探索能力,以及找到解决方法的能力。他们天生是跨学科的。他们可以解决问题的各个方面,从最初的数据收集和数据调整到得出结论。他们可以跳出框框思考,想出新的方法来看待问题,或者处理定义非常广泛的问题:‘这里有大量数据,看看你能从中得到什么?’”他不是统计学家,但是在读电子工程专业时接受过一些定量分析训练。

路凯茨冗长的引文令人失望,尽管他有定量知识,但肯定不是统计学。他以数据科学的伟大推销员自居。我把他的数据科学定义看作是用词串起来的他所理解的数据科学的一个大杂烩。他给我的印象是没有说服力。O’Reilly Media的内容策划副总裁Mike Loukides编辑过多本技术类书籍。“最近一段时间,他一直沉溺于数据和数据分析……”(http://radar.oreilly.com/mikel)像路凯茨这类人并不喜欢谈论数据科学。

判断XII:路凯茨所说的数据科学与统计学相似。

数据科学与统计学的相似度:6/12

13)2013年,《福布斯》发表了吉尔·普莱斯的文章“Data Science:What’s the Half-life of a Buzzword?”[10]。普莱斯的文章汇集了对数据分析领域的学者和从事商业分析报道的记者们的一些访谈,指出尽管“数据科学”已经在商业领域大量使用,“人们或多或少达成了共识,认为人们缺乏在数据科学上的共识。”吉尔·普莱斯不是统计学家,但是拥有金融学和市场营销方面的学术背景,他认为数据科学是一个没有清晰定义的热词,只是从字面上替代了研究生学位课程里的“商业分析”。

普莱斯可能知道商业分析是什么,但是完全不了解统计学,也不了解统计学和数据科学的区别。

判断XIII:普莱斯所说的热门的数据科学和统计学不相似。

数据科学与统计学的相似度:6/13

14)2013年,纽约大学(NYU)启动一项花费数百万美元的项目,建设美国领先的数据科学中心(CDS)的培训与研究设施。NYU宣称“数据科学重合了纽约大学一直实力很强的学科,如数学、统计学和计算机科学”“通过综合统计学、计算机科学、应用数学和可视化,数据科学能够将数字时代的海量数据转变成新知识和新思想”(http://datascience.nyu.edu/what-is-data-science/)。

NYU定义的数据科学范围很宽,但用语精准。CDS的数据科学定义包含了四步法的元素:核心统计方法,将计算机科学作为统计计算的基石,以及可视化。应用数学也包括在内,作为这个流程的一个假设的第五步的替代——必要的数理统计学理论,这是统计学自身发展的基础。CDS的愿景强调了数据科学的目标是将数据转化为知识。

判断XIV:CDS所说的数据科学等同于统计学。

数据科学与统计学的相似度:7/14

15)2013年,在美国统计学会主旨演讲的问答环节,知名应用统计学家奈特·希尔福说:“我认为数据科学家是一个比统计学家更有吸引力的叫法。统计学是科学的一个分支。数据科学家略显夸大,人们不应该排斥统计学家这个称呼。”[11]

希尔福对数据科学的看法明显反映了很多统计学家的观点,尽管他认为这个词贬低了统计学家。

判断XIV:希尔福的说法明显支持数据科学等同于统计学的看法。

数据科学与统计学的相似度:8/15

16)2015年,《国际数据科学与分析学》杂志(IJDSA)由Springer出版社出版,用于发表数据科学和大数据分析方面的原创文章。该杂志的使命声明是:IJDSA是数据科学和大数据分析领域的首家学术期刊。目标是刊登数据和分析理论、技术和应用方面的原创、基础和研究成果,促进新科技方法在数据应用方面形成战略价值。该杂志提供的用于辨识的关键字包括:人工智能、生物信息学、商业信息系统、数据库管理,以及信息检索(http://www.springer.com/computer/database+management+%26+information+retrieval/journal/41060

IJDSA的主要特点是它是首家数据科学和大数据的专业期刊。然而,IJDSA的使命表述和关键词并没有出现四步法的任何知识点,没有提到统计学。

判断XVI:IJDSA定义的数据科学与统计学不相似。

数据科学与统计学的相似度:8/16

17)2016年,Kaggle网站的口号为“全球最大的数据科学家社区,致力于解决最有价值的问题”,数据科学被定义为“致力于分析和处理数据,以得出结论和打造数字产品的新领域,综合了包括计算机科学、数学和艺术等方面的技能”(Kaggle.com)。

Kaggle的定义没有清晰指出统计学,尽管提到了通过分析数据获得结论,这只是修辞上的说法。

判断XVII:Kaggle所说的数据科学与统计学不相似。

数据科学与统计学的相似度:8/17

18)2016年,KDnuggets(KDN)网站宣称自己是“数据挖掘、分析,大数据和数据科学的官方资源”,将数据科学定义为“从大量非结构化数据中提取知识,这是数据挖掘和预测分析领域的延续,也称为知识发现和数据挖掘”(KDnuggets.com)。

KDN的定义把数据科学限制在非结构化的大数据范畴,这是数据挖掘和预测分析的一部分。这是个狭义的定义,遗漏了四步法和统计学的精华。

判断XVIII:KDN定义的数据科学与统计学不相似。

数据科学与统计学的相似度:8/18

19)2016年,在加州大学伯克利分校网站上,在“新出现的领域”栏目下有一个链接——“数据科学是什么?”,它给出的数据科学的定义是:“在企业、公共机构和非营利组织中,对精通数据的专业人士的需求日益增长。能够有效处理大规模数据的专业人员数量有限,数据工程师、数据科学家、统计学家和数据分析师的工资迅速上涨反映了这一点。”(https://datascience.berkeley.edu/about/what-is-data-science/27

伯克利的这个定义表明其不了解数据科学的一些基本特征。而且伯克利的定义还同时包括了数据科学家和统计学家,说明他们认为这两者是不同的。

判断XIX:加州大学伯克利分校的定义表明数据科学不同于统计学。

数据科学与统计学的相似度:8/19(=42.11%)

[1] 彼得·诺尔(1928—2016)是丹麦计算机科学先驱,图灵奖获得者。