大话数据科学:大数据与机器学习实战(基于R语言)
上QQ阅读APP看书,第一时间看更新

1.4 大数据的江湖传奇

金庸在《笑傲江湖》中说:“只要有人的地方就有恩怨,有恩怨就会有江湖,人就是江湖。”将恩怨改为数据:“只要有人的地方就有数据,有数据就会有江湖,人在江湖。”

武侠小说是在写江湖传奇,通常的故事是:主角经过奇遇如灵丹怪兽,遇到师父传授功力招式,得到武功秘籍,然后快意恩仇,行侠仗义,消灭恶徒,称霸江湖。

大数据的江湖故事是:企业得到珍贵数据,学习挖掘方法,获得信息、知识、智能,创造份额优势,打败竞争对手。

《笑傲江湖》将华山派武功分为剑宗和气宗,剑宗注重剑法招式,气宗注重气功内功。大数据分析、数据挖掘、机器学习就是大数据的剑宗。

以下是大数据的江湖门派。

华山派剑宗

大数据分析、数据挖掘的招式,独孤九式:数据挖掘十大算法。大数据分析的分类、回归、聚类、关联规则等数据挖掘机器学习方法。本书是属于大数据中的剑宗,本章是剑宗独孤九剑的总诀式。

华山派气宗

大数据处理程序,数据收集,预处理,可视化,大数据处理框架,数据库/仓库,分布式并行处理,Hadoop,MapReduce。

以前武侠武功常以动物为师,如猴、蛇、鹰、鹤、蛤蟆等,现在的大数据功法也喜欢以动物为名,如Python(蟒蛇)、Pandas(熊猫)、Hive(蜂巢)、Pig(猪)等。

本书有R语言实战的数据,因数据量大,而且有调参和集成的算法,用笔记本电脑处理有的需要一两小时,所以可能要用大数据气宗来加快处理速度。

藏经阁

大数据相关书籍和出版社,大数据案例探讨。

铸剑师

大数据分析函数与程序包以R语言和Python语言为工具。R语言的包、Python和相关的平台,应用在神经网络、深度学习等。

武馆

大数据分析平台。例如,谷歌的Tensorflow,脸书的 PyTorch,阿里PAI机器学习平台。铸剑师和武术馆有要付费的和免费的分享平台。

现代大数据平台不只是武术馆,而好像是武器馆,只要会选择武器如手枪(模型),会装子弹(数据),会瞄准(调参),会扣板机(指令),检查命中率(验证),就可以杀敌(应用)。于是出现了手枪原理(模型理论)、弹道理论(算法过程)、装拆手枪(程序设计处理),使黑箱可交给专家或学术机构处理。

少林武当派

中国互联网公司三巨头BAT(百度、阿里巴巴、腾讯);美国 FAANG(脸书、亚马逊、苹果、网飞、谷歌),这些可以说是大数据的少林武当派。

丐帮

数据和程序共享平台。R语言是开源免费共享平台,R提供14000个以上的软件包,这些包就像是丐帮的大小分舵,有数据有算法函数。而Python语言的框架,一样是免费共享平台,例如Tensorflow有谷歌的支持,就像是少林武当的大寺庙。

概帮

大数据概念帮,介绍大数据应用在医学、保险、零售、会计、工业、制造、农业、金融、电商、地理、运动等各行业。多数是概念,纸上谈兵。

对于概帮,我们要问:问题种类,数据来源,数据类型,分析方法,模型和算法,信息结果,验证评价,应用价值,这是CRISP-DM跨行业数据挖掘标准过程。如果无法回答上述问题,就是概帮。当然,有些概帮是因为商业机密,无法提供这些说明。

盖帮

在中国台湾省,“盖”是骗人、糊弄、唬弄、忽悠的意思。

例如,有一家保险公司,声称利用大数据揪出诈保案件,数据挖掘分类分析结果是:好人(不诈保)特征是:①申请理赔金额低;②投保多年后第一次申请理赔;③只申请一日额理赔;④符合免调查条件。坏人(诈保)特征是:①投保后短期内申请理赔;②密集投保;③跨区看病;④医师病人状况雷同;⑤手术不符合标准;⑥住院天数不符合常理;⑦同业务员出险率高。这个大数据分析结果其实不必做挖掘,我们也知道结果,这就是“盖帮”。

媒楼

大数据的宣传机构,帮助盖帮的宣传机构。

魔教(邪派)

制造假数据,盗数据的人。

钱庄

大数据存储。

刑部神捕司

大数据执法的公家机构,维护国家和个人隐私安全,个资保护。

镖局

大数据保护,数据安全。

护法

门派内大数据的安全保护,大数据平台运行安全,企业的法务部门。

以上门派可以对照数据科学领域与数据挖掘标准过程,如图1-23和图1-24所示。

图1-23 大数据江湖门派与数据科学领域

图1-24 大数据江湖门派与数据挖掘标准过程

如图1-25所示是大数据江湖传奇的聚类分析,图中方圆圈表示该门派的估计数目。

图1-25 大数据江湖门派的聚类分析

大数据门派的估计数目,可以从教育界(学校、老师)、企业界、政府等面向分别去估计。图1-25可以说是一个后设大数据。

大数据目前没有倚天剑、屠龙刀。没有一个天下无敌的招式,没有一个招数可以打败所有的武功。天下没有一个药方可以治百病。大数据没有一个模型(或算法)可以解决所有的数据分析。所以应用数据挖掘,每个方法都有优点缺点(本书多数章节有说明),有适用环境和范围,实战需要经验和商业知识。

大数据和武侠世界有一点不同的是,武侠的内功(气宗)是基本功不会变,剑招(剑宗)是会改变的,要讲无招胜有招是有些过分。相对来说,大数据的气宗(计算机技术)比剑宗(数据挖掘技术)容易创新改变的,因为计算机科学技术可以说是日新月异。数据挖掘已经有二三十年的历史,是因为网络和计算机技术才有大数据。

二十年前的算法求解,因为计算机的速度和储存能力,所以斤斤计较于计算的复杂性。现在用分布式并行处理,就可以解决很多计算的问题。所以,因为计算机的快速能力,使得以前统计学、数据挖掘、人工智能(记得有AI之冬),无法处理的模型,现在可以用训练和验证大数据。这就说明了武侠小说的一句话:

天下武功,无坚不摧,唯快不败。