大数据分析与应用实战:统计机器学习之数据导向编程
上QQ阅读APP看书,第一时间看更新

前言

本书酝酿已久,走笔至此,不敢说是完美,但总算告一段落了!大数据分析是一个宽阔迷人的交叉学科领域,至少包括计算机科学、统计学与运筹学,让我到现在还不知道如何走出来。任何跨领域的新兴学科,其实很少有人是专家,而我只是众多对大数据充满兴趣的研究者中的一员。

知识探索的过程有时就像充满惊奇变化的自助旅行一样,抓住重要的基本方向,例如大数据分析背后的数学模型与计算机模型,先理论后实践,不断地相互交叉验证,其他就顺势而为,且战且走,享受意外的收获了。关于数据科学工具的采用,我们经历了R语言因统计机器学习而走红,Python语言因深度学习而兴起的过程,甚至要思考何时拥抱运算效率更好的Julia语言。就数据领域而言,气象、交通、社群网络、电子商务、金融科技、物理化学、制造技术、农渔养殖、绿能发电、环境辐射、生物医学等,大数据研究永无止境。

道是本,术是末,因为物有本末,事有终始,知所先后,则近道矣,所以我们“重道轻术”了。但道是灵,术是体,术是道的具体实现,是看得见、摸得着的规律,也算是道的一部分,所以我们得“从术悟道”了。无论如何,笔者建议大数据分析的学习过程避免昨非今是、有我无你的文人相轻式学习。重视与慎选优质灵活工具,不断地动手探索尝试,并从失败中积累经验,努力思索跨领域的源头,方能迈向术道兼修的至高境界。

本书特色:

· 文字说明、程序代码与执行结果等交叉呈现,有助于阅读理解。

· 提供来自不同领域的数据处理与分析范例。

· 同时掌握数据分析两大主流工具——R与Python。

· 凸显第四代与第三代程序语言的不同之处。

· 深入浅出地介绍统计机器学习理论与实践。

大数据分析人才需要具备的特质是“谦卑与学习、固本但跨域”,笔者希望通过本书分享这几年积累的学习方向:一数据、二工具、三模型。一心向着数据理解的根本要务前进,精通至少两种弹性的分析工具(R与Python),掌握概率统计、机器学习与运筹学等三大类模型,大步迈向数据驱动的智能决策新纪元。

本书的完成首先要感谢家人们的支持与协助,让我无后顾之忧,专心写作与编程。工作单位台北商业大学信息与决策科学研究所提供良好的研究环境,让我这几年在大数据领域钻研。稿件整理与校阅工作多是在半年休假研究期间完成的,新加坡国立大学商学院分析与作业学系,以及南京理工大学经济管理学院,为我提供了很好的写作与住宿环境。最后,笔者才疏学浅,校稿期间一再发现许多误谬、疏漏、错置与不严谨之处,虽已努力改进,一定还有未竟之处,敬请广大读者给予建议与斧正。

邹庆士

2021年1月于台北市