前言
目前,高校的数据分析类课程(如数据挖掘、机器学习、大数据分析等)教学方式大多以“知识点”为核心组织教学,学生主要以学习知识为主,工程应用实践机会较少。教师将所要教授的知识点在课堂上讲述,课后再以作业练习、课程实验、课程设计等形式帮助学生深入理解课堂上所学的知识。尽管为提高教学效果,目前许多高校尝试了大型开放式网络课程(Massive Open Online Course,MOOC)、翻转课堂、移动课堂、同伴学习和小规模限制性在线课程(Small Private Online Course,SPOC)等教学方法的改革,但总体上来说,对于应用性较强的课程教学,还存在改进的空间,尤其是对学生的动手实践能力要求较高的数据分析类课程。现有的教学方法在传授理论知识时,缺少实际应用环节的支持,学生缺少在实际应用的背景下充分理解所学知识的机会,难以培养学生应用专业知识分析解决问题的技能和创新思维能力。
数据分析的方法是科学,但这些方法的选择和应用过程因问题而异,带有很强的艺术性。在现有专业课程教学模式下,学生仅仅了解需要学习基本的理论知识,缺少实践动手经历,难以获得这些知识的应用技巧,很少接触与企业实际项目相关的内容,因此学生的应用能力较弱,与企业实际的需求脱节。例如,在“数据分析”课程中,一般的教学方式是教师将具体数据分析的方法教授给学生,学生能够理解算法或方法的内容,但难以解决实际项目中应用具体算法碰到的问题。目前亟待克服数据分析类课程教学脱离企业所需能力的培养痛点,在课程学习的知识基础上,解决实际问题,引导学生解决数据分析实际问题的必要技能和思维方法。
实际上,数据分析绝大部分的教材和书籍还基本停留在基本理论和方法的介绍,实验部分的内容比较简单或者缺失,实际应用的内容不足。还有些实战性的书籍没有按照教材的方式编写,案例也比较粗略,数据分析过程中的一些技能解释肤浅。有关实际项目中数据分析过程思路的分析以及难点解析对教学,尤其是对实验或案例教学非常重要。最近几年,作者与多家企业合作,在数据分析领域辛苦耕耘,亲自参与了多个实际数据分析项目,熟悉数据分析过程的酸甜苦辣,希望通过本教材弥补国内数据分析实用教材的不足,也希望本教材的出版能改善国内数据分析类课程教学资料短缺的情况。
学习数据分析的最好方法就是做中学,使用实际数据解决实际问题,而不是单纯学习技术。实际上,有效的数据分析需要对业务进行深入理解,在此基础上形成有效的分析思路,并通过实验反复比较,才能真正解决客户的问题。在数据时代,现实应用中往往不乏数据。从生活中的小数据、简单问题开始,做各种假设,探索其中的规律。不断尝试常用的分析语言、工具和技术,在应用中不断学习新的知识,弥补课堂教学的不足,尤其是体会数据分析过程中书本上难得看到的分析技巧,并在应用中举一反三。如此反复,随着分析问题的深入,不断提高分析能力,体会数据分析的艰辛和解决客户问题的快乐。
本教材不局限于数据分析基本理论和基本方法的介绍,而是立足实际应用,突出实际数据分析项目中的思路,以及数据分析中的难点。但希望读者具有一定的统计学、机器学习(数据挖掘)、数据科学,以及必要的相关专业知识。也不追求过多的案例堆积,希望读者能理解数据分析的思路,举一反三。这些内容是作者多年项目实践和教学成果的总结,其中的分析思路只有参与实际的项目,才能体验到数据分析的难点和艺术性,这是目前教学过程中培养学生工程性思维的重要问题,也是真正提高学生创新能力和动手能力的手段。这些内容是数据分析的基础,也是从事大数据分析必须掌握的知识和技能。有关数据挖掘常用算法的介绍,读者可以参阅作者已经出版的教材《商务智能(第4版)》(清华大学出版社,2016年)或其他专业书籍。
全书分为11章,具体的内容简介如下:
第1章从数据分析的流程出发,讨论了在数据分析各个阶段需要做的工作以及经常遇到的主要问题,尤其是数据挖掘算法使用时容易遇到的难题。数据挖掘过程有一定的标准,但是针对具体的业务需求,如何设计合理、有效的数据分析流程,需要有一定的经验和技巧,数据的预处理、算法的选择等主要步骤都充分体现了数据挖掘的艺术性。
第2章以保险产品推荐项目为例,突出了数据挖掘选择合适的算法并非很简单的事情,需要在理解分析问题以及对多种算法熟悉的基础上,通过实验对初选的几种算法进行比较、调优,才能选择对解决问题效果比较好的算法。
第3章介绍了多维分析常用的可视化图形,这是数据分析的基本功。这些图形可以帮助数据分析师探索数据,找出数据中存在的问题以及基本规律。
第4章介绍了IBM SPSS Modeler 18数据挖掘工具的常用组件。在学习数据分析的不同阶段,根据学习者的基础、问题的分析难度等,可以选择不同的工具或平台。尽管分析工具并不是数据挖掘最重要的事情,但学习成本低、功能强大的分析工具对于问题的解决也是不可少的。对于编程基础有限的数据分析师,可以选择类似IBM SPSS Modeler 18的挖掘工具或TensorFlow等开源工具。尽管如此,对于有一定数据分析基础的读者,推荐学习Python、R等针对数据分析的语言,这些语言比较灵活,功能也十分强大。
第5章对香水的销售数据进行分析,讨论受欢迎的香水以及特点,并找出影响香水销售的主要因素,为香水的营销提供依据。
第6章对银行的客户信用记录、申请客户信息、拖欠历史记录、消费历史记录等人口属性、交易数据进行综合分析,讨论用户银行信用卡拖欠和欺诈行为特征,为银行推广信用卡以及风险管理提供依据。
第7章从大众点评网抓取火锅店海底捞的菜品介绍以及客户评论数据,以客户为中心,分析客户对火锅的偏好,为火锅店的选址、菜品的选择和设计,以及火锅店的竞争力都提供了参考。
第8章以携程网上某商务宾馆的客户评分、评论数据为基础,通过情感分析,分析了客户对商务宾馆的偏好,并了解客户的消费行为,比较多家商务宾馆的竞争优劣势,为商务宾馆改进经营提供了参考。
第9章在某耐热导线工厂最近2年的质量管理数据的基础上,分析了这些数据存在的问题,探索耐热导线的加工流程中几个工序之间半成品或成品质量指标的关系,提高最终产品的合格率。
第10章利用公安人口数据和违法犯罪人员行为特点的数据,建立风险评分模型,实现对高危人群的特征分析,识别具有违法、犯罪、可疑或可能的高危人员。
第11章讨论深度学习在音频处理领域的应用,介绍了常用的深度神经网络模型,重点分析卷积神经网络在音频质量评价领域的应用。
数据挖掘是一个多学科交叉的领域,本书通过少数实际的具体案例,阐述数据分析项目的过程以及一些要点,可作为普通高等学校“数据挖掘”“商务数据分析”“商务智能”等课程的案例和实验指导材料,也可供有志于数据分析师的读者参考。配套实验数据、源代码、软件等可以从清华大学出版社网站下载。由于作者水平有限,书中难免有错误之处,希望读者不吝指出。
在写作的过程中,胡远文、于召鑫、黄黎明、蒲实、朱荣斌等在资料收集方面做了一些工作,在此表示感谢。
赵卫东
2017年8月
复旦大学