前言
Preface
■时代背景
大数据时代已然到来,数据革命正在发生。
党的二十大报告中提到:“培养造就大批德才兼备的高素质人才,是国家和民族长远发展大计。功以才成,业由才广。”任何国家都不能漠视大数据所带来的全局性的冲击与变革;任何组织都不能漠视大数据所带来的颠覆性的机遇与挑战;任何个人都不能漠视大数据所带来的全方位的渗透与影响。学术界已经把数据科学作为继实验科学、理论科学、计算科学之后的又一科学研究范式。
目前,与大数据技术相关的教材有成百上千种,它们在素材选择、内容组织上各不相同。现有教材多以Hadoop系统的搭建与应用为主,知识体系复杂,应用工具繁多,学生入门困难,并且容易给学生造成学习上的困惑,也很难让学生从数据生命周期的角度学习并掌握完整的知识体系;同时,理论与实践脱节严重,学生学完后不能很好地将理论知识应用到生活及未来的工作中,实用性不强。
■本书特点
编者基于多年的教学与实践经验认为,大数据技术涉及理论、技术与工具等诸多内容,知识体系复杂且技术应用领域广泛,任何一门课程或者一本教材都很难把大数据技术囊括。因此,作为学习大数据技术的教材,其不应该追求大而全,也不应该要求读者具备完整的大数据平台的综合应用技能,而应该满足以下几方面的要求,这也是本书的特点。
1.知识讲解宜读易懂,语言表述顺畅自然
讲述大数据技术中通用的基础知识,为读者进一步研究理论和应用技术打下坚实的基础。基本概念清晰、准确、精练,语言表述顺畅、宜读、自然,尽量避免使用晦涩难懂的语言描述深奥的理论和技术知识。
2.系统构建知识体系,培养读者的大数据思维
建立恰当的知识体系,并把相关知识进行合理组织,而不是杂乱无章地堆砌。注重大数据技术的科学分析,有利于培养读者的大数据思维。
3.理论与实践相结合,注重培养实战型人才
针对大数据技术的相关应用,通过对应用案例进行分析,读者能够深入且全面地理解并掌握大数据技术的具体应用方法,进而提高自身独立分析问题和解决问题的能力。
■本书内容
按照上述原则,本书以新颖的视角、独到的见解、系统的研究,论述大数据采集、预处理与可视化的相关理论和技术,及其在各领域的应用方法和具体案例。本书各章内容如下。
第1章大数据概述,主要介绍大数据相关概念及特征、大数据系统、大数据思维、大数据伦理及大数据安全。
第2章Python程序设计,是选学内容,为具有一定的程序设计语言基础但没有学过Python的读者,在进行大数据应用时提供必需的程序设计语言相关知识和技能。
第3章大数据采集,主要阐述大数据采集的相关概念及方法、网络爬虫技术和数据抽取技术,并通过案例介绍如何使用数据采集方法采集数据。
第4章大数据预处理技术,主要讨论数据可能存在的质量问题、数据预处理的主要任务及常用工具,阐述数据清洗、数据集成、数据变换、数据归约和数据脱敏等数据预处理常用技术,并通过案例展示数据预处理技术的应用。
第5章Excel数据获取与预处理,主要介绍如何使用Excel进行数据获取、数据清洗与转换、数据抽取与合并,并通过案例展示Excel在数据预处理中的应用。
第6章Python数据预处理,主要介绍科学计算库NumPy和数据分析库pandas在数据预处理中的作用,讨论数据的分组、分割、合并和变形,以及缺失值、异常值和重复值的处理,时间序列数据的处理及文本数据的分析,并通过案例介绍如何使用Python进行数据预处理。
第7章数据可视化技术,主要介绍数据可视化的定义及作用、数据可视化的理论基础、Python及pyecharts数据可视化方法。
■配套资源
党的二十大报告中提到:“坚持以人民为中心发展教育,加快建设高质量教育体系,发展素质教育,促进教育公平。”
为了更好地服务院校教学,助力大数据领域工程型人才培养,编者为本书配套打造了多种教辅资源,如课程PPT、教学大纲、教案、源代码、案例包、课后习题答案、微课视频等,选用本书的教师可以到人邮教育社区(www.ryjiaoyu.com)下载相关资源。
■编者团队
本书第1章、第4章和第6章由葛继科教授编写,第2章和第5章由张晓琴博士编写,第3章和第7章由陈祖琴博士编写;全书由葛继科统稿。
■编者致谢
本书在编写过程中得到了谭建荣院士的指导,同时,在校研究生武承志、刘浩因、陈超、刘苏、程文俊、胡庭恺、胥纪超等承担了大量资料及图片的收集与处理工作。此外,编者在编写本书时还参考了众多知名专家与学者的专著、学术论文等成果,在此一并表示衷心感谢!
由于编者水平有限,书中难免存在疏漏或不妥之外,敬请读者批评指正。
编者
2023年2月于重庆