前言
数据可视化旨在清晰、直观地展示数据背后的信息和知识。“大数据时代”产生了大量分类汇总并以表格或文本形式体现的信息,这对信息的展示方式和展示效率提出了进一步的要求,基于统计分析和建模的可视化方式尤其重要。党的二十大报告指出:实施科教兴国战略,强化现代化建设人才支撑。然而,在当前国内统计学学科的建设中,数据分析与可视化内容鲜有被涵盖,且并未在高校中得到普及。本书可填补市场中的空白,提升统计学学科建设中数据分析与可视化的重要性。本书注重实际操作,可为学生和相关工作人员快速上手、掌握数据分析与可视化的主要知识提供强大帮助。
本书以Python框架为基础,系统地介绍数据分析与可视化的理念、工作流程、常见的可视化工具及其在统计建模方法上的应用和展示,并针对特定类型的数据、特定的应用场景展示详尽的实际案例,辅以对应章节的教学资源,让读者由浅入深地学习数据分析与可视化。各章主要内容如下。
第1章主要介绍数据、信息、知识之间的差异,如何收集、处理和组织数据,以及如何通过对数据的可视化展示来帮助决策。
第2章介绍如何生动地对数据进行可视化展示,一些较好的可视化实践方式和基本的统计学术语,Python中的可视化工具,以及交互式可视化的理念。
第3章介绍Python IDE工具,如何利用Anaconda进行可视化展示,以及常见的交互式可视化的程序库(如bokeh、VisPy)。
第4章介绍常见的Python中的数值计算和用于交互式绘图的程序库(如NumPy、SciPy),如何定义标量和切片检索,常见的数据结构(如堆栈、元组、队列),以及matplotlib可视化程序库。
第5章介绍常见的机器学习方法和预测模型(如回归方法、KNN算法、逻辑回归、支持向量机、主成分分析),并针对这些常见的机器学习方法进行可视化展示和分析。
第6章介绍常见的金融数据结构及其对应的统计模型,同时,针对这些常见的模型进行可视化展示,并对其中的统计学方法进行简单的介绍。
第7章主要介绍生物网络数据的可视化,包括对带有图结构的数据进行统计建模及可视化展示,并针对该类数据的检验给出生动的可视化解释。
第8章主要介绍如何实现统计模拟、其他常用的Python统计学函数、信号处理等内容,并对比其他平台的可视化工具(如R语言)。
为了使读者更好地学习数据分析与可视化工具的相关知识,本书以让读者掌握常见的Python可视化工具为目标,通过文字、代码和代码输出结果相结合的形式,由浅入深地讲解数据分析与可视化的常用方法和流程。本书特点如下。
1.详尽的讲解说明
本书用详细的文字说明,结合生动的案例,展示数据分析的流程和可视化的常用工具,可以让初学者迅速掌握常见的可视化工具,从而深入地分析和展示图片和程序输出。
2.丰富的案例和代码
本书中有大量的实际数据分析案例和完整的可运行Python代码,可以让读者由浅入深地进行反复推敲和自我练习,更好地理解数据分析与可视化工作的操作流程和特点。
3.广泛的受众群体和详尽的教辅材料
本书主要针对数据科学、统计学,以及商学等领域进行内容组织,并配有大量实际案例和习题以及教学资源,涉及金融、经济管理、医疗影像、健康大数据、地理数据等方面的知识,内容翔实,能让授课教师充分备课,让学生全面学习。
编者建议读者以文字内容和上机实验相结合的方式,对本书的内容进行学习,以得到更好的学习效果。针对高校学生,课时建议如下:每周2课时,17周完成,共计34课时。其中,第1章、第2章,共4课时,其中上机2课时;第3章、第4章,每章4课时,共8课时,其中上机4课时;第5章~第7章,每章5课时,共15课时,其中上机7课时;第8章,共7课时,其中上机3课时。
本书由冯兴东、刘鑫担任主编。其中,冯兴东教授负责本书第1章~第3章及第8章内容的编写,并负责通读和审阅全文;刘鑫副教授负责本书第4章~第7章内容的编写,并参与审核全文。编者对支持本书编写工作的同行和专家学者,以及上海财经大学,表示由衷的感谢。
由于编者水平有限,书中难免存在欠妥之处,因此,编者由衷希望广大读者朋友和专家学者能够拨冗提出宝贵的建议和意见,建议和意见可直接反馈至编者的电子邮箱:liu.xin@mail.shufe.edu.cn。
编者