前言PREFACE
Excel是一款非常流行的电子表格软件。它是一种很好的数据存储方式,同时也是一款强大的数据清洗、分析工具。任何事物有强就有弱。Excel本身已经内置了很多实用的功能,为什么还要选择Pandas工具来处理Excel数据呢?
首先,在Excel进行数据清洗时,如果工作重复度比较高,反复使用手动操作效率太低,不具有自动化功能。当然,也可以用Excel内置的VBA编程进行二次开发,解决自动化问题,但Pandas更胜一筹,其代码简洁,灵活性强,运算速度更快。
其次,Pandas是跨平台的,在不同的操作系统上均可以使用。即使没有安装电子表格软件,也可以使用。不但如此,Pandas还支持TXT、CSV、HTML和数据库等更多格式的数据获取方式。
那么,什么是Pandas?Pandas是Python中的一个数据分析包,是基于NumPy的(提供高性能的矩阵运算,这就标志着它的运算速度快)。并且Pandas提供了超强的数据清洗功能,可以用于数据挖掘和数据分析,可以说Pandas就是为数据分析而生的。
本书从学习Excel数据清洗的视角来学习Pandas,更易上手。很多时候,Pandas中编写的数据处理代码像Excel中的工作表函数公式一样,一条代码就能完成任务,优雅又简洁。
本书主要内容
第1章介绍Anaconda集成环境的安装,Jupyter Notebook的使用,以及Python语言的基础语法应用。
第2章介绍Pandas对Excel/CSV文件的读取与保存设置,并介绍Pandas的DataFrame和Series两大核心数据结构。
第3章介绍NumPy数组的创建与转换,并介绍NumPy数组的类型、缺失值、重复值等预处理,以及Series和DataFrame两种数据结构的各种创建方法。
第4章介绍对DataFrame表格属性的获取与修改,表格的各种切片选择方法,以及对表格增、删、改、查的设置。
第5章介绍DataFrame、Series和单值3种不同结构数据之间的运算方法,并介绍Pandas中常用的分支判断函数,以及Pandas中常用的循环遍历函数和常用的统计函数。
第6章讲解正则表达式的使用方法,Pandas中拆分、提取、查找、替换、去重、排序、合并等常用字符串处理函数。
第7章介绍时间戳、时间差数据处理的相关函数。
第8章介绍Pandas中分层索引的设置、创建,分层索引的切片选择方法,以及分层索引的重命名、重置、排序、删除等操作。
第9章讲解Pandas中的分组处理技术,以及Pandas中的数据透视表技术。
第10章介绍DataFrame表格的纵向和横向拼接技术,如何批量读取Excel工作表数据为DataFrame表格,以及批量保存DataFrame表格数据到多工作表、多工作簿。
阅读建议
本书是一本基础入门加实战的图书,既有基础知识,又有丰富示例,包括详细的操作步骤,实操性强。本书对Pandas的基本概念讲解很详细,从第4章开始,在每章的最后一节配有对整章知识应用的示例,并提供完整代码,运行代码就可以立即看到效果。这样会给读者信心,在轻松掌握基础知识的同时快速进入实战阶段。
建议读者对Excel有一定的操作基础,这样更方便对照学习。如果读者有一定的Python基础则更好,没有Python基础也不用担心,第1章讲解关于Python的基础知识,在Pandas中应用Python的技术点也不多,例如在Pandas中基本不会使用Python循环语句。因而不用担心Python基础不好而学不会Pandas。
本书源代码
扫描下方二维码,可获取本书示例的源代码:
说明:文中需扫码阅读的请扫此付费二维码。
致谢
成书不易,在写作本书的过程中,笔者得到了很多人的支持与帮助。首先,感谢我的父母、岳父母及妻子,感谢你们一如既往对我工作的支持,成为我坚实的后盾;然后还要感谢女儿雨柔、儿子果儿。你们是我坚持写作的动力,一位普普通通的父亲想给你们树立一个榜样。无论何时都不能忘记学习,哪怕每天只能进步一点点。只有知识才是我们一生中最重要的财富。希望你们在自己的人生道路上,能保持一颗不抛弃、不放弃的心。
由于时间仓促,书中难免存在不妥之处,请读者见谅,并提宝贵意见。
曾贤志
2022年1月