前言
随着机器学习的兴起和数据科学的应用发展,Python逐步成了最受欢迎的语言之一。它简单易用、逻辑明确并拥有海量的扩展包,因此不仅成为机器学习与数据科学的首选语言,同时在网页、数据爬取和科学研究等方面也成为不二选择。
《Python程序设计》是中国信息协会大数据分会副会长刘鹏教授组织编撰的“高级大数据人才培养丛书”之一。一是考虑程序设计要注重实际应用开发,二是由于所在丛书中《数据挖掘》《大数据》《云计算》等对关联规则、神经网络、推荐系统、云计算算法有详细的介绍,故本书没有再介绍有关这几部分的理论及技术。另外,本书的全部实验均可在大数据实验平台(http://bd.cstor.cn)上远程开展,也可在高校部署的BDRack大数据实验一体机上本地开展。
全书分为12章,其主要内容如下:
第1章“Python基础”。主要介绍Python的特点,Python的安装与运行、程序控制等。
第 2 章“数据类型”。学习 Python 提供的基本数据类型:整型、浮点型、列表、元组、字典、字符串等。
第 3 章“文件”。学习如何使用 Python 程序对文件进行操作,主要包括如何读写文件、如何处理Word文件、如何处理.pdf文件及压缩文件等。
第4章“程序调试”。主要学习程序运行时发生错误或异常的各种处理方法,以及修复程序bug的各种调试手段等。
第5章“面向对象程序设计”。结合Python学习面向对象程序设计,主要包括面向对象程序技术的基本概念、类的定义和对象、类属性、类的方法、类的继承性与多态性等。
第6章“连接数据源”。主要学习如何基于Python第三方库pandas处理CSV数据源、Excel数据源、JSON数据源,以及数据库的操作。
第7章“网络爬虫”。主要学习如何使用Python网络爬虫为特定用户准备数据资源,并以热门电影搜索、大数据相关论文文章标题采集、全国空气质量数据爬取为案例进行爬虫项目实战。
第 8 章“数据挖掘”。学习如何用 Python 数据分析工具进行数据挖掘,主要包括数据预处理、分类与预测、聚类分析,并以信用评估、影片推荐系统等进行数据挖掘项目实战。
第 9 章“自然语言处理”。学习 Python 在自然语言处理方面的应用,主要包括如何应用 NLTK、jieba 完成分词、词性标注、命名实体识别及语法分析等,并以搜索引擎为例进行自然语言处理项目实战。
第10章“数据可视化”。学习如何使用Python图形库进行绘图操作,实现数据的可视化,主要包括Pillow、Matplotlib、Echarts的使用等。
第11章“Web和移动应用”。结合案例学习如何基于Django进行Python Web开发,以及如何基于Python Kivy开发Python移动应用。
第12章“与云结合”。主要介绍国内各种云服务平台,以及如何运用Python API、Python SDK实现访问。
本书框架和内容主要由刘鹏教授规划,第1~4章由唐万梅编写,第5~7、10章由景雪琴编写,第8、9、11、12章由张雪萍编写,全书由张雪萍统稿润色。
本书非常适合作为高校教材使用。自2012年始,本人所在学院引进的外方课程——计算机程序设计就是用的Python语言,2016年本人到美国访学期间了解到,美国几乎所有大学非计算机专业都设有Python程序设计课程。因此,建议高校为计算机及其相关专业开设Python程序设计课程。
本书力求系统全面、通俗易懂,且每章均有习题,可作为高等院校计算机及相关专业的本科和研究生教材。高职高专院校也可以选用本书部分内容开展教学。课程教学建议为60学时,其中,上机实验设16~24学时为宜。
感谢丛书主编刘鹏教授和金陵科技学院张燕副校长的大力支持和帮助,感谢云创大数据武郑浩老师的辛勤付出,感谢云创大数据沈大伟、保磊老师的技术支持,感谢诸位审稿专家的不吝赐教,感谢诸位编委的鼎力相助。
感谢我的研究生王军峰,第8、9、11、12章的实验项目由他完成实际上机验证,这为在大数据实验平台上开展教学实践奠定了基础。
由于编写时间仓促,水平所限,书中难免会出现一些错误或不准确的地方,恳请读者批评指正。如果您有宝贵意见,可通过微信号 zz67789875 或邮箱zhang_xpcn@aliyun.com联系我。期待在技术之路上与您互勉共进。
张雪萍
于河南工业大学