2.5.2 Python其他知识点
1.Linux环境下Python开发环境的部署
在后期的文章里会引导大家部署Linux环境,以便学习数据仓库,大数据生态圈相关的一些知识。这些对于做数据挖掘前期的数据清洗、加工和转换很重要。
(1)下载喜欢的Python版本。
Python版本主要是2.x版本和3.x版本,考虑到Python版本的差异性比较大,虽然未来主流还是往3.x靠近,但是考虑现在学习书籍主要还是以2.x为主,所以选择用Python 2.7.9进行开发学习。现在安装的Linux环境都自带Python版本,但是版本比较低。
(2)安装Python的方法有很多,这里选择下载安装包进行安装。
切换root权限,进入Python安装包所在的目录,像安装常用软件的方式一样进行安装(可以使用本地电脑进行下载,上传到Linux目录下)。
解压安装程序压缩包(tar -xzf Python-2.7.9.tgz)。再进入Python-2.7.9文件夹(蓝色的为文件夹;绿色和黑色的为文件;红色的为压缩包),在其目录下运行./configure。然后会生成一个Makefile文件。接着输入“make >>”,再输入make install命令(它的效果是把生成的执行文件拷贝到Linux系统中必要的目录下)。
(3)在线安装工具pip的部署。
下载这两个安装脚本,即ez_setup.py,下载地址为http://pan.baidu.com/s/1o8ydmxs,密码为yfa9; get-pip.py,下载地址为http://pan.baidu.com/s/1qYNH8za,密码为cwpt。
安装ez_setup.py,执行命令Python ez_setup.py,注意是在该脚本文件目录下进行的。然后添加环境变量到Linux的path路径下。
# vim /etc/profile
添加
export PATH=/usr/local/bin:$PATH"
保存并退出,然后运行。
source /etc/profile
再安装get-pip.py,为了防止错误,先按如下两个命令进行安装。
yum install openssl -y yum install openssl-devel -y
(4)重新安装Python软件。
进入Python软件文件目录,运行./configure。找到文件夹Modules,进入该文件夹。vim编辑Setup脚本,在最后找到下面的注释。
#zlib zlibmodule.c -I$(prefix)/include -L$(exec_prefix)/lib -lz
取消注释的标志,再回到软件目录,运行make和make install程序。
(5)执行Python get-pip.py进行安装。
完成以上步骤就完成了Python后期开发环境和在线安装库的功能。
(6)安装一些常用的库。
· MySQLdb库的安装:运行pip install mysql-Python(MySQLdb),如果这个库安装出错,则运行yum install mysql-devel后,再执行安装即可。
· iPython的安装:回到初始目录,运行pip install iPython即可。
2.Python自然语言的学习
笔者主要是做业务方向的数据挖掘,与结构化数据、半结构化数据打交道比较多,而且和业务接触会更紧密些。如果有做Python自然语言处理的朋友,可以学习一下nltk库。
直接运行pip install nltk进行安装。进入IPython的交互环境,载入import nltk包,再执行nltk.download()进行下载。随即会打开一个下载页面,选择存储路径和“book”选项进行下载。然后进行向导安装,如果输入from nltk.book import * 后能成功运行就代表安装完成。(入门学习文档:http://www.nltk.org/)。
以上所有内容都涉及大数据挖掘学习的入门知识,也是每一个入门与转型的朋友应该掌握的。