1.4 R数据分析包
R为源代码开放的软件,所以有许多由用户贡献的可选模块,这些模块称为包(package),包可以提供横跨各个领域、数量惊人的新功能,包括地理数据分析、机器学习与统计学习、多元统计、药物动力学数据分析、计量经济、金融分析、并行计算、数据库访问等。仅机器学习与统计学习相关的包就可以实现分类、聚类、关联规则分析、时间序列分析等功能。所有的包都可以通过http://cran.r-project.org/web/packages网站下载安装并使用,包默认存储目录为库(library)。
分类、聚类、关联规则分析和时间序列分析在数据分析与挖掘中常常会被用到,相关的包如表1-1所示。
表1-1 R中和数据分析与挖掘相关的包
R中管理包的函数颇多,第一次安装包需要使用install.packages()命令。不加任何参数的install.packages()可以显示CRAN的镜像站点,选择其中一个站点,可以看到所有包的列表;也可以利用包的名称进行下载及安装。例如,如果需要用绘图包ggplot2,则可以使用install.packages("ggplot2 ")下载及安装。一个包只需要安装一次,不过像其他软件一样,包经常会被作者更新,可以使用up.packages()对已经安装的包进行升级,还可以通过installed. packages()查看已经安装的包的各种属性。函数remove.packages()可以删除已经安装的包,但是需要指定包所在的位置,如移除tree包的命令为remove.packages ("tree", lib=file. path("C:/R/Library"))。
在使用与包相关的函数时,首先要通过函数library()加载包。例如,使用ggplot2包,需要先执行命令library(ggplot2),在一次会话中只需要加载一次包。