数据分析与挖掘:R语言
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

随着移动互联网、物联网、云计算等信息技术产业的快速发展,信息传输、存储、处理能力快速上升,使得可存留数据量呈指数级递增。这些数据具有量大、多样、真实等特点,比传统的实验室数据更具有说服力,更有价值,而要从这些数据中获取信息,必将遇到数据难理解、难处理和难组织等问题,1998年美国科学家约翰·马西(John Mashey)用“大数据”(Big Data)描述了这些挑战,引发了广泛的关注与思考。

大数据的出现改变了传统数据收集、存储、处理的方式,数据采集方式更加多样化,数据来源更加广泛,数据分析也从发现简单因果关系的传统模式演变为寻找丰富联系的相关关系。要从大数据中发现、挖掘出隐藏的、预先没有设定的、未知的、有潜在价值的关系、模式或趋势,需要解决两个方面的问题:一是处理数据的技术与工具;二是处理数据所需要的方法与模型。

常用的数据分析与挖掘工具有MATLAB、SAS、SPSS、Python、R语言等。MATLAB具有强大的科学与工程计算能力,以矩阵计算为基础,有丰富的可视化功能,但是不能提供专门的数据分析环境。SAS、SPSS都是非常知名的统计分析软件,SAS具有强大的数据管理及绘图功能,但是对程序的编译能力有较高要求;SPSS的界面非常友好,多数操作都可以通过拖曳鼠标、单击按钮来完成,但是稳健性不够。Python、R语言均是近几年知名度较高的开源软件,都具有强大的数据分析及可视化功能,相对来说,R语言能够为使用者提供更灵活的统计分析方法,所以本书选择R语言作为实现数据分析与挖掘的工具。

数据分析与挖掘以统计学为基础,实现描述性、预测性、指导性三个层次的分析目标与应用。常用的实现方法及模型有聚类分析、回归分析、决策树(分类算法)、关联规则分析、人工神经网络、遗传算法、可视化等。本书在第2章中简单介绍了分类与预测的部分模型,力图采用简明扼要的语言使读者能够对模型有所了解。

第3章到第7章,分别采用数据挖掘网站的用户脱敏数据、生活服务点评网站数据、水冷中央空调系统运行数据、电商网站的评价文本、单只股票数据介绍大数据分析与挖掘的一般方法,试着用简单易懂的模型、完整的分析流程、详尽的代码将分析工具R语言与分析模型融合在一起,让读者能够体会数据分析与挖掘的全貌。

本书的每一章节都是独立的,读者可以根据自己的需要选择阅读。第1章介绍R语言的简单用法,第2章对数据挖掘流程及方法进行简单介绍,第3章阐述采用混合推荐算法对网站用户进行网页智能推荐,第4章阐述采用聚类分析对网站客户进行分群,第5章阐述采用回归分析对水冷中央空调系统进行优化,第6章阐述采用LDA主题模型对评价文本进行分析,第7章阐述采用量化投资策略对股票的波段投资进行分析。

为了使分析过程容易理解并能实现分析目的,本书未详细比较与评价分析结果,同时在模型的选择上没有过多考虑适用性,这是本书的缺陷,读者在阅读的过程中如果有这方面的思考或需要相关的数据、完整的源代码,欢迎与我们联系(caiyy@cque.edu.cn)。

著者
2021年5月