1.1.3 数据挖掘的演化历程
数据挖掘是一门多学科交叉的新兴学科,融合了数据库、统计、机器学习、高性能计算、神经网络、数据可视化、信息提取、图像与信号处理和空间数据分析等多种理论、方法和技术。
数据挖掘的最早提出可以追溯到1989年在美国底特律召开的第十一届国际人工智能联合会议(IJCAI)的专题讨论会,当时数据挖掘被称为“知识发现”;1995年,在加拿大召开了第一届知识发现和数据挖掘国际学术会议;1997年,数据挖掘拥有了该领域的第一本学术刊物——Knowledge Discovery and Data Mining;随后,一大批研究成果、论文和软件工具相继出现,数据挖掘逐渐成为计算机领域的一个热门方向。
而在数据挖掘出现之前,人们对数据的处理方式先后经历了数据搜集、数据访问、数据仓库和决策支持等阶段,表1-1列出了这些阶段的特点和差别。由表1-1可见,数据挖掘对数据的分析和利用结果通常是预测性、前瞻性的,实现了更高层次的数据利用,更能满足人们利用数据资产的需求。
表1-1 数据挖掘的演化历程
从前面的讨论可知,数据挖掘应用广泛,其采用的技术和方法也多种多样。通常,可以将数据挖掘任务分为预测性任务和描述性任务两类。
•预测性任务:目标是选用一些说明变量(统计学中称为“自变量”,本书也称为“特征”或“属性”),通过在历史数据上训练建立数据挖掘模型,建立它们和目标变量(或因变量)之间的关系,从而能够对新数据的目标值进行预测。
•描述性任务:目标是通过训练模型发现数据自身潜在的模式或规律,例如,发现簇、关联关系、异常等。
根据在训练数据挖掘模型的过程中是否需要目标变量参与,数据挖掘任务也可以分为有监督式数据挖掘(需要目标变量)、无监督式数据挖掘(不需要目标变量),以及半监督式数据挖掘(只需要少量数据的目标变量)。
更具体地,根据应用场景和任务需求不同,数据挖掘任务可以细分为分类(Classification)、回归预测(Regression)、聚类(Clustering)、关联分析(Association Analysis)、异常检测(Anomaly Detection)、智能推荐(Intelligent Recommendation)、时间序列分析(Time Series Analysis)等。表1-2列出了几类数据挖掘任务的特点和典型应用场景。
表1-2 数据挖掘任务的特点和典型应用场景
续表