1.1.3 数据挖掘的演化历程_Python数据挖掘实战（微课版）-QQ阅读男生科幻网

上QQ阅读APP看书，第一时间看更新

1.1.3 数据挖掘的演化历程

数据挖掘是一门多学科交叉的新兴学科，融合了数据库、统计、机器学习、高性能计算、神经网络、数据可视化、信息提取、图像与信号处理和空间数据分析等多种理论、方法和技术。

数据挖掘的最早提出可以追溯到1989年在美国底特律召开的第十一届国际人工智能联合会议（IJCAI）的专题讨论会，当时数据挖掘被称为“知识发现”；1995年，在加拿大召开了第一届知识发现和数据挖掘国际学术会议；1997年，数据挖掘拥有了该领域的第一本学术刊物——Knowledge Discovery and Data Mining；随后，一大批研究成果、论文和软件工具相继出现，数据挖掘逐渐成为计算机领域的一个热门方向。

而在数据挖掘出现之前，人们对数据的处理方式先后经历了数据搜集、数据访问、数据仓库和决策支持等阶段，表1-1列出了这些阶段的特点和差别。由表1-1可见，数据挖掘对数据的分析和利用结果通常是预测性、前瞻性的，实现了更高层次的数据利用，更能满足人们利用数据资产的需求。

表1-1 数据挖掘的演化历程

从前面的讨论可知，数据挖掘应用广泛，其采用的技术和方法也多种多样。通常，可以将数据挖掘任务分为预测性任务和描述性任务两类。

•预测性任务：目标是选用一些说明变量（统计学中称为“自变量”，本书也称为“特征”或“属性”），通过在历史数据上训练建立数据挖掘模型，建立它们和目标变量（或因变量）之间的关系，从而能够对新数据的目标值进行预测。

•描述性任务：目标是通过训练模型发现数据自身潜在的模式或规律，例如，发现簇、关联关系、异常等。

根据在训练数据挖掘模型的过程中是否需要目标变量参与，数据挖掘任务也可以分为有监督式数据挖掘（需要目标变量）、无监督式数据挖掘（不需要目标变量），以及半监督式数据挖掘（只需要少量数据的目标变量）。

更具体地，根据应用场景和任务需求不同，数据挖掘任务可以细分为分类（Classification）、回归预测（Regression）、聚类（Clustering）、关联分析（Association Analysis）、异常检测（Anomaly Detection）、智能推荐（Intelligent Recommendation）、时间序列分析（Time Series Analysis）等。表1-2列出了几类数据挖掘任务的特点和典型应用场景。

表1-2 数据挖掘任务的特点和典型应用场景

续表

本周热推：

工程数学：复变函数面点工艺学邓树勋《运动生理学》（第2版）笔记和课后习题（含考研真题）详解现代企业管理张元鹏《微观经济学》（中级教程）笔记和课后习题详解