商务智能
上QQ阅读APP看书,第一时间看更新

1.5 什么是数据挖掘

1.5.1 数据挖掘的定义

数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题。

从技术角度理解,所谓数据挖掘,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。这个定义中包含的意思:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;不要求发现放之四海皆准的知识,仅支持特定地发现问题。数据挖掘是一个多学科交叉的研究领域,它融合了数据库(Database)技术、机器学习(Machine Learning)、 人工智能(Artificial Intelligence)、知识工程(Knowledge Engineering )、统计学(Statistics )、面向对象方法(Object-Oriented Method)、高性能计算(High-Performance Computing)、信息检索(Information Retrieval)以及数据可视化(Data Visualization)等最新技术的研究成果。

从商业角度理解,所谓数据挖掘,就是按企业的既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取能够辅助商业决策的关键性数据。数据分析已经有很多年的历史,过去数据收集和分析的目的是用于科学研究,但由于当时计算能力的限制,所以难以对大量数据进行分析。现在,由于各行业的业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于商业运作而产生的。数据挖掘是一类深层次的数据分析方法,分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题:企业数据量非常大,而其中真正有价值的信息却很少。因此,商业机构需要利用数据挖掘技术,在这些大量数据中进行深层分析,以获得有利于商业运作、提高竞争力的信息,帮助决策者做出正确的决策。

1.5.2 数据挖掘的功能

数据挖掘通过预测未来趋势及行为,而做出基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,其主要有以下5类功能。

1.自动预测趋势和行为

数据挖掘技术自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题:数据挖掘技术使用过去有关促销的数据来寻找未来投资中回报最大的用户。其他可预测的问题包括预报破产,认定对指定事件最可能做出反应的群体等。

2.关联分析

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时我们并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

3.聚类

数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。20世纪80年代初,Mchalski提出了概念聚类技术,其要点是:在划分对象时,不仅需考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。

4.概念描述

概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

5.偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法:寻找观测结果与参照值之间有意义的差别。

1.5.3 数据挖掘的对象

数据挖掘可以应用于任何类型的数据储存库以及瞬态数据,其主要包含以下几种对象。

1.关系数据库

关系数据库是业务数据库系统中最常用的,它将业务中产生的数据根据数据之间的关系进行分解和组合,形成一张张二维表的结构。每个表都被赋予唯一的名字,每个表包含一组属性,表中通常存放着大量元组。关系表中的每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述。关系数据库具有较好的结构化数据,关系数据可以通过SQL语言这样的关系查询语言进行查询。关系数据库是数据挖掘中最常见、最丰富的数据源,是数据挖掘研究的一种主要数据形式。

2.数据仓库

数据仓库是一个从多个数据源收集的信息储存库,其通过数据清理、数据变换、数据集成、数据装入和定期数据刷新过程构造。由于数据仓库是面向主题的,并采用多维数据库结构,所以更适合针对某个主题进行分析。基于数据仓库而构建的数据立方体提供了数据的多维视图,并允许预计算和快速访问数据。OLAP分析工具是基于分析员的主观要求,因此对数据中存在的隐含规则仍需要更多的数据挖掘工具,需进行更深入的自动分析,从而达到知识发现的目的。

3.文本数据库

文本数据库是包含对象的词描述的数据库。这种描述不是简单的关键词,而是长句或短文,如产品介绍、错误或故障报告、警告信息、汇总报告、笔记或其他文档。文本数据库可能是高度非结构化的,如Web页面;可能是半结构化的,如E-mail消息、HTML/XML页面。通过挖掘文本数据可以发现文本文档的简明的描述、关键词或内容管理,以及文本对象的聚类行为。挖掘的目标包括:关键词或特征提取、相似检索、文本聚类、文本分类。

4.多媒体数据库

多媒体数据库存放图像、音频和视频数据。对于多媒体数据挖掘,我们需要将存储和搜索技术与标准的数据挖掘方法集成在一起。较好的方法包括构造多媒体数据立方体、多媒体数据的多特征提取和基于相似性的模式匹配。

5.数据流

数据流的特点:海量,动态变化,以固定的次序流进和流出,只允许一遍或少数几遍扫描,要求快速或实时响应。比如,各种类型的科学和工程数据,时间序列数据和产生于其他动态环境下的数据(电力供应、网络通信、股票交易、电信、Web单击流、视频监视、气象、环境监控数据)。挖掘数据流涉及数据中的一般模式和动态变化的有效发现。大部分数据流存在于相当低的抽象层,而分析者常常对较高抽象或多抽象层更感兴趣。因此,我们应当对流数据进行多层、多维联机分析和挖掘。

6.互联网数据

互联网数据的特点是半结构化。互联网上的每个站点就是一个数据源,每个数据源都是异构的。互联网数据挖掘需要解决异构数据的集成问题,互联网数据的查询问题。另外,要定义一个半结构化数据模型,需要一种半结构化模型抽取技术。面向互联网的数据挖掘比面向单个数据库或数据仓库的数据挖掘要复杂得多。

1.5.4 数据挖掘的步骤

数据挖掘的步骤会随不同领域的应用而有所变化。每种数据挖掘技术也会有各自的特性和使用步骤,针对不同问题和需求所制订的数据挖掘过程也会存在差异。此外,数据的完整程度、专业人员支持的程度等都会对建立数据挖掘过程有所影响。这些因素造成了数据挖掘在各不同领域中的运用、规划,以及流程的差异性。即使是同一产业,也会因为分析技术和专业知识的涉入程度不同而不同。因此,数据挖掘过程的系统化、标准化就显得格外重要。

数据挖掘的基本步骤如下所述。

1.业务对象的确定

清晰地定义出业务对象,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,难以获得成功。

2.数据准备

(1)数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。

(2)数据的预处理:研究数据的质量,为进一步的分析做准备,并确定将要进行的挖掘操作的类型。

(3)数据的转换:将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的,建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

3.数据挖掘

对所得到的经过转换的数据进行挖掘。除了选择合适的挖掘算法外,其余一切工作都能自动地完成。

4.结果分析

解释并评估结果,其使用的分析方法一般应视数据挖掘操作而定,通常会用到可视化技术。

5.知识的同化

将分析所得到的知识集成到业务信息系统的组织结构中去。

由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划工作。事实上,许多专家都认为在整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接。可见,在进行数据挖掘技术的分析之前,还有许多准备工作要完成。

1.5.5 数据挖掘在商务智能中的应用

商务智能的发展已经逐渐渗透到金融、电信、零售、医药、制造、政府等各个行业和领域,成为大中型企业经营决策的重要组成部分。若将数据挖掘技术结合商务智能应用于传统商业领域,则可提高数据分析能力,优化业务过程,提高企业竞争力。具体应用如下。

1.商品关联分析

商品关联分析可以基于销售数据与商品之间的关系进行关联分析,以此判断某些商品是否应该捆绑销售。如果存在关联关系,则可以创建一个在线的销售指导系统,引导消费者快速找到关联商品,或者帮助企业决定如何捆绑销售能将利润最大化。

2.客户流失分析

企业可以利用数据挖掘技术管理客户生命周期的各个阶段,包括争取新客户和保持老客户。如果能够确定好客户的特点,那么就能为客户提供有针对性的服务。比如,已经发现了购买某一商品的客户特征,就可以向那些具有这些特征但还没有购买此商品的客户推荐这个商品;找到流失客户的特征就可以在那些具有相似特征的客户还未流失之前进行针对性的弥补。

3.市场分析

市场分析可以通过对客户自动分组来细分市场,并由此结果做趋势分析,以设计市场活动。

4.预测

预测即预测销售量和库存量,并获知他们之间的关联关系。

5.数据浏览

由数据挖掘算法发现的模式能更好地了解客户。它可以比较高价值客户与低价值客户之间的差异,或者分析喜爱同一种产品的不同品牌的客户之间的区别。

6.Web站点分析

Web站点分析用来分析网站用户行为,归纳相似的使用模式。

7.营销活动分析

营销活动分析可以准确定位有效用户,把钱花在刀刃上,让每一分市场经费都发挥最大的效用。

8.数据质量分析

数据质量分析是当数据被装载进数据仓库时检查其中可能丢失的数据或是异常数据。

9.文本分析

文本分析用来分析反馈信息,找到客户或者员工有关的共同主题或趋势。