第四节
风险数据的挖掘
一、数据挖掘及意义
数据挖掘(Data Mining)是研究数据趋势、特征及内在联系的自动化分析过程,其目的是发现其中有意义的模式和规律。数据挖掘常被限定在一组特定的方法上,这些方法都可以从数据中提取有用的新信息。主要有六种方法,即,分类、估计、预测、组合或关联法则(affinity grouping or association rules)、聚类(clustering)、描述与可视化(description and visualization)。前三种方法,即分类、估计和预测,属于直接数据挖掘。在直接数据挖掘中,目标是应用可得到的数据建立模型,用其他可得的数据来描述我们感兴趣的某一变量;后三种方法,即分组或关联法则、聚类、描述与可视化,属于间接数据挖掘(undirected data mining)。在间接数据挖掘中,没有单一的目标变量,目标是在所有变量中发现某些联系。在客户关系管理中,数据挖掘正在起着导向作用,只有应用数据挖掘方法,大公司才能将客户数据库的大量数据转变为描述顾客特征的一些图像。数据库所存放的数据主要定位在客户层面上,然而,这一定位经常需要汇总更详细的数据,如每笔电话记录、线路接通的细节或个人在银行的每笔交易。
数据库建立的目的就是要从一个点上观察整个企业,而不是许多狭小定义的“地下仓库”拼凑集合。在建立数据仓库过程中,操作系统中的数据首先要被清理和转换,这样不同来源的数据在数据库中都有相同的定义。即使数据库中存有详细数据,要想取得标准化数据,必须有很强的查询功能。在购买数据挖掘模型之前,需要对软件中嵌入式数据挖掘模型做出评估,尽可能地了解应用软件的应用条件,确信它适合本行特殊需求。
从内部评级角度看,数据挖掘最引人注目的功能,是使用不同技术来发现新的信息和知识,从而进行风险的判断和预测。如,数据挖掘发现某行业的客户经常在违约的前一段时间增加透支账户,这一分析应引起银行关注,可在客户违约前做出相应的防范措施。又如,银行通过数据挖掘,能够很快发现未婚女性的按揭贷款很少出现违约,但仅做人工分析,单看性别或婚姻状况不会得出上述结果。要在数百个风险因素中找出这个组合(女性、未婚),没有数据挖掘工具很难迅速、准确地找出有用的信息。
对银行来说,数据挖掘是一种从大型数据库中提取隐藏的可预测性信息的新型分析技术。它能开采出潜在的模型,找出最有价值的信息,指导信用风险的分析和预测。原始数据可以是结构化的(如关系中的数据),也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。已拥有的知识被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。数据挖掘汇聚了不同的研究者,尤其是数据库、人工职能、数理统计、可视化、并行计算等方面的学者和工程技术人员的智慧。所以,随着银行业务复杂程度提高,数据挖掘将被越来越广泛地运用于内部评级及其他相关风险管理领域。
二、数据挖掘目标
银行需要通过数据挖掘,做出前瞻性的、基于知识的判断和决策。数据挖掘目标是从数据库中发现隐含的、有意义的知识,主要包括以下内容:趋势预测、关联分析、聚类分析、概念描述以及偏差检测。如今通过数据挖掘工具自动在大型数据库中搜索预测性信息,可以迅速由数据本身得出结论。数据挖掘工具使用过去有关营销的数据来寻找未来投资中回报最大的用户;其他可预测问题还包括预报违约,以及判断对特定事件最可能做出反应的群体等。
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则必须具有一定的置信度。
聚类分析是将数据库中的记录划分为一系列有意义子集,是概念描述和偏差分析的先决条件。聚类分析技术主要包括传统的模式识别方法和数学分类方法。20世纪80年代初,麦查尔斯基(Mchalski)提出了概念聚类技术,其要点是在划分对象时不仅考虑了对象之间的距离,还要考虑各类别所具有的内涵,从而避免了传统技术的片面性。
概念描述就是对某类对象的内涵描述,并概括这类对象特征。概念性描述分为特征描述和区别性描述,前者描述某类对象的共同特征,后者描述不同对象之间的区别。生成一个类别特征性描述只涉及该类对象中所有对象的共性。生成类别性描述方法很多,如决策树、遗传算法等。
偏差检测是对数据库中常见的一些异常记录进行检查,偏差包括很多潜在知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本原则是寻找观测结果与参照值之间有意义的差别。
三、数据挖掘流程
数据挖掘流程包括数据取样、数据探索、数据调整、模型化、评价与检验,见图3-9。
图3-9 数据挖掘流程图
四、数据挖掘工具
数据挖掘的基础技术是数据汇总、变量剔除、分类观察以及预测和解释。数据挖掘的主要工具有四类:
一是神经网络工具,其数据挖掘基本过程是先将数据聚类,后分类计算权值。神经网络很适合非线性数据和含噪声数据,所以在市场分类数据库分析和建模中应用广泛。
二是基于规则发现和决策树的工具,其核心是某种归纳算法。这类工具是对数据库的数据进行开采,产生规则和决策树,然后对新数据进行分析和预测,其主要优点是所形成的规则和决策树都容易被银行业务人员所理解。
三是模糊逻辑工具,是应用模糊逻辑进行数据查询排序。该类工具使用模糊概念和“最近”搜索技术的数据查询工具,可以让用户指定目标,然后对数据进行搜索,找出接近目标的所有记录,并对结果进行评估。
四是综合方法工具,采用了多种开采方法。这类工具开采能力强,但价格昂贵,并要花很长时间进行学习,一般适于大型数据库处理。从发展角度看,随着银行数据的不断积累,以及金融业务和衍生产品日趋复杂,数据挖掘技术在内部信用评级以及风险分析领域将展示出广阔的应用前景。
五、数据挖掘用途
使用数据挖掘技术进行不同的分析,可以协助日常业务运作,其中有以下几种用途:
第一,剖析客户顾客的习惯。如,利用信用卡客户的签账记录,了解不同类型的信用卡客户的消费习惯,这可用作寻找潜在客户,开拓新市场。这些分析也可用做诈骗侦察,如数据挖掘技术可揭示某信用卡户突然改变消费模式,这很可能是有不法分子利用信用卡行骗,信用卡公司在这时可与客户进行确认,减少客户的损失。
第二,特性分析。找出解释某类现象的模型,找出违约户的共同特征,从而识别高危客户,尽量减少违约的发生。
第三,风险预测。例如,根据借户历史,了解一些可用于预测的违约指标。根据借户贷款申请及还款记录,发现申请了两次私人贷款的借户,如两次的还款记录都是良好,那以后贷款的违约概率就较低。又例如,数据挖掘技术发现某行业的借户通常在违约前其透支户有一段时间都是高用量,这方面的分析可给予银行多一些考虑,可在借户违约前作出相应跟进。预测本身并不是一种独立存在的方法,任何预测都可以被认为是分类或估计。在对训练样本进行预测时,分类和估计技术都可使用。训练样本使用的是历史数据,要预测的变量值是已知的。使用历史数据建立模型的目的是解释当前发生的行为,如果将当前的数据输入模型,结果可以用来预测未来的行为。