金融管理研究(第11辑)
上QQ阅读APP看书,第一时间看更新

基于KNN的公司流动性风险识别研究我们感谢王周伟老师的宝贵意见和前期工作,以及傅毅老师的有益建议。

谢佳芳谢佳芳:1992.12—,女,硕士研究生,上海师范大学商学院。

摘要:企业陷入流动性风险进而资金链断裂最终走向破产是企业经营中比较常见的问题,因而对企业流动性风险进行研究具有重要理论和现实意义。本文针对企业流动性风险的预警和成因进行了分析,选取20122015上海和深圳证券交易所38个被ST的制造业上市公司,同时随机选取38个正常状况的制造业上市公司进行配对研究。首先采用周首华等(1996)的F分数模式对企业的流动性风险进行评估(F分数模式是在Z 评分模型的基础上改进的财务危机预测新模型),并将评估的结果分为两个类别。另外根据企业日常经营活动,可以判断造成企业资金缺口的因素既有经营性的又有长期投资和融资性的,从而提炼出八个可能导致企业产生流动性风险的因素,把它们进行量化并采用熵权法进行加权处理。最后将样本数据70%作为训练集,30%作为预测集,用基于变量重要性的K 近邻分析法和基于观测相似性的K 近邻分析法进行预测。同时用决策树模型中的C4.5C5.0算法对样本数据进行对比检验,结果发现使用K 近邻分析法的train函数具有最好的预测效果。

关键词:流动性危机;Z-score模型;熵权法;K 近邻分析法;决策树模型

1 引言

宏观经济波动导致企业经营的不确定性加大,成为企业破产主要的导火索。因此如何识别企业的流动性风险,并且确定导致流动性风险的成因,是理论和实物比较关注的话题。

目前对于流动性风险的关注主要体现在商业银行[1][2]和证券市场[3]中。商业银行的流动性主要有资产的流动性和负债的流动性。前者是指银行的资产迅速变现的能力,后者是指企业获得融资的能力。当两者面临不确定性时便产生了流动性风险。在证券市场中,流动性是金融资产的三大属性之一。证券市场的流动性风险产生的连锁反应对整个金融市场体系都有着毁灭性的打击。

由于对以上商业银行的流动性风险和证券市场流动性风险的相关研究已经取得了很大的进展,这里不再进行赘述,本文主要探讨的是企业的流动性风险。企业的流动性是指企业满足货币支付需求的能力和获取现金的能力。流动性又可以分为短期的流动性和长期的流动性:短期流动性是指企业的即时支付能力;长期的流动性(也称为结构流动性)是指资产和负债的构成,它影响企业获取现金的能力。企业的正常经营离不开适当的流动性结构,流动性过大,企业的经营成本较高,不利于企业的发展;企业的流动性过低,会出现流动性风险,企业有出现破产的可能。流动性不足的危机依程度不同主要体现在:现金股利分配收到干扰;投资计划受到影响;日常经营出现困境;不能偿还债务导致破产。破产对企业造成的损失最大,因此企业为了避免破产需要提前对企业的流动性风险进行评估,这里就需要进行流动性风险预警。

企业流动性预警始于财务报表,通过有关数据设置一些敏感性指标并观察其变化,能够及时判断企业在当前状况下是否存在流动性危机。随着我国市场经济体制改革的不断深化,市场竞争日趋激烈,构建流动性预警系统,对企业及时发现存在的流动性隐患并采取相应的防范措施有重要意义。早些年的研究主要是基于定性模型和经验模型,现在用定量模型来预测流动性危机也渐渐普及开来。值得注意的是,在企业流动性风险判别模型中,非流动性指标和传统的流动性指标(如流动比率、速动比率、超速动比率)同样重要。

2 文献综述

检索“企业流动性风险”可以发现相关文献并不多,但是与“财务风险”相关的文献却比比皆是。这里我们可以思考两者之间是否有必然的联系:适度的流动性能够保障企业的正常经营,企业的流动性出现问题直接导致企业财务危机,所以对企业财务危机的管理实质上是对流动性的管理。因此,本文参考的文献主要集中在“企业流动性风险”和“财务风险”相关领域。

2.1 对企业流动性的研究

车嘉丽[4](2005)对企业流动性及流动性风险研究内容进行了综合评述,并指出企业流动性风险未来的研究方向。长青、张永正、白丽娜[5](2012)通过对EVA指标考核现状进行分析,指出增强流动性风险管理特性的新指标具有普遍性,能为企业绩效评价管理提供新思路与方法。易建平、焦阳、王春峰[6](2013)以2000-2010年我国A股上市公司为研究样本,研究了股票市场的流动性,并对股票市场流动性和企业融资决策之间的关系进行了研究。王春峰、孙会国、房振明[7](2012)从公司财务理论和资产定价理论出发,分析资产流动性通过“流动性效应”和“定价效应”对资本成本产生影响。张乐才、杨宏翔[8](2013)对企业资金担保链风险形成机制进行了研究和分析,表明了资金担保链具有金融的脆弱性,其一旦发生危机将会传染整个经济。

2.2 对企业流动性风险预警的研究

周首华、杨济华、王平[9](1996)在Z评分模型的基础上建立起F分数模型,F分数模型主要用于预测企业的财务危机。张金昌、范瑞真[10](2012)的研究认为揭示企业之间相互拖欠资金、库存积压、长期亏损等问题的指标(如相对存货周转次数)并不能识别资金链断裂的风险。不过,用来测量盈亏情况影响的未分配利润占比指标、用来反映成长性的总资产增长率指标却可以用来识别不存在资金链断裂风险企业。熊燕[11](2008)从多角度对财务危机预警模型进行了评析,这些模型有简单的单变量预警模型,也有引入多个变量的多元判别分析模型;概率模型有线性概率模型和Logistic模型;还有较为复杂的机器学习模型,如人工神经网络分析模型等。宋逢明、谭慧[12](2004)归纳总结了如何把流动性风险度量纳入VaR模型已有的研究成果,并用经流动性风险调整后的VaR模型来预测股票市场的流动性风险。

2.3 关于K近邻分析法在风险评估中应用的文献综述

李清、刘金全[13](2009)建立K近邻法案例推理模型,并使用遗传算法、Logistic回归标准化系数法来确定属性权重。使用我国上市公司376个样本分别用K近邻法和Logistic回归模型进行财务危机预测分析,预测结果表明,K近邻法案例推理模型预测准确率高于Logistic回归模型。姜明辉、王雅林、赵欣等[14](2004)阐述了K-近邻判别分析法的基本思想,将K-近邻判别分析法应用于对个人的信用评估中,另外采用了一个小样本数据对模型进行了实证分析,并对模型应用中需要注意的问题进行了介绍。柳炳祥、盛昭瀚[15](2003)利用企业信息系统中数据库的数据,在对欺诈风险进行评估时结合了传统的分析模型和K近邻分析法。

关于K近邻分析法在风险评估中应用的文献数量较少,而且年份都比较陈旧。因此本文使用的K近邻分析法在企业流动性风险评估中的应用,是对上述文献的补充,也是根据技术的发展对已有知识进行的更新。

2.4 本文的改进

从对以上文献的研究中发现,很多对企业流动性风险进行研究的文章都以ST和非ST企业作为最终的度量指标,进而来对流动性风险预警评价体系进行预测。首先ST和非ST是一个很笼统的概念,被ST的企业并不都是由于存在流动性风险导致。这里我们采用了Z评分模型的改进形式——F分数模式来对企业的流动性风险进行评级,从而摆脱了过度依赖ST这个指标。

另外,本文不仅采用新的评价体系,并且深入研究了影响因素(即最终将导致企业产生流动性风险的因素)。大部分学者都只是对流动性风险的预警进行了研究,但没有学者对流动性风险的形成机理进行实证研究。本文认为,研究的意义不仅在于能够预警流动性风险,更在于如何早期对风险进行防范。企业由于经营不当产生流动性风险在财务数据上体现出来,财务指标是果而不是因,因此财务数据只能作为对企业风险评估的因素,而不能作为影响因素来进行研究。在对流动性风险的原因进行探讨方面,非财务因素具有意义。综观现有文献,逻辑普遍都很混乱,往往把原因(影响因素)与结果(评价指标)混为一谈,所以这里我们特别注意要对流动性风险评价指标跟流动性风险影响因素进行区别。

3 理论分析与方法设计

3.1 理论分析

3.1.1 资金的供求关系

企业产生了流动性风险也即企业发生了资金缺口,而这通常是由于企业资金的供应小于企业资金的需求。因此,我们主要从企业资金的供给与需求方面来探讨企业流动性风险的影响因素。

从静态来看,长期性资金供求、经营性资金供求和现金支付性资金供求形成了企业内部期限不同的三种资金供求关系。这三种关系最终将导致的结果是:企业资金充足,表现为资金供大于求;企业资金达到平衡,表现为供求相等;企业出现资金缺口,表现为供小于求。而通常企业资金链断裂的主要原因就是出现了资金缺口。

从动态来看,利率敏感性缺口和久期缺口构成了企业的资金缺口。利率敏感性缺口是指在一定时期以内将要到期或重新确定利率的资产和负债之间的差额。久期缺口是资产加权平均久期与负债加权平均久期和资产负债率乘积的差额,久期缺口的公式为:久期缺口=资产加权平均久期-(总负债/总资产)×负债加权平均久期。当久期缺口为正值时,资产的加权平均久期大于负债的加权平均久期与资产负债率的乘积。当久期缺口为负值时,市场利率上升,银行净值将增加;市场利率下降,银行净值将减少。当缺口为零时,银行净值的市场价值不受利率风险影响。总之,久期缺口的绝对值越大,银行对利率的变化就越敏感,银行的利率风险暴露量也就越大,因而,银行最终面临的利率风险也越高。银行可以使用久期缺口来测量其资产负债的利率风险。

由于以上对动态资金缺口的分析都是针对银行业展开的,因此本文对企业的资金缺口分析主要从静态的三种不同期限的资金供求关系来进行分析。

3.1.2 资金缺口识别指标

由前述三种不同期限的资金供求关系可以推导出相应期限的资金缺口,即长期性资金缺口、经营资金缺口和现金支付缺口。本文探讨企业的资金链断裂的核心指标就围绕它们展开。

(1)长期性资金缺口。企业对固定资产投资等的资金占用形成了长期性资金需求,企业通过举债或招股融资等形成了长期资金来源,两者的差额即是长期性资金缺口。

(2)经营性资金缺口。经营性资金为企业在进行日常的生产经营活动中涉及的资金。经营性活动需要占用的资金有购买原材料的费用,付给职工的薪酬等;经营性活动产生的资金来源有预收账款,分期付款购买商品等。经营性资金占用和经营性资金来源两者之间的差额就构成了经营性资金缺口。

(3)支付资金缺口。支付资金缺口是长期性资金缺口和经营性资金缺口两者相互作用的最终结果,即支付资金缺口由以上两种资金缺口构成。

3.2 研究方法设计与软件实现函数说明

本文首先采用改进的Z-score模型——F分数模式估算企业流动性风险,并在确定了影响因素之后对其采用熵权法进行加权处理。在对数据进行处理后为了检验模型的准确度,分别用K近邻分析方法和决策树模型对模型进行预测,比较两种方法之间的预测精度。

3.2.1 利用阿特曼Z-score模型估算企业流动性风险

Z-score模型是用于判别企业是否破产的多变量模型。研究者在对大量破产企业进行研究的基础上,分别确定了不同变量的参数。运用Z-score模型易于理解,并且使用方便。由于企业产生流动性风险通常会造成企业破产,所以这里选用Z-score模型有合理性。

阿特曼(altman)Z-score模型根据不同的条件有两个不同的模型。模型A研究的是公开上市交易的制造业公司的破产指数模型;模型B研究的是非上市公司给出了修正的破产模型。由于本文研究的是上市制造业企业,故选择模型A:

其中代数的含义如下:

表1 Z评分参数

Z-score模型内含的判断准则是:Z<1.8,破产区;1.8≤Z<2.99,灰色区;2.99<Z,安全区。所以本文可以根据研究的数据将企业的流动性风险等级分成三个级别。

3.2.2 利用F分数模式估算企业流动性风险

Z评分模型是1968年建立的,由于时代的变化,过去的模型对现在来说可能并不适用,并且Z评分模型是对国外的企业建立的模型,而我国企业与国外的企业可能存在差距。由此,F分数模式(1996)应运而生。F分数模式是周首华(中国学者)根据中国企业的情况在Z评分模型的基础上建立的。F分数模式的主要特点是:将现金流量这个自变量加入模型;根据现在企业财务状况的发展和现有标准的更新做出相应改变;扩大了使用的样本。相比较Z评分模型仅使用33家破产企业和33家非破产企业作为样本,F分数模式则采用了4160家公司作为样本,样本量显著增大。

F分数模式如下:

表2 F分数模式参数

X1代表流动性,用期末净流动资产占总资产的比例可以判断企业总体的流动性状况;X2代表留存收益占总资产的比例,反映企业的信用状况;X3表示现金流量状况,即企业现有的流动资金是否能偿付现有的债务;X4代表财务结构,需要注意的是,这里用的是所有者权益的市场价值(而不是账面价值)和负债的比例;X5表示企业用总资产能够产生出多少的现金流量。F分数模式与Z计分数模型的主要区别就在于X3X5。F分数模型的临界点为0.0274;流动性短缺公司表现在F分数小于0.0274;反之,流动性充足公司表现在F分数大于0.0274。

3.2.3 利用熵权法构建流动性风险综合评价模型

1)熵权法的适用性

建立K近邻法模型的关键是属性权重的确定,赋权的方法有很多种,主要分为主观法和客观法。主观赋值法如层次分析法和专家经验评估法主观性较强,而且受评估人能力影响较大,因此本文不予应用。客观赋权法有熵权法、标准离差法等,由于熵权法的简单易懂,并且确定权重时的费时成本低,因此本文采用熵权法对指标进行赋权。

2)熵权法的原理

熵权法是一种客观赋权方法。在信息论中,熵表示的是不确定性的量度。在信息论中,信息熵度量系统的无序程度。如果指标的信息熵越小,说明该指标传递的信息量越大,因此该指标的权重也应该越高。

熵权法的步骤:

(1)构建各年份各评价指标的判断矩阵:

(2)将判断矩阵采用极差法归一化处理:

(3)计算第j 个指标下第i个项目的指标值的比重pij

(4)计算第j 个指标的熵值ej

其中,k=1/lnm

(5)计算第j 个指标的熵权wj

3.2.4 K-近邻分析方法原理及其R函数说明

1)K-近邻分析方法的适用性

作为一种标准的非参数方法,K-近邻判别法主要用来解决分类问题。而对企业流动性风险的评估,即是评价企业的风险等级。在把风险划分为不同的等级后,可以将企业所处的不同等级来确定企业的流动性风险。因此,K-近邻判别法对企业流动性风险的评估是适用的。

2)K-近邻分析方法的原理

近邻分析法进行数据预测的基本思想是:为预测一个新观测X0输出变量y0的取值,可首先在已有的数据中找到与X0相似的若干个(如K 个)观测,如(X1, X2, …, XK),这些观测称为X0的近邻。然后,对近邻(X1, X2, …, XK)的输出变量(y1, y2, …, yK),计算算术平均值(如加权平均值,或中位数,或众数),并以此作为新观测X0输出变量取值y0的预测值0。可见,近邻分析并不需要指定y=fx)的具体形式,只需假设0是(y1, y2, …, yK)的一个函数0=Fy1, y2, …, yK)即可。

典型的近邻分析方法是K-近邻法(KNN)。它将样本包含的n 个观测数据看成p 维(p 个输入变量)特征空间中的点,并根据X0K 个近邻的(y1, y2, …, yK)依函数 Fy1, y2, …, yK)计算0。通常函数 F 定义为:0=。其中,NKX0)是X0K 个近邻的集合。

3)K-近邻法中的距离

由于K-近邻法将样本包含的n个观测数据看成p 维(p 个输入变量)特征空间中的点,所以可在特征空间中定义某种距离,作为测度与X0近邻关系的依据。常用的距离有闵可夫斯基距离、欧式距离、绝对距离、切比雪夫距离、夹

角余弦距离等。对两观测点xy,若xi是观测点x的第i个变量值,yi是观测点y 的第i个变量值。两观测点xy 之间的上述距离定义如下:

(1)闵可夫斯基距离。两观测点的闵可夫斯基距离是两观测点p 个变量值绝对差k次方总和的k次方根(k可任意指定),数学定义为:

(2)欧式距离。两观测点xy 间的欧式距离是两个点p 个变量值之差的平方和的开平方,数学定义为:

欧式距离是闵可夫斯基距离k=2时的特例。

(3)绝对距离。两观测点xy 间的绝对距离(也称曼哈顿距离)是两观测点p 个变量值绝对差的总和,数学定义为:

(4)切比雪夫距离。两观测点xy 间的切比雪夫距离是两观测点p 个变量值绝对差的最大值,数学定义为:

(5)夹角余弦距离。两观测点xy 间的夹角余弦距离的数学定义为:

4)K-近邻分析法的R函数语法说明

R实现K-近邻法的函数是class包中的knn函数。首先应下载安装class包,并将其加载到R的工作空间中。knn函数的基本书写格式为:

knn(train=训练样本集,test=测试样本集,cl=输出变量,k=近邻个数K, prob=TRUE/FALSE, use.all= TRUE/FALSE)

式中,参数train和test分别指定训练样本集和测试样本集。参数cl指定训练样本集中的哪个变量为输出变量。参数k用于指定参数K。prob取TRUE表示函数的返回值是预测类别的概率值,取FALSE表示函数的返回值是预测类别值,默认值为FALSE。回归预测中,prob应设置为FALSE,表示返回数值型输出变量的预测值。分类预测中,prob可设置为TRUE。use.all取TRUE表示当有多个等距离的近邻而使得实际近邻个数大于K 时,所有近邻均参与预测;取FALSE表示在多个等距离的近邻中随机抽取近邻,确保实际近邻个数等于K,默认值为TRUE。knn中的距离默认为欧式距离。

R中有关1-近邻法的专用函数knn1,基本书写格式为:

knn1(train=训练样本集,test=测试样本集,cl=输出变量)

参数含义与函数knn相同。

此外,R中有将K-近邻法和留一法“打包”成一体的knn.cv,基本书写格式为:

knn.cv(train=训练样本集,cl=输出变量,k=近邻个数)

参数含义与函数knn相同。knn.cv无需指定测试样本集。

3.2.5 基于变量重要性的加权K-近邻分析法原理及其R函数说明

K-近邻法默认各输入变量在距离测度中有“同等重要”的贡献。但情况并不总是如此。为此,采用基于变量重要性的加权K-近邻法计算加权距离,给重要的变量赋予较高的权重,给不重要的变量赋予较低的权重是必要的。

例如,若依欧式距离测度近邻观测,则加权的欧式距离为:

其中wi)为第i 个输入变量的权重,是输入变量重要性(FI)的函数,定义为:其中FIi)为第i个输入变量的特征重要性,wi)< 1, ∑wi)=1。这里FIi)以第i个输入变量对预测误差的影响定义。若第i 个变量对预测有重要作用,则剔除该变量后的预测误差ei应较大。于是,第I个变量的重要性定义为:

可见,变量越重要,在计算距离时其权重越高。

基于变量重要性的加权K-近邻分析法的R函数说明:

我们应该了解到并没有专门的函数来处理基于变量重要性的加权K-近邻分析法,这里的主要处理方法是依据FI 的定义计算各个输入变量的重要性,并以此确定权重。以输入变量为四个的情况为例,具体代码为:

FI<-errDeltaX[-1]+1/4 #根据FI的定义计算FI

wi<-FI/sum(FI)#计算各输入变量的权重

3.2.6 基于观测相似性的加权K-近邻分析法原理及其R函数说明

采用K-近邻法预测时,默认K 个近邻对预测效果有“同等力度”的影响。事实上,距X0最近点观测对预测的贡献大于距离较远的观测,应是较为合理的。基于观测相似性的加权K-近邻分析法的核心思想是:将相似性定义为各观测距X0距离的某种非线性函数,且距离越近,相似性越强,权重越高,预测时的重要性越强。

设观测XX0的距离为dd≥0, dR)。若采用函数K(•)将距离d转换为XX0的相似性,则函数Kd)应有如下特性:

(1)Kd)≥0, dR

(2)d=0时,Kd)获得最大值,即距离最近时相似性最大。

(3)Kd)是d 的单调减函数,即距离越远,相似性越小。

基于观测相似性的加权K-近邻分析法的R函数说明:

实现基于观测相似性的加权K-近邻分析法的R函数是kknn包中的kknn函数。首先应下载安装kknn包并将其加载到R 的工作空间中。kknn函数的基本书写格式为:

kknn(formula=R公式,train=训练样本集,test=测试样本集,na.action=na.omit(), k=近邻个数K, distance=k, kernel=核名称)

其中:

参数formula以R公式的形式指定训练样本集中的输入变量和输出变量。R公式的基本写法是:输出变量名~输入变量名,如yx1。若有多个输入变量,各输入变量名用“+”号连接,如yx1+x2。Y~-x1表示除了x1之外的其他变量(不包括y)均作为输入变量。y~.表示除了y 之外的其他变量均作为输入变量。

参数train用于指定训练样本集;test用于指定测试样本集。

na.action=na.omit()表示带有缺失值的观测不参与分析。

参数k用于指定近邻个数K,默认值为7; distance用于指定闵可夫斯基距离中的参数k,默认值为2,即为欧式距离。

参数kernal用于指定核函数,可取“rectangular”“triangular”“epanechnikov”“biweight”“triweight”“cos”“gaussian”“optimal”等。

kknn的返回值是列表,包含如下主要列表成分:

fitted.values:数值型向量,存放测试样本集中输出变量的预测值。

CL:n×k的矩阵(n为测试样本集的样本量,k 为近邻个数K),存放各观测的各自K 个近邻所属的类别。

W:n×k 的矩阵(n为测试样本集的样本量,k 为近邻个数K),存放各观测的各自K 个近邻的权重。

D:n×k的矩阵(n为测试样本集的样本量,k为近邻个数K),存放各观测的各自K 个近邻的闵可夫斯基距离。

prob:数值型向量,存放测试样本集中各观测属于预测类别的概率。

此外,kknn包中有将加权K-近邻法和留一法“打包”成一体的train.kknn函数,基本书写格式为:

Train.kknn(formula=R公式,data=数据集,kmax=m, distance=k, kernel=核名称)

式中,参数data用于指定数据集(这里不区分训练样本集和测试样本集,数据集中的各个观测将依次作为测试样本);参数kmax用于指定近邻个数K的最大可能取值(默认值为11),近邻个数 K 的取值范围是1~m;参数distance用于指定闵可夫斯基距离中的参数k,默认值为2,即欧式距离;若希望观察不同核函数对预测的影响,参数kernel可以是一个字符型向量,kernel=c(“rectangular”, “triangular”, “epanechnikov”),函数将自动考察3种核下当近邻个数K 取不同值时的预测误差。

train.kknn函数的返回值为一个列表,包含如下主要列表成分:

MISCLASS:kmax×n的矩阵(n为指定的核函数的个数),存放不同核函数下当近邻个数K 依次取1至kmax时,分类预测的留一法错判率。

MEAN.ABS:kmax×n的矩阵(n为指定的核函数的个数),存放不同核函数下当近邻个数K 依次取1至kmax时,回归预测的留一法平均绝对误差。

MEAN.SQU:kmax×n的矩阵(n 为指定的核函数的个数),存放不同核函数下当近邻个数K 依次取1至kmax时,回归预测的留一法均方误差。

fitted.values:以列表方式给出不同核函数下当近邻个数K 依次取1至kmax时,各个观测的预测类型。

best.parameters:为一个列表,存放最优(留一法预测误差最小)核函数名以及最优核函数下的最优近邻个数K

3.2.7 决策树原理及其R函数说明

决策树算法的目标是建立分类预测模型或回归预测模型。决策树较好地规避了传统统计中的一般线性模型、广义线性模型、判别分析对数据分布的要求,能够在无分布限制的“宽松环境下”,找出数据中输入变量和输出变量取值间的逻辑对应关系或规则,并实现对新数据输出变量的预测。由于前述对企业流动性风险的评估可以看作一个分类问题,因此决策树模型在本文是适用的。

决策树算法主要有ID3、C4.5、CART、C5.0等,而ID3、C4.5、C5.0都是采用信息熵来描述分类的混乱程度,具有易理解和易操作的特点。C4.5、C5.0是在ID3基础上的改进,可以应用于更多的场景。因此,出于可操作性和实用性考虑,本次实验采用了C4.5和C5.0算法。

1)C4.5算法的特点及其R函数说明

(1)用信息增益率选择属性,最终选择具有最大信息增益率的属性作为分列属性;

期望信息定义式:

信息增益定义式:

分裂信息定义式:

信息增益率定义式:

(2)在构造树的同时进行剪枝;

(3)对连续属性进行离散化处理;

(4)处理不完整的数据。

C4.5算法的R函数说明:

C4.5算法需要用到的包是party包,party用于实现决策树算法。调用party包的ctree命令来构建分类器,ctree(条件推理树)是另一种比较常用的基于树的分类算法,条件推理树选择分类变量时的依据是显著性测量的结果。ctree函数的基本书写格式为:

ctree.model <-ctree(formula, data, subset = NULL, weights = NULL, controls = ctree_control(), xtrafo = ptrafo, ytrafo = ptrafo, scores =NULL)

式中,参数formula表示对适用的模型一个象征性的描述,表明该决策树将会利用公式右边列出的所有变量;参数data表示一个包含模型中变量的数据框架;参数subset表示一个可选的向量,指定在拟合过程中使用的观测的子集;参数weights表示在拟合过程中使用的一个可选的权重向量,只有非负整数的值是允许的;参数controls表示一个类TreeControl的对象,可以使用ctree_control获得;参数xtrafo表示一个应用于所有输入变量的函数,默认情况下,应用ptrafo函数;参数ytrafo表示应用于所有响应变量的函数,默认情况下,应用ptrafo函数;参数scores表示一个可选的指定的分数列表,附在有序的因素上。

2)C5.0算法的特点及其R函数说明

C5.0是对C4.5算法的改进和完善,它涵盖C4.5算法所有的功能,还衍生出如boosting的更新技术,这样能够提高模型的识别率。另外,C5.0的算法使用更简单,适用的场景更多,因此得到了广泛的使用。

C5.0算法信息熵的下降速度作为选择分支变量的依据。

信息熵的定义式:

C5.0算法的R函数说明:

C5.0算法需要用到的是C50包中的C5.0函数。C5.0函数的基本书写格式为有两种,一种是默认的S3方法:C5.0(x, y, trials = 1, rules= FALSE, weights = NULL, control = C5.0Control(), costs = NULL, …);另一种是类“公式”的S3方法:C5.0(formula, data, weights, subset, na.action = na. pass, …)。

式中参数x表示一种数据框架或预测器矩阵;参数y 表示一个带有两个或多个层次的因子向量;参数trials表示指定增加迭代次数的整数;参数rules表示一种逻辑,即树是否应该被分解为基于规则的模型;参数weights表示一个基于观测权重的可选的数字矢量;参数control表示控制参数列表;参数costs表示与可能的错误相关的成本矩阵,矩阵应该有C列和C行,其中C是级的数量;参数formula表示一个有响应的公式,并且这个公式至少有一个预测器;参数data表示一个可选的数据框架,用来解释公式中命名的变量;参数subset是一个可选表达式,表示只需要使用数据行的一个子集;参数na.action表示一个函数,它指示当数据包含缺失值时应该发生什么,默认值是包含缺失值,因为模型可以容纳它们;…表示函数包含的其他选项(目前还没有使用默认方法)。

4 实证研究结果与分析

4.1 样本选择与数据来源

因为流动性在各行各业存在较大的区别,但是一般制造行业对资金的流动性要求更高,所以本文选择在沪深上市的制造业企业进行研究。总的样本量为76,其中38个上市企业处于ST状态,另外38个上市企业处于正常状态。根据中国经济增长的情况来看,改革开放以来,中国经济经历了三个增长周期。其中2000—2011年平均增速达到10%左右,而自2012年以来,GDP平均增速只有7%左右,如表3。在经济高速增长时期,企业资金的流动性大,研究流动性风险没有很大的意义。而当前中国经济转入了周期下行阶段,企业经营难以为继的情况下研究流动性风险才有实质性的意义。因此本文选择了2012年公司的财务数据。

表3 中国历年GDP增长率

我们根据张金昌、范瑞真(2012)的文献“资金链断裂成因的理论分析和实证检验”中的八个对流动性的影响因素进行考察,发现符合我们的定义,并且这些因素已经被证实过,而且应用广泛。我们研究这些影响因素,可以看到这些因素都表示了企业在生产经营活动中的行为,只是这些指标用财务数据进行了量化,但他们仍然代表了一定的经济意义。这些指标和其含义如表4所示。

表4 影响因素

4.2 原始数据的描述统计、预处理及分析

4.2.1 描述统计

对以上影响因素的数据进行描述性统计,如表5所示。

表5 影响因素的统计量

为了便于更直观地看出以上影响因素的均值,将上述结果以图形呈现,如图1。可以看出,X5(即经营负债偿还满足率)的均值达到2.5左右,说明样本企业平均的经营负债偿还率比较高,可以粗略地判断企业整体的流动性风险并不高。还可以看到X3(相对存货周转次数)、X4(未分配利润占比)、X6(债务偿还保障率)、X8(总资产增长率)都接近于零,说明企业总体的经营绩效不太乐观,从而增加了企业的流动性风险。从以上的分析可以知道,仅从某一个指标进行判断得到的结果是片面的,只有将所有因素综合起来考虑才能得到较为客观的评价。

图1 影响因素的均值

从标准差可以看到,X3、X4、X6和X8的标准差都小于1, X1、X2、X5和X7的标准差都大于1,说明影响因素X3、X4、X6和X8的数据比较集中,而影响因素X1、X2、X5和X7的数据比较离散。

另外从偏度系数可以看到,除了X3(相对存货周转次数)为负外,其他七个影响因素的偏度系数都为正。这说明 X3有左偏态特征,数据位于均值(0.0643)左边的比位于右边的少,即绝大多数企业的相对存货周转次数都大于0.0643。但是由于X3的偏度系数仅为-0.7020,可以近似看作其偏度服从正态分布。其他七个影响因素中X1(货币性负债偿还满足率)、X2(应收账款回收率)、X5(经营负债偿还满足率)和X7(长期资金需求保障率)的偏度系数都大于7,说明这几个影响因素的数据出现了严重的右偏,即绝大多数企业的相应指标都小于均值。

在对峰度进行研究同样可以发现只有X3(相对存货周转次数)为负外,其他七个影响因素的峰度系数都为正。但是X3的峰度系数仅为-0.9492,与0偏离并不多,说明其峰度可近似看作与正态分布相同。其他七个影响因素中,同样是X1(货币性负债偿还满足率)、X2(应收账款回收率)、X5(经营负债偿还满足率)和X7(长期资金需求保障率)的峰度系数都大于50,说明出现了严重的尖峰分布。

从以上分析可以知道,只有X3大致服从正态分布,其他影响因素都不服从正态分布,尤其是X1、X2、X5和X7的分布与正态分布相去甚远。所以那些对数据的正态分布要求比较高的数据挖掘方法在本文不可行,这里K-近邻分析法能满足本文数据的要求。

4.2.2 数据的预处理

采用K 近邻分析时,需要注意的是,若p 个输入变量取值存在数量级差异,数量级较大的变量对距离大小的“贡献”会大于数量级较小的变量。为使各输入变量对距离有“同等的贡献”,计算距离前应对数据进行预处理以消除数量级差异。常见的预处理方法是极差法和标准分数法。

1)极差法

对第j 个观测点X 的第i个输入变量进行预处理。采用极差法:

其中max(xi)和min(xi)分别是输入变量xi 的最大值和最小值。

2)标准分数法

对第j 个观测点X的第i个输入变量进行预处理。采用标准分数法:

其中xiσxi分别为输入变量xi的均值和标准差。

由于在进行熵权法进行赋权时已对数据采用极差法进行了归一化处理,这里无需再对数据进行预处理。将上述影响因素用熵权法对它们赋予权重,得到它们的权重值如下:

表6 各指标权重

4.3 F分数模式估算的流动性风险分类结果及分析

根据F分数模式将企业分成两个级别,其中0代表破产的企业,1代表正常经营的企业。分类结果如表7。

表7 F评分结果

由表可以看出,显性指标表明ST的企业中有23个处于破产状态,有15个处于正常状态。而显性指标表明NM的企业中有15个处于破产状态,有23个处于正常状态。虽然同样38个企业中状态为ST的企业破产的比例大于状态为NM的企业,但仅用ST和非ST来进行辨别过于绝对。这也和我们前面“把ST和非ST作为公司的流动性风险指标并不严谨”的结论相吻合。

将原始数据与各指标权重结合构造出的加权后的指标值于分类的结果一一对应,并分别用K近邻分析和决策树分析方法考察他们的准确度。

4.4 不同数据挖掘方法分类结果有效性的比较

4.4.1 K近邻分析法的准确度分析

由于K 近邻分析法主要的参数为k(近邻的个数),因此选择不同的k 值会影响分类的准确度。这里为了阐述的方便,仅进行二维空间(即只有两个影响因素)的分析:若x1和x2是在[-1,1]上随机生成的数值性变量,y 是取值为0或1的分类变量,样本容量为60。我们考虑选择不同的k 值对错判率的影响如何,结果如图2。

图2 近邻数k与错判率

图2中的黑色实线为全部观测进入训练样本集时的错判概率曲线,K=1时预测错误率一般为0。上方的红色虚线为旁置法(整个样本集随机划分为训练集和测试集)的错判概率曲线,K=9时达到最小。红色实线为留一法(仅有一个观测作为测试样本)的错判概率曲线,K=7时达到最小。

从以上分析可以了解到k取不同的值能影响分类准确度。因此本文我们选择不同的k值并分别计算它们的准确度。本文将k值依次从1选到9,结果发现k的选择对准确度没有影响,只有不同的函数对准确度有影响。其中kknn函数得到的准确度为82.35%, knn函数得到的准确度为94.11%,而train函数得到的准确的总是为100.00%。

4.4.2 决策树的准确度分析

将整理好的数据用决策树R程序进行运行,分别采用C4.5和C5.0函数,得到的准确度分别为88.24%和94.12%。

综上所述,得到的准确度结果如表8。

表8 不同方法准确度的比较

可以看到总体上K-近邻分析比决策树分析方法的准确率要高,而在K-近邻分析方法中使用train函数的准确率能达到100%,而使用kknn函数的准确率却只有82.35%。

5 研究结论

从以上研究结果来看,把流动性风险度量的评价指标和引起流动性风险的影响因素在概念上予以区分,并进行实证研究的结果是可行的。这就给了我们一种思路,我们不仅可以在财务数据上面进行企业流动性风险的预警,并且还可以对造成流动性风险的原因进行探索,进而防患于未然,及时调整企业的经营方针和财务政策,最终达到避免产生流动性风险并进而引起破产的厄运。

参考文献

[1]赵家敏,黄英婷.我国商业银行中小企业信用评级模型研究[J].金融论坛,2006,11(4):16-20.

[2]钟永红,曹丹蕊.中国上市银行流动性风险综合评价[J].金融论坛,2013(1):15-19.

[3]姚亚伟,杨朝军,黄峰.流动性风险特征:基于中国证券市场的经验数据分析[J].上海金融,2012(4):63-70.

[4]车嘉丽.企业流动性危机管理中的流动性满足[J].统计与决策,2005(08X):104-106.

[5]长青,张永正,白丽娜.基于流动性风险管理的EVA改进研究[J].财经问题研究,2012(3):104-109.

[6]易建平,焦阳,王春峰.二级市场流动性风险对上市公司融资行为影响研究——来自中国A股上市公司的经验证据[J].中央财经大学学报,2013(03):33-38.

[7]王春峰,孙会国,房振明.资本成本与资产流动性关系的经验验证[J].现代财经(天津财经大学学报),2012(09):74-83.

[8]张乐才,杨宏翔.企业资金担保链的风险传染机制[J].经济体制改革,2013(01):127-131.

[9]周首华,杨济华,王平.论财务危机的预警分析——F分数模式[J].会计研究,1996(08):8-11.

[10]张金昌,范瑞真.资金链断裂成因的理论分析和实证检验[J].中国工业经济,2012(3):95-107.

[11]熊燕.流动性危机预警模型评析[J].中國管理信息化,2008,11(8):58-60.

[12]宋逢明,谭慧.VaR模型中流动性风险的度量[J].数量经济技术经济研究,2004(6):114-123.

[13]李清,刘金全.基于案例推理的流动性危机预测模型研究[J].经济管理,2009(6):123-131.

[14]姜明辉,王雅林,赵欣,等.k-近邻判别分析法在个人信用评估中的应用[J].数量经济技术经济研究,2004(2):143-147.

[15]柳炳祥,盛昭瀚.一种基于距离的欺诈风险分析方法[J].中国管理科学,2003(01):38-41.