【《中国保险资产管理》2017年第六期】张伟军、彭娴:基于支持向量机的信用评级模型研究

2018-02-19

基于支持向量机的信用评级模型研究

A Credit Rating Model Based on Support Vector Machine

·张伟军  英大保险资产管理有限公司信用评估部副总经理

彭娴  英大保险资产管理有限公司信用评估部信用分析师

摘要:目前,信用风险定价能力逐渐成为保险资产管理机构一项核心竞争力,然而其信用评估能力提升仍面临诸多瓶颈,其中传统评级模型固有缺陷即是限制之一。在新的经济和信用环境下,保险资产管理机构有必要结合现代人工智能技术,改进内部评级模型,以克服传统评级模型的随意性、主观性,以及数据有偏分布导致模型的不准确。本文根据支持向量机(SVM)分类理论,构建了基于支持向量机的内部评级模型,以国内公开发债房地产企业财务数据和机构内部评级结果构建了样本集,进行实证分析,并考查了不同核函数和参数选择对实验结果的影响。实证结果表明,SVM评级模型具有较好的实用价值,可以作为机构内部评级的重要工具。

一、引言

资产管理机构信用风险定价能力逐渐成为其核心竞争力之一,信用评级在信用资产违约概率估计和估值定价中的作用十分明显,《新巴塞尔资本协议》要求银行要首先明确内部评级体系的类型。随着国内公募债市场刚兑打破,国内信用环境发生较大变化,各投资机构对信用评级重视程度逐渐增强。然而,鉴于各种原因,国内外部评级结果虚高、区分度较差,导致信用品定价存在扭曲。基于此,银行以外的资产管理机构也纷纷建立了内部评级体系,有些机构已着手开发新的信用风险量化方法、技术和模型。

信用风险自身存在着诸如分布不对称、数据匮乏等理论和实际问题,各界对具体的信用风险量化度量方法也尚未达成共识,且传统的量化信用评价模型对数据要求比较严格,如数据正态分布的前提假设、数据样本足够大等,现实中可获得的信用数据不足,且大多是有偏分布,这些限制使传统量化模型在信用评价中面临窘境。支持向量机可以克服传统方法的限制,适合于小样本预测与回归,并且具有很强的泛化能力,比较适合进行快速的信用评价,避免过度依靠评估人员主观判断。本文根据支持向量机分类理论,尝试构建基于支持向量机的内部信用评级模型,并选择不同核函数和相应参数运用于不同分类集进行实证分析,结果表明该模型具有较高的预测能力。本文余下部分安排如下:第二部分简述了主要的评级模型和人工智能评级模型研究现状;第三部分阐述了基于支持向量机的信用评级模型设计;第四部分介绍了模型指标的选择及数据的预处理方法;第五部分利用公开数据和内部评级结果进行实证分析;最后是全文总结和展望。

二、信用评级模型及人工智能评级模型研究现状

目前最常见的信用评级模型分为三大类[1]:主观判断模型、统计模型和因果模型。主观判断模型主要依靠信用专家的经验判断,带有很强的主观性;统计模型根据是否需要估计参数分为经典的(参数)和人工智能(非参数)两类模型,每一类有多种方法[2];因果模型关注违约的定性原因,包括结构模型、现金流模型等(见表1)。

 

主观判断模型基于专家经验判断,目前仍有一定应用价值,但人为因素导致随意性和主观性。20世纪60年代前后,随着统计方法的不断推广以及经验判定和评分模型缺陷的暴露,信用评级领域逐渐引入了统计、数学方法,较为代表性的有单变量分析法、多变量分析法、因子分析、Logistic模型、Probit模型。到20世纪80年代,出现了运用人工智能(AI)和机器学习技术来预测企业的技术信贷违约现象[3]1997年美国KMV公司开发了KMV模型,以期权定价模型为理论基础预测企业的违约概率,是因果模型的代表,在上市公司评价中应用广泛。

人工智能主要指利用先进的计算机技术模仿决策过程。大量实证分析表明,人工智能模型比经典的参数模型有着更优良的预测精度及速度。在信用评级领域使用较多的有反向传播神经网络即BP神经网络、径向神经网络、学习矢量量化网络、概率神经网络和支持向量机。BP神经网络即反向传播神经网络是Rumehart等人于1985年提出的,该方法由输入层、中间层和输出层三个层面组成,通过对多指标进行归一化处理作为输入,将评价结果当做输出。针对信用评级领域,采用三层反向传播,对输入的数据进行训练模拟,通过反向传递不断调整权重,最终通过函数得出输出数据。BP网络神经具有运算速度快,自学能力强、效率高等优点,但由于学习和训练较为复杂,且缺乏成熟理论对输出结果做全面的解释,影响了其在信用评级中的应用。我国学者张鸿、丁以中[4]基于BP神经网络选取定性和定量指标,对我国2004年的ST和正常公司共100家上市公司进行信用评级研究,研究表明BP神经网络非常适用于企业信用评级,同时存在着网络稳定性差等缺陷。

Vapnik1995)根据统计学习理论提出了支持向量机法,较好地解决了过去研究方法非线性、非正态、小样本、学习速度慢等缺陷,在生物信息学、文本和手写识别等许多领域取得应用。在信用评估领域,标准普尔公司的信用评级模型中,利用快速支持向量机来获得未评级公司级别估计[5]。陈伟、王业球[6]采用支持向量机的方法对我国中小企业的信用状况进行了评级,并以实证的方式与BP网络神经进行了比较分析。朱顺泉[7]采用最小二乘系统对支持向量机进行了修正,以200854家典型代表上市公司为样本做了研究,实验结果表明最小二乘支持向量机在中国资本市场具有良好的应用前景。国内研究样本限于中小企业和上市公司,针对以集团公司为主的国内发债企业仍缺乏系统的实证研究。

三、基于支持向量机的信用评级模型原理

支持向量机(Support Vector MachinesSVM)理论是在统计学习理论基础上发展起来的一种机器学习方法[8]SVM建立在结构风险最小化原则和VC维理论基础之上,其重要思想就是找到一个超平面,使得它能够尽可能多地将两类数据点正确分开,同时使分开的两类数据点距离分类面最远。相对于传统的经验风险最小化原则,支持向量机利用有限的样本信息,在模型复杂性与学习能力之间寻求折中的解决方案。其较好地克服了“维数灾难”、过学习和欠学习等问题,在解决小样本、非线性及高维模式识别或分类问题时,SVM具有特有的优势。

假设含有l个训练样本、每个样本xin维输入向量,y是对应输入向量所属的类别集合,则在线性可分得情况下,最优超平面离散二元决策类规则的支持向量由如下公式确定:

 

其中f(x)为结果, ,将输入向量映射到高维特征空间,使得特征向量之间的可区分性更强,然后在高维空间中求解最优分类超平面。求解非线性支持向量机,不论是寻优函数还是分类函数,均涉及样本之间的内积运算

2)多项式核函数:

4Sigmoid核函数:

本文中将选择上面4个内核函数测试的评级模型,分别对不同信用分类数据集进行分类预测,展开实证分析,分类预测实验结果代表了分类预测模型的实际预测能力。

 

 

信用评估指标体系是信用评级工作的基础和依据,一套科学的指标体系是评估结果客观性、公正性和可信度的保证,也是智能评估模型效率及精度的保证。

(一)指标选择

在选择模型评估指标时,遵循重要性、全面性和弱相关性原则。本文根据行业特点,以专家经验判断、结合多次实验结果选出评估指标,未来拟将通过主成分分析等方法对评估指标进一步筛选。

本文以国内公开发债房地产企业为样本展开实证分析,且初衷是从公开财务数据测试分类准确性(隐含假设为财务数据已充分反映企业经营业绩),所以略去了企业经营数据和诸如领导人素质等其他指标。鉴于企业股权属性显著影响企业未来融资能力和发生危机时获得救助的可能性,在当期财务报表中无法充分体现,因此引入企业属性指标,该指标以打分形式进行赋值,打分范围为110

房地产行业是一个风险较高的行业,具有周期性、资本密集型、投机需求旺盛、政策敏感度高、地域性明显等行业特点。指标体系主要考虑公司规模、营运能力、盈利能力、偿债能力和成长能力五个方面,评级模型指标体系见表2

 

模型类标签为信用级别,映射为数值形式,本文采用作者所在机构内部评级结果,房地产企业内部最高级别为AA+,最低级别为BB

(二)实验数据采集

本文采集了144家国内公开发债房地产企业2016年度上述指标数据,所有指标数据均来自Wind数据库,评级结果采用英大保险资产管理有限公司内部评级结果,其中BBB-A+级样本数占比最大,共有99个。

(三)实验数据预处理

首先进行总体样本的筛选与抽样,并在建模之前将明显奇异的数据删除,最后剩余136个有效样本。

然后对数据进行归一化处理,本文采用线性归一化方法,数据归一化到(01)。数据进行归一化非常重要,文[9]解释了对神经网络的输入进行归一化的原因,对SVM来说基本相似。归一化最大的好处就是消除了量纲的影响。未归一化时,数值取值较大的指标会削弱取值较小的指标对模型的影响;其次,SVM需要计算样本点的内积核函数,未归一化时,过大的数值会引起数值计算上的麻烦。

五、实证分析

(一)实验流程

1.使用经归一化的数据构建4分类训练数据集和预测数据集(分类为AAABBBBB,标签映射为1234)和8分类训练数据集和预测数据集(分类为AA+AAAA-A+AA-BBBBB,标签映射为12345678);数据集均为随机分布,4分类和8分类训练数据集均为总体数据集前76个数据,预测数据集均为总体数据集后60个数据。

2.选择不同核函数和相应参数,使用svm-srtain.exe4分类支持向量机进行训练,得到训练模型;

3.运用上述模型,使用svm-predict.exe4分类预测数据集进行分类预测,分类预测实验结果代表了分类预测模型的实际预测能力;

4.对上述实验结果评价、比较后选出效果最优核函数,对8分类支持向量机进行训练,比较不同分类数下模型预测能力。

本文使用台湾大学林智仁博士开发的通用的支持向量机模式识别与回归的软件包(libsvm),在软件MATLAB中通过混合编译实现多分类实验过程。SVM其产生是为2分类问题设计的,libsvm采用one-versus-one法,在任意两类样本之间设计一个SVM,通过投票实现多分类。

(二)4分类实验结果

选择libsvm的不同核函数及有关参数,进行多次实验,取得局部最优预测效果时实验结果见表3

 

实验结果显示,选择线性核函数、多项式核函数和高斯径向基核函数分类模型均具有较高预测能力,而Sigmoid核函数分类模型预测效果较差,其中选用高斯径向基核函数时模型分类准确率最高,达到81.66%

下面进一步对高斯径向基核函数实验进行参数寻优。上面实验中处罚参数c和自带参数g是经验值,可以对cg值选取由程序多次迭代自动选出,选出的依据是令预测精确度最高时的最优值,参数取值如图1

 

经参数寻优后,最终得到c4g2,参数优化前后高斯径向基核函数实验结果如表4

 

实验结果显示,参数寻优后高斯径向基核函数SVM模型预测准确率进一步提高,达到83.33%,通过分析实验输出结果中的预测标签发现错分类偏离度也较小。

(三)8分类实验结果

由以上实验可知,选择高斯径向基核函数时SVM模型多分类效果最好,下面仍选用高斯径向基核函数对8分类支持向量机进行训练,其中对cg值选取仍由程序多次迭代自动选出,实验结果见表5

 

从实验结果来看,随着分类数增加,模型预测准确率有所下降,但接近70%正确率仍具有一定实际意义。从预测结果分析,高评级样本过少导致模型欠学习,预测偏差较多,通过分析输出结果中预测标签发现错分类偏离度也较大。

六、结论与展望

信用风险定价能力逐渐成为资产管理机构一项核心竞争力,传统信用评级模型随意性和主观性等缺陷已对评估能力提升形成限制,本文尝试建立基于支持向量机的评级模型,并运用公开数据和机构内部评级结果进行实证验证。研究结果证明,支持向量机凭借坚实的统计学习理论基础,具有较强的逼近能力和泛化能力。支持向量机不仅具有与神经网络类似的不断学习、不断训练的功能,而且解决了神经网络难以避免的大样本、网络结构优化以及局部最优等问题[10]。从实验结果来看,在宽泛分类、快速级别估计方面,基于支持向量机的评级模型已具有较好的实用价值。当然,模型仍有很大改进空间,如在指标选取方法、SVM算法等方面可以进一步优化,也可与决策树、kNN等建立混合模型,进而开发更完善的人工智能评级系统,逐渐使其发展成为机构内部评级的重要工具。


 

参考文献

[1] 詹原瑞著,银行内部评级方法与实践[M],北京:中国金融出版社,2009

[2] Greene W, Econometric analysis[M], 5th ed, Prentice-Hall New Jersey, 2003

[3] Sohn, S.Y., Moon, T.H., Kim, S.H.Improved Technology Scoring Model for Credit Guarantee Fund[J]. Expert Systems with Applications,2005,28.

[4] 张鸿,丁以中,基于BP神经网络的企业信用评级模型[J],上海海事大学学报,2007,(3)

[5] Friedman C, Credit Model technical white paper, Standard Poor’s, 2002

[6] 陈伟,王业球,基于支持向量机方法的中小企业信用评级优化研究[J],云南财经大学学报:社会科学版,2011,(6)

[7] 朱顺泉,信用评级理论、方法、模型与应用研究[M],北京:科学出版社,2012

[8] 克里斯特安尼著,支持向量机导论李国正王猛曾华军译)[M]2004,北京:电子工业出版社

[9] Sarle, W. S.. Neural Network FAQ [EB/O1 ]. http://www.informatik.uru-freiburg.de/}heinz/FAQ.html

[10] 张红,高帅,张洋,基于主成分分析和支持向量机的企业盈利能力预测[J],统计与决策2016,(23)

四、模型指标选择及数据预处理