公务员期刊网 论文中心 正文

多源数据下多维企业信用风险评估

多源数据下多维企业信用风险评估

[提要]本研究针对多源数据融合场景下多维的企业信用风险评估,探索有效的模型学习方法。根据实验结果与分析,可以得出结论:XGBOOST能够较好适应多源数据分布不一致性和多维场景指标数量繁多的特点,同时该方法不需要对数据细节进行较深入的处理,因此能够快速调整模型,适应市场监管动态变化的特点。

关键词:企业信用风险;多源多维;XGBOOST

政府部门作为社会企业的主要监管机构,职责涉及海量企业的大量信用指标、安全指标、合法合规指标的监督和抽查,为企业的公平稳健发展和社会的和谐文明与稳定提供了最坚实的保障。此外,将各部门负责的不同指标联合用于对企业整体风险的考察,不仅有利于对部门工作任务和工作流程的优化,而且能起到及时预警作用,防患于未然。现有对于企业信用风险评估的研究工作多从开展评估的主体的不同业务角度出发,如信贷业务、电力业务、供应链金融、医药等角度,相关研究所使用的评估指标具有较高针对性、专业性,指标数量有限。从开展评估所用到的评估模型或算法进行划分:统计学习方法,如Logistic回归模型、结构方程模型;现代机器学习方法,如SVM、随机森林、XGBOOST;深度学习算法,如CNN模型。其中,现代机器学习方法由于模型性能较好、便于进行适应性算法优化与集成,成为目前信用风险评估的主流方法;回归模型结果可解释性强,但该算法对数据分布有一定要求;深度学习方法在其他领域应用广泛,但信用风险评估数据集通常呈现极大的类别不平衡、缺失值现象,难以直接应用深度学习算法,但也有学者组合其他算法来解决类别不平衡现象,从而促进深度学习算法的应用。本文从多业务多维度指标出发进行企业信用风险评估,模型所覆盖的指标种类较多,类别不平衡与缺失值现象更为严重,难以保证多源数据分布的一致性。因此,本文重点观察数据整体对评估性能的影响,提升模型泛化性;模型具有目标倾向性,减少“第Ⅱ类错误”(高风险公司未被识别)。本研究减少对各指标下数据细节的考虑,重点研究对比了不同机器学习算法,从中选出针对当前数据特点与任务场景效果最优、方法最适合的模型。针对多源多维度企业信用风险评估,借鉴大数据场景数据挖掘思想,考察数据整体特点,便于发现数据隐藏的关联与规律,同时能够提升评估模型的泛化性。此外,应用现代机器学习算法,有利于提升信用风险评估的客观性,提高信用风险评估业务的效率。

一、数据介绍

选择深圳市市监局“双随机、一公开”结果公示的191,824条餐饮服务食品安全量化双随机检查结果数据,进行统计分析。通过数据去重和数据清洗,获得3,827家商事主体,其中291家有违法违规记录,2,736家没有违法违规记录。利用当下前沿技术多维度采集3,827家商事主体包括工商登记信息、欠税记录等在内的52个维度的公共信息,整合成为模型建设的样本数据,依据正负性样本比例,从中随机选取3,027家上市主体数据作为模型训练数据,其余800家商事主体作为模型测试数据。

二、设计方案

(一)系统设计。本产品按照功能分为三个模块,数据预处理模块、指标筛选模块和模型训练与选择模块。预处理模块对多维企业数据进行数据离散化、归一化、独热编码等预处理;指标筛选模块通过IV值、相关性、正则化等不同筛选方式为各指标打分,保留有效特征供后续模型使用;模型训练与选择模块采用不同机器学习及深度学习的方法,建立企业基本信息和企业信用间的映射模型,训练后的模型可用于对新企业信用的风险评估。

(二)数据预处理模块。数值形式转换。以日期、货币、文本格式数据为例的数值形式转换:(1)从文本型描述中抽取货币信息,文本型描述中噪音类型包括货币国别种类不同(美元、人民币等)、货币单位不同(元、万元、百万元等)、文本型数值字符混用等,观察分析并汇总各类型噪音,分类进行货币换算与货币转换;(2)对不同日期格式进行转化,进行天数、月份数、年数等粒度的绝对值或相对值获取,最终统一为以月为单位的时间跨度;(3)将具有有限类别的文本数据进行判定,转换为分类数值标签,如风险等级判定。异常值、缺失处理。对于空值处理,实现高频值、指定固定值、相似数据预测值三种方式,综合考虑后采用固定值处理方式。异常值处理,根据数据量统计,判定出异常值(极大极小值或罕见文本类别),按空值情况处理。特征转化。各指标的数值分组、各分组分值计算。基于主流项目Toad进行数值区间划分,Toad是针对工业届建模而开发的工具包,针对风险评分卡的建模有针对性功能;基于信用风险领域的WOE分值计算方法进行数值对应的组别分值计算。进行数值分组能够提升模型泛化性,降低数据误差的影响。

(三)指标筛选。大数据场景下的数据挖掘需要处理的是海量、多渠道的数据集,且指标(或因变量)数量较多(一般都在50个以上,通常称之为高维空间),由于难以预先得知相应的规则或模式,且场景复杂,单一规则或模型对海量样本的覆盖与解释能力有限,应尽可能收集更多的样品指标以防止遗漏重要解释变量。但是这不等于把全部指标都应用到数据建模过程中,这样会严重影响建模的效率与对挖掘结果的解释,同时过于依赖部分指标,将降低模型的泛化性能,少量的指标有利于模型的因果分析,提升模型鲁棒性。因此,在建模之前必须对指标进行必要筛选,以挑选出对目标变量或模式有重要影响的变量。指标筛选即指标归约,是指用部分指标来代替原有的指标集合,即进行适当降维。降维的方法主要有两类:一是选择指标的子集来代替原有的指标集合,如相关分析、回归分析、信息增益与模糊集等;二是对原有指标进行变换,合成新的综合性指标,如主成分分析。本文所述的指标筛选是子集的选择。指标选取的方法有多种,常用的有相关分析、回归分析、信息增益、正则化等。本文选择相关分析、信息增益、正则化方法。基于回归分析筛选方法包括前进、后退法以及步进法,试图从线性因果关系来说明各个自变量对因变量的影响大小,该类方法避免了模型受部分指标影响从而带来偏颇,但由于本文重点考察不同分类方法对于复杂指标、高维空间的柔性,此外本文数据稀疏程度较高,部分指标直接影响样本评估结果,应用该类方法淘汰掉该类指标将导致生成大量无效数据。因此,未对该类方法进行尝试。相关性方法仅从各指标数值分布向量之间的相似程度出发进行考虑,易于使用和解释。信息增益方法源于熵理论,即热力学第二定律,目前在社会学科、管理科学以及空间科学上取得了相当多的成功应用,其基本思想是以指标的信息含量(对分类准确性提升的增益、贡献)来评价指标的重要程度,进而筛选指标。正则化方法是机器学习领域中的常用方法,可以在降低模型复杂度的同时,保证模型的有效分类性能,并且提升模型的泛化性能。上述三类方法结合使用,实现IV值、相关性、正则化等不同筛选方式,完成多层级的严格指标筛选。(1)IV值的作用就是衡量一个变量整体的预测能力,好处在于每个变量的IV值是可比的。所谓IV值,是指一个变量对于判定客户属于y1还是y0的信息贡献,贡献越大,IV值越大。(2)相关系数越大,两个指标相关性越高,从而导致评价指标所反映的信息重复。通过相关性分析,删除相关系数较大的指标,简化了指标体系,保证了指标体系的简洁有效。(3)正则化通过在拟合模型时的代价函数中加入范数,其中范数表示模型参数的复杂程度,拟合结束,部分维度参数变为零,从而能够有效剔除评价体系的无用指标。筛选前指标总数52项,最终保留指标15项,如表1所示。(表1)

(四)模型算法选择。1、Logistic逻辑回归。Logistic逻辑回归是线性回归的拓展,由于模型可解释性强、模型简单等优点,在信用评分模型中应用广泛。以信贷风险管理为例,信用卡申请人的基本信息如文化程度、月薪、婚姻状况以及过去是否存在违约记录等情况和未来出现违约的概率之间存在何种关系。逻辑回归是线性回归的拓展,但不像线性回归那样对数据分布有较高要求,只需要自变量之间不存在高度相关的多重共线性关系即可。在金融行业中,逻辑回归应用于对个人信用风险进行评级具有三个优点:其一,不需要对自变量分布做假设,不要求同方差性;其二,生成的回归方程易于理解,方便解释各个变量对模型的影响;其三,可求出一个发生比,更直观判断分类的准确性。2、XGBOOST。XGBOOST是基于决策树模型的集成分类方法。决策树模型根据数据特征进行树状层级划分,具有易于解释、识别效率高、产生判别规则等优势;但其仍具有不少缺点,比如决策规则复杂、易产生过度拟合、分类非全局最优解而是局部最优解等。基于这些特点,产生了随机森林方法,集成多棵决策树,根据投票决策思想,提升了模型分类的准确度。XG-BOOST在其基础上进一步优化,加入正则化技术,提高模型泛化性,其特点有:高效处理大型数据集,甚至在输入变量庞大的情况下;能够估计变量的重要性并排序,并计算其相似性;能够泛化误差;具备高精度,甚至在数据中存在大规模空值时仍保持较高精度;计算效率高,不会过度拟合。3、CNN。本文同样将深度学习算法用于企业信用风险预测,卷积神经网络(CNN)是其中主流算法之一,被广泛运用于计算机视觉、自然语言处理、数据挖掘等领域,本文训练CNN模型作为风险评估的分类模型。采用CNN进行多维数据的特征提取与分类。CNN是一种包含卷积计算并具有深层结构的前馈神经网络,基本结构通常由三层神经网络组成,分别是卷积层、池化层和全连接层。其能够在大量数据样本中自动学习原始数据的特征表示,因此能够适用于对多维数据的复杂特征进行有效提取。由于深层神经网络强大的拟合性能,能够充分对语料进行学习,进而具备较好分类性能。

三、实验结果与分析

实验主要探讨多源多维数据场景下模型的分类拟合性能与泛化性,因此将“高低风险”作为信用风险评估的学习目标,即二分类学习。实验从训练语料随机划分20%的数据作为模型学习的验证集,保证测试语料不在训练集和验证集中泄露。所用到的评估指标包括准确率,即高风险公司“准确预测的公司数量(高低风险)/公司总数量”的比率。实验证明,回归方法与CNN方法准确率分别为82%与87%,XGBOOST准确率为96%,达到最优效果。分析认为,XGBOOST由于集成学习具备良好分类性能,适用于具有较多细分指标的复杂评估任务场景,即对多维数据的学习;同时,该算法基分类器为多个决策树模型,对数据分布无任何要求,且能够对依赖局部指标的特殊样本进行有效划分,因此能够适用于多源数据,无需做复杂的特征筛选、特征映射及特征表示的转换等。此外,在损失函数计算过程中调整权重,使其对指定目标(类别)数据代价敏感,一定程度上缓解了数据类别不平衡对模型训练的影响。此外,XGBOOST不需要对原始数据做细致处理及进行复杂的指标筛选和特征映射,因此能够适应任务和数据的动态变化,及时更新、训练,满足动态调整的要求。综上,针对企业信用风险评估,基于大数据场景数据挖掘思想,能够发现细分场景所未能表现出的隐含规律与特征关联现象。从行政机构对市场监管的场景考虑,对多源多维度的历史监管数据进行联合学习,有利于对监管条目进行整合,优化业务流程;同时,引入自动化评估预警方法,能够提升监管的效率和有效性。本文考虑到企业风险评估多源多维数据特点,对企业信用评估用到的各类主流方法:统计学习、机器学习、深度学习等进行实际效果比较,发现现阶段机器学习类型下的XGBOOST分类方法具备最佳性能,并详细分析了其在本文任务场景下的实用性。在未来研究中,将纳入更多机器学习与深度学习方法及模型解释机制,提升大数据视角下基于多源数据融合的企业信用风险多维度评估的有效性和可解释性。

作者:张喜会 单位:深圳市标准技术研究院