公务员期刊网 论文中心 正文

电商企业信用风险预警模型缺失值探究

电商企业信用风险预警模型缺失值探究

摘要:电子商务信用风险评估是建设信用体系的重要环节。在企业电子商务数据采集存在缺失值的情况下,本文比较了BP神经网络、支持向量机、决策树、极限学习机以及对应的集成模型在含缺失值预测样本的鲁棒性。实证数据分析结果显示,极限学习机及其集成模型在上述情况下优于其他模型。

关键词:信用风险预警;缺失值;机器学习

1引言

2019年中国电子商务报告数据显示,我国的电子商务逐年稳步增长,在国民经济中的比重越来越大,发挥着重要的经济和社会作用[1]。但是另一份报告指出信用风险破坏着健康的电子商务交易环境[2],阻碍了电子商务的进一步快速发展。构建信用管理体系,将信用风险纳入体系有助于规范和推动电子商务市场。有效的信用风险评估可以提升交易主体的信心,加速商务活动的过程,从而为电商创造更有利的发展环境。电商信用评估模型的建立一般通过指标设计及数据采集、指标筛选以及模型训练和评估3个基本步骤。目前国内外已有研究显示[2-7],在电商数据样本少、维度高以及类别不平衡的情况下,基于机器学习方法的电商信用风险评估模型效果优于传统的统计方法,能够有效地评估信用风险。然而建立好的模型仅能在待测样本所有指标数据完整的情况下工作。在实际情况中,由于数据采集受到企业制度、隐私规范等情况的限制,难以为待评估的企业收集到完整指标数据。此时模型的应用就受到了极大的限制。一个很自然的解决方法就是为含缺失值的样本补全缺失数据,然后再进行评估。因此,研究待测样本在常规的缺失值补全方式下模型的鲁棒性可以为模型的应用提供有价值的参考,具有重要的实践意义。现有研究在电商信用风险预测模型中常用的机器学习技术包括反向传播神经网络(BPNN)、支持向量机(SVM)、决策树(DT)以及上述模型的同质集成和异质集成模型。一些研究人员使用神经网络模型进行信用风险预警等级的预测[2-4],不同的是王新辉使用误差反向传播来进行优化[2],ZhangX使用粒子群算法进行优化[3],HuangXB使用广义回归神经网络(GRNN)和概率神经网络(PNN)[4]。一些研究人员使用SVM作为同质集成模型的基分类器[5-6],不同的是陈云等通过随机子集模型(RSM)方法集成[5],而周可滢通过Bagging方法来集成[6]。XuYZ等综合评估了DT分别与逻辑回归(LR)、动态贝叶斯网络(DBN)及神经网络相结合的模型性能[7],提出了决策树-神经网络的组合模型。对样本缺失数据的填补除了传统方法外,还有基于统计学习和深度学习的方法。金勇进归纳和介绍了均值填补、回归填补、多重填补、随机估计填补和演绎估计填补等传统的缺失数据填补方法[8]。朴范玉使用自动编码器通过完整数据学习了待填补的数据特征[9],再通过学习好的自动编码器完成数据的填补。孟杰使用随机森林模型来完成调查问卷缺失数据的填补[10]。曹卫权研究了机器学习中的数据特征[11],提出了一种近似填补方法。张网娟则在卷积神经网络模型的背景下研究了缺失数据的填补方法[12]。由于基于统计学习和机器学习的方法需要获得数据分布的先验假设,直接应用在电商数据少量样本的场景下容易造成严重的数据偏差,因此本文拟采用最常用和传统的均值填补方法。与以往为了改善模型性能的缺失数据填补不同,本文研究训练好的模型对含缺失值待测样本的影响。现有的机器学习算法在超参数的选择下几乎都可以达到良好的一致的效果,但是在预测样本含缺失值的情况下可能造成不同的性能下降,即对含缺失值样本有不同的鲁棒性。本文研究在电商模型中不同的机器学习模型,使用常规均值填补的缺失值预测样本情况下的鲁棒性。

2对比模型及缺失值填补方法

2.1对比模型

在电商信用评估中常用的机器学习模型有BPNN、SVM和DT。为了进一步评估不同的模型,本文将极限学习机(ELM)加入对比模型。除了以上四种模型以外,考虑到集成学习可以降低模型的偏差,进一步增强模型在不同场景下的泛化能力,更加准确和公正地评估模型的性能[13],本文将以上四个模型作为基分类器进行同质的集成学习,对多个基分类器的结果使用相对多数投票法的结合策略,然后进一步比较性能。BPNN是一种分层的非线性映射网络结构[14]。其输入数据通过网络权重的线性变换后,再由具备非线性能力的激活函数映射后输出,根据输出预测值与真值之间的误差逆向传播来更新网络权重达到优化模型的目的。BPNN可用于回归和分类,在分类任务中通常在输出层使用Softmax函数进行归一化,误差由交叉熵来表达。SVM通过寻找能使二类样本间的最大间隔超平面来建立模型[15],一般通过SMO等优化技术来求解。SVM可以将样本经过核函数映射到希尔伯特空间后再计算超平面以获得非线性的类决策边界。SVM经过“一对多”、“一对一”等训练方式拓展后可以应用于多分类任务。DT依据属性值的不同来以树状结构按样本属性划分样本类别[16]。划分属性的选择基准为信息熵、基尼系数等信息度量。当树状结构的叶子结点类别一致或属性值一致时停止算法。ELM使用的结构与神经网络相似[17],在求解方法和思想上有较大的区别。ELM首先通过线性变换结合非线性的激活函数将训练样本随机投影到新的空间,在新的空间内直接求解使得投影后的样本与真值之间最小误差的线性变换矩阵。由于投影的随机性和直接计算解析解,ELM求解速度快,其泛化能力在一定程度上优于BPNN。

2.2无类别先验均值填补方法

使用类均值补全缺失值,即使用该样本所属类别在该属性值上的均值代替缺失值,并以此参与模型训练和预测。但是在本文的场景中缺失值的样本为待测样本,未知其类别,也就无法使用对应类别的属性均值代替缺失值。因此,本文使用各个类别的均值分别替代缺失值后,再对补全缺失值的样本进行预测。即若模型为k分类问题,则每一个待测样本需要使用k个类的均值分别代替补全,每一个待测样本会产生k个补全后的样本。通过补全后的测试集样本数量为原测试集样本的k倍。由于补全缺失值后的样本受到所填补的非所属类均值数据的干扰,会造成原有模型在测试准确率上的下降,因此可以通过模型在补全后的样本测试集上测试准确率来判断模型对缺失值预测样本的鲁棒性。

3实证研究及其分析

3.1数据来源及其指标体系

本文采用王新辉建立的指标体系及其调研的18家企业数据[2],使用该体系中的全部19个指标作为研究的数据来源。王新辉首先根据19个指标间的相关系[2],使用主成分分析法选择出13个重要指标,然后根据这些指标和专家打分划分出不同的信用风险等级,最后使用BPNN训练得到模型。本文为了降低类别不平衡问题对模型鲁棒性造成的影响,综合考虑实践的信用风险预警等级情况,将数据集重新划分为以下3个等级,对应的预警等级和分值范围为:无风险预警A(70-100),低风险预警B(40-69),风险预警C(0-39)。此时原始数据中的18家企业信用风险分值和风险预警等级如表1所示。根据表1,本文取前13家企业为训练样本,后5家为测试样本。然后对5个测试样本假设为缺失值样本,为了平衡对比模型各个属性上的差异,样本中的各个属性都假设为缺失值,这样每一个待测样本都产生19个测试样本。这19个样本分别对应着19个属性缺失值。按照上述的假设,测试集共有5*19=95个样本,在每一个属性上缺失值样本各5个。对这95个含缺失值的预测样本使用无先验的类均值填补方法,每一个预测样本需要分别填补3次,对应3个类别的预警级别,最终在类别上无先验,属性值上均衡的测试集样本数量共有95*3=285个测试样本。

3.2模型参数选择及实验设置

模型中的各个参数选择通过交叉验证来选择。在BPNN模型中,使用单隐层结构,隐层的结点数量为5个,激活函数为Sigmoid函数,优化方法采用L-BFGS算法,收敛条件为误差小于0.001或迭代达到最大次数。在SVM模型中,使用RBF径向基函数为核函数,其核宽度参数为1/19,惩罚因子C为1,收敛条件为误差小于0.001或迭代达到最大次数。若在集成时,则参数C和核宽度在一定范围内随机抽样以增加多样性。在DT模型中,使用信息熵增益。在ELM模型中,隐层结点数选择为7个结点,激活函数同样设置为Sigmoid函数。在检测基分类器的效果时,每个模型各运行500次取测试准确率平均值作为比较;在检测集成模型的效果时,使用500个基学习器进行相对多数投票法来预测最终分类结果,每个集成模型运行10次,取准确率均值作为度量比较模型效果。

3.3实验结果及分析

不同的基分类器运行500次后准确率的平均值如图1所示。每组数据左边代表原始数据集上的准确率,右边代表含缺失值的预测样本准确率。可以明显地发现,含缺失值的预测样本准确率明显低于原始数据集。同时还可以发现以下结论:SVM分类器的准确率明显高于其他分类器;ELM对缺失值的鲁棒性最好,模型准确率下降的幅度最少。这说明SVM在小规模的数据集上训练得到的模型具备更好的泛化能力,而ELM由于进行了随机投影,因此更不容易受到缺失值的影响。使用不同数量的基分类器进行集成的模型效果如图2所示。图2所展示的是含缺失值预测数据集的准确率。从图中可以明显看出,ELM为基分类器的集成模型明显高于其他模型。当基分类器的数量达到一定程度时,模型的预测效果较为稳定。根据图2的结论,集成分类器的数量设置为500。使用500个基分类器的集成模型运行10次后,以及单个基分类器运行500次后的原始数据集准确率和含缺失值样本的测试数据集准确率的平均值如图3所示。从图中展示的结果可以看出:(1)以ELM为基分类器的集成模型无论在原始测试集和含缺失值的测试集中都具备最高的准确率,表明在小样本高维度的情况下,ELM的随机投影能够充分挖掘数据内部联系,提高模型的泛化能力。(2)以ELM为基分类器的集成模型在原始测试集和含缺失值测试集上的准确率一致,没有下降,表明集成的ELM模型对含缺失值测试集具备良好的鲁棒性。(3)除了SVM外的其他模型,通过集成后都提高了其模型在原始测试集和含缺失值测试上的准确率。(4)SVM在集成后几乎没有提高准确率。这可能是在小样本情况下,不同基分类器所学习到的支持向量几乎一致,因此难以在集成学习下进一步提高准确率。

4结语

本文以电子商务企业信用风险预警为背景,研究了基于BPNN、SVM、DT以及ELM模型的分类器在含缺失值的预测样本情况下的鲁棒性。实证分析显示,ELM在鲁棒性方面表现优于其他类型的分类器。以ELM为基分类器的集成模型不仅在鲁棒性方法同样优于其他模型,在集成后的模型中也达到了最好的准确率。本文所设计的无类别先验的均值补全方法所生成的测试集与实际情况下的含缺失值样本还存在着差异,今后考将虑从实际情况出发进一步验证不同模型的鲁棒性。

作者:陈艳 蒋伟杰 单位:福州大学至诚学院经济管理系 福州大学数学与计算机科学学院