公务员期刊网 论文中心 正文

数据挖掘下电商日常销量预测探究

数据挖掘下电商日常销量预测探究

【摘要】销量预测对于电商企业的投资经营决策具有重要意义。本文基于某企业的历史销售数据,通过因子分析法对影响日销量的16个变量进行降维处理,得到直接因子、潜在因子和转化率因子三类潜变量,并在此基础上运用正规方程法对观测变量(日销量)进行线性回归分析,最后利用该预测模型预估调整影响变量后的观测变量变化趋势,为商家的营销策略调整提供指导建议。

【关键词】数据挖掘;销量预测;营销策略

1引言

基于互联网的交易平台具有降低交易成本、提升交易效率等优势,为电子商务的发展提供了有利条件。近年来,随着生产消费水平的提高,日常商品交易数量急剧上升,数据挖掘相关算法在该领域的应用显得尤为重要。与此同时,在全民实现“弯道超车”的时代,大数据与人工智能等技术不断记录分析人们的消费生活习惯,能够为用户提供更加精确的营销服务。作为电商企业,如何利用电商平台提供的有效数据资源,作出针对性的销售调整,以期最大限度地提高利润,是一个非常重要的技术手段。徐国虎、孙凌(2012)在电商发展的早期阶段已开始着手将大数据技术应用于线上线下用户数据挖掘。其研究基于线上线下用户数据体量大、类型多、速率快、价值高的特点,运用大数据技术提出由数据来源层、收集层、存储层、分析层到最后应用层构成的O2O用户数据挖掘框架,并指出“最准确的商务决策来源于数据支持,大数据应用必将成为O2O电子商务深入发展的重中之重”。罗红梅(2013)认为企业营销领域应该从直觉、经验或情感化的决策过程走向数据挖掘和分析为主导的“理性”时代,网络精准营销的核心是数据营销。在电商促销活动方面,孙钰(2017)指出活动期间的销量会显著大于日常销量,而活动前后的销量小于日常的销量,且活动前后期的转换率较低。尹胜燕(2017)研究了RFM、关联规则、聚类分析等方法在数据发掘中的应用,指出应用数据挖掘技术可以在制定营销策略时统筹兼顾,使得商家的运营决策具有一定的前瞻性。基于自然语言处理的文本情感分析,刘玉林、菅利荣(2018)通过分析电商平台评价系统中的留言判断情感倾向,并建立情感指数,以此来评估顾客的情感倾向和商家的经营管理状况。周静曦(2019)基于某商家的历年销量数据,从模型假设、模型建立与求解等几个方面对数据进行ARIMA模型的建立,并根据ARIMA模型对未来几天的销售量进行拟合和预测分析,然后用马尔可夫模型进行结果检验,为商家的补单及存货提供理论依据。葛娜、孙连英等(2019)在深入分析Prophet加法模型和长短时记忆神经网络的特性的基础上,依据某企业产品销量时间序列数据的趋势规律,构建了一种用于预测销售量的Prophet-LSTM神经网络组合模型,设计并实现了与组合前Prophet、LSTM单项模型及两种典型时间序列预测模型的对比实验。虽然相关学者已从多个角度和方法研究电商数据挖掘,但由于电商主营产品的多样性及其与销售数据复杂性之间的矛盾,使其很难用一种通用的决策算法来判断销售策略的合理性。本文拟从实际销售数据入手,通过对多种影响因素进行数据降维,并利用降维后的数据进行销量预测,从而为商家选择合理的销售策略提供指导。

2研究方法

本文数据来源于某电商企业自2020年5月1日至2020年7月16日共计76天的真实历史销售数据,每日数据中包括15项影响因素(x1,...,x15分别对应商品访客数、商品浏览量、商品平均停留时长、商品详情页跳出率、商品加购件数、商品收藏人数、下单买家数、下单金额、下单转换率、支付买家数、支付转换率、下单件数、支付件数、访客平均价值、成功退款金额)和一项观测因素(支付金额),构成76×16的数值矩阵表。

(一)数据归一化

对于任意序列xi∈Rn,存在双射f,使得x0=f(xi)属于标准正态分布,其中μ,σ分别对应序列xi的均值和方差,如(1)所示。(1)为了消除量纲,利用上述归一化方法将数据放缩,作为初始的数据预处理。

(二)相关性分析

因数据记录中影响因素较多,且有部分因素之间的相关性是比较直观的,如下单件数与下单金额,因而我们首先做一个相关性分析,常用的反映两变量之间变化趋势的方向以及程度的系数包括pearson、spearman、kendall三种相关系数,其值范围为ρ=p[-1,1],其中0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。考虑到数据间有较强的线性相关性,我们直接采用pearson相关系数,两个变量x1,x2∈Rn之间的计算方式如(2)所示。(2)显然,该矩阵为对称矩阵,且对角线元素全为1,因而我们仅显示下三角,如图1所示。可以看到,冗余变量较多,因而下一步采取数据降维处理,考虑到数据降维的可解释性,因而采用因子分析法来实现这一目标。图1相关矩阵

(三)因子分析

在进行因子分析之前,我们先进行Kaiser-Meyer-Olkin(KMO)和Bartlett’s球检验。这两个指标是衡量样本是否适合进行因子分析的依据,其中KMO表示变量之间的相关性,值越接近1表示相关性越强,一般0.9表示非常合适,0.8表示合适,0.6则表示效果很差或直接不合适;Bartlett’s球检验用于检测相关矩阵是否为单位阵(变量间是否独立),若概率值小于显著水平α=0.05,则表示适合做因子分析。经计算(见表1),结果显示适合因子分析。这里的系数A是我们关心的因子荷载矩阵。显然,如果忽略特殊因子ε的影响,公因子F在系数A的作用下可线性表示所有的待分析变量X。设公因子F可由变量X线性表出,如(3)所示。Fp×1=βp×mXm×1(3)其中,β为线性组合对应的加权系数,依此来计算因子得分,显然,每个公因子的得分分别对应影响变量对该因子的贡献。因此,选取因子得分大的公因子来代表相应影响变量的贡献信息。计算相关矩阵F的特征值λ[t],t=1,…,n,不失一般性,设它们满足λ[t]≥λ[2]≥…≥λ[n]则必然存在一个整数p≤n,使得∑Pt=1λ[t]≥0.9∑nt=1λ[t],且累计方差贡献率大于0.75,记p为降维后的因子个数。经计算,这里的因子个数p=3。对因子载荷矩阵进行旋转计算得分,最终得到更有实际意义的公因子,如图2所示。根据权重关系,可将公因子F1、F2、F3分别命名为直接因子、潜在因子、转化率因子,然后我们利用这三个公因子来预测日下单金额。

(四)线性回归模型

线性回归的一般形式可表示为公式(4)。y`m×1=θm×pFp×1(4)m表示样本个数,p表示公因子个数,那么观测结果y与预测结果y′之间的误差Rss可表示为:令误差最小,计算Rss的导数,有:进而θ=(XTX)-1XTy,即正规方程。计算得到θ后,直接代入原线性方程,即可得到预测结果。正规方程、岭回归和梯度下降所得拟合误差百分比如图3所示。图3拟合误差百分比

(五)朴素贝叶斯模型

因本文研究的变量均为连续型,且在经过因子分析后可以适当将三个公因子看做是相互独立的变量,因而采用高斯朴素贝叶斯模型。在此之前,我们引入一些理论框架。设(Ω,F,P)为概率空间,如果,则称Ai为Ω的有穷剖分。全概率公式指的是如果在有穷剖分基础上,P(Ai)>0,则对任一事件B∈F,有相应的,如果对任一事件B∈F,P(B)>0,则:称为贝叶斯公式,实际上贝叶斯公式可以看做条件概率公式在全概率公式下的适当变形。对于高斯朴素贝叶斯而言,我们需要将上述公式中的P表示为高斯函数即可:依此计算三种公因子的条件概率并完成模型训练,然后代入预测参数即可推断预测结果。如图4所示。

3结果与讨论

由于特殊活动日期如双11、618等数据的偶然性强且各因素的关联性相对较弱,而且根据观察,虽然双11、618等活动当天销售量会有爆发式增长,但是纵观全年总销量构成,非活动期间的日常交易额还是占据绝对比重,因此分析日常交易额的相关数据更具实际意义。从数据降维角度我们可以将大部分影响数据分成三类,一类直接转化为交易额,如下单买家数、下单件数等;一类虽然没有直接转化为交易额,但可能在将来的一段时间变现,如加购件数、收藏人数等;最后一部分就和转化率等有关,用来表示总体访客的变现价值。在制定销售策略时,可以从这三个角度来分别研究。总体来讲,在流量增加的情况下,转化率因子可以衡量总体效益,但影响当日直接交易额的是直接因子,而对于潜在因子则需要一个滞后的时间来实现变现,在做促销活动时可着重考虑这部分数据。在预测方面,相比于朴素贝叶斯分类模型,本文使用的多变量线性回归模型可以更准确地预测观测变量。实际上为了选取合适的拟合方法,本文分别用正规方程、岭回归和梯度下降来进行模型拟合,得到的结果如图3。针对本次研究,梯度下降的误差最大,可能达到35%,岭回归次之,介于10%-15%,正规方程表现最好,基本低于5%。有相关文章的研究通过阈值将数据二值化,从而把研究目标转化为一个二分类问题,与之不同的是,本文考虑到影响变量的连续性,引入高斯朴素贝叶斯模型来处理该问题,相较于前者的阈值分割处理,本文的影响因素具有更多的特征信息。关于最后的预测结果,鉴于贝叶斯网络的分类本质,这里选取日交易额均值的1.5倍作为阈值,判定是否可以达成该目标,结果为“0”或“1”的布尔值,预测结果如图4。图中预测结果与实测值结果完全吻合,当然该模型在本质上是用分类模型来做一个拟合问题,对于预测结果只能给出布尔值,无法给出更多信息,也存在一定局限,但并不影响研究结论。在实际销售中对于商家而言,高于1.5倍于日常均值的交易额仅仅是一个范围,具体可能是2倍甚至10倍,其中的区别有时可能影响很大,这也是后续研究需要进一步挖掘的。

4结论

本文根据电商企业每日交易的历史数据,将日下单金额作为观测变量,其余变量作为影响变量,分析了影响观测变量的主要因素并构建预测模型。首先利用因子分析将冗余的影响变量划分为直接因子、潜在因子和转化率因子,得到影响日下单金额的三种公因子,然后分别利用高斯朴素贝叶斯模型以及基于正规方程法做线性拟合模型,得到较为理想的结果。本文提供的预测模型可以通过适当调整主要影响因素来观测结果变化,计算调整成本与收益率进而得到最优策略,这对于电商企业分析销售趋势、调整营销策略,具有直接的指导意义。

作者:冯明 单位:中国社会科学院大学商学院