摘 要: 针对现有话务预测模型变量单一、预测误差大等问题引入了逐步回归分析法;结合海河银行信用卡呼叫中心实际需求,对话务数据进行了抽取集成等预处理操作;随之建立了各影响因素的一元回归模型,并在此基础上得到了多元逐步回归的话务预测模型;最后将此建模方法与其他分析法进行了综合比较并给出评价。
关键词: 话务预测;回归分析;逐步回归;时间序列分析
0 引言
目前许多企业的呼叫中心都面临着话务量激增、话务员大幅度增长的问题,如何准确预测话务量对移动通信网络的管理具有重大的意义。
当前,建立预测模型的主要方法有Kalman滤波[1-2]、时间序列预测[3-4]、话务量OLAP分析[5]等。其中Kalman滤波和时间序列预测法相对简单,但难以满足现阶段话务量的复杂变化,话务量OLAP分析技术则处于起步阶段,并没有大范围地推广应用。国内各厂商的话务预测基本是以各种时间序列模型作为预测的核心技术,仅仅基于话务数据,使用时间序列回归预测法和指数平滑预测法[6]进行预测。然而这两种方法都不适用于具有季节变动规律的分月话务量预测。因此当前迫切需要的话务预测模型是基于多因素预测话务量波动趋势的模型。
本文通过比较不同回归分析法的优缺点,提出使用逐步回归分析法解决预测话务量不够精准、运算量太大的问题。以海河银行信用卡业务呼叫中心为实例,重点阐述了多元逐步回归话务预测模型的建模过程,并做了模型显著性检验。最后通过与其他回归分析法及时间序列分析法的比较,证明了基于逐步回归分析的话务预测模型在曲线拟合度、运算量等方面具有更优的性能。
1 逐步回归分析法介绍
回归分析是一种研究多个变量之间的函数关系的统计分析方法,如果能找到影响预测对象的主要因素,并且取得准确的数量资料,就可以采用回归分析法来进行预测。银行信用卡中心的话务量与其业务办理相关,影响因素可以明确提炼,并且与话务量相关的记录数据获取难度不大,因此十分符合回归分析法的要求。
回归方法一般分为穷尽法、逐步剔除法、逐步加入法和逐步回归分析法。穷尽法的工作量极大,一般很少使用;逐步剔除法需要把所有变量都引入回归函数,对类似海河银行这样大型的话务中心而言,成本开销太大,难以推广;逐步加入法虽不需将所有变量都引入函数,但没有考虑引入新自变量后,现有的自变量显著程度是否变化。在此基础上,引入逐步回归分析法来解决建模过程中计算量与显著程度相冲突的问题。
逐步回归分析法的核心思想是考虑自变量对因变量的影响显著程度,从大至小一一引入回归函数。每次引入都是剩下的自变量中对因变量影响最为显著的自变量,因此可减少一定的计算量。另外,引入新的自变量后,需要对函数中现有的老的自变量做检验,查看其是否还有很高的显著程度。如其显著程度很低,则将它从回归函数中剔除。最终得到的回归函数既不会遗漏对因变量影响显著的自变量,也不会包含那些影响不大的自变量。
2 逐步回归模型建立
影响信用卡中心客服话务量的因素基本包括信用卡的所有业务,需要从销售、审批、帐务、促销等多个方面选择一些重要因素参与预测模型的探索。
2.1 相关数据抽取和集成
模型的建立以海河银行信用卡中心近几年各系统的数据为基础,由于数据量巨大且在原系统内做数据集成必然会对生产环境系统的运行产生影响,因此,增加了原系统明细数据层。为了提高数据抽取的速度,保持原系统明细数据层的数据与原系统数据的一致性,并且降低对生产环境运行系统的影响,抽取过程遵循以下原则:
(1)以时间字段作为唯一过滤条件;
(2)只抽取需要使用的部分表的部分字段。
基于以上原则,可以有效避免因为其他逻辑缺陷,导致数据重复抽取或遗漏抽取的可能性。数据抽取后,可通过按日期分组聚合影响因素的方法,统计发卡数、临时额度调整数量、账单或交易分期申请数量等信息。也可依照其他类别分组聚合影响因素,统计特定信息,如审批拒绝数量、各类短信发送数量等。
2.2 集成数据层数据清洗
从原系统明细数据层集成后的数据被存入集成数据层,虽然此层存放了用于下阶段数据挖掘所需的全部数据,但直接用于探索模型会出现很多噪音,影响模型探索和预测的准确度,因此数据清洗是不可或缺的。
(1)错误数据
话务量数据是从客户服务系统和CTI系统关联得到,由于每个系统都存在一定的缺陷,一旦系统发生故障,可能会丢失故障期间接入的通话信息,或者正常的话务信息会统计出错,有时被翻倍统计。因此需要给话务量受影响较大的故障日期增加故障标志位。
依次比对故障日期前后几天话务量的数据变化,发现此类数据没有任何规律和趋势可循,有时甚至相差很大。由于客户服务系统和CTI系统的故障会直接影响到此次模型的因变量话务量,如果通过其他技术手段更新故障当天的话务量未必会对模型探索有所帮助,甚至可能会由于估计值和实际值相差很大而影响预测模型的准确性。因此在此次数据清洗中,把存在故障标志位的数据排除在外,不作为模型探索的基础数据。
(2)空值处理
实际生产业务中可能会有很多原因导致某几个日期的某些话务量影响因素存在空值。经检查数据中心7×24监控的系统运行状况,在数据为空的日期,当晚账单分期和交易分期的申请单跑批处理失败,因此会被加入第二天数据一起重新跑批。由此,将账单分期和交易分期的申请数量出现空值后第二天的数据除以2(个别日期追寻至后3天),计算这几天的算术平均值,并分别将其记为这几天的账单分期和交易分期的申请数量。类似地如果空值前后几天数据没有翻倍等现象,将空值前后一天或几天的数量相加,求其算术平均值当作空值当天的数量。
(3)字段衍生
很多潜在的变量有时会对模型起到关键的影响[7]。某些影响因素,其数量可能对当天的话务量不一定产生直接影响,但对于其前后几天的话务量必定会产生影响。例如账单日数量,很少有客户会在账单日当天一出账单,立即致电给呼叫中心,一般会推迟几天。
由此,当天的话务量不仅仅只与当天的账单日数量相关,应与账单日前4天和后2天的数量都相关。在此,采取类似移动平均的算法,将账单日前4天、当天、后2天的账单数量相加,除以7求其算术平均值作为衍生的账单日数量字段。
2.3 自变量筛选
影响话务量的因素较多,并不是所有因素对话务量都会产生很大影响。有时非重要的影响因素的加入,对模型的准确度提高不多,但却使模型复杂度急剧增加。因此,本文使用SPSS平台的分类回归树模型,通过寻找回归树的最佳分支选择影响因素作为模型自变量。
假设话务量和各影响因素存在如式(1)函数关系,其中{y1,y2,y3…yn}表示话务量所有值的集合,横排{xn1,xn2,xn3…xnm}表示不同的话务量影响因素,竖列{x11,x21,x31…xn1}表示某个影响因素不同日期的值。
先计算所有因变量话务量的平均值,如式(2):
在所有话务量影响因素中任选一个影响因素,在此取发卡量,将其按照发卡量排序,取第一条发卡数值,将回归树划分为左右子树。取其对应的话务量,分别计算其平方和离差。然后,再取前2个发卡数值,将回归树划分为左右子树,计算其平方和离差。以此类推,计算出所有可能的平方和离差。式(4)为计算树的离均差平方和与左、右子树的离均差平方和之差S。
S=SS-SSL-SSR=6 254 521 322(4)
在所有左右子树划分中,取最大的S值时的划分为发卡量的最佳划分。以同样的方法,对所有的影响因素计算其最大的S值,从每个影响因素的最大S值中,取最大值的那个影响因素为所有影响因素的最重要影响因素。因为“发卡数”、“固定额度调整通知短信数量”和“额度不足和超限提醒短信数量”这三个影响因素的重要性都达到80%以上,理应对模型有较高的拟合度。把它们作为预测模型建立的自变量,将话务量作为预测模型建立的因变量。
2.4 一元回归模型
首先建立发卡数与话务量的一元回归模型。在SPSS平台中导入发卡数与话务量的详细历史数据,将话务量作为Y轴变量,发卡数作为X轴变量,得到其散点图。从整体发展趋势看,话务量和发卡数量确实存在一定关系,但具体属于哪种关系,只凭肉眼观察无法明确判断。为了进一步确定其函数关系,使用SPSS的曲线估计功能,选择包括“线性”、“对数”、“倒数”、“二次”、“三次”、“复合”、“幂”、“S”、“增长”、“指数”10个模型加以分析。最终得到模型的曲线拟合图如图1所示,模型汇总和参数估计值如表1所示。
从各模型的R方分析可见,三次方程的曲线拟合度最高。因此,话务量和发卡数存在三次方程的关系,如式(5)。其中Y为话务量,X为发卡数,C0、C1、C2、C3为常数。
Y=C0+C1X+C2X2+C3X3(5)
同理可得固定额度调整通知短信数量与话务量关系以及额度不足和超限提醒短信数量与话务量关系都较为符合以下对数函数关系:
Y=C0+C1lnX(6)
由此,因变量话务量分别与发卡数、固定额度调整通知短信数量、额度不足和超限提醒短信数量这三个最重要的影响因素之间建立了一元非线性回归模型,为之后多元逐步回归模型的建立奠定了重要基础。
2.5 模型线性化
为了方便最终模型的生成,先将比较难处理的非线性回归问题转换为容易处理的线性回归问题。
(1)发卡数
令X=P1、X2=P2、X3=P3,则转换后的方程如式(7)所示:
Y=C0+C1P1+C2P2+C3P3(7)
转换后的方程由原来只有发卡数一个自变量变为3个自变量。为了保持对应,用于训练模型,需将原始数据也相应地增加至3个自变量。这3个自变量分别为发卡数(原始值)、发卡数的平方值和发卡数的立方值。
(2)固定额度调整通知短信数量
令N=lnX,对数函数方程转化为:
Y=C0+C1N(8)
其中新自变量N为原自变量固定额度调整通知短信数量的对数值。
(3)额度不足和超限提醒短信数量
令X′=lnX,则转换后的线性函数方程为:
Y=C0+C1X′(9)
其中变量X′为原额度不足和超限提醒短信数量的对数值。
2.6 多元逐步回归模型
虽然每个重要影响因素与话务量都存在一定的关系,但从单个函数方程的R方得知,其影响程度并不明显。如果将每个重要影响因素与话务量的相关性做累加,势必能得到一个回归效果更显著的方程,如式(10)所示。其中Y代表话务量,C0~C5为常数,X1代表发卡数,X2代表固定额度调整通知短信数量,X3代表额度不足和超限提醒短信数量。
Y=C0+C1X1+C2X12+C3X13+C4lnX2+C5lnX3(10)
基于式(7)~(9)所示方程,将所有重要影响因素的公式相加,与非线性模型(式(10))相对应,并只保留一个常数项,生成线性的五元一次方程,如式(11)所示。
Y=C0+C1P1+C2P2+C3P3+C4P4+C5P5(11)
其中Y表示话务量,P1表示发卡数(原始值),P2表示发卡数的平方值,P3表示发卡数的立方值,P4表示固定额度调整通知短信数量的对数值,P5表示额度不足和超限提醒短信数量的对数值,C0~C5为常数。采用逐步回归分析法,将各自变量依次添加进回归方程,每次都对方程中各自变量进行F显著性检验。
从试验结果得知,整个逐步回归过程中,每加入一个自变量,其F检验值都小于F0.05,因此没有影响因素从方程中剔除。最终模型R方变化过程如表2所示。
由此可见,在逐步添加影响因素时,调整R方由0.780上升到0.872,说明整个方程具有一定的拟合度。从调整R方的变化趋势来看,最后一个影响因素的加入其增幅只有0.001,再增加影响因素对整个方程的拟合度影响不大。最终取得回归模型各系数值如表3所示。
3 实验分析
从模型拟合度看,最终多元逐步回归模型的R方为0.872,明显高于前三种一元回归模型(R方分别为 0.796、0.659、0.751)。只以“发卡数”、“固定额度调整通知短信数量”或者“额度不足和超限提醒短信数量”一种影响因素来预测话务量走势是不够精确的。此类分析法虽然快速简单、易于实现,但预测误差很大,因而没有实用价值。
相比于其他多元回归分析法,逐步回归分析是较为折中的算法。既不会像穷尽法那样生成很多回归方程,又能动态加入和剔除自变量,提高回归方程的显著性,消除重复共线性。因此应用逐步回归分析法建立话务量预测模型是极具现实意义的一项研究。
时间序列被定义为按照时间先后顺序排列的一组定量观测[8],时间序列分析指对其观察、研究,找到其隐藏的、不被人们所熟知的变化规律和趋势,从而创建模型,预测未来的此类数据的走势的方法[9]。若时间序列平稳,可以用自回归模型AR(p)、滑动平均MA模型、自回归移动平均模型ARMA(p,q)来进行分析。ARMA模型能够较好地描述时间序列,但是其前提是时间序列是平稳的,缺点是预测速度慢。考虑到信用卡呼叫中心话务量可能存在循环周期性变动,在此选择ARIMA模型[10]。预测走势如图2所示。
很明显,前半部分话务量总体基本很平稳,但后半部分明显出现一个向上增长的整体趋势。这也和海河银行信用卡中心近几年响应总行的“大力发展信用卡业务”相吻合。从拟合度看,时间序列分析法模型统计出的R方为0.65,而逐步回归模型得到的R方为0.872。显然通过逐步回归分析预测话务量的模型拟合度更高。
究其原因,时间序列分析法只是挖掘了随时间推移的话务量波动趋势,而基于多个影响因素的逐步回归分析法,除了考虑海河银行信用卡发行规模扩大的影响因素外,还增加了固定额度调整通知短信数量以及额度不足和超限提醒短信数量,从三个方面综合预测未来话务量的整体走势。上述实验也证明了逐步回归分析法的模型拟合度要高于时间序列分析法。
4 结论
基于逐步回归的多元非线性话务预测模型能够依照各影响因素而变化,预测较为准确,误差水平低。就算法复杂度而言,基于时间序列的模型更简单直观、易于实现。如果能将其与回归预测模型相结合,交替使用,可进一步提高预测的准确性并降低时间复杂度。同时逐步回归分析法也有自身局限性,一般适合于有明显的增长特性和阶段特征的大话务量预测,预测周期通常以月和年等为单位。对于话务变化剧烈、量级小、时间短的话务量预测,可能会因误差较大而无法使用。此方法有待于进一步研究。
参考文献
[1] GREWAL M S, ANDREWS A P. Kalman filtering: theory and practice using MATLAB[M]. New York: John Wiley & Sons, 2011.
[2] HARVEY A C. Forecasting, structural time series models and the Kalman filter[M]. Cambridge: Cambridge University press, 1990.
[3] CORTEZ P, RIO M, ROCHA M, et al. Multi-scale Internet traffic forecasting using neural networks and time series methods[J]. Expert Systems. 2012,29(2):143-155.
[4] DURBIN J, KOOPMAN S J. Time series analysis by state space methods[M]. Oxford: Oxford University Press, 2012.
[5] FENG H. Performance problems of forecasting systems[C]. In 15th East-European conference on Advances in Databases and Information Systems, 2011:254-261.
[6] 程伟.基于季节变动模型的话务量预测[J].湖北邮电技术,2000(3):24-26.
[7] STANEK D M, MOKHTARIAN P L. Developing models of preference for home-based and center-based telecommunting: Findings and forecasts[J]. Technological Forecasting and Social Change, 1998,57(1):53-74.
[8] KIRCHG?魧SSNER G, WOLTERS J, HASSLER U. Introduction to modern time series analysis[M]. Berlin:Springer, 2012.
[9] 刘童.话务量时间序列预测方法的实现[D].长春:吉林大学,2008.
[10] MADDEN G, SAVAGE S J, COBLE-NEAL G. Forecasting United States-Asia international message telephone service[J]. International Journal of Forecasting, 2002, 18(4): 523-543.