摘 要: 針對現有話務預測模型變量單一、預測誤差大等問題引入了逐步回歸分析法;結合海河銀行信用卡呼叫中心實際需求,對話務數據進行了抽取集成等預處理操作;隨之建立了各影響因素的一元回歸模型,并在此基礎上得到了多元逐步回歸的話務預測模型;最后將此建模方法與其他分析法進行了綜合比較并給出評價。
關鍵詞: 話務預測;回歸分析;逐步回歸;時間序列分析
0 引言
目前許多企業的呼叫中心都面臨著話務量激增、話務員大幅度增長的問題,如何準確預測話務量對移動通信網絡的管理具有重大的意義。
當前,建立預測模型的主要方法有Kalman濾波[1-2]、時間序列預測[3-4]、話務量OLAP分析[5]等。其中Kalman濾波和時間序列預測法相對簡單,但難以滿足現階段話務量的復雜變化,話務量OLAP分析技術則處于起步階段,并沒有大范圍地推廣應用。國內各廠商的話務預測基本是以各種時間序列模型作為預測的核心技術,僅僅基于話務數據,使用時間序列回歸預測法和指數平滑預測法[6]進行預測。然而這兩種方法都不適用于具有季節變動規律的分月話務量預測。因此當前迫切需要的話務預測模型是基于多因素預測話務量波動趨勢的模型。
本文通過比較不同回歸分析法的優缺點,提出使用逐步回歸分析法解決預測話務量不夠精準、運算量太大的問題。以海河銀行信用卡業務呼叫中心為實例,重點闡述了多元逐步回歸話務預測模型的建模過程,并做了模型顯著性檢驗。最后通過與其他回歸分析法及時間序列分析法的比較,證明了基于逐步回歸分析的話務預測模型在曲線擬合度、運算量等方面具有更優的性能。
1 逐步回歸分析法介紹
回歸分析是一種研究多個變量之間的函數關系的統計分析方法,如果能找到影響預測對象的主要因素,并且取得準確的數量資料,就可以采用回歸分析法來進行預測。銀行信用卡中心的話務量與其業務辦理相關,影響因素可以明確提煉,并且與話務量相關的記錄數據獲取難度不大,因此十分符合回歸分析法的要求。
回歸方法一般分為窮盡法、逐步剔除法、逐步加入法和逐步回歸分析法。窮盡法的工作量極大,一般很少使用;逐步剔除法需要把所有變量都引入回歸函數,對類似海河銀行這樣大型的話務中心而言,成本開銷太大,難以推廣;逐步加入法雖不需將所有變量都引入函數,但沒有考慮引入新自變量后,現有的自變量顯著程度是否變化。在此基礎上,引入逐步回歸分析法來解決建模過程中計算量與顯著程度相沖突的問題。
逐步回歸分析法的核心思想是考慮自變量對因變量的影響顯著程度,從大至小一一引入回歸函數。每次引入都是剩下的自變量中對因變量影響最為顯著的自變量,因此可減少一定的計算量。另外,引入新的自變量后,需要對函數中現有的老的自變量做檢驗,查看其是否還有很高的顯著程度。如其顯著程度很低,則將它從回歸函數中剔除。最終得到的回歸函數既不會遺漏對因變量影響顯著的自變量,也不會包含那些影響不大的自變量。
2 逐步回歸模型建立
影響信用卡中心客服話務量的因素基本包括信用卡的所有業務,需要從銷售、審批、帳務、促銷等多個方面選擇一些重要因素參與預測模型的探索。
2.1 相關數據抽取和集成
模型的建立以海河銀行信用卡中心近幾年各系統的數據為基礎,由于數據量巨大且在原系統內做數據集成必然會對生產環境系統的運行產生影響,因此,增加了原系統明細數據層。為了提高數據抽取的速度,保持原系統明細數據層的數據與原系統數據的一致性,并且降低對生產環境運行系統的影響,抽取過程遵循以下原則:
?。?)以時間字段作為唯一過濾條件;
(2)只抽取需要使用的部分表的部分字段。
基于以上原則,可以有效避免因為其他邏輯缺陷,導致數據重復抽取或遺漏抽取的可能性。數據抽取后,可通過按日期分組聚合影響因素的方法,統計發卡數、臨時額度調整數量、賬單或交易分期申請數量等信息。也可依照其他類別分組聚合影響因素,統計特定信息,如審批拒絕數量、各類短信發送數量等。
2.2 集成數據層數據清洗
從原系統明細數據層集成后的數據被存入集成數據層,雖然此層存放了用于下階段數據挖掘所需的全部數據,但直接用于探索模型會出現很多噪音,影響模型探索和預測的準確度,因此數據清洗是不可或缺的。
?。?)錯誤數據
話務量數據是從客戶服務系統和CTI系統關聯得到,由于每個系統都存在一定的缺陷,一旦系統發生故障,可能會丟失故障期間接入的通話信息,或者正常的話務信息會統計出錯,有時被翻倍統計。因此需要給話務量受影響較大的故障日期增加故障標志位。
依次比對故障日期前后幾天話務量的數據變化,發現此類數據沒有任何規律和趨勢可循,有時甚至相差很大。由于客戶服務系統和CTI系統的故障會直接影響到此次模型的因變量話務量,如果通過其他技術手段更新故障當天的話務量未必會對模型探索有所幫助,甚至可能會由于估計值和實際值相差很大而影響預測模型的準確性。因此在此次數據清洗中,把存在故障標志位的數據排除在外,不作為模型探索的基礎數據。
(2)空值處理
實際生產業務中可能會有很多原因導致某幾個日期的某些話務量影響因素存在空值。經檢查數據中心7×24監控的系統運行狀況,在數據為空的日期,當晚賬單分期和交易分期的申請單跑批處理失敗,因此會被加入第二天數據一起重新跑批。由此,將賬單分期和交易分期的申請數量出現空值后第二天的數據除以2(個別日期追尋至后3天),計算這幾天的算術平均值,并分別將其記為這幾天的賬單分期和交易分期的申請數量。類似地如果空值前后幾天數據沒有翻倍等現象,將空值前后一天或幾天的數量相加,求其算術平均值當作空值當天的數量。
(3)字段衍生
很多潛在的變量有時會對模型起到關鍵的影響[7]。某些影響因素,其數量可能對當天的話務量不一定產生直接影響,但對于其前后幾天的話務量必定會產生影響。例如賬單日數量,很少有客戶會在賬單日當天一出賬單,立即致電給呼叫中心,一般會推遲幾天。
由此,當天的話務量不僅僅只與當天的賬單日數量相關,應與賬單日前4天和后2天的數量都相關。在此,采取類似移動平均的算法,將賬單日前4天、當天、后2天的賬單數量相加,除以7求其算術平均值作為衍生的賬單日數量字段。
2.3 自變量篩選
影響話務量的因素較多,并不是所有因素對話務量都會產生很大影響。有時非重要的影響因素的加入,對模型的準確度提高不多,但卻使模型復雜度急劇增加。因此,本文使用SPSS平臺的分類回歸樹模型,通過尋找回歸樹的最佳分支選擇影響因素作為模型自變量。
假設話務量和各影響因素存在如式(1)函數關系,其中{y1,y2,y3…yn}表示話務量所有值的集合,橫排{xn1,xn2,xn3…xnm}表示不同的話務量影響因素,豎列{x11,x21,x31…xn1}表示某個影響因素不同日期的值。
先計算所有因變量話務量的平均值,如式(2):
在所有話務量影響因素中任選一個影響因素,在此取發卡量,將其按照發卡量排序,取第一條發卡數值,將回歸樹劃分為左右子樹。取其對應的話務量,分別計算其平方和離差。然后,再取前2個發卡數值,將回歸樹劃分為左右子樹,計算其平方和離差。以此類推,計算出所有可能的平方和離差。式(4)為計算樹的離均差平方和與左、右子樹的離均差平方和之差S。
S=SS-SSL-SSR=6 254 521 322(4)
在所有左右子樹劃分中,取最大的S值時的劃分為發卡量的最佳劃分。以同樣的方法,對所有的影響因素計算其最大的S值,從每個影響因素的最大S值中,取最大值的那個影響因素為所有影響因素的最重要影響因素。因為“發卡數”、“固定額度調整通知短信數量”和“額度不足和超限提醒短信數量”這三個影響因素的重要性都達到80%以上,理應對模型有較高的擬合度。把它們作為預測模型建立的自變量,將話務量作為預測模型建立的因變量。
2.4 一元回歸模型
首先建立發卡數與話務量的一元回歸模型。在SPSS平臺中導入發卡數與話務量的詳細歷史數據,將話務量作為Y軸變量,發卡數作為X軸變量,得到其散點圖。從整體發展趨勢看,話務量和發卡數量確實存在一定關系,但具體屬于哪種關系,只憑肉眼觀察無法明確判斷。為了進一步確定其函數關系,使用SPSS的曲線估計功能,選擇包括“線性”、“對數”、“倒數”、“二次”、“三次”、“復合”、“冪”、“S”、“增長”、“指數”10個模型加以分析。最終得到模型的曲線擬合圖如圖1所示,模型匯總和參數估計值如表1所示。
從各模型的R方分析可見,三次方程的曲線擬合度最高。因此,話務量和發卡數存在三次方程的關系,如式(5)。其中Y為話務量,X為發卡數,C0、C1、C2、C3為常數。
Y=C0+C1X+C2X2+C3X3(5)
同理可得固定額度調整通知短信數量與話務量關系以及額度不足和超限提醒短信數量與話務量關系都較為符合以下對數函數關系:
Y=C0+C1lnX(6)
由此,因變量話務量分別與發卡數、固定額度調整通知短信數量、額度不足和超限提醒短信數量這三個最重要的影響因素之間建立了一元非線性回歸模型,為之后多元逐步回歸模型的建立奠定了重要基礎。
2.5 模型線性化
為了方便最終模型的生成,先將比較難處理的非線性回歸問題轉換為容易處理的線性回歸問題。
?。?)發卡數
令X=P1、X2=P2、X3=P3,則轉換后的方程如式(7)所示:
Y=C0+C1P1+C2P2+C3P3(7)
轉換后的方程由原來只有發卡數一個自變量變為3個自變量。為了保持對應,用于訓練模型,需將原始數據也相應地增加至3個自變量。這3個自變量分別為發卡數(原始值)、發卡數的平方值和發卡數的立方值。
(2)固定額度調整通知短信數量
令N=lnX,對數函數方程轉化為:
Y=C0+C1N(8)
其中新自變量N為原自變量固定額度調整通知短信數量的對數值。
(3)額度不足和超限提醒短信數量
令X′=lnX,則轉換后的線性函數方程為:
Y=C0+C1X′(9)
其中變量X′為原額度不足和超限提醒短信數量的對數值。
2.6 多元逐步回歸模型
雖然每個重要影響因素與話務量都存在一定的關系,但從單個函數方程的R方得知,其影響程度并不明顯。如果將每個重要影響因素與話務量的相關性做累加,勢必能得到一個回歸效果更顯著的方程,如式(10)所示。其中Y代表話務量,C0~C5為常數,X1代表發卡數,X2代表固定額度調整通知短信數量,X3代表額度不足和超限提醒短信數量。
Y=C0+C1X1+C2X12+C3X13+C4lnX2+C5lnX3(10)
基于式(7)~(9)所示方程,將所有重要影響因素的公式相加,與非線性模型(式(10))相對應,并只保留一個常數項,生成線性的五元一次方程,如式(11)所示。
Y=C0+C1P1+C2P2+C3P3+C4P4+C5P5(11)
其中Y表示話務量,P1表示發卡數(原始值),P2表示發卡數的平方值,P3表示發卡數的立方值,P4表示固定額度調整通知短信數量的對數值,P5表示額度不足和超限提醒短信數量的對數值,C0~C5為常數。采用逐步回歸分析法,將各自變量依次添加進回歸方程,每次都對方程中各自變量進行F顯著性檢驗。
從試驗結果得知,整個逐步回歸過程中,每加入一個自變量,其F檢驗值都小于F0.05,因此沒有影響因素從方程中剔除。最終模型R方變化過程如表2所示。
由此可見,在逐步添加影響因素時,調整R方由0.780上升到0.872,說明整個方程具有一定的擬合度。從調整R方的變化趨勢來看,最后一個影響因素的加入其增幅只有0.001,再增加影響因素對整個方程的擬合度影響不大。最終取得回歸模型各系數值如表3所示。
3 實驗分析
從模型擬合度看,最終多元逐步回歸模型的R方為0.872,明顯高于前三種一元回歸模型(R方分別為 0.796、0.659、0.751)。只以“發卡數”、“固定額度調整通知短信數量”或者“額度不足和超限提醒短信數量”一種影響因素來預測話務量走勢是不夠精確的。此類分析法雖然快速簡單、易于實現,但預測誤差很大,因而沒有實用價值。
相比于其他多元回歸分析法,逐步回歸分析是較為折中的算法。既不會像窮盡法那樣生成很多回歸方程,又能動態加入和剔除自變量,提高回歸方程的顯著性,消除重復共線性。因此應用逐步回歸分析法建立話務量預測模型是極具現實意義的一項研究。
時間序列被定義為按照時間先后順序排列的一組定量觀測[8],時間序列分析指對其觀察、研究,找到其隱藏的、不被人們所熟知的變化規律和趨勢,從而創建模型,預測未來的此類數據的走勢的方法[9]。若時間序列平穩,可以用自回歸模型AR(p)、滑動平均MA模型、自回歸移動平均模型ARMA(p,q)來進行分析。ARMA模型能夠較好地描述時間序列,但是其前提是時間序列是平穩的,缺點是預測速度慢??紤]到信用卡呼叫中心話務量可能存在循環周期性變動,在此選擇ARIMA模型[10]。預測走勢如圖2所示。
很明顯,前半部分話務量總體基本很平穩,但后半部分明顯出現一個向上增長的整體趨勢。這也和海河銀行信用卡中心近幾年響應總行的“大力發展信用卡業務”相吻合。從擬合度看,時間序列分析法模型統計出的R方為0.65,而逐步回歸模型得到的R方為0.872。顯然通過逐步回歸分析預測話務量的模型擬合度更高。
究其原因,時間序列分析法只是挖掘了隨時間推移的話務量波動趨勢,而基于多個影響因素的逐步回歸分析法,除了考慮海河銀行信用卡發行規模擴大的影響因素外,還增加了固定額度調整通知短信數量以及額度不足和超限提醒短信數量,從三個方面綜合預測未來話務量的整體走勢。上述實驗也證明了逐步回歸分析法的模型擬合度要高于時間序列分析法。
4 結論
基于逐步回歸的多元非線性話務預測模型能夠依照各影響因素而變化,預測較為準確,誤差水平低。就算法復雜度而言,基于時間序列的模型更簡單直觀、易于實現。如果能將其與回歸預測模型相結合,交替使用,可進一步提高預測的準確性并降低時間復雜度。同時逐步回歸分析法也有自身局限性,一般適合于有明顯的增長特性和階段特征的大話務量預測,預測周期通常以月和年等為單位。對于話務變化劇烈、量級小、時間短的話務量預測,可能會因誤差較大而無法使用。此方法有待于進一步研究。
參考文獻
[1] GREWAL M S, ANDREWS A P. Kalman filtering: theory and practice using MATLAB[M]. New York: John Wiley & Sons, 2011.
[2] HARVEY A C. Forecasting, structural time series models and the Kalman filter[M]. Cambridge: Cambridge University press, 1990.
[3] CORTEZ P, RIO M, ROCHA M, et al. Multi-scale Internet traffic forecasting using neural networks and time series methods[J]. Expert Systems. 2012,29(2):143-155.
[4] DURBIN J, KOOPMAN S J. Time series analysis by state space methods[M]. Oxford: Oxford University Press, 2012.
[5] FENG H. Performance problems of forecasting systems[C]. In 15th East-European conference on Advances in Databases and Information Systems, 2011:254-261.
[6] 程偉.基于季節變動模型的話務量預測[J].湖北郵電技術,2000(3):24-26.
[7] STANEK D M, MOKHTARIAN P L. Developing models of preference for home-based and center-based telecommunting: Findings and forecasts[J]. Technological Forecasting and Social Change, 1998,57(1):53-74.
[8] KIRCHG?魧SSNER G, WOLTERS J, HASSLER U. Introduction to modern time series analysis[M]. Berlin:Springer, 2012.
[9] 劉童.話務量時間序列預測方法的實現[D].長春:吉林大學,2008.
[10] MADDEN G, SAVAGE S J, COBLE-NEAL G. Forecasting United States-Asia international message telephone service[J]. International Journal of Forecasting, 2002, 18(4): 523-543.