葛彥 趙紅梅


? 【摘要】本文針對區域物流需求問題,建立支持向量機預測模型。運用基于改進求核算法的屬性約簡方法篩選預測指標,以貨運量為目標函數,建立預測指標體系;進行數據的歸一化處理,利用Lagrange乘子法、徑向基核函數,建立SVM基本模型,并簡述SVM參數確定的兩種方法:五折交叉驗證法、人工魚群算法,最終建立完整的區域物流需求預測模型。
【關鍵詞】支持向量機 屬性約簡法 區域物流 需求預測
一、引言
區域物流需求預測是物流系統發展的關鍵技術,可為上級管理部門規劃和下級物流企業決策提供指導。目前,我國廣大學者為準確預測區域物流需求未來變化趨勢,曾提出多種物流需求預測方法,而隨著計算機發展、人工智能技術不斷成熟,BP神經網絡、支持向量機(SVM)等新型預測方法也孕育而生。如何更為行之有效地進行區域物流需求預測,對整個區域內物流系統規劃與管理、運行與決策具有重大意義。
二、預測指標體系
(一)基于屬性約簡法的預測指標篩選
根據國內經濟物流發展情況與關系,初步確定區域物流需求八大預測指標:區域生產總值、第一產業產值、第二產業產值、第三產業產值、區域社會消費品零售總額、區域人均消費水平、區域進出口總額、區域快遞業務量。貨運量為物流需求的量化變量。
為減少計算量,選用屬性約簡法進行指標篩選。
1.屬性約簡方法的選擇。屬性約簡[1-2]是粗糙集理論研究的核心內容之一。屬性組合爆炸是致使最小屬性約簡成為NP-hard問題的原因,因此為得到一個最優或次優的約簡集,常常運用啟發式算法。
基于正區域算法的屬性約簡無需建立可分辨矩陣,時間與空間復雜度相對可分辨矩陣較小,更具優勢。因此本文選用基于正區域算法的屬性約簡作為預測指標的篩選方法。
2.基于改進求核算法的屬性約簡。篇幅限制,不再贅述粗糙集理論,下面詳細介紹基于正區域算法的屬性約簡。
在粗糙集理論中,往往需要求出核,再利用啟發式信息進行約簡。而核是通過正區域定義的,因此正區域的有效計算對整個屬性約簡至關重要。
目前最行之有效的算法之一是徐章艷等[3]設計的一種基于基數排序的改進的求核算法(正區域算法),時間復雜度為O(|C||U|),具體步驟如下:
Step1:基于基數排序的屬性連續化
設決策表S={U,C,D,V,f},條件屬性集合C中元素α的最大、最小值分別為Mα、mα。
(1)取α最值間隔為1,根據包括首尾在內的間隔數建立相應數量的空隊列;
(2)若?字存在于論域U中,將?字加至第f(?字,α)-m個隊列中,修改該隊列首尾的指針;
(3)count初始化為零;
(4)依次搜索隊列,若為非空,則將該隊列中所有元素在屬性α上的值改為count,執行后count值自增1;
(5)得到在α上有序且值連續的新決策表S,其值域為[0,M’α]。
Step2:計算簡化決策表S’
其實質是刪除決策表重復元素,定義如下:
決策表S={U,D,D,V,f}中,記U/C={[u’1]C,[u’2]C,…,[u’m]C},U’={u’1,…u’m};
設POSC(D)=[ui1’]CU…U[uis’]C,其中?坌uis’∈U’且uis’/D的絕對值等于1(s=1,…,t);記U’pos={ui1’,…,uit’},U’neg=U’-U’pos,則有簡化決策表S’={U’,C,D,V,f}。
計算步驟如下:
(1)計算U/C={X1,X2,…,Xm};
(2)對于?坌Xi∈U/C,若Xi/D的絕對值等于1,則任意取元素?字∈Xi,令x.is_pos=1,U’pos新增元素?字,反之?字.is+pos=0,U’heg新增元素?字。
Step3:基于簡化決策表S’的改進求核算法
(1)初始i=0,當i<|C|時執行循環體,循環體每執行一次則i++,否則break;
(2)內部循環:
循環1:
若i≥0,則第i-1屬性執行基數排序;
循環2:?字指向鏈表首地址;
循環3:若?字?埸?覫
循環3.1:
若f(?字,D≠f(x→link,D)且?字與?字→link同屬正區域的同一等價類或分屬正負區域的同一等價類,
則Core(C)=Core(C)U{ci},break;
循環3.2:
若?字與?字→link非同一等價類,則?字為鏈表下一元素指針;
(3)得到原始決策表S的核Core(C)。
以上提出的算法是基于不相容決策表執行的,對于相容或不相容決策表均能實現求解,適應范圍廣。對于相容決策表,循環3.1執行條件可簡化為f(?字,D)≠f(?字->link,D)且?字與?字→link屬于同一等價類。這樣就得到基于正區域算法的屬性約簡結果。
(二)預測指標體系的建立
以江蘇省為例,根據江蘇省統計年鑒,篩選后的預測指標為自變量,貨運量為目標函數,建立區域物流預測指標體系,如下圖所示:
圖1 江蘇省物流需求預測指標體系
受數據的可獲得性限制,實際預測時可能會調整指標應用情況。
三、基于SVM的物流需求預測模型
(一)預測模型的選擇
回歸分析、時間序列均為線性模型,不能滿足求出系統發展主要因素的條件;灰色關聯分析具有樣本需求少、計算簡單的優勢,然而根據通過原始數據預測未來的工作特點,其同樣缺乏對影響因素的考慮;BP神經網絡的自學習、自適應特性克服了非定量因素無法用數學公式嚴謹表達難題,較傳統預測方法,精確性更高,但結果容易陷入局部最優、出現擬合或發生維數災難。而支持向量機[4-5]憑借結構風險最小化原理可避免BP神經網絡過學習或欠學習現象,獲得全局最優解,在處理有限樣本問題中具有非線性擬合精度高、抗噪聲性能強等無可比擬的強大優勢。
(二)預測模型的建立
1.數據歸一化處理。本文中七個輸入輸出指標量綱不一致,采用極差最大值變換法進行歸一化處理,
公式如下:
通過上式將各指標數據轉化至區間[-1,1]內,可以提高支持向量機收斂速度。
2.支持向量機基本模型。支持向量機基本原理是通過非線性映射,將低維空間即輸入因素x1,x2,…,xn變換到高維特征空間,從而進行線性建模,尋找輸入輸出變量之間的關系。如下圖所示:
圖2 STV原理圖——最優分隔超平面
設樣本?字i為d維向量(i=1,2,…,n),訓練集L={(?字i,yi)|i=1,2,…,n},根據一個帶有權值向量與偏置量的映射函數,在高維特征空間建立的數學模型為:f(?字)=ωT·φ(?字)+b(1)
其中,ω、b分別為模型辨識參數——權值向量和偏置量。
根據最小風險原則,對辨識參數ω、b進行處理:
(2)
其中,C(ei)、Remp(f)、‖ω‖2分別為損失函數、經驗風險和置信風險。
進一步分析,想要求解式(2),即可轉化為一個約束優化問題:
(3)
其中,γ為懲罰系數(又稱正則化系數),ei為誤差。
為方便計算,上述約束優化方程組可利用Lagrange乘子αi,轉換為以無約束優化問題形式存在于對偶空間內的方程,即:
(4)
至此,建立Lagrange函數后,SVM使優化問題轉化為求解線性方程組。
令y=(y1,y2,…,yn)T,α=(α1,α2,…,αn)T,根據KKT條件可以得到矩陣:
(5)
其中,1N為元素向量,E為單位矩陣,。
在非線性數據建模中,人們普遍認為徑向基(Radial basis function,簡稱RBF)函數性能為支持向量機眾多核函數中最優,徑向基函數為:
(6)
基于RBF函數構造的支持向量機分類函數為:
(7)
其中,σ為徑向基函數的寬度系數。
3.支持向量機參數的確定。在SVM算法中,根據其工作原理可知,懲罰系數γ與核函數寬度系數σ是支持向量機學習性能的共同決定參數,兩參數值的大小決定了擬合情況的好壞。現常采用的參數確定方法為交叉驗證法,這里選用五折交叉檢驗法,具體方法不再贅述。取多次交叉檢驗的差錯率的均值,重復多次交叉驗證,再取平均,得到對算法精度的估計值。
參考文獻[6]提出利用人工魚群算法優化參數,通過模仿魚群覓食追尾行為,進行高效率搜索,根據文章中給出的算法流程,總結出以下物流預測步驟:
圖3 物流預測步驟流程圖
四、結語
區域物流需求預測是個復雜的建模過程,通過上文研究,可以得到整個建模流程:確定研究對象;了解背景,查閱相關資料;分析研究對象影響因素,初步確定指標;利用改進屬性約簡法分析篩選預測指標,確立預測指標體系;選擇SVM作為預測模型;建立預測模型;在最后,收集到原始數據后,需對不同的預測方法進行檢驗分析,并證明預測結果合理性。
參考文獻
[1]黃鑫.基于DTRS-SVM模型的廣東省物流需求預測研究[D].廣東工業大學,2015.
[2]鄒志超.基于正區域的屬性約簡算法的研究和改進[D].暨南大學,2011.
[3]徐章艷,劉作鵬,楊炳儒.一個復雜度為max(O(||U|),O(|C|~2|U/C|))的快速屬性約簡算法[J].計算機學報,03:391-399,2006.
[4]梁毅剛,耿立艷,張占福.基于核主成分——最小二乘支持向量機的區域物流需求預測[J].鐵道運輸與經濟,34(11):63-67,2012.
[5]李自立.基于支持向量機的區域物流需求預測研究[D].武漢科技大學,2009.
[6]陳海英,張萍,柳合龍.人工魚群算法優化支持向量機的物流需求預測模型研究[J].數學的實踐與認識,46(2):69-75,2016.
基金項目:本論文受2016年大學生創新創業訓練計劃項目(xcx2016021)資助。
作者簡介:葛彥(1997-),女,江蘇南通人,學歷:本科;趙紅梅(1971-),女,安徽人,學歷:博士研究生,職稱:教授。