王磊,王國治,王西點
(1 中國移動通信集團設計院有限公司,北京 100080;2 中國移動通信集團浙江有限公司,杭州 310006)
現在的網絡優化技術還遠遠未實現智能化,對數據的統計分析和對網絡的調整還主要依賴于優化工程師個人經驗的判斷,可以說,當前對于運營商管道模型的認知尚不能深入,也無法建立起量化的模式。因此,怎樣充分利用數據挖掘技術,從海量的運營數據中構建出最有價值的知識和經驗模型,成為一項重要課題。如圖1所示,運營商對于網絡質量的分析主要以第一階段的數據庫統計手段為主,并且已經向第二階段數據倉庫模型演進,而第三階段的知識挖掘能力尚未構建。

圖1 網絡質量分析方法的演進
當前,在中國移動的網絡中,隨著網絡的建設、運營和優化調整,每天均會產生大量的資源數據、參數配置數據、話務性能數據、測量報告數據等等,其中很多數據之間往往會存在強相關性,例如參數配置和由此導致的話務性能波動之間就具有很強的因果關系,但類似這種重要的相關性模型,都深深地隱藏在了我們的數據庫中,沒有被有效的挖掘和識別,更沒有被加以利用和分享。
再比如:無線網絡參數是經常需要被調整和優化的,但這種調整和優化工作并不是隨意進行的,一定是在特定區域,當特定的網絡環境條件或用戶行為條件發生變化的情況下,呈現出的網絡質量不再滿足既定的標準,從而進行的網絡調整和優化工作。調整后的網絡質量由差轉好的過程,也預示著在不同的網絡場景條件下,不同參數配置所導致的結果不同,這種場景模式的挖掘,將對網絡參數的精細化調整帶來重要的影響。
移動通信網絡質量的波動可能與很多因素有關,有的因素是我們的優化人員己經掌握的,這種掌握有的來源于技術分析,有的來源于以往的經驗;有的是我們還沒發掘出來的原因,但這種因素是客觀存在的,只是我們尚未發覺。
當前,數據挖掘在通信領域的應用,還主要是在市場方面,如客戶忠誠度分析、競爭對手分析等,而在其他行業,數據挖掘技術已被深入研究和應用了多年,如金融保險,信息安全檢測,醫療診斷,生物信息識別等等。在通信行業,對網絡運維與網絡優化數據方面的挖掘應用工作開展的還比較少,因此,還沒有將這部分海量數據中蘊藏的巨大價值挖掘出來。
而數據挖掘的主要特點就是對大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助決策的關鍵性數據。從技術的角度來說,數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。而網絡質量分析和優化是一個龐大的系統工程,涉及到多維度的海量數據分析,這一切都決定它們的結合應用需要我們在實踐中不斷地摸索、不斷積累經驗。
如在網絡干擾分析中,最可能運用的挖掘算法為相關性算法,對出現干擾嚴重時各參數設置的相關性分析,基本上能夠得到干擾的原因所在,通過搜索算法找出更為合理的解決方案。在網絡切換分析中,通過數據挖掘方法,可以找出在不同的場景條件下,系統切換成功率與各參數設置指標間的關聯模式或分類規則,從而對今后的參數設置作出預先指導。
但是,無論針對何種專題應用,在制定具體的網絡優化方案前,對網絡所處場景進行識別都是一項極為重要的基礎性工作,在不同的場景下,即使面對相同的網絡質量問題,往往參數取值的選取或調整幅度也會不盡相同,也就是說,不同的場景下,往往會建立不同的參數優化策略,因此,對網絡場景的判斷準確與否,也將直接影響到參數配置調整的最終效果。本文后續部分將針對這一關鍵問題,重點探討數據挖掘算法在無線網絡場景識別中的應用。
如圖2所示,數據挖掘技術在網絡質量分析中的應用流程主要包括數據準備、特征屬性選擇、場景模型評估與特征描述、網絡質量相關性分析及分類預測、知識表達與輸出這幾個重要環節,而對于模型的評估可通過孤立點檢測、偏差值估計來進行。
無線網絡以小區為基本單元,每個小區對象可以被眾多特征屬性所表征,以GSM系統為例,包含CS/PS域的接入類、保持類、移動類、質量類、資源利用類等特征屬性,此外,還包括工程資源類的特征屬性,這些屬性基本概括了當前小區的無線網絡環境和用戶行為特點,因此,每個小區均可以看作是一個具有N維屬性的數據對象(即用多維空間的一個向量點來表示),在地里維度上,特定區域內的所有M個小區,組成了M×N矩陣(M個對象×N個屬性)。
無線場景識別的本質就是要把這些多維空間中的小區對象,按照各自無線網絡條件和用戶行為特點進行類別劃分,而劃分的結果是預先未知的,因此,屬于無指導學習的范疇。這種網絡場景劃分工作以往都是根據網絡規劃經驗來人為配置的,是一種粗粒度的定性的劃分,并不能作為參數精細化調整的準確依據。
而聚類(Clustering)算法設計就是用于將多維數據對象分組成多個類或簇,劃分的最終效果就是使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大,而判斷簇間或簇內相似度的依據就是基于描述對象的屬性值來計算的,這與無線網絡場景識別的需求描述是高度一致的。
無線網絡由于特征屬性繁多,其場景識別本身就是在高維空間中進行,同時,隨著網絡建設規模不斷擴大,數據集也越來越龐大,這也正是聚類研究的主要方向,主要集中在為大數據量數據源尋找有效且高效的聚類分析方法、聚類方法的可伸縮性、方法對聚類復雜形狀和類型的數據的有效性,高維聚類分析技術,以及針對大的數據庫中混合數值和分類數據的聚類方法等。
以小區接入類模型的分析為例,首先,可根據小區內電路業務及分組業務的各種接入原因的信道請求數量特點進行小區聚類劃分,在此基礎上,針對不同小區簇,進行的參數配置與接入性能相關性分析將會更加準確。
此處可選取小區級5項特征指標,如表2所示。

圖2 數據挖掘在網絡質量分析中的應用流程

表1 無線網絡場景聚類分析中的技術要求
K-Means算法的工作過程說明如下:首先從N個數據對象任意選擇K個對象作為初始聚類中心;而對于所剩下其它對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數開始收斂為止。一般都采用均方差作為標準測度函數.K個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。
算法的時間復雜度上界為O(N×K×T), 其中T是迭代次數。
通過K-Means聚類分析工具,來驗證針對上述5項特征指標的小區聚類效果,模擬了150個小區忙時數據,通過聚類自動劃分為5組小區集合,圖3列出了不同小區簇內及簇間各個屬性的均值對比,以及全部數據的均值,同時,可以在括號中看到各個分類結果中包含的小區數量。
選取Cluster#0和Cluster#3為例,即可發現在REQ-REESTB及REQUPDATE特征屬性上,這兩類小區有明顯差異,即在后續分析參數配置模型時也需要區別對待。同時,Cluster#0小區的位置更新次數遠高于全網平均水平,而Cluster#3小區的位置更新次數和呼叫重建次數都較低。通過業務領域專家的參與,即可實現對不同場景的特征描述。
單一的經驗分析不僅跟個人經驗有關,而且很難及時準確的發現影響網絡運行質量的原因所在,通過挖掘分析,可以為我們未來的優化工作提供更準確的規則信息,使我們能在問題發生以前,提前做好網絡的預判和調整,而實現網絡參數的精細化配置,很重要的方面就是要增強對無線網絡場景的認識水平,通過定量的聚類分析,可以將小區自動劃分,從而為后續的參數配置模型分析建立可靠的依據,這也正是本文闡述的主要內容。

表2 特征屬性選擇

圖3 小區場景聚類結果
[1] Han J W, Kamber M著,范明,孟小峰譯. 數據挖掘概念與技術,北京:機械工業出版社,2010.
[2] Witten I H,Frank E著,董琳等譯. 數據挖掘實用機器學習技術[J]. 北京:機械工業出版社,2006.
[3] 中國移動無線網優平臺2.0需求規范(V2).2011,3[S].
[4] 華為技術有限公司,BSC6900產品文檔(V900R013C00)[Z],2011.
[5] 華為技術有限公司,DRNC820產品文檔(V400R005)[Z]. 2010.
[6] 李偉斌. 數據挖掘在移動網絡優化中的應用[D]. 北京:北京郵電大學,2010.