徐晶,孫艷民,付旭輪,沈驁
(1 中國移動通信集團設計院有限公司,北京 100080;2 中國移動通信集團河北有限公司,石家莊 050021)
移動通信網絡是一個動態的網絡,話務密度分布不均、頻率資源緊張,網絡配置未達最佳且長期處于不斷變化之中。近年來,無線通信網絡的規模又不斷擴大,如何能夠在有限資源和超大網絡規模的情況下有力的保障網絡的服務質量,這對無線網絡的維護和優化工作提出了巨大挑戰。
通用的無線網絡優化方法是對正式投入運行的網絡進行數據采集、數據分析,找出影響網絡運行質量的原因并且通過參數調整和其他技術手段,使網絡達到最佳運行狀態。目前對無線參數設置的調整主要依賴優化人員的經驗來實施,要靠人工對繁雜的網絡數據進行及時的分析和對比得出優化方案是不可能的。通常是借助于單一類型的數據進行分析,例如首先統計某一類話務量,然后根據統計的話務量進行網絡優化;例如根據路測數據統計網絡覆蓋情況,然后進行相應分析和調整。而對于大規模的數據的分析能力相對較弱,尤其是無線通信設備的無線參數配置數據規模很大,結合無線參數配置數據進行模型分析的手段較少。無線通信設備上無線參數的數據量較大,通常在網絡質量出現問題或收到投訴后才進行參數設置的排查。對于大規模數據的分析,數據挖掘可以從海量歷史數據中提取隱含的、未知的、具有潛在用處的信息,應用于現網數據的分析。著眼于現狀,本文主要研究了如何將數據挖掘中的決策樹算法應用于無線網絡的智能管理和無線網絡優化。
本文提出一種基于決策樹的網絡性能檢測方法,通過訓練無線參數配置數據,建立決策樹分析模型,實現相對獨立的無線參數數據分析系統。使用一種主動預測的模式利用數據挖掘中決策樹的方法通過對無線參數組的數據定時記錄分析,確定哪個參數屬性域作為目前最好的分類指標,即該參數的算法是關系網絡質量的重要配置。本文的做法是窮盡所有的參數屬性域,對每個屬性域分裂的好壞形成量化,計算出最好的一個分裂,量化的標準是計算每個分裂的多樣性。
總體思路參數描述是:數據由集成商從OMC上采集得到,并將大量已有歷史數據提供給數據挖掘服務器,獲取參數數據的信息,并建立決策樹模型,并對模型進行評估。在建立模型之后,通過不斷采集新數據,定時預測無線網絡的性能。
實施的具體流程由圖1表示,包括以下步驟:
步驟1:從OMC上采集無線參數數據,提取無冗余的特征屬性數據集合,并將該特征屬性數據集合分為特征屬性訓練數據和特征屬性測試數據;
步驟2:利用步驟1得到的訓練數據集生成決策樹;
步驟3:利用步驟1得到的測試數據對決策樹進行裁剪生成目標決策樹模型,即網絡性能檢測模型;
步驟4:利用新采集的參數數據對目標決策樹模型進行評估,選擇最優決策樹模型;
步驟5:定時采集無線通信設備的參數數據,建立聯機分析數據倉庫;
步驟6:利用已構建的決策樹分析模型,聯機分析處理無線參數的配置數據,主動查出無線網絡性能的檢測結果。
在建立決策樹檢測模型的過程中,各個步驟具有不同的關鍵點。其中決策樹各節點的生成算法是建立準確模型的關鍵。通過不同節點的判斷,不僅可以預測網絡性能是否符合期望,同時可以根據節點的屬性及閾值,得出參數配置的合理值。
根據2.1章節的敘述,詳細描述具體步驟如下:所述步驟1具體為:
(1)定時對從OMC采集到的數據進行記錄的數據清洗,將冗余的或無關的數據從數據集中刪除;
(2)提取剔除冗余的數據,組成特征屬性數據集合,并根據對應的性能指標參數的取值確定分類屬性的類別。

圖1 算法流程圖
所述步驟2是生成決策樹模型。采用C5的算法,對特征屬性訓練數據進行不斷的切分,每一次對應一個無線參數特征屬性的判斷并同時對應一個節點,直到切分的層數到達了預定的層數為止。
設訓練數據集合D。一組數據作為一個數據項記為Di,對應特征屬性記為Ai,對應的分類屬性記為Ci,用Ci,D表示D中屬于類別Ci的數據項構成的子集。選取的無線參數作為特征屬性,選取的無線參數對應的網絡性能優劣作為分類屬性。
|D|和|Ci,D|分別表示集合中的數據項的數目;用公式(1)來計算信息:

式中Pi表示集合D中任一數據項屬于類別Ci的概率,用|Ci,D|/|D|估計,Info(D)稱為集合D的信息熵;
假設集合D中的參數數據使用某個參數屬性A作為分類節點,則將集合D劃分成v個子集{D1,D2,…,Dv},屬性A達到純凈所需的信息量表示如公式(2):

Gain(A)表示屬性A的信息增益,如公式(3):

用劃分信息量來控制在節點上分支過多對算法的影響,如公式(4):

信息增益率(Gain Ratio)定義如公式(5):

選取增益率最大的特征屬性作為根節點屬性,然后針對根節點劃分得到的若干子樹求取子樹的根節點,依次由上至下生成每一個節點。
所述步驟3具體為:
(1)將特征屬性訓練數據進行切分處理得到預定的數據決策層,并選擇裁剪節點生成決策樹;
(2)使用特征屬性測試數據對決策樹進行裁剪處理,生成目標決策樹模型。
當測試無線參數組數據進入決策樹并達到葉節點時,用測試無線參數組數據的分類類別與葉節點的分類類別比較,得到每個分支的出錯率,通過對每個分支的出錯率進行加權平均,計算出不剪枝該節點的錯誤率,并判斷剪枝是否能夠降低錯誤率,如果是,則減掉該節點的所有子節點后,通過測試數據校驗出錯率,生成錯誤率相對最小的目標決策樹模型。
所述步驟4具體為:使用特征屬性測試數據集及新采集的數據集,分別對生成的目標決策樹模型和正在使用的決策樹模型進行評估,如果評估結果大于預先設定的誤差閾值,則返回步驟3;否則判斷生成的目標決策樹模型的誤差值是否大于正在使用的目標決策樹模型,如果判斷結果為是,則使用該正在使用的目標決策樹模型;如果判斷結果為否,則使用該生成的目標決策樹模型。
所述步驟5具體為:
(1)對目標決策樹進行分析,生成分類規則集;
(2)使用該分類規則集,生成分類參數數據庫;
(3)對網絡性能進行分析處理,檢測出性能低于期望的參數配置。
所述步驟6是對現網無線參數數據進行OLAP分析,檢測出使網絡性能下降的無線參數配置情況,圖2為系統網絡拓撲。

圖2 系統網絡拓撲圖
分析SDCCH信道是否有擁塞,在采集到的無線參數歷史數據和性能指標歷史數據中提取特征屬性數據集D。取參數T3101、MAXretrans(最大重發次數 )、T3107、T3103、T3122、CELL RESELECT OFFSET、T3212等作為特征屬性向量,每一個參數作為一個特征屬性。分類屬性的類別設置為SDCCH擁塞率大于1%和SDCCH擁塞率小于1%。當SDCCH擁塞率小于1%時,默認為此組參數的配置符合期望的網絡性能。當擁塞率大于1%時,檢測出該組參數的配置值使得網絡質量不高。在檢測結果預告網絡性能受影響時,通過分析從根節點到預測類別的路徑,能夠得到需要調整的參數集,以及建議調整的取值。
在本案例中選取部分歷史數據提取為訓練數據集和測試數據集,數據集表示如表1所示。
計算各參數特征屬性的增益率,從根節點開始選擇各個節點以哪個屬性作為分裂屬性。建立決策樹模型之后,對決策樹進行剪枝、評估,得到最終的決策樹模型,從而進行評估網絡性能。由以上示例數據建立的簡單決策樹模型如圖3所示。

表1 案例數據集

圖3 案例建立的決策樹模型
利用獲得的模型分析聯網采集到的參數配置數據,預測出網絡性能的優劣。若對某組參數配置檢測得到的結果為影響網絡性能,則根據使用的分支規則列出存在問題的參數子集。如果預測分支的規則為T3101≥3且MAXretrans<3.56且T3122>10,則該組參數配置的分析結果是SDCCH擁塞率大于1%。同時可以得到T3101、MAXretrans和T3122的修改方案。
目前的絕大多數網絡優化手段沒有深入挖掘無線通信設備無線參數配置數據的歷史信息。本文提出的方法利用數據挖掘的決策樹分類算法分析無線通信設備上無線參數的配置數據,以檢測或者預測網絡性能。這一方法能夠充分分析無線設備參數的配置,并利用歷史數據及現網數據自動構建分析模型實現智能的優化手段。
[1] 姚家奕,姜海,王秦. 決策樹算法的系統實現與修剪優化[J].計算機工程與設計,2002,23(8):75-77.
[2] Jiawei Han. 數據挖掘概念與技術[M]. 北京:機械工業出版社,2007.
[3] 韓斌杰, 杜新顏, 張建斌. GSM原理及其網絡優化[M]. 北京:機械工業出版社,2010.
[4] 李仲令, 李少謙, 唐友喜, 武剛. 現代無線與移動通信技術[M].北京:科學出版社,2006.