李 煒,王少軒
(1.陜西國防工業職業技術學院電子信息學院,西安 710300;2.加泰羅尼亞理工大學計算機學院,巴塞羅那 08034)
隨著LTE技術的廣泛應用,為了給用戶提供優質服務,電信運營商面臨著處理大量網絡數據的需要。如何快速準確分析不同小區的狀態、評估小區的性能,已成為運營商首要關注的問題[1]。通常,4G/LTE蜂窩小區網絡性能可以用多個不同的特征來表征,數據挖掘分析技術為蜂窩小區大型數據集的監控和獲取提供了可能。其中,聚類作為一種處理大型數據集的常用方法,被廣泛應用在工業、農業、經濟等領域[2],相關研究也不斷被提出。Barthel提出利用自動圖像分類和基于SOM模型的半自動圖像語義生成來改進圖像檢索[3]。Schreck等人提出了一種基于SOM的二維屬性值抽象空間的軌跡數據可視化聚類分析方法[4],基于SOM通過選擇兩個相關的特征(即上行噪聲和幀錯誤率)來尋找相似的行為單元,從而使移動運營商的優化任務更具成本效益。Savazzi等人提出了一種基于聚類算法的下行空間濾波新方法[5],用于UMTS-FDD蜂窩網絡,使用kmeans算法,盡管成功地對用戶進行了分組,但聚類偏差較大,簡單網絡場景計算時間超過1小時。由于該法僅使用k-means方法,在聚類處理前必須確定聚類數k,當k值不足時,便不能用于分類數據[6-8]。當輸入數據來自未知的概率分布時,很難為k選擇一個合適的值。
基于上述背景,本研究嘗試使用SOM算法來分析LTE無線接入網的性能,并根據無線接入網中的參數將不同的LTE小區劃分為不同的簇,以此來區分流量較大和流量較小的小區,以助于網絡優化人員更好地進行網絡頻譜資源優化、改善用戶體驗。
聚類是根據數據之間的相似度將數據分成相應的類,以此用來查看數據中類似的模式,是一個將物理或抽象對象的集合分成由類似的對象組成的多個類的過程。好的聚類方法可以產生高質量的聚類結果,所形成的簇也具有高的內部相異性。然而,對于未標記數據,聚類存在一定的難度。目前,沒有特定標準的方法來判定未標記聚類的好壞;對于大量未標記數據需要人為干預才能完成適當的聚類。
SOM(Self Organizing Maps,自組織映射)是人工智能神經網絡中的一種無監督學習神經網絡模型,一般用于將高維輸入數據表示在低維空間中,通常是將數據投影到二維神經元網格中。
自組織映射不同于其他人工神經網絡之處在于,其采用競爭學習而不是錯誤校正學習,且使用鄰域函數來保持輸入空間的拓撲屬性。模型可以分為輸入層和競爭層兩部分,如圖1所示。輸入層的輸入神經元數量由輸入網絡中輸入數據特征的數量決定。

圖1 SOM網絡拓撲結構
基于此模型,本研究將輸入數據設置為不同的特征,并將這些特征作為訓練數據集;同時選取整個小區的7種特征。
對于輸入數據,將其設置為一個n維向量,可表示為X=[x1,x2,...,xn]T。進而可將輸入向量設置為一個7×62的矩陣,表示含有62個單元格的靜態數據和7個特征數據。
競爭層是由神經元按一定方式排列的二維節點矩陣,它主要用于聚類和高維降維可視化。SOM模型的競爭層為二維網格,網格大小設為p個節點,記為Y=[y1,y2,...,yn]T。通常,神經元選取越多,模擬的性能就越好,但對于很多神經元來說典型的選擇方案可通過來計算。其中s為競爭層的神經元數量,N為輸入樣本,即LTE小區的特征。輸入層的每個節點與第j個競爭層神經元之間的連接記錄則為Wj=[wj1,xj2,...,xjn]T,其中j=1,2,…,p。
訓練過程最終要在競爭層輸出。在這一輸出層中,贏得競爭的神經元將設置為1,其余節點沒有輸出將被設置為0。競爭的原則是:權向量神經元wq當中,距離最接近當前輸入X的即為競爭的獲勝者。可以記為:

SOM訓練算法在執行之初,先給競爭層中每個神經元的每個權值向量wi賦一個初值,然后對模型進行反復的訓練。在每個訓練步驟中,從輸入數據集中隨機選擇一個樣本向量Xi。通過計算原型神經元與Xi之間的距離,得到最優匹配單元,即最接近Xi的權向量,匹配單元根據歐氏距離計算,公式如下:

最優匹配單元及其拓撲鄰域被移動到更接近輸入向量的位置。此時神經元原型向量更新規則為:

其中,t是時間;ρ(t)是學習速率,范圍為0~1;hci(t)是鄰域神經元,通常是一個高斯函數。
設t=t+1,重復公式(2)和(3)的運算,直到網絡收斂為止。
基于上述流程,即可應用SOM算法來訓練、分析移動通信RAN數據。
首先要經過多次路測分析得到一系列數據,計算其平均值。在僅考慮下行情況的前提下,選取:平均信道質量指標、數據流量、下行平均吞吐量、下行最大吞吐量、PRB(物理資源塊)使用量、各小區內部eNB延遲和RRC丟包率共七種典型特征,用作聚類單元的輸入特征向量。
按照分析目標考慮,關注重點在于SOM訓練的數據,故此在MATLAB工具箱中建立一個包含16個map神經元的自組織映射,并利用特征數據矩陣進行訓練;將待檢測的競爭神經元的輸出位置與輸入特征數據的輸出位置做比較,輸出位置越相似,其特征越相似;至此,只需計算出基于這兩種輸出位置的歐氏距離,距離較近的將被劃分為同一簇。
對于SOM訓練,與每個神經元相關的權值向量會運動而成為一組輸入向量中心。拓撲中相鄰的神經元在輸入空間中也會相互靠近,因此可在網絡拓撲的二維中實現高維輸入空間的可視化。MATLAB仿真結果如圖2所示。

圖2 SOM拓撲仿真圖
圖中每個六邊形代表一個神經元,網格是4×4的,因此有16個神經元。每個輸入向量有7個特征,所以輸入空間是7維的。權重向量(聚類中心)屬于這個空間。
對SOM領域權值距離的仿真結果如圖3所示。圖中,正六邊形代表神經元,相鄰神經元之間以直線連接。存在連線的區域以不同顏色標識神經元之間的距離。較深顏色代表較大距離,較淺顏色代表較小距離。從中心區域到左上區域有一段暗色線段。SOM網絡將輸入數據聚為兩個不同的組。

圖3 SOM領域權值距離仿真
為了將輸入向量劃分為不同的簇,使用SOM權值平面來可視化SOM拓撲結構,仿真結果如圖4所示。圖中顯示了輸入向量的每個元素的權重平面,它們是連接每個輸入到每個神經元的權重的可視化,顏色越深代表權重越大。如果兩個輸入的連接模式非常相似,即可認為輸入是高度相關的。在本例中,輸入2與5,輸入3與4,輸入6與7,都有非常相似的連接,它們之間有很高的相關性。以輸入2和5為例,兩者分別用來表示下行鏈路的數據流量和物理資源塊使用量。在這兩張圖中,顏色的變化極為相似,都是從左下角到右上角顏色變暗,即是說左下角的PRB使用率和數據流量都低于右上方的區域。同樣情況也適用于輸入3(下行鏈路的平均吞吐量)和輸入4(下行鏈路的最大吞吐量)。
對于輸入6(內部eNB延遲)和輸入7(RRC丟包率),性能幾乎相反,即隨著下行鏈路中PRB使用率和數據流量的增加,RRC丟包率和eNB延遲會降低,表明這四個特征具有很高的相關性。
剩下的輸入1(信道質量指標)顏色變化不規則,表明其性能與其他六個權重輸入皆不相關。

圖4 不同特征的權重圖
圖5顯示了神經元在拓撲中的位置,并表示了與每個神經元相關的訓練數據的數量。

圖5 測試數據在SOM拓撲上的分布
分析一個時間序列數據,與單個數據點不同,需要計算給定數據序列在每個數據簇中出現的頻率或“命中”數量。一段時間內包含這些比例或“點擊率”的矢量稱為點擊率直方圖,描述一段時間內小區行為的特征,隨后用于將小區聚類為行為類似的組。
與任何神經元相關的最大命中數是11。因此,該集群中有11個輸入向量。另外可發現,“命中”在拓撲中的分布與圖5中權重的分布相似。例如,命中11次的神經元(又稱小區)具有數據量大、同時使用PRB的特點,并且它們的掉話率很低。相鄰的神經元(即歐氏距離更近)也有類似的表現,例如命中4和6的神經元。與之相反的是左下角命中1的神經元,其均值和最大吞吐量較低;此外,與命中11次的神經元相比,它的掉話率更高。
通過上述實驗表明利用SOM模型可以有效預測區分小區類型,幫助移動運營商節約成本,實現頻譜資源的優化配置。
本研究應對的是LTE網絡中不斷增長的終端接入和高基站密度的挑戰,利用大數據分析刻畫了網絡性能和終端體驗。所建立的SOM神經網絡模型成功地對LTE小區進行了聚類。實驗證明了SOM用于小區聚類并發現相似行為小區的可能性,將有助于移動運營商節省更多的運營成本。在網絡優化中使用大數據分析和挖掘,意味著可以通過一種高度可伸縮的方法來進行網絡性能調優。利用大數據確定感興趣的區域,對網絡運營而言也具有極高的商業和實用價值。