張 喆
(中國移動通信集團設計院有限公司,北京 100080)
隨著中國移動近年來LTE網絡的大規模建設及不斷完善,中國移動全網LTE基站總數已達100多萬,4G網絡的覆蓋優勢已經初步建立。然而,龐大的網絡規模使得網絡優化的難度進一步增加,LTE網絡設備中各設備廠家通用配置參數及私有參數總和已超過8 000個,僅依靠人工很難進行精細化配置[1]。此外,以往的人工覆蓋場景劃分(諸如醫院、機場、寫字樓等)[2]過于寬泛,未對小區特征進行量化,不能反映各小區間的本質差異,無法實現參數的自動化差異配置,對LTE網絡優化工作的開展造成極大的阻礙。
聚類問題是機器學習研究中的熱點。先前已有不少關于基站聚類方面的研究探索,但其應用領域主要局限在基站選址與節能方面[3-6]。針對上述問題,本文研究了一套基于K-means的LTE宏站小區場景聚類策略,并在某市試點實驗中通過選取可量化小區特征,將該市現網全量宏站小區聚類為若干典型場景,可進一步對各個場景進行網絡質量評價以及各場景內部參數最優配置,從而實現對不同聚類場景的小區自動化推薦LTE網絡參數配置方案,極大提高網絡優化中參數優化配置工作的效率。
對某個特定對象來說,如何找到最佳的數據表示,這個問題被稱為特征工程(Feature Engineering)。要實現LTE小區聚類,首先需要選擇可量化的特征對小區進行精細化建模。對于如何選取合適的特征并無嚴格的規則可循,本文通過對TD-LTE網絡優化指導書中網絡優化指標進行仔細研究,同時借鑒參數優化實際工作經驗,決定從小區工參(本鄰區),網絡性能,覆蓋三個維度中選取若干典型可量化特征用于小區聚類建模,具體見表1。

表1 小區特征選擇
進行小區聚類建模所用到的數據,包括工參結構數據,鄰區配置數據,MR測量數據,小區TA數據,以及性能指標數據。從數據源提取的原始數據由于各種原因存在數據缺失,數據異常以及數據重復等一系列問題,因此首先需進行數據清洗,否則將會對聚類算法的效果產生不可避免的影響。通過對原始數據進行初步分析后,本文采用的數據清洗方法包括缺失值處理,剔除異常值,以及去重處理等,從而去除掉“臟數據”,確保算法結果的可靠性。
定義:服務小區基站和所有相鄰基站距離的平均值。
算法:根據小區經緯度通過兩種算法(泰森多邊形算法和方向角算法)計算站間距,最終結果使用覆蓋距離小的結果。
(1)泰森多邊形算法
①根據全網所有小區生成泰森多邊形(非所選小區);圖1為某市現網全量LTE宏站小區生成的delaunay三角網。

圖1 某市現網全量LTE宏站小區delaunay三角網
②根據每個小區泰森多邊形,找到它的所有泰森多邊形(本網絡內)相鄰基站;注意:不計算自身基站。相鄰概念為:泰森多邊形共邊;
③計算所有相鄰基站到本小區的距離,平均值為本小區站間距(單位使用“米”,使用地球橢球體模型計算距離);
特殊情況處理:室內站不參與計算;小區無相鄰基站,定義為“孤小區”,站間距結果為空;
(2)方向角算法
根據小區A方位角與搜索角寬度確認方向,以小區經緯度為圓心,以a為搜索半徑,在搜索方向上畫弧,如果所得扇區內存在基站X(1個或N個)則將該基站X到A的平均距離計做站間距,如果N>3 那么值取最近的3個納入計算,如果N<1 那么將搜索半徑由a升級到b,依次計算,如果在半徑c所畫的弧的扇區內仍未發現基站,則站間距計為空。
特殊情況處理:室內站不參與計算;扇形內無基站,定義為“孤小區”,站間距結果為空。
備注:全向站:搜索角寬度使用360度。

表2 站間距-方向角算法
從設備廠商網管平臺提取的小區TA數據用于判斷小區是否出現過覆蓋現象,過覆蓋判斷步驟如下[7-8]:
(1)通過PRS獲取小區TA值分布情況,累積由TA0~TA7的每一分段的用戶數占比,將每TA分段百分比向后求和,該分段求和值大于90%時,取該分段的最遠距離為T1;
(2)根據2.2節中的方法計算平均站間距T2(只計算現網宏站站點之間的平均站間距);
(3)比較T2與T1,如果T1大于1.5倍T2,則判斷該小區過覆蓋。
如下舉例(小區名以XXX代替):XXXFHLH-1在TA分段為區間(1092-2028)時,用戶數占比累積大于90%,則此時T1取該分段的距離最大值2 028 m,弱覆蓋小區距離最近宏站的平均站間距T2為880 m,由于T1>1.5*T2,故該小區存在過覆蓋現象。詳見表3。

表3 XXX小區過覆蓋判斷示例
常用的無監督機器學習聚類算法有K-means聚類算法,凝聚聚類算法以及DBSCAN算法,這三種算法均可用于大型的現實世界數據集并實現聚類成多個簇。通過對各種算法的優缺點以及適用場景進行仔細研究分析[9],并結合本次應用場景的實際情況,本文選擇最著名的K-means聚類算法實現LTE宏站小區聚類。
K-means聚類算法試圖找到代表數據特定區域的簇中心(cluster center),其可以發現k個不同的簇,并將每個簇的中心采用簇中所含值的均值計算而成,具體步驟如下:
(1)隨機確定k個初始點的質心。
(2)將數據集中的每一個點分配到一個簇中,即為每一個點找到距其最近的質心,并將其分配給該質心所對應的簇。
(3)每一個簇的質心更新為該簇所有點的平均值。
算法將交替執行(2)、(3)兩個步驟,直到簇的分配不再發生變化時算法結束。
完成數據預處理環節后,每個LTE宏站小區將會被抽象為一個P維特征的向量,從而將該市所有現網宏站小區表示為N*P的特征空間矩陣(N為小區數),實現對LTE小區的量化特征表示。同時為消除各特征之間的量綱影響,需分別對每個特征進行歸一化處理,提高聚類算法的精度。
對特征空間矩陣歸一化處理后,利用K-means聚類算法將該市現網約4.3萬個LTE宏站小區劃分為30個聚類場景,各場景的具體聚類情況如表4所示(表中展示了每個場景內各特征的平均值,以及該場景包含的小區數)。

表4 LTE宏站小區聚類結果
通過分析比較表4各聚類場景內每個特征的平均值,列舉其中典型場景并提供相應的優化建議[10],具體如下:
場景8:本鄰區下傾角較大,站高較高,RRC連接建立請求次數及總切換請求量均較高,鄰區數較少,無過覆蓋現象。該場景屬于市區樓宇及人流密集區域(商業中心,CBD等),業務量較高,建議適當降低異頻切換A2門限,并檢查是否存在鄰區漏配現象。
場景17:本鄰區下傾角較小,站高較低,RRC連接建立請求次數及總切換請求量均較低,平均站間距較小,存在過覆蓋現象。該場景屬于市區樓宇及人流密度較為稀疏的區域,業務量較低,建議適當降低小區RS功率,增大本鄰區下傾角,并提高異頻切換A2門限。
場景29:平均站間距較大,鄰區數較少,覆蓋率指標較差,無過覆蓋現象。該場景的覆蓋區域為郊區,建議適當提高小區RS功率,減小本鄰區下傾角,對基站稀疏的覆蓋薄弱區域增加規劃站建設,提高覆蓋率指標。
流形學習算法(Manifold Learning Algorithm)自2000年在著名的科學雜志《Science》被首次提出以來,已成為信息科學領域的研究熱點。流形學習主要用于高維數據降維及可視化,就是從高維采樣數據中恢復低維流形結構,即找到高維空間中的低維流形,并求出相應的嵌入映射,以實現維數約簡或者數據可視化。它是從觀測到的現象中去尋找事物的本質,找到產生數據的內在規律。
t-SNE是流形學習中一種非線性數據降維與可視化算法,幾乎可用于所有高維數據集,廣泛應用于圖像處理,自然語言處理,基因組數據和語音處理。其主要思想是找到數據的二維表示,嘗試讓在原始特征空間中距離較近的點更加靠近,相距較遠的點更加遠離[11]。算法具體步驟如下:
(1)隨機鄰接嵌入(SNE)通過將數據點之間的高維歐幾里得距離轉換為表示相似性的條件概率而開始,數據點xi、xj之間的條件概率pj|i由下式給出:

其中,σi是以數據點xi為中心的高斯方差。
(2)對于高維數據點xi和xj的低維對應點yi和yj而言,可以計算類似的條件概率q j|i:

SNE試圖最小化條件概率的差異。
(3)為了測量條件概率差的和最小值,SNE使用梯度下降法最小化KL距離。而SNE的代價函數關注于映射中數據的局部結構,優化該函數是非常困難的,而t-SNE采用重尾分布,以減輕擁擠問題和SNE的優化問題。
(4)定義困惑度:

其中,H(Pi)是香農熵:

另外需注意,雖然t-SNE對于數據降維及可視化能夠取得良好效果,但由于算法計算對應的是條件概率,并試圖最小化較高和較低維度的概率差之和,這涉及大量的計算,運行算法時間較長,占用內存較大,對系統資源要求高。
利用t-SNE變換將N*P的特征空間矩陣映射至2維空間后,對3.2節的聚類結果進行可視化展示,效果見圖2(圖中每個數字文本代表該小區所屬聚類場景編號)。
從圖2中可以看出,通過t-SNE聚類可視化顯示K-means聚類算法效果良好,所有類別都被明確的分開,雖然部分類別(諸如聚類6、聚類11、聚類19、聚類28)存在被分隔開的現象,但大多數類別都能形成一個密集的簇。同時也表明本文的聚類算法對LTE宏站小區聚類取得了較為理想的結果。
本文提出的基于K-means的LTE宏站小區場景聚類策略,可對小區進行量化特征建模并聚類為若干典型場景,從而對不同聚類場景的小區可實現自動化推薦LTE網絡參數配置方案,極大提高網絡優化中參數優化配置工作的效率。后續研究工作可根據算法的實際效果對算法進行優化改進,包括小區覆蓋范圍的無線環境建模,進一步深入分析能夠表征小區間本質差異的可量化特征,以及提高聚類算法和t-SNE算法的運行效率等。