機器學習在網絡路測質差小區分析中的應用①

2020-05-22 04:48:10許鴻奎姜彤彤

計算機系統應用 2020年5期

邵星,許鴻奎,2,李鑫,姜彤彤

1(山東建筑大學信息與電氣工程學院,濟南 250101)

2(山東省智能建筑技術重點實驗室,濟南 250101)

隨著通信技術的日益更新,電信產業獲得了迅速發展.現如今,我國已經擁有世界上最大的通信網絡和最多的用戶數量.由于網絡規模的擴大和數據量的急劇增加,對于智能化網絡優化的需求在逐步提高[1].為了解決規模龐大且復雜多樣的移動通信網絡帶來的各類問題,國內外許多學者針對機器學習在網絡優化中的應用進行了大量研究.

王西點等探究了人工智能在網絡運維中的應用,并列舉了多種機器學習應用的例子[2].張喆利用k 均值聚類算法對小區進行聚類成多個典型場景,之后對于不同聚類場景的小區可以實現自動推薦LTE 網絡參數配置方案[3].Kibria 等也對下一代的無線網絡及優化中的大數據分析、機器學習和人工智能進行了研究和預測[4].對于網絡優化中的質差小區檢測,眾多學者展開了更為深入的研究.周鵬將質差小區和異常小區聯系起來,使用改進的局部異常點(LOF)檢測算法,提高了檢測質差小區的正確率[5].曾雨桐提出用層次聚類方法對小區性能進行劃分,定位到性能較差的小區后聚類分析質差小區各項指標之間的關聯度,從而針對性地制定優化方案[6].王希將概率神經網絡應用于LTE 網絡根因定位分析中,實現了LTE 質差小區的自動化分析[7].然而,這些研究鮮有基于機器學習對路測數據進行分析處理.路測是檢測階段的有效手段,能從實際網絡中獲得充足的數據[8].目前對于路測數據的分析主要依賴于網絡優化工程師的個人經驗進行判斷,準確率不高、效率低下.

為了解決上述問題,本文針對路測數據,提出了一種基于距離的四維特征的質差小區檢測方法.首先對路測數據進行分析處理,將距離因素引入路測分析中,設計提取了基于距離的四維特征.然后采用聚類算法和人工判斷相結合的方式對路測數據進行標定,并通過機器學習算法對小區進行優劣劃分.將距離因素引入路測分析中,解決了采用單一指標判斷方式不夠準確的問題,更加貼合實際,在提高網絡優化效率、降低成本等方面具有重要意義.

1 數據準備

1.1 數據選擇

路測(Drive Test,DT),是指測試人員在汽車中,持專業的測試儀器對整段路段的無線信號情況進行測試.傳統的路測分析需要對網絡參數進行采集和數據分析,找出影響網絡質量的因素,并制定優化方案[8].主要可以獲得以下數據:服務小區信號強度、小區識碼、手機所處的地理位置、呼叫管理等值.

研究采用了某市2016年部分路測數據,該數據采集自117 個小區,共78 613 條數據.部分原始數據如圖1所示.選擇的路測數據參數為:基站小區的經緯度信息、信號點的經緯度信息,信號點的參考信號接收功率(Reference Signal Receiving Power,RSRP)、信號與干擾加噪聲比(Signal to Interference plus Noise Ratio,SINR)、物理小區標識(Physical-layer Cell Identity,PCI).RSRP 是指在一個符號內承載參考信號的所有資源粒子上接收到的信號功率的平均值,它是LTE 網絡中可以代表無線信號強度的關鍵參數以及物理層測量需求之一.SINR 可以被認為“信噪比”,是指接收到的有用信號和干擾信號的強度的比值.SINR 的數值大小,可以反映出信號點的噪聲情況.PCI 是用于區分不同小區的無線信號[9].但PCI 值在整個網絡中并不唯一.采用PCI 值的原因是這片區域小區的PCI 值沒有重復,若有重復,應更換為演進通用陸地無線接入網絡小區標識(E-UTRAN Cell Identifier,ECI),保證所用數據中的小區在這片區域的唯一性.

1.2 數據預處理

由于路測數據中存在缺失值、亂碼等問題,會導致錯誤的處理結果,使得算法無效或者遠離期望.

本文所提取的數據中存在著缺失值(如圖1所示),亂碼(如圖2所示)等問題,需要對原始數據進行預處理.經典的處理方法有:刪除,均值替換等方法.因為含缺失值、亂碼值的對象與信息表中的數據量相比相對較小,所以采用了刪除元組法對數據進行處理,即將含有缺失值、亂碼值的記錄刪除.最終得到68 311 條數據,預處理后的部分數據如圖3所示.

1.3 特征提取

預處理后的數據是以一個數據點的信息作為一條對象,在以小區為單位的質差小區檢測中,不具有類別的可分性.因此,進行特征提取可以將原始特征轉換為一組具有明顯物理意義或者統計意義的特征,得到可分性更大的、更利于識別的特征數據.根據人工網優判斷的經驗,進行統計特征提取.

傳統質差小區的判定主要是根據路測數據中的兩個指標:RSRP 和SINR 的采樣概率.根據規定,在覆蓋區域內,TD-LTE 無線網絡覆蓋率若滿足RSRP >–105 dBm的概率小于或等于95%,則說明小區覆蓋情況較差,為質差小區;若滿足SINR>–1.6 dBm 的采樣概率小于或等于95%,則說明小區干擾較多,同樣為質差小區.

因為信號強度隨著距離的增加而逐漸衰減,所以距離小區基站較遠的區域,其信號接收功率比距離基站較近的區域的信號接收功率弱.由于相鄰小區的信號影響,使得小區邊緣的區域接收到的干擾比小區內部的區域接收到的干擾大.所以單一的指標不能很好的反映實際問題.在這種情況下,對于質差小區的判斷不能只依靠覆蓋率這一指標,還應當考慮到信號點位置的影響.因此在本研究中,引入了信號點距離的因素,對于距離基站較遠的信號點,可以根據實際情況,將判斷的閾值設置一個合適的比近區信號點判斷閾值低的數值.

圖1 部分原始數據圖

圖2 亂碼數據圖

圖3 預處理后的部分數據圖

本文提出了基于距離因素的四維特征,分別為SINR 近區好點比例、SINR 遠區好點比例、RSRP 近區好點比例和RSRP 遠區好點比例.SINR 近區好點比例為近區SINR>3 dBm 的信號點的比例;SINR 遠區好點比例為遠區SINR>0 dBm 的信號點的比例;RSRP 近區好點比例為近區RSRP>–90 dBm 的信號點的比例;RSRP 遠區好點比例為遠區RSRP>–100 dBm 的信號點的比例.其中,將距離基站最近的信號點和最遠的信號點的距離的平均值作為閾值,大于閾值的區域為遠區,小于或等于閾值的區域為近區.為了分析特征的可分性,更加直觀的觀察特征,將RSRP 近區好點比例作為x軸,RSRP 遠區好點比例作為y軸,得到圖4;將SINR 近區好點比例作為x軸,SINR 遠區好點比例作為y軸,得到圖5.

圖4 RSRP 好點比例圖

圖5 SINR 好點比例圖

從圖4和圖5可以看出,數據點集中在0.7–1 之間,說明117 個小區里,覆蓋率較好的小區或者干擾較弱的小區占比較高.優良小區集中分布,呈現較好的集聚現象.由此可得,特征能將優良小區和質差小區區分出來,可以用分類器進行分類.

1.4 數據標定

目前對于質差小區的檢測,很大程度上依據的是網優工作人員的經驗.傳統的路測,需要網優人員結合多個質量指標的統計數據,利用路測分析軟件對小區進行判斷和評估,存在正確率不夠、效率低下等問題.

為了提高基于路測數據對質差小區檢測的效率,更為準確的判斷小區的優劣情況,采用聚類算法結合人工標注的方法進行標定.本研究采用的聚類算法為k均值聚類(k-means clustering algorithm,k-means)算法.該方法是最為常用的一種無監督算法.首先隨機選擇k個點作為質心,k的選值需要人為設定.再計算數據集中的每一個點離質心的歐式距離或者余弦距離等,將其分配到距其最近的質心所在的簇.之后每個簇的質心更新為這個簇中所有點的平均值,直到滿足終止條件.這種算法簡單快速容易實現,能夠體現數據在幾何和統計學上的意義[10].

先利用k均值聚類算法,將k值設定為2,即將所有的小區劃分為兩類,簡單分析后將優良小區標注為1,質差小區標注為0.網優人員結合聚類結果,在路測分析軟件上進行分析,將結果進一步細化,得到最終分類結果.如圖6所示,在PCI 為115 的小區中有近一半的信號點的RSRP 值低于閾值,因此小區覆蓋下的信號強度不理想,應為質差小區.同時查看聚類結果,PCI 為115 的小區的標定值為0,則聚類結果正確,小區判定為質差小區.對于判斷不一致的小區,交給另一位人員進行判斷,得到最終結果,減少了誤判率,提高了工作的效率和判斷的準確率.

圖6 路測軟件分析圖

2 分類器選擇

2.1 選擇標準

分類器根據學習的方式主要分為無監督學習分類器和有監督學習分類器.無監督學習的分類器可以利用未標記的數據,找到其中的隱藏結構,根據樣本之間的相似性進行分類;監督學習的分類器依據標簽,在分類好的數據基礎上判斷一個新的數據所屬的類別.

選擇分類器時,既要考慮分類器本身的特性,又要考慮各式數據集在訓練時帶來的影響.無線網絡的LTE 小區的路測數據經過數據處理、特征提取、數據標注后,產生117×4 的特征矩陣和標簽,將其輸入到分類器中,可以看出,訓練數據為一個小樣本,維度較高的數據集,應當選擇屬于適用于小樣本的分類器.結合實際,實際的網優工作,分類器應該具有較好的可解釋性,可以在工作中,提供較好的指導性.考慮到實際的工程應用,分類器的計算復雜度,要選擇快速且資源消耗小的算法.

2.2 算法概述

2.2.1 邏輯回歸算法

邏輯回歸(logistics regression)算法是監督學習的一種常用算法,主要解決二分類問題.假設訓練集D={(x(1),y(1)),(x(2),y(2)),···,(x(m),y(m))},其中特征X(i)∈Rn,類的標記y(i)∈{0,1},假設函數如下:

其中,θ為模型參數,J(θ)為損失函數.邏輯回歸算法的最終目的就是最小化損失函數J(θ).這種算法運行速度快,簡單易于理解,容易更新模型,但是對數據和場景的適應能力有一定的局限性.

2.2.2 支持向量機算法

支持向量機(Support Vector Machine,SVM)算法,是基于統計學習理論的一種監督機器學習的方法.支持向量機可以找到一個最優分類超平面,這個超平面能夠使其兩側的空白區域最大化,而且不失分類的精度[11].它在小樣本數據上能夠得到較好的結果,而且具有優秀的泛化能力.但是運用在大數據集上會出現訓練時間過長和準確率不夠的問題.

2.2.3 決策樹算法

決策樹算法屬于監督學習,可以分為分類樹和回歸樹.分類樹可以基于不同的條件分割數據集.首先根據信息增益或者信息增益率來尋找最優特征,然后根據特征中的最優值將數據集分成兩個子數據集,之后重復以上操作,直到滿足終止條件.信息增益和信息增益率的公式為:

其中,a是特征,v是其中的一個分類,pv是v分類占特征a總個數的比例,Dv為根據v分類進行劃分之后的數據集,Ent(Dv)是劃分后數據集的信息熵,Gain(D,a)表示根據特征a劃分之后的信息增益,Gain_ratio(D,a)表示信息增益率.這種算法速度快,準確率高,可生成易理解的規則,但是對于樣本數據量不一致的數據比較敏感,容易忽略掉屬性之間的相關性.

2.2.4k最近鄰算法

k最近鄰(k-Nearest Neighbor,kNN)分類算法是一種廣泛應用的監督學習算法.k近鄰算法遇到一個未知類別的新樣本時,根據一些已知類別的樣本,可以找到k個距離最小的鄰居樣本.新樣本就屬于類別中含有這些鄰居數量最多的類.這種算法理論基礎成熟,準確度高,但對于大數據集來說,計算量大,所需內存多,會造成運行時間過長等問題.

綜上所述,選擇邏輯回歸分類器、支持向量機分類器、決策樹分類器和k近鄰分類器這4 種較為簡單的算法作為質差小區的檢測的算法,并通過結果對比分析,得到最適合的分類器.

3 實驗與結果分析

3.1 實驗設計

本文提出的基于機器學習的質差小區檢測方法的整體流程圖如圖7所示.

圖7 整體流程圖

整個過程主要分為3 個部分:特征提取、數據標注和分類結果比較.其中特征提取可以為分類器提供訓練數據基礎;數據標注將質差小區的檢測問題,轉化成機器學習中分類問題;分類器結果比較是將兩維特征(即RSRP 采樣率和SINR 采樣率)與基于距離的四維特征分別輸入到每一種分類器中進行分類,將其結果進行比較;若四維特征得到較高的分類準確率,則將其準確率和運行時間綜合比較,最終選擇出分類效果最好的分類器.

為了最小化模型結構風險,本實驗采用10 折交叉驗證對性能進行評估,將數據集平均分成10 份,輪流將其中的9 份做訓練,1 份做驗證,并將10 次結果的均值作為對算法精度的估計,得到每種算法較為合理的準確率.

3.2 特征的比較

為了驗證四維特征的可行性,分別使用邏輯回歸分類器、支持向量機分類器、決策樹分類器和k近鄰分類器4 種分類器對提取的四維特征和二維特征分別進行分類比較.二維特征和四維特征在不同分類器下的準確率結果見表1.

表1 二維特征和四維特征在不同分類器下的準確率

由表1可以看出,四維特征比二維特征在每一種分類器中的分類準確率都高10%左右,由此可得,四維特征具有更高的分類準確率,證明了四維特征的可行性,說明了基于距離的四維特征在基于機器學習的質差小區的檢測中具有一定的實際意義.

3.3 分類器的選擇

選取邏輯回歸分類器、支持向量機分類器、決策樹分類器和k近鄰分類器4 種分類器,得到了四維特征在該4 種分類器中的結果如表2所示.

表2 四維特征在不同分類器下的準確率和運行時間

由表2可以看出,在這4 種分類器,支持向量機分類器,表現出了更加優異的分類性能(準確率高且運行時間短).且四維特征在該分類器下得到的混淆矩陣和ROC 曲線如圖8和圖9所示.

由圖8可得,人工標注質差小區為43 個,其中有38 個被正確預測為質差小區,有5 個被錯誤的預測為優良小區;人工標注優良小區為74 個,有71 個被成功預測為優良小區,3 個被錯誤預測為質差小區.可以看出,支持向量機分類器對于四維特征的分類效果良好,錯誤分類在可接受的范圍內.

圖8 混淆矩陣

圖9 ROC 曲線

ROC 曲線的橫軸代表負正類率特異度,縱軸代表真正類率靈敏度,通過曲線可以很容易的查到任意界限值時的分類能力.AUC 為ROC 曲線下的面積,它作為數值可以直觀的評判分類器的好壞,取值在0.1 到1 之間,由圖9可以看出,支持向量機分類器的AUC為0.95,說明支持向量機分類器性能比較好.

通過實驗可以發現,對于常用的4 種分類器,本文提出的基于距離的四維特征相比傳統的兩維特征均獲得了更高的準確率,說明了將距離因素引入質差小區的檢測能得到更加準確的分類結果,其中在支持向量機中得到了最好的結果.

4 結論

本研究將距離因素引入到傳統的路測數據中,得到了基于距離的四維特征.分析比較了二維特征與四維特征在邏輯回歸分類器、支持向量機分類器、決策樹分類器和k近鄰4 種分類器中的效果,并分析了四維特征在4 種分類器中的分類準確率和運行時間.根據以上研究可以得出:

(1)使用四維特征與二維特征進行機器學習的分類檢測比較,四維特征能夠獲得較好的區分結果.

(2)對比邏輯回歸分類器、支持向量機分類器、決策樹分類器和k近鄰分類器4 種分類器,在二維特征和四維特征中,支持向量機分類器均獲得了最好的分類效果.

所以,將距離因素引入到對路測數據進行質差小區檢測能夠得到更好的結果,解決了單一指標在質差小區檢測中準確度不夠的問題,在路測數據中為機器學習在質差小區檢測中的應用提供了理論依據,具有一定的現實意義.