陳明發 嚴天峰,3
1(蘭州交通大學電子與信息工程學院 甘肅 蘭州 730070) 2(甘肅省無線電監測及定位行業技術中心 甘肅 蘭州 730070) 3(甘肅省高精度北斗定位技術工程實驗室 甘肅 蘭州 730070)
微蜂窩預測模型是基于容量節儉進行微蜂窩系統設計的工具,對于移動通信的應用研究有著巨大的指導意義。微蜂窩預測半徑在1.6 km以內,微蜂窩預測模型大體可以劃分為兩類:理論模型和經驗模型。理論模型是應用電磁波理論計算得到的確定性模型;經驗模型是統計性模型,是在大量測量數據基礎上形成的。經驗模型中比較經典的就是Lee微蜂窩預測模型,它根據信號的傳播距離,在自由空間損耗模型上添加不同場景下的損耗參數,與其他模型相比,復雜度不高且適用各類場景,經驗證,其準確度較高[1-3]。Lee微蜂窩建筑物損耗分析方法研究的是建筑物損耗與射頻路徑上穿過建筑物寬度之和的關系,然后應用最小二乘法構建成模型,但是在市區場景下,建筑物形狀的多樣性和布局的復雜性等對分析建筑物損耗造成較大影響,使用Lee建筑物簡化算法來計算建筑物損耗存在較大誤差,而精準地得到射頻路徑上的信號穿過每個建筑物的寬度又很困難。
本文基于實地測試數據對Lee模型進行了建模以及仿真,建立路徑損耗參數,改進自由空間損耗模型;針對Lee對與建筑物損耗分析誤差較大的問題,應用機器學習中隨機森林和GBRT兩種集成回歸算法對建筑物損耗數據進行分析,建立建筑物損耗模型;綜合自由空間損耗模型與建筑物損耗模型使得市區微蜂窩模型更為精準。
基于市區建筑物場景下衰減預測的基礎模型為Lee微蜂窩模型。接收端接收的強信號是來自于多條經過建筑多次反射的反射波,而不是穿透建筑的無線電波,Lee微蜂窩傳播模型的預測公式為:
Pr=Pt-LLOS(dA,h1)-LB+GA+Ga
(1)
式中:Pt為發射功率;LB為建筑損耗,B表示射頻信號路徑上信號穿過建筑物的總厚度;GA是射頻路徑上信號到達第一個建筑物的損耗,由發射端到建筑物的距離決定。本次實驗中GA=0,LLOS(dA,h1)為視距dA處的路徑損耗,即自由空間損耗。距離發射端的自由空間損耗的公式為:
(2)
式中:df為近場距離。微蜂窩的近場距離公式為:
(3)
式中:h1為發射天線高度;h2接收天線高度;λ為波長[4]。
Lee微蜂窩建筑損耗模型為:
(4)
式中:LB表示建筑物造成的信號傳播損失;B(單位為m)為Lee建筑物損耗模型傳輸路徑上所有建物寬度之和。
集成算法是指由多個弱分類器模型組成的整體模型,主要有兩大類:Boosting和Bagging[5-7]。本文中選取Boosting中最具代表性的算法GBRT和Bagging中最具代表性的算法Random Forest進行數據預測分析。
隨機森林[8]是復合決策樹的集成機器學習算法。隨機森林使用booststrap方法構建n個訓練集,每個訓練集對應生成一個決策樹,總體就有n個決策樹,因為每個決策樹的數據集都不相同,所以每棵樹又有少量區別。最后對所有的決策樹的預測結果取平均減少預測的方差,提高在測試集上的性能表現。相比較單棵樹訓練過程,隨機性主要體現在兩個方面:每次迭代是在原始數據集中重新抽樣獲得不同的訓練集;對于每一個樹節點,考慮不同的隨機特征子集來進行分裂。
隨機森林的數學模型公式如下:
(5)
式中:N為回歸樹模型回歸樹的數量。
GBRT[9]算法是一種迭代決策樹的集成機器學習算法,該算法由多棵決策樹組成,所有樹的結論加起來就是最終答案,GBRT的數學模型fGBRT如下:
(6)
式中:T為建立模型的回歸樹的數量;h(x;at)為一個回歸樹模型;at為每個回歸樹模型的參數。算法的核心思想是第T樹學習的是前T-1棵樹結論和的殘差,通過疊加所有決策樹的結論不斷逼近真實值。為了防止過擬合,GBRT算法加入了Boosting這一項。
最小二乘法[10]是線性擬合中最常見的一種,是通過最小化誤差的平方和尋找最為逼近原始數據的函數表達式,形如y=f(x,b),求出函數關系。
本次實驗選取的測試地點為以蘭州交通大學電信樓為中心,以半徑為微蜂窩極限距離1 600 m的圓為測試范圍進行測試計算。測試場景和測試點分布使用ArcGIS[11]繪制如圖1所示。

圖1 測試場景圖
圖中黑色圓點為發射基站位置,黑色三角形為移動接收點。本次實驗中發射天線高度為45 m,接收天線高度為2.5 m,測試頻率為400 MHz,頻率為400 MHz時的近場距離為600 m,微蜂窩的極限距離為1 600 m。
表1為本文測試的設備信息。

表1 測試設備信息
經過測試以及分析得出,功率放大器和天線增益為33 dB,設備損耗為8 dB,饋線損耗為5.3 dB。
為了驗證市區微蜂窩場景中建筑對信號傳播的影響,測試得到的數據要盡可能詳細,包括接收點的功率值、經緯度值、海拔值。
如圖1所示,研究建筑物對信號傳播的損耗就是研究射頻路徑上信號穿過建筑物的寬度與建筑物損耗之間的關系。Lee建筑物損耗模型提出了簡便計算射頻路徑上信號穿過建筑物寬度之和的方法:將測試地區的建筑物按照建筑物布局和街道分布劃分為如圖1所示的5個建筑物區塊,分別計算5個建筑物區塊的建筑物占比,由穿過建筑物區塊的距離和建筑物占比得到等價建筑物區塊總寬度B,若射頻信號穿過圖1中的2和4區域,則:
B=a2·L2+a4·L4
(7)
式中:ai為各個區域的建筑物面積占比;Li為射頻信號穿過各個區域的距離。
在同一個建筑物區塊內的兩個測試點,建筑物占比是相同的,測試點與發射點的距離是相近的,但是由Lee建筑物損耗模型得到的建筑物損耗與實際測得建筑物損耗差值卻很大。針對這一缺點,本文提出如下橢圓區域計算方法。
由惠更斯-菲涅爾原理可以得到:對電波傳播造成較大影響主要是位于第一菲涅爾區域的障礙物。因此,以收發兩點間距離的一半為長半軸,以第一菲涅爾半徑F為短半軸構建收發兩點間信號的橢圓傳播區域,計算該橢圓區域的建筑物面積占比a,如圖2所示。

圖2 基于菲涅爾區域的橢圓區域示意圖
得到等價建筑物區塊總寬度B:
B=L×a
(8)
式中:L為收發兩點間的距離。
由式(2)可以得到,自由空間損耗主要有兩大參數決定,一是距離,二是路徑損耗斜率γ。本文中使用發射點(ET,NT)、接收點(ER,NR)的經緯度計算兩點之間的距離,公式如下:
S=2r·arcsin(sin2(NT-NR)+cos(NT)·
cos(NR)·sin2(ET-ER))1/2
(9)
式中:r=6 378.137 km為地球赤道半徑。
測試地區的路徑損耗斜率γ以前往往是參考類似地區的路徑損耗斜率得到的,而每個地區的地形、建筑物分布、建筑物形狀、街道走向又各不相同,因此引用其他地區的γ計算本地區的自由空間損耗往往會對近場距離以外的點造成自由空間損耗誤差。本文將測試計算本地區的路徑損耗斜率γ,從而提高自由空間損耗模型精度。將損耗數據進行線性分析,得到路徑損耗斜率圖如圖3所示。

圖3 路徑損耗斜率圖
取圖3中的7組數據分別計算路徑損耗斜率[12],再取平均值得:
γ=23.51 dB/dec
研究地區的微蜂窩路徑損耗斜率為23.51 dB/dec。已知路徑損耗斜率與距離,得到改進自由空間損耗模型與傳統的自由空間損耗模型對比如圖4所示。

圖4 自由空間損耗模型
可以看出,自由空間損耗誤差主要在近場距離以外,誤差在1.5 dB 左右。
將數據集按照3∶7的比例劃分為測試集和訓練集,使用隨機森林、GBRT兩種集成算法構建市區建筑物損耗的預測模型,模型的構建流程如圖5所示。

圖5 模型構建流程圖
4.2.1參數設置
集成機器學習算法中回歸樹的數量是影響算法的預測性能的重要參數。本文依據模型在數據集上的評價參數(RMSE、R2)與回歸樹數量之間的關系曲線選擇最佳的回歸樹數量進行模型訓練,兩種算法的關系曲線分別如圖6和圖7所示,其構建的市區建筑物場景的微蜂窩預測模型達到訓練的最優。

(a)

(a)
由圖6和圖7得到構建集成損耗模型時的最佳回歸樹的數量如表2所示。

表2 回歸模型回歸樹的選定
4.2.2建筑物損耗建模對比分析
本文選取了Lee建筑物損耗模型與隨機森林、GBRT兩種集成算法構建的模型進行對比,結果如圖8-圖10所示。

圖8 GBRT建筑物損耗模型與實測模型對比

圖9 隨機森林建筑物損耗模型與實測模型對比

圖10 Lee建筑物損耗模型與實測模型對比
圖8、圖9中橫軸上的距離是由式(8)計算得到的信號傳播區域中信號穿過的總寬度;圖10中橫軸上的距離是按照LEE建筑物模型簡化算法得到信號穿過建筑物的總寬度。由圖8-圖10得到三種建筑損耗模型在測試集上的精度如表3所示。

表3 回歸模型精度對比
由上述對比結果可得:(1)由集成回歸算法構建的建筑物損耗模型普遍優于Lee建筑物損耗模型。(2)當RMSE和R2趨于穩定時,基于隨機森林算法構建的模型的RMSE最小且R2最大,但是基于GBRT算法構建的模型恰恰相反,并且GBRT模型預測值與實測值誤差明顯大于隨機森林模型。綜上,基于隨機森林算法構建的建筑物損耗模型是穩定而且最優越的。
結合三種建筑物損耗模型和改進自由空間損耗模型得到微蜂窩模型預測曲線在測試集上的表現以及誤差累計分布曲線如圖11、圖12所示。可以看出,基于隨機森林構建的市區建筑物場景損耗模型最貼近測試集數據曲線,因此最終選擇隨機森林回歸模型進行微蜂窩損耗分析。比較最終模型與實測損耗測試集數據發現,基于隨機森林實現的市區建筑物場景微蜂窩模型的R2為0.918 5,RMSE為2.321 4,最大誤差不超過4 dB。造成本次實驗誤差的原因分析如下:(1)由于接受天線架設的高度為2.5 m,測試時天線的抖動可能形成測試值與實際值存在偏差;(2)測試時來往行人和車輛的干擾也會造成實際值與測試值的偏差;(3)發射點與接收點的地勢高度差產生的有效天線高度增益或損耗也會使實驗數據產生誤差。

圖11 模型曲線對比

圖12 誤差累計分布曲線
在信號穿過市區建筑物的場景下,建筑物的阻擋使得電磁波在到達接收端時存在多路信號且多路信號之間存在相位差,多路信號的合成過程中形成了多徑衰落,造成信號的衰減,同時也使得市區建筑物場景下微蜂窩的電波損耗預測難度增大[13-15]。隨機森林、GBRT與最小二乘法相比較具有很大的優勢,可以充分應用數據含有的特征而又不擔心過擬合。使用基于隨機森林算法構建的微蜂窩模型在預測損耗時,預測誤差不超過4 dB,預測精度較高,可以有效精準地應用于城市環境下損耗的預測。由于市區建筑物的多樣性以及測試環境周圍的復雜性,造成信測試點信號衰減的因素也不盡相同,因此使用隨機森林算法對市區建筑物的形狀和測試環境進行分類判別,再結合實測數據分析。未來將對市區建筑物微蜂窩預測模型進行更進一步優化,并構建更貼近實際的微蜂窩模型。