文 凱 陳 浩 錢權智 莫 勇
(重慶郵電大學通信與信息工程學院 重慶 400065) (重慶郵電大學通信新技術應用研究中心 重慶 400065) (重慶信科設計有限公司 重慶 401121)
2019年以來,5G網絡建設在全國各地如火如荼的展開,相比與4G網絡,5G網絡的頻段更多、站點更密、組網更加復雜,如何科學謀劃5G布局、加強5G站址統籌將是5G規劃的重點與難點。
旅游城市一般為以景區景點為核心、以旅游產業為主體、旅游業產值超過城市GDP的7%的一類城市,與一般城市相比,旅游城市人流量隨季節變化明顯,有著顯著的淡旺季特征。在傳統規劃中,容量預測一般采用趨勢外推法與人口普及率法、類比法相結合的方法,綜合預測規劃期內5G業務用戶數量,但趨勢外推法通常預測對象的發展規律是呈漸進式的變化,而不是跳躍式的變化,無法反映出旅游城市隨著淡旺季而產生的人流量變化情況。為了更好地體現旅游城市人口的季節及發展趨勢,本文將SARIMA模型引入到5G規劃中,代替趨勢外推法預測用戶數量,其對周期性的時間序列預測效果很好,是對ARIMA模型在季節性數據方面的局限性改進而得到的,可以在單變量數據中顯式地模擬季節性元素,展示數據的季節性特點,以對未來作出準確預測[1],為5G組網方案的制定提供數據支持。
截至2019年底,全國共有旅游城市337座,占全國所有地級市的51.1%,因此,針對旅游城市的人口特點進行針對性的5G規劃方法研究是很有必要的。
趨勢推斷法是網絡規劃中常用的預測用戶數量的方法,屬于時間序列預測方法的一種[2]。當預測對象的變化顯示出一定的上升或下降趨勢且沒有明顯的波動時,可以找到一條合適的函數曲線來反映該變化,通常使用線性函數、二次函數、指數函數等函數進行擬合,并選擇擬合度最高的函數構建趨勢模型,定量估計事物的未來發展趨勢。
ARIMA模型是時間序列預測中最受歡迎的模型之一。該模型源自自回歸模型(AR)與移動平均模型(MA)的組合,差分(I)可以將非平穩數據序列差分后使數據更加穩定。
SARIMA模型即季節性ARIMA,考慮季節性因素而改進了ARIMA模型,它明確支持具有季節性成分的單變量時間序列數據[3]。相比于ARIMA,它添加了四個新的參數,指定序列的季節性分量自回歸(AR),差分(I)和移動平均值(MA),以及一個季節性周期的附加參數,也就是說以ARIMA基礎加上周期性和季節性,適用于時間序列中帶有明顯周期性和季節性特征的數據[4]。其模型一般表示為:
SARIMA(p,d,q)x(P,D,Q)S
(1)
式中:p為自回歸項數;d為非季節差分數;q為移動平均項數;P為季節性自回歸項數;D為季節差分數;Q為季節性移動平均項數;S為周期數,例如將S取為12,代表1年中的12個月。其中p、d、q為三個非季節性參數,P、D、Q、S為四個季節性部分參數。
SARIMA模型用數學公式表示:
(2)

φ(B)為p階非季節性自回歸運算符,其定義為:
φ(B)=1-Φ1B-Φ2B-…-ΦPBp
(3)
θ(B)為q階非季節性移動平均運算符,其定義為:
θ(B)=1-Φ1B-Φ2B-…-ΦqBq
(4)
Φ(BS)是S為周期的時間序列的P階季節性自回歸運算符,其定義為:
Φ(BS)=1-Φ1BS-Φ2B2S-…-ΦPBPS
(5)
Θ(BS)是S為周期的時間序列的Q階季節性移動平均運算符,其定義為:
Θ(BS)=1-Θ1BS-Θ2B2S-…-ΘQBQS
(6)
為了正確地識別模型以進行預測和解釋,SARIMA建模過程包括六個步驟:數據預處理、平穩性檢驗、模型定階、模型診斷、模型預測、模型驗證。如圖1所示。

圖1 SARIMA模型建模過程
(1) 數據預處理。對于收集好的數據,首先進行缺失值處理,可以采用平均法提取前后數據的平均值填充缺失值,調整數據格式,如日期格式等,并對異常值進行處理,使數據更加合理。
同時將處理好的數據按7 ∶3分成兩份,時間靠前的部分稱為訓練集,靠后的部分稱為測試集,如圖2所示。拿訓練集代入模型進行預測,然后將預測結果和測試集進行對比,以驗證模型的準確性。

圖2 訓練集與測試集劃分圖
(2) 平穩性檢驗。為了測試時間序列的平穩性,即確定d和D的大小,最直觀的識別方法是自相關圖。如果自相關系數迅速接近零,即自相關系數被截斷,則時間序列是穩定的。也可以通過ADF檢測的方法。我們需要檢查序列是否已通過ADF(增強的Dickey-Fuller)測試,通常p值小于0.05[5],ADF值小于顯著性水平為1%的臨界值,則可以判斷序列穩定。
(3) 模型定階。數據平穩后,需要對模型定階,即確定p、q的階數。通過AIC方法來確定最優參數,確定最合適的SARIMA模型。AIC函數如下:
AIC=-2log(L)+2(p+q+k+1)
(7)
式中:L為數據的極大似然度,k為獨立參數個數。最終模型得到的AIC值越小,則階數越合適[6]。
(4) 模型診斷。對建立的SARIMA模型進行適應性檢驗,即對模型殘差序列進行獨立性檢驗。通過對殘差序列的Q-Q圖和自相關圖判斷分析,確定SARIMA模型的可用性,保證預測結果的準確。
(5) 模型預測。使用確定好的SARIMA模型,以訓練集數據作為已知時間序列進行實際預測。
(6) 模型驗證。對比驗證集與預測結果,計算預測的相對誤差絕對值大小,判斷模型的準確性。
(8)
以麗江古鎮2010年-2019年人流量數據為例,進行仿真。
首先,繪制麗江古鎮2010年-2019年人流量數據,如圖3所示。

圖3 麗江古鎮人流量圖
麗江是典型的旅游城市,可以看到其季節性特征非常顯著,將人流量數據進行拆分,如圖4所示。

圖4 麗江古鎮人流量分解圖
圖4中Trend數據具有明顯的趨勢性,Seasonal數據具有明顯的周期性,Residual可以認為是去除了趨勢和季節性數據剩余的部分,即殘差。Residual數據保持穩定是必要的。
季節性(Seasonal)數據指在特定的時間段內變動,比如說節假日或者活動等導致數據的周期性變化,可以看到,麗江古鎮很好地符合了旅游城市人流量隨淡旺季變化的特點。
麗江古鎮人流量數據的趨勢性和季節性都非常明顯,但是殘差波動較大。為了使數據更加平穩,首先對數據進行差分處理,差分處理主要是為了減小數據的振動幅度,使其線性規律更加明顯,同時保留其他信息。從表1可以看到,差分前p值明顯大于0.05,對殘差進行ADF平穩性檢驗(表1),其ADF檢驗值大于顯著水平10%下的臨界值,可見序列并不平穩,在差分后,再次檢查序列是否已通過ADF測試(表2),可以看到此時p值已經遠遠小于0.05,且ADF值遠小于顯著性水平為1%的臨界值,因此序列可以判定為穩定。

表1 差分前ADF結果

表2 差分后ADF結果
為了確定模型的階數,可以使用“網格搜索”來迭代地探索不同的組合。對于每個組合,將其代入SARIMA模型,通過AIC方法來評估最優模型,以此確定模型階數。
表3是麗江古鎮人流量的SARIMA模型的AIC值。

表3 麗江古鎮人流量SARIMA模型匹配表
可以看出,SARIMA(0, 1, 1)×(0, 1, 1)12為AIC最小的模型,擬合度最優。
圖5模型診斷表明,模型殘差正常分布如下:左邊的Q-Q圖顯示,殘差(圓點)的有序分布遵循采用N(0,1)的標準正態分布采樣的線性趨勢,這是殘留物正常分布的指示[7]。隨著時間的推移殘差不會顯示任何明顯的季節性,通過右邊的相關圖可以證實,這表明時間序列殘差與自身的滯后值具有低相關性[8]。這些觀察結果得出結論:我們的模型選擇令人滿意,可以很好地對時間序列數據進行預測。

圖5 模型診斷圖
驗證模型的可用性后,對麗江古鎮人流量進行預測,使用訓練集數據(2010年-2017年)預測到2022年,如圖6所示。

圖6 麗江古鎮人流量預測圖
使用同樣的方法,對重慶和昆明的游客人流量進行預測,選取時間范圍為2015年-2019年,其中2015年-2018年作為訓練集數據,2019年作為測試集數據,數據來源于重慶市文化和旅游局與昆明市文化和旅游局官網數據。結果如圖7-圖8所示。

圖7 重慶游客人流量預測圖

圖8 昆明游客人流量預測圖
以2019年為例,分別計算麗江古鎮、重慶、昆明游客人流量預測值與測試集實際值的相對預測誤差絕對值,如表4所示。

表4 測試集實際值與預測值的相對誤差絕對值表
由表4可計算得出,麗江古鎮的相對誤差絕對值僅為2.9%,而重慶與昆明的相對誤差絕對值分別為6.3%、5.9%,均在10%誤差范圍以內,因此可以證明模型的預測結果非常準確,同時具有很好的適應性。
正常情況下,數據流量會在一天的某一時刻達到峰值。而其他時間,如午夜時通信設備的利用率相對較低,而對于旅游城市來說,因為有淡旺季之分,在淡季的時候,基站利用率則很低。為了保證用戶體驗,運營商又必須按照峰值速率來部署設備,也因此,網絡設備利用率低下成為一個急需解決的問題。

圖9 景區與居民區人流量對比圖
觀察景區與其周邊居民區的人流量數據,可以發現兩者達到峰值的時間并不相同,如果將兩者融合組網,共用一部分網絡資源的話,可以在一定程度上節省網絡資源,做到從規劃上減少能源損耗。
實際上,3GPP在5G標準中已經提出了解決方案,即C-RAN架構,C-RAN架構通過將設備集中化放置,并利用虛擬化技術,實現資源共享和動態調度,以達到低成本、高帶寬和高靈活度運營的效果[9-10]。其實質就是將核心網虛擬化,通過資源的集中化實現節省能源和網絡資源的效果。在規劃中設計良好的C-RAN架構,可以實現降低運營成本的同時保持良好的性能水平。
5G規劃中,要根據實際的場景需求來確定部署方案,即根據所屬區域環境條件來建設5G網絡[11]。對于景區來說,對時延與移動性要求并不高,因此景區可以采用CU-DU分離形式,CU集中在匯聚機房,形成云化池,中傳距離滿足小于40 km即可。前傳在情況允許的情況下,對于高容量業務,在密集部署的情況下,DU也可以集中放置,實現聚合的調配資源,優化網絡資源的利用率,節省能源,同時也能緩解景區機房位置短缺的問題[12]。
如圖10所示,在面向景區組網時,可以將景區基站和居民區的基站融合組網,統一由一個DU云集中管理[13],這樣的話,在計算該區域容量峰值時不需要將兩者峰值的最大值相加計算,因此DU設備在一定程度上可以得到節省。

圖10 景區與居民區融合組網圖
這樣的組網方式,對一些突發事件也有一定的承受能力。假設發生一種極端情況,如惡劣天氣等,這時所有的居民大概率都在家中,但與此同時,景區的游客也會迅速減少,這樣,雖然居民區達到網絡使用的峰值,但是因為景區人流量的減少,總體網絡占用并未達到峰值,因此DU/CU設備仍可以滿足網絡需求。
景區與居民區組網融合組網節省能源的計算公式如下:
節省能源

(9)
通過計算,本文發現這個融合組網方案相對于之前分別組網的方式,節約了5.76%的能源損耗,具有較強的應用價值。
在5G時代,能源消耗已經成了一個大問題[14],未來5G基站電費花費將是4G的數倍,這將成為運營商的沉重負擔,本文引入一種在5G規劃中新的容量預測方法,并通過旅游城市景區與居民區人流量峰值時間不同的特點,提出一種景區與居民區融合組網的方法,以統籌規劃5G站點與網絡資源,滿足運營商的節能需求。