楊飛虎,許國平,劉賢松,張碩偉,鄭敏之,施亞洲(.中國聯通網絡AI中心,上海 00050;.中國聯合網絡通信集團有限公司,北京 000;.上海聯通無線網運營中心,上海 00050)
隨著5G 和物聯網的引入[1],移動網絡越來越復雜多變,但人們對無線網絡的質量要求越來越高,這對運營商的無線網絡優化提出了新的挑戰[2]。KPI 指標直接反映了無線網絡的性能和質量,傳統的小區KPI突變檢測方法是先采集PM 和配置等數據,網絡優化工程師再根據專業知識和經驗,對各個KPI 指標分別設置閾值,觀察KPI 指標是否連續若干個小時超出閾值,來判斷KPI 指標是否存在異常[3]。但是網絡制式多樣化,用戶行為不可控,總會有部分屬于正常性突變或者偶發性波動的KPI 指標作為異常被識別出來,這種方法存在資源投入大、閾值不準確、優化不及時等問題。
小區KPI突變檢測是無線網絡優化的一個底層核心技術,是改善網絡覆蓋質量的重要手段,因此小區KPI 突變檢測在無線網絡優化工作中具有重要的指導意義[4]。傳統的小區KPI突變檢測流程如圖1所示。

圖1 傳統的小區KPI突變檢測流程圖
傳統的小區KPI突變檢測是對全網各項指標進行日常性監控,并對有問題的小區進行預處理和派單。在監控KPI 指標時,除了滿足質差小區定義及突變小區定義外,還需要同時滿足監控時間條件,如不滿足監控時間條件則繼續監控指標。通常在各項指標日常監控中,監控時間段為:09:00—24:00(15 h),并且質差或突變條件觸發后要同時滿足“6 h及以上或連續4 h”,才能觸發告警派單。如果人為設定規則過于苛刻,監控系統預處理與派單有嚴重的滯后性,網絡運維人員不能及時處理網絡質量或性能問題[5];如果規則過于寬松,可能出現因為非無線原因、正常潮汐、特殊事件等造成的正常性突變或者偶發性波動被當作KPI指標異常處理的情況。
隨著整個移動網絡系統中數據規模的指數式增加,傳統的基于“人為設置單一規則”的自動化小區KPI 突變檢測顯得力不從心[6]。現階段的網絡運維優化迫切需要一種能夠從海量運行數據中依據人工智能方法自動地獲取和更新更加可靠的規則,以實現對無線網絡質量提供強有力的保障[7-8]。
Prophet 算法是2017 年Facebook 發布的開源時序預測框架,它主要研究時序數據特征和時序變化規律,并對未來走勢進行預測[9-10]。該算法不僅能夠彌補傳統時序模型對時序數據過于局限、缺失值需要填充、模型取法靈活性等不足,而且相較于傳統的時序模型,在模型準確率以及使用者之間的互動方面具有更好的效果[11]。Prophet 算法是一個可分解的時間序列模型,它對時序數據各個特征進行分析,例如對時序數據的長期趨勢性、季節周期性、節假日效應等特征分析。Prophet 算法通過將這幾項特征擬合,累加起來得到時間序列的預測值。Prophet模型的構成如下:

式中:
g(t)——趨勢項,用來擬合時間序列的趨勢性變化
s(t)——周期性變化,一般來說是以周或者年為單位
h(t)——節假日因素造成的影響,數據中是否存在節假日
εt——誤差項,通常表示突發事件的影響
在Prophet 算法中,趨勢增長類似于種族增長。Facebook 采用了2 種增長函數,一個是基于邏輯回歸函數,另一個是基于分段線性函數。
基于分段線性函數的趨勢:
式中:
k——增長率
δ——增長率的變化量(適應率)
m——偏移量參數
γ——讓函數連續
基于邏輯回歸函數的非線性趨勢:

其中,C(t),k(t),m(t)是隨著時間t變化的函數,a(t)=(a1(t),...,aS(t))T,δ=(δ1,...,δS)T,γ=(γ1,...,γS)T。
時間序列通常隨著天、周、月、年等周期性的變化而呈現周期性的變化,在數學分析中,區間內的周期性函數是可以通過正弦和余弦函數來表示。在Proph?et算法中,使用傅里葉級數來模擬時間序列的周期性。傅里葉級數的形式如下:

式中:
P——時間序列的周期,如P=365.25 表示以年為周期,P=7表示以周為周期
Prophet的周期函數如下:

其中,

參數向量β初始化為β~Normal(0,σ2)。
通過Prophet 訓練模型的時序分解方法,將KPI 指標分解為3項:趨勢項、周期項和誤差項,針對趨勢、周期特征分量,建立Prophet 模型進行預測。流程如圖2所示。

圖2 基于Prophet時序算法的小區KPI突變檢測流程
a)將實際KPI 指標值與各分量的預測值相減獲得隨機序列,隨機序列的標準差和各分量的預測值合成得到KPI指標的動態門限。
b)在絕對門限和動態門限之間設置相對門限,來設定異常KPI指標等級。
c)通過判斷KPI 數值是否超過相對門限,來判定該KPI指標是不是發生異常。
Prophet 算法在預測過程中,能夠通過調整轉折點平臺參數自動探測到轉折點。對歷史KPI指標發生異常的數據進行調整,減少對KPI指標歷史規律的影響,這樣可以使預測結果更加靈活、平滑。
a)首先采用Prophet 模型訓練的時序數據分解方法,將歷史KPI 指標數據St分解成趨勢項trendt、周期項(dailyt,weeklyt)和誤差項ε。
b)將分解出的趨勢 trendt和周期項(dailyt,weeklyt),采用Prophet 模型預測獲得第t+3 天趨勢預測值 trendt+3和周期預測值(dailyt+3,weeklyt+3)。
c)將上述趨勢預測值trendt+3、周期預測值(dailyt+3,weeklyt+3)和誤差項ε集成得到第t+3 天小區KPI 指標的預測值St+3,St+3=trendt+3+dailyt+3+weeklyt+3+ε。
根據中心極限定理,如果一個事物受到多種因素的影響,不管每個因素本身是什么分布,它們疊加后結果的平均值呈現正態分布。因此實際值與預測值的差值即隨機序列呈現正態分布。正態分布的標準反映了組內個體間的離散程度。如一個較大的標準差,表示大部分的數值和其平均值之間差異較大;一個較小的標準差,代表這些數值較接近平均值。
a)將歷史KPI指標數據St與趨勢預測值trendt、周期預測值(dailyt,weeklyt)相減得到隨機序列Rt,Rt呈現正態分布,Rt=St-trendt-dailyt-weeklyt。
b)隨機序列Rt的標準差反映了實際KPI 指標與KPI 指標預測的離散程度,計算隨機序列Rt的標準差。
c)將第t+3 天小區KPI 指標的預測值St+3與隨機序列Rt的標準差σ進行集成得到第t+3天小區KPI指標的動態門限d_threst+3,d_threst+3=St+3+σ。
a)公司對各個KPI 指標的健康度閾值有明確的要求,如4G 接通率不能低于90%,4G 掉話率不能高于5%等等。根據KPI指標的健康度閾值,設置絕對門限a_thres。
b)落在動態門限和絕對門限之間的數據不一定很差。通過設置相對門限r_thres,來控制派單量以及KPI 指標異常程度。相對門限設置10 個等級,等級越大,相對門限越大,落在相對門限和絕對門限之間的概率越小,KPI 指標越接近于絕對門限,KPI 指標異常越嚴重;等級越小,相對門限越小,落在相對門限和絕對門限之間的概率越大,派單量也會越多。設相對門限等級為β。

本文所采用的數據集來自某省網優某小區過去連續28 天的KPI 指標,數據集中包含日期、4G 接通率等信息。在對原始數據分析的過程中,發現數據中存在格式的不一致性、空缺值和無用信息等噪聲數據,這些噪聲數據將會不利于模型的訓練,需要對原始數據進行預處理。
數據格式。原始數據集中包含很多KPI 指標,本文實驗只是使用4G 接通率,因此需要對其他KPI指標進行過濾。在保證原始數據完整性和準確性的同時,對原始數據格式進行轉換,以滿足算法模型對數據的要求。
空缺值處理。原始數據中存在空缺值,如4G接通率在某一天的某個時刻沒有數值。本文采用上下均值替代法,即用空缺值時刻的上個時刻數據和下個時刻數據的均值來填補缺失的KPI指標數據。經過一系列對原始數據的分析與處理,得到適合模型訓練的標準、連續的數據集。
Prophet 本質上是一種可分解的加法回歸模型,即按時序特征可將時序數據分解為非周期性變化的趨勢項、天或周的季節周期項和節假日效應等。因此,Prophet 模型可以靈活地對各時序特征的參數進行設置,這些參數值的大小分別表示各個特征對模型預測結果的貢獻度。通過分析模型的訓練結果,可以調節各特征的參數,以便進一步提升預測精確度。本文使用的Prophet算法的部分參數說明如表1所示。
5.4.1 Prophet算法預測結果與分析
如圖3 所示,黑點表示某小區4G 接通率的真實數據,藍線表示預測值。從預測結果可以看出,模型對歷史數據有較好的擬合,自動調整歷史4G接通率數據中的異常點,減小異常點對擬合曲線的影響,預測結果較好地擬合了大部分歷史數據的規律,并對未來3天的數據進行預測,可以發現模型對KPI 指標歷史規律的預測比較準確。而且相較于傳統小區KPI突變檢測方法,能夠對未來3天的KPI指標趨勢進行預測。

表1 模型的參數

圖3 4G接通率KPI指標預測值
5.4.2 動態門限結果分析
如圖4 所示,淺藍色部分表示某小區4G 接通率預測結果的動態門限。動態門限包含了大部分的真實值,在動態門限內的數值都屬于正常KPI指標,而超過動態門限的數值則屬于異常KPI指標。相較于傳統小區KPI 突變檢測方法,動態門限更容易發現不符合歷史規律的KPI數值,值得運維人員重點關注。
5.4.3 相對門限與絕對門限結果分析
如圖5 所示,較深藍色部分表示某小區4G 接通率預測結果的相對門限,深藍色部分表示預測結果的絕對門限。相對門限將動態門限和絕對門限之間的數據進一步篩選,選取1 級相對門限,異常KPI 數據減少了20%。因此,相對門限對異常KPI 數據有進一步的篩選作用,幫助運維人員關注KPI 數據異常程度更高的時刻。

圖4 動態門限

圖5 相對門限與絕對門限
5.4.4 不同等級相對門限分析
如圖6 和圖7 所示,超過等級1 相對門限的KPI 數值有8 個,而超過等級3 相對門限的KPI 數值只有5個。因此,不同等級的相對門限,可以人為控制KPI指標異常數量,減少預警次數。

圖6 等級1相對門限

圖7 等級3相對門限
如表2 所示,某小區4G 接通率從2020 年6 月3 日9 點開始發生異常,從11 點到14 點連續低于相對門限但未低于絕對門限,直到17 點4G 接通率突然惡化,直接低于絕對門限,降到74%。可以發現模型對KPI 指標突然惡化有明顯的預警作用,如果運維人員能夠在2020年6月3日9點到14點找到4G接通率KPI指標異常原因,那么17 點就不會發生4G 接通率突然惡化,也不會造成用戶投訴。

表2 2020年6月3日4G接通率實際值與3個門限
目前該方法已經在某省聯通無線網運營中心進行試點使用,根據“區域”模塊可選擇全網小區、重點場景、網格、區縣分公司等指定區域,通過時間和相對門限等級選擇,可以自動對比絕對門限篩選出不同KPI 的TOP 小區,便于后臺指標監控人員實時掌握不同區域的KPI突變情況(見圖8)。

圖8 無線網絡突變小區智能識別應用
通過點擊任意KPI指標表盤中的“超過動態門限”區域,可顯示出超過動態門限的TOP 小區具體分析結果及指標變化趨勢圖,隨時掌握TOP 小區指標突變時刻及歷史趨勢。
本文構建了一種基于Prophet 時序算法的無線網絡突變小區識別方法,對突變小區KPI指標進行識別,實驗結果表明,該方法將KPI指標歷史數據擬合,可發現歷史KPI指標的分布規律,通過動態門限、相對門限和絕對門限精確地識別突變KPI 指標,使運維人員及時掌握網絡性能,降低誤報和錯報異常,提升網絡優化效率和質量。目前,該方法是對4G 網絡KPI指標進行突變檢測,將來還可以應用到對5G 網絡KPI指標突變檢測。后續工作將考慮多維度KPI 指標關聯和KPI突變根因定位等,探索更加準確、適應范圍更廣的預測模型。