葉曉斌,姚麗紅,劉惜吾,馬丹丹,程亞鋒(中國聯(lián)通廣東分公司,廣東廣州 510627)
2019年6月6日中國聯(lián)通獲頒5G運(yùn)營牌照,5G網(wǎng)絡(luò)的建設(shè)和商用進(jìn)一步提速。廣東聯(lián)通作為5G 的先發(fā)城市,到2019 年底預(yù)計(jì)全省開通10 000 個(gè)以上5G站點(diǎn)。
5G 網(wǎng)絡(luò)建設(shè)的推進(jìn),促使網(wǎng)絡(luò)規(guī)模不斷擴(kuò)大、網(wǎng)絡(luò)復(fù)雜度不斷提升,2G/3G/4G/5G 四代同堂,故障修復(fù)越來越難。與此同時(shí),傳統(tǒng)的維護(hù)手段和工具,如性能監(jiān)控、告警類應(yīng)用通常處理的數(shù)據(jù)量較小、數(shù)據(jù)相關(guān)性分析不足、故障前瞻性預(yù)測不夠。對5G網(wǎng)絡(luò)和業(yè)務(wù)的運(yùn)行狀況進(jìn)行持續(xù)有效的監(jiān)控,迅速實(shí)現(xiàn)故障恢復(fù)是5G業(yè)務(wù)保障的重要工作。
AI 技術(shù)誕生于20 世紀(jì)中葉,幾經(jīng)沉浮,近年來借助現(xiàn)代計(jì)算和數(shù)據(jù)存儲(chǔ)技術(shù)的迅猛發(fā)展再次復(fù)興,凡是給定場景涉及到了數(shù)據(jù)的統(tǒng)計(jì)、推斷、擬合、優(yōu)化及聚類,AI 均能找到其典型應(yīng)用。目前,AI 應(yīng)用已經(jīng)滲透到語音識別、圖片識別、視頻識別等技術(shù)領(lǐng)域,覆蓋行業(yè)包括車聯(lián)網(wǎng)、物聯(lián)網(wǎng)、互聯(lián)網(wǎng)等。
AI 技術(shù)為5G 網(wǎng)絡(luò)運(yùn)維面臨的挑戰(zhàn)提供了一種超越傳統(tǒng)理念與性能的可能,已成為業(yè)界重點(diǎn)關(guān)注的研究方向,3GPP、ITU 等組織均提出了5G 與AI 相結(jié)合的研究項(xiàng)目。AI 取代緩慢易錯(cuò)的人力決策部分,快速給出決策建議或提前規(guī)避故障,基于AI的運(yùn)維創(chuàng)新將大大提升網(wǎng)絡(luò)運(yùn)維效率。
廣東聯(lián)通2018 年底啟動(dòng)“5G+AI 項(xiàng)目組”,選取基站及回傳網(wǎng)的主要故障場景進(jìn)行了詳盡的分析,提出了基于AI的基站及回傳網(wǎng)故障定因解決方案,方案主要包括三大部分。
a)資源管理:通過移動(dòng)回傳網(wǎng)與基站的資源動(dòng)態(tài)關(guān)聯(lián),實(shí)時(shí)感知業(yè)務(wù)狀態(tài)。
b)事件推理:基于設(shè)備日志的學(xué)習(xí)及抓取,還原網(wǎng)絡(luò)中的關(guān)聯(lián)事件,提供最佳搶修建議。
c)根因定位:對關(guān)聯(lián)事件中的關(guān)鍵信息進(jìn)行學(xué)習(xí),由專家進(jìn)行標(biāo)注,直達(dá)故障根源。
廣東聯(lián)通目前無線基站數(shù)量已經(jīng)超過12萬,作為回傳網(wǎng)的IPRAN 設(shè)備數(shù)也已經(jīng)超過3萬,隨著5G 網(wǎng)絡(luò)建設(shè)的進(jìn)一步加快,網(wǎng)元數(shù)量會(huì)更多。按照傳統(tǒng)的資源管理模式,廣東聯(lián)通要安排至少22個(gè)專職的工程師進(jìn)行網(wǎng)絡(luò)資源數(shù)據(jù)的管理。
作為整個(gè)方案的基礎(chǔ),提出通過基于基站與回傳網(wǎng)的信令鏈監(jiān)測,實(shí)現(xiàn)資源自動(dòng)關(guān)聯(lián),同時(shí)做到4G/5G基站的自動(dòng)識別,在故障處理時(shí)強(qiáng)化業(yè)務(wù)感知能力。基站和回傳網(wǎng)資源數(shù)據(jù)的自動(dòng)識別為AI 算法在事件推理和根因分析中的應(yīng)用提供必備的基礎(chǔ)。
目前IPRAN 網(wǎng)絡(luò)中對基站的地址管理,網(wǎng)絡(luò)部署方案采用L2VPN+L3VPN(簡稱L2+L3)和L3VPN+L3VPN(簡稱L3+L3)2 種,在不同的網(wǎng)絡(luò)部署方案中,基站的網(wǎng)關(guān)會(huì)配置在不同角色的設(shè)備上,其中L2+L3組網(wǎng)的基站網(wǎng)關(guān)配置在匯聚設(shè)備ASG,L3+L3 組網(wǎng)中基站網(wǎng)關(guān)配置在CSG上。
L2+L3基站發(fā)現(xiàn)流程如圖1所示。
a)無線側(cè):通過FTP 服務(wù)器獲取無線基站相關(guān)信息,包括基站名稱、MAC、IP地址、GPS信息等。
b)IPRAN 側(cè):采集所有基站的MAC 地址、IP 地址,采集ASG 至CSG PW 的連接信息,構(gòu)建CSG 與基站MAC的關(guān)系。
c)無線側(cè)與IPRAN 跨專業(yè)關(guān)聯(lián):通過基站MAC與IP把無線的基站信息與IRPAN的CSG進(jìn)行關(guān)聯(lián)。
L3+L3基站發(fā)現(xiàn)流程如圖2所示。

圖1 L2+L3基站發(fā)現(xiàn)流程

圖2 L3+L3基站發(fā)現(xiàn)流程
a)無線側(cè):通過FTP 服務(wù)器獲取無線基站相關(guān)信息,包括基站名稱、MAC、IP地址、GPS信息等。
b)IPRAN 側(cè):采集所有基站的MAC 地址、IP 地址,構(gòu)建CSG與基站MAC的關(guān)聯(lián)關(guān)系。
c)無線側(cè)與IPRAN 跨專業(yè)關(guān)聯(lián):通過基站MAC與IP把無線的基站信息與IRPAN的CSG進(jìn)行關(guān)聯(lián)。
以廣東某地(市)為例,通過上述方式發(fā)現(xiàn)的基站占比到達(dá)98%,準(zhǔn)確度100%。
研究發(fā)現(xiàn),基站如支持新一代發(fā)現(xiàn)協(xié)議,如LLDP,系統(tǒng)可以通過60 s 刷新的粒度進(jìn)行監(jiān)測,滿足后續(xù)分析的需要。
基于基站及回傳網(wǎng)設(shè)備的資源信息,系統(tǒng)可以快速收集全量網(wǎng)絡(luò)日志信息,并通過AI算法實(shí)現(xiàn)事件推理,最大程度地還原網(wǎng)絡(luò)發(fā)生的事件,從而給出最佳的搶修建議。事件推理通過離線分析積累故障經(jīng)驗(yàn)庫,通過在線分析推理出故障原因。系統(tǒng)架構(gòu)如圖3 所示。

圖3 事件推理技術(shù)架構(gòu)
日志量、模塊數(shù)異常檢測:以5 min 的顆粒度對日志量以及模塊數(shù)以3σ準(zhǔn)則進(jìn)行異常數(shù)量檢測,假設(shè)當(dāng)前時(shí)刻t6 的日志量和模塊數(shù)分別為N6 和C6,分別計(jì)算出前6 個(gè)周期(t0~t5)的日志量和模塊數(shù)的均值u1、u2和方差σ1、σ2,若(|N6-u1|>3 σ1)and(|C6-u2|>3σ2)則判定此時(shí)刻的日志為疑似異常,觸發(fā)日志異常檢測模塊。
日志截取:基于日志量、模塊數(shù),對疑似異常時(shí)間段取前后5 min 日志進(jìn)行截取分析。對日志以10 s 時(shí)間粒度為界限,以滑動(dòng)窗口方式進(jìn)行截取,若10 s內(nèi)出現(xiàn)新的日志窗口繼續(xù)后延10 s,直至無日志出現(xiàn)。
如將09:30:39 的數(shù)據(jù)進(jìn)行合并,10 s 內(nèi)的日志歸并為同一事件所產(chǎn)生的日志,即09:30:39—09:30:43的日志為同一個(gè)事件的日志。同理09:31:09—9:31:11的日志共4條為同一事件的日志。
基于日志內(nèi)容NLP 異常檢測:基于歷史日志,使用異常檢測算法Autoencoder 對截取的日志內(nèi)容進(jìn)行異常檢測,判斷日志內(nèi)容是否為異常。該方法采用autoencoder 作為編解碼器,分別為編碼encoder 與解碼decoder,其中encoder 和decoder 分別有2 層,其中encoder參數(shù)分別為16維、8維,decoder參數(shù)分別為8維、16維,輸入one-hot編碼的文本。
日志分類模型:若檢測日志內(nèi)容為異常,利用離線訓(xùn)練好的分類模型,對日志內(nèi)容進(jìn)行類別區(qū)分。
故障推理:故障推理是根據(jù)故障日志類別與故障經(jīng)驗(yàn)庫進(jìn)行比較,識別出故障類型,并根據(jù)日志中關(guān)鍵信息,提取出故障主體信息,從而繪制出完整的故障事件。
系統(tǒng)通過對日志信息的提取和分析,對關(guān)聯(lián)事件中的關(guān)鍵信息進(jìn)行學(xué)習(xí),并由專家進(jìn)行標(biāo)注,直達(dá)故障根源。
以日志The physical status of the port changed to Down.(EntPhysicalName=“GigabitEthernet0/5/0”,hw-PortDownReason=“LOS”)為例:
a)提取日志模板:將檢測出異常的日志,轉(zhuǎn)換為數(shù)字詞典的形式,同一類日志對應(yīng)同一個(gè)數(shù)字,并提取其中變量,如案例日志提取為:[日志1,“GigabitEthernet0/5/0”,“LOS”]。
b)抽取重要日志:由專家進(jìn)行標(biāo)注訓(xùn)練二分類模型,實(shí)現(xiàn)抽取性文本摘要功能,抽取出能反映根因的日志,并按照日志手冊返回時(shí)間、可能原因以及處理意見。
c)工程師注解:光丟失,建議派單至傳輸專業(yè)。
以廣東某地(市)2019 年3 月25 日發(fā)生雙開故障為例,通過該方法快速感應(yīng)到故障所在位置,并且快速得出故障根因。
通過移動(dòng)回傳網(wǎng)與基站的資源動(dòng)態(tài)關(guān)聯(lián)快速感應(yīng)到故障所在位置(見圖4)。

圖4 故障所在環(huán)路拓?fù)鋱D
3.2.1 流量異常告警
環(huán)路中的ASG 設(shè)備接口GigabitEthernet4/0/4 從2019-03-25T14:15就開始陸續(xù)出現(xiàn)流量異常告警。
3.2.2 日志異常告警
系統(tǒng)實(shí)時(shí)檢測環(huán)路中的設(shè)備,以5 min的顆粒度對日志量以及模塊數(shù)以3σ準(zhǔn)則進(jìn)行異常數(shù)量檢測,發(fā)現(xiàn)設(shè)備10.28.74.14在2019-03-25的14:15和14:50都有日志預(yù)警,該設(shè)備日志數(shù)量環(huán)比上升2 266%,日志成分?jǐn)?shù)量環(huán)比上升466.6%,超過3σ 準(zhǔn)則動(dòng)態(tài)閾值,判定此時(shí)刻的日志為異常。此外算法還監(jiān)控到設(shè)備10.28.74.11 在2019-03-25 的14:50、設(shè)備10.28.74.19在2019-03-25的15:40均有日志異常。
上述算法識別出來的異常事件點(diǎn)的日志進(jìn)一步模板格式化,為每一條日志打上分類標(biāo)簽,并分配一個(gè)離線訓(xùn)練好的模板ID,調(diào)用日志內(nèi)容NLP 異常檢測算法Autoencoder,檢測到設(shè)備10.28.74.14 日志的還原誤差是918.2828993、設(shè)備10.28.74.22 日志的還原誤差是908.7424327、設(shè)備10.28.74.11 日志的還原誤差是595.5569471,還原誤差均超過誤差閾值50(經(jīng)驗(yàn)設(shè)定值)。
系統(tǒng)通過算法Autoencoder 分析出<10.28.74.14>、<10.28.74.22>、<10.28.74.11>3 臺(tái)設(shè)備日志有異常。同時(shí),捕捉到<10.28.74.14>設(shè)備在2019-03-25T14:17:18 有環(huán)口鏈路中斷日志,在2019-03-25T17:07:34有環(huán)口鏈路中斷恢復(fù)日志;捕捉到<10.28.74.22>設(shè)備在2019-03-25T14:49:00 有環(huán)口鏈路中斷日志,在2019-03-25T15:38:32 有環(huán)路鏈路恢復(fù)日志;算法捕捉到<10.28.74.11>設(shè)備在2019-03-25T14:49:00 有環(huán)口鏈路中斷日志,在2019-03-25T15:38:32 有環(huán)路鏈路恢復(fù)日志。
根據(jù)捕捉到的異常日志中的關(guān)鍵信息,結(jié)合故障主體信息,從而繪制出完整的故障事件。
與故障經(jīng)驗(yàn)庫進(jìn)行比較,進(jìn)一步推理識別出故障類型,分析該故障的根因?yàn)殒溌冯p開:2019-03-25T04:49,某地(市)AR**環(huán)路雙開引起大面積斷站。
基于研究的成果,先后在廣東聯(lián)通多個(gè)地(市)進(jìn)行測試驗(yàn)證,試點(diǎn)應(yīng)用情況如下。
2019 年5 月在廣東某地(市)開始試用,完成2 次搶修驗(yàn)證,搶修優(yōu)先級統(tǒng)籌時(shí)間由30 min 大幅縮減至3 min,提速90%。
對于故障的定因分析,2019 年5 月開始某地(市)試點(diǎn),在線監(jiān)測分析22 個(gè)接入環(huán)、200 臺(tái)設(shè)備的日志,基于日志對歷史故障離線驗(yàn)證5 次,跟工程師驗(yàn)證效果吻合,準(zhǔn)確率100%。
綜上所述,基于AI 的基站及回傳網(wǎng)故障定因方案,可以借助AI 算法和IT 系統(tǒng)的能力,切實(shí)解決困擾運(yùn)維部門的維護(hù)難題,為廣東聯(lián)通在5G網(wǎng)絡(luò)運(yùn)維提供了高效可行的技術(shù)手段,有望在未來的5G網(wǎng)絡(luò)運(yùn)維中大幅提升工作效率和降低運(yùn)營成本。