


摘要:隨著移動(dòng)互聯(lián)網(wǎng)行業(yè)的高速發(fā)展,無線網(wǎng)絡(luò)業(yè)務(wù)量呈爆發(fā)式增長(zhǎng),網(wǎng)絡(luò)壓力突增,傳統(tǒng)模式下高度依賴人工靜態(tài)配置基站軟硬件能力,難以長(zhǎng)時(shí)間適配當(dāng)前業(yè)務(wù)需求。同時(shí),面對(duì)海量歷史業(yè)務(wù)數(shù)據(jù),缺乏智能化精確小區(qū)業(yè)務(wù)趨勢(shì)評(píng)估能力,無法對(duì)網(wǎng)絡(luò)容量保障與擴(kuò)容做出提前投資預(yù)判,難以保障運(yùn)營(yíng)商小區(qū)業(yè)務(wù)健康發(fā)展。該文基于時(shí)序模型統(tǒng)一語(yǔ)言模型UniLM(Unified Language Model),建立了小區(qū)級(jí)未來流量長(zhǎng)時(shí)間預(yù)測(cè)方案,旨在賦能網(wǎng)絡(luò)優(yōu)化領(lǐng)域快速定位高低業(yè)務(wù)量區(qū)域。
關(guān)鍵詞:容量預(yù)測(cè);UniLM;TRMF;平均值偏差;人工智能
doi:10.3969/J.ISSN.1672-7274.2024.12.004
中圖分類號(hào):TP 311.13" " " " " " 文獻(xiàn)標(biāo)志碼:A" " " " " " 文章編碼:1672-7274(2024)12-00-03
網(wǎng)絡(luò)容量預(yù)測(cè)主要方式是基于歷史流量數(shù)據(jù)對(duì)未來流量數(shù)據(jù)進(jìn)行預(yù)測(cè)。傳統(tǒng)的人工預(yù)測(cè)方法準(zhǔn)確率低、效率低,同時(shí)高度依賴人工經(jīng)驗(yàn),試錯(cuò)成本較高,導(dǎo)致網(wǎng)絡(luò)需求與實(shí)際建設(shè)水平差距甚遠(yuǎn)。為了引入一套智能化、精準(zhǔn)化目標(biāo)區(qū)域流量評(píng)估工具,更準(zhǔn)確地預(yù)測(cè)小區(qū)未來長(zhǎng)期的流量業(yè)務(wù)需求,本文基于江蘇移動(dòng)網(wǎng)優(yōu)大數(shù)據(jù)平臺(tái)相關(guān)數(shù)據(jù),在網(wǎng)絡(luò)流量預(yù)測(cè)領(lǐng)域引入時(shí)序模型UniLM(Unified Language Model),利用其中的生成式預(yù)訓(xùn)練方式,讓模型從歷史流量數(shù)據(jù)中學(xué)習(xí)流量分布規(guī)律,并應(yīng)用于未來目標(biāo)區(qū)域的流量預(yù)測(cè),為站點(diǎn)建設(shè)和資源管理提供精準(zhǔn)規(guī)劃的手段和依據(jù),助力網(wǎng)絡(luò)優(yōu)化數(shù)字化轉(zhuǎn)型。
1" "技術(shù)解決方案
1.1 容量預(yù)測(cè)樣本構(gòu)建
本研究的目標(biāo)是通過目標(biāo)小區(qū)60天的歷史流量數(shù)據(jù)預(yù)測(cè)未來150天的流量數(shù)據(jù),每天的流量數(shù)據(jù)就是一個(gè)時(shí)間序列,其中包含了8個(gè)特征,包含節(jié)假日、工作日等時(shí)間信息。引入以上時(shí)間信息可以使得模型學(xué)習(xí)相關(guān)特征,并充分挖掘時(shí)間特性對(duì)流量的影響因子,實(shí)現(xiàn)對(duì)未來業(yè)務(wù)規(guī)律的抓取。
1.2 時(shí)序矩陣分解算法[1]缺失值填充
在處理容量預(yù)測(cè)數(shù)據(jù)時(shí),有些小區(qū)存在某段時(shí)間的流量值缺失的情況,因此需要對(duì)缺失值在一定數(shù)量以下的小區(qū)進(jìn)行數(shù)據(jù)填充,以提升預(yù)測(cè)模型的性能。而本研究選擇時(shí)序矩陣分解算法TRMF[2]作為填充方式(Temporal Regularized Matrix Factorization)。
通過梯度下降算法對(duì)TRMF損失函數(shù)L進(jìn)行求解,訓(xùn)練W、X、參數(shù),當(dāng)模型損失值收斂,選取驗(yàn)證集指標(biāo)最好的模型。基于訓(xùn)練好的模型的W、X、參數(shù),通過式(4)能夠預(yù)測(cè)出缺失值處對(duì)應(yīng)的任意小區(qū)的流量值。
相較于傳統(tǒng)的線性填充,TRMF輸出的缺失值填充分布更接近于實(shí)際值。
1.3 容量預(yù)測(cè)模型搭建
UniLM[3]神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和BERT(Bidirectional Encoder Representations from Transformers)一致,只是在做自注意力計(jì)算時(shí),在掩碼部分使用了一些技巧,使得其既可以和BERT一樣做自注意力計(jì)算,又具有一定的生成功能,高度匹配小區(qū)流量預(yù)測(cè)所需的特性。
模型的輸入是小區(qū)60天歷史流量數(shù)據(jù),即60個(gè)時(shí)間序列,每個(gè)時(shí)序有8個(gè)時(shí)間特征值,那么小區(qū)60天的歷史序列就形成了一個(gè)維度為[60, 8]的矩陣,設(shè)此矩陣為A,A矩陣分別通過三個(gè)全連接層Dense,三個(gè)全連接層的輸出分別為Q、K、V三個(gè)矩陣,形狀和A矩陣相同,接著計(jì)算scores:
2" "模型評(píng)估
2.1 訓(xùn)練集與驗(yàn)證集
本研究選取常州市小區(qū)為流量數(shù)據(jù)采集區(qū)。對(duì)于常州4G小區(qū),流量值數(shù)據(jù)統(tǒng)計(jì)時(shí)間范圍從2020年8月11日至2022年6月30日,每個(gè)小區(qū)選取681個(gè)流量值;對(duì)于常州5G小區(qū),流量值數(shù)據(jù)統(tǒng)計(jì)時(shí)間范圍從2021年1月1日至2022年6月30日,每個(gè)小區(qū)選取545個(gè)流量值。
容量預(yù)測(cè)是以60天的歷史流量值序列來預(yù)測(cè)未來150天的流量值序列,那么每個(gè)樣本的序列長(zhǎng)度為210,在利用滑窗在原始數(shù)據(jù)上截取樣本時(shí),每個(gè)4G小區(qū)總數(shù)據(jù)長(zhǎng)度為681,能夠截取到462條樣本,每個(gè)5G小區(qū)總數(shù)據(jù)長(zhǎng)度為545,能夠截取到326條樣本。
每個(gè)小區(qū)樣本的前85%數(shù)據(jù)用于訓(xùn)練,后15%數(shù)據(jù)用于驗(yàn)證訓(xùn)練模型的準(zhǔn)確性。
2.2 數(shù)據(jù)缺失值分類填充
常州市的每個(gè)小區(qū)流量值缺失的個(gè)數(shù)不一致,因此將缺失值劃分為5類:無缺失值;缺失值在0~10天內(nèi);缺失值在10~20天內(nèi);缺失值在20~30天內(nèi);缺失值在30天以上。
在以上5種情況中,對(duì)無缺失值的小區(qū)不做處理,并且因缺失數(shù)據(jù)過多過濾掉缺失值在30天以上的小區(qū)。
2.3 評(píng)價(jià)指標(biāo)
每個(gè)小區(qū)的流量值的數(shù)據(jù)分布規(guī)律不同,為了避免模型難以有效學(xué)到數(shù)據(jù)的分布規(guī)律,每個(gè)小區(qū)單獨(dú)訓(xùn)練與預(yù)測(cè)。
對(duì)于訓(xùn)練完成的模型,通過計(jì)算模型在測(cè)試集上的預(yù)測(cè)結(jié)果來評(píng)價(jià)模型的性能,而預(yù)測(cè)結(jié)果的計(jì)算方式采用平均值偏差。
平均值偏差的顆粒度有:整體(150)/月粒度(30)、周粒度(7)。本案例模型的評(píng)估采用周粒度,并設(shè)置閾值,如果平均值偏差小于閾值,則認(rèn)為該樣本的預(yù)測(cè)是正確的,否則是錯(cuò)誤的。
2.4 結(jié)果評(píng)估
基于常州市76 229個(gè)小區(qū)和11 137個(gè)同覆蓋扇區(qū),模型針對(duì)其歷史4G/5G流量數(shù)據(jù)及相關(guān)特征經(jīng)訓(xùn)練后在驗(yàn)證集上對(duì)未來150天的流量進(jìn)行了預(yù)測(cè)。
由4G/5G同覆蓋扇區(qū)流量預(yù)測(cè)不同顆粒度下的平均值偏差準(zhǔn)確率得出,常州市預(yù)測(cè)整體準(zhǔn)確率4G/5G均已達(dá)到85%以上,達(dá)到該項(xiàng)目流量時(shí)序預(yù)測(cè)的準(zhǔn)確率要求。
3" "模型評(píng)估
3.1 試點(diǎn)選取
本研究選取江蘇省13個(gè)地市下轄98個(gè)區(qū)縣作為試點(diǎn)區(qū)域,涉及4G網(wǎng)絡(luò)小區(qū)約80萬個(gè),5G網(wǎng)絡(luò)小區(qū)約20萬個(gè)。因?yàn)檎w試點(diǎn)效果涉及內(nèi)容篇幅較多,本文以常州市、丹陽(yáng)市試點(diǎn)效果為例作展示。
3.2 常州市未來流量預(yù)測(cè)
基于常州市76 229個(gè)小區(qū)和11 137個(gè)同覆蓋扇區(qū),以常州市小區(qū)的數(shù)據(jù)集中最后的60天作為輸入(所有小區(qū)流量相加),最后一天統(tǒng)計(jì)的日期為2022/06/30,目標(biāo)為讓模型預(yù)測(cè)未來的150天流量數(shù)據(jù),日期范圍為2022/07/01~2022/11/27。
采用通過統(tǒng)計(jì)到的實(shí)際數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)的評(píng)估指標(biāo)計(jì)算得出,常州市4G/5G流量預(yù)測(cè)的整體準(zhǔn)確率均已達(dá)到80%以上。
4" "推廣價(jià)值
4.1 流量精準(zhǔn)預(yù)測(cè)
基于小區(qū)歷史數(shù)據(jù),可以提供該小區(qū)未來150天的流量預(yù)測(cè)值,基于驗(yàn)證集判斷預(yù)測(cè)準(zhǔn)確率超過80%。相較于傳統(tǒng)人工預(yù)測(cè)手段,該方法可以更準(zhǔn)確地為未來小區(qū)或基站業(yè)務(wù)量水平提供參考數(shù)據(jù),為區(qū)域內(nèi)基站以及其他通信資源的規(guī)、建、維、優(yōu)提供智能化建議及指導(dǎo)。
4.2 智能化評(píng)估
智能化實(shí)現(xiàn)載頻相關(guān)的基帶、射頻、光口等硬件資源的全面評(píng)估,輸出硬件資源“拆閑補(bǔ)忙”的優(yōu)化配置整合方案,幫助網(wǎng)絡(luò)運(yùn)維人員定準(zhǔn)定位流量高負(fù)荷與低負(fù)荷區(qū)域,可以按需合理分配通信資源,推動(dòng)網(wǎng)絡(luò)優(yōu)化領(lǐng)域的數(shù)字化轉(zhuǎn)型。
4.3 激發(fā)流量增益
通過業(yè)務(wù)量預(yù)測(cè),實(shí)現(xiàn)高負(fù)荷擴(kuò)容的提前性,達(dá)到及時(shí)吸收高流量的效果,可對(duì)高負(fù)荷小區(qū)提升流量增益5%。
5" "結(jié)束語(yǔ)
本研究應(yīng)用了基于TRMF的缺失值填充算法和基于UniLM生成式預(yù)訓(xùn)練方式的時(shí)序預(yù)測(cè)模型,通過利用歷史流量數(shù)據(jù)預(yù)測(cè)未來的網(wǎng)絡(luò)流量,通過自注意力掩碼機(jī)制,使得每個(gè)時(shí)序的預(yù)測(cè)值都能夠用于下一次的預(yù)測(cè),通過模型評(píng)估和應(yīng)用案例證明了該方法在無線網(wǎng)絡(luò)業(yè)務(wù)量預(yù)測(cè)方面的高效性和準(zhǔn)確性。研究的結(jié)果不僅為網(wǎng)絡(luò)容量保障與擴(kuò)容提供了有力的數(shù)據(jù)支持,也展示了人工智能在大數(shù)據(jù)浪潮下在網(wǎng)優(yōu)領(lǐng)域的巨大應(yīng)用潛力。
參考文獻(xiàn)
[1] Yu H F, Rao N, Dhillon I S. Temporal regularized matrix factorization for high-dimensional time series prediction[J].Advances in neural information processing systems,2016(29):102-105.
[2] 曹超凡,李路.基于TRMF-LSTM組合模型的多維時(shí)間序列預(yù)測(cè)[J].軟件導(dǎo)刊,2022(9):45-51.
[3] 朱磊,皎玖圓,張亞玲,等.一種基于Unilm優(yōu)化語(yǔ)言模型的中文問題生成方法[P].中國(guó)專利:11432885.3,2022-04-12.