李海昕 張嬌嬌 王 雨 王 一
中國聯通研究院 北京 100176
運營商在進行網絡規劃及部署方面,終端分布是一個不可或缺的重要因素。隨著5G的正式商用,5G終端的相關數據也得到一定的積累。深入挖掘終端數據背后的信息,利用大數據技術和手段指導規劃工作是大勢所趨,也是數字化轉型時代的要求。大數據處理和分析為網絡規劃提供了新的維度,也為精準網絡規劃提供了新的可能。通過對終端相關的業務數據進行地理化分析,合理評估站點規劃的優先級,對于有效觸達亟待5G網絡部署的區域,引導資源的準確投放有一定的指導意義。因此,在5G網絡規劃部署中,如何精準預測潛在5G終端用戶、準確聚焦其分布的高流量、高語音區域具有重要意義。在此背景下,潛在5G終端用戶的預測對存量用戶經營以及端、網、業協同規劃發展具有重要的作用。
本文使用用戶側B域、O域、終端更換以及用戶行為等數據,篩選對5G終端遷轉影響較大的特征,進行二分類建模,確定最優模型。將現網待預測用戶輸入至最優模型中,獲取潛在5G終端用戶列表,作為目標5G終端用戶,根據潛在5G用戶的詳單數據統計在不同微網格、基站等地理維度的業務分布以及人口密度情況,為5G網絡的規劃建設提供數據支撐。
5G商用初期,5G終端用戶樣本較少,不足以支撐模型構建,文獻[1]利用趨勢外推的方法對5G用戶及業務量進行預測。文獻[2]開始考慮5G用戶特征,但只能基于專家經驗下的數據分析得到。隨著用戶滲透率的增加,5G終端用戶的業務特征有所變化,同時考慮到千元機上市等因素,在文獻[2]的基礎上,將潛在5G用戶的判定門限進行如下調整:1)用戶ARPU≥70元;2)用戶終端價格≥2 000元;3)用戶到達換機周期。
本文采用中國聯通某地市2019年12月的部分4G、5G終端用戶數據,對半年后即2020年6月5G終端用戶進行預測,在此期間共新增15.2萬5G終端用戶。為了便于與后文中模型法相比較,本文采用二分類模型評價指標Recall(預測效果)和Precision(預測效率)。在表1中,Recall代表真實正例樣本中,預測為真的樣本比例,即1.9/15.2=12.5%;Precision為精確率,指的是從預測的角度看有多少樣本是預測準確的,即為1.9/24.8=7.6%。

表1 專家經驗預測混淆矩陣結果
若采用當前結果做網絡規劃,12.5%的準確率偏低,地理分布的偏差較大,無法精準地引導投資。隨著后期樣本量的增加,5G終端的數據可以支撐LightGBM算法建模的方法,本文提出基于LightGBM算法的模型搭建,對潛在5G終端用戶預測進行研究。
本文對用戶是否遷轉5G終端進行研究,屬于監督學習中典型的二分類問題。本章節就分類算法、建模過程以及建模結果進行介紹。
在當前流行的分類算法中,LightGBM算法是預測準確率較高且訓練速度較快的算法。其他分類算法有Bagging算法中的隨機森林(Random Forest)、Boosting算法中的梯度提升樹(Gradient Boosting Decision Tree,GBDT)、XGBoost算法等。這些算法都是以決策樹模型為基礎。GBDT算法是被公認的泛化能力較強的算法,核心就在于每一輪的迭代都是在上一輪迭代產生的殘差基礎上進行。在GBDT算法的基礎上,對損失函數進行改進就有了XGBoost算法,它可以支持并行運算,用于加速和減小內存消耗。在XGBoost之后,微軟公司又提出了LightGBM算法。它使用了帶有深度限制的按葉子生長算法,可以加速訓練過程,減少計算量。此外,LightGBM算法支持高效率的并行運算,支持分布式海量數據處理,能夠降低內存消耗,擁有更高的準確率。因此,這里選擇基于LightGBM的機器學習算法預測用戶半年后是否遷轉5G終端,圖1是LightGBM部分算法過程示意。關于分類算法更為詳細的介紹可見文獻[3-6]。

圖1 LightGBM部分算法過程示意
本文整個建模的流程框架如圖2所示,整個算法主要分為三個模塊:數據處理模塊、模型構建模塊以及預測應用模塊。

圖2 潛在5G用戶預測建模流程
數據處理模塊主要分為基本數據源、對基本數據進行數據清洗和特征工程兩個內容?;趯<医涷灧ㄍ瑯拥臄祿Y選2019年12月存量4G、5G終端用戶作為模型的Y結果,選定這些用戶在2019年4月、5月、6月的數據,作為模型的因變量X,預測用戶在半年之后是否會遷轉5G終端。自變量的數據主要包括:1)賬單數據,含有用戶流量、語音、消費等業務使用數據;2)地理數據,含有用戶常住地等地理分布相關數據;3)終端數據,含用戶使用終端及更換情況的數據;4)OTT數據,指用戶使用各類APP業務情況數據,這些數據是建模的基本數據。
在基本數據的基礎上,進行數據預處理。對單一值數據的特征剔除,刪除缺失值超過70%的特征,針對缺失值較少的數據用常數或者聚合值進行填充等。為了充分挖掘數據的信息,使用特征工程將原始數據轉化為能更好地表達問題本質的特征。針對數值型特征進行統計計算。對分類特征進行獨熱編碼轉換,最后對數據進行特征篩選等處理。
數據處理完成之后,為了進行模型訓練以及模型泛化能力的評估,需要對數據進行拆分。隨機選取80%的數據作為訓練集,用于模型訓練,10%數據作為驗證集,用于模型的超參調優和迭代,剩下10%的數據作為測試集,用于驗證模型的泛化能力。
模型構建模塊其實是一個根據訓練集和驗證集反復進行超參調優、不斷迭代構建最優模型的過程。選擇訓練集數據,設置初始參數,模型根據自變量X和因變量Y學習,得到訓練模型,剔除低貢獻度變量,再次訓練,得到訓練后的模型。利用驗證集數據和網格搜索的方法反復修正參數,不斷迭代,找到一套對輸入數據高度識別的最優配置參數和具有一定泛化能力的最優模型。
在模型預測中,會輸出這個樣本成為正例即成為潛在5G終端用戶的可能性。在實際操作中大多為不平衡的樣本,需要設定一個確定的閾值,來判斷用戶是否會遷轉5G終端。在模型評價指標中,Recall表征真實5G用戶中被正確找到的比例,值越大說明預測效果越好。Precision值可以表征所有區域或者站點中覆蓋到的真實用戶的比例,同等建設規模的情況下,值越大說明建設區域覆蓋到真實的5G用戶越多,預測效率越高。這兩個值均越大越好,但實際應用中二者關系是遵循P-R曲線的。根據閾值可以找到某一點平衡,該點的Precision和Recall值即為網絡規劃方案預計將達到的預測效率和預測效果。
圖2中的模型應用模塊,主要是利用在模型構建模塊建立好的最優模型,輸入待預測的數據和目標用戶規模,獲得在一定時間段內可能遷轉為5G終端用戶的列表。
2.3.1 建模法結果
基于專家經驗法同樣的數據,對比2020年6月真實5G終端用戶,從表2的結果中可以得到,預測結果的Recall值為67%,Precision值為7%,在精確率一致的情況下,預測效果大有提升。

表2 建模法預測混淆矩陣結果
2.3.2 建模法與專家經驗法對比
通過表3可知,LightGBM算法建模法與專家經驗法相比有諸多優勢。直觀表現在建模法使用較多的特征,從而充分挖掘數據對于判斷用戶更換5G終端的影響,預測效果大幅提升。此外,建模法會通過學習,靈活確定不同特征的判斷門限,針對不同的用戶有不同的判定路徑,最終根據多棵決策樹進行判定。專家法對所有戶的判定方法都是一致的,且判斷的門限都是固定的一刀切方法。在預測用戶規模方面,專家經驗法的預測規模是固定的,而建模法由于輸出結果是用戶成為潛在5G終端用戶概率,在選取判斷閾值時則可以根據傾向預測效果和預測效率的不同機動選取用戶規模。

表3 專家經驗法與建模法的對比表
2.3.3 預測結果跟蹤
在確定LightGBM算法方法之后,本文對該地市的潛在5G終端用戶進行了更深一步地預測分析。以2020年8月的4G、5G終端用戶為目標群體,提取上述用戶在一年之前(即2019年8月)的自變量數據,基于LightGBM算法進行二分類建模,經過數據預處理、模型建立、超參調優等過程獲取最優模型。將待預測的2020年8月4G終端用戶數據輸入至最優模型,預測一年之后可能遷轉為5G終端的用戶。本文對得到的潛在5G用戶進行了為期一年的跟蹤,在一年時間點時(即2021年8月)與當時的真實5G終端用戶數據進行了對比。
同樣采用預測效果和預測效率兩個評價指標,這里只針對模型預測得到潛在5G用戶群體進行跟蹤,即不考慮時間段內新增的5G終端用戶以及當前已有的5G終端用戶的影響。在表4中,以一年時間點時真實的5G終端用戶為基準,對標Recall來看,模型的預測效果為67.4%,與2.3.1節中的67%持平。在表5中,以模型預測得到的203萬潛在5G用戶為基準,對標Precision來看,預測效率為30%。對比2.3.1節中的7%有了較為明顯的提升,在用戶滲透率提升的情況下,預測效率會有一定提升。

表4 跟蹤數據預測效果

表5 跟蹤數據預測效率
基于預測得到的潛在5G用戶群體,考慮其工作常住和住宅常住的微網格分布,可以得到用戶的總常住微網格分布。根據用戶在常住微網格的地理業務分布數據,例如考慮用戶數分布數據,對微網格的建設優先級進行排序判斷,得到不同優先級的網絡建設區域,從而指導網絡規劃。圖3是按照用戶在常住微網格上的分布聚集程度,將用戶聚集最多的前25%微網格價值評級記為1,前50%用戶聚集的微網格價值評級記為2,前80%用戶聚集的微網格價值評級記為3,剩下的微網格價值評級記為4。分別對應圖中的紅色、黃色、綠色和藍色區域。從地圖中可以清晰地看到,建模法得到的潛在5G用戶微網格評級結果與真實的5G用戶總常住微網格評級結果更一致。

圖3 建模法(左)、真實5G用戶(中)、專家經驗法(右)常住地評級結果
同樣地,也可以根據業務需求,匯總每個微網格下的地理業務分布數據,如流量、總業務次數等,按照倒序排列,基于上述同樣的評級方法得到不同指標下的微網格評級結果。表6對比了建模預測得到的潛在5G用戶以及真實5G用戶兩類用戶群體在不同指標下微網格評級一致性,兩類用戶群體在流量、業務次數、工作常住和總常住的分布評級一致性都在90%以上。在應用過程中,可以根據實際需求,對多種維度地理分布數據計算不同權重得到微網格價值評級的估計值,此處的微網格也可以替換為基站等。

表6 真實5G用戶與建模預測的潛在5G用戶分布評級一致性結果
本文提出了一種基于大數據分析和LightGBM算法的潛在5G用戶預測方法,基于B域數據、O域數據、終端更換數據以及用戶行為數據建立用戶是否更換5G終端的二分類模型。此方法能充分挖掘特征數據對用戶更換5G終端的影響,預測準確率較高。將現網待預測用戶輸入模型中,篩選出潛在5G終端用戶列表,一方面根據預測得到的潛在5G用戶的業務分布及常住地等確定5G網絡需建設的重點區域,應用于5G網絡的規劃,另一方面可以根據現階段的用戶規模,為精準營銷提供數據支撐。
在后續的研究中,可以繼續增加數據,比如影響用戶網絡感知的數據或者與5G業務相關的數據等,增加數據的多樣性。在數據預處理、參數調優等方面持續優化算法,例如交互特征、奇異值分解、主成分分析降維等,一方面是為模型“瘦身”,提取對結果影響較大的特征,另一方面提升預測的準確度。本文提出的方法也可應用其他的專題分析,比如用戶對5G套餐、5G升級包的多分類預測模型等其他電信業務場景。除此以外,針對海量數據,可以考慮利用神經網絡等深度學習算法建模,充分挖掘隱藏在海量數據背后的“有益”信息,推進終端、網絡、業務的協同發展。