車維崧 祁靜 白文其



摘? 要:針對公眾住宅小區千兆寬帶用戶規模不確定導致預覆蓋OLT設備投資建設不精確的現狀,提出了一種基于隨機森林算法及地理圍欄進行小區千兆用戶規模預測的方案。方案使用小區場景圍欄完成地理數據、房地產中介數據與運營商數據的匹配,通過小區內樓宇棟數、住戶數、房屋出租均價、運營商寬帶用戶數等指標對小區千兆用戶規模進行預測。對比實驗證明,使用隨機森林算法進行千兆用戶規模預測具有較高的準確性。
關鍵詞:隨機森林;地理圍欄;千兆寬帶;用戶預測
中圖分類號:TP18 文獻標識碼:A? 文章編號:2096-4706(2023)01-0061-03
Prediction of Gigabit Broadband Subscriber Scale Based on Random Forest and Geo-fencing
CHE Weisong1, QI Jing2, BAI Wenqi2
(1.Beijing Telecom Planning & Designing Institute Co., Ltd., Beijing? 100048, China;
2.China United Network Communications Group Co., Ltd., Beijing? 100033, China)
Abstract: In light of the current situation of inaccurate investment and construction in pre-coverage OLT equipment due to the uncertainty of the scale of gigabit broadband subscriber in public residential quarters, this paper proposes a scheme for gigabit subscriber scale prediction based on Random Forest algorithm and Geo-fencing. The scheme uses the Geo-fencing of the residential area to complete the matching among geographical data, real estate agency data and operator data, and predicts the scale of gigabit subscriber through indicators such as the number of buildings in the residential area, the number of households, the average house rental price, and the number of operators' broadband subscribers. The comparative experiments prove that the Random Forest algorithm has higher accuracy in predicting the scale of gigabit subscribers.
Keywords: Random Forest; Geo-fencing; gigabit broadband; subscriber prediction
0? 引? 言
近年來,隨著“寬帶中國”“雙千兆網絡協同發展行動計劃”等國家寬帶接入發展指導意見的提出,千兆寬帶覆蓋規模不斷擴大,公眾用戶寬帶接入速率不斷提升。截至2022年5月底,1 000 Mbps及以上接入速率的固定互聯網寬帶接入用戶達5 591萬戶,比21年末凈增2 135萬戶[1],千兆用戶規模提升明顯。
另一方面,受三大運營商競爭加劇及寬帶“提速降費”等因素影響,固定互聯網寬帶業務收入增長緩慢、總體收入趨于穩定。目前國內住宅小區基本均已完成FTTH(Fibre To The Home)接入,千兆寬帶建設的主要成本為OLT(Optical Line Terminal)設備改造升級。目前國內主流設備廠家10G PON(Passive Optical Network) OLT設備單PON造價約為2 500元至3 000元不等,按照10G PON OLT單端口可承載20戶用戶進行測算,已完成FTTH覆蓋的住宅小區進行千兆升級僅OLT設備升級成本就在10萬至20萬左右。鑒于OLT升級成本較高、由于芯片短缺導致OLT到貨周期較慢等因素,對小區預期發展的千兆用戶規模進行測算,有助于提升設備升級改造的精準性、減少改造投資,實現千兆建設降本增效。
針對以上分析,本文提出了一種采用隨機森林算法及地理圍欄信息對小區內千兆寬帶用戶規模進行預測的方案。通過使用小區地理圍欄完成房地產中介數據與運營商網絡數據的關聯,通過小區內樓宇棟數、住戶數、房屋出租單位面積均價、出租單位套數均價及某運營商寬帶用戶數等指標對小區千兆用戶規模進行預測。通過預測結果指導千兆OLT升級改造規劃及建設,提升設備升級改造的精準有效性。
1? 基于地理圍欄的小區多源數據關聯
為實現小區千兆規模預測,需獲取小區多維價值屬性信息。由于數據來源渠道不同,同一住宅小區在互聯網地圖、中介數據及通信運營商自有數據中,名稱、地址描述方式、經緯度坐標等信息均可能存在差異。對不同數據來源渠道的小區名稱及地址信息進行關聯,往往涉及較為復雜的數據清洗及NLP(Natural Language Processing)過程,且關聯匹配的準確率一般不高。目前各渠道數據基本均含有經緯度信息,但由于采用坐標系(WGS84、GCJ02、BD09等)不同及定位地點存在差異,往往同一小區在不同數據來源中的經緯度位置存在一定差別,為實現基于經緯度坐標的多源數據精準關聯,需要引入地理圍欄信息作為媒介。
地理圍欄(Geo-fencing)是基于位置服務的一種特殊應用[2],主要用于地理區域的網格化及精確化管理。目前各類互聯網地圖及地理服務提供商具備各種類型及渠道來源的地理圍欄信息。每條記錄一般包含圍欄對應的場景名稱、分類、邊界頂點經緯度坐標等信息。
使用地理圍欄作為住宅小區的標識,將中介數據、運營商數據、樓宇數據等含有經緯度的POI信息統一轉換為WGS84坐標系后投影至地圖上,對處于同一小區地理圍欄中的各類數據進行歸集,多源數據關聯流程如圖1所示。最終可以獲得小區內樓棟數、住戶數、房屋出租單位面積均價、房屋出租單套均價、某運營商寬帶用戶總數、簽約帶寬分布等信息作為千兆用戶規模測算的輸入特征。使用地理圍欄匹配多源數據可以降低不同坐標系轉換對匹配結果的擾動,在某地市進行驗證實驗,結果顯示使用地理圍欄進行多源數據匹配,多源數據均為同一小區數據的準確率達到88.16%,而基于名稱及地址信息的匹配準確率僅為69.79%。
2? 基于隨機森林的千兆寬帶用戶規模預測
對住宅小區千兆寬帶用戶規模進行預測的主要目的是通過預測結果確定小區上聯綜合接入點OLT預留的10 G PON口數,由于單PON口用戶數與分光器分光比、分光方式均有關,所以并不需要計算千兆用戶占比的具體數值,僅需對其規模量級進行預測即可。同時,由于不同城市經濟發展水平、用戶上網習慣、單一運營商市場滲透率均存在差異,需要對不同城市分別建立分析模型。
基于上述分析,首先選取一地市內業務發展基本成熟、用戶規模穩定的小區計算其千兆用戶占比均值及標準差,記均值為μ、標準差為σ、小區千兆寬帶用戶占比為x。x一般服從期望為μ、方差為σ2的正態分布。基于正態分布將小區千兆寬帶用戶占比分為低、較低、一般、較高及高5類,具體分類規則如表1所示,通過該處理將千兆用戶規模預測轉化為分類問題。
隨機森林算法是近年來常用的集中學習算法之一[3],隨機森林通過對多棵決策樹進行集成,一般通過bagging方式進行學習,可采用投票或均值等方法獲得集成后輸出,整體算法對異常值及噪聲有較強的魯棒性。使用隨機森林進行分類的模型如圖2所示。
隨機森林模型對分類數據的平衡性有一定要求,由于隨機森林建造時對訓練樣本進行隨機抽樣,對于不平衡樣本會進一步加劇其不平衡性,進而使決策樹模型對不平衡樣本分類效果欠佳的缺點被進一步放大。將分布轉化為類型的千兆用戶規模是典型的非平衡樣本,為降低樣本分布對分類結果的影響,采用SMOTE(Synthetic Minority Oversampling Technique)[4]方法進行訓練,SMOTE方法訓練時在少數類樣本及其K近鄰類樣本之間的連線上產生新的少數類樣本,進而平衡各分類樣本規模,減少不平衡樣本及對隨機森林的影響。
3? 實驗及結果分析
3.1? 數據預處理
采用某運營商北方某城市數據作為實驗數據,該市共有住宅小區1 600余個,剔除某運營商新覆蓋、未覆蓋、無數據區域及小區內寬帶用戶小于10戶簽約帶寬分布可能隨機性較強的小區,剩余包含完整有效數據的小區樣本657個。
657個有效小區樣本中千兆寬帶用戶占比均值μ=0.165 7、σ=0.047 8,其中分類為低的樣本18個、較低樣本142個、一般的樣本414個、較高樣本73個、高樣本10個。隨機抽取20%的樣本作為測試樣本,剩余526個樣本作為訓練樣本集,訓練時采用了SMOTE方法進行抽樣。以住宅小區內樓宇總棟數、總戶數、每平方米出租均價、每戶出租均價、某運營商寬帶用戶總數5個特征作為輸入特征,以千兆寬帶用戶占比作為預測的輸出特征。
3.2? 隨機森林模型超參數設置
由于隨機森林的子樹規模及樹深度對隨機森林的分類能力有較大影響,為確定超參數的最優配置方案通過網格搜索方法進行了探索,在訓練樣本集上對子樹規模及樹深度的各種匹配方案進行了10折驗證,結果如圖3所示,可以看到當樹深度為5、子樹規模為50、樹模型訓練過程中每次節點分割時均考慮2個特征時訓練樣本集10折驗證的分類準確率最高,達到80.80%。
3.3? 實驗結果及分析
將基于隨機森林模型的訓練集分類準確率及測試集分類準確率與SVM、BP神經網絡、貝葉斯分類、多元分類器線性分類器進行對比,所有涉及超參數的分類算法均通過在訓練集上對主要超參數進行了網格搜索,對比結果如表2所示。可以看到不同分類算法在訓練樣本集上的分類準確率均在80%左右,不同模型之間沒有明顯差異,而在測試樣本集上隨機森林模型明顯高于其他模型達到80.91%,對比實驗證明隨機森林算法在千兆寬帶用戶規模預測問題上具有更強的泛化能力。
3.4? 特征重要性分析
通過隨機森林使用各特征的樹節點平均減少不純度對各特征的重要性進行對比,不純度減少的權重為與其關聯的訓練樣本數量[5]。各特征重要性如表3所示。可以看到小區每平方米出租均價、某運營商寬帶用戶總數、總戶數是相對較為重要的3個輸入特征,可將其歸集為小區高檔程度、運營商滲透率及用戶總規模3個分析維度,該結果提示在運營商小區價值分析中應加強對相關維度數據的搜集及關注程度。
4? 結? 論
本文提出了一種基于隨機森林算法及地理圍欄進行小區千兆用戶規模預測的方案,該方案通過小區場景圍欄完成房地產中介與運營商數據的關聯匹配并將其作為輸入特征對小區寬帶用戶規模進行預測,通過實驗證明使用隨機森林算法的預測準確率高于其他算法。通過樹節點不純度減少程度確定小區每平方米出租均價、某運營商寬帶用戶總數、總戶數是較為重要的輸入特征,為通信運營商千兆規劃建設及營銷重點區域選擇提供了參考依據。
參考文獻:
[1] 中華人民共和國工業和信息化部.2022年1-5月份通信業經濟運行情況 [EB/OL].https://www.miit.gov.cn/gxsj/tjfx/txy/art/2022/art_84d43f3ff32c457dabf66dcedfa7996f.html.
[2] 鞠明山.地理圍欄技術發展現狀及網絡信息安全問題探究 [J].江西通信科技,2018(3):39-41.
[3] 呂紅燕,馮倩.隨機森林算法研究綜述 [J].河北省科學院學報,2019,36(3):37-41.
[4] CHAWLA N V,BOWYER K W,HALL L O,et al. SMOTE:Synthetic Minority Over-Sampling Technique [J].Journal of Artificial Intelligence Research,2002,16:321-357.
[5] 喬健,諸佳慧,嚴康桓.基于隨機森林CART特征選擇改進算法的電信客戶流失預測模型 [J].電信工程技術與標準化,2022,35(3):78-82.
作者簡介:車維崧(1990—),男,漢族,北京人,助理工程師,碩士,研究方向:寬帶政企接入網絡規劃;祁靜(1988—),女,漢族,北京人,工程師,碩士,研究方向:寬帶政企接入網數字化運營;白文其(1977—),男,滿族,北京人,高級工程師,本科,研究方向:傳輸及寬帶網絡技術。
收稿日期:2022-08-03