孫苑苑
中國移動通信集團江蘇有限公司
通信運營商的大數據優勢在于數據種類多樣、用戶群體覆蓋范圍廣、數據周期連續性好、數據準確性高等。基于海量而豐富的運營商數據資產,綜合運用大數據、人工智能、物聯網、云計算等新興技術,結合行業場景需求,打造行業大數據產品體系,面向文化旅游、城市管理、金融商貿等行業和政府客戶提供量身定制的信息化解決方案,能夠實現大數據價值變現。
基于位置數據分析與挖掘的大數據產品與服務是運營商行業大數據產品的重要組成部分,在文化旅游、城市管理、公共服務等行業廣泛應用。位置區域是位置類服務中最常見的位置計算形態,隨著客戶需求的涌現,為支撐大量行業應用需求,運營商在大數據平臺位置中心配置了大量區域場景,存在區域面積大、關聯基站數量多等問題,造成區域客流計算效率低,同時,在旅游景區、交通樞紐、行政區域等類型區域出現較多區域重疊、基站重復計算等情況,再次降低了區域計算效率。
針對上述問題,以下研究方法將融合大數據及AI 技術提出區域網格融合計算模型,通過實現區域網格化,并以此為基礎進行網格融合計算,達到提升大數據位置區域分析能力和計算效率的目的。
位置區域是運營商對外大數據服務中位置類服務的常見位置計算形態,在文化旅游等行業的業務場景中有大量應用。傳統的位置客流分析存在區域數據統計分析不準確、區域數據計算耗時久、區域數據預測能力不足等問題,為改變粗放、割裂的位置區域管理模式,本研究方法將按照常見業務管理模式,基于政府行政城市管轄區域或規則形狀的網格劃分,進行區域網格融合后的實時和離線分析,能夠有效降低區域計算復雜度,提升區域客流計算效率,提高區域數據實時性,擴展和增強區域客流預測能力。
本研究建設統一的大數據位置區域分析和應用架構,總體研究架構詳見圖1。基于區域網格融合計算模型,提供網格化管理、區域數據分析、區域客流預測等應用,以精準高效為建設目標來提升大數據位置區域分析計算效率。

圖1 大數據位置區域分析和應用架構圖
在數據層,主要融合包括位置信令數據、基站工參數據、區域網格數據、客戶畫像數據等在內的多源數據,借助ETL能力,對數據進行加工清洗和處理,形成基礎的位置資產能力。
在模型層,構建區域網格融合計算模型、網格自動劃分模型、區域網格客流分析模型等,通過借助AI 算法,完成模型的選擇、訓練、調優和部署,實現了高效、自動化的區域劃分及區域網格客流分析計算。
在應用層,實現網格化管理、區域客流分析、區域客流預測、基站數據統計等功能,并通過Web 和API 的方式面向行業產品提供服務。
在產品層,支撐智慧旅游、智慧城市、智商貿、智慧社區、重大活動保障等行業大數據產品。
在服務行業上,主要覆蓋交通、旅游、政府、公安、醫療、城市管理等行業的業務場景。
本研究中的關鍵設計主要包括:通過區域網格劃分模型的建設,實現網格劃分解耦和區域計算拆分,提升區域配置效率,降低區域計算對平臺的資源需求;借助區域管理工具,構建區域網格融合計算模型,降低區域計算復雜度,提升區域分析服務效率;結合改進的多元線性回歸方法,提供區域客流預測分析,提升位置區域數據分析能力。
主要基于兩種方法對網格進行劃分:(1)基于政府行政城市管轄范圍的行政網格劃分;(2)基于500*500 的規則形狀網格劃分。支持基于網格的人口統計、客群洞察、來源特征等方面的分析。
對于區域網格劃分,其關鍵點在于:
(1)網格劃分范圍:在獲取的覆蓋國土最小外接矩形區域內,輸出該矩形區域內可以歸屬到行政區域的所有網格。
(2)網格行政區劃歸屬:若網格中心點經緯度落在行政區劃邊界上則可將此網格分配給城市編碼較小的行政區劃。在國界上,若網格中心點不在國界內,且存在一個或多個邊界點在國界內,則按符合國界內的邊界點順序,取第一個符合國界內的邊界點歸屬區劃。
(3)網格劃分坐標系:按火星坐標獲取網格經緯度。對于基站信息中缺失方向角(缺失用圓)、覆蓋距離信息(500-1000m)無法實現交叉面積計算的內容,后續根據用戶信令中實際基站切換序列進行調整完善,網格劃分熱力展示如圖2 所示。

圖2 網格劃分熱力圖
在網格化的基礎上建設區域管理工具,改變目前粗放、割裂的區域管理模式,能夠提升區域配置效率和區域標準化程度。工具對區劃區域、標準區域、自定義區域三種類型區域進行融合管理,用戶可以通過區域進行訂閱,區域用戶訂閱分布方式詳見圖3。

圖3 區域用戶訂閱分布圖
在區域融合管理工具中,針對不同用戶訂閱,可對其訂閱區域及訂閱參數作出智能分析,對同區域不同參數的規則進行融合,通過僅執行一次數據查詢、多次訂閱運算的方式,提升訂閱運行時的效率。同時對參數類似訂閱提供訂閱建議,協助提升規則制定的業務有效性。
區域網格客流計算方法如下:
(1)將需要計算的區域進行網格劃分,形成區域與網格的對應關系。
(2)當用戶生成一條新的信令時,就對該用戶信息進行處理,匹配到指定區域中,位置信令處理流程詳見圖4。對同一用戶連續在一個區域出現的多條信令數據進行合并處理,合并處理時,按時間順序,取第一條信令的發生時間作為合并后的開始時間,取最后一條信令的發生時間作為合并后的最后活躍時間。
(3)統計區域客流,直接拉取區域中已分類歸納完成的數據。
圖4位置信令處理流程圖
(1)24 小時分時段多元線性回歸模型
將3 個月按全天的小時段客流拆分成24 個分段重新組合,消除影響因子后,構造凈客流矩陣:

式中:Xij′為每個時段的凈客流數據,i 為24 個時段(1~24),j 為3 個月天數(1~90)。
每個時段的凈客流數據作為因變量依次帶入模型,構建24 個多元回歸方程式,通過模型參數的計算及誤差修正的方式對預測日對應時段客流數據進行預測,將連續時間序列上多點預測轉化為單點預測,將復雜問題簡單化,此處預測的為當日凈客流值,并未加上影響因子部分。
設yt為因變量,x1,x2,…xk為自變量,分時段構建24個小時回歸模型:
1 點回歸方程:yt=1=b1x1+b1x2+…+bkxk+et
2 點回歸方程:yt=2=b1x1+b2x2+…+bkxk+et
……
24 點回歸方程:yt=24=b1x1+b2x2+…+bkxk+et
式中:xk為近三個月全天24 個時段的凈客流,yt為預測日對應24 個時段的凈客流,b1,b2,…bk為回歸系數,是24個時間段參數,et為常數項,t 為24 個時段(1~24)。
通過回歸分析,得到常數項及各時段的參數估計值為e 和B 的矩陣:

將參數帶入回歸方程中,即可得到預測日對應24 個時段的凈客流值。
(2)客流影響綜合因子分析模型
設影響客流的月份因子為Mi,星期因子為Wj,節假日因子為H0,天氣因子為S0,使用如下模型:

式中:Ft為ft客流綜合影響因子數,mi為影響客流月份因子回歸參數估計值,wj為影響客流星期因子回歸參數估計值,h0為影響客流節假日因子回歸參數估計值,s0為影響客流天氣因子回歸參數估計值。
(3)綜合影響因子修正分段線性回歸模型表示如下:

組合24 個分時段多元線性回歸方程,形成24 小時區域綜合凈客流預測模型,加入天氣、節假日、季節等綜合因子來預測區域實際客流。
借助Istio 架構技術,將位置服務解耦成一系列輕量、敏捷的微服務,將服務開發和服務發布進行分離,極大降低了平臺管理的復雜度,減少上層行業大數據應用對服務技術的關注范圍,滿足對外大數據行業多、規模大、復雜性高的服務場景需求,提高支撐效能,為相關行業客戶提供區域指導和管理工作。
通過智能代理(Envoy),將位置區域微服務組成服務網格,承載服務間以及服務與外部的通信。通過流量管理(Pilot)機制,將流量和基礎設施擴展解耦,智能化控制服務間以及外部調用的流向,并可以針對不同網絡質量進行調整,提高服務可用性。
根據業務特點和數據能力,已規劃建設的位置區域微服務主要包括:區域流量實時查詢、區域用戶分析、區域用戶流量、區域流量預測、區域用戶明細、區域用戶進入等。
本研究基于區域網格融合計算模型,通過網格劃分解耦和區域計算拆分,提升區域配置效率,降低區域計算對平臺的資源需求。通過區域配置,調整計算優先級,決定區域計算任務調度權值,在資源上合理分配計算任務,有目的性的選擇資源,使系統在最短的執行時間內實現整個網格系統資源利用的最大化,提升了區域配置效率和區域標準化程度。結合改進的多元線性回歸方法,引入“近重遠輕”的賦權原則構造自變量,解決全天24 小時時段的位置區域時間序列數據預測準確性問題,拓展了位置區域分析業務場景。
通過區域網格融合后,相同區域的計算由多次減至一次。以區域客流量實時查詢服務為例,平臺目前訂閱該服務的區域有1671 個,其中有424 個區域存在重疊,應用本研究后,實時區域數據計算效率提升50%,區域數據實時更新周期從15 分鐘縮短到5 分鐘,顯著提高了實時計算的效率及準確性,CPU 消耗減少4%-8%,內存資源占用減少5%-8%,硬件資源利用率也得到提升。
此研究已廣泛服務于旅游、政府、金融等行業大數據產品中,為景區、政府、交通樞紐等研究區域客流規律提供有力支撐。
案例1:某街道在疫情防控中的“網格化管理”。
疫情期間為加強街道人員流動管理,南京某街道依據此研究成果構建網格化管理系統。以可視化大屏界面實施監控管理,劃分8 個網格,街道全天24 小時監控網格內實時客流情況。通過客流網格化管理,加強數據分析效率,掌握高風險地區人員流入情況,強化了街道疫情風險防范能力,有力保障街道居民的衛生安全。
案例2:某馬拉松活動交通要塞口客流預測。
此研究應用于某馬拉松活動中,通過搭建交通要塞客流預測系統,全方位全流程實施客流預測。在通往大型活動的入口、活動區域、出口等關鍵路徑上設置網格區域,根據網格區域歷史客流數據及區域網格融合計算模型,預測各區域活動人群流量,協助相關部門對客流進行控制及疏散。
以上提出了一種融合大數據和AI 技術的客流位置區域網格融合模型算法。在運營商大數據行業應用領域,通過區域網格融合計算模型和應用的建設,提升大數據位置區域分析計算效率,對于行業位置區域類分析需求能提供更加科學、高效和精準的支撐;通過高效的區域數據分析能力,為行業客戶提供更精準、實時、豐富的大數據產品服務,提升行業客戶的滿意度。在此研究基礎上,客流位置分析精確度方面還需繼續深入挖掘研究,不斷提高客流數據統計、洞察、分析的質量。