劉云翔 陳斌 林濤 施偉



摘? 要: 為了有效判別行駛車輛內車載乘客手機數量實際匹配的乘客人數,提出一種將聚類算法和呼叫指紋識別算法相組合的算法(CHC?CFA)。運用組合算法結合車輛內乘客攜帶手機的實時軌跡數據以及歷史呼叫指紋數據建立同一用戶識別模型,有效地判別出車輛內實際乘客人數,用于判別行駛車輛是否存在超員的異常問題,也可以對當前HOV車道的車輛內乘客數實時監測提供一種新的輔助檢測方法。實驗結果表明,該模型能有效判別行駛車輛內車載乘客手機數量實際匹配的乘客人數并有較高的檢測準確率。
關鍵詞: 同一用戶識別; 移動大數據; CHC?CFA; 數據獲取; 維度分析; 識別模型
中圖分類號: TN919?34? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)06?0070?05
Same user identification analysis model based on mobile big data
LIU Yunxiang1, CHEN Bin1, LIN Tao1, SHI Wei 2
(1. School of Computer Science and Information Engineering, Shanghai Institute of Technology, Shanghai 201400, China;
2. School of Automobile Engineering, Jiangsu Automobile Technician Institute, Yangzhou 225000, China)
Abstract: A combined algorithm CHC?CFA (condensed hierarchical clustering?call fingerprint algorithm) is proposed, which combines the clustering algorithm and call fingerprint recognition algorithm, so as to effectively identify the number of passengers actually matched with the number of mobile phones of passengers in the running vehicle. The same user identification model is established with the combined algorithm in combination of the real?time trajectory data and the historical call fingerprint data of the mobile phone carried by passengers in the vehicle. It can effectively identify the actual number of passengers inside the vehicle, which can be used to identify whether the running vehicle is overloaded, and also provide a new auxiliary detection method for the real?time monitoring of the number of passengers in the current HOV lane. The experiments show that the model can effectively identify the number of passengers actually matched with the number of mobile phones of passengers in? a running vehicle, and has high detection accuracy.
Keywords: same user identification; mobile big data; CHC?CFA; data acquisition; dimensional analysis; identification model
根據國家統計局2018年發布的《中國改革開放40年通信業發展報告》顯示,到2017年底,我國移動電話用戶數量已經達到近14.17億戶,移動電話的普及率由1995年的0.3部/百人提高到2017年的102.5部/百人。隨著個人智能移動手機終端的迅速普及,出行群體中手機擁有率和使用率已經達到非常高的比例,研究學者逐步意識到個人移動終端可以作為一種非常理想的智能交通探測平臺[1]。目前,用戶的智能移動手機內都集成GPS模塊、陀螺儀、加速感應器等多種傳感器,可以為用戶提供基本的位置查詢與導航等相關服務,通過采集出行群體中攜帶的手機相關數據可以對道路交通數據信息進行分析,這是一種新興的智能交通動態監測手段[1?2]。在我國,一般情況下道路行駛車輛內車載乘客每人攜帶手機數多至兩三部,攜帶一部手機的乘客通常也會存在雙卡用戶。
針對手機時空軌跡數據以及手機信令進行大數據模式挖掘的研究長期被眾多國內外不同領域專家學者進行分析研究,每個領域的研究者根據自身研究方向出發,從手機時空軌跡數據及信令信息挖掘分析出眾多有價值的研究成果。但在智能交通領域,針對行駛車輛內乘客人員數量監測方面,采用車輛內乘客手機數據信息進行乘客實際人數判別的研究并不多見。為了有效判別行駛車輛內車載乘客手機數量實際匹配的乘客人數,本文將凝聚層次聚類算法與呼叫指紋識別算法進行組合分析,通過挖掘與某一車輛相匹配的乘客手機數據,根據手機乘客攜帶手機的交往圈特征(包括呼叫特征、短信特征)、位置特征、手機開關機上報日志時間等相關特征進行研究分析,首先通過手機開關機上報日志時間進行初步判斷,其次,基于凝聚層次聚類算法對位置特征進行分析,找出疑似同一用戶的卡號,再對這些卡號基于改進的呼叫指紋識別算法得出車輛內乘客攜帶手機數量實際對應的乘客人數。建立同一用戶識別分析模型,可對道路上行駛車輛內人員的分布情況進行研究分析,可用于判別行駛車輛是否存在超員的異常問題,也可以對當前HOV車道的車輛內乘客數實時監測提供一種新的輔助檢測方法[3?6]。
算法公式如下:
式中,分子是指術語在該文本文檔中存在的數值;分母是所有術語在該篇文本文檔里出現的數值之和。
式中:[N]表示整個文本文檔集中所有文檔的數量;[d:ti∈d]表示整個文本文檔集中包含該術語的文檔數量。
本次研究中應用改進的[TF?IDF]算法對用戶的交際圈號碼的權重進行分析,生成用戶的呼叫指紋。若某號碼實際生活中對用戶具有重要交往程度,則該號碼與TF值成正比,即在交際圈中出現的頻率成正比。與此同時,在該地區出現的頻率成反比,與IDF值相對應,從而體現有效交往圈的重要性。本文在[TF?IDF]權重算法的基礎上進一步改進,將語音頻次[TF?IDFt]與短信頻次[TF?IDFm]進行結合,并在語音頻次的基礎上,增加通話時長這一參數,從而進一步體現用戶交際圈號碼的權重。
余弦相似度算法主要比對通過改進的[TF?IDF]權重算法生成的呼叫指紋之間的相似度。計算公式如下:
將每一對端號碼均作為空間中的一個維度,因此卡號交際圈中存在的對端號碼的權重集合進而代表空間中存在的向量,通過空間向量的內積對兩個卡號的相似度進行分析。 當存在兩個卡號所構成的向量夾角越小時,則這兩個卡號的交際圈就越相似,即兩個卡號屬于同一用戶的可能性越大。
3.3? 建立同一用戶識別分析模型
本次研究通過采集與車輛相匹配的乘客手機數據,對采集的各類基礎數據進一步篩選與標準化,對運營商提供的號碼中“86”、“0086”、區號等開頭的號碼進行標準化,將其變成規范的11位電話號碼,并對干擾語音和短信詳單的噪聲數據的剔除等數據預處理。其次,在用戶實際的語音詳單(Voice Detail)、短信詳單(SMS List)和位置信息表對數據進行特征提取。
在完成上述處理后進行分析,第一階段:基于獲取手機數據中的開關機日志(attach消息和detach消息)對所需判別的卡號進行分析,若存在兩卡號在同一時刻,向網絡發送attach消息(detach消息),則可以判定該兩卡號屬于同一用戶,對屬于同一用戶的卡號進行標記。
第二階段:讀取數據庫數據,對所有卡號前一周的靜態位置信息中,每次采集的數據均進行聚類分析,將小于或等于設定的閾值d合并為一類簇的卡號進行標記,即說明合并類簇中的卡號在該時刻疑似為同一用戶所使用,將一周的標記結果進行匯總,若存在某些卡號一周中標記數值不小于閾值f,則說明這些卡號疑似屬于同一用戶。
第三階段:對這些疑似屬于同一用戶的卡號需要進行進一步通過其語音特征、短信特征等,基于改進的呼叫指紋識別算法分析確定是否屬于同一用戶。若屬于同一用戶將其卡號劃為一類。
第四階段:最后將模型分析得出的實際用戶數與對應的卡號送入對應的數據庫,完成同一用戶識別分析模型的建立,具體的流程圖如圖2所示。
4? 結果分析與評價
通過基于真實車輛及乘客手機相關數據的實驗評估本文提出的同一用戶識別分析模型,采用Python實現,運行實驗的PC機軟硬件配置如下: Windows10的操作系統,PC機英特爾Xeon(至強) Gold 6130 @2.10 GHz,內存64 GB(海力士2 666 MHz,主硬盤SK hynix SC311 SATA 256 GB (256 GB /固態硬盤),顯卡Nvidia TITAN X (Pascal) (12 GB/NVIDIA)。本文通過基于組合算法CHC?CFA建立同一乘客識別模型,采集上海市奉賢區奉炮公路上某一時間段內行駛的100輛汽車內與之相匹配的乘客手機數據,以車輛A為例,與車輛A相匹配的手機卡號數共有19個,設其ID為1~19。經過模型計算可得100輛車實際乘客人數如表5所示,與實際車輛人數進行比較,準確率達到95%,滿足實際需求。
5? 結? 語
本文提出一種將聚類算法和呼叫指紋識別算法進行組合的算法(CHC?CFA),運用組合算法結合車輛內乘客攜帶手機的實時軌跡數據以及歷史呼叫指紋數據建立同一用戶識別模型,在不需要額外基礎設施的情況下,有效地判別出車輛內實際乘客人數。
最終的測試結果表明,基于CHC?CFA組合算法構建同一用戶識別分析模型,可對行駛到道路上車輛內實際乘客分布情況進行分析,保證一定的準確率。結合車輛信息可為城市交通以及高速公路上是否存在車輛超員提供有效的理論基礎,也可為逐步建設HOV車道檢測問題提出一種切實可行的輔助檢測方法。
注:本文通訊作者為陳斌。
參考文獻
[1] 劉爽.基于時空軌跡的交通數據分析與應用[D].成都:電子科技大學,2017.
[2] 陳令,時玉彬.獲取4G用戶身份信息的設計與實現[J].北京工業大學學報,2018,4(23):103?114.
[3] 王瑜.成都HOV車道的實施效果分析[J].內燃機與配件,2018(11):170?171.
[4] 陳錫清.基于大數據融合分析的雙卡槽雙卡用戶識別算法研究[J].福建電腦,2017,7(52):98?99.
[5] 張一博.基于數據挖掘的雙卡用戶識別模型研究[J].山西科技,2018,5(33):67?69.
[6] 李鐵鋼,馬駟良,王春勝.基于“呼叫指紋”的重入網識別算法及其在移動市場占有率預測中的應用[J].現代情報,2006(12):207?208.
[7] 朱成,劉海強,朱峰,等.電信大數據的數據挖掘關鍵技術分析與探討[J].電信快報,2018(6):22?24.
[8] 穆致君,何陽,楊丹.運營商的大數據業務發展模式分析[J].現代電信科技,2016,46(1):8?12.
[9] 蒲鋒,田真.基于呼叫指紋的重入網識別研究[J].中國新通信,2007(9):74?76.
[10] 李鐵鋼,馬駟良,王彥.改進的呼叫指紋算法及其在重入網識別中的應用[J].吉林大學學報(理學版),2007,45(2): 254?255.
[11] 賀彬.電信經營分析系統重入網子系統的設計與實現[D].成都:電子科技大學,2007.
[12] 劉清松,王霓虹,王偉.權重算法在計算移動用戶重入網的應用[J].自動化技術與應用,2009,28(2):19?21.
[13] 羅亞.移動電話用戶重入網識別及營銷建議[D].北京:北京郵電大學,2010.
[14] 艾達,羅愛平.移動通信重入網用戶識別算法分析研究[J].西安郵電學院學報,2012,17(3):30?33.
[15] 陳大力,沈巖濤,謝檳竹,等.基于余弦相似度模型的最佳教練遴選算法[J].東北大學學報(自然科學版),2014,35(12):1697?1700.
[16] SOLSKINNSBAKK G, GULLA J A. Combining ontological profiles with context in information retrieval [J]. Data and knowledge engineering, 2010, 69(3): 251?260.