黃賀賀,曾園園,張 毅,奈 何
(武漢大學 電子信息學院,武漢 430072)
近年來,隨著社會經濟的發展,城市的人口密度急速增大,給城市建設和管理的各個方面帶來巨大挑戰。在公共安全方面,由于人群異常聚集而導致的各類安全問題時有發生,因此對人群異常聚集現象進行預測具有重要的現實意義。
目前,國內外學者對人群異常聚集的預測方法進行了深入的研究,大多數基于圖像處理的監控系統已投入運行并已取得了一定的效果[1-2]。然而,基于圖像處理的方法具有局限性,例如,攝像機無法捕捉視野外的元素且易被其他障礙遮擋,難以融合來自多個攝像機的信息以獲得全局態勢感知。另外,基于圖像處理的方法需要良好的照明條件,因此,對于發生在夜間的事件而言,該方法難以發揮作用。
許多研究者根據各區域的人群密度歷史數據和用戶的歷史移動軌跡數據,利用時間序列分析方法或概率模型預測未來的人群密度分布。文獻[3]提出一種利用長短時記憶網絡預測行人軌跡,從而估計各區域人群密度的方法。文獻[4]根據用戶的歷史移動軌跡數據構建基于馬爾科夫模型的路徑預測系統,用于預測每個用戶的未來位置和停留時間。上述方法對于日常的人群密度預測問題較為有效,然而人群異常聚集事件具有突發性,此類方法可能無法取得很好的效果。
針對人群異常聚集現象,許多學者嘗試從分析人群的移動行為模式出發,預測各區域的人群密度分布情況,從而提早發現人群異常聚集現象。文獻[5]指出,一起人群聚集導致的踩踏事件的形成過程可以分為4個階段,即自由移動-停留-擁堵-踩踏。文獻[6]建立了一個社會力模型來分析人群移動機制,綜合考慮了行人意圖、期望速度和個體之間的相互作用。文獻[7]提出一種密度泛函理論,綜合考慮環境因素和行人在不同環境下的移動行為,用以預測人群密度的分布情況。上述方法均基于人群的移動行為特征進行分析,然而對于人群異常聚集事件而言,群體情緒、公共輿論等因素對于群體行為也有重要的影響[8-9]。因此,對于人群異常聚集現象的預測問題,需要從多個維度全面具體地分析和描述群體行為,以提高預測性能。
本文提出一種基于用戶群體行為分析的人群異常聚集預測方法。通過對比分析異常聚集場景和正常場景下用戶群體的上網行為和空間移動行為,發現不同場景下用戶行為的差異性。根據群體上網行為和移動行為對未來時刻是否會發生異常聚集事件進行預測,得到最終的預測結果。
隨著智能移動終端的普及和移動互聯網的發展,通信基站會記錄大量用戶產生的會話數據,這些數據準確詳細地記錄了用戶的移動行為和上網訪問內容,為群體行為的分析研究提供了數據支撐[10-11]。
大量的研究證明,人類行為在宏觀上服從一定的模式[12-13],各個基站覆蓋范圍內的人群密度分布具有一定的穩定性[14-15],因此,可以通過設定閾值的方式來判定當前區域是否發生了人群異常聚集事件。
由于特定區域上的人群密度分布在一天內會隨著時間變化,且同一區域上的人群密度在工作日和節假日時也會有所不同,因此對于某特定基站所在的區域,定義其人群密度期望值如下:
(1)

在此基礎上,定義人群聚集的異常判定閾值如下:
(2)

將用戶群體訪問過的內容按照業務類型分為19類,如表1所示。

表1 用戶訪問內容分類Table 1 Classification of content accessed by users
對正常場景和異常聚集場景下的用戶群體訪問內容分布進行統計,結果如圖1所示。可以看出,兩類場景下的用戶上網流量分布具有一定的相似性,都主要集中在社交、購物、音樂、視頻、新聞等類型上,說明用戶群體的內容偏好在不同場景下具有一定的穩定性。

圖1 不同場景下的用戶訪問流量分布
需要注意的是,在異常場景下,社交類應用的流量占比有明顯提升,說明異常聚集場景下的用戶群體更多地訪問社交網站,更頻繁地在社交網絡上分享內容或獲取內容。此外,正常場景下的出行類內容(主要包括打車出行類和地圖類內容)的占比明顯高于異常場景下,說明在異常場景下的人群移動行為具有明確的目的地,并且移動范圍較為有限。
通過以上對比分析,可以將一起人群異常聚集事件的發生過程分為3個階段。首先,在某區域上發生一起突發性事件,然后,此事件引起區域附近人群的關注并移動至該區域,最后,該區域的聚集人數遠超正常值,如圖2所示。其中,在第2個階段,當前區域內群體對于突發事件的反應是在社交網絡上分享信息,即訪問的內容集中在少數熱點內容上,從而可以推斷異常聚集用戶群體的訪問內容分布會表現出較高的相似性。

圖2 異常聚集事件發生過程
對于異常聚集事件的預測問題,除了傳統方法使用到的人群密度的時間序列信息之外,群體的上網行為信息以及相鄰區域上的群體行為信息均可提高預測的準確性。
根據以上分析,異常聚集的用戶在上網內容上可能會表現出較高的相似性,使用Jaccrd相似系數衡量用戶間的相似度,定義如下:
(3)
其中,N(u)表示用戶u的訪問內容集合。然而在實際場景中,網絡中會存在一些流行內容被大部分用戶都訪問過,顯然這類內容用于衡量相似度會導致偏差,因此需要降低這些流行內容的權重,將式(3)的分子修改為如下形式:
(4)
其中,i為被用戶u和用戶v共同訪問的內容,C(i)為內容i在同時段被所有用戶訪問的次數。
在得到用戶之間的訪問內容相似度后,對觀測區域在指定時段內的用戶群體構建有權相似網絡G=。其中,U為用戶集合,每個用戶對應相似網絡中的一個節點,E為連邊集合,每條邊的權重為對應的一對用戶之間的Jaccrd相似系數。在此基礎上,定義群體行為平均相似度為相似網絡中所有連邊的平均權重,具體如下:
(5)
其中,∑E表示所有連邊權重的加和,nnum(E)表示網絡中連邊的條數。
對2種場景(正常現象和異常聚集現象)下的用戶群體行為進行比較分析。統計2種場景下的用戶間的Jaccrd相似系數,大致分布如圖3所示。可以看出,人群異常聚集場景下的用戶相似度大多在0.7以上,顯著高于正常場景下的0.3,即異常聚集場景下的大部分用戶上網行為的相似度較高,說明用戶群體的異常聚集現象是由現實中的特定事件引起的,用戶對此類事件的反應為社交網絡中的使用流量增加,用戶間的上網訪問內容分布非常相似。

圖3 不同場景下的用戶行為相似度分布
Fig.3Distribution of user behavior similarity indifferent scenarios
下面驗證用戶群體行為特征信息對于人群異常聚集現象的預測是否有用。由于人群異常聚集現象的直接特征為人群密度,因此需要計算所有基站上的人群密度分布的香農熵和已知群體行為特征信息條件下的條件熵。香農熵和條件熵的定義分別如式(6)和式(7)所示:
(6)

(7)

分別對正常和異常聚集場景下的人群密度的香農熵和條件熵進行統計計算,繪制累積分布函數圖(Cumulative Distribution Function,CDF),如圖4所示。可以看出,在兩種場景下,人群密度分布的條件熵均低于香農熵,說明群體行為平均相似度信息能夠有效降低人數的不確定性。

圖4 不同場景下人群密度分布的香農熵和條件熵
Fig.4 Shannon entropy and conditional entropy of crowd density distribution in different scenarios
值得注意的是,異常場景下人群密度分布的條件熵顯著低于香農熵,即群體行為特征消除人群密度分布的不確定性的作用更為明顯,因此,群體行為相似度是預測異常聚集的一個有效特征。
在圖2中,引起用戶關注到聚集大量用戶的過程中,由于人的移動行為具有時空連續性,即區域最終聚集的人群是從相鄰區域移動而來的,因此一起異常聚集事件的影響范圍不局限于該特定區域,其相鄰區域也會受到一定的影響,需要考慮相鄰區域上的群體行為特征對于人群異常聚集現象是否會產生影響。
基站的空間網絡拓撲結構(如圖5所示)可以根據基站的經緯度信息,選取距離最近的幾個基站作為該基站的鄰接基站。然而在實際場景中,由于建筑布局、道路設施等因素的影響,空間上直接相鄰的基站之間可能無法進行用戶交互,因此根據用戶的移動軌跡,采用兩基站間的交互用戶數量作為連接權重,取權重排名前6的基站作為該基站的相鄰基站。

圖5 基站空間拓撲結構
莫蘭指數是一種用于衡量空間特征相關性的指標,被廣泛應用于各領域的空間結構問題分析中[16-17]。本文采用局部莫蘭指數量化分析當前區域的聚集屬性,定義如下:
(8)
其中,n為空間網絡中的節點數量,本文中特指基站數量,x為待觀測的指標,本文中特指群體行為平均相似度,ωij為節點連邊權重,本文中特指兩個基站間的用戶交互數量。
對于人群異常聚集場景,局部莫蘭指數為正值表示當前區域與相鄰區域具有相近的特征表現,說明當前區域具有聚集的潛在可能,為負值則說明當前區域暫無聚集的可能。
計算數據集中發生異常聚集現象的基站人數分布的信息熵,以及已知局部莫蘭指數信息后人數分布的條件熵,繪制累積分布函數圖,如圖6所示。可以看出,局部莫蘭指數能夠降低人數分布的不確定性,即空間網絡中的信息有助于提高基站人數分布的可預測性。

圖6 局部莫蘭指數條件熵的累積分布函數
Fig.6 Cumulative distribution function of conditional entropy of local Moran’s I
異常聚集場景具有以下典型特征:
1)突發性:事件的發生在較短時間內吸引了大量用戶聚集。
2)持續時間短:事件的發生過程持續時間通常不超過2 h,即人群聚集一段時間后又迅速疏散。
3)非周期性:當前區域的歷史數據中可能從未發生過類似事件。
4)影響范圍廣:事件的空間影響范圍不局限于指定觀測區域,鄰近區域也會受到影響。
由于人群異常聚集現象的突發性和非周期性,常用的時間序列分析方法(LSTM、ARIMA等)不適用于此問題。此外,已知空間網絡中鄰近區域的特征信息有助于提高目標區域人數的可預測性,因此,最終的問題模型應當是多元輸入的非線性模型。
基于以上分析,模型選擇需要考慮時間序列的因果性以及多維特征的信息融合問題。CNN網絡模型的卷積層-池化層結構能夠滿足多維特征信息融合的基本要求。在此基礎上,本文采用擴張因果卷積[18]模型(Dilated Convolutional Neural Network,D-CNN)作為整體模型的基礎部分,其基本結構如圖7所示。在隱層間的信息傳輸過程中,當前網絡節點的輸出只能與之前時刻的輸入有關,以保證信息傳輸過程中的因果性。

圖7 擴張因果卷積神經網絡結構
在單個樣本中,對于待預測的區域,需要考慮人群密度、群體行為相似度和局部莫蘭指數3個特征,對于6個相鄰基站,需要考慮人群密度和群體行為相似度2個特征,因此,模型輸入包含15個時間序列信息。對于每個特征,從待預測的時刻回溯4 h,每15 min進行切片,構造長度為16的時間序列。將所有特征拼接成一個二維矩陣,因此,單個樣本的大小為15×16的二維矩陣。樣本標簽為下一時刻是否會發生異常聚集現象,1表示會發生,0表示不會發生。
本文模型結構如圖8所示,單個樣本中的每一個時間序列對應一個D-CNN層,共15層。將每一個卷積層的輸出拼接成一維向量,通過邏輯回歸模型(Logistics Regression,LR)[19]得到最終的輸出。

圖8 預測模型整體結構
本文預測方法的核心思想為考慮異常聚集發生時用戶的上網行為變化以及用戶行為特征的空間自相關性,利用擴張因果卷積神經網絡和邏輯回歸模型的組合模型進行預測,預測方法流程如圖9所示。

圖9 本文方法預測流程
本文實驗采用廣東省江門市的中國聯通記錄的用戶上網詳單數據,包括2018年4月和5月的完整數據,數據集的關鍵字段和示例如表2所示。用戶ID為脫敏處理后的用戶手機號碼,時間為該條上網記錄的產生時間,基站標識為用戶連接的基站的唯一標識,URL為用戶訪問的網址信息。本文所有數據處理及算法設計均在Spark大數據平臺環境下運行。

表2 數據基本字段與示例數據Table 2 Basic data fields and sample data
本文選取時間序列分析方法LSTM和ARIMA作為對比算法。首先使用模型預測人群密度,然后通過一個線性判別器來判斷未來是否會發生異常聚集現象。同時,為了驗證擴張因果卷積神經網絡的有效性,選用機器學習中被廣泛使用的XGBoost模型[20]作為對比模型。
分類問題的模型評價指標通常選用精確率(Precision)、召回率(Recall)和F1值(F1-Measure)。對于面向公共安全的人群異常聚集預測問題而言,通常認為召回率(查全率)是更為重要的評價指標,即可以接受一定的誤報率,但要盡可能地檢測出所有異常聚集現象。具體的實驗結果和模型訓練過程如表3、圖10和圖11所示。
表3 4種模型的實驗結果對比
Table 3 Comparison of experimental results of the four models

模型精確率召回率F1值ARIMA0.840.830.83LSTM0.810.840.82XGBoost0.910.910.91D-CNN0.930.970.95

圖10 D-CNN模型訓練過程

圖11 4種模型的預測結果對比
從實驗結果可以看出,本文預測方法在3項評價指標上均取得了最好的效果,驗證了群體行為特征信息和空間相關性信息對于人群異常聚集現象預測的有效性。需要注意的是,在相同的特征信息上,D-CNN模型的表現優于XGBoost模型,說明D-CNN模型對于多維時間序列分析問題的有效性。
此外,基于時間序列分析的模型ARIMA和LSTM在各項評價指標上的表現并不理想,其可能的原因是時間序列分析模型會累積預測誤差,預測結果與真實序列的差異呈現出一定的滯后性,如圖12所示。時間序列分析模型在人數快速增加時會產生較大的誤差,因此,人群異常聚集事件的突發性會使得該類模型的誤差較大,導致異常現象的誤判和漏判,從而影響預測性能。

圖12 LSTM模型誤差
針對現實生活中時常發生的人群異常聚集現象,本文提出一種考慮用戶群體上網行為特征和空間自相關性的預測方法。通過引入用戶群體行為特征和群體特征的空間自相關性,全面地描述和分析異常聚集現象下的群體活動特征,從而提升預測性能。真實的中國聯通數據集上的實驗結果表明,與ARIMA、LSTM和XGBoost模型相比,該方法對于人群異常聚集預測的準確性更高。下一步將引入社交網絡中的內容信息,更加全面細致地刻畫群體行為,以進一步改善預測性能。