張成才 王瑞剛
(西安郵電大學計算機學院 西安 710061)
隨著經(jīng)濟的發(fā)展,人民生活水平不斷提高,各大商場、著名景點等區(qū)域成為群體事件發(fā)生的高頻區(qū)域。1990 年 7 月 2 日,1426 名朝圣者在通往麥加圣地的地下通道里被人潮踩踏致死。這是迄今為止朝覲踩踏事件當中死傷人員最多的一次。2013年3 月28 日西北工業(yè)大學附屬小學學生在西安曲江海洋館乘坐電梯時發(fā)生踩踏事故,16 人受傷。2014 年 12 月 31 日 23時35 分,上海市黃浦區(qū)黃浦江景觀平臺的人行通道階梯處發(fā)生擁擠踩踏,造成36 人死亡,49 人受傷。這樣的例子比比皆是。因此,預防群體事件的發(fā)生對于降低公共場所人群聚集風險具有重要意義。
隨著經(jīng)濟水平的提高,全國移動電話用戶普及率已達到102.5部/百人[1]。移動基站在城市中已經(jīng)隨處可見,電信運營商后臺擁有手機的移動軌跡數(shù)據(jù)。因此本文利用運營商提供的移動終端位置數(shù)據(jù),通過統(tǒng)計分析移動基站下移動終端的接入量以及終端軌跡數(shù)據(jù),通過馬爾科夫鏈構(gòu)建人群密度預測模型,最后通過對人群聚集行為的分析最終建立人群聚集行為預測模型。有助于在人群異常聚集行為發(fā)生之前采取全面、有效的應對措施,更好地對它進行有效預警。
矩陣每個元素均大于等于0,而且各行元素之和等于1,每個元素用概率表示,在具備一定條件下是可以互相轉(zhuǎn)移的,故稱為轉(zhuǎn)移概率矩陣。為了研究人群在單位時間內(nèi)的轉(zhuǎn)移情況,給出如下定義。
定義1:人群轉(zhuǎn)移矩陣。假定單位時間城市內(nèi)人群總數(shù)不變,則在時間(t-1,t]內(nèi),區(qū)域 i 轉(zhuǎn)移到區(qū)域j 的用戶人數(shù)表示為Δaij(t),區(qū)域之間用戶人群轉(zhuǎn)移矩陣為A,則有

定義2:人群轉(zhuǎn)移概率矩陣:在時間(t-1,t]內(nèi),用戶從區(qū)域i 轉(zhuǎn)移到區(qū)域j 的概率為pij(t),區(qū)域之間的用戶人群轉(zhuǎn)移概率矩陣為P,則有

其中pij(t)=Δcij(t)÷ui(t-1),ui(t-1)為在t-1時刻,區(qū)域i中的用戶數(shù)量。
用戶在區(qū)域之間的轉(zhuǎn)移為隨機事件,不考慮用戶離開城市區(qū)域的情況,假設用戶離開城市區(qū)域的概率為0,N為區(qū)域總數(shù),所以得出如下結(jié)論:

對于任意的i 都滿足式(3),即式(2)中的每一行轉(zhuǎn)移概率之和為1,并且0 ≤pij(t)≤1,因此,概率矩陣P 稱之為馬爾科夫鏈隨機矩陣。可用P 來預測單位時間后的區(qū)域下的用戶數(shù)量。即:

定義3:人群密度。根據(jù)當下城市中手機的普及率λ,數(shù)據(jù)所在運營商的手機市場占有率μ和區(qū)域i 的面積ei,可計算出區(qū)域i 下的人群聚集量為,所以區(qū)域i的人群密度ρi(t)為

結(jié)合式(4)可得,未來單位時間后區(qū)域i下的人群密度為

要判定當前區(qū)域是否發(fā)生了人群的異常聚集行為,就需要把當前數(shù)據(jù)和歷史數(shù)據(jù)進行對比。本文中人群聚集行為預測模型的構(gòu)建是通過統(tǒng)計分析研究區(qū)域人群日常聚集情況,其中包括無突發(fā)事件時的人群集量均值sˉ(根據(jù)區(qū)域特性,按照人群相對較為活躍的時段確定均值)以及當前區(qū)域總?cè)藬?shù)sx。
定義4:閾值T,如果sx-sˉ≥T則認為區(qū)域發(fā)生了群體事件,反之,則該區(qū)域無群體事件發(fā)生。
當該區(qū)域在有數(shù)據(jù)記錄時段內(nèi)發(fā)生過群體事件時。統(tǒng)計發(fā)生異常行為時的人群總數(shù)su,定義Di為su-sˉ,然后根據(jù)式(7)和式(8)計算得到閾值T。

將所有的Di由大到小排序,定義權(quán)值ωi滿足ωi=(12)ωi-1,其中i≥2 ,使得Di與其對應的ωi成反比。通過公式(7)求出在權(quán)值ωi下Di的平均值,也就是通過統(tǒng)計的異常值求出最小的閾值T。公式(8)中定義Dx=sx-sˉ,作為約束條件。
這里有兩種情況,第一種當我們使ωi的值唯一時,求得的T 值大小就處在Di序列的中間位置,該T 值相對來說會略大,當所預測的區(qū)域總?cè)藬?shù)與sˉ的差值D 小于T 時,也有可能會發(fā)生群體事件。這樣就不能準確地分析出異常。第二種取ω1=1,ω2=ω3=ω4=…=ωn=0,這種情況看似合理,但是由于影響群體事件的因素過多,會使所計算的閾值相對較小,會出現(xiàn)將正常情況誤判為群體事件差錯,影響預測的準確性。
此外,當研究區(qū)域的人群密度達到一定上限時,不管該區(qū)域有沒有發(fā)生過群體事件,都應看作是一個突發(fā)事件熱點區(qū)域。據(jù)已有研究表明,人群最大安全密度Qmax約為3.8人/m2。根據(jù)監(jiān)控區(qū)域有效活動面積的比值構(gòu)建人群密度閾值如下:

K 城市中居民的有效活動空間比例系數(shù),根據(jù)《城市用地分類與規(guī)劃建設用地標準》[21]可得,居民的有效活動空間比例為38.5%。
根據(jù)第2 節(jié)對未來單位時間后區(qū)域內(nèi)人群密度以及人群總量的研究,結(jié)合第3 節(jié)對人群聚集行為的分析。構(gòu)建出未來時刻的人群聚集行為預測模型為

當m(t+1)值為1時,則表示監(jiān)控區(qū)域即將發(fā)生人群的異常聚集行為,0 則表示監(jiān)控區(qū)域人群流動正常。
本次試驗是針對西安市大雁塔景區(qū)的人群集量進行研究與預測。大雁塔景區(qū)近年來一直飽受游客喜愛,亞洲最大的噴泉廣場和最大的水景廣場就在此地,每年來參觀的游客數(shù)不勝數(shù)。經(jīng)實地勘察,大雁塔是人群聚集行為發(fā)生較為頻繁的地方,所以對該區(qū)域進行研究更加有利于對模型的準確性進行判斷。采用數(shù)據(jù)集為西安市2017 年2 月13日到3 月15 日聯(lián)通手機信令數(shù)據(jù)。據(jù)已有統(tǒng)計顯示,2017 年聯(lián)通手機市場占有率約為73%,移動電話普及率為102.5部/百人[1]。
選取2月16日到3月15日的數(shù)據(jù)作為訓練集,確定閾值T,將情人節(jié)當天的數(shù)據(jù)作為測試集,每隔一小時進行一次測試,針對大雁塔區(qū)域?qū)ν话l(fā)事件進行預測分析,預測結(jié)果如圖1所示。

圖1 區(qū)域接入量預測統(tǒng)計圖
根據(jù)式(10)分析實驗結(jié)果得:人群在16:00 有一次聚集行為的發(fā)生,隨后區(qū)域人數(shù)有一個小規(guī)模的減少,到晚上八點鐘區(qū)域人數(shù)達到了一天的最大值,經(jīng)分析定義為一次聚集行為。據(jù)調(diào)查所知,這兩次群體事件發(fā)生的時段正是大雁塔北廣場音樂噴泉開放的時段。并且本區(qū)域人數(shù)在下午和晚上均維持在一個較高的狀態(tài),因此本區(qū)域應屬于群體事件發(fā)生的高頻區(qū)域。
采用準確率對模型進行評價。

分別將2 月13 日與2 月15 日的數(shù)據(jù)添加到測試集,分別統(tǒng)計了預測結(jié)果。根據(jù)式(11)得到模型的預測精度為86.1%。
根據(jù)運營商提供的用戶手機信令數(shù)據(jù),建立了人群聚集行為預測模型,并對大雁塔區(qū)域的人群聚集情況進行了分析預測,預測結(jié)果與真實情況比較符合,在一定程度上說明利用該模型對群體事件進行預測是可行的。