蔡 曄,王占宏
當前在公安部門被廣泛采用的仍然是人工分析的手段。這種人工分析的方法往往面臨很大的挑戰:例如分析的數據和信息通常分布在許多不同的數據源,信息量大且缺少關聯性;并且人工的分析手段通常被看作是一種特殊的專業技能,很難在一個大的組織中進行經驗的共享和傳遞,因而存在一定的局限性。
從國內外與數據挖掘相關的研究領域中,我們發現,采用可視化技術將不同類型的數據和數據間隱含的關聯信息進行描述和展現,并借助眾多空間數據挖掘的方法)來發現和揭示數據中隱含的公共要素和關聯,已成為該領域研究所采用的手段和方法的發展趨勢。
城市違法案件在一定的地域環境下,并不是隨機分布的,而是與該地區的人口、環境、經濟、政策、社會因素有著必然聯系,并表現為一定的時間和空間形態。掌握違法案件的時空分布規律,對有效打擊違法案件、提高民眾對社會安全信賴程度起著非常重要的作用。在眾多的空間數據挖掘方法中,熱點分析是理解事件間隱含關系的有效工具,通過熱點分析可以有效地對事件做出回歸分析和前景預測,因此將違法案件治理、預防與熱點分析結合起來將更好地幫助研究人員得出科學的結論。
在空間數據挖掘領域里,學者們就熱點分析所做的研究工作大致可分為如下幾類:劃分技術、網格技術、密度技術、層次聚類技術以及空間自相關。這些方法各有特點,但空間自相關不僅能夠探測熱點,還能夠揭示事件間的聯系,所以本研究中采用自相關分析方法。
本文采用上海2009年盜竊、搶劫違法案件數據進行處理和熱點分析,并選取了常住人口密度、來滬人口密度等可能影響違法案件發生的18 個指標,進行了主成分分析,探索隱含的空間關聯模式。有助于打破以往被動預防違法案件的局面,主動對重點區域、重點指標加強管理,為城市預防違法案件措施在空間上的合理布局,提供決策導向和參考。
(1)研究范圍
研究區域上海,地處長江三角洲前緣,面積約為6340平方公里,1900 多萬常住人口,是中國經濟、金融、貿易和航運中心,共19 個 區縣,包含“中心城核心區”包括黃浦、靜安、盧灣、虹口;“中心城邊緣區”包括楊浦、閘北、普陀、徐匯、長寧;“近郊區”包括青浦、松江、嘉定、閔行、寶山、浦東;“遠郊區”包括金山、奉賢、崇明。數據處理和統計的單元為派出所轄區,共有441。
(2)數據來源與處理
空間數據來源上海警用地理信息系統,包括行政區、派出所范圍。案件數據來自上海市公安局網上辦案信息系統,根據研究需要重點抽取了2009年搶劫、扒竊數據,并按照派出所進行統計。人口、房屋數據來自上海市實有人口信息管理系統,包含戶籍人口、外來流動人口、境外人口、出租房、閑置房、自住房、集體宿舍、工地工棚,娛樂休閑等場所數據來自上海市公安局派出所綜合信息系統,上述數據通過ETL 工具根據研究需要進行抽取,并進行了預處理。
(1)熱點分析Hotspot analysis
本次研究采用了ARCGIS9.1的熱點分析工具,熱點分析工具為數據集中的每一個要素計算 Getis-Ord Gi*,得到高值或低值要素在空間上發生聚類的位置。
Getis-Ord 局部統計可表示為:

其中xj 是要素j的屬性值,wi,j 是要素i 和j 之間的空間權重,n 為要素總數,且:

(2)主成分分析
主成分分析 (Principal Component Analysis,PCA )是一種掌握事物主要矛盾的統計分析方法,它可以從多元事物中解析出主要影響因素,揭示事物的本質,簡化復雜的問題。
本次研究中,我們把盜竊、搶劫案件1 到12 月份熱點區域常住人口密度、來滬人口密度、境外人口密度、出租房數、閑置房數、自住房數、集體宿舍數、工地工棚數、旅店數、娛樂休閑場所數、歌舞廳數、網吧數、桑拿洗浴場所數、游藝游戲機房數、臺球廳數、酒吧數、咖啡吧數、茶室數量18 個指標,利用SPSS 進行了主成分分析。
計算結果得出了盜竊、搶劫案件每個派出所的Z、P 值,當P 值<0.05 時,形成的Z值有兩個區間,即Z>2.58,Z<-2.58,說明兩類案件都具有明顯的空間聚集,即具有熱點和冷點。如圖1、圖2所示:

圖1 上海市2009年1~12 月盜竊案件違法案件熱點/冷點時空分布

圖2 上海市2009年1~12 月搶劫案件違法案件熱點/冷點時空分布
上海市盜竊案件和搶劫案件的熱點、冷點時空分布圖,圖中深紅色表示案件的熱點區域,深藍色表示是案件的冷點區域。
圖1 顯示盜竊案件違法案件熱點主要以“中心城核心區”為中心,隨季節變化而動態變化,前3 季度主要向東西方向延伸,而第四季度向南北方向延伸,而遠郊區基本是違法案件冷點。圖2 顯示,搶劫案件違法案件熱點主要集中在中心城邊緣區和近郊區,而中心城核心區在大多數季節是違法案件冷點。
分析結果顯示同類案件不同時間的主成分分析結果基本一致。而盜竊案件和搶劫案件的分析結果還是有較大的差別。
如表1,表2所示:

表1

表2
2009年9 月上海盜竊案件的主成分分析結果,表2 剔除了累計貢獻率大于85%以后的成分。
2009年9 月上海搶劫案件的主成分分析結果,表4 中剔除了累計貢獻率大于85%以后的成分,如表3,表4所示:

表3

表4
根據分析結果和實際調查,影響盜竊案件的主要因素是娛樂休閑場所、歌舞廳、游藝游戲機房、桑拿洗浴場所,而影響搶劫案件的主要因素是來滬流動人員密度和出租房屋數量。
我們通過對上海2009年1 月~12 月的盜竊、搶劫數據進行空間數據挖掘,發現了上海盜竊、搶劫違法案件的整體態勢和空間上的動態變化趨勢,并通過主成分分析,解析出了影響盜竊、搶劫違法案件熱點的主要影響因素。所以,我們建議在市中心區域加強娛樂休閑場所、歌舞廳、游藝游戲機房、桑拿洗浴場所等的管理,而在近郊地區加強來滬人員和出租房屋的管理,并加強巡邏。
[1]白亮.數據挖掘淺析[J].廈門科技,2010,(03)
[2]張修鵬 李捍東 孫航白保良.論數據挖掘技術及應用[J].現代商貿工業,2012,(11)
[3]張鵬.淺談數據挖掘技術及其應用[J].科技信息(學術研究),2008,(12)
[4]彭振龍丘金壽.基于數據倉庫的電子政務數據挖掘研究[J].宜春學院學報,2012,(4)