李欣竹,蔣晨琛,劉進林
(中國人民公安大學 信息技術與網絡安全學院,北京 100038)
近年來,有關犯罪熱點的研究取得了較大的進展,相關的理論和研究方法也不斷增多,尤其在時空分析方面,提出了很多新的方法。針對時空分析機制,犯罪地圖在近年來的運用引起了學者和執法部門的高度重視,就預防犯罪而言,它代表了當今警務研究中最活躍的領域[1]。如單勇提出的城市高密度的犯罪吸引機制,正是利用犯罪地圖并結合城市犯罪學理論,建立犯罪引力模型,揭示城市高密度區域對犯罪的吸引機制[2]。閆密巧提出的基于聚類關聯規則的公交扒竊犯罪時空分析方法,分析了公交路段與時間之間的關聯關系,并且采用先聚類再關聯的方法提高了關聯規則的置信度[3]。除此之外還有徐沖的DP半島搶劫犯罪活動的臨近重復性分析[4],臨近重復發生現象的實證研究最初源于國外學者對于城市的入室盜竊犯罪的研究[5-8],該方法揭示了同類型事件發生的時空分布模式。以上時空分析方法均為結合理論與數學模型搭建的方法,并沒有在三維層面上完整呈現出犯罪時空之間的關系,對于此,Brunsdon等提出了時空立方體的思路,此方法可以完美地將時空關系以立體的形式實現可視化,更容易觀察出犯罪時空之間的關系和規律[9]。除此之外,JOHNSON S D等人則利用一種傳染病時空分析方法(Knox)研究了英國、美國、澳大利亞等多個國家的入室盜竊犯罪行為的時空風險特征,并基于這種特征提出了犯罪時空預測方法[10-11]。
通過上述已有研究可知,當前關聯規則在犯罪時空分析上的應用多采用的是經典Apriori算法,但是此方法要多次掃描數據庫提取頻繁項集,耗時長,效率低。而且,Apriori算法僅通過支持度和置信度進行規則的篩選,在規則的正負關聯關系情況方面分辨程度較弱。因此本文采用基于模擬退火的遺傳算法進行規則的提取,同時采用興趣度進行規則強弱的表示,可更進一步體現出規則關聯關系程度情況。通過利用遺傳算法的全局優化搜索能力和模擬退火算法較強的局部搜索能力,保證規則精確度的條件下,提高規則的挖掘效率,進而提高公安機關的工作效率。此外,目前犯罪時空熱點成因多是通過環境犯罪學理論對犯罪時空模式形成原因進行分析,缺乏結合心理學理論對犯罪主體和犯罪對象的行為解析和心理活動的探索等方面的研究。因此,本文結合心理學理論對犯罪時空熱點模式的原因進行了更進一步的解析。
研究區為海*區行政劃分區域,研究時間為2016年1月~2017年12月。數據主要來源于某法院官方刑事案件審判書,通過案件類型和時間段精確查找出這兩年所有的盜竊案件,最后通過文字選取工具搜集審判書里的犯罪地點、犯罪時間、犯罪人數。本文選取盜竊案作為研究對象,因為盜竊案分散的區域面最廣,對人們的生活影響較大,而且由于盜竊案一般為臨時起意的案件,受環境時空影響較大。此外,盜竊罪很容易轉變成性質更為嚴重的犯罪類型如暴力犯罪等,所以一般通過分析盜竊案的時空熱點來進行區域的犯罪預防一直都是研究人員的重點。
由于本文要探究該地區所轄街道的盜竊案發案頻度的時空關聯關系,因此在進行數據預處理時首先將時間和區域分別進行了劃分,首先把犯罪地點按照娛樂區、休息區、公共區進行劃分,其中娛樂區包括商場、市場、超市、網吧、KTV、飯店、小吃店、洗浴中心、景區等;休息區包括小區、出租房、旅館等;公共區包括醫院、學校、公司、加油站、銀行、公交、地鐵、路邊、停車場、車庫等。再把犯罪時間按照工作時間、休息時間、娛樂時間進行劃分,其中工作時間為8:00~17:00,休息時間為22:00~8:00,娛樂時間為17:00~22:00。之后又通過拾取坐標系統獲取了所有犯罪地點的經緯度坐標數據,最后刪除缺失準確地點和時間的數據,得到有效數據770條。
本文首先采用核密度估計法對盜竊案的空間聚集情況進行分析,得到聚集性較高的分布區域,再通過基于模擬退火的遺傳算法對整個區域的盜竊案發案時空分布情況進行時空關聯分析,篩選出案發時空分布最聚集的街道,最后通過時空熱點矩陣法對該街道的案發時空分布成因進行分析與總結。
1.2.1 核密度估計法
核密度估計法是指通過生成一個描述點聚集程度的平滑估計面來表現空間區域內的犯罪聚集情況[12],并通過制圖的方式使其可視化。因此,對于空間區域內所遍布的犯罪事件中任意一點,而該區域范圍內其他點xi到xk的距離則決定該區域其他點xi,…,xn對點xk的貢獻率。設核函數為K,則點xk處的犯罪概率密度表示如下:
(1)
式中:h表示核密度函數的帶寬,K是核函數,n是所有空間點的數量。
1.2.2 時空熱點矩陣法
犯罪時空熱點矩陣是由利特克里夫提出的一種犯罪時空模式分析方法[13]。該方法把犯罪活動分別按照時間和空間進行分類有以下幾種類型。
(1)分散型。指空間上呈均勻分布,如圖1.a所示,在時間上呈均勻分布,如圖1.A所示。
(2)聚集型。在空間上呈現聚集分布,如圖1.b所示,在時間上呈現出在某個時段內會相對集中并明顯的高于其他時段,如圖1.B所示。
(3)熱點型。在空間上呈現出點聚集情況,如圖1.c所示,時間上呈現集中在特定時段,如圖1.C所示。
通過上述幾種劃分可以將犯罪時空分布模式分為以下九類:a-A,a-B,a-C,b-A,b-B,b-C,c-A,c-B,c-C。

圖1 犯罪熱點在時間和空間上的分布類型
1.2.3 基于模擬退火遺傳算法的關聯分析
關聯規則是一種通過分析挖掘數據的方式找出數據之間存在的關聯關系的一種數據挖掘方法,進行規則提取的最常見的方法就是Apriori算法,主要通過逐層搜索數據庫的方法來實現,但此方法效率過低[14]。而本文采用的是基于模擬退火的遺傳算法提取關聯規則的方法,主要是通過對事務數據庫進行編碼,轉換成比較容易搜索的編碼集,再對所得到的“編碼串”通過選擇、交叉和變異得到全局的最優解。本文中主要采用實數編碼方式,將街道類型按照1~29位數進行編碼,時間與區域類型按照1~3位數進行編碼。此方法只需要掃描一次數據庫,同時在交叉和變異過程中進行模擬退火的處理,避免局部最優解的產生,最后通過一定次數的迭代,得到最終的規則結果[15]。該算法的具體原理如圖2所示。

圖2 基于模擬退火遺傳算法的關聯分析原理圖
圖3是某市海*區2016年和2017年兩年的盜竊案的核密度圖,通過圖3可以看出,西北部的案件分布較少,而且比較分散,東部地區的案件較為集中,且主要集中在東南部。由此可知,該地區盜竊案分布整體呈聚集模式,熱點集中在東南部地區,西北部的案件分布比較均勻,而且案件分布量少。從街道的角度看,西北部有兩個街道呈分散分布。東南部多于三個街道的案發頻度較高,且較為集中。除此之外還有少數幾個街道的案件頻度較低而且比較分散。東南部與西北部類似,大約有三個街道的案發頻度較高,且較為集中。

圖3 盜竊案的核密度分析結果
通過核密度的分析,得到了該地區盜竊案件的空間聚集情況,在此基礎上,利用關聯規則的方法探究海*區盜竊案的時空關聯關系,即發生盜竊案的街道和時間區域類型之間的關聯關系。在進行實際的關聯分析之前,首先將基于模擬退火遺傳算法與Apriori算法提取結果進行對比,將最小支持度設為0.01,最小置信度設為0.2,所提取的規則如表1和表2所示。通過兩個結果的對比可以看出,兩個算法提取的規則基本一致,而且通過本文的算法提取的規則可以看出規則的強弱區別。再通過對兩個算法的挖掘效率進行比較,采用三種數據集在不同支持度的條件下進行實驗,得到的結果如圖4和圖5所示,從中可以看出,基于模擬退火的遺傳算法的規則挖掘效率明顯高于Apriori算法。

表1 盜竊案的模擬退火遺傳算法關聯規則結果

表2 盜竊案的Apriori算法關聯規則結果
對表1的規則結果進行分析,通過觀察興趣度可知,該指標都大于1,表明所有規則都屬于強關聯規則,然后通過關聯規則的結果分析可知,海*街道和紫**街道的發案時段和區域多為工作時間的公共區,萬**街道多在休息時間的公共區發案,而且通過規則觀察可發現,公共區的規則數目較多,即發生在公共區的案件較為頻繁,另外兩個區域案發頻度較低。圖6是所提取的規則在街道尺度上的可視化結果,從中可看出,盜竊案的案發地呈聚集分布,且多集中在南部地區,發生在工作時間的公共區的盜竊案多集中在東南部地區,其他幾個時間區域類型的案件分布比較分散,分布在東南部和西南部。經過統計數據發現,第一季度的發案量是198,第二季度的發案量是232,第三季度的發案量是187,第四季度的發案量是153。由此可以看出盜竊案的案發頻度與季度有相關關系,因此考慮繼續研究不同季度下盜竊案的時空關聯關系,探究是否存在季度性規律,以季度為尺度,進行四個季度的關聯規則的提取。

圖4 支持度為0.01的兩種算法運行時間比較

圖5支持度為0.02的兩種算法運行時間

圖6 盜竊案時空關聯規則可視化圖
通過四個季度的關聯規則結果分析可以發現,首先,第三季度的規則數目最多,第二季度的規則數目最少。但是通過之前盜竊案的案發數量可以發現,第三季度的案發量是少于第二季度的,由此可以看出第三季度的盜竊案的案發街道比較分散,第二季度的案發街道相對來說比較集中。從規則的數目上看,工作時間的公共區的案發規則數目最多,再從支持度的角度看,紫**街道和海*街道的支持度一直都很高,也就是表明這兩個街道的發案最頻繁,而且興趣度和置信度也都很高,即關聯規則提取的精確度和可信度都很高。其次,還可以發現休息時間的公共區在第一季度和第三季度的發案頻度較高僅次于工作時間的公共區,而娛樂時間的公共區在第二季度和第四季度的發案頻度類似。因此應分別注意對工作時間的公共區和休息時間的公共區在相應的發案頻度高的季度里加強盜竊案的防范。
通過上述關聯規則的分析可以看出該區域街道的盜竊案發生的時間區域類型規律,也可以看出案發頻度較高的幾個街道,四個季度綜合來看,海*街道案發頻度始終很高。前面的分析只是給出了街道地區發案的大致時空規律,并沒有給出犯罪熱點的成因解析,因此下面利用時空熱點矩陣法,對海*街道進行進一步的社區尺度的時空熱點分析,并根據時空熱點矩陣的分布模式,探究上述犯罪時空關聯關系的形成原因。
圖7和圖8是海*街道的時空熱點矩陣圖,通過該圖可以看出該街道的熱點時空分布屬于(b-B)型分布,案件數量為88起。從空間分布上看,該街道的盜竊案主要分布在某購物商場社區和某大學社區。從時間分布上看,各個時間段都有案件發生,而且主要集中在午休階段,根據之前關聯規則的結果,海*街道的高危時間區域類型是工作時間的公共區,通過該圖可以發現,海*街道的盜竊案多集中在娛樂區里的娛樂購物場所,除此之外還有公共區的學校區域,案發時間多在工作日的午休時間。第一個區域開放性和自由度較高,商業和服務集中,經濟活躍,城市活動頻繁,人口密集,其犯罪的預期性使得該區域成為盜竊犯罪的理想地。根據犯罪心理學理論,違法者會采用一種中性化技術來安慰自己,將自己的行為合理化,從而使自己的負罪感被中性化,而這種合理化解釋機制在偷竊商店者中最為常見[16],因此在購物中心這種商店聚集的娛樂場所,盜竊案的發案頻度會很高。除此之外,盜竊的動機除了獲得利益金錢以外,還會獲得自我滿足和成就感,因此目標越多,罪犯的成就感就會越強,就越容易在此地繼續犯罪,甚至多次犯罪[17]。此外根據行為學習理論,人的行為自收到強化后會維持行為的實施,主要是為了追求快樂,避免痛苦[18]。因此盜竊犯在一次作案成功后,會受到正強化而重復作案,從而使該區域盜竊案頻繁發生。午休時間是大多數職員吃飯休息的時間,導致自身防范程度下降,根據歸因理論,盜竊犯在目標防范性差時,會把對方成為盜竊對象歸因于對方自身不小心的問題,從而降低自身的愧疚感,這種自我安慰的想法使得罪犯對自己的行為毫無悔意,而變本加厲地實施盜竊,因此該區域在午休時間發案較為頻繁[19]。至于學校區域,在宿舍無監控的條件下,很容易引發入室盜竊的發生,尤其是大部分高校后勤部門引進了很多商業網點和經營活動,這些商業網點、食堂承包商、外來務工人員都入住在學校,這些人流動性很大,成分復雜,法制觀念淡薄,一旦有可乘之機,便會混入宿舍樓中實施盜竊。除此之外,從圖7中標注處可知,籃球場的案發頻度也很高,這是因為在籃球場打籃球的學生多把隨身衣物放在旁邊,無人看管,給罪犯提供了犯罪機會,增加了盜竊成功的機會。因此在學校和購物中心這兩類區域應在白天提高警惕,預防犯罪發生。根據期望理論,人的表現水平基于其對以特別方式行事所能獲得的結果預期[17]。根據預期水平,罪犯會選擇是否實施犯罪,因此當監管程度低的時候,罪犯的預期結果會更高,從而實施盜竊的概率也會提高。

圖7 海*街道時空熱點矩陣-空間分布圖

圖8 海*街道時空熱點矩陣-時間分布圖
本文首先針對盜竊案發案頻度的時空關聯關系進行了探究,在關聯規則分析中,首次將模擬退火遺傳算法應用到犯罪關聯分析領域,在保證規則精度的前提下提高了規則的挖掘效率。同時利用該方法分析出了在不同季度案發頻度高的幾個街道以及高危案發時間區域類型,即該地區的盜竊案主要分布在海*街道、萬**街道和紫**街道,而且時間區域類型多為工作時間和休息時間的公共區,因此應在這兩個時間區域類型內對該街道加強犯罪預防。根據季度的不同,盜竊案的預防策略也應有所變化,即應在第一季度和第三季度在紫**街道和海*街道的工作時間和休息時間的公共區域內加強盜竊案的預防和控制,而且重點放在東南部和中部地區。在第二季度和第四季度的工作時間和娛樂時間的公共區內加強犯罪預防,重點仍然放在南部地區。之后又進一步在社區尺度上對案發頻度最高的海*街道進行了時空分析,通過時空熱點矩陣法,結合心理學理論,對熱點成因和分布規律進行了更深一步的分析。
通過上述分析,提出如下防控策略,應在海*街道的學校、醫院、購物商場以及居民小區等地方的工作時間加強盜竊案的預防,尤其在監控方面和群眾自身防范意識加強的宣傳方面多加注意。同時在地鐵站、公交站等交通集中的地帶和出租房區域的休息時間加強犯罪預防,尤其在夜間的安檢方面和監控死角的清除方面應投入更多的警力。本文的難點主要在數據的獲取上,通過審判網收集的數據,會忽略已經撤訴的案件,因此案件的收集不完整,而且信息量少,對于罪犯的身高、體重以及家庭情況等都沒有涉及,無法進行更深一步的分析。因此,以后的研究方向主要集中在罪犯自身的情況對犯罪熱點所造成的影響,在這一層面應用犯罪心理學進行熱點成因的解析。