韓 旭 熊 鑫
?
大數據背景下的犯罪情報研判——以PGIS平臺為中心的情報體系構建
韓 旭 熊 鑫*
大數據時代背景下,原本依靠人工計算和推演的犯罪情報研判體系一步步更新升級。借助可視化技術,犯罪活動實時分布態勢、趨勢預測的工作也從單調冗長的文本數據逐漸變成了清晰分明的曲線和地理犯罪圖譜。我國警務工作借助PGIS平臺,初步完成了數據可視化的基礎建設,并已經能夠初步進行二維平面的犯罪時空軌跡、犯罪熱點分析。但在提高工作效率的同時也暴露出了理論和實踐結合不甚嚴密、各平臺口徑不一和協作不足、數據甄別挖掘和轉化能力不足等相關問題。對此,可以以PGIS平臺的完善為突破口,多端口寬口徑的接入數據后,嵌入對數據的匯總篩選分級,構建起警員、犯罪嫌疑人、受害人等不同主體的行為模型,并借助Moran’sI指數及公式為代表的空間自相關性分析方法檢驗其輸出結果的合理性,最后運用回歸聚類模型和可視化工具分析出犯罪風險地域和時空軌跡,初步推導出犯罪類型及犯罪熱點的安全區與多發高發區域,對比分析后推導犯罪誘因并制定針對性的解決方法,為現實的警力分配、犯罪控制提供數據支撐,也為未來以PGIS平臺為突破口的現代犯罪情報研判體系構建提供發展方向。
大數據;數據挖掘;可視化;情報建模
大數據,顧名思義,實踐概括出的類型多樣(Variety)、數據量大(Volume)、增長速度快(Velocity)是大數據的突出特點,幾經發展后來者又加入了真實(Veracity)、可視化(Visualization)和正當性(Validity)等要素,從3V理論到6V說,名稱雖不停在變,但由于數據時代下個人行為信息痕跡愈發明顯,大數據內涵在聯系犯罪情報研判應用中聯系也愈發緊密,尤其是之后新增的可視化、正當性等要素。
大數據,核心價值在于數據信息的運用。在大數據的具體運用里,不同于早期粗糙的地理環境學派,現代情報研判要面對前所未有的數據洪流。因此如何在日常預防打擊犯罪中,在數據海洋中及時的搜集篩選出真實有效的情報信息并將其分類、建模、可視化幫助偵查人員推進執法進程便成了相關研究的重難點。現實中包括PGIS警用地理信息系統平臺(英文全稱為Police Geographic Information System Platform,下文簡稱為PGIS)等在內的現代犯罪情報研判體系也已經逐漸開始適應——從依靠原始人力智力和單人手工到越來越依靠以SPSS和Ucinet[1]等為代表的集群大數據分析及可視化工具來開展工作,包括情報數據的搜集、篩選、分析、挖掘、制圖、實時支援等步驟,最終在上述數據綜合平臺上展示分析的結果,包含行為模式預測、犯罪熱點分析、犯罪時空規律研判等多重熱門難點,而且隨著建模技術和數據的運用度提高,工作中也可以依據合理數據針對警員、犯罪人、受害人不同主體構建出不同模型以供參考,反過來再針對PGIS平臺數據搜集到最終呈現等環節中的不足并加以改進。
在對犯罪情報數據的運用上,早在18世紀便已經有了犯罪地理學的早期研究,但真正意義上的大數據背景下的犯罪情報研究卻是出現在GIS技術(地理信息系統)、MIS(警用電子信息系統)和Ucinet等成熟之后,隨著電子技術的發展,基于犯罪時空軌跡分析和數據可視化的新型情報研判已成大勢。
國外從早期的地理環境決定論、芝加哥犯罪學派到犯罪行為學派一路走過來,引入了實證主義、科際整合理論等學說,并衍生出來社會解組理論、日常活動理論、犯罪可防范空間理論、理性選擇理論、回歸理論等理論,從不同角度的犯罪誘發因子分類歸納,在宏觀的層面上探討了犯罪現象在同種族隔離、收入差距、居住流動性、土地利用情況等多種因子影響下的關聯關系,從而為犯罪情報研判體系構建提供了基本坐標和較大的借鑒意義。
20世紀80年代,由于大數據的到來使得情報信息需要更加細致的篩選和分析,加上犯罪率居高不下,情報研判也從事后被動的案發型情報搜集到事前型搜集分析情報,理論研究則開始轉入微觀層面,學者們更多的轉向研究情報預測研判,結合專業人員設備,開啟新的思維方式和運作模型。比較具有代表性的有如艾克勒姆提出的五步分解法,用來來收集情報(information gathering)、分析解讀(analysis and interpretation)、戰略設計(devising strategies)、戰略實施(implementation)科學評估(evaluation),和DIKI鏈的思維模式——即數據(Digital)、信息(Information)、知識(Knowledge)、情報(Intelligence)模式。
具體實踐中由于20世紀90年代情報導向警務戰略(Intelligence-Led Policing strategy,簡稱ILP)的提出,西方各國均以減少和預防犯罪為目標,并依托現代計算機信息技術及其他先進科技發展,如英國國家情報模式下的情報核心分析系統(ICAS)、美國的計算機統計模式下的比較數據系統(COMPSTAT)、澳大利亞的執法情報網絡(ALEIN)、加拿大的自動化犯罪情報信息系統(AlClS)等都是如此,以美國為代表的西方發達國家更是總結出了一套“數據統計+數據挖掘+犯罪制圖”的技術分析路線,更衍生出了犯罪分析師等專門性職業,并取得了不錯的成績。有數據表明,美國洛杉磯警局目前已經能利用大數據分析軟件,將轄區里的盜竊類犯罪降低了33%,暴力類犯罪降低了21%,財產類犯罪降低12%[2]。
但同時情報研判體系的實踐探索仍是在社會學領域的日常活動理論和社會解組理論[3]指導下進行的,理論的相對滯后使得工作停留于通過制定犯罪因子來探索犯罪發生規律的固定模式,一方面沒有真正打破科際邊界,對犯罪因子的“執著”導致不能跳出區域層次指標的限制,從而引入統計學和情報學的知識體系來迎接大數據時代帶來的挑戰。在PGIS等定位制圖工具日益更新的同時,還停留在原本的某地域犯罪因子之間影響及平面規律的探尋,雖然較好的結合了現有技術,在實踐上構建出了一套犯罪情報研判體系,但仍無法就犯罪預測和防控的策略給予精準有效的探索指導。
另一方面這仍是“被動型”的偵查,對犯罪的預判預防顯得不足,只能在犯罪發生后依靠更多的人力物力抓獲罪犯,在“犯罪黑數”增長的同時,未能將宏觀層面的地理、亞文化、政策和微觀個人的心理生理、行為模式、人身特征等多方因素結合,甚至跳出社會學領域的限制使用統計學知識和網絡云計算能力構建出一整套全局型、通用型的犯罪研判模型,達到預測預防犯罪的目的。
1.國內理論探索
與西方國家不同是,我們國家原本由于歷史原因在這方面起步就較晚,近代最早的相關研究也是從改革開放伊始。深入程度也參差不齊,受國外行為學派、犯罪生態學派的影響,有最早的如祝曉光、王發曾等先驅們對的宏觀犯罪因子和犯罪空間等的相關研究,開始嘗試運用統計學方法研究城市犯罪的動態變化規律,并通過對國內外關于城市犯罪空間模式研究的講解評價,對城市犯罪發展趨勢預判的方法(相關因素法、時間序列法)進行了簡要的介紹,但這些多集中于介紹國外學術理論,少有中國模式,但正因如此我們也可以在國外的有益經驗上加以借鑒。
改革開放后期研究逐漸從宏觀轉向微觀層面研究影響因子,加上大數據理念的提出,開始結合統計學模型和GIS技術探索適合我國的模式。耿莎莎等利用GIS軟件,通過分析中原地區某縣城10年的城區犯罪案例數據,結合城區土地利用現狀圖、道路圖、社區人口統計資料,對該縣城區不同犯罪類型和不同年份的犯罪數據進行了空間分析。杜德斌和湯建中教授通過純粹的數學建模,推導并得出犯罪期望效用和成功概率共同決定犯罪行為空間區位選擇的結論,建立了犯罪區位選擇的微觀模型;毛媛媛、戴慎志等以公安年鑒和晚報報道的犯罪數據為研究基礎,通過統計和回歸分析,得出了上海市一定時期內犯罪案件間分布特征,并嘗試著從城市規劃和建筑設計等角度為犯罪防控做了一些探索和建議;而陳屹立博士也在其論文中,嘗試用泰爾指數分析了我國犯罪的省際差異[4]。
因為實際學者所接觸的數據有限以及沿用理論的相對一致(多為社會解組和日常活動理論),我國如今研究犯罪問題的方向角度較多且偏向于實用性,并能突破科際結合建筑學、規劃學等相關學科的知識,系統的發展了犯罪空間防控等理論,但由于信息限制等多方因素在犯罪行為空間選擇、社區犯罪等熱點問題上深度廣度不夠。而且在“具備”上文描述的發達國家類似弊病之外,大多只是考慮到了大數據的影響,在對關于大數據背景如何具體運用現有數據使其用于犯罪預判的研究則相對較少,課題研究仍在探索階段。
2.國內情報研判體系構建現狀
在中外合作方面,我國堅持注重和國際接軌的同時加強了自主研發。上海市公安局也單獨研發了案件時空分析系統,該系統在各種原有公開和警用信息資料基礎上,加以技術、人力信息、財務信息、車輛信息等的有機整合,逐步建立了有關違法犯罪人員原籍統計分析制度、有關毒品地下交易價格監測制度、有關違法犯罪案件時空走勢分析制度等。我國公安部門與美國有名的GIS軟件公司Esih進行的全面警用地理信息系統方面開發的項目合作,也于2010年公安部正式發布了1.0版警用地理信息系統平臺軟件——即PGIS,一定程度上講,這套不斷完善的系統完成了犯罪情報研判體系的初次構建。
隨著“十二五”工程國家科技支撐計劃“新一代警用GIS關鍵技術及其應用”的開展,驗收竣工了“金盾”一期工程。而作為“金盾工程”二期建設的龍頭項目的公安“大情報”系統應運而出,我國的PGIS平臺也進一步發展。但從實踐上總體說來,國內這方面還是有很大的空白區未深入,尤其是在警務情報方面。而這其中犯罪情報分析預測技術的關鍵步驟——各平臺的數據整合及共享的欠缺則是制約大數據情報研判的瓶頸。導致大部分有用的情報無法及時轉化成數據以致錯失冗積,在爆炸浪潮一般的數據不能去偽存真,經過艱辛錄入的數據更不能及時規范的轉化成圖表圖譜,各單位之間數據由于整合標準、計算公式的不一,口徑參差不齊以致情報數據資源被浪費空置而不能轉化成三維甚至是二維的可視化情報,因此對于這些問題問題,在仔細研究后,本文針對薄弱環節做一系列的PGIS的完善構想。
犯罪情報研判體系建設完善作為一個動態的發展過程,在大數據時代也升級換代,體現出了如數據化、多維可視化、智能化等多種特性和趨勢,最終在PGIS平臺的發展基礎之上,構建成一個包含犯罪時空軌跡、犯罪熱點、實時犯罪現場等多種類信息的犯罪情報研判體系。
1.數據化
大數據時代的來到,光靠紙筆人力的運算和分析已經捉襟見肘。人力有窮時,更多時候通過諸如PGIS平臺等數據處理終端,憑借犯罪分子在犯罪預備時的交易、出行、通話以及金融數據快速勾勒出其犯罪動向和時空軌跡,而這些是人力短時間所辦不到的。在這其中,數據的收集和分析是整個體系的發展方向,也是建模預測分析的基礎。當然對于相關數據的保護和運用缺陷也必須要引起我們的重視和完善。
2.多維可視化
數據種類的增多、可視化技術的提高直接促進了犯罪信息多維化、可視化程度的提高。前期已經能夠將文字和數據轉化為電子平面表格、趨勢圖,現在則能再進一步,將電子信息地圖、個人信息、GIS實時定位、天眼監控、電子投影等的功能整合,展現出包含3D犯罪現場、實時電子時空軌跡等二維、三維的可視場景,以供偵查部門工作參考。
3.智能化
由于數據的多樣和具體案件參考因素的不一,數據的整合現階段還停留在人工錄入、人工編程分析的階段,將數據錄入后再依據具體案件從數據庫中找尋自己需要的數據,各數據庫信息平時不相連也不會發生碰撞,而數據信息代表的深層聯系也全憑偵查辦案人員的“頭腦風暴”,這在無形中喪失了很多辦案線索,加大了偵破難度。在未來的發展趨勢中,高危人員、犯罪分子的數據智能整合分析無疑是一大方向,還能直接預測犯罪的同時減少警力的浪費、有效打擊犯罪。同時人機交互體驗的程度較低也是制約智能化的一大難題,加強系統的智能反饋,提高人機交互程度也是實踐和研究的一大方向。
體系作用總體歸納后,可以分為戰略目標和戰術目標兩個層次,有歷史穩定的靜態分析、實時動態的情報支援,未來犯罪熱點和趨勢預測三大工作任務。
1. 應用目標
具體而言,戰略層面的應用包括犯罪發生地環境分析、犯罪熱點分析、犯罪趨時空勢分析與預測、多類犯罪信息圖層疊加分析等;戰術層面的應用包括串并案件時空軌跡分析、定位與管轄匹配分析、路線與指揮調度分析、數據碰撞分析、連線分析等針對具體案件實時動態的情報支援等。
2. 應用實況
在實際的運用中(以美國為例),整個體系運作從數據庫的搜集入手,從早期的依靠文本卷宗和人腦記憶口口相傳到手機、PC端、網絡數據、車載電子數據、行業及交易數據等多方面錄入,并包括視頻、圖像、語音、文字符號等多種形式,情報的甄別分類也更多的由電腦預定程序輸入分級,通過關鍵字索引和文本語義分析,將數據海洋匯總分流,最后借助統計學上的鄰近重復建模,通過回歸聚類模型和可視化工具分析出犯罪風險地域和時空軌跡(例如由Twitter開發的開源實時分析計算工具Storm),并以Moran’sI指數[5](從社會學領域衍生而來計算某種社會現象空間自相關的理論)及公式檢驗其合理性,最終構建出一整套由一區一地上升到國家層面的犯罪情報研判體系。
而我國而為了適應信息化和大數據時代的需求,于2006年8月正式推出的“金盾工程”二期建設初步方案,其中警用地理信息系統平臺便是國家“金盾工程”二期[6]提出的重點建設的三大高端應用平臺之一,是公安將情報信息數據整合和深層次應用的技術平臺。它在公安信息網絡的基礎上,借助警用電子地圖和數據分析平臺,以服務于公安業務管理、情報信息共享和決策支持的可視化為目標,是“大情報”工程中信息化基礎設施的重要建設方向之一。針對不同環節的薄弱和不足,與其相對應的完善建設步驟可以基本分為情報數據的搜集、篩選、挖掘、顯現四大部分,如下頁圖1所示。

圖1
1.必要性
(1)作為一種現實的剛性需求,大數據興起以來,現實犯罪類型和手法多樣化、犯罪水平和技術更加高超和隱蔽,同時利用數據的能力也越來越高,如果不想現實中上演“道高一尺魔高一丈”,讓處于灰色地帶的“數據勢力”掌握數據信息的強大力量,這種潛在的威脅時刻提醒著我們要加強數據挖掘運用,加上響應國家“十二五”建設國策的號召,因此最經濟有效地構建現代意義上的犯罪情報研判體系的方式便是對現階段推出的PGIS進行完善。
(2)其次合理運用PGIS平臺進行數據建模,同時也是優化現實警力配置的必經之路。我國的警力相比于歐美國家本就稍顯不足,在2002年時我國的警力配置平均分別為10.86人/萬人和10.4人/100平方公里,所以在搭配PGIS平臺的運用后,既能緩解警力的數量不足,又可以幫助提升警務水平形成新一代“情報+警力+數據點”的模式,進一步打擊犯罪。
(3)再次,以PGIS平臺為中心的現代犯罪情報研判體系興起發展不過短短數年,雖然具有強大的政策支援和發展潛力,但是也逐漸暴露除了平臺系統數據搜集、運用、分析等方面存在的各方面缺陷,作為犯罪情報研判系統本身的不足,同樣也是現階段可以優化升級的關鍵部分。
④最后,理論的發展促使著實踐的進步,越來越多的學者看到主動型偵查的必要性和優勢。隨著現代警務理論和技術的提高,同時發揮已有PGIS平臺的功用不致早期投入的資源、錄入的大量數據信息閑置浪費,在整合犯罪信息收集整理、犯罪熱點和時空規律分析等功能后,在現有的PGIS平臺基礎上構建出具備大數據分析能力的犯罪情報研判體系勢在必行。
2.重要性
一方面出于對國家安全保障、社會穩定秩序維護得考慮,必須進一步提升警務水平保證面對新型犯罪不至于束手無策,而PGIS已經成為我國警務系統不可或缺的一部分,所以我們不妨以此為突破口加以完善。
另一方面來講,大數據的運用不止于如此,而PGIS為中心犯罪情報研判體系的建設最后所發揮的實際作用也不止于此。真正的大數據,這些來自不同維度、不同途徑的數據,并不限于文字圖片、聲音視頻、時空位置等,而將這些不同維度的數據放在一起判斷,得出來的趨勢才能更真實。當數據庫的數據成體量成模式后,不限于日常犯罪預測,更可延展至社會、教育、反恐、金融等多個領域,預測風險、規避雷區,幫助國家做出合理決策,促進和諧發展。
1.信息數據的來源和搜集
數據來源于信息,信息是情報之始。大數據下的情報收集一般說來可以分成傳統企業數據(產品消費明細、公司財務數據等),機器和傳感器數據(包括呼叫記錄、智能儀表和工業設備傳感器數據,交易數據,包括手機端和PC端在內的設備日志),社交數據(包括如Twitter、Facebook、QQ、微信等社交平臺上的用戶行為記錄,反饋數據等)三類。而打擊犯罪屬于國家職能,必要情況還可以依據法律動用公權力建立的人口、財務、車輛、手機定位等特殊數據,結合原有錄入公安刑事行政等案件資料庫的卷宗資料,從而奠定了先天的資源優勢(如圖2所示[7],大部分黑色陰影所代表的信息資源都具有教大的潛力和易用性,政府信息稍有例外,下文有解釋),可以以此建立關于跨地域多主體(犯罪人、犯罪客體)的情報研判體系,幫助有效的預測并打擊犯罪。

圖2
2.信息數據的篩選
情報數據的洪量一方面帶來了更多的線索和路徑,同時在頭羊效應和蝴蝶效應影響下,也容易讓情報分析人員和智能系統陷入數據陷阱,在滿目繁多亦真亦假的數據里迷失。所以情報研判的必經一步便是篩選,并分為辨別真假、分類分級兩步。即首先在信息的錄入之初便進行虛假資料甄別,并在數據碰撞分析環節進行不合理數據單列的方式盡可能提高情報可信度。同時將所得來的數據信息按照區域、罪名類別、作案人員人身社會特征、作案手段、作案時間、作案對象等多個方面劃分危險和類似性級別,以備數據分析挖掘之用。
3.數據的挖掘分析
經過了“睜大眼睛”的數據錄入、“擦亮眼睛”的情報篩選,便到了“火眼金睛”剝繭抽絲的分析環節,作為可視化前的最后一躍,數據的碰撞聚類分析是最復雜也是最關鍵的一步。因為,由數據轉化為情報,既包含了去粗取精去偽存真的剝離,更需要結合案件發生的狀況,借助統計學和社會學的模型對顯著犯罪因子進行回歸、聚類的建模分析,并通過如Moran’sI指數和HHI指數[8]來進行顯著性測試檢驗分析結果的合理性,最后得出可信的數據結論。
4.情報可視化
在借助如新型的可視化技術(Wordle圖[9]、故事線圖、平行坐標圖、散點圖矩陣[10])轉化后,數據在最后一步中將以二維圖表圖像展示出來,甚至在借助新的LIDAR系統、[11]ArcEngine可視化平臺[12]以及相關統計通用軟件(如SPSS/SAS/SPLUS、EXCEL、ACESS、CADmine等)和專用軟件I2系列軟件[13]后,可以實現全新的三維電子模擬場景的方式展示。同時現在不斷發展的VR技術,也可能用于展示犯罪情報、現場犯罪勘察等方面,幫助犯罪情報的研判。
大數據背景下以PGIS為中心這套情報研判體系都是構建在數據的運用基礎之上,所以主要的薄弱環節也在數據的搜集、分析環節,主要問題則有以下幾點。
1.可用電子數據少而雜
在以往的公安工作中,PGIS中犯罪情報來源較窄、類型單一且時空線索雜亂,無法直接用于流水線方式的數據情報轉化,因為大多情報來自于工作中人工接警出警后制作的犯罪人證人口供筆錄、案底卷宗、現場痕跡物證以及調查走訪中獲得的環境人情信息,多以文本甚至警員人腦記憶存在,這就直接導致數據庫里面的有效數據較少。除此之外,大多數錄入電子數據庫的人口車輛資料只是作為佐證在訊問和法庭審判中使用,也沒有專門歸類建模發揮其專業性,沒有完全發揮出應有的全部效力用于云計算的犯罪時空分析。
2.數據庫協同度低
2016年3月5日,據李克強總理在全國推進簡政放權放管結合優化服務改革電視電話會議上談話內容,目前我國信息數據資源80%以上掌握在各級政府部門手里,這樣的“深藏閨中”是一種極大浪費。如文中圖2所示,政府、公司、科研機構都各自掌握著大量數據,尤其是政府信息和金融貿易類,對國民生活影響巨大。但同時政府數據的易用性極低,代表著大量的數據情報沒有專門分類管理,數據冗積雜糅彼此之間相互不聯通,體制化管理下其他信息主體有心使用數據也無處接觸,從而數據關聯不強,數據無法形成一個暢通的數據鏈進行數據交流和碰撞。
除此之外,考慮到國家行業安全和政治穩定,PGIS平臺對于大數據的利用也只是限于部分行業。但是在保證穩定安全的前提下,嘗試行業部門間的有用數據共享交流是個很好的選擇。
3.建模分析方法繁瑣不一
(1)我國現代嘗試研究犯罪因子的統計學方法多樣,各有優缺,有如杜德斌、湯建中基于犯罪期望理論對城市犯罪區位選擇的數學模擬研究,有如學者佟瑞鵬基于基尼系數法的全國安全社區數量分布規劃研究,但由于實際工作操作性的限制,當前PGIS的云計算中終究沒有一套較為便捷可行的犯罪系數計算公式來確定國家和區域層面的犯罪圖譜,無法形成一套完整的研判體系。
(2)各地方開發的犯罪電子研判系統對犯罪影響因子和采用計算方法的不一,也導致各自的口徑大小不同,難以實現完全的對接共享,對于區域協同帶來了不便。
(3)建模分析采用的絕大多數方法局限于統計學、社會學的理論運算,而對犯罪行為涉及的心理學、人類行為學等現實因素考慮不深,使得建模在用于實踐中稍顯不足。
4.三維化程度低
我國當前的PGIS基本能做到在電子地圖上疊加部分犯罪數據,形成簡單的二維犯罪電子地圖,能夠應對宏觀和簡單犯罪因子的情報研判。但是面對局部微觀層面的犯罪現場觀測、多因子犯罪預測和實時情報支援時,則需要虛擬三維化(即在3D視角下可通過電子模擬出可多角度多維度查看犯罪信息的犯罪現場)的電子情報支援,而這方面我國尚在摸索。
5.法律空白多
在目前,出于對隱私權權方面和實際警務情報工作進展的考慮,對犯罪情報收集尚有諸多法律的限制和空白,諸如國家公權力在管理參考公民個人信息的程序規范問題、企業在搜集手機端用戶偏好及個人身份財務信息的侵權問題、公民日常財務數據的保管和保護問題等仍待解決。
1.擴大數據錄入面
在試驗不變的條件下重復試驗多次,隨機事件的頻率近似于它實際發生的幾率。而隨著計算機的處理能力的日益強大,能獲得的數據量越大,所能挖掘到的價值就越多,同時對事件發生的預判也越準確。區別于傳統情報工作,在大數據的海洋里“捕魚”,可供犯罪預測的情報數據也遠不止前文如此,所以可視化情報數據的多渠道搜集才是基礎。
(1)增錄手機端數據。PGIS的數據庫在原本手機信號基站定位的使用基礎上,增加錄入經用戶授權后報警APP數據及其他網絡數據。例如,于2016年研制并嘗試推廣的兩款情報終端APP——FAFA(Fighting Against Fraud Applicant,中文名發發)與智慧110,用戶已經能夠在手機上錄入犯罪情況、罪犯特征并上傳視頻聲像資料,真正的“隨手轉發正能量”,同時后臺能夠通過云計算將某一區域或某一類型的犯罪率通過顏色的深淺和標識表現在地圖上,類似國外的Crime Reports電子地圖(如圖4)。

圖4
(2)各行業數據庫數據共享。自2013年3月公布“大數據研發計劃”后,中央情報局將與亞馬遜網頁服務公司合作,美國便開啟了私營領域與公共事業部門在包括地理情報在內的的跨界合作。我國可以加以借鑒,在原本的犯罪數據上整合特種行業的數據庫(包括常駐暫住人口資料、機動車輛數據、工商登記注冊數據、戶籍身份數據、高危及重點人員資料、指紋及DNA數據、民航數據、住宿數據、執法記錄、通信記錄、公交IC卡數據、銀行存取數據、車輛卡口及其GPS數據、網絡服務記錄、水電交易數據等),打造一張覆蓋全國的數據網,從而在技術角度更好的摸清犯罪形勢軌跡,同時為后面的數據分析挖掘提供更多的方向和影響因子,提高預測的準度。
2.強化數據篩選
(1)工作專門化
一方面加強對情報人員的數據串連篩選能力培訓,能夠熟練的掌握基本的數據統計分析和犯罪制圖技術,能夠編程設計和靈活使用如類似爬蟲軟件的信息篩選抓取程序;另一方面借鑒國外的做法采用經過專業準入門檻考核的數據分析師去專門管理數據。
(2)分級分區
理清類別級別之間的標準,并單劃出不拘泥于行政區劃的犯罪預測區。基于多起案件的發案地圍繞其平均中心正態分布的理論[14],以劃定犯罪預測區的基本分析模型對系列案件發生地的預測,在數據錄入之初便進行數據的歸類標準包括危險程度、犯罪風格、犯罪人同一性、是否為前科或團伙犯罪等方面劃定,這些都能為后面的工作開展提供極大便利,目前有香港模式四級模式[15]、珠海四級模式、歐美“4×4體系”。這擺脫了行政區劃的思維桎梏,同時也有利于警方跨區域的協同觀測辦案。
(3)提高有效關鍵詞抓取
關鍵詞抓取是在語義處理、文本數據檢索中常用的方法,但關鍵詞的選取和組合必須要提高效度。例如美國居民在用Google搜索‘高壓鍋’+‘背包’后被反恐部隊遭搜查住宅的事件在2013年盛傳,雖事后證明事情有夸大曲折之處,但是也應引起我們的警惕。
(4)排除數據間的虛假關聯
①在法律許可的情況下堅決貫徹實名制注冊,杜絕源頭的虛假用戶資料。
②由于亞文化的普遍存在,文化差異導致的語義分別也會反映在數字世界中,要依目標所處情境對“異常”進行有效界定,確保獲取的“異常”確屬異常。
③及時辟謠,防止虛假信息的蝴蝶效應,在冤假錯案后也及時“沉冤昭雪”更新數據庫內容,保持權威數據的真實性。
④同時定時清理冗積在資料庫中的無用的、重復的、帶陷阱病毒的垃圾數據,這樣避免了冗余值的意外溢出導致程序出現紕漏,統計結果而受到影響,促進數據能迅速的轉化為情報。
3.數據分析與挖掘
(1)數據建模
簡單的依靠人力眼力分析犯罪熱點和時空規律只能在小范圍個別案件比較實用,面對案件數量和地域的擴寬,要提高工作的效率和質量,就必須依靠平臺的數據建模功能進行智能的批量分析。由于PGIS的數據庫建立的根基在于GIS系統,所以數據建模更適合用空間自相關方法來進行聚類和回歸分析,通俗的講就是看菜吃飯,通過觀察地區犯罪的相似度和關聯性分析出某一類犯罪事件或者犯罪主客體的獨立集聚效果、犯罪熱點地帶,從而為犯罪劃區監測研判提供導向。這就跳出了前期犯罪因子選擇的限制,可以口徑一致的用于全國范圍。
建模的方法必須依靠統計學,而討論空間自相關[16]時多用Moran’s I指數(分為全局型、局地型[17]兩種)和G系數[18]。G系數探測聚集現象的能力受規模的影響穩定性較差;全局型Moran’s I指數偏向概括側重整體趨勢分布,探測出空間聚集范圍的擴展,但無法具體到熱點關聯分布;而局地型則剛好彌補了這種缺陷,能夠判斷空間數據是高值聚集還是低值聚集,因此需要結合兩種運算方法來建模。權衡之下故本文選擇了Moran’sI指數。
Moran’s I考察的是相鄰的區域是否存在相似或相異的指標值,I取值范圍為-1到+1,若Moran’s I接近1,說明相似的值在空間上存在明顯的集聚(同高或同低,正相關)。若Moran’s I接近-1,則說明迥異的值存在集聚現象(此高彼低,負相關)。若Moran’s I接近于0,則說明該空間現象傾向于隨機分布,不存在空間自相關現象。
(2)公式檢驗
針對Moran’s I指數的合理性,正態Z(I)進行顯著性檢驗[19],當Z(I)值大于1.96,即為顯著性高于95%,則為通過顯著性檢驗,結論證明熱點集聚。而Z值絕對值愈大,則表明空間集聚或自相關現象愈明顯。最后滿足局部地域型Moran’sI指數絕對值接近1且Z(I)值大于1.96等條件既可以完成犯罪熱點的判定。
(3)數據挖掘
當然,數據的運用遠遠不止在頻率統計、共詞計算層次上,單串數據承載的信息是破碎的、單線索式的,因此如果需要結合信息集成分析和數據對比串連來深入挖掘背后的隱藏線索,從而使能達到以下目標。
①通過大數據可以鎖定犯罪分子人身信息及位置,在信息集成分析理論的指導下,完善以PGIS為代表的犯罪信息系統中的精確檢索、自動交叉比對和模糊查詢等功能,以案件已有信息為先導,進行網上查證摸排后串并案件,鎖定破案方向,從而真正落實了情報信息主導警務戰略。
②還原重現犯罪過程和犯罪活動的時空軌跡模式,是根據作案人員、工具、痕跡、物品、動機、手段和時機選擇等方面不同的信息數據集合的相似以及在時空上的關聯(如空間上的首尾相接、時間線上的前后相連、作案手法的繼承等),運用數據挖掘技術從更廣泛的角度進行案件的串并[20]。
③進行犯罪專題研究,發現犯罪規律與特點。如高危群體分析、節假日刑事案件分析、“兩搶一偷”案件與交通的關系等,進行情報的內在關聯分析,再結合嫌疑人行為軌跡特點篩選重點嫌疑對象,從而使情報的檢測研判有的放矢。
④通過多套數據庫對比,對同類型罪犯、案件、環境進行犯罪行為模式建模,為犯罪事件的預測做好數據準備。
4.情報多維可視化
經過基礎的綜合各城市地塊人口分布、案件性質、道路交通格局各個與犯罪緊密相關的數據錄入后,公式計算、顯著性檢驗及最后經過圖層疊加分析的地圖輸出都可以通過ArcGIS10軟件來實現,最后利用ArcGIS10[21]技術,制作核心密度估計圖(即犯罪熱點地圖)來實現犯罪分布模式和犯罪趨勢面的可視化。
現在PGIS平臺經過圖層疊加和電子地圖的結合,也基本能在較宏觀的層面根據坐標指數實現情報的二維平面展示,能夠進行基本的定位和分析,制作刑事案件斑點圖,如圖5。

圖5
但是隨著犯罪情報的需要,更趨向微觀和實時顯示的多維化也越來越需要關注,主要體現在全息位置地圖、多維動態場景模擬兩大方面。
全息位置地圖是以空間位置為基礎,全面反映位置本身地理人文信息及其與位置相關的各種特征、事件或物體的數字地圖,相比二維地圖能夠承載更多的信息細節,如作為基礎圖層的圖6[22],圖7[23]。

圖6

圖7
多維動態場景模擬則包括搭建室內室外三維模型(如憑建筑數據做出的3D動態模擬場景)、多信息多圖層疊加下的全景地圖、現場重建動態模擬、影像地圖一體化整合等多重內容,可以實現室外案件中包括涉案建筑場所、交通路線、重點涉案人員等的軌跡疊加分析,指揮部門可動態模擬某犯罪嫌疑人或所駕車輛的逃離路線和速度,也可模擬人員的流動軌跡,形象直觀地輔助公安人員科學決策,如人機交互式可視化。除了必要的室外追逃,人類約80%~90%的時間處于室內,室內環境的多維動態場景建模也顯得十分迫切和重要。
5.合法化
因為用戶隱私信息、商業秘密等都屬于私權范圍,業內常遵循“誰擁有誰控制”原則,又當裁判又當運動員的情況下缺乏中立的獨立主體有效監督。而情報數據過程中,搜集階段常常通過技偵手段秘密進行以及數據的授權性使用,又極易侵犯公民的隱私權和自由權,因而招致很多議。同時由記者斯諾登曝光的美國“棱鏡計劃”事件以及原重慶公安局長王立軍濫用技偵手段秘密搜集情報等新聞頻發,也引發了公眾對此的排斥。
因此我們一方面要加強對PGIS數據收集的規范性,提升執法人員的法律素養,嚴格保護公民的合法權益以及隱私;同時借鑒西方比如美國的陽光法、科學數據共享法令、合同協議機制立法等,加強相關信息使用的法律立法,對大數據的合理使用正規化、合法化。
在本項研究中,由于實證數據的缺乏,同大部分理論一樣,措施構想仍停留在紙面理論而未能置于實踐中論證其合理可行性。對于數據多維可視化的發展方向部分靈感來自影視作品的理論構想,PGIS平臺技術的發展是否能現實實現還有待實證。
同時,在文中所用于數據分析的公式,一方面,跳出了實際犯罪因子數據指標的限制,可以統一各地口徑用于全國層面的大數據建設,但是另一方面也一定程度的脫離區域實際,可能導致后期數據搜集的偏離,從而影響全局的數據分析挖掘。同時在檢驗其顯著性時,公式本身也有一些如未能采用標準差,采用方差等生硬的缺點,在數據計算分析上可能會有偏差。對于犯罪情報數據的研判理論部分,沿用社會解組理論和日常活動理論,心理學、社會學、統計學仍然停留在比較初級的綜合運用水平上,沒有很好的綜合三大學科來解釋犯罪集群效應的變化發展,對于眾多的犯罪事件也能是取一瓢飲,管窺蠡測之下不免有缺陷和疏漏,所以仍待進一步的改進。
[1] Ucinet,由加州大學歐文(Irvine)分校的一群網絡分析者編寫的網絡分析集成軟件,包含子群分析、統計分析、矩陣分析、可視化分析等模塊,是目前最流行的,也是最容易上手的社會網絡分析軟件。
[2]王萌:《警務大數據案例:大數據預測分析與犯罪預防》,來源http://www.ctocio.com/ccnews/15551.html,最后訪問日期2019年5月7日。
[3]美國學者Sampson和Groves在1989年提出了社會解組理論(研究鄰里社區環境中經濟社會地位、種族多樣性和人口流動性因素對犯罪發生的影響),學者Cohn和Felson提出了日常活動理論——主要研究有動機的犯罪(motivated offenders)、合適的目標(suitable targets)和犯罪防范的缺失(absence of capable guardians against crime)三大因素對犯罪發生的影響。這兩大理論在社會學領域內分別探討了不同犯罪因子對犯罪發生的催化作用,是犯罪地理學、犯罪生態學的核心理論之一。
[4]劉大千:《長春市犯罪空間分析及規劃管理防控》,東北師范大學2012年博士學位論文,第25-26頁。

[6] “金盾”工程,實質上就是公安通信網絡與計算機信息系統建設工程,1999年開始啟動準備,工程包括全國公安綜合業務通信網、全國違法犯罪信息中心(CCIC)、全國公安指揮調度系統工程、全國公共網絡安全監控中心等系統建設,現已經實施到第二期。“金盾工程”二期三大應用平臺分別是指是指“公安情報信息綜合平臺”、“警用地理信息基礎應用平臺”和“部門間信息共享與服務平臺”。
[7]圖例中初始數據統計來源于美國勞動統計局,基礎圖層出自麥肯錫公司會議報告上.Bigdata:The next frontier for innovation,competition,and productivity,2011
[8] 赫芬達爾—赫希曼指數(Herfindahl-HirschmanIndex),簡稱HHI,來自于經濟學中研究大企業對市場的影響程度——數值越接近1,壟斷集中度越高,現多用于檢測自相關性和聚集效應的分析。
[9] Wordle圖,即采用用色相區分不同的關鍵詞類型的著色可視化方法。
[10]散點圖矩陣是散點圖的高維擴展,可以添加其他圖形元素,以增強表達力,最常見的添加劑有坐軸須、直方圖、箱線圖、平滑曲線、擬合曲線等。它從一定程度上克服了在平面上展示高維數據的困難,在展示多維數據的兩兩關系時有著不可替代的作用。
[11]一種軟件系統,能獲取高精度、高密度的三維坐標點云數據和空間對象的深度信息,構建具有準確幾何信息的三維立體模型。
[12]一個用于構建定制應用的完整的嵌入式的GIS組件庫,可以用于數據可視化。
[13] I2軟件是IBM公司的一款面向警務、情報、調查及商業組織提供領先全球的可視化情報分析調查的軟件產品。
[14] 根據這一理論,犯罪發生在距離平均中心一個標準差距離內的概率為68%,發生在距離平均中心兩個標準差距離內的概率為95%。也就是說,在這一分析模型中,下一起案件只有5%的概率會發生在兩個標準差距離的劃定范圍之外。
[15]一種情報分級制度,按照情報提供人參與程度將情報來源渠道分為“親自參與、親眼目睹、直接耳聞、間接耳聞”四級。
[16]空間自相關是指同一個變量在不同空間位置上的相關性,通俗的講便是測量同一類事物之間互相影響從而出現的特殊分布規律。
[17]這里是基于全局型Moran’s I指數的缺點,Anselin在1995年提出的LISA(local indicators of spatial association,空間關聯局域指標),與全局空間自相關成比例,能夠比較契合的找到了相關具體犯罪熱點。
[18]全局G系數,Getis和Ord于1992年提出用于測量空間自相關性的公式。
[19]針對Moran’s I指數的合理性檢驗,有標準近似值(normal approximation)的正態Z(I)和隨機化試驗化進行兩種方式進行顯著性檢驗,因為前者更簡便,故采用前者。
[20]張春敏、郭云嫣、劉全海著:《室內外多維時空數據融合及其在PGIS中的應用》,載《測繪通報》2016年第12期。
[21] 2010年,Esri公司推出ArcGIS10,作為全球首款支持云架構的GIS平臺,實現了GIS由共享向協同的飛躍;同時ArcGIS10具備了真正的3D建模、編輯和分析能力,并實現了由三維空間向四維時空的飛躍,逐步做到了真正的RS(遙感)與GIS一體化。
[22]圖6為通過三維建模后結合電子信息地圖搭建的實地模型,可以查閱包括海拔高度、地形分布、經緯位置、水文分布等多重信息。
[23]圖7是SkylineGlobe公司推出的軟件做出的3D視域分析,可以幫助快速找到各類信息的分布及狀況程度,還可以在此基礎上再借助該過程僅依靠簡單連續的標準二維圖像(如傾斜攝影測量影像),創建一組高分辨率的三維網格模型,無需人工干預,快速構建城市級3D模型。
本文系國家社會科學基金重大項目(項目批準號:17VHL004)的階段性成果。
*韓旭,男,四川大學法學院教授、博士生導師,中國法學會犯罪學研究會常務理事。
熊鑫,男,四川大學法學院,訴訟法學碩士生,研究方向偵查學、訴訟法學。
(責任編輯:廖根為)