陳晗婧
(福建警察學院,福建福州,350007)
世界正面臨著百年未有之大變局,我國正在推進治理體系與治理能力的現代化以應對各類不確定的風險與挑戰。我們正在走進一個通過科學研究支撐善治的時代。刑事司法領域是國家治理體系當中社會安全領域的重要構成部分。刑事司法領域的科學決策與實施離不開數據的支撐。當循數管理、循證決策融入國家治理體系的同時,主動警務、智能警務的理念與實務也已在我國的政法工作領域形成星火燎原之勢。在這如火如荼的發展背后,我們有必要理性地反思刑事司法數據開發利用的技術路徑與未來走向。發達國家的刑事司法數據分析經歷了一個較長時間的發展,主動地觀察、了解這些國家對刑事司法數據的使用已經發展到什么程度、存在哪些問題,進而反觀自身、明確發展方向,有助于我國對刑事司法數據開發應用,進而健全政法工作領域決策機制,加強決策的調查研究、科學論證、風險評估。
國外一些國家在刑事司法數據開發與分析技術方面的發展歷史較久,數據驅動理念和精細技術相對普及。
犯罪數據分析作為一個學科的歷史起源于現代大都市警察的發源地英國,出現在19世紀早期,1844年英國的偵查局已經開始收集、校對和分析警務信息。[1]而美國的犯罪數據分析最早出現在20世紀初,美國著名的警察改革家奧古斯特·渦孟(August Vollmer)鼓勵使用標針地圖,根據犯罪量來形成巡邏區域。這時期的犯罪分析主要依靠觀察和對于犯罪事件的記錄。此后一個多世紀里美國的犯罪數據分析技術伴隨著犯罪率的飆升而蓬勃發展。今天美國的犯罪數據分析已經成為犯罪預防、社區警務工作的常規組成部分。雖然美國的社會治安現狀難以獲得世人稱道,但其對犯罪數據的分析與應用繼承了“數據治國”的理念、秉持科學嚴謹的態度,對世界上許多國家的刑事司法數據分析發揮影響。
在犯罪數據分析技術中崛起了一支異軍——犯罪制圖,它起源于19世紀的歐洲。歐洲的制圖犯罪學派的學者調查到一定區域內存在不同的犯罪層次,以及這些層次與社會因素之間存在的關系,根據這些因素繪制出犯罪地圖與犯罪變量關系圖。美國的犯罪制圖稍晚于歐洲,第一次大規模的犯罪空間分析出現在20世紀20年代。30年代芝加哥的城市社會學家將成人犯罪、青少年犯罪與社會解組、貧困聯系起來手工繪制地圖,他們發現9000多個行為不良者集中在芝加哥的特定區域。到了20世紀80年代早期地理信息系統更易于使用,美國許多警察局在每天的工作中開始犯罪制圖工作。20世紀90年代初期計算機技術和警察數據系統取得巨大進步,電子化的犯罪地圖讓警察與研究者的工作更加便捷。1993年伊利諾伊州刑事司法信息部與芝加哥的洛約拉大學社會學系聯合組建了計算機犯罪地圖工作室,其中許多人成為了今天這個領域的首席研究者與分析員。這個工作室是美國首批聯合實務界與研究者合作開展犯罪制圖的工作室之一。1994年紐約市警察局開創了Compstat犯罪分析系統,其后在其他警察局推廣開來,其創新之處在于警察局的每周會議上使用犯罪制圖軟件與分析來介紹轄區的犯罪模式與犯罪案件特點。
在城市犯罪問題研究領域芝加哥城市社會學家曾享譽世界,被犯罪學界與社會學界稱為芝加哥學派。芝加哥學派在使用定量方法研究犯罪問題方面走在前沿,其成果對刑事司法領域的數據分析與應用影響深遠。20世紀20年代芝加哥學派開創了“精算司法”(Actuarial Justice)的先河,他們著手計算假釋犯的再犯風險評估,此后假釋犯罪風險評估機制走向常規化。預測假釋犯再犯的工具LSI-R是在輸入假釋犯一系列自變量的基礎上,包括:犯罪史、教育程度、就業、經濟狀況、家庭或婚姻狀況、住房、嗜好、朋友、酒精與毒品使用狀況等信息,計算其再犯的風險值,這個計算工具顯著不同于傳統判斷式的司法實踐,影響了美國刑事司法的其它工作走向定量化。[2]雖然許多學者認為這種精算司法過度依靠計算,工具的合法性也受到置疑,但不影響美國刑事司法界普及數據驅動工作模式。
進入21世紀之后,隨著數據量爆炸式地增長,大數據技術開始在商業、金融、健康甚至總統競選等領域施展拳腳,同時數據的外延與內涵得到極大地擴張,不再局限于結構化的統計數據。2010年美國警務大數據主要運用在三大領域:犯罪預測、規模化監控和DNA數據庫。預測警務主要應用于兩個方面:一是基于歷史犯罪數據的分析,進行可能的犯罪區域與人群的預測,從而幫助對有限的警力資源進行優化配置;另一是運用算法于社交媒體中社會關系的計算,幫助警察可視化個體之間的關聯,以確認犯罪行為人在社會關系網絡中的位置。[3]對社交媒體中的社會關系計算方法是借鑒于美國軍方對境外叛亂組織分析的應用,并非首創,只是延伸了技術的應用場景。預測警務的研究與應用一直在不斷升級,從以預測財產案件的地點為目標的1.0時代,進化到以預測暴力案件的地點為目標的2.0時代,再進化到以預測犯罪人為目標的3.0時代。在3.0時代,可以基于過去的犯罪行為、當前的社會聯系和犯罪傾向相關因素,發展預測個體形象的能力。根據社會網絡理論將人員社會關系、地址、電話號碼、其他數據之間的關聯進行制圖,實現識別、尋找目標和追蹤具有高犯罪風險的個體。[2]公共監控一直是警方的重要工具,它將數據的外延擴展到了圖像等非結構化的數據形式,信息量倍增。紐約市警察局與微軟公司合作研發DAS系統,用于不斷地收集和分析紐約市內3000多個公共監控探頭、200多個自動車牌閱讀器、2000多個輻射傳感器以及警察局數據庫傳輸來的信息。在2013年4月的波士頓馬拉松恐怖爆炸事件后,紐約市警察局加大了對DAS的使用。
數據已經成為人類生活中的一種重要資源,它將帶來不可估量的價值與權力。如何保證數據擁有者合法合理地收集、使用數據資源,避免對公民權利的侵犯,一直是廣泛關注的話題,也正是這種警惕限制了先行國家警務大數據技術應用的速度與方向。除了反恐等特殊應用領域,他們謹慎地推進工作中大數據分析應用,比如犯罪預測與警力配置、巡邏路線規劃、社區犯罪預防策略制定等不會引發激烈的合憲性爭議的領域。
一切數據應用的工作都必須以優良的數據資源作為前提。刑事司法數據常常因涉及個人信息而難以公開。所以首先必須建立完善的、設計精細的公開數據采集系統,包括數據收集、數據存儲與管理。數據的收集除了準確、全面,數據的顆粒度也至關重要,它影響數據可開發利用的程度,粗放的數據利用價值不高。在數據的存儲與管理當中數據質量檢修工作能反映一個國家或地區對數據存儲與管理的嚴謹性。
通常能長期存在的公共數據資源不是由政府下屬機構負責建立,就是政府資助社會研究機構建立。比如美國比較權威的刑事司法數據資源當數司法部推出的統一犯罪報告(簡稱UCR),以及隨后推出的以事件為分析單位的報告系統(簡稱NIBRS),還有彌補犯罪黑數問題的全國被害人調查(簡稱NCVS)、全國毒品使用和健康調查(簡稱NSDUH)等自我報告形式的數據。此外大學刑事司法研究機構或院系也以獨立方式或受資助的方式建立數據資源。比如紐約大學阿爾巴尼分校辛德蘭刑事司法研究中心公開了綜合性的刑事司法數據匯編,從1972年開始整理并公布上千個刑事司法數據集,涵蓋公眾對犯罪的看法、刑事司法機構的特征、各州如何執行死刑的統計表等。目前比較有影響力的還有刑事司法數據國家檔案(簡稱NACJD),它是美國司法部司法統計局與密歇根大學創立的“政治和社會研究校際聯盟”(簡稱ICPSR)合作的產物。ICPSR是一個由750多家大學、基金和政府機構、非營利組織等機構組成的國際性聯盟,為社會科學研究界提供數據訪問、制定策略和分析方法培訓的服務。使用者可以通過申請或直接從相關網站獲取它們的數據。我國的北京大學、浙江大學等高校也是其聯盟成員。
數據越精細越有價值。UCR的數據屬于匯總數據,只能在現成的項目信息基礎上做歷時比較、地域間比較,由于缺乏具體案件信息難以實現解釋研究與預測,而NIBRS的數據則可以用做解釋性、預測性研究。NIBRS的數據是匯總全美各地執法機構報送的去除個人信息后的案件詳細信息,包括:受害者和犯罪人的年齡、性別和種族,受害人與犯罪人之間的關系,所使用的武器,案件發生的地點,周邊的環境。從UCR到NIBRS的轉化,可以看出數據的采集走向精細化,對于數據使用者來說,這是一個巨大的進步,有利于推動刑事司法研究的精深。科學研究發現依賴于數據的精細度。精細的基礎數據雖然不能立刻且直接地發揮作用,但是從長遠來看,它可以為后續的探索研究奠定重要基礎,進而轉化為科學決策的支撐。
每一個數據資源都有其特點,需要介紹清楚該數據的采集方法與過程,以及優點與弱點,才能讓使用者清楚明了如何更好地發揮此數據的作用。例如全美被害人調查NCVS不能覆蓋所有類型的犯罪,無受害人的案件、受害人回憶困難的情形都影響從被害人方面收集的數據的完整性。
所有數據都需要克服偏差問題,以免帶來錯誤預判。比如美國一些地方的警務預測系統是建立在有瑕疵的數據、種族偏見、甚至非法的實務操作之上,美國學界謂之“骯臟的警務”(Dirty Policing)。骯臟的警務產生了不真實的、系統性偏差的數據,在數據挖掘研究領域謂之“不凈的數據”(Dirty Data)。巴爾迪摩、紐約等地都出現過警務數據造假。不凈的警務數據造成“偏差進,偏差出”的預測結果。在紐約市警察局和巴爾迪摩市警察局推廣預測系統的Azavea公司,其系統常常把警力派往過度犯罪標簽化的社區。芝加哥警察局采用的Strategic Subject List的評分結果顯示56%的30歲以下的黑人男性成為高風險人群,使得警察執法中帶有種族偏見,進而使黑人社區被過度監管。由于政府給予執法機構過度的信賴,警務數據常游離于政府機構的監管之外,而警察局自身又缺乏動力與需求進行自我監控與改革。[4]
1.數據的公開及效用
數據信息的開放為研究研發與公共監督敞開大門。國家制定開放數據的法律規定可以推動科學研究與技術應用的繁榮。例如美國在1968年《Omnibus犯罪控制和安全街區法案》里規定了各地警察局必須通過一定的渠道公開關乎公共安全狀況與司法運行的數據。2018年12月美眾議院投票決定啟動《開放政府數據法案》,制定了兩大基本原則:首先,政府信息應以機器可讀的格式,默認向公眾開放,且此類公開物不會損害隱私或安全;其次,聯邦機構在制定公共政策時,應循證使用這些數據。
刑事司法數據的社會共享為研究研發工作創造了條件。研究院所、大學以及提供企業都有機會參與到公共安全產品的研究研發中。Motorola、IBM、微軟、Lexis-Nexis、Socrata等企業都參與過美國地方警察局公共安全數據的開發利用與決策服務的產品研發。比如:IBM公司與南科羅里那查爾斯頓警察局、田納西州孟菲斯警察局合作解決持槍搶劫犯罪預測。
數據開放除了可以讓社會為警察部門提供智力與技術支持,實現警務工作與決策的科學化、智能化,還可以用于應對訴訟。美國警察經常遭遇種族歧視的起訴。美國在2008年成立了“警務公正中心”(Center for Policing Equity),致力于建設追蹤全國警察攔截行為的數據庫,通過公開的大數據監督警察攔截執法中的種族歧視行為。[5]
2.數據安全使用的規定
公共數據涉及到國家安全、商業機密、個人隱私等問題。各國政府對刑事司法領域的數據都不同程度地謹慎,通過立法形式保障安全與人民的權益。
數據庫提供方也設置了自己的數據安全及隱私保護的規則,由數據采集者、存儲者、使用者共同遵守。以前述的NACJD數據為例,它設置了數據隱私保護的規則,數據調查人員必須在提交數據之前確認數據中是否包含了能夠被個人或機構識別出受調查者身份的信息。可識別的信息分為可直接識別與可間接識別的信息。可直接識別的信息有:姓名、地址(包括郵編)、電話號碼(包括地區號碼)、社會保障號、其它的如車牌號、警號、犯人編號等可以關聯到受訪者的數字。可間接識別的信息包括:地理位置信息、工作單位、就讀學校、具體職業、成長的地方、出生死亡結婚離婚等日期、具體的收入等可以間接地查詢到受訪者的信息。但間接可識別信息的確認取決了數據內容和研究對象的屬性,需要根據具體情形判斷。在存儲數據方面,NACJD規定所有可以直接識別研究對象的字段在存儲之前需要刪除,像花名冊一類的數據不能存儲。對于可間接識別的信息,如果需要用于生成創新的研究發現或者如果刪除會明顯地降低數據的價值,可保留在研究數據里。NACJD規定公開數據之前還必須進行保密性評估。
刑事司法數據作為公共資源,多數存儲于政府機構。政府通過法律、規則、制度、項目等促進政府機構與社會對數據的安全、有效使用。美國聯邦政府從1995年到2002年,投入超過5300萬美元的資金用于警察機構采用犯罪制圖技術與雇用人員。司法部下設司法項目辦公室主要是為州和地方的刑事司法機構提供資助、訓練和技術援助,提升各地預防和減少犯罪、援助受害人、增強法律規制的能力。目前其下設司法統計局、司法研究所等6個項目辦公室。在項目運作過程當中遵循“診斷、實施、評估”三步驟,確認導致犯罪的因素并制定策略和方案,促進尋找有效的措施提升公共安全。司法研究所開設了一個名為CrimeSolutions的網站,公布所資助的研究項目以及對實務產生效果的評估結果。司法項目辦公室所資助項目的實務效果經過元分析,在網站上公布何因素起作用、何因素沒有起作用、何因素是有潛力的等信息。每一個項目經由兩名有資格的評審人員使用評分工具進行評審。其它地方刑事司法機構可以在前車之鑒的基礎上,根據各自情況選擇改革措施,以此形式實現了數據驅動刑事司法工作的目標。
刑事司法機構奉行實用主義。Ian Palmer等研究者在英國進行循證警務的應用情況研究,發現一線警員認為處置緊急的事務更為重要,經驗與處置街頭情況的技巧更實用。只有高級警官才看到基于證據的警務實踐研究的重要性與應用前景。[6]同樣Timothy C. O'Shea等研究者通過問卷調查發現大多數的美國警察局主要關注于戰術性(tactical)應用與簡單的戰略性(strategic)功能。戰略性分析是支持行政管理的、長期的規劃,而戰術性分析是支持短期的日常實務。[7]處于越基層的人員、越小規模的單位越難接受戰略性的數據利用。因此地方機構對數據的應用最先從戰術性分析開始。20世紀70年代紐約市警察局總部已經設置了正式的犯罪分析單元。犯罪分析員通常是文職警察。最初犯罪分析員只作一些簡單的頻數統計,隨后發展到高級統計分析。犯罪分析單元的作用在于評價犯罪的性質和分布,為有效地分配資源、部署警力服務;識別嫌疑人之間的關系,輔助案件調查;識別出滋生犯罪的外部條件,制定出預防措施。無論是行政管理部門還是案件調查部門,以及巡邏部門都需要犯罪分析的支持。
1990年犯罪分析國際聯合會(簡稱IACA)在美國成立,這是一個自愿參與的非營利組織,吸收世界各國的會員。會員主要來自犯罪分析員、情報分析員、各種級別的警察、教育工作者和大學生。IACA成立的宗旨是幫助犯罪分析員提高技能,加強聯絡,幫助執法機構更好地應用犯罪分析,推廣執行與技術的標準。它建立了分析員資格認證項目,確立起考核流程,實現對專業能力的評判,提供給用人單位對專業工作能力的衡量標準。IACA設立一年兩次在線資格考試,規定每隔5年需要更新資格,接受再教育培訓獲得再次資格認證。[8]在資格認證中推廣犯罪分析過程標準化,包括:確定方向,收集數據,評價數據質量,校對數據,計算機輔助分析,分析結果,宣傳結果。對分析結果也進行了標準化,主要以假設、結論和建議為載體,涉及內容、格式、報告、數據源的屬性、分析反饋和結果評價、展示、法律問題等方面的要求。[1]建立起一套完整的從業資格管理體系,使犯罪分析從業者成為一個職業群體。
在數據驅動導向下,管理層人員也需要具備數據素養。以紐約市警察局的Compstat工作機制為例,警察局兩周一次的Compstat犯罪控制策略會議上,每個轄區的負責人在警察局高層管理者面前展示與報告可視化的轄區犯罪問題,以及他們采取的應對措施。犯罪分析員收集數據、分析與制圖,幫助轄區負責人辨識潛在的犯罪因素。警察局管理層也使用這些數據信息來檢測各轄區打擊犯罪的工作情況。[9]這種工作模式不僅對犯罪分析員提出專業要求,也需要轄區負責人能夠看懂數據并解釋數據,而警察局的管理層更需要能夠看懂數據并展開質詢與評價。實際上對各級的管理人員都提出了不同程度的數據素養要求。
刑事司法數據分析逐漸從單一學科性走向跨學科性。早期的犯罪數據分析或犯罪制圖只單純地進行統計分析,隨著數據的內涵與外延的擴展,時至今日的大數據技術展現出很強的跨學科的特征。研究人員常常來自不同專業背景,需要犯罪學、制圖學、統計學、計算機、管理學等多個專業領域的知識。高等教育的通識教育理念、包容開放的專業視野、交叉學科研究的繁榮為跨學科的刑事司法數據分析研究奠定優良基礎,很容易孕育出跨學科的研究成果。紐約市警察局的CompStat系統、圣塔克魯茲警察局的犯罪“余震”模型等創新技術都是跨界聯合的產物。刑事司法數據分析必然需要具備跨學科視角的人才。大學承擔著人才培養與輸送的使命。因此IACA提出在大學設置犯罪分析相關課程。
近幾年國際上興起轉化犯罪學和循證警務響應了刑事司法研究成果轉化成有效實務的社會需求。這類的應用研究不僅繁榮科學研究,還為刑事司法部門遇到的難題提供解決方案。研究界與實務界存在優勢互補,實務界有數據與生動的試驗與驗證場景,這是研究界所沒有的;研究界有探索能力與研發人員,這正是實務界所欠缺的。在政府的牽線搭橋與資助下,研究界開始積極投身于應用性的刑事司法問題研究。像英國內政部警務學院、美國司法部項目辦公室等都是起到推動研究界與刑事司法實務界合作的機構。
鄧小平同志在改革開放之初說過“任何一個民族,一個國家,都要學習別的民族,別的國家的長處,學習人家的先進科學技術。我們不僅因為今天科學技術落后,需要努力向外國學習,即使我們的科學技術趕上了世界先進水平,也還要學習人家的長處。”近年來我國在大數據、人工智能領域取得了高速發展,并且相關新技術快速應用于各行各業工作場景。刑事司法領域由于工作特殊性與保密性,在數據的開發應用路上走得較為謹慎,但各單位也探索出不少與部門需求相融合的創新技術。2021年6月十三屆全國人大常委會第二十九次會議表決通過《中華人民共和國數據安全法》,該法于2021年9月1日起施行。我國在數據安全領域也將逐漸走上法治化、規范化的軌道。在刑事司法數據開發應用領域,我們仍然存在著許多有待解決的問題,需要不斷尋找符合我國國情和社會發展需求的技術與機制。結合域外的相關發展經驗,我們可以在若干方面進行探討和反思。
留意域外刑事司法數據開發應用發展的細節,可以從研究范式的根源上感受到差異。時至今日西方先行國家仍非常重視社會調查數據的收集與分析技術。IACA為犯罪分析員制定了必備技能項目清單包括:犯罪分析基礎知識、時間分析、描述性統計、推論統計、人口學分析、解釋犯罪數據、空間分析、調查性/情報分析制圖、閱讀理解、撰寫解釋性的材料、有效地展示數據、文字處理技能、制作電子數據表、互聯網/內網使用技能、應用性犯罪分析研究方法等。哈爾濱工業大學米加寧教授等人將哲學思辨和定性研究稱為社會科學研究第一范式,將基于實證主義傳統形成的定量研究稱為第二范式,將基于仿真研究稱為第三范式,基于數據科學的大數據研究稱為第四范式。[10]從上述清單內容上來看,域外先行國家對刑事司法數據的分析仍主要處于社會科學研究第二范式和第三范式階段。他們囿于國內對于民權保護的糾結,在大數據技術的發展方面受到了數據可獲得性的制肘。因此他們更注重培養刑事司法部門從業人員,無論是管理層還是專職分析人員的數據素養與執業能力,向刑事司法從業群體普及數據驅動的理念,采用診斷問題、實施干預措施、評估干預效果的工作步驟,通過采集與分析工作數據來支撐決策的制定與執行。而我國則是利用目前的有利環境聯合研發企業與機構的技術優勢,大量地發掘刑事司法領域圖像、視頻等無結構化數據,對許多實務難題嘗試從技術路徑創造性地解決。近幾年各地政法單位聯合企業研發新技術的案例層出不窮。可以說我國的刑事司法數據分析直接躍入社會科學研究的第四范式,實現跨越式發展。
隨著今天數據科學及人工智能技術進入社會科學研究領域,對于不少社科出身的學者來說,一些運算過程如同“黑箱”,可得到結果卻難知曉過程。比如深度學習和人類使用知識的形式差距太大,普通人無法理解。技術推廣公司極少完全公開他們的操作,如哪些數據、哪些可靠的措施應用于解決潛在的不準確、有偏的實務行為。而我們的實務工作人員并未經歷充分的第二范式研究理念的熏陶,存在過度依賴技術且不求甚解、散失判斷力的風險。并且并非任何一個目標領域都可以在目前條件下輕易收集到符合要求的大數據,一些技術所采用的大數據未必能保證測量效度,其分析是有偏計算。因此不能完全拋棄作為第二范式的實證主義定量研究,它在今天的應用性研究中依然能發揮價值,能為更先進技術研發奠定基礎、闡明理論、指明方向。
我國的公檢法司以及政法委系統里幾乎沒有專司數據采集與應用的機構。即便一些地方基于改革創新而設立了獨特的內設機構、培訓了數據分析師,也僅是個例。通常公安機關的情報指揮或合成作戰單位、檢察院與法院的研究室或辦公室等內設機構兼職承擔數據采集與分析職能。近年來,國家各部委開始向社會公開招標研究項目,旨在借助社會研究力量和智庫作用,解決其難點問題。但在系統性的數據管理、項目研究結果的應用與評估反饋、有效研究結果向決策層面與社會層面的擴散與傳播等方面基本上各自為政。我國目前各類研究項目名目繁多,項目在研究團隊提交報告通過結題后便戛然而止,并未激發出研究轉化應用的功能,這與缺乏專門的職能機構承擔管理、未形成專業的管理機制與流程不無關系。
擴散傳播的研究結果、在實務場景下得以應用與檢驗并反饋結果,將增大研究的社會價值。我國的刑事司法數據基于保密性極少分享,研究成果也極少見諸于公開的學術研討場合,外界無從參與診斷問題、評價適用效果。如果政法系統內設置專門的機構來實現各自領域數據的管理和開發應用,在確保數據安全的前提下,建立機制推動特定范圍內的數據與研究結果分享與交流,對我國政法領域工作的科學化將發揮積極的作用。
最高人民法院1985年頒布的《關于人民法院司法統計工作的若干規定》:司法統計報表是國家的機密和絕密資料,要注意保密,不得泄露和遺失。司法機關對于我國犯罪情況是了解的,但不對外公開,使得社會公眾及科研工作者難以獲取這些數據,從而難以全面了解我國犯罪的真實情況,也就難以提出有效的犯罪治理策略。[11]我國尚未有專門的司法統計局專司對社會治安、犯罪、刑罰處遇等情況統計。我國的犯罪統計和犯罪測量工作相當薄弱,沒有很好地建立起系統、成熟的犯罪統計和犯罪測量指標體系。官方的犯罪統計指標體系過于粗略,非官方的犯罪測量活動也因為經費和人員等問題沒有發展起來。[12]在公檢法司政法系統有著各自系統的指標體系,各部門的數據管理工作需要進行流程再造,建立可以用于科學研究的數據建構與維護體系,包括采集、存儲、檢修、傳播等工作以及貫穿始終的數據安全機制。
我們目前工作中數據采集指標體系通常較簡單,對事件、人和環境的描述信息非常少,很多統計數據無法用于研究,缺乏以個案為分析單位的指標體系。大量的數據是以無結構的形式存儲于視頻、音頻、圖片、文書等載體里面,將其轉化成可供統計分析的形式需要新技術。德國犯罪學家厄廷根說:“官方的司法統計是不可靠的。為了提高可靠性需要設計者構思智慧的方式。”[13]智慧的采集流程要求變革定期層層上報數據的傳統形式,結合自然語言處理技術,提取數據載體中的指標內容,既不加重下級統計負擔,又能高效完成數據采集任務。在完善的數據建構機制的基礎上,建立起各個專項領域的數據庫以備使用。數據存儲之前需要進行清理、整理,再以一定的形式存儲起來,并且定期進行數據的檢查修正。各數據持有單位視情況以網頁、報告等形式傳播數據。在傳播時還應告知使用者數據的采集方法、變量解釋、優缺點與有效范圍等使用者須知的事項。
由于數據是源源不斷地收集積累,以上構想的工作便是周而復始地開展,因而需要有一支專職的隊伍從事這些工作。目前在我國的政法系統里未形成數據分析職業群體,更未形成定期培訓提升技能、開展交流的執業制度。刑事司法數據分析人才是一種復合型人才,在培養上需打破學科壁壘,不僅需要掌握計算機、統計學還需要犯罪學、寫作等知識,才能培養出專業的數據分析人才。這正與我國教育部當前提出的新型學科理念相契合。由于刑事司法數據的保密性,比較適合在公安政法高等院校培育培訓刑事司法數據分析人才,向實務部門輸送人才組成專業隊伍。在此基礎上健全執業資格認證、專業資格晉升和再教育制度,以實現這支隊伍素質的專業化和職業化。
國內外的實務部門都有重視戰術性應用、輕戰略性應用的傾向。我國目前發展較快的正是與案件偵破、精準打擊、交通管理、危險預警等領域的大數據技術。主動警務、智能警務等名詞也正是致力于主動打擊和預防犯罪、服務群眾所衍生出的具體問題的解決方案。對于宏觀描述、科學決策的戰略性應用成果相對不引人注目,而這一領域的應用群體主要是管理層人員。數據收集和數據分析成為基層警務部門的一種文化,代表著基層警務部門一種管理哲學的改變。[14]我國近年來如火如荼的大數據技術應用于政法系統并不意味著從領導層到基層人員都已樹立起循數管理的理念、提升了數據素養,實質上許多人只是功利性地應用大數據技術,在乎的是其效率與結果,并不真正了解數據背后的涵義。許多管理人員認為只要相關技術人員了解數據即可,無需親自學習。數據驅動、數據診斷的管理哲學并未深入人心,融入決策。社會安全治理與決策關鍵在于管理人員,科學決策區別于經驗決策就在于其對數據的理解與重視。所以需要提升管理層的數據素養,能看懂數據、以數據輔助決策,方能實現科學決策。
我國正處于一個機遇與挑戰并存的歷史時期,各個領域進入全面深化改革的關鍵階段。提高社會治理整體水平,建構立體化社會治安防控體系,需要建立起數據開發與應用的完整體系,構筑預測、預警、預防的科學化工作機制。與先行國家相比,我們擁有著強大的執行能力,完全有可能在短期內通過國家力量的推動實現刑事司法領域數據的充分開發應用,提升政法工作科學化、信息化水平,增強社會風險防控能力,建設更高水平的平安中國。