基于機器學習的故意傷害案件風險分析

2020-06-08 08:04:24曾祺

現代計算機 2020年12期

曾祺

（中國人民公安大學警務信息與網絡安全學院，北京100032）

0 引言

自中共中央、國務院發出《關于開展掃黑除惡專項斗爭的通知》[1]以來，公安部號召各地方單位開展大量掃黑除惡行動，堅持依法嚴懲、打早打小、除惡務盡，始終保持對各類黑惡勢力違法犯罪的嚴打高壓態勢。一個區域內故意傷害案件的發生數量和嚴重程度能夠反映該區域內的治安狀況與社會穩定度。故意傷害案件背后往往涉及到相關黑惡勢力，進而反映出該區域掃黑除惡行動的打擊力度和效果。對故意傷害案件進行風險分析不僅可以預測一起案件發生的危害后果還能夠探測其風險因素，從而給公安機關打擊黑惡勢力，加強社會治安提供決策幫助。

隨著公安信息化建設的不斷推進，公安部門內部積累了海量的犯罪歷史與實時數據[2]。許多專家學者利用機器學習方法挖掘犯罪數據中的線性或非線性關系，通過對比算法，優化參數，得到最優模型，進而利用最優模型能夠對犯罪發生的風險以及影響因素進行分析。Mehent 等人[3]利用貝葉斯方法，研究發案的日期和地點，犯罪類型，罪犯ID 和熟人等特征預測嫌疑人犯罪風險。陳鵬等人[4]利用犯罪嫌疑人的生物信息、社會信息和行為信息作為基本特征，基于二項邏輯回歸算法構建了慣犯身份分類預測模型，通過某市街面盜竊、扒竊、入室盜竊三類案件數據進行分類預測驗證，模型能夠有效進行身份預測。邱凌峰等人[5]以實際盜竊犯罪數據為基礎，采用數據預處理、特征分類等特征工程，利用隨機深林算法訓練得到了效果較優的前科人員身份預測模型。綜上可以看出，該方法的研究對象多為盜竊、扒竊等侵財類案件，針對暴力類犯罪的研究相對較少，缺少對某一類案件精細地特征挖掘和分析；同時機器學習過程中數據量越大，模型越準確[6]。

本文針對上述情況，利用A 市2014-2016 年故意傷害案件近2 萬條真實數據。通過分詞抽取、機器與人工比對方法將受害人的受害程度確定為模型目標值，進行數據預處理與特征分類，對比決策樹、隨機深林、SVM 等5 種機器學習算法，構建故意傷害案件的后果預測模型進行風險分析。

1 數據與方法

1.1 實驗數據

本節利用A 市重點人員數據庫中的2015-2016 年故意傷害案件中前科人員的11467 條和受害人的16793 條真實數據。兩組數據通過案件編號進行關聯，數據中枚舉型特征居多，除了案件編號、發案時間、年齡為連續型特征，簡要案情、詳細發案地址為文本型特征外，其他特征均為枚舉型。對數據初步分析并結合實際公安經驗，去除空缺值超過90%、特征值唯一以及與案件分析無關的特征數據。最后篩選得到數據如表1 和2 所示。

表1 受害人數據

表2 前科人員數據

1.2 實驗方法

依據原始數據資源的狀況、機器學習分類預測的基本原理[7]以及風險分析的目標對象，本文提出了如下圖1 所示的基于機器學習的風險分析方法流程。其中原始數據中特征信息豐富、多為枚舉型特征，但與目標值關聯度不確定，需通過卡方檢驗來進行篩選；特征工程主要包括目標值選取、特征分類、特征編碼等方法；選取邏輯回歸、支持向量機、k-鄰近、決策樹、隨機森林等算法[8]進行比對，對隨機森林算法進行調參優化；最后得到最優模型進行風險后果預測和風險要素排序。

2 實驗與結果分析

2.1 目標值選取

本研究采用受害人數據中的‘受害程度’特征作為目標值來表示故意傷害案件的后果程度。受害人數據中的受害程度分為：‘輕微傷’、‘輕傷二級’、‘輕傷一級’、‘重傷二級’、‘重傷一級’、‘傷害致人死亡’、‘不低于輕傷’、‘不低于重傷’、‘輕傷’、‘重傷’、‘不構成輕微傷’共11 種類別。將上述類別按照嚴重程度進行歸類，把‘輕微傷’、‘不構成輕微傷’歸為輕微；把‘不低于輕傷’、‘輕傷二級’、‘輕傷一級’，‘輕傷’歸為一般；把‘不低于重傷’、‘重傷一級’、‘重傷二級’、死亡歸為嚴重，最后得到分為‘輕微’、‘一般’、‘嚴重’的三分類目標值。數據中三種類別占比如圖2 所示。

圖1 基于機器學習的風險分析流程

圖2 受害程度劃分

2.2 特征衍生、篩選與分類

特征衍生[9]是指從原始數據中構建新的特征，本實驗中對一名前科人員對應的多名受害人數據進行統計，從而得到一起故意傷害案件中的涉案人數，以此作為衍生得到的新特征。

特征選擇[10]是從給定的特征集合中選擇出相關特征子集的過程，其去除掉無關特征后將會降低學習任務的難度，提高機器學習效率。卡方檢驗是檢測離散型自變量與因變量之間相關性的經典方法，將數據中11 種離散型特征分別與目標值做卡方檢驗，得到的Z與p 值（特征與目標值無關的概率）如表3 所示。

數據中選擇處所、實施手段、被害人身份、來京時間等四個特征的類型較多，且少數類型樣本數量多，多數類型樣本數量少，這樣會導致訓練集和測試集中大量特征信息不一致，嚴重降低模型的準確性[11]。按照如下四則原則對上述特征進行分類：一、盡可能保證各分類的樣本量平衡，且高于測試集的樣本量；二、盡可能保證每類特征之間沒有重復；三、類別應具備較好的擴展性；四：盡可能依據數據分布規律，結合業務經驗進行合理分類。身份特征分為“低收入人群類”、“普通收入人群類”、“學生和退休人員類”、“其他類”；選擇處所特征分為：“餐飲娛樂區”、“露天地段區”、“住所區”、“一般公共場所”；實施手段特征分為：“持器傷人類”、“徒手傷人類”、“其他類”。

表3 離散型特征的卡方檢驗

2.3 實驗結果分析

綜合數據集中受害程度的三類樣本比例約為2:7:1，為了解決數據集不平衡問題，采用SMOTE 過采樣處理后得到9253 條數據，其中“嚴重”程度2732 條，“一般”程度4211 條，“輕微”程度2310 條。利用Python3.6 中Scikit-learn 機器學習模型庫建立SVM、邏輯回歸、K-臨近、決策樹、隨機深林等5 種機器學習模型，并將過采樣處理后的數據帶入訓練，通過10 折交叉驗證評估各模型的結果。

根據表4 可知，在查準率上隨機森林0.74、決策樹0.70、支持向量機0.56 效果較好，在查全率上隨機森林0.69、決策樹0.64、邏輯回歸0.53 效果較優。決策樹與隨機森林算法在查全率和查準率上都要優于其他三種算，從F1值也能看出來，隨機森林0.72 最優，決策樹0.67 次之，邏輯回歸0.51 效果一般，支持向量機和k-近鄰均在0.5 以下效果較差。

依據表5 可知，在特征工程中對“受害人身份”、“來京時間”、“實施手段”、“選擇處所”進行歸類后，隨機森林模型對一般級別案件分類效果提升0.42（一倍），對嚴重級別案件分類效果提升0.3、對輕微級別案件分類效果提升0.36，總體上都得到了大幅度提高，因此可以說明特征工程中的歸類思想是合理的。

從表6 可知，“涉案人數”特征重要性最高（0.7864），“實施手段”次之（0.5762），“熱點時段”排名第三（0.4867），“選擇處所”排名第四（0.3987），其他特征重要度評分均在0.1 之下，對模型影響程度較低。因此可以得出涉案人數、實施手段、是否為熱點時段以及案件發生處所是能夠影響一起故意傷害案件后果的重大風險因素。

表4 不同模型精度比對

表5 隨機森林在特征歸類前后結果比對

表6 特征重要性度量

3 結語

本文基于機器學習方法對故意傷害案件進行風險分析，利用故意傷害案件的前科人員數據與受害人數據構建一個能夠準確評估案件后果嚴重程度的機器學習模型，并通過對模型中的特征進行重要度排序來分析故意傷害案件的風險要素。

通過上述實驗可以看出，一起故意傷害案件的涉案人數、作案手段以及案發位置的周邊環境對于案件后果有顯著影響。涉案人數越多，作案人若使用武器、發案地點為餐飲區域，則案件后果越嚴重，因此當公安機關接到符合上述特征的警情時應增加派出警力和警用裝備，及時到達現場控制局面，防止危害增大。