基于隨機森林算法的暴恐案件危害程度量化分析

2021-04-01 08:12:24戴雨辰杜彥輝

現代計算機 2021年5期

戴雨辰，杜彥輝

（中國人民公安大學警務信息工程與網絡安全學院，北京100038）

0 引言

對于暴恐案件危害程度的預測研究可以幫助公安機關對某個涉恐組織針對不同目標策劃發動的暴恐案件危害程度進行研判，合理有效地對警力資源進行分配，對重點場所制定適合的巡防策略，最大程度的預防重大涉恐案件的發生。本文通過現有的暴恐案件統計數據，通過對案件數據進行特征重新構建，應用網格搜索法對隨機森林模型進行優化來對暴恐案件的危害程度進行預測，為針對性的開展暴恐管控工作、提出案件處置建議提供支持。本文研究所選取的數據來源于全球恐怖主義數據庫（Global Terrorism Database，GTD數據庫），根據GTD數據庫的統計，自1970年到2018年期間，全球共發生十九萬余起暴力恐怖襲擊。雖然自2014年之后全球暴恐案件發生呈下降趨勢，但國際反恐形勢依然十分嚴峻。

在國內外相關研究中，文獻[1]提出了一種基于長短期記憶網絡進行時間序列預測的方法，對犯罪趨勢以及案發量進行預測；文獻[2]將粒子群優化算法（PSO）引入BP神經網絡，對案件的發案數量進行預測；文獻[3]采用了基于時空分析的可視化技術和K近鄰算法，用于研究不同犯罪在區域內的分布；文獻[4]利用密度聚類分析方法將犯罪數據分類，然后進行數據降維提取關鍵屬性生成特征數據；文獻[5]抽象出案發現場的各項特征，建立以分類算法為基礎的特征識別模型，對犯罪人的地域特征進行識別；文獻[6]利用了遺傳算法（GA）優化初始權重和參數，對BP神經網絡模型進行優化，用多個影響因子數據提升犯罪預測精度；文獻[7]運用支持向量機（SVM）構建嫌疑人特征預測模型，縮小嫌疑人的排查范圍；文獻[8]使用了基于模糊信息粒化的支持向量機建立擬合回歸模型，改進了細顆粒度下的信息利用不足的問題，從而提升預測精度；文獻[9]基于隨機森林構建犯罪預測模型，對于犯罪風險進行預測。本文通過查閱文獻最終使用隨機森林算法來構建模型。

1 數據集及研究方法

1.1 研究方法介紹

隨機森林是由Leo Breiman（2001）提出的一種分類算法，它通過自助法（Bootstrap）重采樣技術，從原始訓練樣本集N中有放回地重復隨機抽取n個樣本生成新的訓練樣本集合訓練決策樹，然后按以上步驟生成m棵決策樹組成隨機森林，新數據的分類結果按分類樹投票多少形成的分數而定。其實質是對決策樹算法的一種改進，將多個決策樹合并在一起，每棵樹的建立依賴于獨立抽取的樣本。單棵樹的分類能力可能很小，但在隨機產生大量的決策樹后，一個測試樣本可以通過每一棵樹的分類結果經統計后選擇最可能的分類。

圖1參數優化隨機森林研究方案

隨機森林的分類過程如下：

（1）從樣本集中有放回隨機采樣選出n個樣本；

（2）從所有特征中隨機選擇k個特征，對選出的樣本利用這些特征建立決策樹（一般是CART，也可是別的或混合）；

（3）重復以上兩步m次，即生成m棵決策樹，形成隨機森林；

（4）對于新數據，經過每棵樹決策，最后投票確認分到哪一類。

對于隨機森林分類器參數優化的方法有很多，文獻[10]提出了基于貝葉斯優化的隨機森林分類器，通過貝葉斯優化法對隨機森林參數調優；文獻[11]為提高分類系統穩定性，提出了對隨機森林進行差分進化加權的優化方法；文獻[12]根據袋外數據對分類誤差進行估計的網格搜索法，提高了隨機森林參數調優的效率；文獻[13]提出了一種基于果蠅算法優化的隨機森林模型，根據數據氣味濃度值變化率動態調整尋優步長避免了傳統參數選擇算法存在的主觀干擾性，提高了模型預測效率。由此可見對模型的參數進行優化是提高模型準確率和泛化能力的最有效方式。隨機森林模型中具有很多的參數，如決策樹數量、決策樹最大深度、節點劃分所需最小樣本數、葉子結點最小樣本數等，這些參數對于預測結果和模型分類表現起決定性作用。因此本文建立一個隨機森林暴恐案件危害程度預測模型，通過網格搜索法來來確定預測模型的最優參數值。

網格搜索是指定參數值的一種窮舉搜索方法，是一種應用最廣泛的超參數搜索算法，通過查找搜索范圍內的所有的點，將估計函數的參數運用交叉驗證的方法進行優化來得到最優值。一般通過給出較大的搜索范圍以及較小的步長，網格搜索是一定可以找到全局最大值或最小值的。網格搜索一個比較大的問題是當需要調優的超參數比較多的時候，需要耗費大量資源。在實踐中需要調參的模型數量與對應的超參數比較多，而涉及的數據量又比較大，因此相當的耗費時間。由于隨機森林的超參數組合比較多，本文采取固定多數參數，分步對1-2個超參數進行調解。

本文對于現有的數據首先按照選取的特征提取案件信息，對各特征進行預處理，將文字類型的特征按照本文提出的標準轉化成整型。其次選取部分數據作為數據集，將數據集按照一定比例劃分為訓練集和測試集，使用原始隨機森林分類模型對訓練集進行分類預測，之后根據測試集的表現用網格搜索法對原始隨機森林分類模型進行優化，然后用測試集對參數優化后的隨機森林模型進行準確性檢驗，并與優化之前的原始隨機森林分類模型進行比較，最后對恐怖襲擊危害程度的分類結果進行評價。研究方案如圖1所示。

1.2 數據預處理

數據集中包含了十九萬余條數據，提取案件特征可以通過對各類特征的皮爾森系數進行計算，皮爾森系數的絕對值越大特征的相關性越高，接著去除系數較小的特征等操作，最終選取的特征有：“案發國家”、“所屬區域”、“武器類型”、“案發日期”、“所屬組織”、“襲擊目標”、“襲擊方式”、“受傷人數”、“死亡人數”和“財產損失”。

首先將“案發國家”、“所屬區域”、“襲擊方式”、“武器類型”等特征值轉化為整形數據，將所篩選出的六種攻擊類型總結為暴力襲擊、爆炸襲擊、劫持案件和駐地侵襲四類，分別標記為1、2、3、4。

為了對案件的嚴重程度有一個明確的劃分，根據現有特征中“受傷人數”、“死亡人數”和“財產損失”三個特征來對涉恐案件的嚴重性進行分類，分為一般、較大、重大和特別重大四類。其中一般涉恐案件，是指造成3人以下死亡，或者10人以下重傷，或者不造成直接經濟損失的恐怖襲擊，較大涉恐案件，是指造成3人以上10人以下死亡，或者10人以上50人以下重傷，或者100萬美元以下直接經濟損失的恐怖襲擊；重大涉恐案件，是指造成10人以上30人以下死亡，或者50人以上100人以下重傷，或者100萬美元以上1000萬美元以下直接經濟損失的恐怖襲擊；特別重大涉恐案件，是指造成30人以上死亡，或者100人以上重傷，或者1000萬美元以上直接經濟損失的恐怖襲擊。

自1970年以來，發動恐怖襲擊的組織共2967個，其中有7萬余起案件為無組織恐怖分子實施，將這一類無組織案件不列入考慮。在組織策劃恐怖襲擊的組織中，樣本個數（即恐怖組織發動襲擊的次數）最少為1，最大為6694，且差異較大。由圖2可知大部分的樣本數量在100以下，統計過后得出樣本數量大于100的暴恐組織有105個，但這些暴恐組織共策劃發動了67641起暴恐襲擊案件屬于多數類樣本，樣本數量小于100的暴恐組織有2862個，共策劃發動了17625起暴恐襲擊案件屬于少數類樣本，并且小于100的樣本中不足50的占90%以上。針對這樣一個犯罪數量不平衡的數據集，本文將組織的危險程度按區間0～50、50～100、100～1000和1000以上劃分為四類，即較低危險、輕度危險、中度危險、重度危險。分別用數字1、2、3、4來表示。

根據案發的時間信息在“案發時間”這一特征中提取，對案發時大眾的工作狀態進行判斷，研究暴恐分子作案的時機選擇，主要分為“工作日”和“假期”兩類，分別用1和0來表示。

圖2暴恐襲擊組織的樣本分布

在“攻擊類型”這一特征中，暴恐數據庫將各類攻擊方式分為了9種，最后篩選出6種攻擊方式劃分為暴力襲擊、爆炸襲擊、劫持和駐地侵襲4類暴恐案件相符，將這6種攻擊類型進行分類并重新編號。最終的數據格式如表1所示。

表1 數據樣式

對于案件的嚴重性進行判斷的時候，受傷人數、死亡人數和財產損失都要納入考慮，三項特征只要有一項符合更高一級的案件性質，則案件嚴重性就要提升一級，所以表2中案件最終定性為較大涉恐案件。

2 結果與分析

本文在分類預測模型中使用的訓練集是從整體數據集中隨機抽取占比0.8的數據集，并對最終的分類結果的準確性和F1-macro兩項指標的值進行比較，在準確性高的前提下，F1-macro的值越高則模型的預測結果越好。準確率和F1-marco公式如式（1-4）所示。

準確率（Accuracy）是評價分類模型表現的最常見指標，即模型分類正確的樣本數占總樣本數的比例，一般來說模型的準確性越高說明模型的分類表現越好，但是當準確率達到某一過高的值的時候就說明分類模型出現過擬合現象，僅對樣本數據分類會有較好的表現，模型泛化能力弱。因此本文在比較準確率的同時采用F1-macro值作為輔助指標。其中：n表示分類任務中類別的數量；TP表示分類模型識別出的正樣本數；FP表示分類模型未識別出的負樣本數；TN表示分類模型識別出的負樣本個數；FN表示分類模型未識別出的正樣本數。

首先由于2014年暴恐案件發案量呈遞減趨勢，因此本文選取了2014年至今的暴恐案件來進行隨機森林的參數優化，在對特征的計算和處理后最終得到五萬余條數據。先將進行特征優化之后的樣本與初始特征的樣本數據通過原始隨機森林模型分類結果進行比較，比較結果如表2所示。

表2 特征優化結果對比

由表2可見在進行特征優化后，隨機森林模型的預測準確性增加了1%，接下來使用網格搜索法對隨機森林進行優化，隨機森林的主要參數有四個：決策樹數量、決策樹最大深度、節點劃分所需最小樣本數、葉子結點最小樣本數。其中決策樹的數量對模型的預測結果十分重要，數量太小容易導致學習程度不夠，數量太大，超過一定范圍后對模型的提升太小。所以決策樹的數量對隨機森林的優化至關重要。

優化過程中，首先將80%的數據作為訓練集，然后用訓練集分別對隨機森林的決策樹數量以及最大特征數這兩個主要的參數展開網格搜索。由于數據樣本過多，所以用5折交叉驗證的平均值作為評估指標，最終指標值越高的參數組合最適合用于建立暴恐案件危害程度預測模型。由于數據量較大，當隨機森林中決策樹數量過多時會抵消隨機性的引入，最后的模型會是一個過擬合的模型，其泛化性能也會降低。因此將參數范圍設為：1≤n≤300，由于決策樹對于隨機森林的影響較小，故將步長設為10，候選特征數量m的范圍設置為1≤m≤7。

通過網格搜索最終得出的最優參數值決策樹的個數為172，節點分裂時參與判斷的最大特征數為4，最大深度為12，葉節點最小樣本數為4。在網格搜索法找到隨機森林模型最優參數后，保持其他變量相同，將隨機森林模型超參分別設為默認和優化后的值輸入模型進行結果對比。測試結果見表3，用網格搜索法對隨機森林模型參數進行優化過后，模型對暴恐案件危害程度預測準確率約為70%，比原始隨機森林默認參數預測結果提高了2%左右，可見通過網格搜索法優化后的隨機森林分類模型的分類表現有所提高。

表3 實驗結果對比

為進一步驗證參數優化后的隨機森林對暴恐案件危害程度分類的效果，本文在建立參數優化的隨機森林模型同時，建立了原始隨機森林模型，從而對網格搜索法優化原始隨機森林模型后的分類表現與優化前進行比較。優化前后的模型預測準確性和F1-macro值如圖3所示。

圖3模型評估結果

圖3（a）是模型預測準確性，（b）是模型的F1-macro值，由此可知優化后的隨機森林算法具有較高的準確性，在準確性提升的同時F1-macro值在同類分類算法中也保持在一個相對較高的水平，所以參數優化后的隨機森林對暴恐案件危害程度預測的泛化能力是最優的。

3 結語

本文綜合全球恐怖主義數據庫所給出的暴恐案件特征信息，一方面通過皮爾森系數計算最終確定暴恐案件危害程度分析模型所需的十二項特征，并進一步對特征進行處理，對案件的危害程度進行分類，增加組織危險性、案發時間等特征，從而提高對暴恐案件分類預測的準確性。另一方面通過網格搜索算法對隨機森林的參數進行優化，參數優化后的模型對于不同地區發生的面對不同目標的各類恐怖襲擊案件，在發生后對其進行案件嚴重性的預測分析，從而為警方處置案件提供參考。

此外，數據庫中還存在大部分無暴恐組織或暴恐組織不明確的暴恐案件，應對于造成較大人員傷亡或較大財產損失的無組織暴恐案件也應對其進行研究，通過對其作案動機、所持武器和所在地區等特征對此類的重大暴恐案件的風險進行評估，從而對暴恐案件有一個更全面的研究。