基于數(shù)據(jù)挖掘的全球恐怖主義數(shù)據(jù)庫數(shù)據(jù)分析

2019-07-05 11:20:37李永群應(yīng)萬明袁飛韓玉春

經(jīng)濟(jì)數(shù)學(xué) 2019年2期

李永群應(yīng)萬明袁飛韓玉春

摘要運用數(shù)據(jù)挖掘的方法，對全球恐怖主義數(shù)據(jù)庫（以下簡稱GTD）進(jìn)行了量化分析.建立了基于KNN鄰近算法的恐怖襲擊事件量化分級模型和基于Kmeans聚類算法的恐怖襲擊事件分類模型.此外，對近三年來恐怖襲擊事件發(fā)生的主要原因、時空特性、蔓延特性以及級別分布規(guī)律進(jìn)行了分析.最后，基于建立的模型和分析結(jié)論，對未來全球和某些重點地區(qū)的反恐態(tài)勢進(jìn)行了預(yù)測分析，給出了具有針對性的建議.

關(guān)鍵詞應(yīng)用統(tǒng)計數(shù)學(xué);恐怖襲擊;數(shù)據(jù)挖掘;KNN;Kmeans

中圖分類號 F063.3; O213?????????? 文獻(xiàn)標(biāo)識碼 A

Data Analysis of GTD Based on Data Mining

LI Yongqun1， YING Wanming2， YUAN Fei3，HAN? Yuchun3

（1.College of Mathematics and Econometrics， Hunan University， Changsha， Hunan 410082， China;

2.College of Finance and Statistics， Hunan University， Changsha， Hunan 410082， China;

3.College of Electrical and Information Engineering， Hunan University， Changsha， Hunan 410082， China）

Abstract Use data mining methods to investigate the Global Terrorism Database （GTD）. Quantitative grading model based on KNN algorithm and classification model based on Kmeans clustering algorithm about terrorist attacks are established respectively. Furthermore， the main reasons， time and space characteristics， spread features and level distributions of terrorist attacks in the past three years are studied and analyzed. According to this papers models and conclusions， the global and some key regions antiterrorism situations in the future are researched and judged， and recommendations for the fight against? terrorism are given.

Key words applied statistical mathematics;terrorist attack; data mining; KNN; Kmeans

1 引言

恐怖襲擊是指極端分子或組織人為制造的、針對但不僅限于平民及民用設(shè)施的、不符合國際道義的攻擊行為.它不僅具有極大的殺傷性與破壞力，能直接造成巨大的人員傷亡和財產(chǎn)損失，而且還給人們帶來巨大的心理壓力，造成一定程度的社會動蕩，妨礙正常的工作與生活秩序，進(jìn)而極大地阻礙經(jīng)濟(jì)的發(fā)展.如“9.11”事件，遇難者總數(shù)高達(dá)2996人，給美國及全球經(jīng)濟(jì)帶來巨大震蕩及損失.

自從20世紀(jì)90年代以來，尤其是2001年美國“9.11”事件之后，反恐形勢日益嚴(yán)峻.恐怖主義是人類的共同威脅，打擊恐怖主義是每個國家都應(yīng)該承擔(dān)的責(zé)任.各國政府及聯(lián)合國等國際組織也不斷加強(qiáng)合作，采取多種手段和措施防范和打擊一切形式的恐怖主義.恐怖分子策劃實施的每一次襲擊，雖然表面上看具有偶然性，但也是經(jīng)過預(yù)謀和計劃的.所以，對恐怖襲擊事件相關(guān)數(shù)據(jù)的深入分析和挖掘有助于加深人們對恐怖主義的認(rèn)識，為反恐防恐提供有價值的信息支持.

當(dāng)前，有關(guān)數(shù)據(jù)挖掘方法在恐怖襲擊領(lǐng)域中的研究和應(yīng)用越來越受到專家學(xué)者的關(guān)注和重視.在識別恐怖分子方面，鐘磊（2014）[1]針對傳統(tǒng)算法的不足，提出了基于人工免疫算法和網(wǎng)絡(luò)信息的潛在恐怖分子挖掘方法，該方法能對潛在的恐怖分子進(jìn)行準(zhǔn)確的識別.吳紹忠（2016）[2]提出將聚類分析應(yīng)用到反恐情報分析中，從而發(fā)現(xiàn)和識別潛在的恐怖分子或恐怖組織.扈翔（2017）[3]研究了樸素貝葉斯算法與K-means算法在反恐情報分析中的應(yīng)用.在恐怖襲擊預(yù)警方面，戰(zhàn)兵和韓銳（2015）[4]將隱馬爾科夫模型與貝葉斯網(wǎng)絡(luò)相結(jié)合，實現(xiàn)了對可能發(fā)生的恐怖襲擊事件的預(yù)測.傅子洋等（2016）[5]基于貝葉斯網(wǎng)絡(luò)，建立了恐怖襲擊預(yù)警模型，為反恐行動提供了有效的預(yù)警信息.在恐怖襲擊風(fēng)險預(yù)測與評估方面，龔偉志等（2015）[6]提出了基于大數(shù)據(jù)分析的恐怖襲擊風(fēng)險預(yù)測方法.項寅（2018）[7]利用遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)構(gòu)建了恐怖襲擊風(fēng)險的預(yù)測模型，并利用GTD中的數(shù)據(jù)驗證了模型的預(yù)測準(zhǔn)確性.劉明輝（2018）[8]運用K-means聚類對民航系統(tǒng)恐怖主義風(fēng)險進(jìn)行了評估，實驗結(jié)果表明該方法的評估結(jié)果比較可靠.

美國馬里蘭大學(xué)的專家學(xué)者搜集并構(gòu)建的全球恐怖主義數(shù)據(jù)庫（Global Terrorism Database， GTD）記錄了1970年至2017年全球發(fā)生的恐怖襲擊事件（數(shù)據(jù)庫網(wǎng)址：https：//www.start.umd.edu/gtd/）.以2018年全國研究生數(shù)學(xué)建模競賽C題為背景，基于GTD數(shù)據(jù)庫的部分信息（1998年～2017年），主要解決了以下三個問題.

1）建立量化分級模型，根據(jù)危害程度對恐怖襲擊事件分級，并列出近二十年來危害程度最高的十大恐怖襲擊事件.

2）針對2015、2016年發(fā)生的、尚未有組織或個人宣稱負(fù)責(zé)的恐怖襲擊事件，依據(jù)事件特征，將可能是同一個恐怖組織或個人制造的恐怖襲擊事件歸為一類，從而為進(jìn)一步確定恐怖襲擊事件的制造者提供了幫助.

3）通過分析近三年來恐怖襲擊事件發(fā)生的主要原因、時空特性、蔓延特性、級別分布等規(guī)律，進(jìn)而分析下一年全球或某些重點地區(qū)的反恐態(tài)勢，并給出有針對性的反恐建議.

2 量化分級模型的建立與求解

由于恐怖襲擊事件的危害性不僅取決于人員傷亡和經(jīng)濟(jì)損失這兩個方面，還與發(fā)生的時機(jī)、地域、針對的對象等諸多因素有關(guān)，因而采用災(zāi)難性事件的主觀分級方法難以形成統(tǒng)一標(biāo)準(zhǔn).對GTD中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘，建立基于數(shù)據(jù)分析的量化分級模型，將GTD給出的事件危害程度從高到低分為一至五級，并列出近二十年來危害程度最高的十大恐怖襲擊事件.

2.1 數(shù)據(jù)預(yù)處理

GTD數(shù)據(jù)庫中記錄了1998年～2017年全球共發(fā)生114183起恐怖襲擊事件，每一起事件有134個特征變量，數(shù)據(jù)量極大.在進(jìn)行事件分級之前，需要對數(shù)據(jù)進(jìn)行預(yù)處理.首先，刪除變量缺失值太多的事件，然后選取特征變量用于建立分級模型.考慮到每起恐怖襲擊事件對應(yīng)有134個特征變量，且變量分為數(shù)值型變量、文本型變量及分類型變量三類，不可能將所有變量作為輸入特征用于分級.因此，在考慮人員傷亡、經(jīng)濟(jì)損失、發(fā)生地域等與事件危害性緊密相關(guān)的主要變量后，刪除無關(guān)的變量.

2.2 基于KNN鄰近算法的量化分級模型

恐怖襲擊事件的危害性不僅與其造成的人員傷亡和經(jīng)濟(jì)損失有關(guān)，事件發(fā)生的地域及針對的對象也會對危害程度產(chǎn)生影響.在經(jīng)過數(shù)據(jù)預(yù)處理后，選擇死亡總數(shù)（nkill）、受傷總數(shù)（nwound）、財產(chǎn)損害程度（propextent）、城市（city）及超出國際人道主義法律范圍（crit3）這5個變量作為描述恐怖襲擊事件危害性的代理特征變量.根據(jù)每個變量對恐怖襲擊危害性影響的重要程度，分配給不同變量以不同的權(quán)重，從而可以得到不同恐怖襲擊事件危害性的描述.按照危害性的大小從高到低將GTD中所有事件的危害程度分為一至五級.選取80%的事件作為訓(xùn)練集樣本，20%的事件作為測試集樣本，采用K-鄰近分類算法（KNearest Neighbor，以下簡稱KNN）對上述的分級進(jìn)行訓(xùn)練和測試，建立基于危害性大小的恐怖襲擊事件的量化分級模型.

KNN是一種比較成熟的算法，是數(shù)據(jù)挖掘分類方法之一，算法簡單，易于實現(xiàn).其核心思想是：如果一個樣本在特征空間中的K個最相鄰的樣本中的大多數(shù)屬于某一個類別，那么該樣本也屬于這個類別，并且與這個類別上樣本的特征相似.

2.3 模型的求解

在KNN算法中，K值的確定至關(guān)重要，K值的不同會對分類結(jié)果產(chǎn)生很大的影響.通過Python編程，分別取不同的K值進(jìn)行訓(xùn)練，得到最優(yōu)取值為1，此時恐怖襲擊測試集樣本的分級準(zhǔn)確率達(dá)到了95%，這表明此時的量化分級模型具有比較好的分級效果.基于此模型給出了近二十年來危害程度最高的十大恐怖事件編號（按危害性從高低排序）：201406150063、200109110004、200109110005、201408090071、201406100042、201710140002、200403210001、201408200027、201612100011、201408150057.從級別來看，這十起事件均為一級恐怖襲擊事件.

3 恐怖襲擊事件制造者的確定

GTD中有多起恐怖襲擊事件尚未確定作案者，需要確定隱藏的恐怖分子.不管某一恐怖襲擊事件的制造者是個人還是組織，其襲擊的時間、地點、目標(biāo)等事件特征總會存在相似性和聯(lián)系.因此，將同一個恐怖組織或個人在不同時間、不同地點多次作案的多起案件聯(lián)系起來統(tǒng)一進(jìn)行偵查，必將有利于找到事件的制造者.基于此分析，可以采用聚類算法，對2015年和2016年發(fā)生的、尚未有組織或個人宣稱負(fù)責(zé)的恐怖事件進(jìn)行分類，每一類即對應(yīng)一個未知的恐怖組織或個人.

3.1 數(shù)據(jù)預(yù)處理

在對案件進(jìn)行分類之前，先對數(shù)據(jù)進(jìn)行預(yù)處理.在2015年和2016年發(fā)生的恐怖襲擊事件中，首先選擇claimed變量值為0的事件，確定了22746起沒有確定制造者的恐怖襲擊事件.然后刪除其中變量缺失值太多的事件.最后，根據(jù)能反映嫌疑人和事件特征的原則，選取月（imonth）、日（iday）、國家（country）、地區(qū)（region）、政治、經(jīng)濟(jì)、宗教或社會目標(biāo)（crit1）、意圖脅迫、恐嚇或煽動更多群眾（crit2）、超出國際人道主義法律范圍（crit3）、自殺式襲擊（suicide）、攻擊類型（attacktype1）、目標(biāo)/受害者類型（targtype1）、目標(biāo)/受害者子類型（targsubtype1）、目標(biāo)/受害者的國籍（natlty1）、第一可疑/涉嫌犯罪集團(tuán)（guncertain1）、武器類型（weaptype1）、武器子類型（weapsubtype1）、國際后勤（INT_LOG）、國際意識形態(tài)（INT_IDEO）、國際雜類（INT_MISC）這18個變量用于建立事件分類模型.

3.2 基于Kmeans聚類算法恐怖襲擊制造者的確定