999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類的反恐情報異常數據分析方法研究

2019-11-07 09:28:42李勇男
現代情報 2019年10期
關鍵詞:數據挖掘

李勇男

摘 要:[目的/意義]通過異常檢測可以在海量涉恐數據中發現異常信息,為反恐預警提供重要情報。[方法/過程]首先利用聚類將基礎數據分為不同的簇,識別出其中區別于大部分數據對象的異常人員,然后設計一種專門的相似度綜合度量參數用于計算與恐怖分子最相似的人員。[結果/結論]該方法為檢測異常人員數據提供了一種可以參考的思路,用于從多種來源數據中快速找出涉恐敏感程度較高的人員,有望提高反恐情報分析的效率,實現精準打擊重點涉恐人員和恐怖活動。

關鍵詞:數據挖掘;異常檢測;聚類分析;相似度;反恐情報

Abstract:[Purpose/Significance]Outlier detection from mass fundamental data could provide important information about latent terrorists for early warning of counter-terrorism.[Method/Process]Abnormal people that differed from most data objects must be identified by using clustering method to classify mass terror related data with composite properties.Additionally,abnormal people acted as the basic data source to find terror related people.These subjects who were excavated out had the larger degree of similarity with terrorists.[Result/Conclusion]This method provided an idea to detect high sensitivity people from multiple data streams.It could accelerate the speed of handling counter-terrorism intelligence and provide reference for counter-terrorism disposition by means of swiftly finding the terror related people.

Key words:data mining;outlier detection;clustering;degree of similarity;counter terrorism intelligence

國新辦于2019年3月18日發布了《新疆的反恐、去極端化斗爭與人權保障》白皮書,其中提到90年代以來我國新疆等地至少發生了數千起暴力恐怖襲擊案件,對大量無辜群眾的生命財產造成巨大傷害[1]。基于大數據技術從海量涉恐數據中挖掘情報信息,對恐怖活動提前做出預測,打早打小進而將恐怖活動消滅在萌芽中,有效減輕或者避免恐怖主義活動帶來的影響,實現情報主導的預防性反恐策略,是我國反恐工作的重心。《中華人民共和國反恐怖主義法》[2]專門設置了第四章“情報信息”對反恐情報信息工作提出了明確的具體要求。通過各種渠道收集到海量的涉恐數據后,如何充分利用這些數據發現涉恐線索是一個值得研究的問題。

異常檢測是數據挖掘中的一種常用方法,是指給定若干對象,發現其中明顯不同或與其他數據不一致的部分對象。利用異常檢測可以在海量基礎數據中將“疑似”恐怖分子和與之相關的暴恐線索找出來,再由情報專家研判對應的情報線索是否有參考價值。在谷歌學術搜索中涉及反恐情報異常檢測的外文文獻主要包括適用于各類犯罪調查的不同異常檢測技術綜述[3]、恐怖犯罪模式研究[4]、行為分析[5]、隱私保護[6]、網絡入侵檢測[7]等方向。在中國知網、萬方、百度學術搜索等知名中文文獻數據庫中,相關的研究主要包括恐怖襲擊模式的異常檢測[8]、視頻異常[9]、網絡入侵檢測[10]、通話記錄異常挖掘[11]、動物嗅覺探測異常[12]等。本文將研究如何利用異常檢測的方法在基礎數據中挖掘“疑似”涉恐人員數據。

1 異常檢測理論

異常檢測(Outlier Detection)又稱異常挖掘、離群點檢測、例外挖掘、稀有事件檢測等,是指發現與大部分其他對象不同的對象[13]。具體的數學表述為給定N個數據點或對象的集合,預期的異常點個數k,找出其中不一致的排序前k個對象或數據點[14]。一般系統中異常數據的成因主要包括測量、輸入錯誤或系統運行錯誤等。異常檢測目前常用于醫療診斷、保險或銀行業的欺詐檢測、海關或民航等部門的安全檢查、電子商務中的犯罪檢測、網絡安全中的入侵檢測、災害氣象預報等領域。

2 反恐情報中的異常數據分析

一般的異常數據的挖掘分析主要需要解決兩個子問題[15]:1)如何度量異常;2)如何有效發現異常。對于反恐情報分析中的異常檢測,目標是從大量基礎數據中將“疑似”的涉恐人員數據找出來,首先要解決如何度量涉恐人員的問題,其次解決選擇何種有效的異常檢測方法進行涉恐人員數據挖掘。在發現異常的方法選擇上又要同時考慮涉恐屬性特點和基礎數據類型。因此反恐情報中的異常人員數據檢測必須分別考慮3個子問題:1)如何度量異常;2)如何根據涉恐人員數據屬性特點選擇檢測方法;3)如何根據基礎數據類型選擇檢測方法。本節將從這3個子問題分別論述基于聚類的異常檢測較適合反恐情報中的異常人員數據檢測。

2.1 反恐情報中的“異常”度量標準

度量涉恐人員要根據反恐情報分析專家的經驗和統計數據設定具體“異常”的度量指標。由于異常產生的機制是不確定的,通過異常檢測的方法挖掘出的僅僅是“疑似”異常數據,這些“疑似”數據是否是實際的涉恐異常數據,只能根據具體應用由領域內的專家來判斷,而不是由異常檢測方法本身來解釋說明。在反恐情報分析中,通過一些常用的異常度量方法只能找出系統中的異常人員,這些異常人員可能是盜竊團伙分子、販毒人員、黑社會背景人員、詐騙嫌疑人等涉及其他犯罪的人員,與反恐情報分析的目標數據不符。反恐情報的異常檢測必須能找出涉及暴力恐怖襲擊的人員,這就要求必須通過已破獲暴恐案件中的統計數據和反恐專家的經驗總結出涉恐特征。異常檢測就是找出最符合這些涉恐特征的數據,即與這些涉恐數據的相似度最大或相異度最小的數據。

2.2 適合涉恐人員屬性特點的異常數據挖掘方法

選擇有效方法要符合涉恐人員的屬性特點,適合混合屬性數據挖掘分析。涉恐人員的屬性特征中既包含連續數值屬性也包含分類離散屬性[16],屬于混合屬性數據。從技術路線角度來看,常用的異常檢測主要包括基于統計、距離、密度、聚類等方法[17]。基于統計的方法假定數據符合某種分布,例如正態分布、泊松分布等,建立在標準的統計學基礎上,一般對于單個屬性數據非常有效,而涉恐基礎數據屬性眾多且統計分布未知,并不符合這類方法;基于距離的方法和基于密度的方法較適合具有連續數值屬性的數據,涉恐數據屬性中的確存在一些連續數值屬性,但是更多的是大量分類離散屬性,同時這種方法計算復雜度比較高,所以不建議采用;基于聚類的方法是將大量數據進行分簇處理,分簇后每個簇內的數據更接近,各個簇之間的數據相差較大,聚類完成后遠離大簇的小數據量簇或者孤立數據點即為異常數據。聚類方法中有一部分適合于分類離散屬性的處理,涉恐基礎數據中含有大量的分類離散屬性,少量連續數值屬性例如身高、體重、年齡、財產狀況等也可以按照區間離散化的方式轉換為分類離散屬性,所以可以考慮采用聚類的方法進行涉恐人員的異常檢測。先選擇適合分類離散屬性的聚類方法將海量基礎數據聚類分簇,找出異常數據,然后再在異常數據中檢測涉恐人員。

2.3 適合無監督類型基礎數據的異常數據挖掘方法

本文主要考慮基礎數據中沒有涉恐人員類別標號的情況。從異常數據是否具有類標號(正常或異常)以及類標號的利用程度分類,異常檢測方法可以分為有監督的異常檢測方法(可以理解為有涉恐人員類別和其他正常人員或普通人員類別的信息)、無監督的異常檢測方法(可以理解為基礎數據中沒有人員類別信息)以及半監督的異常檢測方法(可以理解為基礎數據中有正常人員的類別信息,但是沒有關于涉恐人員的類別信息)[18]。有監督的方法本質上屬于根據基礎數據訓練數據挖掘分類模型,然后利用建模對未知人員數據分類識別涉恐人員,作者已經做過此類研究[19-20]。本文將重點研究基礎數據沒有涉恐人員類別信息的情況,即無監督和半監督的情況。前文所述的聚類方法在海量未知類別數據快速分類時處理速度較快,這一點也非常適合反恐情報分析。

3 基于聚類的反恐情報異常數據分析

通過前文的分析可知,反恐情報分析中的異常數據挖掘可以分為兩步。第一步采用聚類的方式將原始海量基礎數據分為幾個簇,找出其中的小簇和孤立數據作為待判斷的樣本數據。第二步定義一種適合涉恐人員數據混合屬性特征的相似度或相異度度量方法,找出與已有恐怖分子特征最接近的數據,即為通過異常檢測找出來的涉恐人員。筆者曾做過關于涉恐數據聚類分析的研究[21-22],核心內容是將涉恐人員基礎數據分簇,然后基于每個簇判定涉恐等級,所有的連續數據屬性按照區間劃分轉換為分類離散屬性,離散屬性之間按照廣義雅卡爾系數或者公共鏈接數計算相似度。這一方法也可以直接用于未知類別的基礎人員數據分簇,因此下文將不再討論聚類過程的細節,感興趣的讀者可以查閱筆者發表的相關文獻。

如圖1所示為本文設計的反恐情報異常數據挖掘流程。首先要收集到海量的基礎數據作為情報分析的數據來源。原始的數據不適合直接展開異常檢測,要進行數據的預處理將其轉換為標準化數據,便于展開挖掘過程[23]。第一次數據預處理除了常規的數據清洗、數據集成等操作外,還要進行數據離散化處理即將所有的連續數值屬性全部轉換為有序的分類離散屬性。數據預處理的過程中,不同數據之間滿足獨立性,可以采用并行計算的方式分別處理,提高處理效率。準備好基礎數據后利用適合分類離散屬性的聚類方法,將標準化的數據分簇,大數據量的簇被認定為正常數據或普通數據,小簇和孤立數據點保存作為下一步異常檢測的基礎數據。

為使最后異常檢測的結果更加精確,獲得下一步開始前的基礎數據后,再次進行數據預處理,將所有的數據屬性特征做進一步轉換。如果在第一次數據預處理時將所有數據的格式轉換一步到位,則數據量太大會消耗過多的計算時間和計算資源,降低情報分析的效率,所以數據預處理過程可以分兩次進行。第二次數據預處理將所有分類離散屬性進一步分為有序離散屬性、二元離散屬性和其他普通多元離散屬性。第二次數據預處理后生成適合綜合計算所有屬性相似度的數據。

最后根據已有的恐怖分子的屬性特征值統計,計算每個異常數據對象的相似度,并設最小相似度閾值,找出其中滿足最小閾值的即為涉恐人員。其中恐怖分子的屬性特征值統計為已知量,由已破獲暴恐案件中的數據計算得出。評估數據相似度的過程必須綜合考慮多重涉恐屬性,具體的量化標準由下文討論的涉恐敏感程度度量方法計算得出。計算出滿足閾值的“疑似”重點涉恐人員后,繼續由有經驗的情報分析員進行人工研判。此外,還要進行驗證反饋,根據實際調查結果,更新恐怖分子特征統計數據,不斷提高異常檢測的準確度。

4 涉恐敏感程度度量方法

本節將設計一種計算涉恐人員敏感程度的量化方法,通過計算與恐怖分子的相似度來量化敏感程度,該方法能夠覆蓋各種類型的涉恐屬性特征。我國涉恐人員的特征比較明顯,具體可以參考《識別宗教極端活動(75種具體表現)基礎知識》[24]、2016年1月1日起正式施行的《中華人民共和國反恐怖主義法》、2017年3月29日頒布的《新疆維吾爾自治區去極端化條例》以及一些媒體公開報道的暴恐案件。表1中的虛擬樣本集即參考這些特征隨機生成,下文的相似度計算也以這些屬性特征為例展開。本文聲明,這些虛擬樣本數據完全根據涉恐數據的特征隨機生成,不包含任何敏感數據。同時,表中的數據僅用于表述異常檢測分析的流程,實際反恐情報分析中涉恐屬性更多,必須列舉出所有重要涉恐屬性,提高異常檢測的科學性和準確性。

4.1 合并同類項

這些涉恐特征中有一部分存在一定的共性,為了提高情報分析的效率,可以將具有一定共性的涉恐特征合并,使得涉恐特征更集中,計算相似度時目標性更強,結果更精確。例如表1中的虛擬樣本數據集,“極端思想表現”屬性中“抵制正常體育活動”、“抵制正常娛樂活動”可以合并為“抵制正常文體活動”,“非法活動”屬性中“攜帶非法宣傳品”、“私藏暴恐音頻視頻”可以合并為“持有非法宣傳資料”。表2所示為合并同類項后的虛擬樣本集。以“私制/囤積武器”屬性為例,恐怖分子的統計特征值為{5/8囤積易燃易爆物+2/8囤積炸彈零件+1/8囤積冷兵器}。在反恐情報分析的異常檢測中,這些均作為已知數據,在多次異常檢測時無需重復計算,只需對原始基礎數據統一計算1次即可。兩表中的數據僅用于說明恐怖分子涉恐特征的統計方法。在大量數據統計中,可將比例非常小的特征值直接舍棄,提高計算效率。

4.2 初步聚類的相似度度量

初步聚類過程中的相似度度量采用廣義雅卡爾系數。在聚類過程中,為了快速完成初步分類過程,連續數值屬性轉換為分類離散屬性,所有離散屬性的處理沒有區別,直接代入公式計算雅卡爾系數。當通過聚類選出所有異常數據后,基礎數據量已經變小,再直接用雅卡爾系數統一計算相似度則不夠精確。在計算基礎數據與恐怖分子相似度時將分類離散屬性進一步分為有序離散屬性、二元離散屬性以及其他多元離散屬性。

4.4 連續數值屬性的度量

恐怖分子的連續數值屬性主要包括身高、體重、年齡、財產狀況等。一般情況下,連續數值屬性最簡單、最精確的度量是采用各種標準距離例如曼哈頓距離、歐幾里得距離、切比雪夫距離等進行計算。但是,與其他思想傾向、極端活動等屬性特征不同,恐怖分子的這些連續數值屬性沒有一個明確的可參考值,一種比較可行的方式是按照統計數據將這些連續屬性離散化,部分屬性還可以合并同類項,例如身高、體重、年齡綜合為身體素質,設為是否適合實施暴恐活動,例如分為{好,一般,較弱},還可根據實際需要進一步細分,顯然離散化后的涉恐屬性特征依然是有序的。

4.5 二元離散屬性的度量

通過新聞報道中可以看出,歐洲的恐怖襲擊很多與中東難民有關,純粹的原住居民較少[26-27]。從國際宗教極端主義的傳播來看,這些暴恐分子的宗教信仰、文化背景、生活習俗等各方面也與“伊斯蘭國”、“基地組織”等恐怖組織更接近,因此更容易被宗教極端主義洗腦。所以根據其特征可以設定二元離散屬性的值,一種為敏感屬性值(值為1),其他全部設為非敏感屬性值(值為0)。我國也可以參考歐洲的情況根據暴恐案件的統計數據,將一部分屬性篩選出來,采用二元離散屬性度量。二元離散屬性的度量一般采用簡單匹配系數或二元離散屬性的雅卡爾系數。涉恐二元離散屬性在度量時,顯然敏感涉恐屬性值對反恐情報分析更有意義,且原始基礎數據中非敏感屬性值占大多數,本文采用更關注敏感屬性的雅卡爾系數來計算兩個數據的相似度。即s2=f11/(f11+f10+f01),角標的0和1表示兩個數據對應屬性值分別為0和1的情況。

5 結 語

本文提出了一種基于聚類的反恐情報異常數據挖掘分析方法,主要研究了在反恐情報中如何度量異常和如何發現異常兩個問題。其中度量異常的方式為與已掌握恐怖分子的屬性特征統計數據計算相似度,相似度大的即為涉恐人員。如何發現異常則分兩個步驟,第一步先用適合分類離散屬性的聚類方法對原始數據進行聚類分簇,聚類過程中將原始數據集中的連續數值屬性全部轉換為分類離散屬性處理,第二步在聚類分析結果的基礎上逐一利用與恐怖分子的相似度檢測異常數據點即涉恐人員,這種處理方式效率較高,非常適合大數據量的反恐情報分析。在第二步計算相似度時,每種屬性所占的比重需要根據實際反恐經驗和驗證反饋不斷調整,本文旨在說明這種處理方式,具體的比重參數只能由真實數據統計得出。文中使用一組虛擬數據描述了異常數據挖掘分析的詳細過程,在實際的反恐情報分析中還要與其他的量化分析方法組成完整的方法體系,相互補充,才能提供最完整、最可靠的情報信息。期望本文的研究可以為提高反恐情報分析效率,精確打擊恐怖主義活動提供有益的參考。

參考文獻

[1]新華網.新疆的反恐、去極端化斗爭與人權保障[EB/OL].http://www.xinhuanet.com//2019-03/18/c_1124247196.htm,2019-03-18.

[2]中國人大網.中華人民共和國反恐怖主義法[EB/OL].http://www.npc.gov.cn/npc/xinwen/2018-06/12/content_2055871.htm,2019-03-18.

[3]Singh K,Upadhyaya S.Outlier Detection:Applications and Techniques[J].International Journal of Computer Science Issues,2012,9(1):307-323.

[4]Khan N G,Bhagat V B.Effective Data Mining Approach for Crime-terrorpattern Detection Using Clustering Algorithm Technique[J].Engineering Research and Technology International Journal,2013,2(4):2043-2048.

[5]Cao L.Behavior Informatics and Analytics:Let Behavior Talk[C]//Data Mining Workshops,2008.ICDMW08.IEEE International Conference on.IEEE,2008:87-96.

[6]Challagalla A,Dhiraj S S S,Somayajulu D V L N,et al.Privacy Preserving Outlier Detection Using Hierarchical Clustering Methods[C]//Computer Software and Applications Conference Workshops.IEEE,2010:152-157.

[7]Agarwal A.Multi Agent Based Approach for Network Intrusion Detection Using Data Mining Concept[J].Journal of Global Research in Computer Science,2012,3(3):29-32.

[8]陳沖.反恐情報分析中的缺失數據處理和異常值檢測[D].北京:中國科學院大學,2015.

[9]余昊.基于底層特征的視頻異常事件檢測算法研究與實現[D].上海:上海交通大學,2015.

[10]肖政宏.無線傳感器網絡異常入侵檢測技術研究[D].長沙:中南大學,2012.

[11]王家定.基于復雜網絡理論和通話記錄的用戶行為異常識別研究[D].合肥:中國科學技術大學,2013.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 人妖无码第一页| 日韩小视频在线播放| 国产丝袜一区二区三区视频免下载| 一级毛片高清| 日韩精品成人在线| 91成人在线免费视频| 日韩在线1| 国产理论精品| 亚洲国产日韩视频观看| 国产激爽大片在线播放| 综合社区亚洲熟妇p| 成人在线不卡视频| 久久精品一品道久久精品| 久久精品中文字幕少妇| 内射人妻无码色AV天堂| 亚洲伊人电影| 欧美亚洲另类在线观看| 天堂亚洲网| 亚洲无码91视频| 日韩视频免费| 亚洲日韩精品无码专区| 天堂成人在线| 日韩高清一区 | 欧美中文字幕无线码视频| 成年免费在线观看| 91精品啪在线观看国产| 无码精品一区二区久久久| 免费国产好深啊好涨好硬视频| 在线观看亚洲国产| 亚洲国产天堂久久综合| 呦女亚洲一区精品| 日韩欧美高清视频| 久久国产av麻豆| 黄色三级毛片网站| 曰AV在线无码| 97超级碰碰碰碰精品| 国产精品久久自在自线观看| 精品国产aⅴ一区二区三区| 久久精品亚洲专区| 亚洲无线国产观看| 免费网站成人亚洲| 久久五月天综合| 青青青国产免费线在| 波多野结衣一区二区三区四区视频| 91青青视频| 国产裸舞福利在线视频合集| 青草精品视频| 国产第四页| 永久免费无码日韩视频| 99爱视频精品免视看| 人与鲁专区| 国产第二十一页| 欧美一级高清片久久99| 最新日本中文字幕| 色综合综合网| 亚洲精品国产成人7777| 第九色区aⅴ天堂久久香| 国产h视频在线观看视频| 看国产毛片| 欧美黄色网站在线看| 国模私拍一区二区三区| 免费国产小视频在线观看| 国产亚洲欧美在线人成aaaa| 日韩人妻精品一区| 在线观看精品自拍视频| 国产夜色视频| 华人在线亚洲欧美精品| 先锋资源久久| 国产在线97| 亚洲成aⅴ人片在线影院八| av尤物免费在线观看| 欧美成人综合视频| 亚洲欧美精品一中文字幕| 亚瑟天堂久久一区二区影院| 国产性生大片免费观看性欧美| aaa国产一级毛片| 无码aaa视频| 亚瑟天堂久久一区二区影院| 亚洲愉拍一区二区精品| 成人午夜久久| 国产一区二区三区免费观看 | 99re经典视频在线|