◆董翰博 季 鐸 曹魯喆 段詠程 王丁一 楊煜煒
(中國刑事警察學院網絡犯罪偵查系 遼寧 110035)
基于異常檢測的失竊物品網絡預警技術的研究
◆董翰博 季 鐸 曹魯喆 段詠程 王丁一 楊煜煒
(中國刑事警察學院網絡犯罪偵查系 遼寧 110035)
近年來,隨著互聯網線上交易的迅速發展,眾多二手物品交易網站悄然興起,并逐漸成為犯罪人員銷贓的重要途徑。因此建立針對失竊物品的網絡預警平臺,將為有效打擊犯罪,控制犯罪分子網上銷贓途徑具有重要價值。本文針對上述問題,利用文本挖掘方法對交易產品的商品屬性和地域屬性進行了自動的識別和標注,實現了對網上二手交易商品的地理信息可視化,提高了涉案物品定位及案件線索發現的工作效率。同時創新性地引入了異常點檢測分析算法,以達到對二手交易網站商品價格偏離正常時進行報警,對提高失竊案件的偵辦效率提供了重要手段。
網絡預警;異常點監測;二手交易平臺;失竊物品
隨著計算機網絡的發展,網絡銷贓作為一種新型的犯罪銷贓方式而出現。網上銷贓是指通過eBay或淘寶等網店銷售盜竊物品的行為。近年來,這種犯罪層出不窮,但又極其隱蔽,不易被發現。2014年1月,重慶警方經舉報抓獲一名在58同城中售賣偷來的摩托車的嫌疑人,據交待,在這之前已經成功做了多起案件。2016年2月,渭南市公安局臨渭分局將涉案的石某、唐某和劉某抓獲,追回被盜輪胎20多個,3人將輪胎偷走后,也是通過網絡進行銷贓。犯罪嫌疑人利用網絡銷贓的問題日益突出,給人們財產安全造成威脅,并給偵查破案工作帶來了巨大的困難。
網絡銷贓具有輻射面廣、不確定性以及交易的便利性等特點,其有三點具體原因,(1)網絡交易流量巨大,銷贓對象遍及全國。網絡交易流量巨大,銷贓對象遍及全國。通過互聯網銷售的贓物往往遍布全國各地,查封扣押、調查取證等工作點多線長、面廣量大,消耗了大量警務資源,給偵破案件、認定犯罪帶來了很大難度。(2)網上開店手續簡單,身份虛擬無人把關。商家上傳個人有效身份證掃描件及銀行卡號(兩者資料需一致),網站僅對上傳身份證信息與全國人口信息核對一致后,商家即能以虛擬身份在網上開設店鋪。(3)信息發布管理缺位,商品來源無法核查。商家的廣告真實性無法逐一審核,也無法認定銷售物品來源的合法性。(4)物流快遞監管失范,贓物得以順利轉手。銷贓犯利用現代物流企業懶于進行核查這一漏洞,通過物流、快遞公司快速運送贓物。
網絡交易市場、二手買賣網站以及第三方平臺的出現和發展,為犯罪行為人提供了非常方便、快捷、可靠的銷贓途徑。網絡銷贓的出現,使其犯罪活動的隱蔽性和狡詐性更加突出,加大了公安機關偵破案件難度。研究二手失竊物品的檢測和預警可以了解犯罪嫌疑人通過什么途徑銷贓,甚至可以通過網絡上進行交易的可疑人員和可疑物品實現從人到案、從物到案的破案方式。既能發現線索,又能查獲證據,還可以及時追回贓物,挽回人民群眾的損失,對于偵查破案有著重大意義。
離群點檢測的任務是識別特征顯著不同于其他數據的觀測值,這樣的點成為異常點、離群點或孤立點。離群點檢測算法的目標是發現真正的離群點,同時避免將正確的對象標注為離群點。
離群點檢測的基本概念是:在不同的領域,離群點有不同的定義,通常情況下描述離群點檢測可以定義為:給定一個有n個數據點或對象的數據集和期望的離群點數目k,找出與數據集中其余數據顯著不同的、異常的或不一致的前k個對象。其中導致離群的主要原因包括:(1)數據來源于異類,如欺詐、入侵、疾病爆發、不尋常的實驗結果等。(2)由數據變量固有變化引起,是自然發生的,反映了數據集的數據分布特點,如氣候變化、顧客新的購買模式、基因突變等等。(3)數據測量和收集誤差,主要是由于人為錯誤、測量設備故障或存在噪音。下面介紹兩種不同的離群點檢測方法:
1.1 基于統計的離群點檢測
統計方法首先對一直給定的數據樣本集假設一個分部或者概率模型(比如正態分布或者泊松分布),然后采用不一致性檢驗,結合假設模型,從而確定離群點。這種檢測需要事先了解數據集的有關參數(如數據分布情況)、分布的參數(如均值和方差)以及期望離的離群點數目。
1.2 基于距離的離群點檢測
基于距離的離群點檢測方法是針對運用統計方法進行不一致數據的檢測所存在的不足提出來的。對象o是一個基于距離的孤立點,通常用DB(p,d)表示,其中p和d為對象o的參數,它代表的意義是數據集合S中至少存在p部分對象與對象o的距離大于d。也就是說,獨立于統計檢驗,將那些與給定對象的距離較大的對象看作是基于距離的孤立點。與運用統計的方法進行檢測相比較,基于距離的不一致數據檢測綜合歸納了基于標準分布模型的不一致性檢驗。基于距離的不一致性數據檢驗在一定程度上降低了計算量,這些計算通常是因為檢測方法的選擇和標準分布的擬合等操作產生的。
2.1 數據來源
本文利用網絡爬蟲在58同城和趕集網兩個網站中進行數據的獲取,數據總計8720條,并主要來自交易量較大的7個類別,具體的數據量如表1所示。

表1 系統數據分類及數量
交易數據主要來源于網站認證的商家以及個人賣家,針對本文研究內容,我們去除了商家發布的產品信息,同時我們還去除了數據中無詳細描述或無法獲得產品價格的交易信息。
2.2 數據處理結果

表2 產品信息標注結果
數據獲取后,我們利用分詞和命名實體識別工具對數據進行了商品品牌名稱和型號的識別。重點標注了產品的品牌和型號,除此以外還包括商品的出賣地和相關的聯系方式。具體內容如表2所示。
在數據標注過程中相關標注工具對品牌的識別準確率較低,因此在原有系統上,我們又利用品牌詞表進行了二次的規則處理。識別產品的品牌名稱后,本文又依據建立的商品名稱的同義詞表進行了品牌名稱的統一標注,方便系統后期在異常點檢測的處理。
隨著中國經濟和虛擬網絡的高速發展,各種社會問題和矛盾突出。而由于我國針對虛擬網絡上的交易的管理體制還不夠完善,因此網絡銷贓就有了一定的市場。針對這種情況,失竊物品網絡預警技術可以幫助民警在追查贓物時,更加快捷高效準確,對公安工作具有重要意義。
簡化監視手段,完善控制機制。傳統的調查途徑僅僅局限于對實體店的調查走訪,而該項目的應用可以通過異常價格監測,對網上銷售的物品進行價格監測,對于出現異常價格的物品,及時進行關注并在網上進行調查。這樣彌補了傳統的調查的不足。可以對網上銷售的物品進行實時的監控和監管,對于出現異常的銷售價格的商家,可以很容易地檢測出,從而及時的發現一些失竊物品的線索,通過對異常價格的監測,從而加強了對網上商家的監測,完善了網上銷售的環境和公安監管機制。
[1]李林濤,徐笳.網絡專題地圖服務平臺的設計與實現[J].測繪(第33卷第4期),2010.
[2]國家地理信息公共服務平臺總體技術組.電子地圖數據規范(試行稿),2010.
[3]王淑清,鄔應忠.電子地圖專題制作數據要求與處理技巧.測繪與空間電力信息,2010.
[4]楊永銘,王喆.異常點檢測算法在入侵檢測中的應用研究.現代計算機(第275期).
[5]中科院深圳先進技術研究院—國泰安金融大數據研究中心大數據導論,2015.