張天凡 王彪 袁琪 王有寧 李哲
1. 湖北工程學院 2. 湖北省孝感市公安局孝南分局 3. 湖北職業技術學院
近年來,以電信網絡詐騙為代表的詐騙類犯罪持續高發多發,犯罪分子作案手段不斷翻新,黑灰產業鏈條盤根錯節,已成為當前發案最高、損失最大、群眾反響最強烈的突出違法犯罪活動。2021年前11個月,共破獲電信網絡詐騙案件37萬余起,有力打擊了詐騙類犯罪活動的發展勢頭[1]。從個案角度來看,眾多詐騙案件涉案背景呈現各異性,具有很強的復雜性[2]。加之犯罪人員有意通過偽裝、欺騙甚至對抗手段干擾辦案,為實際執法帶來了挑戰。從眾多形態各異的案事件中發掘其內在模式,有利于提高偵破效率,保護人民財產安全。
犯罪心理學[3]和 犯罪行為分析[4]均指出,除少數個案外,大多數犯罪案件的形成均受到不同程度內外動機與因素的影響,涉案人員自身及其社會關系對最終犯罪行為和結果的產生具有重要影響,這就為建立合適的犯罪動機發現模型提供了線索[5]。犯罪也是現實世界復雜系統中的一員,通過相互作用或依賴關系將不同元素或組件形成統一的整體,呈現出非線性、自組織的整體系統行為[6]。在這些復雜系統當中,元素之間的連接模式既不是純粹的規則化連接,也不是完全的隨機連接,其拓撲結構反映出明顯的冪律度分布性與聚類特性[7],廣泛存在著社團結構與分層結構,這就為建立犯罪關系網絡并由此挖掘詐騙犯罪模式提供了基礎[8]。
本文基于詐騙犯罪數據,通過抽取涉案人員、地點、時間、犯罪類型等實體構建犯罪復雜網絡(Crime Complex Network,CCN),用于揭示紛繁案件之間的隱含關系。在此基礎上,對犯罪事件中的中心主體對象、犯罪團伙進行發現,由此對詐騙犯罪模式展開挖掘。
警務綜合平臺提供的報警記錄文本是構建犯罪復雜網絡的數據來源,然而需要先對這種非結構化的數據進行一系列處理后才能為模型的建立提供關鍵數據支撐。數據預處理和犯罪復雜網絡建立如圖1所示,主要分為以下幾個步驟。

首先,收集并整理犯罪事件文本數據,配合犯罪語料庫構建犯罪數據集;然后,通過文本實體挖掘方法從數據集中抽取關鍵實體;再根據公共屬性和經驗規則構建實體關聯,由此建立犯罪復雜網絡。在該網絡的基礎上展開詐騙類犯罪模式的挖掘,并將挖掘結果應用于實際案件分辨與偵破中。
整個數據預處理階段主要由文本實體抽取、關系抽取和實體數值量化三部分組成[9]。關鍵實體抽取流程如圖2所示。

通過將犯罪記錄文本、系統自動錄入的、包含編號和系統時間的結構化信息進行實體抽取,得到:案件編號(CID) ,唯一標注案件的關鍵字;案件分類(CType),主要分為13個類別,并單獨篩選出詐騙類案件;涉案人員(P),是本文研究的主體。其中,單個案件中可能存在一個或多個涉案人員,并且在案件文本的描述中,同一人員實體可能會重復出現多次;案件地點(L),通過POS方法轉換為GIS地理坐標L(Lng,Lat)。由于部分案件并未和實際地點產生直接關聯,但可能包含電話號碼和(或)IP地址,因此這類有助于定位的信息也被統一劃分到“地點”分類中。
如圖3所示,復雜網絡中有兩個關鍵要素,一個是構成網絡的節點(Node或Vertex),一個是表示各節點之間關系的邊(Edge)。這些節點構成節點集合,這些關系構成邊集合,則犯罪復雜網絡可以用圖G(V,E)來描述[10]。從犯罪分析的角度來看,案件1(v1)和案件2(v2)通過犯罪嫌疑人“張三”構成了一個關聯(e1),換句話來說“因為張三同時涉及了案件1和案件2,因此兩個案件是‘串案’”。而案件1指向案件2的箭頭線可以表示案件發生的先后順序,在本文中案件2要早于案件1發生。此外,箭頭線的長度可以用來表明案件之間關系的強度或案發地之間的距離。由于案件與案件之間并非唯一通過人員關聯,因此需要依賴圖2所示的多個實體對案件之間潛在的關系進行表達,以此構建完整的犯罪復雜網絡。

根據圖2所示的關鍵實體抽取方法對15萬余起涉及有效人物實體的案例進行了數據預處理,然后利用上述模型構建復雜犯罪網絡,其中網絡的布局模式采用Geo Layout 布局以展現案件的空間關聯,然后利用數據可視化軟件進行網絡展示。基于犯罪事件節點構建的犯罪復雜網絡如圖4所示。

如圖4所示,該犯罪復雜網絡包含85441條邊,其中自關聯43356、直接關聯42085。基于modularity_class檢測獲得了6077個分類(子網),其中最大的子網包含980個節點,前11個網絡包含5460個節點,充分說明詐騙類案件的團伙性質和影響的廣泛性。通過進行量化分析可知,網絡中大量節點的度為0,占比54.31%,從一般角度來看,這類案件可以認為是“孤立”的,并不與其它案件存在直接或間接關聯。還有26.72%的案件的度為1,即兩件案件存在一次關聯,在當前分析中作為關聯案例不做重點關注。度超過1的案件只占總案件數量的18.97%,它們表現出了較強的關聯性,這也是需要重點關注的案件。
以犯罪事件為節點的犯罪復雜網絡勾勒出樣本區域內案件之間的基本關系,也展現了涉案人員的社會關系概況。但圖4所示的網絡確實“復雜”,難以直接通過整個網絡挖掘犯罪模式。因此,在進行犯罪模式挖掘前,需要對現有網絡進行分解處理[11]。簡單來說,優先關注具有較多節點的子網(Sub-CCN)[12]。圖5所示是節點數量排名前列的子網結構,這里通過ForceAtlas 2[13]方法對網絡進行展開,以更好地展現該犯罪子網的結構和顯性特征[14]。

可以看到,雖然各子網呈現不同的結構,但具有較為典型的共同特征:邊緣呈現簡單線性結構;中心區域呈現復雜環狀、簇狀結構。這種關系結構的獲得有助于挖掘并發現涉案人員之間的關系。
通過犯罪關系網的分析可以了解到涉案人員之間的關系組成與基本模式。如圖6所示,以案事件和涉案人員的關聯方式和強度可將其分為三種典型類型的關聯:直接關聯(direct)、自關聯(self)和間接關聯(indirect)。
直接關聯:例如案件1、案件2和案件3中均出現了“張三”,那么這三個案件之間存在兩個直接關聯。
自關聯:案件1中,存在兩個張三(其中一個是化名),這兩個張三之間構成一個自關聯。
間接關聯:由于案件n和案件3存在直接關聯,那么案件3中的其它涉案人員小明、小強,與案件n中的涉案人員李四、二毛之間的關系均為間接關聯。

人員關系是一種典型的、直觀的關系。通過這一思路,可以分別通過IP地址、手機號、郵箱、車險等實體信息建立更復雜的關系網絡,以充分表達各案件之間的潛在關系。
通過構建關聯模式,能夠從復雜的關系網絡中發現詐騙類案件的模式特征。

1. 身份欺詐
構建虛假身份是欺詐中最常見的問題,犯罪分子通過提供虛假的身份來嘗試逃脫打擊與制裁。通過CNN有助于了解個人身份信息如地址、電話、出生日期和IP地址信息等是否構成了環狀關聯,這往往是欺詐的典型特征。如圖7(1)所示,圖中的三個人共享了一些相同的信息,除非他們是親屬或關系緊密的朋友,而這種關系很容易通過戶籍等數據確認。
2. 實體偽裝
不同實體之間可能以多種方式建立關聯,CCN有助于辨別潛在的重復實體。圖7(2)展示了三個子數據集,每個數據集中的一些實體具有相同信息,如地點、電話,它們有較大概率就是同一人。
3. 欺詐團伙分析模式
圖分析有助于動態探索大型數據集中的關系,可以通過地址、電話、郵件、交易記錄等多種信息來探索并可視化人員之間的關聯,這使得檢測同謀變得更快、更準確。如圖7(3)所示,可能屬于同一個犯罪團伙,并且是其中的關鍵人物。
4. 車險欺詐
并非所有的車禍都是“意外”發生的,其中也許隱藏著犯罪:圖7(4)所示兩起不同的車禍及其后續處理過程中涉及人員可能以某種方式涉及了這兩起車禍,不同人員同時連接到了同一個定損員和維修點,那么這是假事故的風險就很高了。
5. 網絡傳銷式欺詐
傳銷或者說龐氏騙局的欺詐手段更加隱蔽,從構建欺詐到案件爆發或偵破中的周期一般比較長,使得最終的受害人員眾多、涉案金額往往特別巨大。新冠疫情使得線下傳銷模式大幅減少,但依托網絡實施詐騙則是近兩年電信類詐騙中的新發展態勢。在傳銷式詐騙中,客戶(或者是犯罪人員)將其他人稱為潛在客戶。如果某些人通過個人信息與網絡內的其他人或其他推薦人網絡相關,那么就有可能發現整個傳銷網絡。如圖7(5)所示,雖然這里有七個實體人員,但他們分別關聯到兩張不同的銀行卡,那么這七個實體可能只是由少數犯罪人員操控的詐騙網絡。
6. 釣魚欺詐
一些網絡犯罪分子冒充銀行、公安發送電子郵件或短信以獲取受害人的金融憑據。一旦受害人相信了這些信息,就允許犯罪分子直接或間接訪問受害者的銀行賬戶,從而造成受害人的經濟損失。當釣魚欺詐發生時,通常會有多個賬戶受到攻擊。圖7(6)所示的模型中,三個銀行賬戶的經常性訪問IP發生了變更,并且還關聯了一個新的賬戶,那么有較高的概率是犯罪人員。
通過建模工具,將上述模型數值化并轉換為應用程序實現,就可以不斷從已有歷史數據中發掘、發現問題,為一線民警偵破詐騙案件提供線索與偵辦思路。在2021年3月至11月中,借助這一模型累計偵辦多類詐騙案件300余起,有力支持了地方警務工作。

本文基于犯罪文本數據的分析建立了犯罪復雜網絡,在此基礎上對詐騙犯罪的模式展開挖掘研究,通過分析得到了六類典型詐騙模式。這六類模式的實踐應用有力提升了研究區域內詐騙類案件的偵破工作,保護了人民群眾財產。
現有研究在時間尺度上跨度較小,并未將時變因素引入模式挖掘,因此對詐騙犯罪的演變模式未做出有效判定。此外,受限于現有實體抽取方法和數據集的限制,目前認為是孤立事件的案件之間可能存在未發現的關聯,這也是未來研究中需要進一步關注的重點。