[李高翔 葉宇中 黃福鴻 卓采標 潘國良 陳金林 陳德興 吳雁?。?/p>
在信息網絡快速發展的背景下,電信網絡詐騙已成為當前發展最快、嚴重影響人民群眾安全感的刑事犯罪。根據文獻[1]的數據,2020 年以來,公安機關累計破獲電信網絡詐騙案件達25.6萬,累計封堵詐騙網站網址31.6萬個,由此可見目前電信網絡詐騙傳播的廣泛性。當前電信網絡詐騙手法多樣,主要包括兼職詐騙、殺豬盤詐騙、貸款詐騙等。其中貸款詐騙主要是指犯罪團伙通過模仿國內知名借貸平臺,如京東金融、微粒貸、百度有錢花等的官網頁面搭建仿冒站點,以免息或低息為噱頭誘導用戶貸款并繳納一定金額激活賬號實施詐騙。由于仿冒站點的頁面和正規平臺的官網非常相似,所以普通民眾極易受騙。與此同時,詐騙團伙通過使用多種網站模板和小眾域名,可在短時間內迅速搭建一批仿冒站點,給公安機關、運營商等部門的打擊防范工作帶來了極大挑戰。
本文旨在設計一種針對貸款類詐騙網站的識別方法,為此本文先通過對國內知名借貸平臺站點官網及相關URL進行收集整理形成白名單,然后基于對公安部門積累樣本的分析結果,設計了域名、網頁內容、網頁HTML 標簽三類特征應用于分類算法,最后通過實驗驗證本文提出算法的有效性。本文的主要研究成果如下。
①對國內知名借貸平臺及其域名等信息進行了梳理。
② 提出了一種結合基于規則和基于機器學習的貸款類詐騙網站識別框架。
③進行了多種算法的對比實驗,驗證結果表明本文所提方法可有效識別貸款類詐騙網站。
本文的其余章節組織如下。
第2 章 綜述電信網絡詐騙及網站識別的研究現狀。
第3 章 介紹貸款類詐騙網站識別框架。
第4 章 實驗驗證算法模型。
第5 章 總結與展望。
現有的網站識別方法可以分為基于規則的識別與基于機器學習的識別?;谝巹t的識別主要依靠黑名單和簡單匹配規則對網站URL 或實時特征等進行模糊匹配。黑名單匹配能夠快速且精準返回涉詐網站,但是需要對黑名單庫進行定期的維護。實時特征是指IP 地址、網頁端口號、存活時間、PageRank 排名等可以很好地指示一個網址的有害性,但是需要在識別中通過URL 在網絡中實時搜尋的特征。基于規則的識別精度高、速度快,但可能產生一定應用成本,因此多為一些防護軟件供應商等如360、騰訊等所使用。
基于機器學習的方法對未發現的有害網址泛化性更強,性能更好,在近年來受到了研究者的關注?;跈C器學習的方法需要預先收集一些樣本并進行標注,再利用參數模型對標注的數據進行訓練,以獲得泛化性能。現有的網站識別文獻多采用通用分類模型如SVM、DNN 等來進行訓練。如魏勝娜等利用CART 樹對URL 特征進行學習,并修改代價函數為最小均方誤差,成功降低了釣魚網站的誤報率[2]。杜錦波、付順順等利用集成算法思想,將多個fasttext弱分類器組合為一個強分類器,并利用該分類器對網站文本內容進行了分類[3,4]。毛世奇將網站URL 進行獨熱編碼,并利用嵌入層對不同字符進行轉換,最后輸入到卷積神經網絡中進行訓練和預測[5]。左雯、張士坤等在利用字符嵌入的基礎上,對不同的深度模型結構進行了實驗,最后確定了卷積神經網絡、門控循環單元和softmax 的組合作為最終結構,并取得了良好的效果[6,7]。
本文提出的識別框架結合了基于規則的識別與基于機器學習的識別兩種方法,先通過基于規則的白名單規則進行過濾,然后再使用機器學習方法進行識別貸款詐騙網站。算法流程圖如圖1 所示。

圖1 算法流程圖
作者統計了公安部門積累樣本中貸款詐騙網站主要仿冒平臺名稱及相關信息,具體內容如表1 所示。

表1 詐騙網站主要仿冒平臺相關信息
對運營商等擁有大量數據的機構而言,可先對所有要判定的網站數據進行白名單過濾,因為正規平臺的訪問日志較多,經過白名單過濾后可有效減小后續需處理的數據規模,節省大量計算資源。
作者對大量貸款詐騙網站的URL 進行分析,發現主要有如下特點。
(1)多使用HTTP 協議傳輸
因為正規借貸平臺站點涉及了大量資金及用戶敏感信息,需考慮網絡傳輸安全問題,多使用HTTPS 協議,如表1 中URL 全部是HTTPS。而詐騙網站主要目的是誘導欺騙,并不考慮數據安全問題,所以選擇HTTP 協議,建站效率更高,成本更低。
(2)多使用小眾域名
正規借貸平臺站點通常會使用其主體公司域名為其背書,或使用較短的拼音、諧音域名方便推廣傳播。如微粒貸w.webank.com 是微眾銀行的子域名,人人貸www.renrendai.com 則使用了拼音。而詐騙團伙通常選擇小眾域名(如kfbzh.bcsbhm.bar,afdfe.545idifjf.zkakdf.txhb.mhmh9.cn 等)建站,這些域名價格便宜、數量較多,可快速進行批量替換更新,躲避監管部門追蹤打擊。
(3)存在使用非默認端口情況
考慮到服務器運營商可能會對站點進行安全掃描檢測,而普通掃描檢測工具主要覆蓋常見協議及端口,如HTTP 協議的80 端口,FTP 協議的21 端口等。部分詐騙團伙為了降低被檢測識別的風險,會啟用非默認端口,即訪問詐騙網站需指定固定端口,如81,使用默認端口80則無法訪問。
(4)多使用境外單一IP
目前國內一直保持對電信網絡詐騙的嚴打高壓態勢,所以詐騙團伙建站通??紤]使用境外IP,且通常將多個域名綁定在同一IP 上,方便其部署管理,并進一步縮減成本。而正規借貸平臺站點多使用國內IP,且考慮到不同地區、省份的網絡情況,可能會將同一域名解析到多個IP 地址,提升用戶訪問體驗。
基于上述分析,可以對任意給定的URL 進行分析,構造如表2 的URL 相關特征。
高河瞪圓了雙眼,用力搖著頭:“不、不是,不是這樣,他說謊。我知道,他一定會把自己做的事都推在我的頭上……”

表2 域名相關特征
大部分網頁的結構如圖2 所示,部分詐騙團伙為了提高網頁排名,會在標題(title),關鍵詞(keywords)和描述(description)字段部分對網頁內容進行重點描述,因此需要對網頁不同部分的內容分別進行分析。

圖2 常見網站結構URL 相關特征
(1)網頁頭部字段部分關鍵詞特征
本文定義網頁的標題(title),關鍵詞(keywords)和描述(description)字段為網頁的頭部字段,根據作者對大量涉詐樣本的分析,詐騙團伙習慣在頭部字段使用諸如“微粒貸”、“京東金融”、“極速放款”等詞語進行描述。作者對收集到的正常樣本和貸款詐騙網站樣本進行處理,提取其標題、關鍵詞和描述部分的內容,然后對其進行分詞處理,并分別計算每個詞語的TF-IDF,取權重最高的N個詞作為該部分的關鍵。N可根據實際情況進行設定。
(2)網頁主體內容關鍵詞特征
網頁主體(主要包括
標簽字段的內容)的關鍵詞提取思路和頭部字段基本一致,先將網頁主體中的各類HTML 標簽清洗,提取其主要內容,然后進行分詞,計算TF-IDF 權重并排序。因為網頁主體內容較長,且樣本有限,較多詞的權重差別并不大,因此本文在該部分引入專家領域知識,對高權重的詞進行人工二次篩選,最終確定K個詞作為該部分的關鍵詞。同樣K可根據實際情況進行設定。基于上述分析,可對任意給定的URL 網頁內容分析,對不同區域的內容分別進行對應關鍵詞匹配,將詞頻作為其特征值。
部分貸款詐騙網站呈現出高對抗的特點,如圖3 所示,該類網站基本沒有網頁內容,因此3.3 節提出的關鍵詞特征對該類樣本無效。此外,許多詐騙網站多采用相似的網站模板快速建站,因此可考慮對網頁源碼中的HTML 標簽進行特征提取。

圖3 網頁主體無內容的頁面舉例
具體操作方式為對任意給定的URL 網頁內容,抽取其網頁內容中的所有HTML 標簽。統計分析每一種標簽(如div,href 等)在該網頁的出現次數,作為其特征值。同時抽取部分典型標簽的值作為關鍵詞特征,統計其在網頁出現次數作為特征值。
本章節通過基于真實數據的實驗評估本文提出特征的有效性,并對比分析多種算法的實驗結果。
本文使用的數據集主要有兩個來源,一個是公安部門收集到的大量貸款詐騙網站樣本,另一個則是通過爬蟲抓取互聯網上包含3.3 節關鍵詞的網頁并進行人工標注。訓練集一共有2 134 個樣本,其中貸款詐騙網站有875 個,正常網站有1 259 個,測試集一共有1 423 個樣本,其中貸款詐騙網站有608 個,正常網站有815 個。訓練集和測試集均已通過白名單過濾。
本文采用如表3 所示的混淆矩陣來評價模型的準確度。

表3 混淆矩陣
評價模型準確度的主要指標包括查準率、查全率和F1 得分,其定義如下:直觀上,查準率表示模型預測貸款詐騙網站正確的精度,查全率表示模型成功預測出的實際貸款詐騙網站占比,F1 得分綜合考慮查準率和查全率,提供了一種平衡型的評價打分。
本文使用了4 種分類算法(包括樸素貝葉斯、邏輯回歸、K 最近鄰和隨機森林)對本文提出的特征進行實驗驗證,算法結果如表4 所示。

表4 不同算法的對比結果
從表4 觀察可知隨機森林算法的查全率、查準率和F1 值上均取得了最好效果,其中F1 值為0.95,表明了本文所提算法可有效對貸款詐騙網站和正常網站進行較好的區分。
本文針對貸款類詐騙網站的識別問題設計了一種算法框架,該框架通過結合白名單過濾,域名、網頁內容、網頁HTML 標簽三類特征以及機器學習分類算法可對貸款類詐騙網站進行有效識別。作者通過基于真實數據的實驗驗證了本文提出算法框架的有效性。后續將考慮如何將貸款類詐騙的其它環節與詐騙網站識別進行結合,形成更完整的解決方案。