999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于頁面敏感特征的金融類釣魚網頁檢測方法

2017-04-07 00:55:06胡向東劉可張峰林家富付俊郭智慧
網絡與信息安全學報 2017年2期
關鍵詞:頁面特征文本

胡向東,劉可,張峰,林家富,付俊,郭智慧

(1. 重慶郵電大學自動化學院,重慶 400065;2. 中國移動通信有限公司研究院,北京 100033)

基于頁面敏感特征的金融類釣魚網頁檢測方法

胡向東1,劉可1,張峰2,林家富1,付俊2,郭智慧2

(1. 重慶郵電大學自動化學院,重慶 400065;2. 中國移動通信有限公司研究院,北京 100033)

提出一種基于頁面敏感特征的金融類釣魚網頁檢測方法,通過獲取網頁超文本標記語言特定標簽中的文本信息,利用適合中文的多模式匹配算法(AC_SC, AC suitable for Chinese)匹配出敏感文本條數,計算出敏感文本特征值;定位截取網頁的logo圖像,采用PCA-SIFT算法提取圖像特征,并與預先建立的網頁logo圖像庫進行匹配,計算出logo圖像相似度;基于文本特征值和圖像相似度實現對金融類釣魚網頁的判定。實驗結果表明,該方法具有很強的針對性和時效性,并能取得不低于97%的召回率。

金融網頁;敏感特征;文本特征值;圖像相似度;釣魚檢測

1 引言

隨著互聯網尤其是移動互聯網的快速發展,基于Web的應用深入各行各業,為人們的工作、生活帶來了極大便利,但用戶個人信息被廣泛收集,面臨嚴重的信息安全威脅,如通過網絡釣魚騙取個人敏感信息進而竊取用戶的錢財。根據2016年中國反釣魚網站聯盟1~10月的統計數據,釣魚網站涉及的行業前兩位分別是支付交易類和金融證券類,其中仿冒中國工商銀行、中國建設銀行等金融機構的釣魚網站數量一直處于前列,網絡釣魚存在攻擊集中化的趨勢[1];億盾互聯2016年10月的釣魚網站偵測報告也明確指出,銀行是網絡釣魚的重災區[2]。

近年來,國內外專家、學者相繼提出了一系列釣魚網頁檢測方法,包括基于黑名單過濾方法、基于頁面特征的啟發式規則檢測方法、基于頁面視覺相似的檢測方法等[3]。文獻[4]提出了一種黑名單改進方法PhishNet,該方法利用黑名單中的URL作為先驗知識,通過分解URL并計算相似性來檢測釣魚網頁。文獻[5]提出了一個基于頁面內容檢測的CANTINA方法,采用TF-IDF算法提取頁面的5個關鍵詞,通過檢索關鍵詞查看該網頁域名是否在谷歌搜索返回結果的前30條以內,進行釣魚網頁檢測,檢測準確率約為95%。該方法實施的根據是釣魚網站存活時間短,導致其在搜索引擎中的排名很低甚至沒被收錄。CANTINA+[6]是一種特征冗余的機器學習框架,是CANTINA的升級版本。它通過提取URL特征、域名排名特征和頁面內容特征等15個特征進行機器學習,特征考慮比較全面,提高了釣魚網站檢測準確率。文獻[7]提取網頁的文本特征、圖像特征以及網頁整體特征,利用匈牙利匹配算法計算出網頁之間的相似性,具有較高的準確率和召回率。這些研究成果從不同角度、不同程度上提高了釣魚網頁識別的準確率。Sheng等[8]的研究指出47%~83%的釣魚URL是在釣魚事件發生12 h之后才被列入黑名單,有63%的釣魚攻擊在2 h內就已經結束。因此,基于黑名單過濾的方法無法應對最新出現的釣魚網站。目前,金融類釣魚網頁通過精心制作,已無明顯的URL特征,頁面中被摻雜大量無意義的文本或字符,同時在關鍵的HTML標簽中使用圖像代替文本進行頁面呈現,導致基于頁面特征的啟發式規則檢測方法和基于頁面視覺相似的檢測方法無法提取到有用的特征,從而增加被正確檢測識別的難度。

本文針對現有檢測方法的不足以及金融類釣魚網頁規避檢測的方法,對PhishTank公布的大量最新金融類釣魚網站樣本進行分析,將頁面敏感文本特征和logo圖像特征相結合,提出了一種基于頁面敏感特征的金融類釣魚網頁檢測方法,有效地提高了檢測準確率。

2 頁面敏感特征選擇

2.1 敏感文本特征

金融類網頁中含有較多其獨有的文本信息(如轉賬匯款、投資理財、網上銀行等),稱為敏感文本。釣魚網頁為了盡可能以假亂真,也會呈現出類似的敏感文本。通過分析大量的金融類網頁以及釣魚網頁的源代碼,發現敏感文本主要出現在頁面HTML的title、a、h、span等特定標簽中,可以對這些標簽的文本信息進行提取,作為判定金融類釣魚網頁的依據。圖1是手機版中國建設銀行釣魚網頁,用方框圈出的文本為a、h、span等標簽的文本。可以根據敏感文本出現次數的多少,來檢測網頁是否為釣魚網頁。考慮到大量非金融類網頁title標簽中也可能含有敏感文本,如金融機構的名稱,所以不提取title標簽中的文本。

圖1 中國建設銀行頁面中特定標簽的文本信息

敏感文本的判斷需要預先建立敏感關鍵詞庫,關鍵詞庫由金融類網頁以及釣魚網頁中具有典型業務特征的敏感文本組成,其作用是判斷待測文本是否為敏感文本,判斷步驟如下。

1) 使用網絡爬蟲工具獲取待測頁面。

2) 利用正則表達式提取頁面HTML中a、h、span標簽的字符數不超過長度L的文本信息。

3) 對文本進行預處理以去除空格等特殊字符,得到不為空的文本條數T1。

4) 將提取的文本與敏感文本庫進行匹配,如果提取的文本包含敏感文本,則認為提取的文本是敏感文本;統計得到敏感文本條數T2(T2≤T1)。

2.2 logo圖像特征

金融類釣魚網頁總是會出現被仿冒金融機構的logo圖像,因此,可以根據待測logo圖像特征是否匹配金融類logo圖像特征來對待測網頁類型進行檢測。logo圖像特征匹配方法的執行需要預先建立logo圖像庫,圖像庫由金融類網頁以及釣魚網頁的logo圖像組成,匹配步驟如下。

1) 使用瀏覽器工具獲取待測頁面,自動調整頁面尺寸為一固定大小。

2) 利用截圖工具截取頁面中的logo圖像,得到logo截圖;可以使用截圖工具對網頁的logo圖像進行定點截圖,以網頁左上角頂點為原點,建立直角坐標系,網頁logo截圖的位置示意如圖2所示。

3) 使用圖像特征提取算法分別對logo截圖和預先建立的logo圖像庫中的圖像(0)ii>進行特征點提取,得到特征點個數分別記為0N和iN。

4) 計算兩幅logo圖像能夠匹配的特征點個數,記為iM。

圖2 網頁logo截圖的位置示意

截圖的起點可以確定為原點,只需確定截圖終點D的坐標。使用網絡爬蟲隨機爬取含有logo的網頁若干例,截取終點坐標分別為(Dx, 600)和(800, Dy)時的圖片,統計出能夠完整包含logo的截圖數量百分比Px和Py,得到Px隨Dx以及Py隨Dy的變化關系,如圖3所示。能夠完整包含logo的截圖尺寸越小,就能盡量避免截取其他正常網頁中含有的金融機構logo,同時圖像特征匹配效率以及檢測準確率也就越高,根據圖3選取終點D的坐標為(550,280)。

圖3 完整截圖數量百分比與終點橫縱坐標值的關系

3 檢測方法的構建

3.1 文本多模式匹配

網頁HTML的a、h、span標簽中文本長度一般都較短,通過統計大量網頁3種標簽的文本長度,確定一個適宜的文本長度值L,以提高敏感文本提取效率、降低釣魚網頁檢測誤判率。

在進行關鍵詞模式串與文本串匹配時,單模式匹配算法不僅能避免回溯,而且還能利用特定的規則,如壞字符規則和好后綴規則,實現模式串的跳躍式匹配,可提高匹配效率。但單模式匹配算法在處理多個模式串匹配時效率較低,而多模式匹配算法掃描一遍文本串即能匹配所有模式串。經典的多模式匹配算法是基于有限狀態自動機的AC算法[9],在處理大規模中文模式串匹配時,AC算法及其改進算法需要的存儲空間快速膨脹,導致狀態轉移函數的計算量非常大,Cache命中率降低,算法的時間性能快速下降。

本文采用文獻[10]提出的一種適合中文的多模式匹配算法AC_SC,該算法采用鄰接鏈表存儲有限狀態自動機,較好地解決了有限狀態自動機存儲空間快速膨脹問題。同時,將狀態為0的鏈表轉化為散列鏈表,以提高算法的時間性能,算法描述如下。

1) 預處理階段

①建立鄰接表。建立頂點表VerticeTable,用于記錄單鏈表的表頭地址,從狀態0開始,利用廣度優先搜索建立的有限狀態自動機能為跳轉的下一狀態建立一個結點,并將其鏈接到VerticeTable[0],其中,有限狀態自動機的構造過程同AC算法一致。之后,繼續對下一狀態進行處理,直到所有狀態都完成處理。

②將狀態0的單鏈表轉換為散列鏈表。在狀態0的鏈表中,為每一節點字符的首字節計算散列值,并將該節點鏈接到散列表中。

③計算狀態轉移函數goto。若當前狀態為0,根據標注字符首字節的散列值搜索散列表中對應的鏈表;否則,搜索VerticeTable[s]對應的單鏈表。

④計算失效函數failure。對于狀態s,如果父狀態為r,標注字符為“a”,則failure(s)=goto (failure(r),a)。

⑤計算輸出函數output。每處理完成一個關鍵詞模式串,將該模式串加入到當前狀態s的輸出函數中。若failure(s )=s′,則output(s)= output(s)∪output(s′)。

2) 匹配過程

①將當前狀態s初始化為0,文本串指針指向文本串的首字符。

②若文本串指針不為空,則取出所指的字符“a”;否則結束匹配過程。

③計算s′=goto(s,a)。若狀態s為0,則根據字符的散列值搜索散列鏈表中對應的單鏈表;否則,搜索s對應的單鏈表。

④若s′=fail ,當前狀態s = failure (s);若s為0,轉步驟③。

⑤若s′≠fail ,則s≠s′。如果output(s) = NULL,轉步驟②;否則,直接輸出output(s),表示有關鍵詞模式串匹配成功,轉步驟②。

文本關鍵詞采用鄰接表存儲方式。例如,關鍵詞模式串集={建行,身份證號,轉賬,匯款,網銀},存儲方式如圖4所示。

通過匹配得到的敏感文本條數,可以計算文本中敏感文本的比例,即敏感文本特征值E為其中,T1表示文本條數,T2表示敏感文本條數。

特征值E的大小反映待測網頁在文本特征方面與金融類釣魚網頁的接近程度。如果E不小于閾值TE,則認為是金融類釣魚網頁,否則認為待測網頁為可疑網頁,需進一步進行網頁logo相似度檢測。

圖4 關鍵詞模式串的鄰接表存儲方式

3.2 logo圖像特征提取

截取的網頁logo圖像與圖像庫中圖像相對比,可能存在拉伸、背景改變以及logo顏色改變等問題,要求圖像特征提取算法面對這些問題時具有較好的頑健性。典型的圖像特征提取算法有SIFT[11]、SURF[12]以及ORB[13]等,而ORB算法沒有解決尺度不變性。SIFT算法因具有很好的頑健性和抗干擾性,得到了大量應用。但因SIFT算子維度高(128維),導致其時間復雜度較高。國內外研究者針對SIFT算子高維的缺點,不斷對其進行嘗試和改進,以求在保持SIFT算子良好特性的前提下,盡量降低其維度。在這些研究中,具有代表性的是PCA-SIFT和GLOH算法,兩者都采用了主成分分析(PCA,principal component analysis)技術。文獻[14]對SIFT、PCA-SIFT以及SURF分別進行了時間、尺度、旋轉、模糊、亮度等指標的對比,認為PCA-SIFT算法在各項指標中都能取得較好的表現,故本文利用PCA-SIFT算法作為logo圖像特征匹配算法。

利用高斯卷積核是尺度變換的唯一線性核的特性,定義一幅logo圖像的尺度空間L為

其中,I(x,y)表示logo圖像在位置(x,y)處的像素值,二維高斯函數G為

其中,m×n表示高斯模板的大小,m和n的取值與σ相關;σ是高斯分布的均方差,稱為尺度空間因子,其值越小表示圖像被平滑的越少。大尺度對應logo圖像的概貌,小尺度對應圖像的細節。利用尺度空間構建logo圖像高斯金字塔,原始圖像為金字塔的第一層,每次降采樣所得到的圖像為金字塔的第i層,金字塔的總層數O由logo圖像原始尺寸P0×Q0和塔頂圖像的尺寸PO?1×QO?1共同決定,總層數O為

為了體現尺度的連續性,利用不同的參數σ對logo圖像金字塔中每一層圖像做高斯模糊,這樣金字塔每層就有多張模糊圖像,這些圖像合稱為一組或八度(octave)。金字塔中一組圖像的初始圖像是由前一組圖像的倒數第3張圖像隔點降采樣得到。關鍵點是由空間的局部極值點組成,為了實現對圖像關鍵點的初步探查,借助高斯差分空間,其表達式為

實際計算過程中,高斯金字塔每組中相鄰兩層圖像相減得到高斯差分金字塔。關鍵點由高斯差分空間的局部極值點組成,檢測極值點需要每個像素點和它所有的相鄰點比較,看其是否比它的圖像域和尺度域的相鄰點大或小。高斯金字塔每組需要L層圖像,高斯差分金字塔每組需1L?層圖像,就可以在每組中檢測3L?個尺度的極值點。構建尺度空間需要確定3個參數:尺度空間σ、組數索引o、組內層數索引l,這3個參數的關系如式(6)所示。

為了提高關鍵點的穩定性,在獲得極值點后對其進行篩選,去掉具有強烈邊緣效應和低對比度的候選點,以增強匹配的穩定性和抗噪能力。對尺度空間高斯差分函數進行二階泰勒展開,有

其中,X=(x,y,σ)T是偏移量,令式中一階導數為0,可以得到極值點相對于插值中心的偏移量,為

利用在偏移向量X?處約束|D(X?)|小于某一閾值,可以去除對噪聲敏感的特征點,也可以濾掉對比度低的特征點。將式(9)代入式(8)中,有

對邊緣敏感的特征點通常在高斯函數邊緣某一方向的曲率值相對較大,而在另一個方向的曲率值會相對較小,運用2×2的Hessian矩陣H作為穩定性判別標準,剔除不穩定的關鍵點以增強匹配穩定性,提高抗噪聲能力。為了使描述符具有旋轉不變性,以關鍵點為中心的鄰域窗口內采樣,并用直方圖統計鄰域像素的梯度方向,直方圖的峰值則代表了該關鍵點處鄰域梯度的主方向,即作為該關鍵點的主方向。PCA-SIFT算法保留了SIFT中尺度空間極值檢測、特征點亞像素定位、 主方向分配等主要步驟[15],主要對特征描述子生成方式進行改進,步驟如下。

1) 以關鍵點為中心選擇41×41像素的像斑。

2) 計算像斑內每個像素水平和垂直方向的梯度,形成一個大小為2×39×39=3042維的輸入向量。

3) 所有關鍵點的輸入向量組成一個b×3042維的矩陣A,其中,b為關鍵點的個數。

4) 計算矩陣A的協方差:A=A?mean(A),cov(A)=ATA;計算協方差矩陣的特征值λ與特征向量β。

5) 將特征值從大到小排列,選擇前j個特征值對應的特征向量組成一個j×3042維的投影矩陣B,j既可以是根據經驗設置的固定值,也可以動態選擇。

6) 將原矩陣A與投影矩陣B相乘,得到新的j維PCA-SIFT特征點描述子。

待測logo圖像和預先建立的logo圖像庫中圖像i經過PCA-SIFT算法處理后,可以分別生成兩幅logo圖像的特征點描述子N0和Ni,分別是k1和k2維。取待測logo圖像中的某個特征點,并找出其與圖像i中歐式距離最近的前2個特征點。在這2個特征點中,如果最近距離與次近距離的比值小于某一閾值,則認為這2個匹配點匹配。計算出logo圖像匹配的特征點總個數Mi,從而可以得到兩幅logo圖像的相似度S為

相似度S的大小可反映待測網頁與金融類網頁的相似程度。如果S不小于閾值TS,則認為是金融類釣魚網頁,否則認為待測網頁為正常網頁。為提高圖像特征匹配效率,可用PCA-SIFT算法在釣魚網頁檢測之前提取圖像庫中的所有圖像的特征點。

3.3 檢測方法的實現

在利用本文檢測方法之前,待測URL需要先分別經過域名白名單、域名黑名單以及網絡訪問量排名的過濾,這樣可以過濾掉正常的金融網頁和大部分常用網頁,提高檢測效率。域名白名單由正常的金融網頁域名以及常用的網頁域名組成,域名黑名單由已經確認的釣魚網頁域名組成,域名白名單、黑名單具有“新陳代謝”機制,使用Alexa過濾URL網絡訪問量排名在100萬以內的URL。

根據上述方法,采用Python語言實現了金融類釣魚網頁檢測系統,該系統具備線程安全,可批量接收含有可疑URL的文本。使用者可以在檢測系統中批量添加敏感文本和金融類網頁logo圖像。在敏感文本特征值和圖像相似度的計算過程中,為提高釣魚網頁的檢測效率,當E≥ET或者S≥ST時,則停止后續計算并得出檢測結果。基于頁面敏感特征的金融類釣魚網頁檢測流程如圖5所示。

圖5 釣魚網頁檢測流程

4 實驗結果與分析

為驗證本文所構建金融類釣魚網頁檢測系統的識別效果,需要收集釣魚網頁作為測試用例。收集2016年9月1日至2016年10月31日PhishTank中被舉報的釣魚網頁URL,隨機選取并進行驗證,得到經確認的金融類釣魚網頁URL有135例。使用谷歌搜索在線服務的網站,隨機選取搜索的結果并進行驗證,共收集150例合法的網站URL。將285個測試用例隨機混合在一起,使用本文的檢測方法進行多線程檢測。為了測試本文方法的有效性,選取多個與本文相似的釣魚網頁檢測的方法進行比較。文獻[16]和文獻[17]中釣魚網頁檢測方法與本文都是基于頁面敏感特征,文獻[18]是基于登錄頁面和logo圖像實現釣魚網頁的檢測,對比結果如表1所示。

表1 釣魚網頁檢測結果比較

通過實驗結果可以發現,本文方法召回率最高,可達到97.8%,文獻[18]的誤報率最低。對于誤判的合法網頁,經過分析,發現它們的頁面中a標簽、h標簽以及span標簽含有較多的金融類敏感文本,造成誤判。而對于漏報的釣魚網頁,通過查看網頁源代碼發現,頁面中含有極少的文本且沒有logo圖像,造成漏報。考慮到本文方法針對的是金融類釣魚網頁,文獻[16~18]中的方法是針對所有的釣魚網頁,如果重點檢測金融類釣魚網頁,其他3個方法達不到現有的召回率和誤報率指標,說明本文方法對金融類釣魚網頁具有很好的識別效果。

5 結束語

本文通過對大量金融類釣魚網頁樣本的分析,在傳統的基于黑白名單和頁面相似度檢測方法的基礎上,總結出表征金融類頁面的敏感特征以及描述方法,提出基于敏感特征的金融類釣魚網頁檢測方法,并進行系統實現。檢測系統利用多模式匹配算法AC_SC匹配出網頁中的敏感文本,利用PCA-SIFT算法提取logo圖像的特征,結合敏感文本特征值和logo圖像相似度,實現對金融類釣魚網頁的檢測和判定。實驗結果表明,本文方案敏感特征的提取對于絕大部分釣魚網頁的判定是有效的,可取得較高的召回率和較低的誤報率。

[1] 中國反釣魚網站聯盟. 2016年1-10月釣魚網站處理簡報[R]. 北京: APAC, 2016. Anti-Phishing Alliance of China(APAC). Phishing websites handling bulletin in January to October 2016[R]. Beijing: APAC, 2016.

[2] 億盾互聯. 億盾互聯2016年10月釣魚網站偵測月報[EB/OL]. http://www.yeeton.com.cn/ report_month.asp.htm. YEETON. Phishing websites detection monthly report in October 2016[EB/OL]. http:// www.yeeton.com.cn/report_month.asp.htm.

[3] 沙泓洲, 劉慶云, 柳廳文, 等. 惡意網頁識別研究綜述[J]. 計算機學報, 2016, 39(3): 529-542. SHA H Z, LIU Q Y, LIU T W, et al. Survey on malicious webpage detection research[J]. Chinese Journal of Computers, 2016, 39(3): 529-542.

[4] PRAKASH P, KUMAR M, KOMPELLA R R, et al. PhishNet: predictive blacklisting to detect phishing attacks[C]//IEEE Infocom. 2010: 1-5.

[5] ZHANG Y, HONG J I, CRANOR L F. CANTINA: a content-based approach to detecting phishing Web sites[C]//The International Conference on World Wide Web. 2007: 639-648.

[6] XIANG G, HONG J, ROSE C P, et al. CANTINA+: a feature-rich machine learning framework for detecting phishing Web sites[J]. ACM Transactions on Information and System Security, 2011, 14(2): 613-613.

[7] ZHANG W F, ZHOU Y M, XU L, et al. A method of detecting phishing Web pages based on hungarian matching algorithm[J]. Chinese Journal of Computers, 2010, 33(10): 1963-1975.

[8] SHENG S, WARDMAN B, WARNER G, et al. An empirical analysis of phishing blacklists[C]//The 6th Conference on Email and Anti-Spam. 2009: 59-78.

[9] AHO A V, CORASICKM J. Efficient string matching: an aid to bibliographic search[J]. Communications of the ACM, 1975, 18(6): 333-340.

[10] 候整風, 楊波, 朱曉玲. 一種適合中文的多模式匹配算法[J]. 計算機科學, 2013, 40(11): 117-121. HOU Z F, YANG B, ZHU X L. Multiple pattern algorithm for chines[J]. Computer Science, 2013, 40(11): 117-121.

[11] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

[12] BAY H, TUYTELAARS T, GOOL L V. SURF: speeded up robust features[J]. Computer Vision & Image Understanding, 2006, 110(3): 404-417.

[13] RUBLEE E, RABAUDV, KONOLIGE K, et al. ORB: an efficient alternative to SIFT or SURF[C]//IEEE International Conference on Computer Vision. IEEE, 2012: 2564-2571.

[14] LUO J, GWUN O. A comparison of SIFT, PCA-SIFT and SURF[J]. International Journal of Image Processing, 2009, 3(4): 143-152.

[15] KE Y, SUKTHANKAR R. PCA-SIFT: a more distinctive representation for local image descriptors[C]//The 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2004: 506-513.

[16] 王燕, 王興芬, 任俊玲. 面向釣魚網站敏感特征項選取的IIGAIN算法[J]. 計算機應用于軟件, 2016, 33(4): 297-301. WANG Y, WANG X F, REN J L. IIGAIN algorithm oriented to phishing websites sensitive feature items selection[J]. Computer Applications and Software, 2016, 33(4): 297-301.

[17] 宋明秋, 曹曉蕓. 基于敏感特征的網絡釣魚網站檢測方法[J].大連理工大學學報, 2013, 53(6): 903-907. SONG M Q, CAO X Y. Phishing detection method based on sensitive characteristics of phishing webpage[J]. Journal of Dalian University of Technology, 2013, 53(6): 903-907.

[18] YANG M X, PENG Y B, PENG X G. A novel anti-phishing scheme based on login page detection and logo identification[J]. Journal of Computational Information Systems, 2004, 10(23): 10179-10187.

作者簡介:

胡向東(1971-),男,四川廣安人,博士,重慶郵電大學教授,主要研究方向為網絡化測控及其信息安全、物聯網與智慧空間安全、復雜系統建模仿真與優化。

劉可(1992-),男,重慶人,重慶郵電大學碩士生,主要研究方向為物聯網安全。

張峰(1977- ),男,湖北孝感人,博士,中國移動通信有限公司研究院高級工程師,主要研究方向為網絡與信息安全技術應用。

林家富(1989-),男,四川成都人,重慶郵電大學碩士生,主要研究方向為物聯網安全。

付俊(1979-),男,湖北松滋人,中國移動通信有限公司研究院研究員,主要研究方向為網絡與信息安全方案設計、安全標準制定以及黑客攻防對抗技術。

郭智慧(1986-),男,河北張家口人,中國移動通信有限公司研究院研究員,主要研究方向為網絡欺詐治理。

Financial phishing detection method based on sensitive characteristics of webpage

HU Xiang-dong1, LIU Ke1, ZHANG Feng2, LIN Jia-fu1, FU Jun2, GUO Zhi-hui2

(1. School of Automation, Chongqing University of Posts and Telecommunications, Chongqing 400065, China; 2. Research Institute of China Mobile, Beijing 100033, China)

A financial phishing detection method based on sensitive characteristics of webpage was proposed, which acquired sensitive text information of specific hypertext markup language tags and computes sensitive text eigenvalue. The method matches number of sensitive text using multiple pattern matching algorithm AC_SC (AC suitable for Chinese). Then, the method locates and cuts logo image of webpage, and utilizes PCA-SIFT algorithm to extract image features and match features with library of webpage logo which was established beforehand. Meanwhile, it calculates similarity of two logo image. Finally, the decision can be concluded by the text eigenvalue and image similarity. It shows that the method is better in pertinence and timeliness according to experiment, and achieves no less than 97% detection accuracy.

financial webpage, sensitive characteristic, text eigenvalue, image similarity, phishing detection

TP393.08

A

10.11959/j.issn.2096-109x.2017.00122

2016-10-23;

2016-12-24。通信作者:胡向東,huxd@cqut.edu.cn

教育部—中國移動聯合研究基金資助項目(No.MCM20150202);重慶市教委科研基金資助項目(No.KJ1602201)

Foundation Items: The Joint Research Foundation of the Ministry of Education of the People’s Republic of China and China Mobile (No.MCM20150202), The Science and Technology Project Affiliated to Chongqing Education Commission (No.KJ1602201)

猜你喜歡
頁面特征文本
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产精品亚洲天堂| 欧美色综合网站| 久草视频福利在线观看| 国产成人无码久久久久毛片| 亚洲男人的天堂在线观看| www.亚洲色图.com| 久久天天躁夜夜躁狠狠| 国产综合另类小说色区色噜噜 | 欧美精品在线免费| AⅤ色综合久久天堂AV色综合 | 99久久国产综合精品2020| 极品国产在线| 114级毛片免费观看| 亚洲成人免费看| 午夜精品区| 久久精品丝袜| 大陆国产精品视频| 米奇精品一区二区三区| 亚洲第一黄色网址| 久久久久亚洲精品无码网站| 亚洲青涩在线| 精品无码国产一区二区三区AV| 亚洲精品视频网| 在线欧美日韩国产| 毛片在线播放网址| 精品91自产拍在线| 亚洲香蕉伊综合在人在线| 永久免费无码日韩视频| 国产中文一区二区苍井空| 国产凹凸视频在线观看| 久久国产乱子伦视频无卡顿| 亚洲九九视频| 亚洲高清免费在线观看| 真人免费一级毛片一区二区| 五月天综合婷婷| 欧美成人手机在线观看网址| 日韩高清无码免费| 国产亚洲精品精品精品| 欧美成人一级| 婷婷色婷婷| 成人精品免费视频| 在线观看国产精品第一区免费| 国产av无码日韩av无码网站| 色综合天天娱乐综合网| 国产超薄肉色丝袜网站| 国产交换配偶在线视频| 亚洲h视频在线| 中文字幕欧美成人免费| 青青青国产精品国产精品美女| 国产尤物视频网址导航| 丁香婷婷激情综合激情| 尤物亚洲最大AV无码网站| 国产亚洲欧美在线专区| 亚洲码一区二区三区| 久久人人97超碰人人澡爱香蕉| 国产精品男人的天堂| 五月婷婷导航| 欧美一级在线| 国产肉感大码AV无码| 国产成人区在线观看视频| 一本大道视频精品人妻| 日本黄色不卡视频| 国产一区三区二区中文在线| 日本不卡在线播放| 日韩精品少妇无码受不了| 国产真实乱人视频| 国产福利在线观看精品| 国产成人AV男人的天堂| 国产区福利小视频在线观看尤物| 成人国产三级在线播放| 亚洲国产成人超福利久久精品| 国产毛片不卡| 日韩无码白| 久久精品无码中文字幕| 久久免费视频6| 最新国产你懂的在线网址| 亚洲无码在线午夜电影| 国产精品lululu在线观看| 国产精品成| 成人一级免费视频| 日韩高清无码免费| a毛片免费观看|