999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的屬性圖異常檢測綜述

2022-10-18 01:03:44張伊揚錢育蓉陶文彬冷洪勇李自臣馬夢楠
計算機工程與應用 2022年19期
關鍵詞:深度檢測信息

張伊揚,錢育蓉,陶文彬,冷洪勇,李自臣,馬夢楠

1.新疆大學 軟件學院,烏魯木齊 830046

2.新疆大學 新疆維吾爾自治區信號檢測與處理重點實驗室,烏魯木齊 830046

3.北京理工大學 計算機學院,北京 100081

4.廣東水利電力職業技術學院 大數據與人工智能學院,廣州 510635

在互聯網及通信技術高速發展的背景下,信息的交互、影響以及人與人之間的關聯變得更加密切,這種相互關系以及自身的屬性信息以網絡的形式所呈現,并表達為屬性圖結構存在于各種場景中,其中包括交通網絡、引文網絡、通信網絡以及社交網絡等。為了利用圖結構數據解決實際問題,近年來各種圖分析任務引起研究者極大的興趣,例如鏈路預測[1-2]、異常檢測[3-4]、社區檢測[5]和節點分類[6-7]。在上述任務中,基于屬性圖的異常檢測任務是最重要的研究方向之一,其充分考慮到各個節點之間的相互依賴性,利用圖中所包含的結構信息和屬性信息識別數據中不符合期望的異常行為模式,為金融欺詐、電信詐騙、網絡入侵等多個領域的欺詐與異常行為識別提供了重要幫助。

早在1996年,Staniford-Chen等人[8]就開始通過面向圖的方法實現網絡入侵檢測,Akoglu等人[9]對當時已有的圖異常檢測檢測技術進行了全面的總結。在早期的工作中,傳統方法已經可以對圖結構數據的異常個體進行識別,然而其嚴重依賴于領域專家設計構建的手工特征和統計模型[10],并且利用淺層機制,缺乏捕獲對象之間非線性特征的能力,無法高效處理屬性圖中包含的拓撲結構和屬性信息。深度學習作為一種強大的工具,能夠有效學習屬性圖數據的復雜性[11],提高了檢測未知異常的能力,尤其是隨著圖神經網絡[12]的發展,進一步豐富了深度學習在圖數據挖掘中的能力,在提取圖數據潛在的復雜模式中表現出良好的性能,因此,基于深度學習的屬性圖異常檢測方法層出不窮。

本文主要總結現有的基于深度學習的屬性圖異常檢測方法,分析各個模型的特點、優勢以及存在的問題,并對后續研究進行展望,本文的貢獻可歸納如下:

(1)概述普通圖異常檢測與屬性圖異常檢測的特點及區別,整理了經典的屬性圖表示學習方法。

(2)歸納總結靜態屬性圖和動態屬性圖異常檢測中的深度學習方法,并對部分經典靜態屬性圖異常檢測算法的實驗結果進行分析。

(3)討論屬性圖異常檢測的應用場景、存在的問題以及未來可能研究的方向,為后期研究提供參考。

1 研究概述

異常檢測是一種數據挖掘過程,旨在識別數據集中偏離大多數數據的異常模式[13-14]。為了解決異常檢測問題,過去的幾十年里出現大量方法,尤其是在非結構化數據點集中發現異常值,但是未考慮到數據之間的依賴性。圖數據提供一種強大的機制,可以有效捕獲數據對象之間的長期相關性,在異常檢測領域頗受關注。基于圖的異常檢測是將原始網絡用圖模型表達,結合圖數據挖掘技術以及相關知識找到罕見圖形對象的過程。本章對普通圖、屬性圖的異常檢測以及圖表示學習方法進行簡要概述。

1.1 基于普通圖的異常檢測

早期的圖異常檢測方法大多是針對普通圖進行的,對于給定的普通圖,它的唯一信息是圖的結構,因此針對普通圖的異常檢測方法利用圖的結構信息來發現異常模式,可大致分為四類:基于特征的、基于鄰近性的、基于聚類的和基于社區檢測的方法。

(1)基于特征的檢測方法:利用圖形表示來提取以圖/節點為中心的結構特征,用來構造特征空間的異常檢測,如ODDBALL[10]、GBKD-Forest[15]等。

(2)基于鄰近性的檢測方法:利用圖的結構信息測量圖中對象的接近度,捕捉對象之間的相關性,近鄰對象被認為可能屬于同一類,如SimRank[16]、ASCOS[17]等。

(3)基于聚類的檢測方法:此類方法的主要思想是,將復雜圖數據表示成低維特征向量,然后將其劃分成不同簇,通過對象距離簇中心的距離識別異常,如INCAD[18]、文獻[19]方法等。

(4)基于社區檢測的方法:此方法依賴于在圖中找到密集連接的鄰近節點組,并找出跨社區連接的節點或邊,如Embed[20]、CADA[21]等。

1.2 基于屬性圖的異常檢測

普通圖異常檢測方法往往只利用單一的圖結構信息進行檢測,而生活中許多場景存在更豐富的圖形表示。屬性圖中包含大量的屬性特征,可以提供更多細節來描述網絡中的每個元素。對屬性圖進行異常檢測不僅要考慮到復雜的拓撲結構,還要考慮其含有的豐富屬性,根據現有的方法可以將屬性圖異常檢測方法分為基于傳統的檢測方法和基于深度學習的檢測方法,下面分別對其分類進行介紹。

1.2.1 基于傳統的屬性圖異常檢測分類

傳統的屬性圖異常檢測方法根據現有文獻可分為基于社區分析的方法、基于殘差分析的方法和基于子空間選擇的方法。

(1)基于社區分析的方法:通過觀察同一社區內對象的屬性值,或者根據變化的社區找出具有顯著差異的對象來識別異常,如AMEN[22]、CODA[5]等。

(2)基于子空間選擇的方法:首先探索屬性子空間,然后在已經學習到的子空間中發現異常,如FocusCO[23]、ConSub[24]、GOutRank[25]等。

(3)基于殘差分析的方法:通過矩陣分解方法系統模擬殘差信息來識別異常,如Rader[26]、Anomalous[27]等。

這三類方法已有不少研究,但仍存在以下不足:(1)可能會受到子空間選擇和淺層學習過程中相關過度開銷計算的影響;(2)忽略了節點表示和屬性之間的關系;(3)忽略了正常數據和異常數據之間的不平衡性。為了解決這些問題,基于深度學習的方法應運而生。

1.2.2 基于深度學習的屬性圖異常檢測分類

本文對基于深度學習的屬性圖異常檢測方法進行分類,首先根據其是否隨著時間演化分為靜態屬性圖和動態屬性圖兩類,靜態圖可以表示為動態圖在某一時間戳的快照,動態圖也可以被視為由一序列圖快照所構成。其次在靜態圖和動態圖中分為基于深度神經網絡的方法和基于圖神經網絡的方法兩大類,如圖1所示。

圖1 基于深度學習的屬性圖異常檢測分類Fig.1 Classification of attribute graph anomaly detection based on deep learning

面向靜態屬性圖異常檢測:給出靜態屬性圖,查找“少且不同”或與大部分觀察到數據模式顯著不同的節點/邊/子圖。

面向動態屬性圖異常檢測:動態屬性圖的結構或屬性隨時間不斷發生變化,可能更改包括插入和刪除頂點、邊、子圖以及修改屬性[28]。其異常檢測旨在給定一個屬性圖序列,從中找出:(1)對應變化事件的時間戳;(2)對變化貢獻最大的top-k個節點/邊/子圖。

基于深度學習的屬性圖異常檢測方法使用深度學習技術,分別針對靜態圖和動態圖達到識別其中異常對象的目的。其通過圖表示學習方法將屬性圖映射到潛在空間的低維向量,獲得高質量的嵌入以充分支持屬性圖異常檢測任務。

1.3 圖表示學習方法

對圖進行異常檢測的關鍵前提是如何對其進行合理的表示學習,圖表示學習方法是將原始圖結構數據壓縮為低維向量,同時保留圖的信息[29]。基于屬性圖的表示學習方法,其學習到的嵌入應該最大限度保留結構和屬性兩種類型信息。根據已有文獻,可以將現有方法大致分為三類:基于矩陣分解的方法、基于圖神經網絡的方法以及基于編解碼的方法。本節對最經典的屬性圖表示學習方法進行分類總結,如表1所示[30-37]。

表1 經典的屬性圖表示學習方法Table 1 Classical attribute graph representation learning method

2 基于深度學習的屬性圖異常檢測方法

基于深度學習的屬性圖異常檢測方法經常使用深度神經網絡(deep neural network,DNN)和圖神經網絡(graph neural network,GNN)模型來探索屬性圖的非線性和異常的無監督或半監督識別。本章從靜態屬性圖異常檢測和動態屬性圖異常檢測兩方面,分別介紹基于DNN及GNN的異常檢測新方法。

2.1 靜態屬性圖異常檢測方法

2.1.1 基于深度神經網絡的方法

近年來,DNN在異常檢測領域得到廣泛應用,其通過多層抽象來學習表示特征,能夠針對復雜的模式[38]進行建模,為學習數據表示提供了堅實的基礎。

Liang 等人[39]通過部分標記的屬性圖訓練模型SEANO。模型由一個雙輸入雙輸出深度神經網絡來歸納學習頂點嵌入,在頂點異常的情況下會淡化頂點屬性輸入,更多依賴鄰域特征來預測。SEANO 可以通過結合鄰域信息以及自適應學習聚合權重減輕異常值帶來的噪聲影響,并在表示學習同時檢測檢測異常節點。但是其通過標簽數據進行訓練,通常獲取有標記的數據即困難又昂貴。

為了減輕異常標記數據帶來的困擾,研究者進行了大量工作。生成性對抗網絡(generative adversarial network,GAN)通過輪流訓練判別器和生成器,令其相互對抗,來從復雜概率分布中采樣,在捕捉數據分布方面體現了強大的有效性。

Chen 等人[40]提出了一種生成性對抗屬性圖異常檢測框架GAAN,生成器從高斯噪聲中生成假圖節點,判別器準確地學習真實的數據分布,經過多輪迭代訓練,從而有效提高判別器的識別能力。Ding 等人[41]同樣應用GAN 的思想,提高了對未知數據異常的鑒別能力。為了考慮到多跳鄰居信息,模型利用圖差分網絡從任意順序鄰域中學習異常節點表示。該模型架構如圖2 所示,使用部分可觀測的圖進行訓練,并以前饋的方式直接檢測新圖上的異常,有效解決了歸納式學習的問題,能夠處理新的數據而無需重新訓練模型。以上基于GAN 的方法通過對抗生成思想從復雜數據分布中采樣,緩解了數據不平衡問題,但是難以訓練,其訓練優化過程穩定性較差。

圖2 AEGIS模型結構Fig.2 Framework of AEGIS model

Bandyopadhyay 等人[42]則采用無監督學習方法,將兩個平行自編碼器分別用于節點的連接結構和屬性,通過最小化重構誤差訓練,并利用同質性原則進行異常檢測。此外,還專門設計了異常感知函數來量化節點的異常得分。該模型可以從每個節點全局、結構、社區三方面角度測量異常分數,但是其將屬性和結構信息分開考慮,忽略了彼此之間的交互關系。

2.1.2 基于圖神經網絡的方法

圖神經網絡是用于圖結構化數據的深度學習框架,因其聚合來自節點鄰域信息的能力受到高度認可,包括圖卷積網絡(graph convolutional network,GCN)和圖注意力網絡(graph attention network,GAT)等,在屬性圖異常檢測任務中均取得不錯的效果。基于GNN的屬性圖異常檢測普遍的通用框架如圖3 所示,將GNN 圖表示學習方法用于異常檢測任務中,通過重構誤差識別異常對象。

圖3 基于GNN異常檢測通用框架Fig.3 General framework for anomaly detection based on GNN

Ding 等人[43]使用GCN 進行節點的嵌入學習,對拓撲結構和節點屬性信息進行無縫建模,通過嵌入節點重建原圖來進行異常檢測,其采用編碼器、屬性和結構解碼器三網絡架構,與只使用單一編碼器模塊相比會增加梯度反向傳播時間,且僅僅使用GCN提取特征,沒有考慮到不同節點的貢獻程度以及GCN的過度平滑問題。

為了緩解GCN 的過平滑問題,更好地區分異常與正常節點的邊界,Zhu 等人[44]提出DeepAE 組合嵌入模型,在嵌入過程中引入拉普拉斯銳化放大正常節點和異常節點之間的差異[45];文獻[46]中利用屬性圖中社區結構信息來緩解不同類型異常節點表示帶來的過平滑問題;文獻[47]中則采用了殘差注意力機制防止異常節點過度平滑。

上述方法利用GCN將圖結構和節點屬性信息綜合考慮,但其只能通過簡單卷積運算將鄰居節點的信息平均聚合到目標節點中,使目標節點無法獲得鄰居中最相關的信息。GAT 的出現取代傳統的圖卷積,側重提取鄰居節點的重要信息,接下來對使用GAT 的方法進行介紹。

AnomalyDAE[48]采用雙自動編碼器聯合學習節點潛在表示,將GAT 用于結構編碼器中以學習節點與其鄰居節點之間的重要性,從而訪問較重要的結構模式。該模型旨在利用圖的拓撲結構和屬性相似度檢測單個節點級異常,無法同時檢測出異常子圖。文獻[49]則將節點和子圖實例表示學習過程集成到統一的GAT中,并設計自注意力機制用于捕獲節點與子圖自身及之間的關系信息,提高最終的檢測效率,可以同時檢測節點異常和子圖異常,但是異常節點與異常子圖的相互影響,以及子圖異常類型不確定性仍給檢測帶來很大挑戰。

在針對多視圖圖進行異常檢測時,Wang 等人[50]提出了一種半監督異常檢測框架SemiGNN用于檢測交易平臺異常的用戶。該模型采用層級注意力機制以自動學習不同視圖的重要性,集成多視圖的嵌入表示。其節點級注意力機制有效聚合各視圖內節點信息,視圖級注意力機制整合每個視圖信息。SemiGNN還分別設計了針對標記數據與無標記數據的損失函數共同優化模型。另一個最新的基于多視圖異常檢測模型AnomMAN[51]可以在無異常實例的情況下檢測異常,采用圖自編碼器克服了圖卷積操作帶來的低通性,并通過注意力機制融合來自不同視圖的潛在表示。以上兩種方法很好的解決了多視圖屬性圖的異常檢測問題,但是忽略了多視圖中所包含的豐富信息及視角之間的不一致性,視圖之間的關系對異常檢測也起到至關重要的作用。

在針對屬性圖跨域異常檢測時,主要存在兩個問題:如何對來自不同領域的任意結構屬性圖進行建模以及如何同時檢測出目標圖中的共享及非共享異常。為此,文獻[52]通過共享的GAT編碼器學習源圖及目標圖的節點表示,使用標記的原圖訓練域自適應分類器檢測共享異常,同時使用屬性解碼器保證了對非共享異常的檢測。該模型在跨域檢測中展現出優越的性能,但是不同領域之間的差異會導致模型性能降低,所以對于跨域異常檢測還存在極大挑戰。

上述基于深度學習的方法大都受到自動編碼器體系結構的限制,以最小化圖的重構誤差為目標。這些誤差會受到潛在噪聲節點影響,同時存在正常數據和異常數據之間過擬合的問題。此外,由于全圖訓練機制,無法擴展到大規模屬性圖中。為了解決此類問題,很多學者采用基于關系學習的方法或對比自監督學習的方法,均體現出良好性能,接下來對其中具有代表性的方法進行介紹。

基于關系學習的方法通常將異常檢測轉化成分類問題,Wang等人[53]提出模型OCGNN,如圖4所示,GNN自動提取圖上信息,超球學習通過訓練標記的正常數據獲得一個緊湊的超球邊界,來分離正常和異常數據。該模型預測并不需要存儲數據,所以具有較低的內存復雜度。與文獻[53]不同,Zhang 等人[54]通過結構超球學習的和屬性超球學習分別從結構和屬性的角度測量異常,擁有比OCGNN更強的性能,但是其網絡規模明顯大于OCGNN,且時間復雜度較高。這兩種方法將GNN強大的表示能力和經典超球學習組合,其特征表示直接針對異常檢測任務構建,與特征表示后進行傳統分類的集成檢測方法大不相同。

圖4 OCGNN模型結構Fig.4 Framework of OCGNN model

基于對比自監督的方法中,Liu 等人[55]通過實例對采樣,充分利用屬性圖中的局部信息捕獲節點和相鄰子結構之間的關系,并采用基于GCN 的對比學習方法學習節點表示。Zheng等人[56]聯合使用生成性和對比性兩種自監督學習策略,通過生成性屬性重構和多視圖級對比學習機制,充分利用屬性信息以及上下文信息捕獲多視圖中的異常模式。隨后,Zheng 等人[57]又同時在補丁和上下文兩個級別通過對比學習對多視圖進行異常檢測,并且在此基礎上進一步擴展,利用標記的小樣本異常數據進行訓練,使檢測結果更加精確。這類基于對比自監督的模型通過學習對比復雜的無標簽實例對,可以從無標記數據本身獲取監督信號訓練網絡,不需要對數據進行大量標注。此外,這類模型的空間復雜度與節點數無關,避免將整個大規模圖輸入GCN 模型導致爆炸性的空間復雜性,相反,此類模型將大圖劃分成實例對,只需要調整批量大小或子圖大小以滿足內存約束,適合用于數據量大、缺乏標記數據的場景。

2.1.3 小結

基于DNN及GNN的深度學習方法,能夠更高效地對圖數據中豐富且復雜的信息進行表示,但是相比傳統方法較為復雜,導致時間和計算資源成本增加。基于深度學習的屬性圖異常檢測方法通常采用自編碼器、GNN 和GAN 等模型作為特征提取器來學習屬性圖中穩健的特征,并使用殘差分析的方法通過重構誤差定義異常分數來檢測圖中的異常模式。基于關系學習的方法通過端到端的學習,可以聯合訓練深層神經網絡,同時優化輸出空間中包含超球面的數據,但是對于高維數據,訓練時間和模型更新時間可能更長。基于對比自監督學習的方法通常將圖拆分為獨立的輕量級實例對,而非全圖訓練,可以靈活適用于大規模屬性圖。依據本節的模型介紹,表2中對各類基于深度學習的靜態屬性圖異常檢測方法進行了分析與總結。

表2 基于深度學習的靜態屬性圖異常檢測方法對比Table 2 Comparison of deep learning based attribute graph anomaly detection methods

2.2 動態屬性圖異常檢測方法

2.2.1 基于深度神經網絡的方法

動態屬性圖因其靈活和不斷變化的特性,檢測異常并非易事。現有的圖表示學習方法多數都是針對靜態圖而設計,無法捕捉到動態圖的演化趨勢。為此,Yu等人[58]提出NetWalk模型,對不斷變化的圖進行表示學習,以達到動態檢測異常值的目的。該模型為了更好處理動態圖中不斷更新的節點和邊,專門設計了一個reservior sampling方法來更新節點表示,維護每個節點大小不變的reservoir,最后通過動態聚類的方法識別異常節點。模型泛化能力較強,但當圖動態變化時,模型需全面更新所有游走路徑并重新訓練新的路徑,且根據頂點或邊表示的維度動態更新聚類中心,導致時間復雜度較高。

NetWalk 方法在一定程度上做到了動態檢測,但只是更新邊的表示,沒有考慮到時序因素,無法持續對動態數據流進行實時性檢測。長短期記憶網絡(long short-term memory,LSTM)在1997 年被提出[59],適用于處理與時間序列高度相關的問題,在異常檢測方面被廣泛應用。

Yuan等人[60]提出一種多源長短期記憶網絡M-LSTM用來檢測維基百科中的異常用戶,其采用多個LSTM捕捉用戶編輯行為的不同方面,并進一步使用注意力機制動態學習每個方面的重要性。該模型不需要啟發式規則也不需要手工設計的特征,通過編輯序列自動學習用戶嵌入,并在帶有標記的數據集上進行訓練,但實際上異常用戶的數據十分稀少,手動標記大量異常數據很繁瑣。

Zheng 等人[61]提出將GAN 和LSTM 混合使用來檢測異常的方法,用來解決異常數據不足的問題。模型先采用LSTM 自編碼器將正常用戶編碼到隱藏空間得到正常用戶表示,其次訓練一個改進的互補GAN,其中生成器生成良性用戶的互補樣本與惡意用戶具有相同的分布,訓練后可以通過鑒別器檢測出惡意用戶。該模型避免了手動添加異常用戶的繁瑣步驟,適用于檢測不同類型的異常用戶,并且經過訓練后用戶一旦提交新的動作,就會自適應地更新用戶表示,可實時預測異常用戶。

2.2.2 基于圖神經網絡的方法

為了更好地捕獲動態圖中長時和短時特征,許多研究者將GNN 和LSTM 或門控循環單元(gated recurrent unit,GRU)[62]結合進行動態圖異常檢測。郭嘉琰等人[63]使用LSTM 獲取每一時刻的全局信息,結合GCN 提取整個動態圖的結構和屬性特征進行異常檢測,該模型關注圖的全局信息,并以無監督方式學習。

文獻[64]提出半監督模型AddGraph,如圖5 所示,在GCN 的基礎上使用基于上下文注意力的GRU 模型以支持時間信息,GCN 從每個時間戳的圖形快照生成節點嵌入,隨后GRU 從節點嵌入以及之前時刻的隱藏狀態中學習當前的隱藏狀態,用于計算每條邊的異常概率。該模型可以從每個圖快照之間的依賴關系中捕獲更具代表的結構信息,同時結合屬性還有時間特征靈活地檢測異常邊,并通過負采樣和邊際損失策略緩解了異常數據不足的問題。

圖5 AddGraph模型結構Fig.5 Framework of AddGraph model

與AddGraph 中檢測異常邊不同,LRGCN 方法[65]對時間演化網絡中的路徑分類問題進行研究,以檢測故障路徑。該模型利用節點之間和時間快照之間對時間的依賴性關系進行建模,獲得每個節點的隱藏表示,并提出一種新的路徑表示方法SAPE,將圖中任意長度的路徑編碼成固定長度的表示向量來進行異常路徑預測。此方法解決了路徑分類問題并可以預測異常,具有較高的可解釋性,但模型設計復雜,實際應用性不高。

上述模型中的方法側重于學習良好的節點表示,而忽略了動態圖中與目標節點相關的子圖結構變化。文獻[66]通過挖掘不尋常的子圖結構來檢測異常邊緣,為了表示特定的子圖結構信息,模型引入節點標記函數為每個節點生成標簽,分析給定時間窗口的標記子圖來預測目標邊的類別。該模型不需要對節點進行表示學習,并且靈活性高,任何捕捉時間信息的網絡都可以用于該模型。

在對動態圖進行時空特征提取時,多數模型[64,66]分別使用兩個獨立模塊如:GCN模塊獲取空間知識,GRU模塊捕獲時間信息進行建模,容易導致捕捉耦合信息能力不足的問題。Liu等人[67]中提出一種基于Transformer的動態圖異常檢測框架TADDY,設計綜合的節點編碼方法來覆蓋足夠的時間與空間信息,并通過一個單一Transformer 變換器進行耦合。其中節點編碼綜合全局空間、局部空間以及時間信息等多種知識,可以對不斷演化的節點角色進行高質量的表示學習。

2.2.3 小結

與靜態圖不同,動態圖隨時間變化不斷更新,其中不僅包含豐富的圖上屬性,還包含其時間屬性。現有針對動態圖進行異常檢測的方法,基本都是將動態圖看作一序列時間快照進行處理,主要采用自編碼器、GNN、LSTM、GRU等深度學習模型考慮每個圖快照在不同時間戳中所包含的時間與空間信息,大多數情況下時空信息是耦合的,需要同時捕獲,現有的解決方案如文獻[64,66]普遍使用時間模塊和空間模塊疊加的混合模型,分別用于捕獲時間及空間信息,但是可能會丟失一些交叉信息,耦合性能較弱。其次,動態圖隨時間演化,部分演化較慢的異常難以區分,而且對動態圖表示學習方法的設計以及對數據進行實時檢測也是難點所在。

依據本節的模型介紹,表3 從模型、發表年份、機制、優勢和局限性以及適用場景等多方面比較總結了部分動態屬性圖中的異常檢測方法,不同的方法都有其自身的優勢和局限性,在具體的應用中應該根據其構造的屬性圖以及可能產生的異常類型選取合適的檢測方法。

表3 基于深度學習動態屬性圖方法對比Table 3 Comparison of deep learning based dynamic attribute graph anomaly detection methods

3 實驗分析

基于屬性圖的異常檢測研究具有多種類型模式,對于不同的模式需選擇不同數據集以及評價指標。本章主要對部分靜態屬性圖異常檢測方法的實驗結果進行對比分析。首先介紹三個實驗所用的公開數據集的基本情況,為了驗證深度學習方法在靜態屬性圖異常檢測中的有效性,通過經典的深度學習方法與傳統方法在3個數據集上的實驗結果進行分析。

3.1 數據集及評價指標介紹

(1)數據集

本實驗使用的3 個數據集為BlogCatalog、Flickr 和ACM。表4對這3個數據集的信息進行相關總結。

表4 數據集信息Table 4 Datasets information

(2)評價指標

屬性圖異常檢測通常用準確率、召回率、AUC進行衡量,選取的評價指標需要視具體情況而定。例如數據不平衡,異常數據很少時,學習到的模型對任意一個樣例預測基本都是正常的,模型會得到非常高的準確率,但是該模型基本無法檢測到異常,不能代表此模型有很強的性能。AUC 值從統計角度來看,表示隨機選擇異常實例比正常實例更高的概率,所以在大多數文獻中,這種評價指標來衡量模型性能是最常用的,本節采用AUC值對模型的性能進行對比。

3.2 實驗結果與分析

本節展示并分析在BlogCatalog、Flickr、ACM 數據集上不同算法的結果,各個算法在3個不同數據集上的AUC指數如表5所示。

表5 實驗結果對比Table 5 Comparison of experimental results

其中,LOF 是經典的基于密度的方法,檢測密度較低且只考慮屬性信息的異常,SCAN方法基于結構相似度對頂點進行聚類,只考慮結構層面的異常,這兩類方法只通過單一的模態信息進行異常檢測,沒有充分利用屬性圖上的信息,取得AUC 值較低。AMEN 使用結構和屬性信息從自我網絡角度識別鄰域異常,此方法只能識別鄰域異常并高度依賴于觀察到的節點交互,但是在屬性圖中,圖結構可能非常稀疏,而且學習能力有限,導致效果也并不太好。Rader和Anomalous通過計算殘差和識別異常來區分原始數據和預測數據,該類型方法對屬性信息和結構信息進行聯合建模,較以上3種方法取得不錯的性能,但其在處理屬性網絡稀疏性、數據非線性和復雜模態交互問題時仍受淺層機制限制。Dominant使用深度學習方法通過GCN聚合鄰居特征學習節點良好的表示,GCN 可以處理具有多層非線性變換的高階節點交互,有效緩解網絡稀疏性問題,但是只使用單個GCN 編碼器,無法聯合捕捉兩個模態信息之間的復雜交互。AnomalyDAE 使用兩個獨立自編碼器分別從兩個角度學習屬性和結構之間的跨模態交互,并引入圖注意力機制有針對性聚合鄰居信息,達到比較好的結果。根據上述實驗結果及分析表明:基于深度學習的方法在屬性圖異常檢測中具有良好的效果。

4 應用場景

屬性圖異常檢測廣泛應用于社會中的各個領域。在金融欺詐檢測、入侵檢測、電信欺詐交易檢測以及虛假新聞檢測等領域發揮著至關重要的作用。

(1)金融欺詐檢測

網上金融服務給人們提供便利的同時,也產生許多金融欺詐,例如電信交易欺詐、保險欺詐等,用戶之間豐富的交互形成一個大型網絡。早在2010年,Li等人[70]開始使用基于子圖的結構來檢測交易網絡中的潛在欺詐案件。Liu等人[71]提出一種用于惡意賬戶檢測的圖神經網絡,Wang等人[50]從多個視圖進行欺詐檢測,都展現出不錯的效果。在后續應用中,可以多加關注實時檢測或者預測欺詐的發生,如Hu 等人[72]使用基于元路徑的圖嵌入方法預測用戶的現金流出,使用戶避免遭受巨大損失。

(2)虛假評論檢測

淘寶、京東、亞馬遜等許多購物網站成為垃圾評論所處的平臺。欺詐的評論者受到利益驅使編造撰寫虛假評論,分別不真實地提升或者損害商家聲譽,導致用戶對商家產生不公正的看法。針對虛假評論檢測,最開始使用行為分析和語言文本分析[73-74]例如提取如評論長度、發表時間、評論時間等特征,并基于規則挖掘發現可疑評論,隨后,Akoglu 等人[75]提出利用關系分析和網絡效應,從欺詐評論家之間的聯系來檢測虛假評論,Wang等人[76]使用一種新的傳播算法捕捉評論者、評論和商鋪之間的關系,定義誠實可信度分數來檢測垃圾評論。

(3)拍賣欺詐檢測

雅虎、eBay等購物網站是拍賣欺詐最多的平臺,在2008 年美國聯邦互聯網犯罪中心就接到拍賣投訴約占總投訴25%,網上拍賣活動中,賣家不將購買商品交付給買家的“不交付欺詐”約占33%之多[77]。文獻[78]最早提出基于圖數據的拍賣欺詐檢測方法,通過對eBay 數據進行分析,發現拍賣過程中的欺詐者。文獻[79]開發了一個基于RMN 的關系分類模型,用來捕獲節點屬性包括誠實、同謀、欺詐者之間的復雜關聯,并使用LBP進行推理。

(4)電信欺詐檢測

電信詐騙問題給用戶造成大量財產損失,2017年電信欺詐造成損失高達292 億美元,占全球估計收入的1.69%。大量電信欺詐檢測方法涌現,Cortes等人[80]通過每個電信賬戶構建子圖,動態衡量不同賬戶之間的通話頻率和時間,根據觀察到的知識來檢測欺詐賬號。Liu等人[81]提出一種用于電信欺詐的圖表示模型,建立用戶和通信關系圖,通過注意力機制自適應的組合其聯系人來決定賬戶的表示,在識別欺詐電話方面取得不錯的效果。

(5)虛假新聞檢測

虛假新聞包括娛樂、經濟、政治等領域的多種不實新聞,擾亂社會秩序和穩定,給人們思想以及生活帶來不小的影響。針對新聞發表用戶、內容、評論等可以構建圖模型進行異常檢測,識別虛假新聞以及傳播者。Shu 等人[82]采用基于上下文的方法,利用從用戶社交媒體資料中獲得用戶元信息作為檢測虛假新聞的特征,Mishra等人[83]用GNN學習其他用戶特征例如濫用政治觀點和立場進行假新聞的檢測任務,文獻[84]將新聞和新聞發布者建模為圖,提出了一種新的圖神經網絡,利用社交媒體用戶的信息轉播行為檢測虛假新聞。

5 研究展望

隨著圖數據的研究與發展,屬性圖被越來越多地應用于復雜系統進行建模,特別是對現實世界產生的屬性網絡進行異常檢測,逐漸得到國內外學者的廣泛關注,將深度學習引入屬性圖異常檢測問題,取得明顯的優勢。本文總結了近年來最新的屬性圖異常檢測模型,比較分析各個模型的特點與差異。雖然基于深度學習的屬性圖異常檢測方法在解決圖數據稀疏性、數據非線性以及結構信息和屬性信息的交互等方面表現優異,但也面臨著一些亟待解決的問題。

(1)模型效率與泛化性:面對現實世界中復雜任務形成的大規模網絡,其中甚至包含數以百萬的節點、邊及其屬性信息,基于大規模網絡形成的圖數據具有海量高維的特征。現有的異常檢測模型中,需要將圖數據作為輸入進行分析,而深度學習技術不僅對硬件要求高,同時需要較長的訓練時間,因此圖規模的不斷擴大會直接導致算法耗時過長、內存消耗急劇增加。其次,大多數異常檢測方法都針對特定領域建模,對異常的定義各不相同,導致算法普適性較低,泛化能力弱。

(2)動態性與實時性:動態屬性圖不斷變化的結構和屬性信息給異常檢測帶來極大挑戰,例如為了檢測動態屬性圖中的異常,將其按時間戳劃分成時間快照的方法無法精確地捕捉到圖中對象的演化模式特征;其次在整個動態演化過程中重復利用靜態圖表示學習方法進行學習,會耗費極大的代價,降低模型的運行效率,且動態圖中對異常的實時檢測也是難點之一。

(3)異常罕見性:現實世界中由于異常的罕見特性,異常對象的數量遠小于正常對象,且深度學習模型依賴于訓練數據,這種數據不均衡現象將導致模型捕捉正常和異常數據差異的能力降低,并可能導致異常數據過擬合,成為檢測異常的一大障礙。

(4)可解釋性:模型的可解釋性是一種較為主觀的性質,目前可解釋性差也是深度學習最大的缺陷之一。基于圖數據的異常檢測技術的可解釋性有助于幫助更好地理解異常以及異常分數,使分析人員從模型中獲取更多的有用信息,對后續異常處理過程至關重要,但現有的工作通常缺乏可解釋能力。

隨著大數據技術的發展,屬性圖數據因其海量、高維、動態、異構且具有豐富屬性信息等特點給異常檢測帶來了極大挑戰,綜上所述,后續研究可以分為以下幾個方面。

(1)大規模屬性圖異常檢測:針對此問題可以從3個方面著手。首先可以研究更有效的網絡表示方法,在最大程度保留原始圖結構的基礎上進行降維,得到高維數據的特征表示。其次可以采用模型壓縮的方法,例如剪枝處理去除冗余參數。此外,還可以采用分布式并行處理的方法,降低模型復雜度,充分利用現有資源。隨著數據量的不斷增大,基于大規模高維屬性圖數據異常檢測方法的研究是未來的重點之一。

(2)不平衡屬性圖異常檢測:為了解決屬性圖數據的不平衡性,可以在屬性圖異常檢測中可以考慮采用對抗生成的思想解決異常數據缺少的問題,或在采用圖神經網絡時多考慮其過度平滑問題所帶來的影響,也可以在數據集中通過異常注入生成合成數據集來驗證方法的有效性。

(3)動態屬性圖異常檢測:為了更好地適應于動態數據,可設計用于動態圖的表示學習方法,獲得演化時刻的特征表示;其次可以采用時間窗口來提取特征或計算正常的節點活動,但如何選擇合適的時間窗口以檢測不同類型的異常仍舊是一個開放性問題。

(4)異構屬性圖異常檢測:異構屬性圖是一種特殊的圖,其包含不同類型的節點和邊,現有的方法大多只針對于同構圖,忽略了對異構圖中不同類型圖對象的異常檢測。對此,設計針對于異構屬性圖的異常檢測方法也是很有前景的研究方向。

(5)統一檢測框架與評價指標:現有模型的普適性較低,沒有通用的異常檢測框架,在評估模型性能的時候通常根據不同領域進行分析選取合適的評價指標。因此,在未來的研究中,可以構建一個應用于不同類型異常檢測的統一框架模型,同時捕獲各個類型的異常,并建立統一的衡量異常的評價算法指標。

(6)屬性圖異常檢測可解釋性:目前,對各種方法的可解釋工作十分缺少,后續針對此問題的研究,可以設計專門的解釋機制,集成到異常檢測框架中,進行準確、穩定、合理的解釋。也可以通過圖表、對比圖等形式進行輔助,可視化呈現出異常與正常數據之間的差異,給出可解釋的結果。

猜你喜歡
深度檢測信息
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
深度理解一元一次方程
深度觀察
深度觀察
深度觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
小波變換在PCB缺陷檢測中的應用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 亚洲色精品国产一区二区三区| a欧美在线| 免费福利视频网站| 无码'专区第一页| 亚洲AV无码一区二区三区牲色| 狠狠久久综合伊人不卡| 久热中文字幕在线| 色成人亚洲| 亚洲精品动漫| 欧美a在线| 欧美色亚洲| 99re精彩视频| 在线毛片免费| 韩国福利一区| 天天色综网| 免费看av在线网站网址| 中文字幕一区二区人妻电影| 综合天天色| 婷婷开心中文字幕| 在线国产资源| 99久久精品免费看国产电影| 国产午夜精品鲁丝片| 伊人久久久大香线蕉综合直播| 国产成人乱码一区二区三区在线| 91福利片| 免费女人18毛片a级毛片视频| 国产高清在线观看91精品| 狠狠ⅴ日韩v欧美v天堂| 性色生活片在线观看| 91小视频在线| 亚洲免费成人网| 国产噜噜噜视频在线观看| 色网站免费在线观看| 色有码无码视频| 久久国产精品77777| 毛片大全免费观看| 精品国产欧美精品v| 国产亚洲精品yxsp| 国产成人久久777777| 久久综合伊人 六十路| 国产乱子伦视频在线播放| 成人噜噜噜视频在线观看| 亚洲综合香蕉| 伊在人亞洲香蕉精品區| 国产鲁鲁视频在线观看| 成人综合网址| 欧美性爱精品一区二区三区| 免费看美女毛片| 亚洲综合色婷婷中文字幕| 免费Aⅴ片在线观看蜜芽Tⅴ| 亚洲av无码片一区二区三区| 色综合中文字幕| 91麻豆国产在线| 黄色在线网| 怡春院欧美一区二区三区免费| 国产亚洲精久久久久久久91| 亚洲中文精品人人永久免费| 免费播放毛片| 精品在线免费播放| 无码电影在线观看| 欧美精品不卡| 超清无码一区二区三区| 国产精品久线在线观看| 亚洲制服丝袜第一页| 欧美一区二区三区香蕉视| 1级黄色毛片| 国产亚洲精品自在线| 国产欧美网站| 欧美中出一区二区| 欧美特黄一免在线观看| 丁香婷婷在线视频| 一区二区午夜| 国产欧美精品一区二区| 狠狠做深爱婷婷综合一区| 久青草国产高清在线视频| 超级碰免费视频91| 久久伊人色| 扒开粉嫩的小缝隙喷白浆视频| 国产欧美日韩视频怡春院| 欧美三级视频网站| 最新国产高清在线| 韩国福利一区|