999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的圖異常檢測技術綜述

2021-07-23 02:04:18陳波馮李靖東盧興見沙朝鋒王曉玲
計算機研究與發展 2021年7期
關鍵詞:深度結構檢測

陳波馮 李靖東 盧興見 沙朝鋒 王曉玲 張 吉

1(華東師范大學計算機科學與技術學院 上海 200062)

2(復旦大學計算機科學技術學院 上海 200433)

3(之江實驗室 杭州 310000)

圖作為一種通用的數據結構,被廣泛用于表示復雜的結構化數據.相對于其他數據結構,它能更好地存儲和表達實體及其聯系.現實世界中,圖在社交網絡分析、Web網絡分析、交通路網優化、知識圖譜構建等領域均有廣泛的應用.針對這些語義豐富、樣式多樣、規模龐大的圖數據,如何快速、準確地檢測其中的異常引起了學術界和產業界的廣泛關注.圖異常檢測是指在一個大圖或海量圖數據庫中尋找包含“陌生”或者“不尋常”模式的結構(包括節點、邊或者子圖),具有廣泛的應用場景,例如英特網中的惡意攻擊、社交網絡中的突發事件檢測、電子商務中的水軍發現等.相較于傳統的異常檢測方法,基于圖的異常檢測由于圖具有強大的表達能力,不僅可以將復雜的數據加以直觀的呈現,同時也能將數據中隱含的相關性融入到異常檢測過程中.

面向圖的異常檢測工作最早發表于2003年[1],現有工作大致可分為基于靜態圖和基于動態圖2類.在基于靜態圖的異常檢測工作中,一類方法利用ego網絡[2]或者基于團體[3]研究問題;一類方法基于圖的結構信息進行異常檢測[4-6],也有一些工作基于子空間選擇,試圖在節點特征的子空間中發現異常[7-9].還有一些工作通過概率、統計方法獲取圖的統計信息進行異常檢測[10-13].盡管這些工作在異常檢測上取得了不錯的進展,但這些方法如利用ego網絡的方法,由于處理圖數據,必須考慮節點之間的交互,在圖較為稀疏時難以實現較好的效果;或者如子空間選擇和統計方法,由于淺層學習機制難以綜合利用節點的屬性和結構信息.在基于動態圖的異常檢測方面,同樣有一些工作基于團體[14-15]、基于結構[6,16]、或基于概率統計[17-19]進行異常檢測.另外一類典型的方法是首先獲取圖的概要,然后通過聚類和異常檢測來確定概要中的異常,例如文獻[20-21],但是這些方法獲得的概要無法保留重要的結構信息,比如鄰接節點的信息.現有的基于動態圖的異常檢測方法大多依賴于啟發式規則,通常只是簡單地考慮某一類特征;雖然有部分方法[22-23]考慮了內容甚至時間因素,但并不靈活,導致其應用局限于特定的場景.

近年來,深度學習成為人工智能和機器學習中極為重要的部分,在提取數據中潛在復雜模式方面表現出優越的性能,并在音頻、圖像和自然語言處理等領域得到了廣泛應用.深度學習方法能夠合理處理復雜的屬性信息,并且可以從數據中學習隱含的規律;此外,通過神經網絡對圖進行嵌入不僅可以很好地保留信息[24-26],還可以很好地處理節點或邊的屬性,同時保留結構信息,進而方便檢查隱空間中節點或邊表示的相似性.近年來隨著對圖進行嵌入表示取得顯著進展,如何利用深度學習方法進行圖異常檢測在過去幾年中吸引了廣泛關注.基于深度學習的圖異常檢測方法通常使用圖的嵌入表示方法先將圖表示為隱空間中的向量,然后使用該向量重構圖從而剔除異常信息的影響,最后通過重構誤差進行異常檢測.

關于異常和離群點檢測,已經存在非常全面的綜述類文章,例如Zimek等人[27]重點介紹了關于高維離群值檢測,Schubert等人[28]討論了局部離群值檢測技術.但是,這些文章通常關注多維數據實例的點,沒有或者不是直接地關注基于圖的檢測技術.盡管文獻[29]從圖的角度對異常檢測技術進行了調研,但是缺少對深度學習技術下的圖異常檢測技術的關注.與以往關于異常檢測的綜述不同,本文專注于大圖或海量圖數據庫中的異常檢測,并對基于深度學習的圖異常檢測技術進行全面地梳理和總結,是最早聚焦基于深度學習的圖異常檢測技術方面的研究綜述.

本文首先對圖上的異常定義做了全面的分析,然后詳細介紹了基于深度神經網絡的圖表示學習方法,接著從靜態圖和動態圖的角度出發,對現有基于深度學習的圖異常檢測方法進行系統地總結和歸類,并討論相關方法的局限性.接著簡單介紹圖異常檢測技術的實際應用場景和相關的數據集,最后討論基于深度學習的圖異常檢測研究面臨的挑戰及未來可行的研究方向.本文期望通過對目前基于深度學習的圖異常檢測研究現狀的梳理,為后續研究提供可借鑒的思路.

1 圖上的異常定義

關于圖上的異常目前還沒有統一的定義,并且異常通常跟應用領域或場景相關,本文分別從靜態圖和動態圖的角度出發,梳理并總結了常見的圖上的異常定義.

1.1 靜態圖上的異常定義

靜態圖上的異常通常是指圖中很少的或者與觀察到的模式有明顯偏差的節點、邊或子圖.下面將根據結構、屬性及其組合對靜態圖上的異常進行定義.

1) 靜態圖上的結構異常

① 節點與節點之間:給定一個圖G,如果在屬性不相符的節點之間有邊連接,則定義該邊為異常邊.例如在DBLP數據集中,節點代表作者信息,來自2個不同領域的作者擁有完全不符的屬性信息,突然合作發了一篇文章[30],因此產生連接的邊被定義為異常邊.

② 節點與子圖之間:給定一個圖G和其中的節點v,v在屬性上屬于一個社區(社區內的節點擁有相似的屬性信息),如果v和屬于其他社區的節點有邊相連,那么定義該節點為異常節點,如圖1(a)所示,其中較大的圓形和矩形分別表示異常節點及對應的屬性,不同顏色表示不同社區,2個節點之間的箭頭表示邊的連接,2個屬性之間的箭頭表示某種度量下的相似性[31].圖1(a)中較大的紅色圓形節點在屬性上與大量紅色矩形相連,說明該節點在屬性上屬于紅色社區,在結構上卻與較多的其他社區節點相連,因此該節點被定義為異常節點.

③ 子圖與子圖之間:給定一個圖G,可基于子圖與子圖之間的關系來發現異常,主要有2種情況:Ⅰ.Perozzi 等人[2]通過對子圖的質量進行定義,從而將質量低的子圖定義為異常.質量高的子圖其內部節點緊密地相互連接,并且在屬性上較為相似;子圖之間區分明顯,即子圖與子圖只有很少的邊相連,或者即使相連,它們在屬性上的差異也很大.Ⅱ.文獻[1]中定義包含較少常見模式(提前確定)的子圖為異常子圖.

2) 靜態圖上的屬性異常

給定一個圖G和其中的節點v,v在結構上屬于一個社區,如果v和大量屬于其他社區的節點的屬性相似,那么這種異常可以定義為屬性上的異常,如圖1(b)所示,較大的紅色圓形節點與大量紅色節點相連,說明該節點在結構上屬于紅色社區,在屬性上較大的紅色矩形卻與較多的其他社區屬性相連,因此被定義為屬性異常節點.

Fig. 1 Example of anomaly definition on static graph圖1 靜態圖上異常定義的示例[31]

3) 靜態圖上結構和屬性的聯合異常

給定一個圖G和其中的節點v,v在結構上屬于一個社區A,在屬性上屬于不同于A的社區B,那么這種異常可以定義為結構和屬性的聯合異常,也稱為社區異常,如圖1(c)所示,較大的紅色圓形節點與大量綠色節點相連,屬于綠色社區A,在屬性上與大量藍色屬性相連,屬于藍色社區B,該節點在屬性和結構上分別屬于不同的社區,因此被定義為結構和屬性的聯合異常.

基于1)2)3)中異常定義,我們給出了靜態圖下異常檢測任務形式化定義.

靜態圖異常檢測:給定靜態圖G,靜態圖異常檢測任務的目標是找到圖G中不尋常的模式(結構異常模式,屬性異常模式,聯合異常模式).

1.2 動態圖上的異常定義

對于一個隨時間變化的動態圖,圖中可能會有新的節點或邊的增加和刪除,從而引起圖結構和屬性的動態變化,可能會出現異常.動態圖上的異常通常是導致變化或事件發生的topk個節點、邊或子圖.

1) 基于結構變化的異常

基于社區的方法特別適合用于動態圖結構的變化分析,因為社區具有總結圖網絡結構的能力.Chen等人[32]定義了圖2中6種社區變化的異常,一般情況下穩定的社區不會隨時間而改變,在連續的圖快照之間發生以下改變可認為圖結構發生了異常.

Fig. 2 Six possible community-based structural abnormalities in the evolutionary network[32]圖2 進化網絡中6種可能的基于社區的結構異常類型[32]

① 生長的社區:隨時間的推移,快照t處的社區中新增了一些成員,從較小的社區發展成快照t+1中的一個大型社區,例如社區2.

② 收縮的社區:先前的更大社區失去一些成員收縮成更小的社區,例如社區4.

③ 合并的社區:快照t處的2個或多個小社區合并組成的社區,例如快照t+1處的社區7.

④ 劃分社區:快照t處的社區可能會在快照t+1處分成多個社區,例如社區8.

⑤ 新生的社區:在某些快照中可能會出現新的社區,例如社區11.

⑥ 消失的社區:在某些快照中一些舊社區可能會消失,例如社區12.

2) 基于屬性變化的異常

基于節點的屬性特征為每個快照創建一個“good summary”,計算不同時刻圖快照之間的距離,設定超過某個閾值時,將相應時序圖快照標記為異常.在不同場景和算法中,構建“good summary”的方法以及使用的距離可以進行不同的定義.其中Akoglu等人[33]提出,如果某個節點的“行為”偏離其過去的“正常行為”,則該節點在某個時間范圍內是異常的.

3) 基于結構和屬性變化的異常

在隨時間演變的大圖中,Wang等人[34]對節點屬性和圖結構信息進行建模,如果一個節點的屬性在時刻t不遵循其自身的歷史行為模式且它所在的社區路徑顯示異常活動或不遵循其所屬社區的模式,則認為該節點在時間t是異常的.

基于1)2)3)中異常定義,我們給出了動態圖下異常檢測任務形式化定義.

動態圖異常檢測:給定動態圖Gd={G1,G2,G3,…,Gt},Gt代表時刻t下的圖信息,動態圖異常檢測任務的目標是找到動態圖Gd中導致異常(基于結構變化的異常,基于屬性變化的異常,基于結構和屬性變化的異常)發生的節點,邊或者子圖.

1.3 異常檢測評價指標

屬性圖中異常節點的數量遠小于所有節點的數量,因此無法使用傳統分類任務中的評估指標(例如精度和準確度)很好地評估異常檢測任務的性能.例如學習一個把所有實例預測為正常的模型會得到一個很好的性能指標表現,但是,該模型無法檢測到任何異常.曲線下面積(AUC)可以測量實例之間的相對關系,并且可以測量模型把異常實例排在正常實例前面的概率,這滿足了我們在異常檢測任務中尋找最佳可能異常實例的需求,因此各種實驗中通常將AUC作為評估指標.此外,由于現實生活中錯誤識別異常具有很高代價,往往想要找到異常可能性最高的實例,因此異常檢測任務中也通常將召回率(Recall)作為評價指標,即選取異常可能性最高的部分節點,將檢測到的異常占所有異常的比例作為評價指標.

2 基于深度神經網絡的圖表示學習

進行異常檢測等圖分析研究的一個關鍵問題是如何合理地表示圖中的特征信息,如何將圖映射到低維向量空間,在保持原始圖結構的同時支持推理的圖表示學習研究引起了學術界和產業界的廣泛關注.此外,由于節點的嵌入表示可以用于異常檢測算法的輸入,支持異常檢測任務,因此,圖表示學習方法在圖異常檢測領域具有重要作用.

在傳統的圖表示學習方法中,基于因子分解的方法以矩陣的形式表示節點之間的連接,并將該矩陣因子分解以獲得節點的嵌入表示向量.例如LLE算法[35]假設每個節點的嵌入表示都是其在嵌入空間中鄰居節點的嵌入向量表示的線性組合,Laplacian Eigenmaps算法[36]相比于LLE算法來說考慮了節點之間的權重.DeepWalk算法[37]第一次將深度學習技術引入到圖表示學習領域,node2vec[38]采用了帶有偏向的隨機游走來學習圖中節點的嵌入表示.上述方法雖然可以學到圖中的節點表示,但大部分都是基于線性或淺層神經網絡的表示,而現實世界中節點之間往往存在著非線性關系.由于深度神經網絡模型在提取數據中潛在的復雜模式方面表現出極為優越的性能,因此越來越多的基于深度神經網絡的方法應用于圖的表示學習任務.

2.1 圖神經網絡模型及應用

圖神經網絡的概念在文獻[39]中首次提出,它拓展了現有的深度神經網絡模型,用于處理以圖的形式表示的數據.圖神經網絡的目標是學習一個包含每個節點鄰居信息的嵌入表示向量,以方便執行節點標簽分類、鏈接預測、異常檢測等任務.圖神經網絡被廣泛應用于圖分析和挖掘領域,例如Battaglia等人[40]在物理系統領域將對象和關系的相關作用建模成圖結構,通過輸入到圖神經網來對圖網絡結構中各種物理系統進行預測和推斷;Schlichtkrull等人[41]將知識圖譜中的關系建模成圖結構,然后利用圖神經網絡對邊進行預測,從而完成知識圖譜中的鏈接補全等任務.

圖卷積神經網絡旨在將卷積推廣到圖領域,現有的圖卷積神經網絡分為譜方法和空間方法兩大類.基于譜方法的圖卷積神經網絡[42-43]利用卷積定理在每一層定義圖卷積算子,在損失函數指導下通過梯度反向回傳學習卷積核,并堆疊多層組成神經網絡.基于空間方法的圖卷積神經網絡[44]基本思想是利用圖上的信息傳播機制,通過信息構造、鄰居聚集、表示更新3個步驟使用上一時刻相鄰節點的狀態信息.在圖異常檢測領域,Ding等人[45]將圖卷積神經網絡當作編碼器用于捕捉網絡結構和節點屬性之間的復雜交互,獲得節點的高質量的嵌入表示后進一步用于異常檢測任務.

近年來,隨著注意力機制在越來越多的領域取得成功,圖注意力網絡[46-48]也得到了廣泛的研究和關注.與以往關心邊上信息的模型不同,GAT通過注意力機制定義聚合函數,鄰接矩陣僅被用來定義相關節點.具體來說,為了獲得節點更好的特征表示,首先針對節點特征做一個線性變換,再針對中心節點i,計算鄰居節點j對節點i的重要性程度eij,然后通過softmax函數歸一化獲得節點的重要性程度,最后通過加權求和的聚集函數來獲得節點的表示.Nathani等人[49]將GAT用作編碼器以捕獲圖結構中具有各種關系的實體的多樣性,從關系里學習到實體新的向量表示后用于鏈接預測等下游任務.Wu等人[50]將社會關系抽象成圖結構,利用多個圖注意力網絡建模不同的社會關系從而用于社交推薦任務.在圖異常檢測方面,Fan等人[51]使用GAT捕獲中心節點不同鄰居之間的重要性程度和網絡結構和節點屬性之間的復雜交互,在獲得高質量的嵌入表示后將重構損失當作異常的可能性大小.Ding等人[52]在編碼器和解碼器部分使用了圖注意力網絡獲得節點表示后利用二分類的方法對節點進行異常檢測,此外,圖注意力網絡的引入使得模型適用于遞推式異常點檢測.

2.2 基于深度神經網絡的圖表示學習方法

由于深度自動編碼器具有建模數據中非線性結構的能力,因此常被用于各種基于深度神經網絡的表示學習任務.最近,SDNE(structural deep network embedding)[53],DNGR(deep neural networks for learning graph representations)[54]、圖自編碼器[55-56],利用深度自動編碼器可以捕捉數據非線性關系的能力來獲得節點更好的表示.

SDNE使用深度自動編碼器來保留一階和二階網絡鄰近度,并通過共同優化一階和二階鄰近度來學習節點的嵌入表示.DNGR將隨機測量與深度自動編碼器結合,采用一種無監督的表示學習算法來學習節點表示,然后對學習的表示利用聚類算法對節點進行聚類,使用聚類性能來評估不同圖上表示學習的質量.DNGR和SDNE僅考慮與節點對之間的連通性有關的節點結構信息,忽略了節點可能包含描述節點自身屬性的特征信息.而圖自編碼器利用圖神經網絡可以同時編碼節點結構信息和屬性信息來捕捉節點的更好嵌入表示,它采用傳統的深度自編碼器的架構,即由encoder編碼部分和decoder解碼部分構成,將通過encoder后得到的嵌入表示作為節點的表示.

在圖自編碼器的研究中,Kipf等人[55]使用圖神經網絡作為encoder來得到節點的嵌入表示,將圖神經網絡視為一個以節點特征和鄰接矩陣為輸入,以節點的嵌入表示為輸出的函數.在decoder部分,則采用了內積來重構原始的圖結構.圖注意力自編碼器(GATE)[56]同樣采用了深度自編碼器的架構.GATE使用GAT作為encoder部分來得到節點的嵌入表示.GATE在decoder部分同樣采用了注意力機制,通過重構原始圖的結構和屬性,從而獲得節點的嵌入表示向量.

將圖自編碼器用于異常檢測已有一些探索性的研究,Ding等人[45]將GCN當作編碼器用于捕捉網絡結構和節點屬性之間的復雜交互,實現高質量的嵌入表示后將通過解碼器重構的損失大小當作異常的可能性大小;Ding等人[52]在編碼器和解碼器部分使用圖注意力網絡獲得節點表示,然后利用二分類的方法對節點進行異常檢測.Fan等人[51]提出的對偶自動編碼器(AnomalyDAE)使用了圖自編碼器的思想,在編碼器部分使用GAT捕獲中心節點不同鄰居之間的重要性程度和網絡結構與節點屬性之間的復雜交互,獲得高質量的嵌入表示后將重構損失當作異常的可能性大小.

3 基于深度學習的圖異常檢測方法

介紹了靜態圖和動態圖上的異常檢測定義,以及基于深度學習的圖表示學習方法之后,本節詳細介紹基于深度學習的圖異常檢測方法及其進展.目前具有代表性的基于深度學習的圖異常方法如表1所示:

Table 1 Deep Learning Based Graph Anomaly Detection Methods表1 基于深度學習的圖異常檢測方法梳理

3.1 基于深度學習的靜態圖異常檢測方法

在基于深度學習的靜態圖異常檢測場景下,由于標簽數據難以獲得[65],通常采用無監督或者半監督學習的方法來檢測異常.無監督的深度異常檢測技術僅根據數據實例的內在屬性來檢測離群值,通常用于未標記數據樣本的自動標記.此外,在實際應用中,除了大量未標記的樣本之外,還可以訪問一小部分已標記的樣本,例如某個領域專家驗證為正常或異常的實例子集,因此半監督的學習也常用于異常檢測.接下來本節將從無監督和半監督的角度對靜態圖上基于深度學習的異常檢測方法進行介紹.

3.1.1 無監督的深度圖異常檢測方法

目前已有的基于深度學習的無監督異常檢測方法大都采用基于殘差分析的思想,在基于殘差分析的異常檢測方法中,原始數據與估計數據的差距(即重構誤差)是顯示數據集中實例異常的有力指標.具體來說,具有較大重構誤差的數據實例更有可能被認為是異常,因為它們的模式明顯偏離大多數情況.在各種基于殘差分析的異常檢測方法中,深度自編碼實現了最先進的性能[58-59].深度自編碼器是所有無監督的深度學習異常檢測模型的核心,其思想是假定正常的實例數目比異常實例數目多,深度自編碼器可以記住正常的模式,但不能有效地從低維投影重建這些異常點,因此這些具有較少出現次數的異常點在通過自編碼器后往往具有較大的殘差,從而被判別為異常點.該類模型的框架如圖3所示,針對輸入數據通過一個編碼器(encoder)得到數據的隱層表示,然后該表示通過一個解碼器(decoder)重構輸入數據,最后用輸入和重構的輸出之間的殘差損失(residual loss)大小作為衡量數據異常的指標.

Fig. 3 Residual analysis based anomaly detection mode圖3 基于殘差分析的異常檢測模型

在基于殘差分析思想的基礎上,學者們提出了一系列圖上無監督的異常檢測方法.

首先,Li等人在文獻[57]中針對在沒有先驗知識的情況下,如何表征屬性信息的殘差以發現異常,以及如何利用屬性殘差和網絡信息之間的一致性,從而以一般方式識別異常,提出了異常檢測框架Radar,進而進行異常檢測任務,通過學習和分析殘差,發現與大多數樣本不同的異常行為.最后在真實數據集上的實驗表明了該殘差分析框架Radar的效性和普遍性.

Bandyopadhyay等人[58]在文獻[31]的基礎上對異常檢測的模型進行改進,提出了DONE和AdONE算法,模型結構如圖4所示,該模型在編碼器和解碼器部分替換了文獻[31]中使用的矩陣分解方法,采用了深度自編碼器來獲得結構和屬性上的重構損失,用于捕捉非線性關系,同樣利用損失函數引入了結構上的異常分數O1和屬性上的異常分數O2.在獲得節點屬性和結構上的低維表示后,使用對抗學習的思想,學習社區異常中的映射矩陣W,讓節點在屬性和結構上具有一致性,從而獲得社區角度的混合異常分數O3.

Fig. 4 Model structure of DONE and AdONE[58]圖4 DONE和AdONE模型結構[58]

Liang等人[60]提出在做表示學習任務的過程中去檢測異常點.文獻[60]采用2個對偶深度神經網絡去編碼節點特征xi和節點的鄰居特征xNi,獲得編碼后的節點特征h1(xi)和鄰居節點特征h1(xNi).然后通過一個共享層融合節點的表示,即ei=λihl1(xi)+ (1-λi)hl1(xNi),最后通過有標簽的類型數據和無標簽的表示學習任務去訓練模型,由于異常點往往會影響表示學習的效果,因此通過將鄰居信息融入到表示學習中,可以在表示學習任務中消除異常點的影響,在學習節點良好的嵌入表示的過程中同時檢測出節點的異常分數.

上述介紹的基于深度學習的異常檢測方法往往將節點的結構和屬性信息分開考慮,忽略了兩者之間的某些交互信息,而圖神經網絡可以同時編碼節點結構和屬性信息,將結構和屬性信息結合起來考慮,可以捕捉到節點的更好表示.因此,圖神經網絡越來越多地被用于圖上的異常檢測領域.接下來將對已有的利用圖神經網絡的異常檢測方法進行介紹.

Dominant[45]使用GCN對屬性網絡進行建模,解決了上述提到的分開考慮結構和屬性信息的局限性,當處理與經過多層非線性轉換的高階節點交互時,GCN緩解了網絡稀疏性的問題,可以捕獲數據的非線性以及屬性網絡上2個信息源之間的復雜交互.該模型的結構如圖5所示,具體來說,Dominant在自動編碼器框架中利用從GCN獲得的節點嵌入來重構原始的屬性和結構信息.然后,通過結構上的重構誤差和屬性上的重建誤差來獲得異常分數,并通過異常分數的排序來標記異常.實驗結果證明:利用GCN的深度模型Dominant的優越性.該方法雖然通過使用GCN可以很好地捕捉節點模態和屬性模態的良好交互信息,但是該模型的設計比較簡單,只是直接使用了GCN作為編碼器,沒有考慮到GCN的一些缺點,如平滑問題.

Fig. 5 Model structure of Dominant[45]圖5 Dominant模型結構[45]

雖然將深度學習當作特征抽取工具提取出特征后用作異常檢測任務已經取得良好效果,但是先進行特征抽取然后進行異常檢測的方法很容易導致性能欠佳,因為第一步的特征抽取不知道隨后的異常檢測任務,很容易導致異常檢測任務的關鍵信息在第一步已經被移除,從而陷入局部最優解.因此,Zong等人[66]采用了一種聯合訓練的方法,即將殘差分析的損失與聚類分析的損失聯合起來,構造一個統一的損失函數,利用深度神經網絡技術去同時優化特征抽取與聚類分析的過程,從而取得更準確的異常檢測結果.Li等人[59]首次將這種聯合訓練方法用于圖上的異常檢測,所提模型如圖6所示,在模型左半部分,首先從結構和屬性的角度提取特征,在獲得節點在結構和屬性上的隱層表示后,拼接其隱層特征后用于高斯密度估計,最后將特征重構的損失和密度估計的損失采用聯合訓練的方法,位于高斯分布邊緣的節點具有較高異常分數.

Fig. 6 Model structure of SpecAE[59]圖6 SpecAE模型結構[59]

圖上的異常檢測旨在發現模式與大多數參考節點明顯不同的節點,但是,現有方法都忽略了圖結構和節點屬性之間復雜的跨模態交互.在文獻[51]中,作者提出了一個通過雙自動編碼器(AnomalyDAE)進行異常檢測的深度聯合表示學習框架,該框架捕獲了圖結構和節點屬性之間的跨模態交互,以實現高質量的嵌入.如圖7所示,AnomalyDAE由結構自編碼器和屬性自編碼器組成,以共同學習潛在空間中的節點嵌入和屬性嵌入.該框架在結構編碼器中通過采用注意力機制來學習不同鄰居的重要性,以有效捕獲結構模式,這在異常檢測中扮演著重要作用.此外,通過將節點嵌入和屬性嵌入兩者作為屬性解碼器的輸入,在重建節點屬性的過程中學習結構和節點屬性之間的跨模態交互作用.最后,可以通過從結構和屬性2個角度測量節點的重構誤差來檢測異常.

Fig. 7 Model structure of AnomalyDAE[51]圖7 AnomalyDAE 的網絡結構[51]

Fig. 8 Model structure of AEGIS[52]圖8 AEGIS模型結構[52]

3.1.2 半監督的深度圖異常檢測方法

通常情況下,異常檢測被當作一個無監督學習問題來處理,大多數現有的方法僅限于包括有標簽的正常樣本,只有少數方法可以利用標記的異常,已有的半監督的深度異常檢測方法通常假設在輸入空間和學習到的特征空間中,彼此接近的點更有可能共享相同的標簽,在深度神經網絡層的隱藏層中能夠學習魯棒特征,保留區分屬性,用于分離正常點和離群數據點.

目前只有少數學者在圖上利用半監督學習的方法進行檢測異常任務,Kumagai等人[61]提出了一種新的半監督下同時考慮圖結構的標簽和所有節點的屬性信息進行異常檢測的深度學習方法.在文獻[61]中,為了學習有用的節點嵌入以進行異常檢測,作者提出學習一個超球面,使包圍正常節點嵌入的超球面的體積最小化,同時將異常節點嵌入在超球面之外,當要檢測的節點屬于學習到的最小球半徑之外,則將該數據當作異常節點.具體來說,該方法首先通過利用圖卷積神經網絡抽取節點的嵌入表示H,然后針對有標簽的正常實例,最小化正常實例節點到球中心的距離:

Lnor(θ)

(1)

從而學習到一個包含盡可能多正常樣本的超球.其次,為了更有效地使用異常樣本,考慮正負樣本不平衡的特性,采用近似AUC的思想[67]:

RAUC(θ)

(2)

其中f是sigmoid函數,當a(vn)?a(vm)時,f(·)取得較大值;當a(vn)?a(vm),f(·)取得較小值,因此最大化式(2)鼓勵異常節點的分數值要比正常節點的分數值高,讓異常節點距離超球中心c的距離較遠.最后該模型結合式(1)(2)這2個損失函數去優化模型參數,對剩下的未標記樣本執行異常檢測任務:

L(θ)Lnor(θ)-λRAUC(θ).

(3)

通過在不同比例的有標簽數據下進行實驗證明該方法優于已有的異常檢測方法.

雖然文獻[61]提出的算法在半監督的背景下對圖上節點進行了異常檢測,但是文獻[61]僅僅使用圖卷積神經網絡去提取特征,沒有考慮不同的節點貢獻度以及平滑問題; 其次,GCN很難應用在超大圖上,每次卷積操作計算都需要將整個圖放入到內存和顯存,計算量和內存與顯存占用量會隨著節點數的增加而遞增,因此如何針對大圖進行異常檢測也是半監督深度異常檢測方法未來的一個重要研究方向.

3.1.3 靜態圖上的異常檢測對比實驗

為了驗證上述基于深度學習的靜態圖異常檢測方法的有效性,本節將使用目前已公布源碼的2篇文獻[45,58]的代碼,在公開數據集上進行對比實驗,以評估他們在圖深度異常檢測方面的效果.使用的數據集基本情況如表2所示.由于現有的公開數據集通常沒有異常標注,我們手動將5%的異常(包括結構異常、屬性異常和兩者組合而成的異常)注入到部分公開的屬性化網絡數據集中.遵循文獻[31]中使用的策略,以確保注入的異常與實際異常相接近.異常注入過程包括:

Table 2 Summary of the Datasets表2 實驗數據集信息

1) 計算每個類的節點數目的概率分布;

2) 用這些概率選擇一個分類;

3) 對于結構異常:在所選分類中注入一個異常節點,使該節點具有(m+/-10%)的邊連接其余(未選定)分類的節點,其中,m是所選分類中節點的平均度數;

4) 結構異常的節點的屬性在語義上與從所選類中采樣得到的關鍵字一致.

對于屬性異常(從不同的分類中隨機抽取屬性)和組合異常(分別從2個不同的類中采樣邊和屬性)采用了類似的方法.

實驗結果如圖9所示.Ding等人[45]提出的方法名為Dominant,Bandyopadhyay等人[58]提出了DONE和AdONE兩種方法.屬性網絡中的離群點檢測非常重要.DONE和AdONE都會在節點embedding過程中生成異常分值.取3次異常檢測的加權平均值作為節點的異常分值并根據該分值對節點進行排序生成排名表L.由于每個數據集中有5%的異常節點,我們繪制了從排名表(L)中排名前5%到25%的節點的召回率.圖9的實驗結果表明DONE的表現在3個數據集上相對于其他2種方法都要稍差一些,這是由于DONE將屬性和結構分別建模后僅僅使用特征變換矩陣W建模屬性和結構的交互信息,而AdONE和Dominant分別利用了更加復雜的對抗訓練和圖神經網絡建模交互信息,因此總是相比DONE取得更好的效果.Dominant和AdONE在不同數據集上各有優勢,特別地,我們發現在Citeseer數據集上Dominant具有顯著優勢,通過對數據集的分析發現,Citeseer數據集相比其他數據集的特征維度較高并且更加稀疏,這說明Dominant利用圖神經網絡同時建模屬性和結構信息可以處理更加復雜的數據集.實驗表明:目前基于深度學習的圖異常檢測算法已經可以取得較好的精確度.

Fig. 9 Experimental results of deep learning based anomaly detection in static graph圖9 基于深度學習的靜態圖異常檢測實驗結果

3.2 基于深度學習的動態圖異常檢測方法

本節重點介紹動態圖上基于深度學習的異常檢測方法,因為基于深度學習的技術主要引入了圖上的結構和屬性信息,而這些信息都會隨時間發生變化,所以我們重點介紹因為時序引發的圖結構和屬性變化的相關異常檢測方法.

3.2.1 基于結構變化的動態圖異常檢測方法

這類方法的主要思路是:針對由一系列靜態圖組成的動態圖,尋找那些時間點,在這些時間點上圖發生了顯著變化或者發生了異常事件;進而,發現影響最大的節點、邊或者子圖結構.

DPADS[68]算法檢測圖的異常是和文獻[32]類似的思想:異常的子結構(或子圖)是正常模式的結構變種(正常模式邊和節點的增加或者缺失).假設d(G1,G2)表示2個圖G1和G2之間的結構差異度量,計算把圖G1轉化為G2的同構圖的計算量(添加、刪除點與改變標簽的變化數量),衡量G1和G2之間的差異.

DPADS算法把靜態圖上的異常檢測算法GBAD和并行異常檢測算法PLAD擴展到大規模動態圖的異常檢測中,如圖10所示,Ti-1,Ti,Ti+1為時間滑動窗口.本文定義了3種基本類型圖的異常:添加、修改和移除.添加異常是正常模式增加了節點或邊,修改異常包含了一個節點或邊的意外標簽,移除異常的子結構比正常子結構缺少了邊或節點.算法的輸入為n個子圖,這些子圖既可以是靜態圖的劃分,也可以是時序圖的一部分.DPADS主要可以分為2個階段:初始化和迭代處理.其中初始化階段,其主要的目標是在n個子圖中找出正常模式S和與其存在差異的異常模式.這個階段可以歸納為:

Fig. 10 Diagram of DPADS[68]圖10 DPADS[68]示意圖

1) 并行處理n個子圖,然后分別檢測top-M個正常模式,一共可以得到n×M個正常模式;

2) 判斷得到正常模式S;

3) 根據正常模式S得到異常模式結構.

迭代處理階段的主要目標是迭代分析時序數據的結構異常.

1) 算法把時間窗口向后移動一個窗口,讓新獲取的子圖包含在滑動窗口內;

2) 在新來到的子圖中檢測top-M個正常模式,從滑動窗口中的所有子圖中判斷得到正常模式S′.如果S′=S,那么就只需檢測新子圖里的異常;否則需要對窗口里的每個子圖都基于正常模式S′檢測異常結構;

3) 對每個異常子結構計算R值,值最小的子結構判定為異常結構,重復迭代過程.

為了減少惡意活動的影響并及時啟動恢復過程,AnomRank[64]在準確性和實時性做出了改進,提出了一種快速準確的在線算法用于檢測動態圖中的異常.首先對異常進行分類,如圖11(a)所示,除了像DPADS將節點的增加或者缺失作為異常外,如圖11(b)所示,AnomRank將連接的節點之間的邊數的變數作為異常,例如惡意的端口攻擊中的頻繁連接.論文基于已有的衡量節點重要性的PageRank算法,認為異常導致節點分數突然變化.作者首先定義了僅考慮節點的節點重要性(ScoreS)和考慮了節點和邊權重的節點重要性(ScoreW),在此基礎上,作者設計了動態的重要性計算函數實現快速計算,將重要性分數變化大的節點識別為異常節點,從而實現實時的異常檢測.

Fig. 11 Two changes in dynamic graphs: Structure change and edge weight change[64]圖11 動態圖的2種改變: 結構改變和邊權重改變[64]

Yu等人[62]則是提出了一種基于圖嵌入的動態圖異常檢測框架NetWalk,提出一種新的基于深度自編碼神經網絡的Clique Embedding方法來學習節點的向量表示(最小化每個walk中頂點對的距離),這種節點向量表示方法,可以很好的基于聚類進行Clique Embedding異常檢測.同時為了應對邊異常,還構建了一個查詢表,根據學習的圖表示和阿達馬變換(Hadamard Transform)對新的邊進行實時編碼,這種節點和邊的編碼方式可以得到“良好的摘要”.網絡還為每個頂點維護了一個固定大小的蓄水池,用來解決動態圖的數據更新問題,文獻[62]中給出了新的邊到來時候的3種更新策略,總結來說就是新的邊到來時,會以P的概率替換水池里存在的頂點,刪除邊的時候只針對已經刪除了的頂點進行替換,然后通過蓄水池中新的walk來更新網絡.文中的邊異常判斷是通過計算新來的邊和中心節點的距離來確定.

3.2.2 基于屬性變化的動態圖異常檢測方法

基于特征的異常檢測方法.這類方法的主要思想是“相似的圖可能共享某些特征”,反過來說就是指異常結點(子圖)和其他正常結點(子圖)的特征存在很大不同,所以這類方法的主要步驟都是:

1) 從輸入圖的每個快照中,提取關鍵的特征值來為每個快照構造“摘要”;

2) 使用距離函數比較連續摘要;

3) 當距離大于閾值時,將相應摘要定性為異常.

其中不同算法的區別體現在:

1) 構造“圖摘要”的方法不同;

2) 使用的距離或相似度函數不同;

3) 定義和選擇閾值以將實例標記為異常的方式不同.

其中Akoglu等人[33]提出為每個快照創建摘要(例如將相關特征進行向量表示),并使用距離函數對摘要進行連續快照比較,2個快照之間的某個閾值以上的距離表示它們之間的變化點或異常.算法會先為圖中所有節點提取幾個網絡特征的時間序列,再建立一個相關矩陣,表示在特定時間窗口內圖中所有節點對之間的“行為”相關性.然后導出所有節點的“行為”向量,并將其與在多個先前時間窗口內檢測到的最近的過去“行為”的向量進行比較.如果發現當前的“行為”與最近的歷史有很大不同,則將當前的時間窗口標記為異常.

基于社區的異常檢測方法.這類方法的主要思想是時間序列中其社區結構與最近過去的快照有很大不同的快照是存在異常的.Miz等人[63]針對時空數據集(例如Web和社交網絡的用戶活動日志)提出了一種可擴展的異常檢測方法,對此類網絡中用戶的集體行為進行異常檢測.對一個屬性圖而言,節點的屬性是動態時序信號,該方法先進行特征提取與過濾,僅保留時間序列中潛在的異常節點(時序屬性中必須達到足夠數量的異常),丟棄明顯非異常節點.然后借鑒Hebbian學習規則:2個神經元的共同激活會導致2個神經元之間的連接(突觸)增強.該方法使用Hopfield網絡方法學習一個記憶網絡,即給定網絡的初始結構,對2個初始連接的節點i和j,在時間t,根據某種相似性度量Sim{i,j,t}更新它們之間邊的權重,因此相鄰節點之間的邊會隨著相似性的變化得到增強或消除,最終具有相似行為的節點會強連接并在記憶網絡中聚集在一起.通過對網絡學習后的每個社區進行分析,可以了解發生的事件和異常活動.

3.2.3 基于結構和屬性變化的動態圖異常檢測方法

在隨時間演變的大圖中,Wang等人[34]通過對節點屬性和圖結構信息進行建模,設計出一個異常定位框架來確定導致圖結構發生變化的特定圖實體并降低誤報率.該方法先使用VAR模型(Vector Autoregression model)建模不同時刻圖快照的特征矩陣,描述動態圖中單個節點的行為歷史的方法:

(4)

然后使用快速貪心算法對每個時間戳處的圖快照進行分區,若相鄰時間戳Ct,a和C(t-1),x檢測到的社區的相似性超過閾值,相似性計算:

(5)

則將其中的2個社區連接匹配到一起,再使用VAR模型來了解社區路徑的活動如何隨時間變化,建模進化的社區路徑,得到社區路徑異常分數.再定義一個以社區為中心的節點模型,在固定的時間戳下將節點的特征向量與其所在社區的其他節點的平均特征向量進行比較,差異即為基于社區的節點模型中該節點的異常分數.如圖12所示,給定一個節點,異常定位框架會判斷當前節點在時刻t的屬性是否滿足:1)不遵循其自身的歷史行為模式且其所在的社區路徑顯示異常活動;或2)不遵循其自身的歷史行為模式,其所在的社區路徑活動正常,但不遵循其所屬社區的模式.若滿足2個條件之一則認為節點在時間t是異常的.

Fig. 12 Dynamic graph anomaly location framework[34]圖12 動態圖異常定位框架[34]

4 圖異常檢測應用場景和數據集

4.1 圖異常檢測應用場景

在許多應用中,檢測異常的能力變得越來越重要.目前,已經有許多成功的異常檢測方法被開發出來,并將其廣泛應用于一些高影響力領域.例如欺詐檢測[69]、Web垃圾郵件和惡意軟件檢測[70-72]、垃圾評論檢測[10,73]、網絡入侵檢測[74]以及醫療保健監視和警報[75]等.下面我們將介紹一些基于圖數據的異常發現算法在現實場景中的應用.

4.1.1 電信欺詐

在眾多類型的電信欺詐中,最普遍存在的一種是訂閱欺詐.欺詐者經常使用虛假身份獲取賬戶,目的是免費使用該服務而不進行任何付款.

最早基于圖數據的在電信欺詐檢測中有效的研究是由Cortes等人[76]完成的,他們主要將鏈接分析與時間和呼叫量信息一起使用.圍繞每個電話賬戶構建和維護的子圖被稱為該賬戶的“communities of interest”(COI).COI主要包含在動態加權度量方面與給定賬戶最相關的其他電話賬戶,這些度量考慮了這些通話方之間的通話數量和持續時間.作者使用每天更新的這些信息豐富的子圖,可以觀察到2個區分性質.首先,作者發現欺詐性電話賬戶之間有關聯,這些欺詐者要么直接相互呼叫,要么撥打相同的電話號碼,這使得他們在COI中非常接近.第2個觀察結果表明,有可能通過其COI與以前標記的欺詐性COI相似來發現新的欺詐性賬戶,這是由于被電話運營商檢測到的欺詐者創建新賬戶并表現出相似的通話習慣,而這些習慣被其COI有效地捕獲.

4.1.2 垃圾評論檢測

客戶每天都會在在線購物網站(亞馬遜、淘寶網)上發表很多評論.評論會影響客戶的購買決定,同時也會吸引大量旨在誤導買家的垃圾評論發送者.例如2017-08—2018-07中國最大的二手商品應用程序閑魚也遭受了垃圾評論的困擾,這些垃圾評論需要清除,因為它們不僅破壞用戶體驗,而且還為互聯網欺詐提供了溫床.

大多數現有的垃圾評論檢測方法都專注于從評論內容或評論者行為中提取可靠的工程特征.Jindal等人[77]研究了重復評論內容以檢測垃圾評論,他們收集了分別以評論、評論者、產品為中心的特征,并將其提供給邏輯回歸模型;Ott等人[78]僅關注評論的內容,作者使用樸素貝葉斯和SVM分類器來解決問題.但關系在垃圾評論檢測中也起著重要作用,例如,垃圾評論制造者經常將垃圾評論廣告成組發布;基于關系的觀察,Wang等人[79]提出了第1種基于圖的垃圾評論檢測方法,他們使用3種類型的節點(評論者、商店和評論)構建了“評論圖”,然后以類似HITS的方式增強了評論者的信任度,商店的可靠性和評論的誠實性;Lucker等人[80]利用文獻[79]構建的評論圖和評論者之間的關系圖進行垃圾評論檢測;Akoglu等人[81]利用關系分類來檢測垃圾評論,并開發了基于RMN的關系模型,以捕獲評論者和商店之間的相關性,然后使用LBP進行推理;Li等人[72]提出了一種基于圖卷積網絡(GCN)的大規模反垃圾評論方法,用于在咸魚上檢測垃圾評論廣告.

4.1.3 網絡入侵檢測

大多數基于圖的網絡入侵檢測方法都專注于網絡圖的動態增長和變化.在此圖中,節點表示網絡中的代理,例如廣告、文件、目錄服務器和客戶端節點,邊表示它們在網絡上的通信.跟蹤網絡圖的動態性質實際是基于計算節點的通信行為在受到攻擊時會發生變化的假設.

Idé等人[82]監視節點的“活動”向量.節點的活動分數是集體計算的,如果一個節點鏈接到許多活動節點,則其活動得分很高.通過此定義,活動向量實質上成為描述通信圖的鄰接矩陣的主要特征向量.他們通過測量向量方向和大小的變化來跟蹤該向量隨時間的變化,并開發在線閾值技術來決定何時將更改標記為重要事件.這些事件可能對應于網絡攻擊、故障和其他網絡配置更改.Sun等人[83]利用矩陣分解來捕獲網絡活動的范數.他們采用稱為緊湊矩陣分解的稀疏高效方法來分解網絡圖的鄰接矩陣,并使用重構的相對和平方誤差作為隨時間變化的變化度量,以跟蹤網絡圖新來的快照.Ding等人[84]考慮了網絡社區的分析, 監視跨社區的通信行為以發現網絡入侵.直覺上,跨越社區界限的交流被認為是可疑的,可以視為攻擊的信號. ROC曲線表明,他們提出的方法可實現90%以上的檢測準確率,但在帶有惡意攻擊的ground truth數據中,誤報率較高,約為50%.

4.1.4 社交網絡

對于在社交網絡平臺上傳播惡意軟件的新方法,我們將其稱為Socware. Socware可由出現在諸如Facebook和Twitter之類的社交媒體平臺的新聞源中的任何帖子組成,這些帖子有4個特點:

1) 引導用戶進入危害用戶設備的惡意網站;

2) 為了謀取利益,給用戶承諾提供虛假獎勵并使用戶執行某些任務(例如填寫調查問卷);

3) 使用戶通過單擊或“點贊”來提高某些頁面的聲譽和知名度等;

4) 使用戶分享或重新發帖.

為了對抗Socware,Rahman等人[85]提出了一個分類框架,該框架利用了“social-context-aware”特征,例如共享特定帖子的不同用戶之間帖子的消息相似性.除了其他基于內容的特征外,還包括該帖子在網絡中的傳播大小,其他網絡用戶對該帖子的“喜歡”和評論計數等.Gao等人[86]基于網絡級的特征,例如發件人的程度,用戶之間的交互歷史等,使用增量聚類對社交網絡進行在線垃圾郵件過濾,這些方法依賴于基于集體特征集的學習分類器.

4.2 圖異常檢測數據集介紹與構造

4.2.1 公開數據集

目前主要的可用于圖異常檢測的公開數據集如表3所示.此外,異常檢測數據集(outlier detection datasets, ODDS)提供了大量帶有ground truth的異常檢測數據集,包含來自不同領域的數據集,并將其集中地呈現給研究者.ODDS將數據集進行了劃分,主要包括:1)多維點數據集:每個數據點有一個記錄,每個記錄包含多個屬性;2)用于事件檢測的時間序列圖數據集:時間圖數據,其中圖隨時間推移動態變化,新的節點和邊會到達,或現有的節點和邊會消失;3)時間序列點數據集(多變量/單變量):時間點數據,其中每個點都有一個或多個屬性,并且這些屬性會隨時間變化;4)對抗/攻擊場景和安全性數據集:來自在線評價系統的意見欺詐檢測數據,網絡安全數據,例如DoS,DDoS等攻擊場景的入侵檢測;5)擁擠場景視頻數據:用攝像機獲取的視頻片段.其中時序圖數據集可作為圖異常檢測的數據集.

Table 3 Public Datasets for Graph Anomaly Detection表3 圖異常檢測公開數據集

4.2.2 異常注入方法

異常檢測的研究大多使用真實數據用以實驗.此外很多研究者還使用合成數據來模擬特定場景.出于隱私考慮,組織和利益相關者不愿意分享他們可用于異常檢測的信息.因此可以考慮使用綜合創建的數據,即在已有的公開數據集中人為地注入異常數據.目前異常注入方法主要有3種:1)擾動原始數據,即將原本圖中正常的數據進行人為的調整,使其呈現異常狀態;2)插入新的異常數據,即對原有圖進行擴展,插入異常的節點、邊等;3)在包含階段類別標簽的圖中,將對應標簽數目出現次數最少的節點作為異常進行處理.

5 圖異常檢測研究挑戰和未來

盡管目前在圖的異常檢測領域已有豐富的研究工作,但是仍面臨著很多挑戰:

1) 數據的相關性.首先,數據的相關性使得針對圖對象的異常定義變得困難.在傳統的異常檢測中,對象或數據點被視作是相互獨立的、同分布的,而圖數據中的對象由于節點間邊的存在往往具有復雜的相關性.因此,如何使用深度學習更好地挖掘這種相關性是異常檢測面臨的挑戰之一.

2) 定義的多樣性.鑒于圖的豐富表示形式,圖中異常的定義比傳統的異常點檢測要更加多樣化.例如,與圖子結構相關的新型異常類型在許多應用中都有所展現,如交易網絡中的洗錢環節等.深度學習算法如何兼容這些多樣化的異常定義也面臨挑戰.

3) 檢測結果的可解釋性.盡管深度學習可以獲得較好的效果,但其結果的可解釋性較差,而異常檢測中的結果解釋和歸因尤為重要,基于深度學習的圖異常檢測算法如何為結果提供更好的解釋也是面臨的重要挑戰之一.

4) 算法的效率和自適應性.深度學習的效率也是其缺陷之一,在圖的規模不斷擴大的情況下,檢測算法需要高效且可擴展;此外,當動態圖的變化幅度較大時,基于深度學習的檢測算法需要能夠處理這種變化;最后,由于深度學習在不同的數據上往往需要人工設置不同的參數,如何減少人工的參與也是挑戰之一.

綜上所述,基于深度學習的圖異常檢測的未來方向主要包括4個方面:

1) 考慮將深度學習異常檢測算法并行化和分布式化.面對越來越復雜的任務,數據和深度學習模型的規模都變得日益龐大.例如,Twitter用戶數量已經超過3億,因此其形成的社交網絡的規模非常之大.因此,如果不做任何剪枝處理,深度學習模型可能會擁有上百億、甚至是幾千億個參數,必然會導致基于深度學習的異常檢測算法耗時過長的情況,因此嘗試對其進行并行和分布式處理是有效且直觀的解決方式.但是對深度學習算法的并行和分布式化,不應只局限在對串行算法進行多機實現以及底層實現方面的技術,更應該基于對機器學習的完整理解,將分布式和深度學習緊密結合在一起,結合深度學習以及圖數據的特點,設計全新的真正合二為一的“分布式深度學習異常檢測”算法.

2) 圖類型的兼容性.面對日益復雜的圖,現有的深度學習圖異常檢測算法不能很好地適用所有場景,大多數模型針對同質圖,對包含不同形態的異質圖的研究很少.例如在異常檢測中通常會涉及到靜態圖、動態圖、屬性圖等類型,而目前論文提出的方法都只針對其中某一種類型,無法兼顧所有的圖類型,更無法處理更為復雜的異質圖.因此,應當考慮設計可以兼容多種圖數據類型的算法,以應對日益復雜的數據類型.

3) 異常的解釋和歸因.深度學習的解釋性通常較差,將其運用到圖異常檢測上往往會導致檢測結果難以直觀地理解;但是圖異常檢測不應只停留在算法層面,而是應當更好地去考慮如何呈現給用戶更易理解的檢測結果.首先必須考慮將異常檢測結果進行直觀的、可視化的呈現,其難點在于對于大規模的圖,其可視化需要耗費大量CPU和內存資源,應當如何去兼顧資源消耗和可視化效果.深度學習模型可解釋性指對模型內部機制的理解以及對模型結果的理解.其重要性體現在:在建模階段,輔助開發人員理解模型,進行模型的對比選擇,必要時優化調整模型;在投入運行階段,向業務方解釋模型的內部機制,對模型結果進行解釋;但是目前此深度學習模型的可解釋性仍是學術界的難點及研究熱點之一.

6 總結與展望

本文首先介紹了圖異常檢測的相關背景和技術基礎,之后從靜態圖和動態圖的角度出發,討論了基于深度學習的圖異常檢測的各種技術方法.然后介紹了圖異常檢測方法在各個領域的實際應用,并介紹了現有工作中常用的數據集和異常注入方法,為之后研究人員開展相關的研究打下了基礎.最后,本文還討論了基于圖數據運用深度學習進行異常檢測面臨的挑戰和未來研究趨勢,這些對未來本領域的研究具有很強的指導意義.這篇綜述的目的是調查和分析用于圖異常檢測的各種深度學習模型,并評估相關技術方法的適用性,在為特定領域的異常檢測選擇深度學習模型時,這些評估和分析結果可以作為指南性的意見.基于深度學習的異常檢測技術目前仍然是十分活躍的研究方向,但是在圖數據方面的應用研究卻相對缺乏,未來會有更多的技術和研究成果出現,綜述的內容也會進行不斷地更新和擴展.

作者貢獻聲明:陳波馮負責論文主要內容的調研和撰寫,以及論文的校驗,李靖東輔助調研相關內容并提供指導意見,盧興見,王曉玲,沙朝鋒,張吉對文章的結構和內容提供指導意見,其中盧興見和王曉玲貢獻相同,為共同通信作者.

猜你喜歡
深度結構檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
深度理解一元一次方程
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
深度觀察
深度觀察
深度觀察
論《日出》的結構
主站蜘蛛池模板: 欧美高清国产| 青青草国产在线视频| 麻豆精品久久久久久久99蜜桃| 久久香蕉国产线看观看亚洲片| 色爽网免费视频| 国产成人高清在线精品| 国产成人av大片在线播放| 精品人妻AV区| 欧美激情一区二区三区成人| 99精品热视频这里只有精品7| 2018日日摸夜夜添狠狠躁| 国产精品自拍合集| 97超碰精品成人国产| 永久免费AⅤ无码网站在线观看| 亚洲国产成人在线| 国产电话自拍伊人| 亚洲最大综合网| 在线日韩日本国产亚洲| 国产日本欧美亚洲精品视| 成人一区专区在线观看| 超薄丝袜足j国产在线视频| 天天视频在线91频| 五月婷婷精品| 99中文字幕亚洲一区二区| 亚洲成aⅴ人在线观看| 国产久草视频| 女同久久精品国产99国| 国产精品爆乳99久久| 亚洲成aⅴ人片在线影院八| 色哟哟精品无码网站在线播放视频| 国产主播在线一区| 欧美翘臀一区二区三区| 欧美人人干| 欧美国产在线看| 91无码人妻精品一区| 欧洲成人在线观看| 国产精品嫩草影院av| jizz在线观看| 91无码视频在线观看| 久久国语对白| 色婷婷色丁香| 日韩欧美国产中文| 999精品在线视频| 色悠久久久久久久综合网伊人| 二级特黄绝大片免费视频大片| 高清色本在线www| 国模私拍一区二区| 91精品亚洲| 一区二区三区高清视频国产女人| 狠狠色狠狠色综合久久第一次 | 99热最新网址| 国产精品漂亮美女在线观看| 亚洲精品图区| 草逼视频国产| 欧美v在线| 国模极品一区二区三区| 国产精品女同一区三区五区| 欧美成人国产| 欧美成人精品一级在线观看| 亚洲成人精品久久| 伊人久久大香线蕉成人综合网| 国产成人精品高清在线| 青青草原偷拍视频| 日本午夜精品一本在线观看| 亚洲高清中文字幕| 91精品国产福利| 久久中文电影| 国产精品久线在线观看| 91久久夜色精品| 日本精品αv中文字幕| 亚洲美女久久| 久热re国产手机在线观看| 啦啦啦网站在线观看a毛片| 国产性爱网站| 曰韩免费无码AV一区二区| 免费又爽又刺激高潮网址 | 欧美成人日韩| 久久国产成人精品国产成人亚洲| 国产白丝av| 国产三级毛片| 国产小视频网站| 日韩资源站|