李 敏,汪 晴,于春紅
(淮北師范大學 計算機科學與技術學院,安徽 淮北 235000)
隨著網(wǎng)絡技術的發(fā)展,大規(guī)模社交網(wǎng)絡、生物信息網(wǎng)絡、文獻引文網(wǎng)絡等網(wǎng)絡結構數(shù)據(jù)的挖掘成為數(shù)據(jù)挖掘領域的重點。網(wǎng)絡結構數(shù)據(jù)的最大特點是節(jié)點之間并非完全獨立,因不同關系產(chǎn)生不同類型的邊,除此之外,節(jié)點因自身特點表現(xiàn)為豐富的內容信息。網(wǎng)絡的復雜性、大規(guī)模性、不確定性降低了機器學習的效率,網(wǎng)絡表示學習成為關鍵。
節(jié)點聚類、分類、鏈路預測等網(wǎng)絡挖掘應用[1],均以節(jié)點的表示信息為輸入。傳統(tǒng)的網(wǎng)絡表示主要為矩陣表示,利用網(wǎng)絡結構信息構造網(wǎng)絡的權矩陣、鄰接矩陣、關聯(lián)矩陣等矩陣形式。大規(guī)模網(wǎng)絡的社團現(xiàn)象、冷啟動等因素造成網(wǎng)絡的高維性、稀疏性使矩陣表示陷入困境,同時矩陣表示無法加入節(jié)點信息。節(jié)點信息具有標識性,有助于提高網(wǎng)絡挖掘效率,網(wǎng)絡表示要兼顧網(wǎng)絡結構信息和節(jié)點信息。向量空間的相似性等定量指標可以直接計算,并且大多機器學習算法以向量為輸入,網(wǎng)絡表示學習將節(jié)點映射到低維向量空間可使用通用的機器學習算法并能夠可視化展示節(jié)點之間的結構關系。
網(wǎng)絡表示學習可以有效地對空間中高維度節(jié)點降維,但又不丟失原有網(wǎng)絡結構信息,應用于后續(xù)其他算法中,網(wǎng)絡表示學習流程[1]如圖1所示。

圖1 網(wǎng)絡表示學習流程圖
網(wǎng)絡表示學習早期以矩陣表示為主,并基于譜方法對稀疏、高維節(jié)點進行降維。代表方法有主成分分析PCA[2]或者奇異值分解SVD、非線性降維算法LLE[3]、拉普拉斯特征映射[4]等。根據(jù)結構信息的PCA、SVD方法缺乏節(jié)點內在信息,LLE、拉普拉斯特征映射只能處理無向網(wǎng)絡,難以直接對網(wǎng)絡進行應用并且難以擴展到大型網(wǎng)絡。DGE算法[5]基于隨機游走思想可擴展到大型網(wǎng)絡,有向或無向網(wǎng)絡均可處理。從社團檢測角度設計的Social Dimensions等網(wǎng)絡表示學習算法也只考慮網(wǎng)絡的結構信息[6]。以上算法通常網(wǎng)絡表示質量較差,并且算法復雜度較高對應用條件要求較為嚴苛,難以直接應用到網(wǎng)絡挖掘任務中。
基于自然語言處理技術的深度學習算法DeepWalk[1]和Node2Vec[7]逐漸被應用到網(wǎng)絡表示學習中。為克服鄰接矩陣的稀疏性,LINE算法[8]引入二階相似性。基于深度神經(jīng)網(wǎng)絡的SDNE算法[9]將節(jié)點映射到高度非線性空間獲取網(wǎng)絡的結構信息。
根據(jù)截斷隨機游走的思想,DeepWalk構建等長節(jié)點序列。首次引入word2vec中的Skip-gram模型創(chuàng)造性地將詞表示學習方法引入網(wǎng)絡表示學習中。無向網(wǎng)絡節(jié)點之間有邊即以等概率游走,有向網(wǎng)絡中沿“出邊”的方向等概率游走。網(wǎng)絡中的每個節(jié)點v以Φ:v∈VR|V|×d映射到d維向量空間。Φ產(chǎn)生|V|×d個自由參數(shù),根據(jù)上下文的信息和節(jié)點排列獨立性假設,優(yōu)化條件概率(1)獲得參數(shù)。
(1)
以vi的截斷窗口Wvi內的共現(xiàn)節(jié)點為葉子節(jié)點構造哈夫曼樹,獲得截斷序列(b0,b1,…,b|log|V||)=uk∈Wvi,b0=boot,b|log|V||=uk。Skip-gram模型根據(jù)節(jié)點序列uk構造,如公式(2)所示。
(2)
其中:
J(Φ(vj))=-logP(uk|Φ(vj))
Skip-gram模型以α=2.5%的隨機梯度下降率不斷更新公式(2),加速條件概率(1)收斂,最終獲得vi∈Rd。經(jīng)實證分析DeepWalk可以用較小的截斷隨機游走序列有效表示節(jié)點。
Node2Vec修改DeepWalk隨機游走跳轉機制,以條件概率P(vi|vi-1)進行節(jié)點訪問,不再進行均勻采樣。
(3)
其中,α是跳轉參數(shù),W(vi,vi-1)是邊(vi,vi-1)上的權。游走到節(jié)點vi-1,計算其鄰居節(jié)點vi與上一節(jié)點vi-2的距離di,i-2,進而計算α,定義如公式(4)所示。
(4)
參數(shù)p和q控制節(jié)點向上和向下跳轉的概率,節(jié)點之間以非等概率跳轉。參數(shù)p和q其默認值均為1,當p<1且q>1時,游走偏廣度優(yōu)先遍歷,著重刻畫局部信息;當p>1且q<1時,著重刻畫全局信息,深度優(yōu)先游走。參數(shù)設置提高了算法的可擴展性,獲取的序列長度不完全相同,更接近真實情況。Node2Vec隨機游走跳轉機制如圖2所示。

圖2 Node2Vec跳轉機制
LINE算法采用同時保持一階相似性和二階相似性的廣度優(yōu)先策略構造鄰域表示節(jié)點,克服了網(wǎng)絡的稀疏性,可擴展到包括有向和無向、賦權和無賦權等任意類型的大規(guī)模網(wǎng)絡。
網(wǎng)絡中相鄰節(jié)點之間的相似度為一階相似性,表示為節(jié)點的聯(lián)合概率P1(vi,vj)。
(5)

二階相似性用于描述網(wǎng)絡中具有相同鄰接點的節(jié)點之間的相似度,兩個不直接相連的節(jié)點可以使用自身的表示向量和共同鄰居的表示向量來度量,用條件概率P2(vj|vi)表示。
(6)


圖3 相似性實例
由圖3可以看出節(jié)點v5,v6不相鄰,不具有一階相似性,但具有二階相似性,因它們有共同鄰居節(jié)點v1,v2,v3,v4。節(jié)點v6,v7相鄰具有一階相似性,但無共同鄰接點沒有二階相似性。LINE遍歷節(jié)點序列時同時利用具有互補性的一階相似性和二階相似性,并使用負采樣優(yōu)化更新節(jié)點表示。對于稀疏節(jié)點利用鄰居的鄰居構造樣本進行學習,既保留了網(wǎng)絡的局部結構又保留了全局結構,但并未利用高階相似性信息。
以上算法不區(qū)分節(jié)點和邊的類型,真實世界中的網(wǎng)絡是節(jié)點具有差異性、節(jié)點之間的鏈接關系各異的異質網(wǎng)絡。例如物聯(lián)網(wǎng)主要包含用戶、商品兩類節(jié)點,主要應用有推薦系統(tǒng)預測。文獻引文網(wǎng)絡有4類節(jié)點:作者(A)、論文(P)、刊物(V)、主題(O),論文與其他3個節(jié)點之間都存在鏈接關系,廣泛應用在作者影響力排序中,如圖4所示。

圖4 文獻引文網(wǎng)絡
同質網(wǎng)絡表示學習難以利用異質網(wǎng)絡中豐富的語義信息。異質網(wǎng)絡因節(jié)點間的關聯(lián)邊類型不同所蘊含的語義也不同,節(jié)點之間的相似性不能直接量化度量。HINE算法[10]應用Meta math概念區(qū)分異質網(wǎng)絡中不同類型的邊序列構造元路徑,引文文獻網(wǎng)絡中常用的元路徑類型有“APA”“APVPA”“OAPVPAO”3種類型。從圖4中可以找到一條表示具有相同研究領域的“APVPA”元路徑“a1→p1→ACL→p2→a3”。基于元路徑量化節(jié)點的相似性,使異質網(wǎng)絡表示學習成為可能。異質網(wǎng)絡是表示現(xiàn)實世界中對象交互的更加通用的建模方式,異質網(wǎng)絡表示學習主要有以下3種方式。
(1)基于隨機游走的方法

(7)
Nt(v),t∈Tv為異質共現(xiàn)節(jié)點,通過極大化目標節(jié)點出現(xiàn)的概率,使用Softmax函數(shù)加速其收斂速度構造異構Skip-gram模型。
(8)
(9)

~P(ut)[logσ(-Xutm·Xv]
(10)
Metapath2vec++受PTE[12]啟發(fā),根據(jù)節(jié)點類型構造異構負采樣,加速函數(shù)歸一化時也充分考慮了節(jié)點類型。經(jīng)實證分析Metapath2vec++在多標簽分類、節(jié)點聚類、相似性搜索等任務中具有更高的精度和可靠性。
(2)分解網(wǎng)絡的方法
根據(jù)節(jié)點類型將大規(guī)模異質網(wǎng)絡分解成若干個子網(wǎng)絡,進行同質網(wǎng)絡表示學習,有效融合不同類型的節(jié)點是關鍵。代表算法有PTE[12]和HERec[13]等,需要更少的調整參數(shù)。PTE算法結合有限的標簽實例和大量未標簽實例,解決了無監(jiān)督表示學習算法不能適應特定目標的機器學習任務。PTE首次根據(jù)共現(xiàn)詞的不同層次將文本網(wǎng)絡分解成“詞-詞”網(wǎng)絡、“詞-文件”網(wǎng)絡和“詞-標簽”網(wǎng)絡,向低維向量空間映射時保持詞的二階相似性。HERec基于不同元路徑提取同類型節(jié)點序列構造同質網(wǎng)絡,進行Node2vec同質表示學習,并融合不同類型節(jié)點的向量表示,基于矩陣分解構造評分預測模型,聯(lián)合融合函數(shù)進行模型優(yōu)化。
PTE定義3個二部網(wǎng)絡,分別為上下文詞共現(xiàn)“詞-詞”網(wǎng)絡Gww=(V,Eww),詞與文件共現(xiàn)的“詞-文件”網(wǎng)絡Gwl=(V∪L,Ewl),詞與某類文件共現(xiàn)的“詞-標簽”網(wǎng)絡Gwl=(V∪L,Ewl)。利用節(jié)點的二階相似性修改LINE模型適應二部網(wǎng)絡嵌入。
首先定義二部網(wǎng)絡G=(VA∪VB,E),VA∩VB=φ,vi∈VA,vj∈VB。極小化二階相似性P(vi|vj)。
(11)
直接利用公式(12)加總極小化3個子網(wǎng)絡的詞節(jié)點相似性。
Opte=Oww+Owd+Owl
(12)
其中:

PTE算法對于具有豐富類標號實例的長文本數(shù)據(jù)的預測是有效的,但詞節(jié)點表示學習只是簡單融合3個子網(wǎng)絡,還有改善的空間。
HERec算法首先基于元路徑提取多個同質網(wǎng)絡并獨立表示學習。給定元路徑ρ,基于Node2vec思想,目標函數(shù)(13)經(jīng)隨機梯度下降優(yōu)化得到節(jié)點的低維向量表示e。
(13)

(14)
α,β為調整參數(shù),節(jié)點的不同向量表示使用線性公式(15)和非線性公式(16)所示的融合函數(shù)表示。
(15)
(16)

(3)基于深度神經(jīng)網(wǎng)絡的方法
深度神經(jīng)網(wǎng)絡模型容易對非線性關系建模,一些學者嘗試利用深度神經(jīng)網(wǎng)絡模型對異質網(wǎng)絡中不同類型的節(jié)點分別進行建模,并抽取節(jié)點語義信息。
BL-MNE[14]采用無監(jiān)督神經(jīng)網(wǎng)絡模型自動編碼器在不同元路徑下對節(jié)點進行低維編碼,再對這些信息通過meta鄰近性度量進行聯(lián)合編碼學習得到異質網(wǎng)絡的低維空間表示。共用已編碼的成熟異質網(wǎng)絡節(jié)點構造一致屬性增廣網(wǎng)絡,不同網(wǎng)絡之間通過轉移矩陣進行融合,對于網(wǎng)絡稀疏性有很好的效果。SHINE[15]針對情感網(wǎng)絡構造3個不同的網(wǎng)絡,對3個網(wǎng)絡的節(jié)點分別進行多重深度自動編碼并壓縮編碼得到低維向量表示,構造聚合函數(shù)融合子網(wǎng)的節(jié)點表示用于情感鏈路預測。針對文本和圖像并存的異質網(wǎng)絡,HNE[16]訓練卷積神經(jīng)網(wǎng)絡學習文本,同時訓練深度神經(jīng)網(wǎng)絡學習圖像,構建轉移矩陣投影文本和圖像的向量表示到同一空間,使跨模態(tài)數(shù)據(jù)之間的相似性可以度量。
學習異質網(wǎng)絡的嵌入表示能夠較好地刻畫網(wǎng)絡中不同類型節(jié)點之間的復雜關聯(lián),便于和其他模態(tài)信息的融合,廣泛應用于各類任務場景,一些結合任務的方法也被提出。例如PTE、Metapath2vec、GERI[17]等用于異質網(wǎng)絡節(jié)點分類,SHINE、HIN2vec[18]等用于異質網(wǎng)絡鏈路預測,JRL[19]、HERec等用于異質網(wǎng)絡推薦系統(tǒng),APE[20]是一個學術合作異質網(wǎng)絡雙盲評審的作者識別問題。除此之外,RANCH[21]利用圖注意網(wǎng)絡和卷積神經(jīng)網(wǎng)絡構建半監(jiān)督學習模型,采用邊緣約束截斷隨機游走產(chǎn)生節(jié)點序列,并融合節(jié)點標簽信息,在節(jié)點分類中效果顯著。MHGan[22]受生成對抗網(wǎng)絡和元路徑的啟發(fā),充分考慮節(jié)點和邊的異質性提高關系感知能力,實現(xiàn)對異質網(wǎng)絡表示學習,在鏈路預測和節(jié)點分類中性能表現(xiàn)較好。
社交網(wǎng)絡、文獻引文網(wǎng)絡等現(xiàn)實世界網(wǎng)絡中的節(jié)點并不完全相同,節(jié)點含有豐富的信息,節(jié)點的類標簽、屬性、語義描述等文本信息有助于網(wǎng)絡挖掘任務。主要依賴結構信息忽略節(jié)點特征信息的傳統(tǒng)網(wǎng)絡表示學習,網(wǎng)絡挖掘效果不佳。有效融合結構和文本信息提高節(jié)點表示的質量并增強機器學習輸入的效果是網(wǎng)絡表示學習的關鍵。網(wǎng)絡結構融合節(jié)點信息的表示方法主要有以下3種方式。
(1)結合文本信息的方法

關系矩陣M的內在結構近似等價于一個低秩矩陣,基于這一假設,M是可分解的,但這是NP困難的。TADW在前人工作的基礎上通過DeepWalk構建矩陣M=(A+A2)/2,將文本特征矩陣T融入到DeepWalk矩陣分解M=WT×HT,通過共軛梯度下降法優(yōu)化公式(17)所示的目標函數(shù)獲得W,H,拼接W和HT。
(17)

HOPE算法[27]也基于矩陣分解框架,這類算法的最大缺點就是存儲、計算成本高,伸縮性不好,不適合大規(guī)模網(wǎng)絡表示學習。
(2)半監(jiān)督學習
網(wǎng)絡節(jié)點分類任務需提取節(jié)點的分類信息,無監(jiān)督網(wǎng)絡表示學習在節(jié)點分類中往往效果不佳。利用節(jié)點類標簽信息的半監(jiān)督網(wǎng)絡表示學習有針對性地提升節(jié)點的區(qū)分性,在分類任務中效果較好。MMDW[28]是和TADW類似的半監(jiān)督網(wǎng)絡表示學習方法,該方法先學習基于DeepWalk的矩陣分解形式的網(wǎng)絡表示模型M=XTY,同時基于SVM學習一個X的最大間距分類器。MMDW通過目標函數(shù)(18)優(yōu)化分類器。
(18)

(19)
MMDW通過固定X,將Y轉化為對偶問題,W和ζ的優(yōu)化借助隨機梯度下降方法。固定W和ζ,計算分類器邊界,并設置傾向于正確類別的偏置向量,達到提高表示向量區(qū)分能力的目的。在SVM的影響下,MMDW既獲得了網(wǎng)絡結構信息,也獲得了類標簽信息,提高了節(jié)點的區(qū)分性。受最大間距分類器影響,DDRW[29]也采用了類似的方法,DeepWalk矩陣分解模型和最大間距分類器同時訓練,提高網(wǎng)絡節(jié)點的分類效果。
網(wǎng)絡中的節(jié)點往往只有部分含有類標簽信息,為了更好地利用節(jié)點信息和節(jié)點標簽信息,Pan等[30]提出了耦合深度神經(jīng)網(wǎng)絡的TriDNR模型,該模型耦合兩個神經(jīng)網(wǎng)絡融合節(jié)點的結構、文本和標簽信息獲得節(jié)點的向量表示。模型上層生成的節(jié)點序列S與DeepWalk的隨機游走相似;節(jié)點的文本信息詞向量{Wi}作為模型的底層;中間層基于文本信息利用深度神經(jīng)網(wǎng)絡融合S和{Wi}獲得節(jié)點的向量表示。另一個神經(jīng)網(wǎng)絡融合標簽向量{Ci}和詞向量{Wi}。最大化目標函數(shù)公式(20)耦合兩個神經(jīng)網(wǎng)絡。
(20)
其中,α是平衡結構信息、文本信息、標簽信息的權,b是隨機游走窗口大小,Wj是窗口內第j個詞。
網(wǎng)絡中節(jié)點的標簽信息可能不完整、包含噪聲,很難學習一個統(tǒng)一的表示形式將標簽信息融合到結構信息中。針對以上問題,Huang等[31]提出了LANE模型。該模型由兩部分組成,第一部分基于譜聚類將節(jié)點相似性映射為結構表示矩陣U(G)和節(jié)點屬性表示矩陣U(A),并將U(A)融合進U(G)稱為屬性網(wǎng)絡嵌入;第二部分基于同質性假設融合標簽信息光滑U(G)為矩陣U(Y),同時融合U(G)和U(Y)獲得節(jié)點的表示矩陣H稱為標簽嵌入。U(G)和U(A)的獲得方式相同,U(G)根據(jù)模型(21)獲得。
(21)

(22)
根據(jù)局部特征分解方程不斷更新4個變量矩陣,直到目標函數(shù)收斂,完成網(wǎng)絡到向量空間的映射。
(3)擴展網(wǎng)絡
隨著對網(wǎng)絡認識的不斷深入,網(wǎng)絡表示學習方法又出現(xiàn)了擴展網(wǎng)絡的方法。CENE[32]將網(wǎng)絡擴展為包含兩類節(jié)點和兩類邊的網(wǎng)絡Gavg(Vn,Vc,Enn,Enc),其中,Vn為原始網(wǎng)絡的節(jié)點,Vc為擴展節(jié)點信息的特殊節(jié)點,Enn為連接原始節(jié)點的邊,連接Vn與Vc的邊為Enc。分別使用邏輯回歸函數(shù)學習Vn和Vc的向量表示,使用負采樣的方法優(yōu)化目標函數(shù):
(23)
其中,SP是隨機游走序列,SN是負采樣節(jié)點。使用拼接函數(shù)公式(24)拼接兩類節(jié)點。
L=α×Lnn+(1-α)×Lnc
(24)
其中,Lnn為通過由Enn形成的序列Vn,Lnc為通過由Enc形成的序列Vc,參數(shù)α∈[0,1]平衡結構信息和文本信息之間的重要性,隨機梯度下降優(yōu)化拼接函數(shù)。
TENR[33]和CENE相似,將節(jié)點信息視為節(jié)點并根據(jù)節(jié)點信息的相似性構建文本網(wǎng)絡,融合原網(wǎng)絡擴展成異質網(wǎng)絡,如圖5所示,圓圈外是文本節(jié)點保留了文本相似性,內是原始節(jié)點保持了結構相似性。

圖5 文本異質網(wǎng)絡
受CBOW[34]啟發(fā),TENR基于負采樣構建拓撲結構模型學習原始節(jié)點的結構向量表示,同時構建文本模型學習受文本信息影響的節(jié)點向量表示,最終節(jié)點的向量表示共享兩個模型的學習。
真實世界中的很多網(wǎng)絡是動態(tài)的,隨時間的推移會出現(xiàn)節(jié)點和邊的添加或刪除,靜態(tài)網(wǎng)絡表示學習方法不能滿足動態(tài)網(wǎng)絡表示學習的需求。更新現(xiàn)有靜態(tài)網(wǎng)絡表示方法[35]以適應動態(tài)網(wǎng)絡挖掘任務是最簡單的方法,現(xiàn)有大多方法將動態(tài)網(wǎng)絡按時間片應用靜態(tài)網(wǎng)絡表示方法并增加動態(tài)變化識別機制。網(wǎng)絡分解方法[35]試圖通過對連續(xù)時間片上的網(wǎng)絡表示進行光滑來學習動態(tài)網(wǎng)絡表示[36]。動態(tài)屬性網(wǎng)絡表示框架DANE[37]首先提出離線表示方法,然后根據(jù)屬性演化網(wǎng)絡的變化更新表示結果。Know-Evolve[38]提出基于多元事件檢測的實體嵌入知識圖譜的演化網(wǎng)絡表示法。CTDN[39]是基于隨機游走的連續(xù)時間動態(tài)網(wǎng)絡表示方法,隨機游走非在線,網(wǎng)絡表示前需要知道所有隨機游走的信息。HTNE[40]嘗試建模動態(tài)網(wǎng)絡為自激勵系統(tǒng)并利用Hawkes過程模型對網(wǎng)絡中的鄰域形成進行建模,基于時間點過程優(yōu)化網(wǎng)絡表示。HTNE是在線動態(tài)網(wǎng)絡表示學習框架,優(yōu)化過程中使用歷史數(shù)據(jù),在每個步驟中都要針對歷史數(shù)據(jù)進行調整。基于社團嵌入的Netwalk[41],利用內存中的存儲數(shù)據(jù)更新隨機游走序列。Du等[42]提出動態(tài)skip-gram框架,Rudolph等[43]提出基于高斯隨機游走的動態(tài)詞嵌入算法,在時間序列上定義基于向量表示的隨機游走。
鏈路預測是最廣泛的動態(tài)網(wǎng)絡分析應用,而現(xiàn)有時間模式大多簡化網(wǎng)絡的動態(tài)變化,只根據(jù)上一時間步長網(wǎng)絡預測新鏈接,有的還假設網(wǎng)絡動態(tài)變化是光滑的,并使用規(guī)則化降低快速變化的影響。在每個時間片上dyngraph2vec[44]進行多重非線性學習結構信息,采用循環(huán)神經(jīng)網(wǎng)絡更新表示,循環(huán)層設置回顧參數(shù)控制周期變動長度。t'=t+1時刻的網(wǎng)絡表示以t時刻一系列節(jié)點表示為基礎,極小化公式(25)表示的損失函數(shù)。
(25)

靜態(tài)網(wǎng)絡表示學習的方法具有不穩(wěn)定性[45],又由于網(wǎng)絡結構的變動通常是局部的,隨機游走序列只有少部分受到影響,Heidari[45]提出基于隨機游走的增量網(wǎng)絡表示學習算法EvoNRL。增量地更新備用隨機游走集,并提出支持隨機游走集合的有效存儲和更新的索引機制用于網(wǎng)絡的動態(tài)表示。采用靜態(tài)隨機游走方法獲得t時刻Gt的每個節(jié)點的有效隨機游走集RWt并存儲為二維numpy矩陣。時刻t'=t+i(i=1,2,…),因節(jié)點的增刪或邊的增刪導致網(wǎng)絡結構發(fā)生變化,采用不同的方法單獨更新G't的RW't使在t'時刻仍有效,并將節(jié)點的增刪看作特殊的邊的增刪。增量更新隨機游走需要大量的存儲和計算開銷,為克服這一缺點,提出基于流行的開源索引和搜索技術的索引機制能夠有效地索引和檢索大量文檔,每個隨機游走看作由詞節(jié)點組成的文檔,將所有隨機游走建立反向隨機游走索引IRW表示節(jié)點到RWt的映射,RWt的增量更新依賴IRW。EvoNRL討論的是連通、無權、無向網(wǎng)絡,網(wǎng)絡結構中發(fā)生的任何變化按重要性進行量化,在最佳時間或真正需要時獲得新的網(wǎng)絡表示,消除隨機過程的影響,盡可能保存原始隨機游走序列,通過使用上一次運行的數(shù)據(jù)來初始化模型。
DCTNE[46]是基于隨機游走的動態(tài)連續(xù)時間網(wǎng)絡表示學習算法,根據(jù)歷史數(shù)據(jù)對當前節(jié)點的影響不同建立有偏隨機游走過程獲得節(jié)點時序鄰居節(jié)點序列,學習網(wǎng)絡表示,在節(jié)點分類任務上效果顯著。DynGraphGAN[47]構建對抗網(wǎng)絡,獲取節(jié)點、邊變動引起的網(wǎng)絡局部結構信息變化信息,嵌入結構特征和動態(tài)演化趨勢。基于隨機游走的動態(tài)網(wǎng)絡表示學習還有Sajjad等[48]提出的增量隨機游走算法和半監(jiān)督學習算法tNodeEmbed[49]。TensorGCN[50]、OCAN[51]和AddGraph[52]都是基于深度學習的動態(tài)網(wǎng)絡表示學習算法,目前也有學者提出利用霍克斯點過程的動態(tài)網(wǎng)絡表示學習方法[53],也取得了一定的成果。HIN_DRL[54]利用網(wǎng)絡異質信息學習動態(tài)網(wǎng)絡,基于元路徑和時間戳信息動態(tài)隨機游走生成節(jié)點序列。
網(wǎng)絡表示學習旨在將網(wǎng)絡節(jié)點映射到便于機器學習處理的低維向量空間,消除網(wǎng)絡的高維性和稀疏性。靜態(tài)網(wǎng)絡的表示方法主要分為矩陣分解法和隨機游走法,矩陣分解法存儲、計算成本高,伸縮性不好,只適用于小型網(wǎng)絡;利用網(wǎng)絡的局部信息構造節(jié)點序列的隨機游走方法,能擴展到大型網(wǎng)絡。網(wǎng)絡表示學習不僅要表征網(wǎng)絡結構信息還要結合節(jié)點文本信息以及節(jié)點之間的不同關聯(lián)關系,還要注意節(jié)點的差異性。現(xiàn)實世界中,大規(guī)模網(wǎng)絡往往隨時間的推移會出現(xiàn)節(jié)點及邊的變動,具有不確定性,靜態(tài)網(wǎng)絡表示學習方法很難適應網(wǎng)絡的動態(tài)變化。網(wǎng)絡的演變特征學習是現(xiàn)有大多動態(tài)網(wǎng)絡表示學習的核心,但對網(wǎng)絡的高度動態(tài)性建模不夠,適應性不高。網(wǎng)絡表示學習在未來還有巨大發(fā)展空間,尤其是具體應用場景下融合多模態(tài)信息動態(tài)大規(guī)模網(wǎng)絡表示學習。
(1)融合多模態(tài)信息的網(wǎng)絡表示學習。現(xiàn)階段只保存網(wǎng)絡自身的信息網(wǎng)絡表示學習,忽略了知識圖譜等外部知識信息,異質網(wǎng)絡因節(jié)點信息不同形成多樣化的鏈接關系,從而包含豐富的多模態(tài)信息,如何將這些信息融合進網(wǎng)絡表示學習是亟待解決的難點。
(2)融合節(jié)點信息的大規(guī)模動態(tài)網(wǎng)絡表示學習。現(xiàn)有動態(tài)網(wǎng)絡表示學習僅學習網(wǎng)絡的結構信息,試圖捕捉動態(tài)變化信息。融合節(jié)點信息快速獲取新增節(jié)點信息,并高效地表示節(jié)點,以增量或在線計算的方式表示網(wǎng)絡仍是一個難點。
(3)基于具體應用任務特點的網(wǎng)絡表示學習。目前網(wǎng)絡表示學習算法主要集中在通用的表示學習以適用所有網(wǎng)絡分析任務,很少分析具體應用任務特點。通用表示學習在異常檢測、社區(qū)發(fā)現(xiàn)等具體應用中效果往往不佳。如何將網(wǎng)絡表示學習技術根據(jù)不同應用場景設計更加合理的節(jié)點表示模型提高應用效果是值得關注的問題。