馬 怡,吳麗萍,蘇 磊
(昆明理工大學 信息工程與自動化學院,云南 昆明 650500)
隨著社交平臺在人們日常交往中的作用越來越重要,人們通過社交平臺與他人聯系,發布和獲取信息。社交平臺提供個性化的高質量推薦服務來增加用戶流量和擴大平臺的相應收益。鏈路預測在社會化網絡推薦中有重要應用價值。鏈路預測旨在利用網絡節點和結構信息,預測下一個時間節點中新鏈接產生的可能性或某一時間節點中鏈接丟失的情況。這種預測已經應用于各種圖形結構,例如蛋白質相互作用、社交網絡等。為了處理這種圖形結構,許多算法和機器學習模型被提出和應用。圖深度學習是一種針對圖結構數據的深度學習方法,它已經在鏈路預測領域取得了一些重要進展。圖深度學習模型通常使用基于神經網絡的方法來捕獲節點之間的關系,從而預測潛在的鏈接或連接概率。這種方法包括圖卷積神經網絡(Graph Convolution Neural Networks,GCN)[1]、循環神經網絡(Recurrent Neural Network,RNN)[2]、圖注意力網絡(Graph Attention Networks,GAT)[3]、Graphormer[4]等。這些模型能夠從多個角度捕捉節點間的相似性和差異性,從而提升鏈路預測的準確性。通常,圖深度學習鏈路預測方法將節點映射到低維向量空間,并在該空間中計算節點之間的相似性。這些節點表示可以通過隨機游走[5]、自編碼器[6]等多種方式獲得。其中,變分自編碼器模型具有善于挖掘各種高維數據相關特征、能夠生成具有多樣性和可控性的樣本等優點。本文提出一種融合了抗噪機制的圖變分自編碼器(Denoising Graph Variational Autoencoders,DGVAE)[6]的復雜網絡鏈路預測算法。本文的主要貢獻在于以下3 個方面:首先,構建了一種適合于復雜網絡鏈路預測的降噪圖變分自編碼器訓練網絡結構;其次,基于降噪圖變分自編碼器的數據恢復能力,提出了一種復雜網絡鏈路預測模型;最后,在大量不同類型的社交網絡上進行了實驗比較,結果表明,相較于其他經典的鏈路預測算法,本文提出的DGVAE 算法在預測準確性和魯棒性方面具有顯著優勢。
圖是刻畫復雜網絡的數學模型,可表示為G(V,E),是由多個頂點和頂點之間的連邊組成的集合。圖由節點集合V={v1,v2,…,vN1}和連邊集合E={e1,e2,…,eN2}組成,其中N1為網絡中的節點總數,N2為網絡中的連邊總數。任意一條邊對應一個節點的二元組ex=(vi,vj)。與網絡相關的幾個重要的拓撲結構特征描述如下:
(1)度[7]:復雜網絡模型中,一個節點的度是指與該節點相連的邊的數量。節點的度定義為:
式中:Γi為i的直接鄰居構成的集合。
(2)網絡密度[8]:網絡密度刻畫一個網絡中現有連邊數目和潛在最大連邊數目之間的差異。其數學定義為:
(3)同配系數[9]:同配系數的取值范圍在-1到1 之間,其中同配系數為正表示網絡中度數相似的節點更容易相連,為負則表示度數差別較大的節點更容易相連,而同配系數為0 則表示網絡中度數相互獨立。計算公式為:
(1)曲線下面積(Area Under Curve,AUC)[10-11]:屬于分類準確性指標,量化的是算法能在多大程度上將相關的邊和不相關的邊區分開。
式中:n為獨立比較的次數;n'為試驗聚集邊的相似度高于不出現邊的相似性值;n"為試驗聚集邊的相似度低于不出現邊的相似性值。
F1-Score[10-11]:是一種用于衡量分類模型性能的指標,它的取值范圍從0 到1,其中1 表示建模的正確性,0 表示建模的可靠性。其計算方法為:
式中:Precision為連邊正確的比例;Recall為連邊正確占測試集的比例。F1-Score的優點是它同時考慮了Precision和Recall,因此可以對分類器的性能進行全面評估。
(3)平均絕對誤差(Mean absolute error,MAE)[10-11]:是一種評價回歸模型準確度的重要指標,也是通過計算預測值與真實值之間的絕對誤差來評價建模的準確度的一種方法。MAE 的計算公式為:
MAE的值越小越好,說明模型的擬合效果較好。
圖變分自編碼器(Graph Variational Auto-Encoders,GVAE)的基本思路如下:先對圖進行編碼學習到其節點向量表示的高斯分布,然后從高斯分布中恢復節點的向量表示,重構圖結構。模型的輸入是不完整的觀測圖(圖中的部分邊被移除),所有的節點特征保留。測試集和驗證集由移除的邊和等量隨機抽樣的負樣本構建。變分自編碼器分為編碼器和解碼器,也就是推斷模型和生成模型。推斷模型將真實樣本編碼為低維向量表示(隱變量),學習隱變量的分布;生成模型從隱變量的分布中采樣得到對應真實樣本的隱變量,生成盡可能接近真實樣本的數據。在這個過程中,利用了重參數技巧代替采樣過程,保證了模型可訓練。GVAE 是一種基于變分自編碼器(Variational Auto-Encoders,VAE)的圖神經網絡模型,主要用于無監督的圖節點表征學習和鏈路預測任務。
圖變分自編碼器示意圖如圖1 所示,其由推斷模型和生成模型組成。

圖1 圖變分自編碼器
其中,推斷模型由兩層GCN 構成:
式中:Wi為權重矩陣;為對稱標準化鄰接矩陣。推斷模型需要學習節點向量的分布,通過學習均值和方差來表示。隱變量的后驗概率分布為:
其中:
式中:μ=GCNμ(X,A)為節點向量表示的均值μi的矩陣;logσ=GCNσ(X,A)是節點σ(·)向量表示的方差σi的矩陣表示;GCNμ(X,A)和GCNσ(X,A)共享第1 層的參數W0。
生成模型通過計算兩個隱變量的內積來重構圖結構:
相較于其他圖神經網絡模型,GVAE 在鏈路預測任務中具有以下優點:無須標簽信息,可擴展性強,能夠自動提取特征,有效性和可解釋性強。
抗噪圖變分自編碼器首先對輸入數據進行加噪處理,這里的噪聲可以是任何類型的噪聲,例如高斯噪聲或者椒鹽噪聲。然后,擾亂后的樣本被作為GVAE 的輸入,GVAE 通過學習數據的潛在分布來重構沒有加入噪聲之前的樣本。噪聲對抗機制是通過訓練一個額外的分類器來實現的,該分類器的任務是區分加噪后的樣本和沒有加噪的樣本。這個分類器的目標是讓加噪的樣本更難以被正確分類,從而鼓勵編碼器學習到更魯棒的特征表示。下面,針對DGVAE 的有效性進行分析。對于所有樣本,希望最大化其對數似然,即
為了優化該目標,可以最大化下式:
式中:L為變分下界,最大化logp(x)可以通過最大化變分下界實現,這里為了區分,L定義為Lvae。在此基礎上,對輸入x加入噪聲,令被噪聲破壞后的輸入為x',假設噪聲的分布qψ(x'|x)是一個已知的分布(可以省去參數ψ,即變為無參分布),這里直接取為無參分布q(x'|x),原始GVAE 模型中的編碼器qΦ(x'|x)變為:
代入GVAE 的變分下界,可得:
假設一個近似后驗分布有如下形式:
這里,Φ={φ,ψ},對于給定的pθ(x,z)=pθ(x|z)p(z),有如下不等式:
進一步地,得到了DGVAE 的變分下界:
暫且不考慮如何優化該目標,明確一些細節:
(1)式(18)無法進一步變換為類似標準GVAE 的重構誤差與KL 散度[12]的形式,因為期望下的分布q'Φ(z|x)與分母q'Φ(z|x')已經不是同一分布。
(2)根據不等式,得到了Ldvae≥Lcvae,但這和Lvae并沒有必然的聯系,只能說Ldvae很可能是一個比Lvae更緊的下界,但也存在反例。這主要取決于噪聲的分布q(x'|x),如果其噪聲強度過大,使擾亂后的樣本失去了重要信息,那么勢必會導致Lcvae≥Lvae。所以一個結論是,DGVAE 是一個對噪聲分布敏感的模型。
(3)還需要明確,最大化Ldvae的過程中,實際是在做什么,按照標準的GVAE 框架來看,目標其實是最小化近似后驗和真實后驗的距離,將此帶入DGVAE,即
如果將Lcvae換成Ldvae,這個等式會變成:
如果選擇直接優化Lcvae也是可以的,并且只需要基于標準GVAE 框架,在數據讀入后、訓練前加入噪聲,其他不變即可。關于為什么DGVAE 比GVAE效果更好,先結合高斯混合模型[13](Gaussian Mixture Model,GMM)去描述,再通過實驗證明。這里先介紹如何計算之前得到的優化目標。優化目標如下:
采用蒙特卡洛采樣[14](Monte Carlo sampling)來近似變分下界:
式中:x'm~q(x'|x),z(k|m)~qΦ(z|x'm)。這時,基于梯度優化該式。
DGVAE 能夠對略加破壞的樣本進行重構并恢復其為破壞的狀態,其魯棒性比GVAE 好,因為其編碼部分一定學到了如何排除噪聲并提取重要特征的能力,但GVAE 由于沒有人為加入噪聲的干擾,所以不清楚其是否連帶著噪聲一并編碼到其中。接下來,從公式上分析原因。首先看到qφ(z|x')也是近似標準高斯分布的,之后會結合高斯混合來最終解釋。對Ldvae進行變形如下:
可知,在訓練過程中,有約束使得q'Φ(z|x)的表達式為:
因為q(x'|x)是一個已知的概率分布,而qφ(z|x')是一個近似標準高斯分布的分布,所以在整體上,可以近似認為qφ(z|x)是一個高斯混合模型。與GVAE 相比,DGVAE 以高斯混合模型對后驗概率p(z|x)建模,顯然,如果q(x'|x)選擇得合適,GVAE可以處理的DGVAE 也可以處理,并且GVAE 不能處理的DGVAE 仍可以處理。
建模的目的是去除輸入向量中帶有噪聲的節點,因此目標是盡可能使輸出向量接近未受噪聲干擾的原始數據。如圖2 所示,它由如下3 個部分構成:首先,為了進行鏈路預測,需要建立一個適合的降噪自編碼器來進行訓練和預測;其次,需要確定網絡結構,然后使用誤差反向傳播算法對網絡結構的參數進行調整;最后,使用訓練好的網絡結構來進行鏈路預測。這個過程需要注意網絡結構的合理性和參數的準確性,以保證預測結果的可靠性和精度。

圖2 DGVAE 鏈路預測模型架構
選擇來自不同現實社交網絡中的6 個作為實驗網絡,如表1 所示。這些實驗網絡具有不同的拓撲結構特征。通過對這些社交網絡進行實驗來評估模型性能。最后,詳細列出了各個實驗數據集的相關信息,包括網絡名稱、節點數量、邊數量、網絡密度、同配系數等。

表1 實驗數據集
首先,使用最終的打分矩陣作為計算模型性能的基礎。這種方法可以確保評估的結果是最終模型的真實表現,而不是在評估過程中的任意時刻產生的一時結果。其次,為了避免劃分數據集時可能出現的偶然誤差,對每個數據集進行了100 次獨立的實驗。這種方法可以減少偶然誤差對評估結果的影響,提高評估的準確性。最后,對AUC,F1-Score和MAE值分別取平均值。這種方法可以更全面地評估模型的性能,從而提供更為準確和可靠的數據支持。算法流程圖如圖3 所示。

圖3 結合抗噪機制的圖變分自編碼器鏈路預測流程
在噪聲對抗機制下,使用圖變分自編碼器進行節點嵌入(node embedding)。為防止過平滑問題[15-16],該算法的編碼器層和解碼器層都設置為2 層,學習率設置為5e-4,每一層激活函數均設置為sigmiod。數據經過算法訓練一次記為一個周期(epoch),本算法中設定epoch=50。每個epoch周期訓練中使用的batch大小設定為 1,即每次訓練中輸入一個反映任一選定節點與其他節點連接狀態的向量。
(1)深度生成概率圖神經網絡(Deep generative Probabilistic Graph Neural networks,DPGN)[17]:一種新的圖神經網絡模型,利用生成模型生成節點和邊的參數,并將其應用于關系學習和鏈路預測任務中。
(2)圖矩陣分解(Graph Matrix Decomposition,GMD)[18]:將網絡表示為矩陣的形式,利用矩陣分解等技術來提取網絡中的模式和結構信息,從而進行鏈路預測。
(3)GGCN[19]:該方法首先使用GCN 來學習節點表示,然后通過引入門控機制(Gating Mechanism)來控制鄰居節點的信息流動,從而更好地捕捉節點之間的依賴關系。
(4)SH-GCN[20]:一種半監督的層次化圖卷積網絡方法來解決鏈接預測問題。該方法通過使用層次化表示和鏈接預測損失來提高預測的準確性,同時允許在使用少量標記數據的情況下進行訓練。
(5)GVAE:通過將輸入的數據編碼為潛在向量,并通過解碼器將潛在向量轉換回原始數據,從而生成新的數據。在鏈路預測中,可以使用GVAE來學習節點之間的相似性,并據此進行預測。
本實驗選取的基線均為近年來圖表示學習與圖對比學習領域內較為前沿的技術。相較于傳統的自監督方法,這些技術不僅在性能表現上更加優異,而且在實際應用中也具有更廣泛的適用性和可擴展性。這些技術能夠適應不同的場景和數據集,并且可以通過集成不同的特征和模型來進一步提高性能。本次實驗均取100 次預測結果,最后取平均值。這些基線技術是鏈路預測領域的重要研究方向,值得進一步深入探索和應用。
如表2、表3、表4 所示,是本文提出的鏈路預測模型DGVAE 在6 個具有節點屬性的社交網絡中與其他5 個基線模型的性能對比。其中,加粗數值表示模型的最優預測性能評估值。其中,每個分數值均為模型預測100 次取平均得到。訓練過程中,訓練集與測試集按照80%∶20%的比例劃分。

表2 與其他對比模型的AUC 性能表現

表3 與其他對比模型F1-Score 性能表現

表4 與其他對比模型的MAE 性能表現
與其他鏈路預測方法相比,DGVAE 的AUC、F1-Score 分數平均提高了約3.5%和2.1%。在實驗網絡BlogCatalog 中,本文提出的鏈路預測模型DGVAE 的AUC 值達到了92.1%,表現非常出色。值得一提的是,在Reddit 實驗網絡上,本文提出的DGVAE 模型的MAE 值接近0.8,明顯低于其他對比算法的MAE 值。其中,與無抗噪機制下的圖變分自編碼器模型對比發現,結合抗噪機制的圖變分自編碼器模型在鏈路預測任務上,AUC 準確率在6個實驗網絡上,分別提升了1.6%,2.8%,2.6%,3.3%,2.4%,2.1%。因此,有理由相信,在加入抗噪機制下的圖變分自編碼器模型下,在鏈路預測任務上可以取得更好的效果。
本文提出的鏈路預測模型DGVAE 的預測性能優于其他主流無監督鏈路預測方法。因此,這一模型有望成為社交網絡中鏈路預測強有力的工具。
本文旨在針對不同的訓練集占比進行魯棒性分析,評估DGVAE 模型的魯棒性。結果顯示,在抗噪機制下,DGVAE 模型在各個數據集上的準確率和AUC 值表現很好,但是AUC 值的表現不夠穩定,特別是在較大的網絡數據集中。這主要是因為隨著網絡規模的增大,網絡結構間的隱含特征增多,導致較小的神經網絡結構無法充分表達鏈路預測中正樣本(即兩個節點間存在鏈路)和負樣本(即兩個節點間不存在鏈路)之間的差異,從而導致預測準確性存在波動。因此,為了提高DGMAE 模型的魯棒性,未來的研究可以探究如何優化模型結構,以充分表達正負樣本之間的差異,并進一步提高預測性能的穩定性。圖4 顯示了訓練集劃分比例為30%,50%,70%和90%的各個網絡中所有被測試算法的對比分析結果。

圖4 各個網絡中所有被測試模型魯棒性的對比分析結果
DGVAE 模型是一種鏈路預測模型,其預測性能優于其他經典的鏈路預測模型,但需要注意AUC值的波動性。此外,隨著網絡規模增大,需要進一步探究如何優化模型以提高其魯棒性和預測性能。本文提出的結合抗噪機制的圖變分自編碼器在預測準確性和魯棒性分析方面都表現出了明顯的優勢,這突顯了該模型在與其他經典的鏈路預測模型相比時具有強大的競爭力。因此,未來可以繼續探究如何優化DGVAE 模型,并進一步提高鏈路預測模型的性能,以滿足日益增長的網絡規模和復雜性的挑戰。
由于無監督學習模型能夠有效挖掘和分析各種高維數據的潛在特征,本文提出了一種新的鏈路預測算法,該算法融合了抗噪機制的圖變分自編碼器。該算法首先通過訓練神經網絡結構,使其能夠對數據進行降噪,然后將完整的訓練集輸入到已訓練好的網絡結構中,以實現鏈路預測功能。本文通過對比實驗測試了不同類型的網絡,結果表明,該算法在預測準確性和魯棒性方面均具有優勢,同時也為未來鏈路預測研究提供了新思路。盡管本文的研究存在一些局限性,例如當網絡規模較大時,神經網絡結構間的隱含特征會增多,從而可能導致預測準確性波動,但是未來的工作將會更深入地研究復雜網絡規模和神經網絡結構之間的相互影響關系,以進一步提高算法的預測能力。