基于結構學習和自監督圖注意力的網絡表示學習

2025-01-24 00:00:00王靜紅鄭瑞策米據生李昊康

山西大學學報(自然科學版) 2025年1期

摘要：網絡表示學習是網絡分析任務的基礎，對于挖掘和分析真實網絡數據具有重大意義。最近，圖注意力網絡（Graph Attention Networks， GAT）及其后續變體，在網絡表示學習中表現出了卓越的性能。但是基于注意力的方法存在以下局限性：（1）只考慮節點的一階鄰居信息，忽略了高階鄰居節點。（2）模型缺乏可解釋性。（3）沒有考慮到圖中噪聲邊問題。為解決這些問題，本文提出了一種基于結構學習和自監督圖注意力的網絡嵌入模型（StructuralLearning-based Self-supervised Graph Attention Network，SL-SGAT），融合節點特征與結構信息，降低噪聲邊干擾，提升模型可解釋性。SL-SGAT主要包含三部分：圖結構學習、自監督注意力機制和特征聚合。圖結構學習構建全局圖結構網絡。自監督注意力機制設置一個自監督關系預測任務，加入噪聲邊損失。特征聚合利用注意力系數進行加權聚合，得到最終的節點嵌入表示。本文所提模型在Cora、Citeseer 和Pubmed 三個數據集上進行節點分類實驗，準確率分別為84.4%、74.4%、81.5%，與表現優異的GAT及后續變體模型相比，分別提高1.4%、2.9%、3.2%；在節點聚類實驗中，聚類精度分別提高3.3%、3.4%、1.2%。可見，我們提出的算法可以得到更好的嵌入結果。

關鍵詞：網絡表示學習；圖注意力網絡；自監督學習；圖結構學習；節點分類

中圖分類號：TP391 文獻標志碼：A 文章編號：0253-2395（2025）01-0029-14

0 引言

網絡表示學習［1］（Network RepresentationLearning），也稱為節點嵌入（Node Embedding）或圖嵌入（Graph Embedding），旨在將圖中的節點從高維映射到低維向量空間，以便進行各種下游任務［2］。生成的節點向量可用于節點分類［3］、節點聚類［4］、節點推薦［5］、鏈接預測［6］等任務。網絡表示學習能夠將復雜網絡結構轉換為低維向量表示，它在降低算法設計難度，幫助人們更好理解和分析網絡數據方面，具有重要意義。

為了更好地進行網絡表示學習，研究人員開發了許多基于圖神經網絡方法，主要分為兩類：（1）基于圖卷積神經網絡的方法。（2）基于注意力神經網絡的方法。基于圖卷積神經網絡的方法通過一階頻譜低通濾波器聚合鄰域特征。主要方法有圖采樣與聚合（Graph Sampleand Aggregation，GraphSAGE）［7］、圖卷積網絡（Graph Convolutional Networks，GCN）［8］、深度圖信息最大化（Deep Graph Infomax，DGI）［9］、相似度保留的圖卷積網絡（Similarity PreservingGraph Convolutional Networks，SimP-GCN）［10］，這些方法在一些數據集上表現出色。但是這些方法是將鄰居的信息平均聚合，未區分不同鄰居的重要性。基于注意力神經網絡的方法，考慮了不同節點鄰居節點之間的重要性，通過計算注意力權重，聚合最相關鄰居節點信息。主要有圖注意力網絡（Graph Attention Netuorks，GAT）［11］、圖聯合注意力網絡（Graph ConjointAttention Networks，CATs）［12］、稀疏圖注意力網絡（Sparse Graph Attention Networks，SGATs）［13］。GAT 模型通過注意力系數聚合鄰居節點信息。但是GAT 在聚合鄰居節點信息時只利用了一階鄰居信息，并沒有充分利用圖的結構信息，另一方面人們對GAT 學習到的信息并不了解，缺乏可解釋性，對圖中存在的噪聲問題也沒有考慮。CATs 模型提出聯合注意力機制，結合神經網絡內部和外部的異構可學習因素來計算注意力系數，學習到高階鄰居節點信息，但易受外部噪聲影響。SGATs 方法通過注意力系數來剪枝噪聲邊，提高圖學習任務的準確性，但其并未考慮高階鄰居節點信息。受文獻［11-13］研究的啟發，同時結合節點屬性特征和結構特征，進行圖結構學習，得到全局圖結構網絡，使得中心節點可聚合高階鄰居節點信息。通過定義一個自監督關系預測任務，區分邊是否存在，降低噪聲邊干擾，知道節點聚合哪些鄰居節點信息，增加模型可解釋性。

因此，本文提出了基于結構學習和自監督圖注意力的網絡嵌入模型（Structural LearningbasedSelf-supervised Graph Attention Network，SL-SGAT）。該模型主要由圖結構學習、自監督注意力機制和特征聚合三部分構成。首先，SL-SGAT 計算節點特征相似度和結構鄰居度，生成全局圖結構矩陣，用于節點連接和它們高階相似的節點。通過閾值對生成的全局圖結構矩陣進行調優，基于修改后的矩陣，生成一個新的圖。然后，設計自監督關系預測輔助任務，對圖中的邊進行編碼，在區分正確和錯誤連接鄰居時，降低噪聲邊干擾，學習到更好的節點特征表示。本文的主要貢獻有以下幾點：

1）提出了一個新的SL-SGAT 模型，包括三部分：圖結構學習、自監督注意力機制和特征聚合，考慮高階鄰居節點信息，降低噪聲邊對模型的干擾，同時增加了模型的可解釋性。

2）設計圖結構學習方法，為中心節點增加高階鄰居節點，從而聚合到更加豐富的信息。自注意力機制模塊中定義關系預測任務，降低噪聲邊干擾，增加模型的可解釋性。

3）在真實世界的三個數據集上進行實驗，實驗結果表明SL-SGAT 模型的優越性與合理性。

第1 節介紹了與節點嵌入相關的工作。第2 節詳細闡述了本文中涉及的關鍵變量、相關定義以及所使用的符號定義。第3 節介紹了模型的整體架構及其實現的原理。第4 節對實驗結果進行全面分析，除了對SL-SGAT 模型結果進行分析外，還分析了超參數對模型性能的影響，設置了消融實驗，驗證模型的有效性。

1 相關工作

1.1 非圖神經網絡方法

在早期，許多研究人員提出了基于拉普拉斯特征圖和基于圖相似度矩陣分解的方法。最早的研究多維尺度分析（Multidimensional Scal?ing，MDS）［14］直接考慮兩個節點之間的歐式距離，認為任何一對訓練節點都是連接的。后續研究（例如等度量映射（Isometric Mapping，Iso?map）［15］、圖的拉普拉斯算子的特征值（Eigen?values of the Laplacian of a Graph，LE）［16］、局部保留投影（Locality Preserving Projections，LPP）［17］等）提出的模型與之不同，根據數據特征構建k近鄰圖K 鄰近算法（K-Nearest Neighbor，KNN），每個節點只與前k 個相似鄰居相連，再根據不同的方法計算相似性矩陣，以盡可能保留所需要的圖屬性。這些早期的非神經網絡嵌入方法，雖然簡單高效，但是性能有限。為提高性能，把節點嵌入到潛在的歐幾里得空間中，然后根據節點嵌入來訓練模型。比較有代表性的算法有DeepWalk［18］、node2vce［19］、大規模信息網絡嵌入（Large-scale Information Net?work Embedding，LINE）［20］等。這些算法僅考慮圖的結構特征，忽視了節點屬性信息，無法達到先進模型的性能［21］。

1.2 圖神經網絡方法

圖神經網絡可以捕獲高度非線性信息，通過消息傳遞機制聚集節點鄰居特征信息，從而實現節點嵌入。目前圖神經網絡主要分為兩大類：（1）基于圖卷積神經網絡方法。（2）基于注意力神經網絡方法。

基于圖卷積神經網絡方法中具有代表性的是GCN［8］模型，GCN 將圖中節點特征和鄰居節點特征進行聚合，從而得到新的節點表示。之后，出現了許多關于GCN 的變體，例如具有復雜有理譜濾波器的圖卷積神經網絡（GraphConvolutional Neural Networks with Complex Ra?tional Spectral Filters，CayleyNet）［22］、自適應圖大小的圖卷積網絡（Adaptive Graph Convolution?al Network，AGCN）［23］、雙圖卷積網絡（DualGraph Convolutional Networks，DualGCN）［24］等。但是所有基于頻域的圖卷積神經網絡無法直接泛化到訓練過程中未出現的節點，屬于直推式學習。為解決這個問題，研究人員提出了大量基于空間的圖卷積方法。GraphSAGE［7］模型通過對固定鄰域局部鄰居進行隨機采樣，將采樣得到的節點進行特征聚合。SimP-GCN［10］通過聚集和轉換鄰域內的節點特征來提取有效的節點表示。DGI［9］模型通過最大化局部互信息驅動局部網絡嵌入來捕獲全局結構信息。

以上圖卷積方法在聚合信息時都是同等看待每一個鄰居節點，無法對不同節點賦予不同的重要性。為了區分不同鄰居節點對目標節點的貢獻，基于注意力神經網絡的方法GAT［11］首先提出將注意力機制與圖神經網絡結合，在圖神經網絡中使用自注意力機制，根據注意力系數去聚合鄰居節點信息，然后將信息傳播到下一層。但是GAT 只計算目標節點與其周圍鄰居節點之間的注意力，因此難以聚合到高階鄰居節點信息，并且人們對GAT 學習到的信息不了解。針對這些問題，最短路徑圖注意力網絡（Shortest Path Graph Attention Network，SPA?GAN）［25］根據最短路徑計算中心節點與其高階鄰居之間的注意力分數。但是沒有考慮到節點特征信息相似度。CATs［12］算法提出聯合注意力機制，結合神經網絡內部和外部的異構可學習因素來計算注意力系數，但是模型易受外部噪聲影響。結構學習圖注意力網絡（StructureLearning Graph Attention Networks，SLGAT）［26］計算結構鄰近度，為節點增加高階鄰居節點，從而聚合到高階鄰居特征，但沒有考慮節點屬性特征，沒有考慮圖噪聲問題。自監督圖注意力網絡（Self-supervised Graph Attention Net?work，Super-GAT）［27］通過降低噪聲邊對實驗的干擾，從而提升網絡表示性能。SGATs［13］方法通過學習系數的注意力系數來剪枝噪聲邊，提高圖學習任務的準確性。但以上兩種算法都沒有考慮高階鄰居節點信息。

為此，我們提出了SL-SGAT 模型，考慮節點特征信息和結構信息，增加高階鄰居節點，通過設置關系預測任務，降低噪聲邊干擾，又增加了模型的可解釋性。

2 相關概念

本節介紹論文中涉及的變量以及相關定義，該方法中涉及的主要符號表示如表1 所示。

定義1［28］圖G = （V，E ），其中V = { v1，v2，…，vn } 是圖的節點集合，節點數目為n；E ={ eij } 是圖中節點之間的鄰接邊集合；A ∈ { 0，1 }n × n 表示圖的鄰接矩陣；節點特征的矩陣表現形式H 0 = Rn × d 是節點屬性集合，其中n為節點數量，d 為節點特征向量的維度。

定義2 網絡表示學習［1］。給定圖G =（V，E ），網絡表示學習的目的是學習一個映射函數f：vi → hi ∈ Rd 其中，vi ∈ V，d 是節點最終的向量表示維度。

定義3 節點分類［29］。Y ∈ { 0，1 }n × C 表示節點的標簽，C 是節點類別數量。對于一個半監督節點分類任務，有m（ 0 lt; m lt;lt; n ）個擁有標簽的節點，有n - m 個沒有標簽的節點。基于擁有節點特征矩陣H 0 和節點標簽Y 的圖G =（V，E ）來說，半監督節點分類問題通過一個分類器f：（ G，X，Y ） → Y ′去預測沒有標簽節點的標簽。

定義4 正點對互信息（Positive Point?wise Mutual Information，PPMI）矩陣［24］。PPMI 矩陣是一種用來表示詞之間相關性的矩陣，它是基于點互信息（Pointwise Mutual Infor?mation，PMI）的改進。PMI 是一個衡量兩個事物相關性的指標，它的計算公式是：

IPMI （ x，y ）= logP （ x，y ）／P （ x ） P （ y ），（1）

其中P （ x ）和P （ y ）分別代表詞x 與詞y 出現的概率，P （ x，y ）表示詞x 和詞y 同時出現的概率。PMI 值越大，說明兩個詞相關性越強。

PMI 矩陣可能存在負值，PPMI 將PMI 的負值轉換為0，避免PMI 負值的出現，也保留了正數的PMI 值。

IPPMI （ x，y ）= max （ IPMI （ x，y ），0 ）。（2）

3 模型

基于結構學習和自監督圖注意力的網絡嵌入模型（SL-SGAT），挖掘節點屬性特征和全局結構特征中的內在聯系，得到更具有表現力的節點特征表示。SL-SGAT 的整體架構如圖1所示。首先，根據節點特征相似度和全局結構近似度，構建一個包含節點特征和全局結構信息的圖。通過自監督注意力機制，設計一個關系預測輔助任務，區分邊的連接是否正確，同時計算注意力系數。最后將注意力系數與節點特征進行加權聚合，使用多頭注意力機制，對每一個注意力頭進行特征拼接或均值操作，得到最終的節點嵌入表示。

3.1 圖結構學習

目前大多數網絡表示學習方法通常只依賴于節點特征，忽略了全局結構相似性。為解決這一問題，我們提出了圖結構學習模塊。首先，我們需要計算節點之間的特征相似度。現在節點特征相似度度量方法有很多，例如余弦相似度、歐氏距離、注意力機制。根據節點之間的相似度，可學習到豐富的圖拓撲結構。節點i 和節點j 之間的相似度可以表示為：

κij = Similar（ Hi，Hj ），（3）

其中κij 是節點i 和節點j 之間的相似度，Hi 和Hj 分別代表節點i 和節點j 的向量表示。Simi?lar 是一個相似度度量學習方法，比如余弦相似度和注意力機制相似度：

余弦相似度可以表示為：

κij = cos （ Hi，Hj ），（4）

注意力機制相似度可以表示為：

根據相似度計算方法來計算得到相似度矩陣，矩陣中每一個位置都對應著兩兩節點的相似度，并根據閾值參數k 習稀疏圖結構，具體表示為：

相似度矩陣κ 可以轉化為鄰接矩陣，它在每一層都可能是動態的，并對下游任務有自適應能力。但是它僅包含了節點特征相似信息，并沒有包含全局的拓撲信息。接下來采用PPMI［24］矩陣表示全局結構鄰近性，通過全局信息來修改相似度矩陣。

PPMI 矩陣是用來表示詞之間相關性的矩陣，在自然語言處理中得到了廣泛的應用［30］。本文將使用PPMI 矩陣來表示圖的全局結構鄰近性。首先，以每個節點為根節點進行γ 次隨機游走，每次隨機游走的長度為q。統計出兩個節點在相同隨機游走路徑中出現的次數，記為頻率矩陣M。根據頻率矩陣M 我們可以計算出PPMI 矩陣I，具體計算公式如下：

其中Iij 是節點i 和節點j 出現在同一隨機游走路徑上的估計概率，表現出全局結構中兩個節點的鄰近性，* 表示i 或j 在同一條隨機游走路徑中的其它節點，PPMI 矩陣I 反映出全局結構中兩兩節點之間的鄰近性。對矩陣I 進行歸一化操作，并通過閾值參數k 學習稀疏圖結構，具體表現為：

整合學習相似度矩陣κ 和PPMI 矩陣I，得到全局圖結構β′。β′ 反映出節點特征的相似性和全局圖結構鄰近性。全局圖結構β′ 表示為：

β′ = κ + I。（9）

當處理數據具有圖結構時，還需要考慮鄰接矩陣。首先對原始鄰接矩陣A 進行歸一化處理，得到歸一化鄰接矩陣A′。將歸一化鄰接矩陣A′ 與學習到的全局圖結構β′ 結合得到最終的圖結構ρ：

ρ = β′ + A′。（10）

對圖結構學習內容進行梳理，κij 代表兩個節點之間的特征相似度，Iij 代表兩個節點之間的全局結構鄰近度。我們通過閾值k 來學習稀疏圖結構。在原始圖G 上，節點i 和節點j 之間不存在邊，且κij gt; k 或Iij gt; k 時，在節點i 和節點j 之間產生一條新邊。將權重矩陣轉化為鄰接矩陣，在新圖中使用圖神經網絡方法。基于學習到的最終圖結構ρ，圖神經網絡可以在每一層聚合到高階鄰居特征，擴大感受野。

3.2 自監督注意力機制模塊

通常圖中存在大量的噪聲邊，經過圖結構學習之后，這些噪聲邊的數量可能會增加。現有方法主要是聚合高階鄰居節點信息，從而提高網絡嵌入效果。但是無法明確每個節點聚合了哪些鄰居節點，缺乏可解釋性，且未考慮到噪聲的存在。為解決這些問題，我們提出了自監督注意力機制模塊，設置一個關系預測任務，計算節點間是否真實存在邊，旨在降低噪聲邊干擾并提高模型的可解釋性。接下來，我們先介紹三種常見的注意力機制，然后介紹我們的自監督注意力機制。

3.2.1 注意力機制

原始注意力機制圖G = （V，E ），N 是節點數量，Fl 是第l 層的節點特征數量，注意力層的輸入為：H l，注意力層的輸出為：H l + 1。hil + 1 的計算方法為：使用W l + 1 與hjl 相乘，其中W l + 1 ∈ RFl + 1 × Fl。通過注意力系數αl + 1ij ，線性地組合一階鄰域（j ∈ Ni）特征。最后應用一個非線性激活函數σ。

首先，計算節點間的注意力系數，學習鄰居節點的重要性。

eijl + 1 = attention （ yil，yjl ）=aˉT [W l + 1 hil⊕W l + 1 hjl ]，（11）

其中attention 為注意力層，⊕ 表示向量拼接，注意力機制α 是一個前饋神經網絡，αˉ ∈ R2Fl + 1。W l + 1 和αˉl + 1 都是要學習的參數。el + 1ij 表示節點vj 對節點vi 的重要性。為了使注意力系數在不同節點間更容易比較，使用Softmax 函數對其進行歸一化操作。

計算歸一化注意力系數后，節點根據注意力系數進行特征聚合，并應用非線性激活函數σ，將其結果作為最終節點特征。

為穩定注意力的學習過程，我們采用多頭注意力機制。具體來說，通過k 個獨立的注意力機制執行以上變換，并將其串聯，得到最終的輸出。

其中||表示連接法或平均法，在最后預測層執行多頭注意力，采用平均法效果更好。應用的非線性函數，通常是Softmax 函數或者Logistic sig?moid 函數。

點積注意力機制與原始注意力機制使用一個單層前饋神經網絡αˉ ∈ R2Fl + 1 相比，點積注意力機制，采用點積計算方式代替單層前饋神經網絡。以下是原始注意系數和點積注意力系數的表示：

混合注意力機制將原始注意力系數與經過sigmoid 函數的點積注意力系數相乘。使用sigmoid 函數的點積注意力系數表示邊存在的概率，所以混合注意力系數可以軟性的放棄不可能有聯系的鄰居，同時隱式地賦予其余節點更加重要的系數。其計算表達式如下：

eij，Mixed = eij，Original ? σ （ eij，Dot ）。（16）

3.2.2 自監督注意力機制

SL-SGAT 模型設置一個自監督關系預測任務，通過預測節點對之間是否存在邊，來引導注意力機制，從而降低噪聲邊對模型性能的干擾，提高模型的可解釋性。使用注意力機制預測節點之間的關系，對于一個節點對（ i，j ），如果存在邊，值為1，如果不存在邊，值為0。引入一個變量ψij，記為節點i 和節點j 之間存在邊的概率，ψij 的表示為：

ψij = σ （ eij ），（17）

其中eij 為以上三種注意力系數中的一種。本模型采用混合注意力機制，通過混合注意力系數eij，Mixed 以及節點i 和節點j 之間存在邊的概率ψij，Mixed 來描述SL-SGAT 模型。

ψij.Mixed = σ （ eij，Dot ），（18）

eij，Mixed = eij，Original ? ψij，Mixed = eij，Original ? σ （ eij，Dot ）。（19）

訓練樣本是一組邊E+ 和負采樣邊E-，記為E+ ∪ E-。從邊集合中任意選擇Se ? |E| 個邊作為正樣本E+。本模型使用負采樣，從正邊集E+ 中任意選擇Sn ? |E+| 個邊作為負樣本E-。其中Se ∈ （ 0，1 ]，Sn ∈ R+ 均為超參數。

計算注意力系數后，進行特征加權聚合更新節點特征，進行消息傳遞，傳遞到下一層的表征為：

其中σ （?）為非線性激活函數，αij 為節點i 和j 之間的歸一化注意力系數，hlj為節點j 在第l 層的向量表示。

使用與GAT 相同的多頭注意力機制，采用K 個獨立的注意力機制對節點特征進行更新，取每個頭的均值作為節點嵌入表示，最終節點i的嵌入表示為：

3.2.3 自監督聯合損失函數

SL-SGAT 有足夠多的邊采樣和負邊采樣，進行自監督關系預測任務。定義優化目標函數為LlE，為第l 層的二元交叉熵損失函數。其中“1”為指示函數。每次訓練使用E+ ∪ E- 的一個子集，以概率Se ∈ （ 0，1 ] 進行采樣，以保證每次迭代訓練，獲得來自隨機性的正則化效應。最終，我們將來自節點標簽交叉熵損失LlV、所有層的自監督注意力噪聲邊損失以及L2 正則化損失進行整合，得到模型完整的損失函數：

其中λE 用來平衡來自節點標簽損失和所有層自監督注意力損失，λ2 是L2 正則化損失函數系數，用來控制正則化大小。h [ i，y [ i ] ] 表示第i個節點中目標類別對應的概率值。

3.3 算法流程

具體算法如算法1 所示。

算法1 基于圖結構學習的自監督網絡表示學習模型（SL-SGAT）

輸入：圖G = （V，E ），特征矩陣X，鄰接矩陣A

輸出：節點表示矩陣H

① 根據公式（3），（4），（6），采用余弦相似度，計算得到圖的節點特征相似度矩陣κ；

② 根據公式（7）—（8），計算全局圖結構中兩兩節點鄰近度，得到PPMI 矩陣I；

③ 通過公式（9）—（10），計算得到最終圖結構矩陣ρ；

④ 將得到的權重矩陣轉化成鄰接矩陣ρ′；

⑤ 通過公式（14）—（15），計算鄰居節點的原始注意力系數eij，Original 和點積注意力系數eij，Dot；

⑥ 根據公式（17）—（18），計算鄰居節點之間邊存在概率ψij；

⑦ 根據公式（19），計算得到節點的混合注意力系數eij，Mixed；

⑧ 根據公式（12），計算得到歸一化注意力系數αij，Dot；

⑨ 根據公式（20）—（21），進行特征加權聚合，得到節點i 嵌入表示hi

⑩ for epoch=1，2，…，epochs do

? 利用隨機梯度下降更新權重

? 優化聯合損失函數L = LV + λEΣL = 1LLlE + λ2 ? ||W||2

? end for

3.4 復雜度分析

本文所提出的模型時間效率較高，其主要時間開銷主要包括三部分：計算節點對之間的相似性得分、計算PPMI 矩陣、計算注意力系數。采用公式（4）計算節點對之間的相似度得分，這需要O （ n2 F0 ）的時間復雜度，其中n 為節點數量，F0 為節點輸入特征維度。計算PPMI矩陣，所需的時間復雜度為O （ nγq2 ）。計算注意力系數的時間復雜度主要涉及兩個乘法運算環節：

（1）節點特征映射，使用Whi 將節點特征維度從F0 映射到Fl，其時間復雜度為O （ F0 F′ ），所有節點都需要映射，則時間復雜度為O （ nF0 F′ ）。

（2） α（ · ）以及點乘操作，α（ · ）是將2 × F′ 維度的向量映射到一個實數上，其時間復雜度為O （ F′ ），一共有m 條邊，則時間復雜度為O （ m ×F′ ）。點乘操作，兩個向量維度都為F′，其時間復雜度為O （ F′ ），每條邊都需要計算，則時間復雜度為O （ m × F′ ），以上操作可并行計算，其總時間復雜度為O （ m × F′ ）。

結合以上兩個環節，計算注意力系數所需的時間復雜度為O （ nF0 Fl + m × F′ ），后續的其他操作不再涉及復雜度高的乘法運算，所以SL-SGAT 模型的時間復雜度為O （ n2 F0 +nγq2 + nF0 Fl + m × F′ ）。

4 實驗

本節將介紹在三個真實網絡數據集上進行節點分類實驗結果，驗證SL-SGAT 的有效性。本文將SL-SGAT 與流行的網絡嵌入模型進行比較。基于隨機游走的嵌入算法，DeepWalk［18］和node2vec［19］。基于卷積神經網絡的嵌入方法GraphSAGE［7］， GCN［8］、DGI［9］和SimPGCN［10］。基于圖注意力神經網絡的方法GAT［11］，CATs［12］，SGATs［13］。為了進行公平比較，保持實驗算法跟算法設置一致，且所有實驗均用Python 語言編寫，通過Pytorch 框架進行構建，并在GEFORCE RTX 3080 GPU 上運行。

首先介紹數據集以及實驗訓練參數配置，展現了本模型與其他先進基線模型的在不同實驗設置下的實驗結果，最后給出超參數靈敏度分析實驗結果和消融實驗結果。

4.1 數據集

本文使用Cora［31］、Citeseer［31］和Pubmed［31］三個引文網絡數據集進行模型學習和模型測試評估。在這三個數據集中，節點表示論文，節點之間的邊表示論文之間的引用關系，節點特征表示每篇論文的屬性特征，比如關鍵詞、發表日期、作者、研究主題等等。表2 列出了所有數據集的詳細統計數據。

4.2 訓練參數設置

對于隨機游走的方法，設置窗口大小為5，隨機游走次數為10，隨機游走長度為40。所有模型都是用Adam 優化器學習模型參數，學習率lr ∈ { 0.005，0.02，0.05 }，在其中選擇最佳學習率。對于GCN、GAT 及其變體模型，采用兩層消息傳遞層和多頭注意力機制。第一層注意力層包含8 個注意力頭，每個注意力頭有一個權重矩陣W ∈ Rd × 8；第二層注意力層包含8 個注意力頭，每個注意力頭有一個權重矩陣W ∈ R64 × C；對于我們的模型，網絡架構與GAT相同，epoch 為500。在構建PPMI 矩陣時，設定隨機游走長度q = 5，以每個節點為根進行γ =40 次隨機游走，其他超參數因數據集不同，超參數不同，不同數據集的最優超參數如表3所示。

4.3 實驗結果

4.3.1 節點分類

使用節點分類任務進行模型性能評估，計算目標節點嵌入向量中最大值，作為分類結果。表4 顯示了10 次運行的平均結果。在所有模型中，最佳性能用粗體數字表示。與基于隨機游走的方法（DeepWalk、node2vec）相比，SLSGAT的性能提高了10%～20%。這表明基于隨機游走的方法僅考慮圖的結構特征，忽視了節點屬性信息，無法達到先進模型的性能。與基于注意力機制的方法（GAT、CATs、SGATs）相比，SL-SGAT 性能提升了1.4%～6.2%，這表明僅考慮噪聲邊或全局結構信息不能很大程度提高模型性能，而SL-SGAT 模型通過使用圖結構學習和自監督注意力機制，充分考慮節點屬性特征和結構信息，能夠聚合到高階鄰居節點信息，降低圖中噪聲干擾，提高模型的表現。值得注意的是，在Cora 數據集上SL-SGAT 模型和SGATs 模型相差不大，僅提高0.5%，可能原因是Cora 數據集中存在的鄰居節點較少，對模型最終性能影響不大，兩個模型對圖中噪聲處理的效果相近。此外CATs 模型與GAT 相比，GAT 在Cora 和Citeseer 數據集上的性能要優于CATs 模型，我們猜測可能CATs 模型在添加高階鄰居節點時，添加了噪聲邊，導致模型性能下降。我們還對比了三種注意力機制對模型性能的影響，結果顯示混合注意力機制效果最佳。這是因為混合注意力系數通過將原始注意力系數與節點間邊存在的概率相乘，隱式地為更重要的節點分配權重，在計算注意力系數時能夠舍棄不重要的節點，降低噪聲邊對模型性能的干擾。

圖2 顯示了本文提出的模型與其他9 個模型進行對比的結果。從圖中可以看出，本文所提出的模型具有顯著的效果。

4. 3. 2 節點聚類

我們將所有模型輸出的節點表示輸入KMeans算法中進行聚類。K-Means 算法中聚類數目設置為相應節點類別數目，具體為：Cora為7 類，Citeseer 為6 類，Pubmed 為3 類。我們對每個數據集進行10 次聚類，取其均值作為結果。實驗結果如表5 所示。盡管節點聚類存在挑戰，但是SL-SGAT 仍超越了所有基線模型。與其他最佳基線模型相比，SL-SGTA 的節點聚類能力提高了1.2%～3.4%。SL-SGAT 在聚合高階鄰居節點信息，降低噪聲干擾方面的能力，是其性能提升的重要原因。這些發現表明，SL-SGAT 通過圖結構學習和自監督注意力機制能夠有效學習到節點特征表示。

4.4 可視化分析

為了更直觀地了解我們提出的模型性能，將對SL-SGAT 學習到的節點嵌入進行定性研究。利用t 分布隨機鄰居嵌入（t-Distributed Sto?chastic Neighbor Embedding，t-SNE）［32］將學習到的節點嵌入投影到二維空間中。在圖3 中，每一個節點代表一篇已發表的論文，節點顏色相同表示相同研究領域的論文。根據圖3 可知，節點分布展示出良好的聚類效果，節點根據類別形成了明顯的簇。各類顏色節點聚集在一起，顯示出類別的強一致性。類別之間邊界較為清晰，表明節點嵌入效果優異。

圖4 通過可視化結果，展示了不同模型的效果存在顯著差異。由于篇幅有限，只展示了在Cora 數據集上的可視化結果。GCN 的效率最低，不同顏色的節點混在一起。GAT 與SGATs 的可視化效果要優于GCN，說明為不同節點分配不同的權重，能夠提高模型性能。SGAT 雖然可以更好地進行節點分類，但是顏色相同的節點分布稀疏。而我們提出的SLSGAT模型與其他模型相比，具有更好的節點嵌入效果。說明考慮圖節點特征和結構信息，降低噪聲邊干擾，可提高節點嵌入效果。

4.5 超參數分析

為了驗證所有參數對模型的影響，本節分析了學習率lr、損失混合系數λE、閾值k、負采樣率Sn、邊采樣率Se 的參數靈敏度。在圖5—圖9 中分別描述了各種超參數對節點分類性能的影響。

圖5 是不同損失混合系數λE 的實驗結果。對于λE 來說，改變λE 值，能夠影響模型性能。λE值越大，關系預測損失對模型的影響也就越大。實驗結果表明，當λE 為4 時Citeseer 和Cora 數據集性能達到最大值，而Pubmed 數據集則是在λE為10 時達到性能最大值。根據圖5 可以發現每個數據集都有一個最佳的邊緣監督水平，如果λE過大，則會降低節點分類性能。由此我們可以推斷，不同數據集中，噪聲對模型的影響不同。通過降低噪聲邊干擾，可以提高模型性能。

圖6 是負邊采樣率Sn 的實驗結果。采樣負邊作為關系預測的負樣本。最佳的負樣本數量因數據集而異，但是都應小于正樣本數量。根據圖6 可以發現，隨著Sn 增加，在Cora 和Pubmed 數據集上的性能呈現凸函數曲線關系。而Citeseer 隨著Sn 的增加而降低。這是因為適度地進行負邊采樣，進行關系預測任務，降低噪聲邊干擾，但是過多地進行負采樣會影響關系預測效果。

通過邊緣采樣率Se，進行正邊采樣，作為關系預測的正樣本。隨Se 變化，節點分類性能也會隨之發生變化。但是不同數據集變化形式不同。從圖7 中可以看出，Cora 和Pubmed 數據集的性能呈現凸曲線關系。Citeseer 數據集性能在Se 剛開始增加時，性能提高，到達性能最優時，開始逐步下降。我們推測，過多地進行正邊采樣可能會影響關系預測效果，從而無法有效降低噪聲邊干擾。

圖6 和圖7 是關系預測中正邊與負邊的采樣率，通過選擇足夠數量的正樣本（真實存在的邊）和負樣本（假設不存在的邊），構建一個關系預測模型。模型核心任務區分哪些節點對之間應當存在邊，哪些節點之間不存在邊，從而減少噪聲邊對模型影響。通過關系預測，我們不僅能夠提高圖數據的質量，減少數據中的不確定性，還能夠進一步理解節點間的潛在關系。特別是在確定節點之間是否存在連接關系的過程中，我們可以明確每個節點在聚合過程中的具體鄰居節點，增加模型的可解釋性。

對于閾值k 來說，不同的閾值對不同數據集影響不同。如圖8 所示，經過多次測試，當k=0.1 時，SL-SGAT 模型在Pubmed 中取得了最佳性能。當k=0.2 時，在Cora 和Citeseer 數據集上取得了最佳性能，此時圖Cora 中的邊數為13 296，比原始邊數10 556 增加了2 740 條邊。值得注意的是，全局圖結構矩陣的每個元素在歸一化處理后都小于或等于1。當k=1 時，表示我們不使用圖結構信息。k 值越大，可以利用的圖結構信息越少。當kgt;0.2 時，模型的性能要低于k≤0.2，這表明圖結構學習能夠提高模型的性能，但是過多地考慮圖結構信息會影響模型性能。從圖中還可以發現，當k=0 時，學習到的矩陣是一個稠密矩陣，但是真實世界的圖是一個稀疏矩陣，所以在這種情況下，模型的性能比較低。

在三個數據集上進行節點分類實驗，觀察學習率lr ∈ { 0.005，0.05 } 時對實驗的影響，其他參數均為最優值。圖9 顯示學習率對三個實驗數據集實驗結果的影響。結果表明，最佳學習率因數據集而異，當lr = 0.005，在Citeseer 數據集上表現最好，而在Cora 數據集上，lr = 0.02 時性能最好，在Pubmed 數據集上，當lr = 0.05 時，效果最好。

4.6 消融實驗

為驗證本文所提算法的有效性，進行消融實驗，設置模型變體，進行節點分類任務，實驗參數設置與本模型在各個數據集中最優表現相同，在Cora、Citeseer、Pubmed 數據集上的實驗結果如表6 所示。

Structure-only 是SL-SGAT 的變體模型，僅使用圖結構學習模型進行網絡表示學習。

Self-supervised-only 是SL-SGAT 的變體模型，僅使用自監督注意力機制模塊進行網絡表示學習。

Str+Self 表示基于圖結構學習和自監督注意力機制的模型。

對于Citeseer 數據集，結構學習與自監督注意力網絡模型（Str+Self）的節點分類精度為74.4%，變體下的分類精度分別為72.3%，71.1%，在本文所提模型下，節點分類精度提高了2 個百分點左右。同時，只考慮全局結構信息的模型變體要優于只進行自監督注意力網絡的模型變體。我們猜測，由于Citeseer 數據集中邊數較少，存在噪聲邊也偏少，所以為其增加高階鄰居節點，有利于提高模型性能。對于數據集Cora 和Pubmed 來說，只使用自監督注意力的模型（Self-supervised-only）分類精確度為84.0%，80.5%，相比于結合結構學習和自監督注意力機制下的分類精確度84.4%，81.5% 性能要低一些，但是要優于只考慮圖結構學習的模型變體，這是因為在Cora 和Pubmed 數據集中，存在著大量的邊，噪聲邊也偏多，自監督注意力機制模塊能有效降低噪聲邊影響，提升模型性能。我們能夠很容易發現，圖結構學習和自監督注意力機制在影響SL-SGAT 方面發揮了巨大的作用。

5 結論與展望

本文提出了基于結構學習的自監督注意力網絡（SL-SGAT），通過整合節點特征相似度矩陣和全局結構鄰近度來構建新圖，在新圖上使用新的注意力機制，這樣能充分利用圖的拓撲結構和節點的特征信息。同時設計一個鏈接預測的自監督注意力輔助任務，SL-SGAT 在區分邊鏈接是否正確時，會學習到更具有表現力的節點表示，降低噪聲對節點表示的影響。解決了圖注意力網絡只使用圖的一階鄰居節點而特征聚集不足的問題，同時也降低噪聲對節點表示的影響。根據關系預測任務，可以知道節點與其鄰居節點之前是否存在邊，從而知道聚合哪些鄰居節點特征，增加了模型的可解釋性。該模型整合了注意力機制和圖結構學習的優勢，既適用于有結構圖，也適用于無結構圖。為驗證模型的有效性，在三個真實世界數據集上進行節點分類實驗。結果表明，與先進的基線模型進行對比，本文所提出的模型可獲得更好的性能或者與之相當的性能。未來，將把本模型應用到無圖結構的數據集上，設計更好的注意力機制，提高模型性能，增強模型的魯棒性。

參考文獻：

[1] ZHOU J Y， LIU L， WEI W Q， et al. Network RepresentationLearning： From Preprocessing， Feature Extraction toNode Embedding[J]. ACM Comput Surv， 2023， 55（2）： 1-35. DOI： 10.1145/3491206.

[2] CAI H Y， ZHENG V W， CHANG K C C. A ComprehensiveSurvey of Graph Embedding： Problems， Techniques， andApplications[J]. IEEE Trans Knowl Data Eng， 2018， 30（9）：1616-1637. DOI： 10.1109/TKDE.2018.2807452.

[3] WU Q， ZHAO W， LI Z， et al. Nodeformer： A ScalableGraph Structure Learning Transformer for Node Classification[J]. Adv Neural Inf Process Sys， 2022， 35： 27387-27401. DOI： 10.48550/arXiv.2306.08385.

[4] TONG N， TANG Y， CHEN B， et al. RepresentationLearning Using Attention Network and CNN for HeterogeneousNetworks[J]. Expert Syst Appl， 2021， 185：115628. DOI： 10.1016/j.eswa.2021.115628.

[5] YU W H， LIN X， LIU J F， et al. Self-propagation GraphNeural Network for Recommendation[J]. IEEE TransKnowl Data Eng， 2022， 34（12）： 5993-6002. DOI：10.1109/TKDE.2021.3076772.

[6] CHAMI I， YING R， RE C， et al. Hyperbolic Graph ConvolutionalNeural Networks[C]//Proceedings of the 33rdInternational Conference on Neural Information ProcessingSystems. Red Hook， NY， United States： MIT， 2019：4868-4879

[7] HAMILTON W L， YING R， LESKOVEC J. InductiveRepresentation Learning on Large Graphs[C]//Proceedingsof the 31st International Conference on Neural InformationProcessing Systems. Red Hook， NY， UnitedStates： MIT， 2017： 1025-1035.

[8] KIPF T N， WELLING M. Semi-supervised Classificationwith Graph Convolutional Networks[EB/OL].（2017-02-22） [2024-04-23]. https：//doi. org/10. 48550/arXiv. 1609. 02907.

[9] VELICKOVIC P， FEDUS W， HAMILTON W L， et al.Deep Graph Infomax[EB/OL]. （2018-12-21） [2024-04-23]. https：//doi. org/10. 48550/arXiv. 1809. 10341.

[10] JIN W， DERR T， WANG Y Q， et al. Node SimilarityPreserving Graph Convolutional Networks[C]//Proceedingsof the 14th ACM International Conference on WebSearch and Data Mining. New York： ACM， 2021： 148-156. DOI： 10. 1145/3437963. 3441735.

[11] VELICKOVIC P， CUCURULL G， CASANOVA A， etal. Graph Attention Networks[J]. Stat， 2017， 1050（20）：10-48550. DOI： 10. 17863/CAM. 48429.

[12] HE T， ONG Y S， BAI L. Learning Conjoint Attentionsfor Graph Neural Nets[J]. Adv Neural Inf ProcessSyst， 2021， 34： 2641-2653. DOI： 10. 48550/arXiv. 2102. 03147.

[13] YE Y， JI S H. Sparse Graph Attention Networks[J].IEEE Trans Knowl Data Eng， 2023， 35（1）： 905-916.DOI： 10. 1109/TKDE. 2021. 3072345.

[14] HOFMANN T， BUHMANN J. Multidimensional Scalingand Data Clustering[J]. Adv Neural Inf ProcessSys， 1995， 7：459. DOI： 10. 5555/2998687. 2998744.

[15] BALASUBRAMANIAN M， SCHWARTZ E L. TheIsomap Algorithm and Topological Stability[J]. Science，2002， 295（5552）： 7. DOI： 10. 1126/science. 295. 5552. 7a.

[16] ANDERSON W N， MORLEY T D. Eigenvalues of theLaplacian of a Graph[J]. Linear Multilinear A， 1985， 18（2）： 141-145. DOI： 10. 1080/03081088508817681.

[17] HE X， NIYOGI P. Locality Preserving Projections[C]//Advances in Neural Information Processing Systems16： Proceedings of the 2003 Conference. Cambridge：MIT Press， 2004， 16： 153.

[18] PEROZZI B， AL-RFOU R， SKIENA S. DeepWalk： OnlineLearning of Social Representations[C]//Proceedings of the20th ACM SIGKDD International Conference onKnowledge Discovery and Data Mining. New York： ACM，2014： 701-710. DOI： 10. 1145/2623330. 2623732.

[19] GROVER A， LESKOVEC J. Node2vec： Scalable FeatureLearning for Networks[C]//Proceedings of the 22nd ACMSIGKDD International Conference on Knowledge Discoveryand Data Mining. New York： ACM， 2016： 855-864. DOI： 10. 1145/2939672. 2939754.

[20] TANG J， QU M， WANG M Z， et al. LINE： Large-scaleInformation Network Embedding[C]//Proceedings of the24th International Conference on World Wide Web. Republicand Canton of Geneva， Switzerland： InternationalWorld Wide Web Conferences Steering Committee， 2015：1067-1077. DOI： 10. 1145/2736277. 2741093.

[21] WANG J， ZHANG D， WEI J， et al. Node Embeddingwith Capsule Generation-Embedding Network[J]. Int JMach Learn Cybern， 2023， 14（7）： 2511-2528. DOI：10. 1007/s13042-023-01779-9.

[22] LEVIE R， MONTI F， BRESSON X， et al. CayleyNets：Graph Convolutional Neural Networks withComplex Rational Spectral Filters[J]. IEEE Trans SignalProcess， 2019， 67（1）： 97-109. DOI： 10. 1109/TSP. 2018. 2879624.

[23] LI R， WANG S， ZHU F， et al. Adaptive Graph ConvolutionalNeural Networks[C]//Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence andThirtieth Innovative Applications of Artificial IntelligenceConference and Eighth AAAI Symposium on EducationalAdvances in Artificial Intelligence. New Orleans LouisianaUSA： AAAI， 2018： 3546-3553.

[24] ZHUANG C Y， MA Q. Dual Graph Convolutional Networksfor Graph-based Semi-supervised Classification[C]//Proceedings of the 2018 World Wide Web Conferenceon World Wide Web-WWW '18. New York： ACM，2018： 499-508. DOI： 10.1145/3178876.3186116.

[25] YANG Y D， WANG X C， SONG M L， et al. SPAGAN：Shortest Path Graph Attention Network[EB/OL].（2021-01-10） [2024-04-23]. https：//doi. org/10.48550/arXiv.2101.03464.

[26] YUAN J L， CAO M， CHENG H， et al. A Unified StructureLearning Framework for Graph Attention Networks[J].Neurocomputing， 2022， 495： 194-204. DOI： 10.1016/j.neucom.2022.01.064.

[27] KIM D， OH A. How to Find your Friendly Neighborhood：Graph Attention Design with Self-supervision[EB/OL].（2022-04-11） [2024-04-23]. https：//doi. org/10.48550/arXiv.2204.04879.

[28] THANOU D， DONG X W， KRESSNER D， et al.Learning Heat Diffusion Graphs[J]. IEEE Trans SignalInf Process Netw， 2017， 3（3）： 484-499. DOI： 10. 1109/TSIPN. 2017. 2731164.

[29] COMMAULT C， VAN DER WOUDE J. A Classificationof Nodes for Structural Controllability[J]. IEEETrans Autom Contr， 2019， 64（9）： 3877-3882. DOI：10. 1109/TAC. 2018. 2886181.

[30] TURNEY P D， PANTEL P. From Frequency to Meaning：Vector Space Models of Semantics[J]. Jair， 2010，37： 141-188. DOI： 10.1613/jair.2934.

[31] SEN P， NAMATA G， BILGIC M， et al. Collective Classificationin Network Data[J]. AI Mag， 2008， 29（3）： 93-106. DOI： 10.1609/aimag.v29i3.2157.

[32] VAN DER MAATEN L， HINTON G. Visualizing DataUsing T-SNE[J]. J Mach Learn Res， 2008， 9： 2579-2625.

基金項目：河北省科學基金資助項目（F20242050280）；河北省高等學校科學技術研究項目（ZD2022139）

山西大學學報(自然科學版)2025年1期

山西大學學報(自然科學版)的其它文章: 多分知識結構析取模型及其應用; 基于YOLOv5與背景優化的靜態手勢識別算法; 基于陰影集的三支核均值漂移聚類算法; 分布優勢數據集的矩陣增量屬性約簡算法; 基于正交約束和最大類內特征判別性的分層分類特征選擇算法; 基于改進MADDPG算法的人群疏散仿真研究