
關鍵詞:異質圖;自監督算法;節點嵌入;高階鄰域
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2025)07-012-2011-07
doi:10.19734/j. issn.1001-3695.2024.11.0493
Abstract:Toaddress theissue thatcurrentself-supervised neuralnetwork algorithms donotconsider theimpactofhighorder node information whenobtaining neighborhood node weights,thispaper proposedaself-supervised heterogeneous graph embeddingalgorithmbasedonhigh-orderneighborhood informationinteraction(SSHGEA-HNI).Itenhancedlocaloptimization capabilitiesandmodelperformancebyaddingafeedforwardfullconnectedlayerintheattentionmechanism tocapturehighorderneighborhoodnodefeatures.Thealgorithmconsistedofalabel generationmoduleandanembeddinglearning module.The label generation module produced pseudo-labels for nodesthrough label propagation,which servedassupervisorysignals to guidetheembedding generationmodule to produceembeddings.Theembedding learning module generatedembeddings andattentioncoeffcientsthroughtheatentionmechanismbasedonhighorderneighborhoodinformationinteraction,withtheaentioncoeffcientsusedtoguidethelabelgeneration module toproduce pseudo-labels.Ineach iteration,thetwo modules shared node atentioncoeficients,promoting mutual utilizationandenhancementbetweenthetwo modules.Experimentswereconductedonfourreal heterogeneous graphdatasets,withimprovementsobserved intheclusteringand clasification tasksof most datasets.Theexperimental results demonstrate thatthe modelcan efectivelyutilize high-order node information.
Key words:heterogeneous graph;self-supervised algorithm;node embedding;high-order neighborhood
0 引言
近年來,由于圖嵌入[1,2]在分析圖結構數據過程中十分重要,導致圖嵌人技術發展十分迅速。基于神經網絡的方法因其強大的學習能力,在圖嵌入方面取得了優異的成績[3.4]
首先,本文從半監督和自監督的角度對圖嵌入算法的現有工作進行了系統總結。由于半監督神經網絡嵌入方法在利用未標注數據方面的優勢性能,使其受到研究者的青睞。在過去幾年中,Fu等人[5]提出了MAGNN這一元路徑聚合圖神經網絡,有效解決了異質圖嵌入方法中存在的問題,如節點內容特征丟失、元路徑中間節點被忽視以及單一元路徑的局限性。緊接著,Hong等人[提出了一種異質圖結構注意力神經網絡。該模型無須依賴元路徑即可直接對異質圖的結構信息進行編碼,從而克服了異質圖嵌人算法過度依賴元路徑的缺陷。此外,Zhao等人[首次嘗試研究保留異質圖嵌人的網絡模式,提出了NSHE模型,成功解決了元路徑選擇這一關鍵問題。
在提升模型性能方面,Li等人[8提出了一種名為SCHAIN的半監督算法。該算法將對象屬性和元路徑與加權方案相結合,制定了對象聚類的相似度矩陣,有效解決了對象屬性值相似性和結構連通性方面的問題。與此同時, Yin 等人提出了一種新穎的半監督學習框架,利用基于異構圖神經網絡的嵌入來封裝組織結構內的復雜關系以及用戶和資源之間的交互,為相關研究提供了新的思路。最后,Chen等人[10]針對復雜圖中由于不均勻分布和強聚類形成的負曲率導致的信息過度壓縮問題,提出了一種具有多級數據增強的半監督異質圖學習方法,進一步拓展了圖嵌入算法的應用范圍和研究深度。
但是,以上所論述的半監督方法在性能上過度依賴于高質量的真實標簽,在實際生活中,獲取高質量的標簽是十分困難的[11]。為了充分利用大量的未被標記的信息,圖上的自監督學習(self-supervisedlearning,SSL)已成為一個熱門的研究課題,并在各種任務上取得了較好的成績[12]。Yang 等人[13]提出了一種名為SHGP的自監督異構圖預訓練方法,它不需要生成任何正例或負例,解決了以往方法需要定制各種策略來生成高質量正例和負例的問題。Hayat等人[14]提出了一種自監督異構超圖學習框架,通過捕獲圖級分類中異構性的豐富性和高階連接性來提高模型性能。解決了現有自監督方法中忽略異質圖中節點之間的非成對關系的問題。Wang等人[15]提出了一種新穎的無負樣本自監督異質圖學習框架,解決了現有對比學習方法的性能高度依賴于負樣本選擇策略的問題。Cao等人[16]使用自監督學習框架來利用短文本特征和圖結構中的相似性信息來推斷偽標簽并對偽標簽進行分類,緩解了訓練數據標簽稀缺的問題。Li等人[1]提出了一種基于語義強度和特征相似性的異質圖神經網絡自監督學習模型(HetGNN-SF)。解決了忽略圖中不同語義之間的復雜交互和節點特征重要性的問題。Gao等人[18]通過自監督學習自動學習數據之間的相關性,并利用編碼和解碼注意力來加強數據之間的相關性,從而提高數據融合。Wei等人[19]提出了一種基于自監督圖神經網絡(SGNN)的方法。通過網絡模式視圖和元路徑視圖之間的對比學習進行自監督,來捕獲不同角度的元路徑的局部和全局信息,解決了基于元路徑的學習模型只考慮元路徑的端到端關系,忽略了元路徑中間信息的問題。
自監督嵌入方法由于不再需要真實標簽,而在生活中得到了廣泛應用。但在自監督方法使用注意力機制時,大多數自監督方法未考慮到高階鄰域節點信息的影響。以圖1異質圖為例進行說明,傳統的注意力機制僅考慮了 p1 節點與 a1,a2,c1 、
節點之間的影響,并沒有考慮其余 a1σ°a2σ°c1σ°c2σ°t1σ°t2 節點之間的相互影響,導致了圖中信息利用不全的現象。

本文提出了一種基于高階鄰域信息交互的自監督嵌入模型,旨在解決現有模型中節點信息利用不充分的問題。傳統監督模型往往僅關注直接相連節點間的影響,未充分考慮高階節點信息,從而難以有效捕捉復雜的節點關系。本文算法在嵌入生成階段融入高階節點信息,助力模型深入挖掘節點間的深層次關系與相似性,進而生成更高質量的嵌入。
該算法由標簽產生模塊與嵌入產生模塊協同運作。標簽產生模塊運用標簽傳播技術,依據節點間的注意力系數為現有節點生成偽標簽。隨后,嵌入產生模塊借助鄰域信息交互的注意力機制,產生預測標簽,以偽標簽和預測標簽的交叉熵損失來調整節點注意力系數,從而生成高質量嵌入。
在這一過程中,注意力機制訓練所得的參數被輸入至前饋全連接層,并在此層進行優化。前饋全連接層的信息轉換作用具備交互性,使得節點在轉換過程中能夠獲取其他高階節點的信息。這為節點間注意力權重的優化提供了更豐富的參考信息,有效克服了以往自監督模型僅關注相連節點間影響的局限。具體而言,前饋全連接層憑借其強大的交互與表達能力,參照節點的鄰域信息對注意力參數進行優化調整。所有參數經前饋全連接層處理后,實現了參數整合與轉換,融入了鄰域節點信息對其他鄰域節點的影響,從而提升了模型對節點間復雜關系的捕捉與表達能力。
1相關概念
定義1異質圖[20]。異質圖又稱異構圖、異質信息網絡,是一種特殊的信息網絡,可以表示為 G=(V,E) ,其中 V 表示節點集合 ??E 表示邊緣集合。異質圖使用節點類型映射函數?:V?A 和邊緣類型映射函數 φ:E?R 關聯節點和邊緣,其中A和 R 分別表示節點類型集合和邊緣(關系)類型集合。通常,當節點類型的數量IAI和鏈接類型 ∣R∣ 符合 ∣A∣+∣R∣gt;2 時,網絡可以被視為異質圖,否則,該網絡為同質圖。
定義2異質圖嵌人[21]。對于給定異質圖 G=(V,E) ,異質圖嵌入任務是學習每個節點 v∈V 在 d 維空間中的節點表示,從而方便進行各種下游任務,如鏈接預測[22,23]、社區發現[24,25]等。目標是學習到一個函數f:
, dlt;lt;∣V∣ ,其能夠捕獲到圖中的異質結構信息和語義信息。
定義3自監督學習[26]。屬于無監督學習的一種特殊形式,它不再依賴于高質量的標簽信息,而是使用數據本身的信息來產生偽標簽,進而學習潛在的特征和表示,然后將學習到的信息應用到各個下游任務中。最常見的SSL范式是對比學習,旨在學習同類型節點之間的共性,區別非同類型節點之間的差異。
2本文算法
該算法采用自監督學習架構,來對標簽產生模塊產生的偽標簽和嵌入生成模塊生成的預測標簽進行對比,使用交叉熵作為損失函數,并使用梯度下降來對注意力系數進行優化,并將優化后的注意力系數作為下一輪標簽產生模塊和嵌人生成模塊中的新權重,從而生成更好的偽標簽和節點嵌人。算法的整體架構如圖2(a)所示。
2.1 標簽生成模塊
該模塊使用基于注意力的標簽傳播算法(attentionbasedlabelpropagationalgorithm,att-LPA)對異質圖節點的標簽進行更新,并在標簽傳播算法收斂后,對小數量社區中的節點進行標簽修正。標簽傳播算法的核心思想是通過對初始化的節點標簽在節點之間傳播來更新節點的標簽信息。假設異質圖中的節點為 vi ,其鄰居集合為 N(i) ,則節點 vi 根據鄰居節點的標簽信息更新標簽的公式如式(1)所示。

其中:
為本輪迭代中節點 vi 的標簽;
為上一輪迭代中 vj 的標簽; wj 為節點 vi 和鄰居節點 vj 之間的注意力系數 $\cdot \varmathbb { I }$ 為指示函數,當條件滿足時取值為1,否則為0。式(1)表示節點 vi 會選擇其鄰居中注意力值累加最大的標簽作為節點的新標簽。
在標簽傳播算法達到收斂時,可能會出現節點 vi 趨于鏈接權重值較大但數量較少的情況。在實際情況中,如果鏈接的數量差距較大,可能數量更能反映出節點的真實信息。因此,在修正節點的階段根據數量的傳播方式對節點標簽進行修正,如式(2)所示。

由于重要的節點往往會影響到更多的其他節點,所以節點的更新順序也會對標簽傳播結果產生重要的影響[27]。在實驗的異質圖中,由于 hub 類型節點與其他類型節點相連,而其他類型節點僅與hub相連。所以,可以認定hub類型節點更重要。在修正標簽時,由于
類型節點擁有更多的信息,為了使標簽信息更加穩定,所以僅對非
類型節點進行節點標簽的修正。實驗中用到的標簽修正公式可以轉換為式(3)。

其中: hub(i) 為節點 vi 的hub類型鄰居。修正示意圖如圖2(b)所示。

2.2 嵌入產生模塊
本文算法所采用的嵌入產生模塊是基于高階鄰域信息交互的異構圖卷積網絡。在本文算法中,通過在注意力機制中引入前饋全連接層,使得節點能夠獲取其高階鄰域內其他節點的信息,進而實現節點與其高階鄰域節點之間的信息交互。這一過程有效地優化了節點之間的注意力系數,提升了模型對節點間復雜關系的捕捉與表達能力。
該模塊在ie-HGCN[28]網絡架構作為基本編碼器,結合鄰域信息交互的注意力機制組成基于鄰域信息交互注意力的異質圖卷積網絡(NIatt-HGNN)。其中,鄰域信息交互注意力的作用如圖2(c)所示。
在第 χt 輪迭代中,通過NIatt-HGNN模塊生成節點嵌入 H[t] 的公式如式(4)所示。
H[t]=NIatt-HGNN(W[t-1],G,X)
其中: W[t-1] 為模型在 t-1 輪時的參數; G 為異質圖的網絡拓撲結構; X 為節點對象的特征。
在生成嵌人后,將嵌人 H(t] 輸人到NIatt-HGNN模型的
softmax分類器中,來產生預測標簽 Y[t] ,如式(5)所示。
Y[t]=softmax(H[t]?C[t-1])
其中: C[t-1]?W[t-1] 表示 softmax 分類器在 t-1 輪迭代中的參數矩陣。
該模塊在具體的學習過程中,將節點 vi 本身也添加到其鄰居的集合 N(i) 中。因此,邊 (i,i) 被添加到邊緣集合 E 中,其偽自關系 φ(i,i) 也被添加到關系集合 R 中。節點 vi 產生新嵌入 hi′ 的公式如式(6)所示。

其中: σ 是非線性激活函數; hj 是鄰居節點 vj 的當前嵌入表示; βiφ(i,j) 表示歸一化注意力系數;
表示歸一化鏈接權重,其中
表示參數投影矩陣。
2.3 損失函數
損失函數被設計為嵌入產生模塊的預測標簽 Y[t] 和偽標簽生成模塊生成的偽標簽
之間的交叉熵,如式(7)所示。

其中: K 表示簇的大小。使用交叉熵作為損失函數是因為其通過最小化預測標簽分布和偽標簽分布之間的差異,直接對齊優化目標,使預測標簽的概率分布盡可能接近偽標簽的分布,從而提高模型性能。根據損失函數,通過梯度下降來優化模型的參數,如式(8)所示。
W[t]=W[t-1]-θ??WL[t]
其中:θ表示該模型的學習率。隨著梯度下降優化的進行,整個模型將學習到更好的參數來擬合數據。
2.4模型整體介紹
SSHGEA-HNI模型整體架構如圖2所示。模型首先根據輸入的數據在標簽生成模塊中為每一個節點生成對應偽標簽。與此同時,在嵌入產生模塊中,將根據輸人的數據產生每個節點的嵌入表示和節點的預測標簽。最后,通過損失函數計算節點的偽標簽和預測標簽之間的交叉熵,并通過梯度下降來對模型中節點之間的注意力系數進行優化。模型運行流程偽代碼如下所示。
算法1 SSHGEA-HNI整體框架輸人:異質圖 G ;模型參數 ?W[t-1] ;異質圖原始嵌入X
輸出:異質圖嵌入H[]。
for n?N do
通過標簽生成模塊生成節點的偽標簽;

通過嵌入產生模塊產生節點嵌入 H[t] 和預測標簽 Y[t] :

通過損失函數計算預測標簽 Y[t] 和偽標簽
的交叉熵損失;

通過梯度下降進行模型的參數優化;
end for
return H[t]
通過多輪迭代,模型的損失函數將達到收斂狀態,并將此時嵌入產生模塊中生成的節點嵌入表示作為最終嵌入進行保存,以便進行下游任務。
3實驗結果與分析
本章將介紹實驗用到的數據集、基線方法、模型在任務中的表現和結果分析。在實驗過程中,每個模型的指標結果為10次任務的平均值,單次模型循環次數為200次,并且根據損失函數顯示,模型在200次循環時,已經獲得了穩定的損失函數值,到達了收斂。其中SSHGEA-HNI- ??X 為在SSHGEA-HNI去掉修正標簽模塊,SSHGEA-HNI- σ?q 為在SSHGEA-HNI使用多頭注意力機制代替基于鄰域信息交互的注意力機制。模型代碼上傳到:https://github.com/hellojehu/SSHGEA-HNI。
3.1 數據集介紹
在實驗中,使用MAG、ACM、DBLP和IMDB數據集進行實驗。這四個公開數據集均為異質圖研究中經常被用到的數據集。表1給出了四個數據集的詳細信息。

MAG(https://www.microsoft.com)是Microsoft AcademicGraph中提取的,包含論文、作者、機構和領域四種對象類型,以及它們之間的八種關系。論文對象根據其發表的會議被分為IEEE光伏雜志、天體物理學、低溫物理學和應用氣象學與氣候學雜志四類。
ACM(https://dl.acm.org)是從ACM數字圖書館中提取的,包含論文、作者和主題三種對象類型,以及它們之間的四種關系。論文對象根據其研究領域分為數據挖掘、數據庫和計算機網絡三類。
DBLP(https://dblp.uni-trier.de)是從DBLP參考書目中提取的,包含作者、論文、會議和術語四種對象類型,以及它們之間的六種關系。作者對象根據其四個研究領域進行標記:數據挖掘、信息檢索、數據庫和人工智能。
IMDB(https://www.imdb.com)是從在線電影評級網站IMDB中提取的,包含電影、演員、用戶和導演四種對象類型,以及它們之間的六種關系。電影對象根據其類型被分為喜劇、紀錄片、戲劇和恐怖四類。
3.2 基線方法
本文將 SSHGEA-HNI 與 HAN[29]. 、ie-HGCN(HGCN)、metapath2-vec[30](M2V)、DMGI[31]、HDGI、 SHGP[13] )SeHGNN[32]和MEGNN[33]模型進行比較,來證明模型的優越性。其中:M2V是一種基于隨機游走的傳統的異質圖嵌入算法;DMGI、HDGI和SHGP是針對異質圖研究的SSL方法;MEGNN使用元路徑提取的方式來獲得異質圖嵌人;SeHGNN使用元路徑擴展感受野來獲得嵌入。
3.3 評價指標
本節將介紹實驗中的評價指標。對于聚類任務,采用歸一化互信息(normalizedmutualinformation,NMI)和調整蘭德指數(adjustedrandindex,ARI)作為評價指標。對于分類任務,采用微觀 F1 分數( micro-F1 )和宏觀 F1 分數( macro-F1 )作為評價指標。下面將詳細介紹每一種評價指標的定義和作用。
歸一化互信息(NMI)[34]是一種用于度量兩個聚類結果相近程度的方法。NMI結合了互信息和熵的概念,通過對互信息進行歸一化,使得不同維度的數據具有可比性。歸一化互信息的具體計算如式(9)所示。

其中: I(X;Y) 為隨機變量 (X;Y) 的互信息; H(X) 和 H(Y) 分別為 X 和 Y 的信息熵。NMI的取值在[0,1],值越大表示兩個聚類結果越相似,當值為0時表示兩個聚類結果完全不一致;當值為1時表示兩個聚類結果一致。
調整蘭德指數(ARI)[35]是蘭德指數(RI)的機會校正版本,是一種用于評估聚類效果的指標。其可以衡量兩個數據分配(例如真實標簽和聚類結果)之間的相似性,其取值為[-1,1]。當ARI的值越大時,表示聚類結果與真實標簽越一致。其計算公式如式(10)所示。

微觀 F1 分數(
)和宏觀 F1 分數(macro- F1 )是用于評估分類模型性能的兩種常用指標,它們基于 F1 分數,可以綜合考慮精確率和召回率。設第 i 類節點的精準率和召回率分別為precision;和 recalli ,其中 micro?F1 的計算如下。
先計算所有類別總的精準率 precisionmicro 和召回率 recallmicro 然后利用上述結果計算出micro ?F1 ,如式(11)所示。

由于微觀 F1 分數在計算過程中考慮了各個類別的數量,所以更適用于數據分布不平衡的情況。macro- ?F1 的計算如下。
先對每個類別的精準率 precisionmacro 和召回率 recallmacro 求平均值,如式(12)(13)所示。


然后使用上述結果計算出macro ?F1 ,如式(14)所示。

由于宏觀 F1 分數在計算過程中每個類別的性能進行獨立評估,并對所有類別的性能取平均值,所以更適用于數據分布平衡的情況。
3.4 分類任務
在分類任務中,無監督模型在訓練過程中不使用任何標簽,產生嵌入后,本文使用學習到的節點嵌人和對應標簽訓練線性邏輯回歸分類器,對節點進行分類;對于半監督模型,直接將它們的分類器輸出分類結果作為最終結果。經過實驗驗證,訓練集的樣本數量與模型的訓練性能之間存在正比關系,考慮到效率因素,將在每個數據集上,對于具有真實標簽的節點類型,本文隨機選擇 8% 的節點對象作為訓練集,其余節點對象被平均劃分為驗證集和測試集,采用micro ?F1 和macro ?F1 作為評價指標。分類任務結果如表2所示。
通過觀察表2可以得知,ACM、DBLP、IMDB數據集在SSHGEA-HNI- σ?q 和SSHGEA-HNI ??X 模型上的指標大多高于基線模型,證明了該修正標簽方法和高階鄰域注意力方法的有效性。并且在大多數的情況下,最優結果出現在SSHGEA-HNI模型上,證明了兩者結合的有效性。在分類任務的消融實驗中,SSHGEA-HNI-q在大多數實驗中對于指標提升的影響與SSHGEA-HNI- σ?x 在大多數實驗中的影響相比較小,因此,模型整體中節點信息交互模塊的作用對于修正小數量社區模塊的作用更加明顯,更加有效。
在MAG、ACM、DBLP數據集中SHGP方法和SSHGEA-HNI-q方法的指標在大小上相差較小,經過分析,這是由于在標簽產生模塊達到收斂時,節點已經有了比較準確的標簽信息,此時再進行節點標簽的修正,涉及到需要修改標簽的節點數量較少,所以對結果的影響變小。對于MAG數據集上的表現不如基線方法的情況,在后面章節中會專門進行討論。

3.5 聚類任務
在聚類任務中,使用K-means聚類方法對嵌入結果進行聚類,并使用NMI和ARI作為評價指標。聚類任務結果如表3所示。

通過聚類結果表可以看到,最優結果大多出現在本文算法中,證明了本文算法在聚類任務上的優越性。SSHGEA-HNI-q和SSHGEA-HNI在大多數情況下評價指標相差較小,表明修正標簽操作對聚類任務的影響較小,出現這種現象是由于引入高階信息后,產生的嵌入更符合實際情況,使得在預測標簽時更加符合實際情況,從而減弱了標簽修正模塊的作用。經過觀察表3可知,在聚類任務的消融實驗中,SSHGEA-HNI-q在大多數情況下對于指標提升的影響有限,而SSHGEA-HNI ??x 在大多數情況下對于指標提升的影響則比較顯著。因此,信息交互模塊在聚類任務中對于性能提升的影響更大。
MAG數據集中SSHGEA-HNI-q指標提升明顯,超過SSHGEA-HNI- ??X 和SSHGEA-HNI,這是由于在MAG數據集中存在hub節點之間的交叉引用。此時MAG異質網絡變得更加復雜,更容易產生小數量的社區,并且在進行高階節點信息交互時,容易引入噪聲信息。因此,出現SSHGEA-HNI- σP 提升,而SSHGEA-HNI- ??x 和SSHGEA-HNI性能下降的情況。
3.6 聚類可視化
在嵌入可視化實驗部分,采用非線性降維算法 Φt -SNE將各個模型產生的嵌入結果從高維空間降維到二維空間中,并通過可視化技術將降維后的嵌人信息進行圖表展示。在實驗中,對DBLP數據集的嵌人進行了可視化,結果如圖3所示。
通過對DBLP數據集上節點嵌入的可視化分析,可以清晰地觀察到不同簇之間的邊界更為明確,且同一簇內的節點聚集程度更高,其分散性相較于SHGP模型顯著降低。這一結果有力地證明了SSHGEA-HNI模型生成的節點嵌人質量優于SHGP模型。因此,可以明確得出結論,SSHGEA-HNI模型能夠有效實現節點嵌入的優化。

3.7 案例應用
在生成嵌入后,將其進行歸一化操作后,在下游鏈接預測任務中進行應用分析。在實驗中采用向量點積的方法對保險行業的問答異質圖數據集進行鏈接預測。其中,真實保險異質圖數據集包含268543條邊緣。
在閥值設為O.8時,使用SSHGEA-HNI的嵌入能夠恢復的邊緣數量為247283。在其他方法中,效果最好的是SHGP,能夠恢復的邊緣數量為 240 367 。其中,SHGP恢復的邊緣數量占總數量的比值為 89.51% ,而SSHGEA-HNI恢復的邊緣數量占總數量的比值為 92.08% ,超過SHGP恢復邊緣占比為 2.57% 。
通過以上數據可知,在鏈接預測任務上,SSHGEA-HNI生成嵌入的質量超過基線方法的質量,嵌入更能符合真實網絡的節點情況。
3.8MAG中hub節點間引用分析
針對該方法在MAG數據集上表現欠佳的情況,本文進行了深入分析。MAG的網絡結構與DBLP數據集的網絡結構對比如圖4所示。通過對MAG數據集異質結構的細致剖析,發現其網絡結構與其他三個數據集存在兩處顯著差異。首先,MAG數據集的網絡結構中存在hub類型節點(即P類型節點)之間的相互連接,在圖4中表現為MAG數據集網絡結構中論文節點之間的引用關系。其次,網絡結構中還存在一種不與hub節點直接相連的節點類型 Io 具體而言,I類型節點與A節點直接相連,但并不與P節點直接相連接,在圖4表現為MAG數據集網絡結構中機構節點與作者節點之間的隸屬關系。
因此,為了確定效果不佳的具體原因,本文將分別對MAG數據集刪除P類型節點之間的相互引用,刪除不與 P 類型節點直接相連的I類型節點,以及將兩個部分全刪除后觀察實驗效果。其中對于分類任務的結果如圖5所示,聚類任務結果如圖6所示。

根據圖5的數據顯示,在分類任務中,刪除P類型節點之間的引用關系以及刪除兩部分關系后,模型性能均有較為明顯的提升。然而,當僅刪除I類型節點而保留P類型節點的引用關系時,模型性能并未顯著提高,反而部分指標出現了下降。這表明,P類型節點之間的引用關系對模型在分類任務中的性能產生了削弱作用。

從圖6的分析結果來看,在聚類任務中,無論是刪除P類型節點之間的引用關系還是刪除I類型節點,都能較為明顯地提升模型效果。而且,在同時刪除這兩部分關系后,模型效果依然得到了較為明顯的提升。由此可以推斷,P類型節點之間的引用關系和I類型節點均對模型性能產生了削弱影響。

在圖5和6中,模型的最佳性能均出現在僅刪除P類型節點之間引用關系的情況下,這進一步證實了P類型節點之間的引用關系對模型性能具有較大的影響。圖7則展示了在未修改MAG數據集時SHGP模型的性能,以及在刪除P類型節點之間引用關系后的MAG數據集下,SSHGEA-HNI模型性能的對比情況。

在圖7的圖例中,“原始MAG”表示在未修改MAG數據集時SHGP模型的性能指標;“修改MAG”則表示在刪除PProc類型節點之間的引用關系后,MAG數據集下SSHGEA-HNI模型的性能指標。觀察圖7可以發現,對MAG數據集的網絡結構進行修改后,相較于未修改時的SHGP模型,其在micro- ?F1 、NMI和ARI指標上的性能有所提升;盡管在macro- ?F1 指標上出現了下降,但降幅相對較小。由此現象可推斷,在MAG數據集中,P類型節點的引用關系對SSHGEA-HNI模型的性能產生了顯著影響,導致該模型在分類任務和聚類任務上的表現不如SHGP模型。
4結束語
本文基于SHGP模型進行改進,通過修正節點標簽來對偽標簽進行調整,使其更加符合現實情況,通過增加注意力機制可利用信息來解決模型沒有考慮到高階節點信息的影響,從而導致信息利用不全的問題。通過兩部分的改進增強了模型在分類、聚類任務上的性能,并通過大量的實驗,證明了模型的優越性。
參考文獻:
[1]袁鳳燕,尹學松,王毅剛.面向無監督特征提取的結構化圖嵌入 [J].計算機應用研究,2024,41(11):3343-3349.(Yuan Fengyan,Yin Xuesong,Wang Yigang.Structured graph embedding for unsupervised feature extraction[J].Application Research of Computers,2024,41(11) :3343-3349.)
[2]張敏,楊雨晴,賀艷婷,等.基于跨視圖原型非對比學習的異構圖 嵌入模型[J].計算機應用研究,2024,41(9):2611-2619.(Zhang Min,Yang Yuqing,He Yanting,et al.Heterogeneous graph embedding based on cross-view prototype non-contrastive learning[J].Application Research of Computers,2024,41(9):2611-2619.)
[3]Li Hongbo,Zheng Wenli,Tang Feilong,et al. Dynamic heterogeneous attributed network embedding[J].Information Sciences,2024, 662:120264.
[4] Zhou Silin,He Dan,Chen Lisi,et al. Heterogeneous region embedding with prompt learning[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA:AAAI Press,2023 :4981-4989.
[5]Fu Xinyu,Zhang Jiani,Meng Ziqiao,et al. MAGNN: metapath aggregated graph neural network for heterogeneous graph embeding[C]//Procof Web Conference.New York:ACM Press,202O:2331-2341.
[6]Hong Huiting,Guo Hantao,Lin Yucheng,et al.An attention-based graph neural network for heterogeneous structural learning[C]//Proc of AAAI Conference on Artificial Inteligence. Palo Alto,CA:AAAI Press,2020:4132-4139.
[7]Zhao Jianan,Wang Xiao,Shi Chuan,et al. Network schema preserving heterogeneous information network embedding[C]//Proc of the 29th International Joint Conference on Artificial Intellgence.[S.1.]: International Joint Conferences on Artificial Intelligence Organization, 2020:1366-1372.
[8]Li Xiang,Wu Yao,Ester M,et al.SCHAIN-IRAM: an efficient and effctive semi-supervised clustering algorithm for atributed heterogeneous information networks[J]. IEEE Trans on Knowledge and Data Engineering,2022,34(4) :1980-1992.
[9]Yin Jiao,Chen Guihong,Hong Wei,et al.A heterogeneous graphbased semi-supervised learning framework for access control decisionmaking[J].World Wide Web,2024,27(4):35.
[10] Chen Ying,Qiang Siwei,Ha Mingming,et al.Semi-supervised heterogeneous graph learning with multi-level data augmentation[J].ACM Trans on Knowledge Discovery from Data,2024,18(2):1-27.
[11]Ma Shuai,Liu Jianwei.Self-supervised contrastive learning for heterogeneous graph based on multi-pretext tasks [J]. Neural Computing and Applications,2023,35(14):10275-10296.
[12]Zhao Jianan,WenQianlong,SunShiyu,etal.Multi-viewselfsupervised heterogeneous graph embedding [M]//Oliver N,PérezCruz F,Kramer S,et al. Machine Learning and Knowledge Discovery in Databases. Cham:Springer,2021:319-334.
[13]Yang Yaming,Guan Ziyu,Wang Zhe,et al.Self-supervised heterogeneous graph pre-training based on structural clustering[C]//Proc of the 36th International Conference on Neural Information Processing Systems.Red Hook,NY: Curran Associates Inc.,2022:16962- 16974.
[14]Hayat M K,Xue Shan,Yang Jian. Self-supervised heterogeneous hypergraph learning with context-aware poling for graph-level classification[C]//Proc of IEEE International Conference on Data Mining.Piscataway,NJ:IEEE Press,2023:140-149.
[15]Wang Tianfeng,Pan Zhisong,Hu Guyu,et al.Self-supervised hetero geneousgraph learning with iterativesimilarity distillation[J]. Knowledge-Based Systems,2023,276:110779.
[16]Cao Meng,Yuan Jinliang,Yu Hualei,et al.Self-supervised short text clasification withheterogeneous graph neural networks[J].Expert Systems,2023,40(6):e13249.
[17]Li Chao,Liu Xinming,Yan Yeyu,et al. HetGNN-SF:self-supervised learning on heterogeneous graph neural network via semantic strength and feature similarity[J]. Applied Intellgence,2023,53(19): 21902-21919.
[18]Gao Weidong,Zhao Zhenwei. Self-supervised multi-source heterogeneous data fusion using encode and decode attention for intelligent medical device communication analysis[J]. IEEE Trans on Consumer Electronics,2024,70(1) :1318-1325.
[19]Wei Jinyang,Zhou Lihua, Wang Lizhen,et al. Self-supervised graph neural network based community search over heterogeneous information networks[M]// Meng Xiaofeng,Zhang Xueying,Hu Di,et al. Spatial Data and Inteligence.Singapore:Springer,2024:188-198.
[20]Mei Guangxu,Ye Siyuan,Liu Shijun,et al. Heterogeneous graphletsguidednetwork embedding via eulerian-trail-based representation [J].Information Sciences,2023,622:1050-1063.
[21]Hao Yunzhi, Wang Xinchao, Wang Xingen,et al. Walking with attention:self-guided walking for heterogeneous graph embedding[J]. IEEETrans on Knowledge and Data Engineering,2022,34 (12) :6047-6060.
[22]Hao Yu,Cao Xin,Fang Yixiang,et al.Inductive link prediction for nodes having only attribute information[C]//Proc of the29th International Joint Conference on Artificial Intelligence.[S.1.]:International Joint Conferences on Artificial Intelligence Organization,2O20:1209- 1215.
[23]BarracchiaEP,PioG,BifetA,et al.LP-ROBIN:linkprediction in dynamic networks exploiting incremental node embedding[J]. Information Sciences,2022,606:702-721.
[24]Zheng Yaping, Zhang Xiaofeng,Chen Shiyi,et al.When convolutional network meets temporal heterogeneous graphs :an effective community detection method[J]. IEEE Trans on Knowledge and Data Engineering,2023,35(2):2173-2178.
[25]Wu Yongliang,Fu Yue, Xu Jiwei,et al. Heterogeneous question answering community detection based on graph neural network[J]. Information Sciences,2023,621:652-671.
[26]WangXiao,Liu Nian,Han Hui,et al.Self-supervised heterogeneous graph neural network with co-contrastive learning[C]//Proc of the 27th ACM SIGKDD Conference on Knowledge Discovery amp; Data Mining.New York:ACMPress,2021:1726-1736.
[27]Yue Yubin,Wang Guoyin,Hu Jun,et al.An improved label propagationalgorithm based on community core node and label importance for community detection in sparse network [J]. Applied Intelligence, 2023,53(14) :17935-17951.
[28]Yang Yaming,Guan Ziyu,Li Jianxin,et al.Interpretableand efficient heterogeneous graph convolutional network[J]. IEEE Transon Knowledge and Data Engineering,2023,35(2):1637-1650.
[29]Wang Xiao, Ji Houye,Shi Chuan,et al. Heterogeneous graph attention network[C]//Proc of the 28th International World WideWeb Conference.New York:ACMPress,2019:2022-2032.
[30] Dong Yuxiao, Chawla N V, Swami A. metapath2vec:scalable representation learning for heterogeneous networks[C]//Proc of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2017:135-144.
[31]Park C,Kim D,Han Jiawei,et al. Unsupervised atributed multiplex network embedding[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:5371-5378.
[32]Yang Xiaocheng,Yan Mingyu,Pan Shirui,et al.Simple and efficient heterogeneous graph neural network[ C]//Proc of AAAI Conference onArtificial Intellgence.Palo Alto,CA: AAAI Press,2023:10816- 10824.
[33] Chang Yaomin,Chen Chuan ,Hu Weibo,et al. MEGNN:meta-path extracted graph neural network for heterogeneous graph representation learming[J]. Knowledge-Based Systems,2022,235:107611.
[34] Liu Xin,Cheng Huimin, Zhang Zhongyuan. Evaluation of community detection methods[J]. IEEE Trans on Knowledge and Data Engineering,2020,32(9):1736-1746.
[35]Chakraborty T,Dalmia A,MukherjeeA,et al.Metrics for community analysis:a survey [EB/OL].(2016-04-12). https://arxiv.org/abs/ 1604.03512.