朱志華 范鑫鑫 畢經(jīng)平 武 超*
(*中國科學院大學 北京100049)
(**中國科學院計算技術(shù)研究所 北京100190)
(***中國電子科技集團公司電子科學研究院 北京100041)
異構(gòu)圖(heterogeneous graph,HG)作為數(shù)據(jù)挖掘中一個新的發(fā)展方向[1],為研究者提供了一種融合多種異質(zhì)信息的有效工具。同時,圖表示學習[2]作為一種學習節(jié)點低維向量表征的便捷工具,為下游各種應(yīng)用,如推薦[3]、檢索[4]、用戶去匿名化[5]等,提供有效的支持。相比于傳統(tǒng)的異構(gòu)圖表示學習方法,異構(gòu)圖神經(jīng)網(wǎng)絡(luò)(heterogeneous graph neural network,HGNN)由于其強大的表達能力及有效結(jié)合節(jié)點屬性特征與結(jié)構(gòu)信息的特點,開始成為研究重點。然而,當前大部分的異構(gòu)圖神經(jīng)網(wǎng)絡(luò)都是半監(jiān)督模式的,即需要充足的帶標簽的樣本進行模型的訓練。但是,在現(xiàn)實場景中,通常無法獲得充足的帶標簽的數(shù)據(jù),從而限制了這些算法的使用。
為了應(yīng)對訓練樣本稀缺的問題,無監(jiān)督的異構(gòu)圖神經(jīng)網(wǎng)絡(luò)引起了學者們的廣泛研究興趣。現(xiàn)有的無監(jiān)督的異構(gòu)圖神經(jīng)網(wǎng)絡(luò)主要分為兩類,即基于近鄰的方法[6-7]和基于互信息的方法[8]。其中,基于近鄰的方法僅可以保留有限范圍(低價)的節(jié)點相似度,缺乏保留高價甚至是全局結(jié)構(gòu)信息的機制。為了保留圖的全局結(jié)構(gòu)信息,深度圖互信息最大化(deep graph infomax,DGI)[8]與深度異構(gòu)圖互信息最大化(heterogeneous deep graph infomax,HDGI)[9]等方法提供了一種同時考慮全局和局部圖結(jié)構(gòu)的新方向,即最大化節(jié)點局部表征與全局圖表征之間的互信息,并獲得了很好的效果。但是,全局圖表征通常只能夠?qū)Υ至6鹊慕Y(jié)構(gòu)信息進行保留,無法表達節(jié)點局部結(jié)構(gòu)中近鄰的特征及其分布的信息,易導致節(jié)點表征發(fā)生過平滑(over-smoothing);同時,DGI與HDGI 中使用的圖讀出操作(readout)需要滿足單射(injective)限制,但在實際情況下該限制過于嚴格。如果圖讀出操作不是單射的,則全局圖表征中包含的輸入圖信息將隨著圖大小的增加而減少,從而導致節(jié)點局部表征質(zhì)量下降。
針對該問題,Peng 等人[10]提出圖互信息(graphical mutual information,GMI)的概念,通過比較由節(jié)點k階近鄰組成的子圖與每個節(jié)點的表征向量直接獲得互信息,實現(xiàn)對近鄰的特征及其分布等細粒度信息的提取。然而,該概念僅針對同構(gòu)圖提出,無法直接應(yīng)用到異構(gòu)圖當中。換句話說,GMI 無法適應(yīng)異構(gòu)圖中異質(zhì)性(heterogeneity)產(chǎn)生的各異節(jié)點分布與節(jié)點輸入特征。此外,異構(gòu)圖中節(jié)點間通常存在不同語義的關(guān)系,并且這些關(guān)系之間表現(xiàn)出不同程度的兼容性。在沒有先驗知識的指導下,會使得模型更傾向于最大化某些特定關(guān)系上的圖互信息,從而忽略其他可能存在的語義關(guān)系,即使得模型發(fā)生語義層面上的過擬合問題。
針對上述問題,本文提出了一種無監(jiān)督的異構(gòu)圖神經(jīng)網(wǎng)絡(luò)方法,即基于局部異構(gòu)圖互信息最大化(heterogeneous graphical mutual infomax,HGMI)的方法。該方法首先利用元路徑(meta-path)[1]對異構(gòu)圖中涉及的語義關(guān)系進行建模,然后利用圖卷積模塊和語義級別的注意力機制來融合不同的關(guān)系語義,并為每個節(jié)點生成有效的局部表征。該方法將圖互信息應(yīng)用到異構(gòu)圖中,通過最大化單個節(jié)點與局部子圖間在拓撲以及輸入特征上的互信息,來處理無監(jiān)督的設(shè)置;同時通過在目標函數(shù)中共享語義級別的注意力權(quán)重,使得模型對所有語義關(guān)系均保持一定的關(guān)注度,以解決語義層面上可能發(fā)生的過擬合問題。本文的主要貢獻如下:(1)提出了一種無監(jiān)督的、基于局部圖互信息的異構(gòu)圖神經(jīng)網(wǎng)絡(luò)模型;(2)提出了一種注意力平衡機制,用于防止語義層面過擬合的發(fā)生;(3)基于真實的異構(gòu)圖數(shù)據(jù)集進行了實驗,相比基于全局圖互信息的方法,可以將數(shù)據(jù)集DBLP/IMDB 上的節(jié)點分類任務(wù)的micro-F1提高大約3%/9%,同時將DBLP/IMDB 上的節(jié)點聚類任務(wù)的調(diào)整蘭德系數(shù)(adjusted Rand index,ARI)提高約23%/46%。
本文剩余部分總結(jié)如下。第1 節(jié)介紹了異構(gòu)圖表示學習與異構(gòu)圖神經(jīng)網(wǎng)絡(luò)的相關(guān)工作。第2 節(jié)介紹了本文中使用的基本符號和相關(guān)問題定義,包括異構(gòu)圖與圖互信息的定義。第3 節(jié)詳細描述了本文提出的基于局部圖互信息最大化的異構(gòu)圖神經(jīng)網(wǎng)絡(luò)模型HGMI。第4 節(jié)通過充分的實驗對本研究中提出的方法進行了有效的驗證。第5 節(jié)對全文內(nèi)容進行了總結(jié)。
現(xiàn)實世界中圖結(jié)構(gòu)具有普遍性,圖表示學習已成為一個備受關(guān)注的主題[2]。作為包含豐富結(jié)構(gòu)信息的數(shù)據(jù)類型,許多模型[11-12]基于圖的結(jié)構(gòu)學習節(jié)點的向量表征。DeepWalk[13]利用Skip-Gram,通過在圖上進行一組隨機游走來學習節(jié)點嵌入。此外,一些方法[14-15]則通過矩陣分解來提取結(jié)構(gòu)信息。但是,以上所有方法只能用于同構(gòu)圖,無法解決異構(gòu)圖中的圖表示學習問題。
為了處理圖的異質(zhì)性,metapath2vec[16]利用預先定義的元路徑指導隨機游走進行采樣,并通過異構(gòu)圖中的Skip-Gram 學習節(jié)點的表征。HIN2Vec[17]則在執(zhí)行預測任務(wù)的同時,學習節(jié)點和元路徑的表征向量。Wang 等人[18]通過添加注意力機制,使得模型可以有效地學習來自多個、由元路徑定義的同構(gòu)圖的信息。從屬性圖的角度進行考慮,SHNE[19]通過異構(gòu)Skip-Gram 和深度語義編碼的聯(lián)合優(yōu)化來捕獲結(jié)構(gòu)緊密性和非結(jié)構(gòu)化語義關(guān)系。另外,許多面向知識圖譜的方法[20-22]通常也可以應(yīng)用于其他異構(gòu)圖。
隨著深度學習的成功,圖神經(jīng)網(wǎng)絡(luò)在圖表示學習中取得了巨大的進展。圖神經(jīng)網(wǎng)絡(luò)的核心思想是通過神經(jīng)網(wǎng)絡(luò)聚合鄰居的特征信息,學習結(jié)合節(jié)點獨立信息和圖中相應(yīng)結(jié)構(gòu)信息的新的特征。大多數(shù)的圖神經(jīng)網(wǎng)絡(luò)是基于半監(jiān)督/監(jiān)督學習的,包括圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)[23]、圖注意力網(wǎng)絡(luò)(graph attention network,GAT)[24]、GraphRNN[25]和SplineCNN[26]。而無監(jiān)督的圖神經(jīng)網(wǎng)絡(luò)主要分為基于隨機游走的方法[27-28]和基于互信息的方法[8]。
與傳統(tǒng)的圖神經(jīng)網(wǎng)絡(luò)不同,異構(gòu)圖神經(jīng)網(wǎng)絡(luò)需要解決異構(gòu)圖中異質(zhì)性帶來的一系列問題,如不同類型、不同語義的節(jié)點與邊。同樣,大多數(shù)的異構(gòu)圖神經(jīng)網(wǎng)絡(luò)也是基于半監(jiān)督/監(jiān)督學習的,包括關(guān)系圖卷積網(wǎng)絡(luò)(relational graph convolutional network,RGCN)[20]和異構(gòu)圖注意力網(wǎng)絡(luò)(heterogeneous graph attention network,HAN)[18]等。而無監(jiān)督的異構(gòu)圖神經(jīng)網(wǎng)絡(luò)則主要分為基于近鄰的方法和基于互信息的方法。
一個異構(gòu)圖可以表示為節(jié)點與邊的集合G=(V,E),該圖具有一個節(jié)點類型映射函數(shù)φ:V→T和一個邊類型映射函數(shù)ψ:E→R,并且滿足| T| +| R| >2。另外,節(jié)點的屬性和內(nèi)容可以編碼為初始特征矩陣X∈R|V | ×D。
異構(gòu)圖表示學習任務(wù)旨在學習包含G的結(jié)構(gòu)信息和X的節(jié)點屬性信息的低維節(jié)點表征H∈R|V | ×d。本文使用Vt表示目標類型的節(jié)點集合。為了簡化問題設(shè)置,利用對稱且無向的元路徑來表示目標類型節(jié)點Vt之間的緊密度。形式上,路徑被定義為節(jié)點vt1和vtn之間的元路徑。進一步地,本文將使用的元路徑集表示為Φ={Φ1,Φ2,…,ΦP},其中Φi表示第i個元路徑類型。基于定義的元路徑可以生成相應(yīng)的鄰接矩陣集合,其中,。
形式上,節(jié)點vi的表征hi和其局部子圖Gi=(Xi,Ai) 之間的圖互信息可以表示為局部互信息(即節(jié)點與一個近鄰間的互信息)的加權(quán)和[10]:


其中,in表示Xi中節(jié)點的數(shù)目,aij是鄰接矩陣Ai中的邊權(quán)重,wij表示局部互信息I(hi;xj) 對全局互信息I(hi;Gi) 的貢獻。
相應(yīng)地,在異構(gòu)圖中,給定鄰接矩陣集合AΦ,異構(gòu)圖互信息可以表示為不同鄰接矩陣中給定節(jié)點vi與其對應(yīng)子圖間互信息的和:

基于局部圖互信息最大化的異構(gòu)圖神經(jīng)網(wǎng)絡(luò)模型主要由2 個模塊組成,即基于元路徑的局部表征編碼器與局部圖互信息計算模塊,整體框架如圖1所示。

圖1 HGMI 的模型框架
首先,給定由一組元路徑定義的鄰接矩陣,局部表征編碼器將分別在每個鄰接矩陣中利用圖卷積模塊生成目標類型節(jié)點的表征。然后,通過語義級別的注意力機制整合各個鄰接矩陣中生成的節(jié)點表征。之后,局部圖互信息計算模塊將利用生成的節(jié)點表征與采樣到的、各個鄰接矩陣中的局部子圖,計算相應(yīng)的局部圖互信息。最終,以最大化互信息作為目標函數(shù),實現(xiàn)對模型參數(shù)的訓練,并得到優(yōu)化后的節(jié)點表征。
在鄰接矩陣集合AΦ中,每一個鄰接矩陣表示一個同構(gòu)圖,因此,使用一個節(jié)點級的編碼器生成包含初始節(jié)點特征X和AΦi信息的節(jié)點表征:

其中,fΦi(·) 表示節(jié)點級的編碼器。為了能夠獲得更大的感受野,以獲得更多參與運算的信息量,同時有效地整合節(jié)點熟悉特征與局部結(jié)構(gòu)特征,選擇圖卷積網(wǎng)絡(luò)(GCN)作為節(jié)點級編碼器,來生成每個鄰接矩陣中的節(jié)點表征:

基于特定鄰接矩陣學習的節(jié)點表征僅包含特定的語義信息。為了獲得包含多種關(guān)系語義的節(jié)點表征,一種直觀且有效的解決方案是探索每個元路徑應(yīng)為最終節(jié)點表征貢獻多少,然后將各自的貢獻作為權(quán)重聚合各個獨立的節(jié)點表征。這里通過添加一個語義注意力層Latt來學習相應(yīng)權(quán)重/貢獻:

具體通過式(8)~式(10)來計算元路徑Φi的重要性。

其中,Wsem表示線性變換參數(shù)矩陣,q表示需要學習的注意力語義向量。然后,利用softmax 函數(shù)對生成的集合進行正則化,以獲得元路徑Φi的重要性權(quán)重βΦi:

最終,異構(gòu)圖節(jié)點表示H將通過節(jié)點表征集合的線性組合獲得:

雖然本文的語義注意力層是受到HAN[18]的啟發(fā),但在模型優(yōu)化上仍存在著差異。HAN 利用分類交叉熵作為損失函數(shù),學習方向?qū)⒂捎柧毤袠撕灅颖局笇АS捎趯撕灅颖镜囊蕾?HAN 容易受到訓練集中標簽分布的影響,使得模型優(yōu)化方向向有利于部分占比大的標簽的方向偏移,進而造成語義級別注意力權(quán)重的分配失衡,并最終影響節(jié)點表征的質(zhì)量。
而在本文的方法中,模型學習的注意力權(quán)重是由二元交叉熵損失(binary cross-entropy loss)指導的,即指導模型判斷給定節(jié)點是否屬于指定的局部子圖。因此,模型學習到的權(quán)重有助于衡量節(jié)點在不同分布下與其近鄰節(jié)點的相似程度,即節(jié)點輸入特征與其近鄰節(jié)點的輸入特征越相似,分配的權(quán)重越大。同時,由于不涉及分類標簽,因此權(quán)重不會因已知標簽而產(chǎn)生偏差。
元路徑之間通常表現(xiàn)出不同程度的兼容性,換句話說,不同元路徑間可能存在相似的節(jié)點分布,同樣也可能存在極大差異的節(jié)點分布。例如在學術(shù)社交網(wǎng)絡(luò)中,以論文作目標節(jié)點,論文涉及的領(lǐng)域作為標簽。那么,“論文引用關(guān)系”與“論文共作關(guān)系”之間的兼容性要強于“論文引用關(guān)系”與“術(shù)語共用關(guān)系”之間的兼容性。這是因為,同一作者的論文更大概率上是關(guān)注同一個研究領(lǐng)域的,而相同術(shù)語可以被多個領(lǐng)域的論文共用。因此,在沒有先驗知識的指導下,注意力機制會使得模型更傾向于關(guān)注出現(xiàn)頻率較高的語義所代表的元路徑,從而忽略其他出現(xiàn)頻率較低的語義所代表的元路徑,即使得模型發(fā)生語義層面上的過擬合問題。針對該問題,本文提出了一種注意力平衡機制,用于防止語義層面過擬合的發(fā)生,詳細內(nèi)容將在下節(jié)進行描述。
考慮到語義級別注意力機制可能導致的語義過擬合問題,設(shè)計了一種注意力平衡機制,使得模型對所有元路徑均保持一定的關(guān)注度,而不是僅關(guān)注一部分特定的元路徑。具體通過將局部表征編碼器中注意力模塊生成的注意力權(quán)重以的形式加入到式(3)中,使得從不受關(guān)注的元路徑獲得的互信息可以對模型訓練產(chǎn)生一定的影響。換句話說,注意力平衡機制可以在模型優(yōu)化的過程中,根據(jù)生成的注意力權(quán)重βΦi實時調(diào)整互信息損失所占比重,使得模型可以在一個較為全面的感受野中進行參數(shù)更新,直到收斂。
局部圖互信息中主要計算的是節(jié)點表征與其近鄰輸入特征間的互信息。如果將添加為I(hi;xj) 的權(quán)重,則會干擾注意力權(quán)重的選取,導致節(jié)點表征聚合過多的噪音信息,使得模型無法得到有效的收斂。相反,如果將添加為的權(quán)重,一方面,可以使得節(jié)點表征保留不同元路徑下的結(jié)構(gòu)信息;另一方面,避免了節(jié)點表征在注意力權(quán)重的干預下聚合過多不必要的噪音信息。因此,式(3)可以變換為

參考MINE[29]的方法,直接最大化式(11)。需要注意的是,MINE 采用Donsker-Varadhan[30]表示聯(lián)合分布概率與邊緣概率乘積之間的KL 散度(Kullback-Leibler divergence)來估計互信息的下界。然而,當更多地關(guān)注最大化互信息而不是獲得其特定值時,可以使用其他非KL 替代方案,例如Jensen-Shannon 互信息估計器(JSD)[31]和噪聲對比估計器(infoNCE)[32],來代替KL 散度。在本文中,參考GMI的實驗結(jié)果[10],出于有效性和效率的考慮,采用JSD 估計器來最大化式(11)。換句話說,可以通過訓練一個判別器/雙線性函數(shù)D來對采樣的正負樣本集合進行區(qū)分,即判斷一個節(jié)點的表征是否屬于給定的局部子圖,以此來估計和最大化互信息。
具體地,利用式(12)來計算I(hi;xj)。

其中,Dw:D × D′表示由一個參數(shù)為w的神經(jīng)網(wǎng)絡(luò)構(gòu)成的判別器,x′j為從假設(shè)的經(jīng)驗概率分布P 中采樣的負樣本,sp(x)=log(1+ex) 表示softplus 函數(shù)。考慮到不同元路徑構(gòu)成的鄰接矩陣中節(jié)點的分布不同,使用同一判別器將不利于建模每個元路徑的語義信息。因此,本文分別構(gòu)建不同的判別器對不同鄰接矩陣中節(jié)點與局部子圖間的關(guān)系進行判斷。給定一個鄰接矩陣AΦt,節(jié)點vi與其鄰居節(jié)點的互信息I(hi;xj) 可以表示為

為了有效捕獲節(jié)點的結(jié)構(gòu)特征,本文將鄰接矩陣定義為無權(quán)重的鄰接矩陣,然后利用交叉熵替代JSD 估計器來最大化:

綜上所述,結(jié)合式(11)~式(14),可以得到最終的目標函數(shù):

其中,I(hi;xj) 用以計算節(jié)點表征向量與近鄰屬性特征向量之間的互信息,通過最大化該互信息將促使節(jié)點表征捕獲子圖中屬性特征的分布,進而在全局視角中,使得具有相似屬性特征分布的節(jié)點生成相似的表征;而則計算2 個節(jié)點間存在邊鏈接的概率。通過最大化此概率,可以保證節(jié)點表征保留低價近似度(low-proximity),進而在局部視角中,使得相連節(jié)點間具有相似的表征。因此,通過對目標函數(shù)式(15)進行優(yōu)化,既可以保證全局視角中具有相似屬性特征的節(jié)點表征的相似性,又可以保留局部視角中結(jié)構(gòu)的近似性。此外,通過注意力平衡機制權(quán)衡多個元路徑下的損失,有利于節(jié)點表征捕獲語義上下文信息。
分別在DBLP 與IMDB 2 種異構(gòu)圖數(shù)據(jù)集上評估本文提出的HGMI 方法,相關(guān)統(tǒng)計數(shù)據(jù)如表1 所示。

表1 實驗數(shù)據(jù)統(tǒng)計信息
DBLP 數(shù)據(jù)集是一種研究論文集,其中每篇論文包含相應(yīng)的發(fā)表會議、作者與關(guān)鍵詞等信息。作者節(jié)點可劃分為4 個研究領(lǐng)域,即數(shù)據(jù)庫、數(shù)據(jù)挖掘、信息檢索和機器學習。本文選擇作者作為目標節(jié)點,并使用作者所屬的研究領(lǐng)域作為標簽。最初的特征則是根據(jù)作者的個人資料利用詞袋模型生成的。
IMDB 數(shù)據(jù)集是關(guān)于電影的知識圖數(shù)據(jù),可以分為3 種類型,即動作、喜劇和戲劇。本文選擇電影作為目標節(jié)點,并使用電影的類型作為標簽。電影的特征則由色彩、標題、語言、關(guān)鍵字、國家、評分、年份以及TF-IDF 編碼組成。
本文將對比方法分成兩類,分別是無監(jiān)督的圖表示學習方法和有監(jiān)督的圖表示學習方法。
其中,無監(jiān)督的圖表示學習方法包括:(1)Raw Feature,即將初始的輸入特征作為節(jié)點表征;(2)3 個異構(gòu)圖表示學習方法,即Metapath2vec (M2V)、HDGIC與HDGIA,其中HDGIC表示使用GCN 作為特征生成模塊的HDGI,而HDGIA則表示使用GAT 作為特征生成模塊的HDGI;(3)2 個同構(gòu)圖表示學習方法DGI[8]與GMI[10]。
有監(jiān)督的圖表示學習方法包括2 個異構(gòu)圖神經(jīng)網(wǎng)絡(luò)模型RGCN[20]與HAN 和2 個同構(gòu)圖神經(jīng)網(wǎng)絡(luò)模型GCN 和GAT。
需要注意的是,對于專為同構(gòu)圖而設(shè)計的方法,即DGI、GMI、GCN、GAT,不考慮圖的異質(zhì)性,而是構(gòu)造基于元路徑的鄰接矩陣,報告其中最佳的結(jié)果。
本文提出的HGMI 方法使用Adam 優(yōu)化器進行優(yōu)化,并設(shè)定學習率為0.01。同時設(shè)定節(jié)點表征的維度為512,注意力表征的維度為8。使用Pytorch來實現(xiàn)本文的模型,并在帶有2 個GTX-1080ti GPU的服務(wù)器中進行實驗。
在節(jié)點分類任務(wù)中,本文為無監(jiān)督學習方法訓練邏輯回歸分類器進行分類,而有監(jiān)督方法則作為端到端模型直接輸出分類結(jié)果。分別取數(shù)據(jù)集的20%和80%作為訓練集進行實驗。另外,選擇10%的數(shù)據(jù)作為驗證集,以及10%的數(shù)據(jù)作為測試集。為了保證結(jié)果的穩(wěn)定性,將分類任務(wù)重復10 次,計算平均的宏F1 值(macro-F1)和微F1 值(micro-F1)。
考慮到實驗所用的數(shù)據(jù)集以及相關(guān)的評估方法、指標均與HGDI[9]相同,因此,直接與文獻[9]中的實驗結(jié)果進行比較。實驗結(jié)果如表2 所示。

表2 節(jié)點分類任務(wù)結(jié)果
從表2 中不難看出,基于異構(gòu)圖的方法,即HAN、HDGI 和HGMI,通常要優(yōu)于面向同構(gòu)圖的方法,即GCN、GAT、DGI 和GMI,這說明挖掘與保留異構(gòu)圖中的豐富語義信息有利于提高節(jié)點表征的質(zhì)量。同時,對比以輸入特征直接作為節(jié)點表征的實驗結(jié)果,可以有效排除輸入特征是導致模型獲得較好性能的主要因素的可能性。同樣,對比僅利用語義關(guān)系/網(wǎng)絡(luò)結(jié)構(gòu)進行表示學習的M2V,有效結(jié)合輸入特征與結(jié)構(gòu)信息的異構(gòu)圖表示學習方法通常可以獲得更好的節(jié)點表征。
與有監(jiān)督的圖神經(jīng)網(wǎng)絡(luò)方法的實驗結(jié)果相比,基于互信息的無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)方法同樣可以獲得較好的實驗效果,甚至是表現(xiàn)得更好,如HGMI 與HDGI。這表明在缺少監(jiān)督信息的場景下,基于互信息的無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)方法會是很好的選擇。該觀察結(jié)果還表明,通過有監(jiān)督的方式在圖結(jié)構(gòu)中學習到的特征可能存在局限性,即易受來自數(shù)據(jù)標簽的分布或是下游任務(wù)表現(xiàn)出的偏好的影響。而這些局限性可能嚴重影響表示學習方法在真實場景中的應(yīng)用。
此外,對比HGMI 與HDGI 的結(jié)果,可以發(fā)現(xiàn)本文方法的分類效果在2 個數(shù)據(jù)集中均有提升,這充分反映了在同時考慮多個、具有不同結(jié)構(gòu)的鄰接矩陣時,引入局部圖互信息以及注意力平衡機制的必要性。一方面,局部圖互信息可以使模型更關(guān)注節(jié)點近鄰的信息,而不是全圖的信息,從而避免引入不必要的噪音信息;另一方面,注意力平衡機制可以使得模型對所有的元路徑均保留一定的關(guān)注,而不是過度關(guān)注某個/部分元路徑,從而使得節(jié)點表征獲得來自其余語義關(guān)系的信息。
另外,在IMDB 數(shù)據(jù)集中,GMI 的效果要差于DGI 的效果。這主要是因為,在IMDB 數(shù)據(jù)集中,目標節(jié)點間通過元路徑構(gòu)建的關(guān)聯(lián)關(guān)系往往是弱相關(guān)的,例如,同一個導演可能指導不同類型的影片,而同一個演員也可能出演不同類型的影片。因此,這種弱相關(guān)性往往會引入較多的噪音,即具體不同輸入特征的鄰居節(jié)點。不同于GMI,HGMI 通過注意力機制聚合不同鄰接矩陣中近鄰的信息,從而過濾噪音信息,保證節(jié)點表征的質(zhì)量。
在節(jié)點聚類任務(wù)中,利用K-mean 算法對生成的節(jié)點表征進行聚類。其中,聚類的簇數(shù)被設(shè)定為目標節(jié)點的類別種類的數(shù)目。在該任務(wù)中,僅比較無監(jiān)督的方法,即Raw、M2V、DGI、GMI、HDGI 與HGMI。同樣重復進行10 次聚類任務(wù),并在表3 中展示平均的標準互信息(normalized mutual information,NMI)和調(diào)整蘭德系數(shù)(ARI)。

表3 節(jié)點聚類任務(wù)結(jié)果
從表3 中不難看出HGMI 始終要優(yōu)于其他的對比方法。結(jié)合節(jié)點分類任務(wù)的結(jié)果,發(fā)現(xiàn)對比方法均存在不同程度的過平滑問題,即局部結(jié)構(gòu)中的節(jié)點表征變得過于相似。換句話說,相似的節(jié)點表征在一定程度上有利于分類器對節(jié)點進行分類;反之,在進行節(jié)點聚類時,相似的節(jié)點表征則會使得節(jié)點聚集在一起,從而變得無法區(qū)分。而通過綜合考慮多個鄰接矩陣下的近鄰的分布情況,以及有選擇地從中提取有用的信息,HGMI 可以有效地防止過平滑問題的發(fā)生。
為了進一步說明注意力平衡機制起到的作用,分別可視化HGMI、HDGI 以及去除注意力平衡機制的HGMIna在IMDB 數(shù)據(jù)集上最終的注意力權(quán)重,結(jié)果如圖2 所示。
從圖2 中可以看出,HDGI 主要關(guān)注MKM 關(guān)系;相反,HGMIna則主要關(guān)注MDM 與MAM 關(guān)系。這不難理解,MKM 通過電影間相同的關(guān)鍵詞構(gòu)建關(guān)系,由于多數(shù)關(guān)鍵詞的通用性,使得電影節(jié)點連接得更為緊密、表征變得更為相似,導致圖讀出操作(readout)生成的全局圖表征與節(jié)點表征具有更大的互信息,從而使得MKM獲得較大的關(guān)注。反之,MDM 與MAM 往往會使得少量、具有相似屬性/特征的節(jié)點聚集在一起,使得局部子圖與節(jié)點表征間的互信息變大。

圖2 IMDB 數(shù)據(jù)集中不同元路徑的注意力權(quán)重
而在加入了注意力平衡機制后,HGMI 不僅可以對MDM 與MAM 保持較高的注意力權(quán)重,同時,也會為MKM 分配一定的權(quán)重,而不是直接將其忽略。通過這種方式,HGMI 可以聚合到在MDM 與MAM 中接觸不到的節(jié)點的特征。
本文主要討論了利用圖互信息進行無監(jiān)督的異構(gòu)圖表示學習的方法。首先通過元路徑將異構(gòu)圖轉(zhuǎn)化為多個具有特定語義的同構(gòu)圖;然后在每個同構(gòu)圖中進行圖卷積操作,并利用注意力機制對相同節(jié)點的不同表征進行融合;在此基礎(chǔ)上,最大化每個圖中局部子圖與節(jié)點表征間的互信息,使得節(jié)點表征可以有效聚合不同語義關(guān)系下近鄰的輸入特征。同時,為防止語義過擬合的發(fā)生,引入注意力平衡機制,使得模型對所有語義關(guān)系均保持一定的關(guān)注度。實驗結(jié)果表明,本文方法相比于其他方法,可以在節(jié)點分類與節(jié)點聚類任務(wù)中獲得更好的效果。