999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于變分推斷和元路徑分解的異質網絡表示方法

2021-06-01 03:41:34孫海超譚洪勝
上海交通大學學報 2021年5期
關鍵詞:語義實驗模型

袁 銘, 劉 群, 孫海超, 譚洪勝

(重慶郵電大學 計算機科學與技術學院, 重慶 400065)

網絡表示學習[1-2]是網絡數據挖掘中的一項重要技術,能夠將網絡中的每個節(jié)點用一個向量表示出來,從而把網絡結構映射到一個由節(jié)點向量組成的低維空間,為基于網絡拓撲的鏈路預測、節(jié)點分類、聚類等任務提供數據結構的支撐.在實際應用中,不同的復雜信息網絡通常都具有異質性,其表現為在同一個網絡中包含多種不同類型的節(jié)點和多種不同類型的鏈接關系,這種網絡也被稱為異質網絡.與同質網絡相比,這類網絡通常具有豐富的交互關系.其中,不同類型的節(jié)點和鏈接都隱含了極其豐富的語義和結構信息,如智能電網、生物蛋白質網絡、社交網絡等.

近年來,同質網絡表示學習已經取得了豐富的成果.Deepwalk算法[3]利用隨機游走首次將網絡結構建模為語料序列,結合Skip-Gram模型得到節(jié)點的低維表示,為網絡分析任務提供了新的思路.隨后,更多的同質網絡表示算法被提出[4-6],如Node2vec算法和LINE算法,采用不同的隨機游走設計,結合Skip-Gram模型學習更為準確的節(jié)點向量表示.但以上方法將不同類型的節(jié)點和鏈接都視為相同類型來建模,不具備針對異質網絡的有效設計.顯然,如果忽略網絡的異質性問題,容易導致各種網絡分析任務的準確性有所降低.只有表征出網絡中不同類型節(jié)點及鏈接的獨有特征,才能捕獲網絡中豐富的語義,因此對異質網絡表示學習的研究具有重要意義.

由于異質網絡中節(jié)點和鏈接的復雜性,傳統(tǒng)的同質網絡表示方法難以直接應用于異質網絡表示學習中.近年來,國內外許多研究者進行的一些相關研究,可以概括為以下3類.① 基于淺層網絡的方法,這類方法通過隨機游走捕獲網絡結構,結合淺層模型學習節(jié)點向量的表示.文獻[7]中提出了HIN2vec算法,通過聯合執(zhí)行多個預測訓練任務來預測兩個節(jié)點之間的關系,并將預測任務轉化為二分類問題,利用兩層神經網絡學習異質網絡中節(jié)點和元路徑的表示.文獻[8]中提出了Metapath2vec算法,利用基于元路徑的隨機游走構建節(jié)點的異質鄰居,擴展了Skip-Gram模型,從而為結構和語義上相近的節(jié)點建模.文獻[9-10]中針對異質文本網絡和跨網絡場景學習節(jié)點的表示,采用網絡分解來簡化異質網絡的表示建模.② 基于深度網絡的方法,這類方法采用不同深度學習的方法獲得網絡中高度非線性的特征.文獻[11-13]中嘗試將卷積神經網絡、自動編碼器、強化學習等方法用于異質網絡中節(jié)點的表示學習.隨著圖神經網絡在網絡分析任務中表現出優(yōu)異的性能,一些研究者將其擴展到了異質網絡的分析中[14-15],針對異質網絡中不同類型節(jié)點和鏈接的特點,改進圖神經網絡消息傳遞方式,聚合不同類型鄰居生成節(jié)點的向量表示.③ 基于屬性異質網絡的方法,這類方法嘗試利用年齡、性別、地理位置等額外的節(jié)點信息,研究更為復雜的異質網絡場景.文獻[16-17]中針對金融現金檢測和用戶購物場景,利用線性變換將額外的屬性信息映射到低維空間,并通過設計分層的異質網絡表示架構,較好地進行了融合,學習到更加豐富的節(jié)點表示.

盡管將上述各種表示方法應用于不同網絡任務中都獲得了較好的效果,但是仍然存在以下兩個問題.首先,節(jié)點間關系的表示都是基于鄰居節(jié)點的相似性計算獲得的,無法反映無直接邊的節(jié)點間的相似關系;其次,整個網絡拓撲結構的表示過程采用的均為基于元路徑的隨機游走策略,忽略了相鄰節(jié)點間的真實關系.顯然在實際網絡中,不存在直接連邊的節(jié)點仍然有可能具有較高的相似性,而簡單的基于固定概率隨機選擇生成的節(jié)點序列,并不能保證生成高度緊密相似的節(jié)點序列.為此,本文提出了基于變分推斷和元路徑分解的異質網絡表示方法HetVAE,主要貢獻如下:

(1) 引入路徑相似度度量,通過不同語義下的異質路徑實例計算出同類型節(jié)點的相似度,并在相似度的引導下設計不同類型節(jié)點的選取概率,改進了基于元路徑隨機游走的節(jié)點選擇策略,使得生成的節(jié)點序列更準確.

(2) 引入變分推斷理論,通過變分Bayesian推斷優(yōu)化真實先驗分布與后驗分布之間的誤差,同時近似推導出潛在變量,從而學習到更符合真實網絡分布的節(jié)點向量,使得異質網絡中的節(jié)點向量表示更具穩(wěn)健性.

(3) 引入元路徑思想將異質網絡拆分為多個同質子網絡,以便獲取原始網絡不同視角下的豐富語義信息,進而結合注意力機制,通過網絡重建和將拆分后各個加權子網絡的節(jié)點向量進行融合.

本文通過相似度改進的節(jié)點選擇策略,較好地解決了異質網絡中傳統(tǒng)元路徑隨機游走不精確的問題;利用變分推斷捕獲網絡的真實分布,改進了傳統(tǒng)異質網絡表示模型不能觀測潛在變量的缺陷;結合注意力機制,自動融合不同視角下的語義信息.在多個數據集上的不同網絡任務的實驗結果表明,所提方法能夠獲得更好的結果.

1 預備知識

首先,給出后續(xù)使用的基本定義和概念.其中,關于異質網絡以及元路徑的概念可以參考文獻 [18-19].

一個典型的異質網絡DBLP學術網絡如圖1所示.該網絡中4種不同類型的節(jié)點,作者(A)、論文(Pa)、會議(C)、關鍵詞(T) 如圖1(a)所示;網絡中3種不同類型的邊關系,包含論文和作者、論文和會議、論文和關鍵詞如圖1(c)所示.這3種類型的邊關系分別涵蓋了3條元路徑,每一條元路徑代表一種語義,元路徑APaA代表兩位作者的合著關系,元路徑APaCPaA代表兩位作者的文章發(fā)表在同一期刊/會議上,元路徑APaTPaA代表兩位作者的文章具有相同關鍵詞.

圖1 DBLP異質網絡示例Fig.1 An example of a DBLP heterogeneous network

元路徑引導下的鄰居節(jié)點:在異質網絡中給定一條元路徑P,對于任意節(jié)點vi,元路徑P引導下的鄰居節(jié)點定義為節(jié)點vi通過元路徑P到達的所有節(jié)點,記為NP(vi),定義中的鄰居節(jié)點也包含vi本身.由圖1(c)可知,對于節(jié)點A1,在元路徑APaA下的鄰居節(jié)點是A2.

2 基于變分推斷的異質網絡表示模型

圖2 HetVAE的整體框架Fig.2 Overall frame work of HetVAE

2.1 拆分異質網絡

2.1.1改進的隨機游走策略 在異質網絡中元路徑用于定義不同類型節(jié)點之間的關系.由于元路徑約束下的隨機游走能夠探索異質網絡的復雜完整結構,捕獲網絡的全局語義信息,所以基于元路徑的隨機游走成為異質網絡挖掘中的一種通用方法.然而,傳統(tǒng)的元路徑隨機游走由于游走過程隨機性較強,無法體現節(jié)點間的相似關系,導致不能精確地表示網絡結構.目前,在異質網絡表示的節(jié)點相似性計算中,大多數計算公式都是基于同質網絡而設計的,如路徑總數相似度、游走相似度、成對游走相似度等計算方法,更傾向于使高度可見(即與大量路徑有關聯的對象)或者高度集中的對象(即占一組關聯路徑中很大比例的對象)獲得更高的相似度[19].這一類相似度度量方法沒有考慮路徑背后的不同語義,忽略了對象和鏈接之間的異質性,使得相似性計算方法缺乏合理性.

為了解決這一問題,本模型引入PathSim算法[19]來度量異質網絡下元路徑上節(jié)點的相似性.這種節(jié)點相似性度量方法能夠通過考慮異質網絡中的鏈接關系類型,識別出元路徑下語義更為一致的相似節(jié)點.改進后的元路徑隨機游走節(jié)點選擇策略,使得生成的節(jié)點序列能夠在有限步驟的隨機游走過程中捕獲網絡中的語義信息,提高生成的節(jié)點序列的質量.

sim(v,y)=

(1)

在獲得對應于不同元路徑的同質網絡過程中,為了更準確地選擇元路徑引導中的不同類型節(jié)點,本模型分成兩種情況進行處理.

(1) 當后繼鄰居節(jié)點類型與元路徑起始節(jié)點類型一致時,則計算出該后繼節(jié)點與其前驅節(jié)點的sim(v,y)值,相似度值越大的節(jié)點具有更大的選擇概率.對鄰居節(jié)點的選擇概率公式為

(2)

(2) 對于不同于元路徑起始節(jié)點類型的鄰居節(jié)點,由于其主要作用是構成語義約束,所以對這類鄰居節(jié)點的選擇概率可以相同,其計算公式如下:

(3)

節(jié)點選擇策略如圖3所示,其中虛線表示根據式(3)的選擇概率選擇下一跳節(jié)點.以A1節(jié)點為例,下一跳節(jié)點包含Pa1、Pa2兩個節(jié)點,其類型與A1節(jié)點不同,因此選擇的概率相同.實線表示從Pa類型根據式(2)的選擇概率選擇下一跳節(jié)點,以Pa2節(jié)點為例,下一跳節(jié)點包含A2、A3兩個節(jié)點,其類型與初始節(jié)點A1相同,則應計算元路徑APaA下的PathSim相似度,并根據式(2)的選擇概率選擇節(jié)點,根據選擇概率計算可知A2被選擇的可能性比A3更大,這是由于在APaA元路徑下,從A1節(jié)點出發(fā)到A2節(jié)點具有更多的可達路徑.

圖3 節(jié)點選擇策略示例Fig.3 Example of a node selection strategy

2.1.2重建同質網絡 通過在元路徑隨機游走過程中保留元路徑P1,P2,…,Pi引導下的同類型鄰居節(jié)點,異質網絡能轉化為多組同質節(jié)點序列H1,H2,…,Hi.為了能夠捕獲網絡中反映每個節(jié)點的特征向量,本模型將上述節(jié)點序列重構為同質網絡.

圖4 DBLP中重構同質網絡矩陣說明Fig.4 Reconstruction of homogeneous network matrix in DBLP

2.2 變分自編碼器生成節(jié)點向量

DKL(qφ(z(i)|x(i))‖pθ(z(i)|x(i)))=

lnpθ(x(i))-Eqφ(z(i)|x(i))[lnpθ(x(i)|z(i))-

lnqφ(z(i)|x(i))]

(4)

式中:Eqφ(z(i)|x(i))為識別模型的期望.其從后驗分布中采樣的潛在變量z(i)可以表示為

z(i)=μ(i)+σ(i)⊙ε(i)

(5)

式中:⊙表示逐元素乘法.最終獲得原始網絡分布中每一個數據x(i)的損失函數近似估計結果為

Γ(θ,φ;x)?

(6)

式中:第1項為近似后驗分布和先驗分布的KL散度;第2項為重建誤差對后驗分布的期望.

為了獲得原始異質網絡中節(jié)點的向量表示,HetVAE將生成的多個同質網絡矩陣作為變分自編碼器的輸入.在本文中,輸入數據和生成數據均為節(jié)點對象.通過訓練,利用變分推斷理論對隱空間中的節(jié)點數據分布進行采樣,生成各個同質網絡中所有節(jié)點的向量表示.模型的編碼器和解碼器均為多層感知機(MLP).

(7)

對于輸入的xk其對應的隱空間表示zk由下式計算可得:

(8)

(9)

(10)

(11)

(12)

c=2,3,…,C

(13)

式中:μd、σd分別為μk、σk的第d維的均值和方差分量,即μk=[μ1μ2…μD]和σk=[σ1σ2…σD]兩個向量.為了加速收斂速度,將編碼器原本的均值輸出σ轉化為上式中的ln(σ2),記為δ=ln(σ2).通過計算σ=eδ/2可以得到原本的均值σ,這使得編碼器可以更容易獲得不同比例的均值σ.經過簡化之后的KL散度損失函數可以表示為

(14)

對應的隱變量z的式(12)則重寫為

(17)

(18)

(19)

c=2,3,…,C-1

由于所獲得的同質網絡鄰接矩陣是典型的稀疏矩陣,即在鄰接矩陣G(i)中零元素遠遠多于非零元素.如果直接對G(i)最小化重建誤差,網絡將更容易重建零元素,而不是更有意義的非零元素.因此,HetVAE對非零元素加入了更多的懲罰,使模型能夠優(yōu)先重建非零元素,修正后的重建誤差損失函數如下:

(20)

模型訓練的損失函數由式(7)變換如下:

Γvae=Γrec+ΓKL+Γreg=

(21)

2.3 多視角信息的融合

顯然,只有將多視角下的同質網絡表示向量進行融合才能獲得原始異質網絡中節(jié)點的最終向量表示.由于拆分后的子網絡描述了不同語義,進行向量融合的一種合理的方式就是利用注意力機制[21].常見的注意力機制包括自注意力和多頭注意力等.自注意力機制減少了對外部信息的依賴,擅長捕捉數據或特征的內部相關性.多頭注意力機制通過利用多個注意力頭來學習注意力權重,擅長捕捉不同空間的關聯關系.考慮到不同視角下節(jié)點對不同語義的關注程度,自注意力機制并不適合于求解不同視角的關注,同時多頭注意力機制由于需要計算多次權重,會嚴重影響模型的訓練速度.因此,本文模型結合多層感知器實現注意力機制,將不同子網絡的節(jié)點向量進行融合.

(22)

(23)

(24)

(25)

(26)

2.4 模型算法描述

綜上所述,HetVAE的核心思想如下所示:

算法1HetVAE算法模型.

輸入異質網絡G(V,E)

元路徑集合{P1,P2,…,Pi}

懲罰因子B

輸出節(jié)點的最終表示Z

(1) forPi∈{P1,P2,…,Pi}do

/*拆分異質網絡*/

(2) for eachvi∈Vdo

(3)v←startvi

(4) if type(v) is equal to type (y) then

(5) calculate sim(v,y), select a node by Eq.2

/*選取同類型節(jié)點*/

(6) else

(7) select a node by Eq.3

/*選取不同類型節(jié)點*/

(8) obtain homogeneous node sequencesHi

/*獲得同質節(jié)點序列*/

(9) end if

(10) reconstructing a homogeneous network

/*重構同質網絡*/

(11) end for

(12) end for

(13) forG(i)∈{G(1),G(2),…,G(i)} do

(14) initialized parametersW(i),b(i),B

(15) repeat

(16) minimizeΓvae=Γrec+ΓKL+Γreg

(17) until converge

(18) extract the hidden layer to get the

node representationz(i)/*獲取隱層表示*/

(19) end for

(20) for eachvi∈Vdo

(22) end for

(23) returnZ(vi)

3 實驗與結果

為了驗證HetVAE模型的有效性,在3個真實數據集DBLP、AMiner、Yelp上使用微觀F1值(Micro-F1)、宏觀F1值(Macro-F1)、標準化互信息(NMI)和調整蘭德系數(ARI)評價指標,針對3種典型的異質網絡挖掘任務:節(jié)點分類、節(jié)點聚類、可視化進行了實驗評估.

3.1 數據集

實驗使用的3個被廣泛研究的公開數據集:DBLP[14]、AMiner[8]、Yelp (https://www.yelp.com/dataset/),其詳細描述如表1所示.其中:Bu為企業(yè);S為服務;St為星級;U為用戶.

(1) DBLP數據集:包含論文、作者、會議/期刊、關鍵詞4類節(jié)點,并按照作者的研究領域劃分為4個類別,包含數據庫、數據挖掘、人工智能、信息檢索,以此作為標簽.模型使用元路徑集合{APaA,APaCPaA,APaTPaA}進行實驗.

(2) AMiner數據集:實驗抽取了AMiner的一個子集,包含論文、作者、會議/期刊3類節(jié)點,同樣按照作者的研究領域進行劃分,得到8個類別,包含計算機語言學、計算機圖形學、計算機網絡和無線通信、計算機視覺和模式識別、計算機系統(tǒng)、數據庫和信息系統(tǒng)、人機交互、理論計算機科學,以此作為標簽.模型使用元路徑集合{APaA,APaCPaA}進行實驗.

(3) Yelp數據集:包含企業(yè)、用戶、星級、服務4類節(jié)點,按照企業(yè)的類型進行劃分,得到3個類別,包含酒店、購物、食品,以此作為標簽.模型使用元路徑集合{BuSBu,BuStBu,BuUBu}進行實驗.

表1 數據集描述Tab.1 Dataset description

3.2 對比算法

實驗選取了一些較新的先進方法進行了比較,包含2個同質網絡方法和4個異質網絡方法,用以驗證本文算法的有效性.對于同質網絡算法,在實驗中忽略節(jié)點的異質性,將算法應用在整個異質圖中.對于異質網絡算法,在實驗中測試了所有元路徑.對比算法給出的均為最優(yōu)結果.

(1) Deepwalk[3]:采用隨機游走捕獲網絡結構,利用Skip-Gram模型學習節(jié)點的表示.

(2) Node2vec[4]:通過調整隨機游走的深度和廣度獲得網絡結構,利用帶負采樣的Skip-Gram模型學習節(jié)點表示.

(3) HIN2vec[7]:以元路徑形式指定的一組關系聯合執(zhí)行多個預測訓練任務,學習異質網絡中節(jié)點和元路徑的表示.

(4) Metapath2vec[8]:利用元路徑隨機游走構建節(jié)點的異質鄰居,并采用異質的Skip-Gram模型最大化異質上下文概率.

(5) HERec[22]:設計了一種類型約束策略來過濾節(jié)點序列,并采用Skip-Gram模型來對網絡進行嵌入.

(6) HAN[14]:設計了異質圖下的節(jié)點級注意力和語義級注意力,并采用圖神經網絡對基于元路徑的鄰居特征進行分層聚合生成節(jié)點向量.

(7) HetVAErw:未使用改進的隨機游走選擇策略,采用普通元路徑隨機游走算法的模型.

(8) HetVAEsk:未使用VAE生成節(jié)點向量,采用Skip-Gram算法對網絡進行訓練的模型.

(9) HetVAEcon:未使用個性化元路徑注意力機制,采用拼接的方式融合最終向量的模型.

(10) HetVAE:本文所提出的完整模型.

3.3 參數設置

本模型的所有實驗均在Intel(R) Core(TM) i5-7300HQ(2.5 GHz) CPU,NVIDIA GTX1060(6G) GPU,16 GB內存的硬件環(huán)境下完成訓練,所涉及的代碼使用Python和Tensorflow框架實現.

為了進行公平對比,實驗中將所有算法最終生成的節(jié)點向量維數設置D=128,對于需要隨機游走的算法,設置每個節(jié)點的步數為10,隨機游走長度為80.對于Deepwalk、Metapath2vec、HERec,選取了各自文獻中給出的窗口大小參數為5.對于Node2vec其窗口大小參數為5,廣度優(yōu)先參數為4,深度優(yōu)先參數為1,負采樣比率為5.對于HIN2vec,設置窗口大小參數為4.對于HAN,其正則化參數為0.001,注意力頭個數為8,注意力向量維度為128,實驗采用了其論文中相同的處理方法,對節(jié)點特征進行提取.在DBLP、AMiner數據集中,節(jié)點特征為作者論文關鍵詞的詞袋表示;在Yelp數據集中,節(jié)點特征為企業(yè)星級類別的詞袋表示.對比實驗參數設置均與其文獻推薦的最優(yōu)參數一致.在實驗中,對于DBLP數據集而言,網絡結構為14475-1000-128-1000-14475,每一個數字代表網絡每一層的神經元個數,學習率設置為 0.000 1,懲罰項B設置為2,批處理大小為32.對于AMiner數據集而言,網絡結構為16543-2000-128-2000-16543,學習率設置為 0.000 35,懲罰項B設置為150,批處理大小為128.對于Yelp數據集而言,網絡結構為2614-1000-128-1000-2614,學習率設置為 0.000 1,懲罰項B設置為64,批處理大小為128.

3.4 節(jié)點分類

對于節(jié)點分類任務,將模型學習到的節(jié)點向量作為特征向量,和文獻[13]相同,采用K=5的K近鄰(KNN)分類器進行分類,使用Micro-F1和Macro-F1作為分類結果評估指標.為了使結果具有可靠性,采用重復10次的結果平均值,并將數據集的訓練集按照30%、50%、70%、90%的比例選取,同時打亂數據順序,以比較不同訓練尺度下的分類效果.

節(jié)點分類任務實驗結果如圖5所示,其中:Fmi為Micro-F1;Fma為Macro-F1;R為標簽節(jié)點的比例.從圖5中可以看出,HetVAE具有最優(yōu)性能.值得注意的是,AMiner網絡中各類方法表現得非常接近(見圖5(c)和(d)),其他的異質網絡方法均沒有超過同質網絡方法.由表1可知,這是因為AMiner網絡的平均度更小,網絡中節(jié)點更為稀疏,從而導致各種方法難以訓練,結果不具有顯著差異.得益于對稀疏矩陣的特殊處理,所提方法仍然有不錯的表現.盡管DBLP和AMiner這兩個網絡都是文獻網絡,但是相較于AMiner,DBLP增加了關鍵詞這類節(jié)點,各種類型節(jié)點的平均度更大.依靠論文之間相同的關鍵詞,論文類型節(jié)點能夠與更具相關性的文章進行相連.在與網絡中其他類型節(jié)點組合的過程中,能夠產生出語義準確豐富的元路徑.通過對比這兩個真實異質網絡的實驗結果,能夠發(fā)現對于語義信息越豐富的網絡DBLP,HetVAE效果更好.在不同于文獻網絡的Yelp網絡中,邊關系主要集中在企業(yè)和用戶之間,其網絡平均度相較于DBLP和AMiner網絡更大,節(jié)點鄰居數目更多,更難精確地獲得有意義的網絡結構,但所提方法仍然取得了最優(yōu)結果,說明了HetVAE具有較好的可拓展性.

圖5 節(jié)點分類任務實驗結果Fig.5 Experimental results of node classification tasks

為了驗證不同模塊的有效性,設計了一組消融實驗(見圖5).從圖5中可以看出,相對于HetVAE,HetVAErw的性能在DBLP、AMiner網絡中出現小幅度下降,在Yelp網絡中性能下降幅度較大,這說明改進的隨機游走策略在節(jié)點平均度越大的網絡中影響越大.同時網絡中節(jié)點平均度越大,找到有意義的節(jié)點越困難.當網絡的平均度較小時,隨機游走可以選擇的下一跳節(jié)點數量有限,在游走一定次數之后,普通隨機游走算法同樣能夠選擇到可能相似的節(jié)點.實驗結果證明了本文對隨機游走的節(jié)點選擇策略改進的有效性.

由圖5(e)和(f)可見,在Yelp網絡中,Metapath2vec和HERec算法由于僅能使用單條元路徑,其效果相比于同質網絡表示算法表現較差,說明普通的元路徑隨機游走算法在邊關系具有高度偏向性的網絡中具有缺陷.而利用多條元路徑的算法HIN2vec、HAN、HetVAE,由于對多視角信息的有效利用,能夠學習到更為豐富的節(jié)點表示.對于僅采用簡單拼接方式融合節(jié)點向量的方法HetVAEcon,其性能表現比HetVAE差.這說明個性化元路徑注意力機制能夠更好地為每個節(jié)點融合多視角信息,同時避免非重要信息帶來的噪聲影響,對學習不同語義的關注程度具有重要作用.

3.5 節(jié)點聚類

對于節(jié)點聚類任務,同樣將模型學習到的節(jié)點向量作為特征向量,和文獻[13]相同,采用K均值(K-Means)進行節(jié)點聚類,其中K值的設置隨數據集不同而不同.在DBLP實驗中K=4,在AMiner實驗中K=8,在Yelp實驗中K=3.同時使用NMI和ARI作為聚類質量的評價指標.實驗中均對聚類過程重復10次,取平均結果作為最終結果.

節(jié)點聚類任務的定量結果如表2所示,其中加粗的數值代表每列對比算法的最高值.由表2可以知道,HetVAE均優(yōu)于所有對比方法,且大部分異質網絡方法都比同質網絡方法表現得更好.其中,HIN2vec和HAN在部分數據集中的聚類效果較差,這是因為鏈路預測任務的準確性與網絡整個拓撲結構描述的全面性密切相關,而節(jié)點分類任務的準確性與能否有效捕獲局部的節(jié)點相似性有較大的關系.未使用變分推斷的HetVAEsk方法在節(jié)點的聚類任務中表現不如HetVAE,這說明考慮隱空間下的數據分布采樣,能夠有效地捕獲節(jié)點的相似性特征.

表2 節(jié)點聚類任務的定量結果Tab.2 Quantitative results of node clustering tasks

3.6 可視化

為了直觀地觀察模型學習到的節(jié)點序列向量的質量,采用向量的降維可視化方式,使用t-SNE方法將在DBLP網絡中學習到的所有作者的128維節(jié)點向量表示映射到2維空間中,不同的顏色代表其所屬的研究領域,在DBLP中作者的研究領域被劃分為4個不同類別,以不同顏色區(qū)分.在DBLP網絡中的向量可視化結果如圖6所示.其中:X為2維空間橫坐標;Y為2維空間縱坐標.

圖6 在DBLP網絡中的向量可視化結果Fig.6 Vector visualization results in DBLP network

由圖6可見,相比于其他方法,HetVAE能夠使得相同顏色的節(jié)點很好地聚集在一起,具有更高的區(qū)分度.

3.7 參數靈敏度

圖7 在Yelp網絡中的參數靈敏度實驗結果Fig.7 Results of parametric sensitivity experiments on Yelp network

為了測試參數對模型的影響,對Yelp網絡數據集進行了節(jié)點聚類任務的參數靈敏度實驗,測試參數包括懲罰因子B和向量表示維度D,實驗結果如圖7所示,其中I為NMI分數.由圖7可知,對于B因子,當B為16和32時,NMI分數比較平均;當B為64時,NMI分數達到峰值,此時聚類的效果最好;當B取值超過64時,NMI分數隨著懲罰因子B的增大而下降.由此可以看出,對非零元素過大的懲罰會為模型優(yōu)化帶來困難,適中的懲罰讓模型更容易學習更高質量的表示.對于向量維數D,當D的取值在32~128之間的時候,NMI分數持續(xù)上升;當D為128維時,NMI分數達到峰值;而當維數翻倍增加到256和512時,NMI分數逐步出現下滑.這表明更大的維度能夠編碼更多的信息,但同時可能造成冗余信息導致性能下降,節(jié)點向量需要一個合適的維度來編碼語義信息.對DBLP、Aminer網絡數據集的參數測試情況類似,這里不再贅述.

4 結語

本文針對異質網絡提出了基于變分推斷和元路徑分解的異質網絡表示方法HetVAE.通過對異質網絡進行多條元路徑的拆分,改進傳統(tǒng)元路徑隨機游走的節(jié)點選擇策略,較好地捕捉了不同視角下的子網絡結構.進一步利用變分推斷,對潛在空間中的變量采樣,優(yōu)化真實先驗分布與后驗分布之間的誤差,為多視角下的子網絡拓撲結構進行概率建模,獲得高質量的節(jié)點向量表示.最后采用個性化元路徑注意力機制,對節(jié)點向量表示進行融合,保留了原網絡的豐富語義和更真實的拓撲結構.實驗結果表明,HetVAE能夠有效地提高節(jié)點表示的質量,在不同的網絡任務中具有更好的準確性和有效性.在未來的工作中,將針對社交網絡應用,研究適合于推薦算法的異質網絡表示方法,使得網絡表示更符合真實應用場景,并探索網絡表示的可解釋模型.

猜你喜歡
語義實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 波多野吉衣一区二区三区av| 伊大人香蕉久久网欧美| 无码日韩视频| 国产一二三区视频| 欧美日韩动态图| 五月丁香伊人啪啪手机免费观看| 欧美翘臀一区二区三区| 精品国产免费第一区二区三区日韩| 国产一区二区在线视频观看| 亚洲成人手机在线| 色婷婷狠狠干| 亚洲成人www| 5555国产在线观看| 色呦呦手机在线精品| 无码电影在线观看| 天堂av综合网| 91在线播放国产| 欧美中文字幕无线码视频| 国产成人调教在线视频| 5388国产亚洲欧美在线观看| 亚洲精品无码不卡在线播放| 国产午夜福利亚洲第一| 亚洲男人天堂网址| 国产毛片高清一级国语| 无码久看视频| 99re这里只有国产中文精品国产精品 | 精品成人一区二区三区电影| 精品国产乱码久久久久久一区二区| 成人免费午间影院在线观看| 在线亚洲精品自拍| 国产午夜无码片在线观看网站| 伊人久久大香线蕉影院| 亚洲精品波多野结衣| 18禁高潮出水呻吟娇喘蜜芽| 国产激情无码一区二区APP| 国产精品一区不卡| 91午夜福利在线观看| 伊人福利视频| 黄色免费在线网址| 成人一级黄色毛片| 激情在线网| 久久久久无码国产精品不卡| 亚洲人在线| 亚洲中文字幕久久精品无码一区| 国产国产人免费视频成18| 国精品91人妻无码一区二区三区| 操美女免费网站| 亚洲美女一区二区三区| 在线国产三级| 中文国产成人精品久久一| 被公侵犯人妻少妇一区二区三区| 美女扒开下面流白浆在线试听| igao国产精品| 亚洲国产av无码综合原创国产| 国产主播一区二区三区| 国产精品任我爽爆在线播放6080| 日本高清在线看免费观看| 日韩在线2020专区| 另类综合视频| 久久综合丝袜日本网| 国产精品林美惠子在线播放| 在线精品欧美日韩| 亚洲中文字幕无码mv| 国产性爱网站| 日本精品一在线观看视频| 日韩在线播放欧美字幕| 亚洲 日韩 激情 无码 中出| 久久国产精品影院| 婷婷六月综合网| 欧美第二区| 4虎影视国产在线观看精品| 波多野结衣一区二区三区AV| 色综合狠狠操| 三级国产在线观看| 中文字幕在线播放不卡| 国产一区二区三区精品欧美日韩| 国产精品久久久久久搜索| 五月激情综合网| 污视频日本| 日韩成人在线一区二区| 午夜欧美理论2019理论| 大香伊人久久|