999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于復(fù)合關(guān)系圖卷積的屬性網(wǎng)絡(luò)嵌入方法

2020-08-25 06:57:20陳亦琦錢鐵云李萬理梁貽樂

陳亦琦 錢鐵云 李萬理 梁貽樂

(武漢大學(xué)計(jì)算機(jī)學(xué)院 武漢 430072)(yiqic16@whu.edu.cn)

信息網(wǎng)絡(luò),如社交網(wǎng)絡(luò)、蛋白質(zhì)網(wǎng)絡(luò)、用戶-物品評價(jià)網(wǎng)絡(luò)等在當(dāng)今社會(huì)中無處不在.網(wǎng)絡(luò)嵌入的目標(biāo)是學(xué)習(xí)網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的低維稠密向量.網(wǎng)絡(luò)嵌入作為網(wǎng)絡(luò)分析任務(wù)中的一個(gè)基本問題,已經(jīng)引起了研究者的廣泛關(guān)注[1-7].

現(xiàn)有的網(wǎng)絡(luò)嵌入方法大多側(cè)重于對圖結(jié)構(gòu)的建模,而沒有考慮節(jié)點(diǎn)屬性等邊信息.最近出現(xiàn)了面向?qū)傩跃W(wǎng)絡(luò)嵌入(attributed network embedding, ANE)的方法[8-11],在網(wǎng)絡(luò)分析任務(wù)方面展示出比傳統(tǒng)方法更好的效果.然而,現(xiàn)有ANE方法只考慮基本的關(guān)系比如用戶的屬性,忽略了諸如“用戶的鄰居的鄰居”等復(fù)合關(guān)系.

我們在圖1中給出了屬性網(wǎng)絡(luò)中的基本關(guān)系和復(fù)合關(guān)系的一個(gè)例子.實(shí)線表示原始的基本關(guān)系,虛線表示這2個(gè)節(jié)點(diǎn)之間將有一個(gè)構(gòu)造的復(fù)合關(guān)系.

Fig. 1 An example of basic and composite relations in an attributed network圖1 屬性網(wǎng)絡(luò)中基本關(guān)系和復(fù)合關(guān)系樣例

在圖1所示的屬性網(wǎng)絡(luò)(用戶節(jié)點(diǎn)U及其屬性A)中,有2種類型的基本關(guān)系:

1) 用戶-用戶關(guān)系(2個(gè)用戶是朋友),

2) 用戶-屬性關(guān)系(用戶的愛好是籃球或游泳).

從上述基本關(guān)系出發(fā)可以構(gòu)造出同質(zhì)網(wǎng)絡(luò)的復(fù)合關(guān)系來獲取網(wǎng)絡(luò)的其他性質(zhì),我們稱之為復(fù)合關(guān)系,如:

1) 用戶-用戶-用戶(uu-uu)關(guān)系(2個(gè)用戶都有一個(gè)到共同朋友的鏈接),

2) 用戶-屬性-用戶(ua-au)關(guān)系(2個(gè)用戶有相同的愛好).

顯然,復(fù)合關(guān)系比基本關(guān)系傳達(dá)了更多的信息.直覺上,2個(gè)既有共同朋友又有共同愛好的用戶比那些有共同朋友但沒有共同愛好的用戶更有可能成為朋友.雖然現(xiàn)有網(wǎng)絡(luò)嵌入方法如LINE[5]和SDNE[6]利用二階近似對uu-uu關(guān)系進(jìn)行編碼,卻沒有考慮屬性信息,從而忽略了ua-au關(guān)系.

為了解決上述問題,我們提出了一個(gè)新的框架來利用節(jié)點(diǎn)及其屬性之間的各種類型的關(guān)系.首先,在屬性網(wǎng)絡(luò)上構(gòu)建復(fù)合關(guān)系.然后,構(gòu)造一個(gè)復(fù)合關(guān)系的圖卷積網(wǎng)絡(luò)(composite relation graph convolution network, CRGCN)模型來編碼復(fù)合關(guān)系中的信息.與現(xiàn)有的ANE方法對比,本文模型由于編碼了復(fù)合關(guān)系而展示出比ANE方法更好的效果.

本文的主要貢獻(xiàn)包括3個(gè)方面:

1) 提出了一種無監(jiān)督屬性網(wǎng)絡(luò)嵌入框架,用于求解屬性網(wǎng)絡(luò)中的基本關(guān)系和復(fù)合關(guān)系;

2) 提出了一個(gè)復(fù)合關(guān)系圖卷積網(wǎng)絡(luò)來保留網(wǎng)絡(luò)中豐富的屬性信息;

3) 在真實(shí)數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),結(jié)果證明我們的框架對各種網(wǎng)絡(luò)分析都非常有效.

1 相關(guān)工作

網(wǎng)絡(luò)表示學(xué)習(xí)方法已經(jīng)應(yīng)用在多種分析任務(wù)上,包括鏈接預(yù)測[12]、節(jié)點(diǎn)分類[13]、社區(qū)發(fā)現(xiàn)[14]等.傳統(tǒng)的方法像局部線性嵌入(LLE)[15]、Laplacian EigenMap[16]都是基于降維技術(shù)的.近期,很多基于word2vec[17]的方法被提出,如DeepWalk[3],LINE[5],node2vec[18]等;也有偏重某類網(wǎng)絡(luò)分析任務(wù)或者結(jié)合新的神經(jīng)網(wǎng)絡(luò)架構(gòu)的網(wǎng)絡(luò)表示方法,如SNBC[19],HOPE[20],MNMF[21],Struc2vec[4],GraphGAN[22],ANE[23]和DynamicTriad[24]等.該類方法通常是從維護(hù)某種社會(huì)性質(zhì)出發(fā),通過神經(jīng)網(wǎng)絡(luò)的方式來擬合該性質(zhì),從而為每個(gè)節(jié)點(diǎn)學(xué)到一個(gè)更好的表示.比如:DeepWalk[3]是首個(gè)將word2vec[17]思想引入網(wǎng)絡(luò)表示中的方法,作者通過分別觀察在維基文本詞頻和在網(wǎng)絡(luò)節(jié)點(diǎn)中隨機(jī)游走后節(jié)點(diǎn)頻率的結(jié)果,發(fā)現(xiàn)二者都近似符合冪律分布,從而將詞與詞之間的上下文關(guān)系遷移到網(wǎng)絡(luò)中來,通過隨機(jī)游走“造句”來捕獲節(jié)點(diǎn)間的潛在關(guān)系.LINE[10]則是考慮了網(wǎng)絡(luò)中“一階相似性”和“二階相似性”的性質(zhì),從網(wǎng)絡(luò)中的鄰居關(guān)系和共有鄰居關(guān)系的角度進(jìn)行了建模.Node2vec[18]則是通過對DeepWalk的隨機(jī)游走策略進(jìn)行更細(xì)致的改進(jìn)來學(xué)習(xí)到節(jié)點(diǎn)表示.HOPE[20]通過維護(hù)有向網(wǎng)絡(luò)中的非對稱傳遞性來學(xué)習(xí)到節(jié)點(diǎn)間的高階相似性.GraphGAN[22]則是通過基于對抗生成的思想來對邊生成的過程進(jìn)行建模,從而對網(wǎng)絡(luò)進(jìn)行表示.

相比傳統(tǒng)方法,上述網(wǎng)絡(luò)嵌入方法通過結(jié)合社會(huì)性質(zhì)和深度神經(jīng)網(wǎng)絡(luò),取得了更好的性能.但是,該類方法致力于建模網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),而忽略了屬性信息,因此它們不適合用來建模屬性網(wǎng)絡(luò).

屬性網(wǎng)絡(luò)表示方法(attributed network em-bedding, ANE)同時(shí)將網(wǎng)絡(luò)結(jié)構(gòu)信息和內(nèi)容信息納入考慮.ANE的方法可以歸類為(半)監(jiān)督和無監(jiān)督2類,其中(半)監(jiān)督類方法是指模型在訓(xùn)練時(shí)需要類別信息來進(jìn)行監(jiān)督指導(dǎo)的方法,無監(jiān)督類方法是不需要類別監(jiān)督信息指導(dǎo)的方法.經(jīng)典的(半)監(jiān)督方法包括TriDNR[8],Planetoid-T[25],SEANO[26]和LANE[27]等.例如:TriDNR通過結(jié)合skip-gram[17]的方法來結(jié)合結(jié)構(gòu)信息,節(jié)點(diǎn)內(nèi)容和節(jié)點(diǎn)類別.Planetoid-T[25]是一個(gè)結(jié)合節(jié)點(diǎn)內(nèi)容和鄰居信息的半監(jiān)督圖表示方法.SEANO[26]是一個(gè)探索了離群點(diǎn)性質(zhì)的半監(jiān)督屬性網(wǎng)絡(luò)表示方法.LANE[27]將屬性網(wǎng)絡(luò)和標(biāo)簽類別信息映射到同一個(gè)嵌入空間來學(xué)習(xí)到網(wǎng)絡(luò)表示方法.然而,監(jiān)督式的方法需要類別信息的指導(dǎo),當(dāng)網(wǎng)絡(luò)中不含類別信息時(shí),無法通過類別信息的反饋來學(xué)習(xí)表示,從而限制了其應(yīng)用場景.無監(jiān)督式的方法能夠在無標(biāo)簽的網(wǎng)絡(luò)使用,不受標(biāo)簽信息限制,因而具有更廣泛的應(yīng)用價(jià)值.比如GAE[28]使用了自編碼器的方式來捕捉拓?fù)浣Y(jié)構(gòu)和內(nèi)容信息.VGAE[28]是一種基于變分圖自編碼器來結(jié)合結(jié)構(gòu)和內(nèi)容信息的方法.SNE[29]通過維護(hù)結(jié)構(gòu)相似度和屬性相似度來學(xué)到網(wǎng)絡(luò)表示.ARGA[9]是一種基于圖自編碼器的對抗圖表示框架,圖變分自編碼器ARGVA是它的變種.DANE[30]通過深度神經(jīng)網(wǎng)絡(luò)來捕獲拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)屬性之間的相似性.ANRL[10]使用基于屬性感知的skip-gram方法構(gòu)造了一個(gè)鄰居增強(qiáng)的自編碼器,以此來建模節(jié)點(diǎn)屬性.其他在屬性網(wǎng)絡(luò)表示的研究方向包括:加速[31-32]或者探索其他信息的使用[27].盡管在無監(jiān)督ANE任務(wù)上已經(jīng)取得了令人矚目的進(jìn)展,但節(jié)點(diǎn)和屬性之間的關(guān)系還沒有被完全探索.

2 基于復(fù)合關(guān)系圖卷積的屬性網(wǎng)絡(luò)嵌入方法

本節(jié)首先介紹屬性網(wǎng)絡(luò)中的復(fù)合關(guān)系,然后展示我們基于圖卷積網(wǎng)絡(luò)的模型.

2.1 屬性網(wǎng)絡(luò)及其關(guān)系

本節(jié)介紹屬性網(wǎng)絡(luò)及其關(guān)系.屬性網(wǎng)絡(luò)中的節(jié)點(diǎn)擁有其自身的屬性.例如對于一個(gè)引用網(wǎng)絡(luò),每個(gè)節(jié)點(diǎn)對應(yīng)一篇文章,每條邊對應(yīng)2篇文章之間的引用,屬性對應(yīng)文章的關(guān)鍵詞;對于一個(gè)社交網(wǎng)絡(luò),每個(gè)節(jié)點(diǎn)對應(yīng)一個(gè)用戶,每條邊對應(yīng)一個(gè)關(guān)注關(guān)系,屬性對應(yīng)用戶的個(gè)人信息.

屬性網(wǎng)絡(luò)的形式化定義為:G=(U,UU,A,UA),其中U={u1,u2,…,un}是用戶集合,n是用戶數(shù)量,UU是用戶-用戶關(guān)系矩陣,A={a1,a2,…,am}是用戶的屬性集合,m是屬性數(shù)量,UA是用戶-屬性關(guān)系矩陣.對于同質(zhì)網(wǎng)絡(luò)G,u∈U和a∈A是其基本對象,uu,ua分別是UU和UA關(guān)系矩陣的元素,代表用戶和屬性的基本關(guān)系.現(xiàn)有絕大部分ANE方法[9,28,33]都是建立在上述定義的同質(zhì)網(wǎng)絡(luò)G上.其中的關(guān)系展示在圖2(a).

Fig. 2 Relations in an attributed network圖2 屬性網(wǎng)絡(luò)中的關(guān)系

現(xiàn)有方法對于關(guān)系的利用上存在2方面不足:

1) 現(xiàn)有方法使用了uu關(guān)系來傳遞網(wǎng)絡(luò)中的信息,卻沒有考慮其他基本關(guān)系,如au(屬性-用戶關(guān)系的縮寫),如圖2(b)所示.基本關(guān)系au是從屬性視角獲得的關(guān)系,比如對于一篇“NLP”標(biāo)簽(tag)的論文,可以看做在屬性節(jié)點(diǎn)“NLP”和論文之間存在一條虛擬邊,所有含有該屬性的論文可以被聚合起來,進(jìn)行更深入的檢索.

2) 現(xiàn)有方法也忽略了更為復(fù)雜的關(guān)系:復(fù)合關(guān)系,如圖3中的線條所示.我們定義復(fù)合關(guān)系為組合了至少2種基本關(guān)系的關(guān)系,如uu和ua組合得到的復(fù)合關(guān)系uuua表示的是“用戶和用戶鄰居的屬性”的關(guān)系.復(fù)合關(guān)系保留了豐富的信息,如果上述關(guān)系可以被進(jìn)一步挖掘,學(xué)到的表示也能保留更多的關(guān)系特性,從而改善社交網(wǎng)絡(luò)分析任務(wù)的性能.

Fig. 3 The architecture of CRGCN framework圖3 CRGCN框架結(jié)構(gòu)圖

基于上述觀察和分析,我們嘗試改進(jìn)關(guān)系的利用形式.首先給屬性網(wǎng)絡(luò)G增加基本關(guān)系矩陣AU的定義,用來代表au的關(guān)系.接著拓展G來包含5種復(fù)合關(guān)系:(uuua;uaau;uuuu;auua;auuu),其中uuua表示uu和ua關(guān)系的組合.基礎(chǔ)的au關(guān)系和5種復(fù)合關(guān)系都展示在圖3的下半部分.為了更清楚地展示,我們將復(fù)合關(guān)系分類為:

用戶的復(fù)合關(guān)系:(uuua;uaau;uuuu)

屬性的復(fù)合關(guān)系:(auua;auuu)

新的關(guān)系包含了比(uu;ua)更多的信息,比如用戶的新關(guān)系可以顯式地表達(dá)出:用戶鄰居的鄰居(uuuu)、用戶共享的屬性(uaau)和用戶的鄰居的屬性(uuua)這3種關(guān)系;屬性的新關(guān)系可以顯式地表達(dá)出:共享用戶的屬性(auua)和屬性關(guān)聯(lián)到的用戶的鄰居(auuu)這2種關(guān)系.盡管我們可以建立像(uuuaau)關(guān)系的更復(fù)雜的組合,但高階的組合會(huì)增加計(jì)算復(fù)雜度,同時(shí)可能引入更多噪聲,因此我們只考慮上面列出的一階組合.

2.2 CRGCN框架:從復(fù)合關(guān)系中學(xué)習(xí)

本節(jié)我們將介紹復(fù)合關(guān)系圖卷積網(wǎng)絡(luò)(CRGCN)框架,用于從我們提出的復(fù)合關(guān)系中學(xué)習(xí)網(wǎng)絡(luò)嵌入.CRGCN的整體架構(gòu)如圖3所示.

圖卷積網(wǎng)絡(luò)技術(shù)是近年來提出的一種新的已被證明有效的計(jì)算方法[9,28,33].給定2.1節(jié)所定義的屬性網(wǎng)絡(luò)G=(U,UU,A,UA),為了刻畫圖中的結(jié)構(gòu)和屬性信息,圖卷積網(wǎng)絡(luò)函數(shù)fgcn的定義如下:

Z(l+1)=fgcn(Z(l),UU|W(l))=
σ(g(UU)W(l)Z(l)),

(1)

其中,Z(l)是卷積的輸入,W(l)是需要學(xué)習(xí)的卷積核參數(shù)矩陣,l是層數(shù),Z(l+1)是本層的輸出.g(UU)是原始結(jié)構(gòu)信息UU的轉(zhuǎn)換.函數(shù)g可以通過與單位矩陣I相乘保證UU的不變,如式(2)所示,或使用拉普拉斯正則化,如式(3)所示.

g(UU)=I(UU),

(2)

其中,D表示UU的對角度矩陣,σ是激活函數(shù),計(jì)算公式為

relu(x)=max(0,x)或者簡單的線性變換linear(x,W,b)=xW+b.

但是,一個(gè)基本的gcn函數(shù)只能處理像這樣的簡單關(guān)系(UU;UA),卷積的結(jié)構(gòu)信息僅限于UU.為了利用復(fù)合關(guān)系,我們將基本的GCN擴(kuò)展為如下所述的復(fù)合關(guān)系CRGCN.其公式定義為

Z(Rs,Ri)=fcrgcn(Rs,Ri|W(Rs,Ri))=
σ(g(Rs)RiW(Rs,Ri)),

(4)

Rs和Ri是(UU,UA,AU)的2個(gè)關(guān)系矩陣,Z(Rs,Ri)是卷積的輸出,W(Rs,Ri)是需要學(xué)習(xí)的卷積核參數(shù),g是結(jié)構(gòu)信息Rs的轉(zhuǎn)換函數(shù),σ是激活函數(shù)或簡單的線性層.更直觀的解釋是,Rs可以看作GCN的結(jié)構(gòu)信息,類似于標(biāo)準(zhǔn)CNN的滑動(dòng)窗口;Ri是我們需要卷積的輸入,相當(dāng)于CNN輸入的圖片;W(Rs,Ri)則對應(yīng)于CNN的卷積核,Z(Rs,Ri)是CNN的特征.

在2.1節(jié)中,我們構(gòu)造了屬性網(wǎng)絡(luò)的5種復(fù)合關(guān)系.以復(fù)合關(guān)系uuua為例,我們的CRGCN將使用用戶-用戶關(guān)系uu對用戶屬性關(guān)系進(jìn)行卷積,ua得到用戶的潛在屬性表示.我們將充分利用5種組合,而不是像基本的GCN那樣只考慮uuua關(guān)系.例如我們可以嵌入更多類型的關(guān)系,比如用戶的潛在鄰居表示(uuuu)和屬性的潛在屬性表示(auua).

通過在多種復(fù)合關(guān)系上應(yīng)用fcrgcn函數(shù),可以獲得屬性網(wǎng)絡(luò)不同視角的表示:3個(gè)用戶隱變量表示(Z(UU,UU),Z(UU,UA),Z(UA,AU))這2個(gè)屬性隱變量表示(Z(AU,UU),Z(AU,UA)).2種關(guān)系分別使用“arelations”和“urelations”表示在圖3中.

其中,fop是聚合函數(shù),可以采用均值/加權(quán)/拼接操作、線性變換、神經(jīng)網(wǎng)絡(luò)或注意力網(wǎng)絡(luò)等.這一步對應(yīng)于基本GCN的第一層.同樣地,我們可以獲取屬性的淺層表示Za:

Za=fop(Z(AU,UU),Z(AU,UA)).

(6)

與基本的多層GCN操作相同,我們使用多層的復(fù)合關(guān)系CRGCN,其公式為

Z(UA,Za)=fcrgcn(UA,Za|Wuaza),

(7)

(13)

我們使用二進(jìn)制交叉熵?fù)p失和pw來控制正樣本的權(quán)重.pw可以增強(qiáng)預(yù)測觀測值為1的鏈接,放松對觀測值為0鏈接的約束.它可以被用來測量值為0和1之間的概率,定義為

pw=(n×n-nz)/nz,

(15)

其中,n是用戶的數(shù)量,nz是UU中非0實(shí)例的個(gè)數(shù).

模型的算法描述的復(fù)雜度分析為:由于神經(jīng)網(wǎng)絡(luò)模型涉及的計(jì)算過程較復(fù)雜,并且計(jì)算工具本身存在優(yōu)化的差異,為了減少該類因素的影響,我們計(jì)算復(fù)雜度時(shí)以矩陣乘法的次數(shù)為基本單位,CRGCN模型復(fù)雜度計(jì)算為

T(n,m,d)=Θ(f1+f2+f3+f4)=
Θ(2dn2+(dn2+dmn)+2dmn)+
Θ((dn2+dmn)+2dmn+(dmn+d2m))+
Θ(dn2+d2n)+0=
Θ(5dn2+(7dm+d2)n+d2m),

(16)

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

3.1.1 數(shù)據(jù)集

我們在3個(gè)公開數(shù)據(jù)集Cora,Citeseer,Pubmed上進(jìn)行了2種經(jīng)典的分析任務(wù):鏈接預(yù)測和節(jié)點(diǎn)聚類.數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示.上述數(shù)據(jù)集是同質(zhì)屬性網(wǎng)絡(luò),把科學(xué)論文作為節(jié)點(diǎn),引用關(guān)系作為邊,文檔里的詞作為屬性[34].

Table 1 Statistics for Homogeneous Datasets表1 同質(zhì)網(wǎng)絡(luò)數(shù)據(jù)集統(tǒng)計(jì)信息

3.1.2 基線方法和設(shè)置

對于鏈接預(yù)測和節(jié)點(diǎn)聚類實(shí)驗(yàn),我們將對比以下7種最新的基線方法:

1) DeepWalk[3].一個(gè)基于網(wǎng)絡(luò)結(jié)構(gòu)信息的網(wǎng)絡(luò)表示方法.作者在觀察到維基文本的詞頻分布與隨機(jī)游走的節(jié)點(diǎn)頻率存在相似性后,將word2vec的思想借鑒到網(wǎng)絡(luò)表示中來,考慮了網(wǎng)絡(luò)中的中心節(jié)點(diǎn)與上下文節(jié)點(diǎn)間的相關(guān)性,通過隨機(jī)游走的方式來造句,得到序列后進(jìn)行訓(xùn)練得到節(jié)點(diǎn)表示.

2) LINE[5].一個(gè)基于網(wǎng)絡(luò)結(jié)構(gòu)信息的網(wǎng)絡(luò)表示方法.考慮了網(wǎng)絡(luò)中節(jié)點(diǎn)間的一階相似性和二階相似性,通過邊采樣的方式來訓(xùn)練模型,學(xué)到節(jié)點(diǎn)一、二階表示后拼接起來作為最終的特征向量,應(yīng)用到相關(guān)的網(wǎng)絡(luò)分析任務(wù)中.

3) GAE[28].一個(gè)基于自編碼器框架的無監(jiān)督網(wǎng)絡(luò)表示方法,考慮了結(jié)構(gòu)信息和內(nèi)容信息.通過使用圖卷積網(wǎng)絡(luò)對圖中的節(jié)點(diǎn)特征進(jìn)行卷積,從而學(xué)到節(jié)點(diǎn)的潛在特征,再應(yīng)用到相關(guān)的網(wǎng)絡(luò)分析任務(wù)中.

4) VGAE[28].一個(gè)基于變分圖自編碼器的無監(jiān)督網(wǎng)絡(luò)嵌入方法,平衡了結(jié)構(gòu)和內(nèi)容信息.在推斷模塊中學(xué)習(xí)到正態(tài)分布的均值和方差參數(shù)來產(chǎn)生潛在表示,再在生成模塊中重構(gòu)出鄰接關(guān)系,最終應(yīng)用到相關(guān)的網(wǎng)絡(luò)分析任務(wù)中.

5) ARGA[9].一個(gè)基于對抗約束的圖自編碼器的無監(jiān)督網(wǎng)絡(luò)表示算法,同時(shí)考慮了結(jié)構(gòu)和屬性信息.該模型在編碼圖信息得到節(jié)點(diǎn)表示后,通過一個(gè)判別器來判別一個(gè)樣本是從表示中產(chǎn)生的還是從一個(gè)先驗(yàn)分布中產(chǎn)生的來進(jìn)行約束,最終學(xué)到的表示應(yīng)用到了鏈接預(yù)測和節(jié)點(diǎn)聚類任務(wù)中.

6) ARVGA[9].一個(gè)ARGA的變種,使用了變分圖自編碼器來學(xué)習(xí)嵌入.

7) ANRL[10].一個(gè)使用屬性感知的skip-gram來捕捉網(wǎng)絡(luò)結(jié)構(gòu)信息的屬性網(wǎng)絡(luò)表示方法.該模型對節(jié)點(diǎn)屬性編碼后,分別去重構(gòu)用戶屬性和預(yù)測圖的上下文信息,從而將2種信息結(jié)合起來.

我們沒有跟node2vec和SNE等網(wǎng)絡(luò)表示方法進(jìn)行比較,因?yàn)樵贏RVGA和ANRL的實(shí)驗(yàn)中,上述方法已經(jīng)被證明性能不如我們選擇的基線方法.本文的實(shí)驗(yàn)均在Ubuntu16.04.5 LTS環(huán)境下進(jìn)行,使用1.0.0版本的pytorch構(gòu)建網(wǎng)絡(luò)模型和運(yùn)行框架,基線方法會(huì)按照源碼要求配置到對應(yīng)的環(huán)境和軟件版本.

對于鏈接預(yù)測任務(wù),我們跟ARVGA方法[9]一樣報(bào)告了AUC和AP指標(biāo).我們也使用了跟文獻(xiàn)[9]相同的數(shù)據(jù)劃分和測試方法:10%用于測試,5%用于校驗(yàn),剩下的用于訓(xùn)練.對于所有的基線方法,我們使用其推薦設(shè)置,并學(xué)習(xí)得到32維度的節(jié)點(diǎn)表示來進(jìn)行鏈接預(yù)測任務(wù),最終報(bào)告重復(fù)5次實(shí)驗(yàn)的平均結(jié)果.我們的方法設(shè)置學(xué)習(xí)率為0.005,最大迭代輪數(shù)200,優(yōu)化器選用adam[35].

對于節(jié)點(diǎn)聚類任務(wù),我們報(bào)告了聚類的5個(gè)評價(jià)指標(biāo):accuracy(Acc),precision,F(xiàn)-score(F1),normalized mutual information(NMI)和adjusted rand index(ARI).

對于所有的基線方法,我們使用其推薦的設(shè)置,得到32維度的節(jié)點(diǎn)表示進(jìn)行節(jié)點(diǎn)聚類任務(wù).我們的方法使用了和鏈接預(yù)測中一樣的設(shè)置.由于節(jié)點(diǎn)聚類任務(wù)在每個(gè)方法的不同輪次上,結(jié)果波動(dòng)很大,所以我們報(bào)告了每個(gè)方法最好輪次的得分作為最終結(jié)果,由于LINE方法做邊采樣沒有輪次,我們調(diào)整采樣邊數(shù),報(bào)告取[106;107;108;109;1010]條邊中效果最好的結(jié)果,對于DeepWalk則是調(diào)整每個(gè)點(diǎn)游走次數(shù),報(bào)告在1~10次中最好的結(jié)果.

3.2 鏈接預(yù)測及其實(shí)驗(yàn)結(jié)果

鏈接預(yù)測的實(shí)驗(yàn)結(jié)果展示在表2中,方法分為網(wǎng)絡(luò)表示方法(僅利用結(jié)構(gòu)信息)、屬性網(wǎng)絡(luò)表示方法和我們的方法三大塊,最好的結(jié)果用粗體表示.

Table 2 Results for Link Prediction表2 鏈接預(yù)測結(jié)果

對于僅考慮結(jié)構(gòu)信息的網(wǎng)絡(luò)表示方法LINE和DeepWalk,由于沒有對屬性信息進(jìn)行利用,效果跟屬性網(wǎng)絡(luò)表示方法有一定的距離.

在屬性網(wǎng)絡(luò)表示方法中,CRGCN在Cora和Citeseer數(shù)據(jù)集上取得了最好的結(jié)果,相比其他基線方法有顯著性提升(成對t檢驗(yàn),滿足0.01顯著),在Pubmed上取得次好的效果.盡管GAE在Pubmed上取得了最好結(jié)果,這可能是因?yàn)镻ubmed數(shù)據(jù)集上的鏈接情況跟屬性存在相對簡單的關(guān)聯(lián)性,GAE基于基礎(chǔ)的圖卷積建模,效果反而更好.但GAE性能并不穩(wěn)定,例如在Citeseer數(shù)據(jù)集上其效果下降嚴(yán)重.

在其他基線方法中,ARGA和GAE在Cora和Pubmed數(shù)據(jù)集上表現(xiàn)很好,原因可能是它們都是基于基礎(chǔ)gcn的方法,更偏向于建模結(jié)構(gòu)信息.但在有更多屬性信息的Citeseer的數(shù)據(jù)集上,ARGA和GAE就比不上能夠更好地利用屬性信息的ANRL方法.

綜上所述,我們的RGCN通過平衡多種關(guān)系,可以在不同類型的數(shù)據(jù)集上取得穩(wěn)定良好的性能.

3.3 節(jié)點(diǎn)聚類及其實(shí)驗(yàn)結(jié)果

節(jié)點(diǎn)聚類的結(jié)果展示在表3~5中,方法分為:網(wǎng)絡(luò)表示方法(僅利用結(jié)構(gòu)信息)、屬性網(wǎng)絡(luò)表示方法、我們的方法三大塊,最好的結(jié)果用粗體表示.

Table 3 Clustering Results on Cora表3 Cora上的聚類結(jié)果

Table 4 Clustering Results on Citeseer表4 Citeseer上的聚類結(jié)果

Table 5 Clustering Results on Pubmed表5 Pubmed上的聚類結(jié)果

從表3~5可以看出,通過考慮節(jié)點(diǎn)和它們的屬性間的復(fù)合關(guān)系,我們的CRGCN依然取得了整體上最好的效果.

不同于鏈接預(yù)測任務(wù),節(jié)點(diǎn)聚類任務(wù)更困難.原因在于無監(jiān)督表示學(xué)習(xí)的過程中無法學(xué)到任務(wù)相關(guān)的模式,這也是所有方法的結(jié)果都存在波動(dòng)的原因.雖然增加屬性對于節(jié)點(diǎn)聚類任務(wù)能夠產(chǎn)生正面影響,但實(shí)際上由于無監(jiān)督建模本身的特點(diǎn),想要平衡屬性引入的有效信息和噪聲是一個(gè)挑戰(zhàn).我們在實(shí)驗(yàn)里也發(fā)現(xiàn)偏向于利用結(jié)構(gòu)信息的方法能夠在部分情況下取得相對較好的效果,比如ARGA和ARGVA,它們更強(qiáng)調(diào)利用結(jié)構(gòu)去卷積特征信息;而更偏向?qū)傩缘姆椒ㄈ鏏NRL,從節(jié)點(diǎn)的屬性信息出發(fā),重構(gòu)了屬性信息和預(yù)測鄰居上下文,會(huì)在另外一部分?jǐn)?shù)據(jù)集上表現(xiàn)良好.

為了能學(xué)到節(jié)點(diǎn)聚類中表現(xiàn)好的節(jié)點(diǎn)表示,需要能平衡屬性和結(jié)構(gòu)信息的方法,如果一個(gè)模型能夠?qū)W到節(jié)點(diǎn)間多種類型的相關(guān)性,將會(huì)比主要偏向?qū)W習(xí)單一類型相關(guān)性的方法效果好,CRGCN方法同時(shí)建模來自屬性和結(jié)構(gòu)的復(fù)合關(guān)系,因此在實(shí)驗(yàn)中表現(xiàn)出較好的性能.

3.4 參數(shù)分析

本節(jié)主要針對跟節(jié)點(diǎn)表示向量直接相關(guān)的維度參數(shù)進(jìn)行分析,通過改變節(jié)點(diǎn)表示的維度,觀察其對于模型性能的影響.我們以Cora數(shù)據(jù)集為例,分別進(jìn)行鏈接預(yù)測和節(jié)點(diǎn)聚類任務(wù),結(jié)果如圖4,5所示:

Fig. 4 Performance of link prediction with different embedding dimensions on Cora圖4 Cora數(shù)據(jù)集上鏈接預(yù)測的維度變換實(shí)驗(yàn)

Fig. 5 Performance of node clustering with different embedding dimensions on Cora圖5 Cora數(shù)據(jù)集上節(jié)點(diǎn)聚類的維度變換實(shí)驗(yàn)

對于鏈接預(yù)測任務(wù),觀察圖4可知,我們的模型在僅用4維的向量表示的時(shí)候就已經(jīng)有了初步的效果,之后隨著模型的維度增加,效果逐漸上升,在64維度左右時(shí)取得最好效果,最后趨于穩(wěn)定.由此可見,初期的維度增加對于節(jié)點(diǎn)的表示效果能夠有相對明顯的改善,但維度繼續(xù)增加時(shí)效果開始下降,該情況可以理解為在維護(hù)更多關(guān)系信息的同時(shí)也引入了相應(yīng)的噪聲,從而使得泛化性能有所下降.

對于節(jié)點(diǎn)聚類任務(wù),觀察圖5可知,表示向量在20維左右的時(shí)候有了初步效果,在30~40維度之間取得最好的效果,之后趨于穩(wěn)定.該任務(wù)的變化走勢跟鏈接預(yù)測任務(wù)接近,在維度增大的同時(shí)也確實(shí)會(huì)有一定的噪聲引入.

4 總 結(jié)

我們提出了一種新的用于屬性網(wǎng)絡(luò)嵌入的復(fù)合關(guān)系圖卷積網(wǎng)絡(luò)模型(CRGCN),考慮了用戶和屬性之間的關(guān)系,并分析了所有的一階組合獲得復(fù)合關(guān)系.接著,我們提出了一個(gè)復(fù)合關(guān)系圖卷積網(wǎng)絡(luò)來對基本關(guān)系和復(fù)合關(guān)系進(jìn)行編碼,把這些新的潛在表示結(jié)合在一起得到最終的嵌入.在真實(shí)世界的網(wǎng)絡(luò)上進(jìn)行廣泛的實(shí)驗(yàn),結(jié)果表明我們的模型優(yōu)于當(dāng)前最好的基線方法.

主站蜘蛛池模板: 国产全黄a一级毛片| 福利视频久久| 欧美一级在线播放| 久久人人妻人人爽人人卡片av| 999精品色在线观看| 不卡国产视频第一页| 欧美精品高清| 看国产毛片| 国模私拍一区二区 | 无码福利视频| 亚洲中文久久精品无玛| 美女国内精品自产拍在线播放| 国产黄网永久免费| 亚洲伦理一区二区| 亚洲三级a| 国产久草视频| 无码综合天天久久综合网| 亚洲欧美另类视频| 欧美日韩综合网| 无码一区18禁| 久无码久无码av无码| 日本91在线| 黄色网页在线观看| 久草视频一区| 黄色a一级视频| 欧美中文字幕一区二区三区| 天天综合网亚洲网站| 成人毛片免费观看| 欧美成人精品一级在线观看| 国产一区免费在线观看| 丁香婷婷综合激情| 天堂岛国av无码免费无禁网站| 黄色网站在线观看无码| 暴力调教一区二区三区| 国产黄在线免费观看| 99热国产这里只有精品9九| 在线不卡免费视频| 亚洲第一区在线| 国产黄色爱视频| 亚洲成人播放| 亚洲欧美自拍中文| 婷婷开心中文字幕| 亚洲人成网站色7777| 亚洲欧洲日产无码AV| 久久久久人妻精品一区三寸蜜桃| 99视频国产精品| 看国产毛片| 中文纯内无码H| 国产在线拍偷自揄观看视频网站| 国产精品毛片一区视频播| 无码专区国产精品一区| 女高中生自慰污污网站| 日韩精品无码一级毛片免费| 亚洲人视频在线观看| 欧美精品亚洲精品日韩专| 伊人久久精品无码麻豆精品| 国产成人综合欧美精品久久| 精品成人免费自拍视频| 亚洲日韩精品伊甸| 99这里只有精品在线| 无码中文AⅤ在线观看| 91欧美在线| 国产伦精品一区二区三区视频优播 | 污视频日本| 日韩成人在线一区二区| 国内熟女少妇一线天| 又爽又大又黄a级毛片在线视频 | 首页亚洲国产丝袜长腿综合| 国产精品一老牛影视频| 韩日午夜在线资源一区二区| 在线中文字幕日韩| 亚洲日本www| 伊人91视频| 色妞永久免费视频| 永久免费无码日韩视频| 青青久久91| 天天综合网色中文字幕| 久久99热这里只有精品免费看| 人妻精品久久无码区| 色悠久久久久久久综合网伊人| 日韩小视频网站hq| 亚洲欧美日韩中文字幕一区二区三区|