999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

異質網絡特征表示學習研究綜述*

2023-03-06 09:23:11趙素芬
計算機時代 2023年1期
關鍵詞:語義特征信息

趙素芬

(1.華中師范大學計算機學院,湖北 武漢 430079;2.武漢大學計算機學院)

0 引言

近年來,隨著word2vec 模型在自然語言處理領域的廣泛應用,大量研究嘗試采用機器學習的方式從異質信息網絡[1]中自動學習節(jié)點和邊的低維特征表示,使學習到的向量能夠捕獲網絡的結構信息、語義信息和屬性信息,這就是異質網絡特征表示學習(HNRL)技術。與傳統(tǒng)特征工程的方式抽取網絡特征相比,HNRL 具有自動、高效、壓縮的優(yōu)點。同時,多數HNRL 模型能以完全無監(jiān)督的方式從數據中學習特征,有效地減輕了機器學習模型對數據標記的依賴。因此,針對異質網絡特征表示學習的研究具有重要的意義。

目前,已經有大量的HNRL 模型涌現出來。這些模型致力于解決HNRL中的數據異質性、網絡大規(guī)模性、數據的不完整性、多目標性以及網絡動態(tài)性等挑戰(zhàn)性問題。但是,針對該研究領域的現有綜述卻非常少。Carl Yang 等人[2],Yu Xie 等人[3],以及Yuxiao Dong等人[4]針對HNRL 領域的研究進行了綜述。但是,這些綜述的分類模式不夠清晰,總結的模型不夠全面,同時,缺乏深入的比較與分析。為了對當前的異質網絡特征表示學習的最新研究進展進行系統(tǒng)性的、全面的綜述,本文基于“編碼器-解碼器”的視角將現有HNRL模型分為六類:基于矩陣分解的模型、基于隨機游走的模型、基于自編碼器的模型、基于圖神經網絡的模型、基于知識圖譜嵌入的模型,以及混合模型。針對每一類模型,概覽其整體特征和建模思路,并且列舉了一些典型模型,總結每類模型的優(yōu)勢和缺陷。最后,總結了全文并展望了將來的研究方向。

1 研究問題定義

定義1異質網絡特征表示學習 (Heterogeneous Network Representation Learning,HNRL):給定一個異質信息網絡G=(V,E,X,τ,φ,T,R),其中,V是異質網絡G中的節(jié)點集合,E是G的邊集合,T={V1,V2,…,V|T|}是節(jié)點類型集合,R=r1,r2,…,r|R|}是關系類型集合,且|T|+|R|>2,τ(v):v→T和φ(e):E→R分別是節(jié)點類型和關系類型映射函數,異質網絡特征表示學習是為異質網絡G中的每個節(jié)點v∈V學習一個潛在的特征表示zv∈Rd,d?|V|,使其能夠捕獲異質網絡G中的結構信息、語義信息和屬性信息。

2 現有的異質網絡特征表示學習模型

基于“編碼器-解碼器”的視角,我們可以將現有的HNRL 模型分為六類:基于矩陣分解的模型(Matrix Factorization-based models,MF),基于隨機游走的模型(Random Walk-based models,RW),基于自編碼器的模型(Auto-Encoder based models,AE),基于圖神經網絡的模型(Graph Neural Network-based models,GNN),知識圖譜嵌入模型(Knowledge Graph Embedding models,KGE)以及混合模型(HyBridmodels,HB)。

2.1 基于矩陣分解的模型

基于矩陣分解的模型通常采用直接編碼函數,即其編碼函數是一個節(jié)點嵌入矩陣Z∈Rd×|V|與指示每個節(jié)點編碼的獨熱向量vi的乘積,即:ENC(vi)=Z·vi。模型的解碼函數則通常定義為兩個節(jié)點嵌入的內積,即:DEC(zi,zj)=zi·zj。如果模型的損失函數定義為L=,那么,模型的優(yōu)化目標就近似等價于分解經驗相似度矩陣。針對異質信息網絡來說,矩陣分解通常需要在包含多個不同語義關系的子網中進行。PTE[5]模型就是一個典型的MF 類模型。該模型首先將語料庫中的文本共現信息和部分單詞標記信息表示成包含三個子網絡的異質網絡;然后,模型針對每個子網使用LINE 模型來建模;最后,再將三個子網絡聯(lián)合起來統(tǒng)一訓練求解節(jié)點的特征表示。不過,PTE模型在聯(lián)合多個子網訓練時,給不同子網賦予了相同的權重,這可能導致偏斜性問題(偏斜性問題指由于異質網絡中子網的邊密度差異較大,導致模型在訓練時出現不均衡的問題:模型在一些密集的網絡中已經訓練好了,但在另一些稀疏的子網中卻遠未收斂。)。MengQu 等人提出了一個MVE[6]模型,該模型通過引入注意力機制,較好地解決了子網權重的自動求解問題。在這些模型中,HNRL 模型分解的鄰近度矩陣都是網絡的低階鄰接矩陣,其生成的特征表示僅能捕獲網絡中的低階結構特征,然而網絡中的高階結構特征也非常重要。CMF[7]、ICBK 和MNMF[8]等模型改變了傳統(tǒng)的經驗鄰近度矩陣的定義,使其生成的特征表示能夠捕獲高階結構特征。

總體上,基于矩陣分解的HNRL 模型的編碼和解碼函數相對比較簡單。但是,這類模型一般不對網絡中的附屬屬性信息進行編碼。同時,一些考慮高階結構鄰近度的MF 模型要分解的矩陣通常是一個稠密矩陣,這對于大規(guī)模網絡來說,存儲和處理數據需要消耗大量的系統(tǒng)資源,在普通計算平臺上難以實施。

2.2 基于隨機游走的模型

隨機游走類模型也是一種常見的HNRL 模型。這類模型的特點是,網絡節(jié)點的鄰居是在一個短的隨機游走序列中共現的節(jié)點。模型的編碼器一般也是直接嵌入;解碼器則是一個softmax 函數,即:DEC(zi,zj)=。模型的求解目標則是使解碼的二元節(jié)點鄰近度近似于經驗鄰近度=pG(vj|vi)。其中,pG(vj|vi)表示從一個節(jié)點vi出發(fā),在長度為w的滑動窗口內,隨機游走到另一個節(jié)點vj的概率。多數RW 類模型都可視為DeepWalk 模型[9]在異質網絡中的擴展。例如,HINE模型[10]首先將異質文獻網絡分解為多個子網絡,然后在每個子網絡中分別采樣隨機游走序列,并分別使用skip-gram 模型進行建模,最后模型將損失函數求和統(tǒng)一進行優(yōu)化。MNE模型[11]則首先將關系語義r特定的節(jié)點嵌入分解為一個共享的公共嵌入ci和一個針對特定關系r的嵌入,然后再使用skip-gram 算法求解出面向特定語義的節(jié)點嵌入。由于在異質網絡中進行隨機游走序列采樣很容易導致偏斜性問題,JUST 模型[12]使用了一種“跳轉-停留”機制的隨機游走序列采樣方法,使采樣序列中的節(jié)點類別更加均衡。近年來,元路徑的概念得到了大量的關注,許多研究在模型中引入了元路徑的思想。基于元路徑的隨機游走模型在采樣隨機游走序列時,需要按照事先定義好的元路徑進行,以便能夠捕獲網絡中特定的語義信息。Hin2Vec[13]和metapath2vec[14]就是典型的基于元路徑的RW 類模型。metapath2vec 模型定義了一種基于元路徑的隨機游走采樣方法,然后使用異質的skipgram 算法求解優(yōu)化的節(jié)點嵌入。該模型能夠有效的捕獲網絡的結構和語義信息,但是由于模型中僅使用了單條元路徑,因此,限制了模型的語義建模能力。一些研究在metapath2vec 模型的基礎上進行改進。MetaGraph2ve模型[15]在元路徑的基礎上定義了元圖的概念,能夠捕獲更多的網絡語義信息。HERec 模型[16]和HueRec模型[17]則是針對推薦系統(tǒng)設計的基于多條元路徑的RW類模型。

本質上,RW 類HNRL 模型其優(yōu)化目標也是在做矩陣分解[18],不過,與MF類模型相比,RW 類模型通過邊采樣的方式避免了直接分解大的稠密矩陣的問題,同時,該類模型通過限制采樣路徑,能夠方便地對網絡中的特定語義關系建模。在基于元路徑的RW 模型中,通常需要人工定義元路徑,這高度依賴于工程師的先驗知識:如果元路徑定義的不合適,則會丟失重要的網絡信息和引入不必要的噪聲。

2.3 基于自編碼器的模型

與前幾類模型不同,AE類HRNL模型的輸入不再是一個表示節(jié)點編碼的獨熱向量,而是基于網絡結構定義的節(jié)點鄰接向量,該向量中包含了異質網絡中節(jié)點的結構信息。模型則使用一個自編碼器結構將該鄰接向量壓縮成低維向量,并作為節(jié)點的特征表示。模型的求解目標則是嘗試重構原始的節(jié)點鄰居向量,即,使DEC(zi)≈。這類模型的一般思路也是首先對異質網絡中單個子網的節(jié)點鄰接向量信息進行壓縮,然后再將多個子網的節(jié)點特征聚合起來。SHINE 模型[19]針對在線異質社交網絡中的情感鏈接分類問題,首先使用三個自編碼器框架對不同子網中的用戶節(jié)點鄰接向量進行壓縮;然后再將三個子網生成的節(jié)點特征表示聚合起來得到最后的特征表示。該模型僅能夠捕獲網絡的二階結構特征。DHNE 模型[20]則除了能夠捕獲二階結構特征外,還能夠捕獲節(jié)點之間的一階結構特征。此外,AMVAE 模型[21]是一個考慮了多模態(tài)屬性信息的AE 類模型。該模型首先將每張圖像對應的文本表示序列輸入到一個LSTM模型中,得到每個圖像節(jié)點的內容嵌入;然后,模型再將內容嵌入與圖像節(jié)點的結構嵌入拼接起來,輸入到一個兩級混合變分自編碼器框架中學習圖像的最終特征表示。

AE 類模型的整體優(yōu)勢在于能夠方便地使用多種現有的自編碼器框架(例如MLP,VAE,SAE 等等)對節(jié)點向量進行壓縮。但是,針對大規(guī)模超大規(guī)模的網絡,AE 類模型的輸入維度很大,模型中的訓練參數非常多,訓練的復雜度過高。同時,這類模型通常是直推式的,難以處理動態(tài)變化的網絡。

2.4 基于圖神經網絡的模型

受卷積神經網絡的啟發(fā),近年來,研究者提出了一種運行在圖域上的圖神經網絡(Graph Nueral Networks,GNN)。GNN 能夠從圖結構信息中通過信息傳遞捕獲圖中包含的依賴關系。不同于前幾類模型,基于GNN 的嵌入模型的輸入,通常是節(jié)點的屬性向量,其編碼函數是一個多層圖神經網絡,它不斷地聚合每個中心節(jié)點周圍的鄰居節(jié)點的特征,作為當前中心節(jié)點的特征表示的更新。DMGI 模型[22]就是一個典型的GNN 類型的HNRL 模型。該模型首先在每個子網絡G(k)內部使用GNN框架聚合子網中的節(jié)點鄰居的特征信息;然后,模型定義了一個基于DGI 的損失函數來求解單個子網內部的節(jié)點嵌入,最后再將不同子網中的嵌入聚合起來。Xia Chen 等人提出的ActiveHNE 模型為了減少機器學習任務中人工標記的工作量,在圖卷積模型中引入了主動學習技術。此外,HAN[23],MAGNN,RoHe[24],MEIRec[25]模型與上述模型不同,它們使用基于元路徑的鄰居節(jié)點的概念,拓展了GNN網絡中鄰居節(jié)點的定義,使模型能夠捕獲多種類型的語義信息和高階結構信息的特征。為了區(qū)分網絡節(jié)點的不同鄰居節(jié)點的權重,出現了大量的基于圖注意力的GNN 模型[26-28]。HGAT模型[26]首先將電子商務網絡表示為一個包含了用戶、項目、屬性三種對象的異質網絡;然后使用三層圖注意力傳播模塊逐層聚合網絡中用戶節(jié)點的鄰居特征信息。HetGNN 模型[27]在聚合鄰居節(jié)點特征時,首先基于重啟隨機游走略挑選出每個節(jié)點的不同類型的top-k個最重要的鄰居節(jié)點,然后使用一個兩級Bi-LSTM 框架聚合了節(jié)點的多種類型的鄰居節(jié)點的特征。此外,HGT 模型[28]使用多頭注意力機制聚集每個目標節(jié)點t的不同類型的上下文節(jié)點的信息。除了上述模型以外,還有大量其他的GNN 模型涌現出來,如R-GCNs、DisenHAN、HWNN、FAME和Graph-Inception等等。

GNN 類模型能夠方便、有效地捕獲異質網絡的局部結構信息和節(jié)點屬性信息;同時,基于空間的GNN模型屬于歸納式模型,能處理動態(tài)網絡。不過,為了控制模型復雜度,許多GNN模型使用了鄰居采樣的技術。這時,如果鄰居采樣算法不合適,容易丟失重要的網絡信息。另外,過于淺層的模型無法捕獲網絡的高階特征,過多的層數,會使模型的訓練復雜度過高以及性能下降,如何設置合適的網絡層數也很棘手。

2.5 知識圖譜嵌入模型

知識圖譜嵌入(Knowledge Graph Embedding,KGE)是學習一個函數,將知識圖譜K={

KGE 類模型最顯著的優(yōu)勢是由于能為不同語義關系生成顯式的嵌入,能更加充分地捕獲異質網絡中豐富的語義信息。但是,基本的KGE 模型在生成實體和關系嵌入時通常只考慮實體之間的低階結構特征,并且一般不考慮屬性信息,因而丟失了網絡中包含的重要信息。

2.6 混合模型

為了克服單一類型模型的缺陷,一些研究考慮將多種技術融合起來成為混合模型。目前,已經涌現了多種不同類型的混合模型。例如“RW+GNN”類混合模型[29],其主要思路是使用GNN 編碼器來取代傳統(tǒng)RW 類模型中的直接嵌入,從而使RW 模型也能很好的捕獲網絡中的屬性信息。此外,還有一種典型的混合方式是“KGE+GNN”[30],其主要思路是在GNN 類模型中使用KGE 類型的解碼器,用以提升GNN 類模型的語義建模能力。此外,還有一些其他的混合類型,例如“GNN+AE”、“RW+AE”、“KGE+RW”等。

總體上,混合模型一般具有更強的建模能力,但是模型的復雜度也會相對更高。

3 總結和展望

本文針對異質網絡特征表示學習的最新研究進展進行了系統(tǒng)性的綜述。基于“編碼器-解碼器”的視角,我們將現有的HNRL模型分為六類,并對每一類模型進行了系統(tǒng)的概覽和綜述。我們總結了每類模型的基本特征、建模思路,以及優(yōu)勢和缺陷,以期識別更有潛力的異質嵌入模型框架。

我們認為,將來的研究需要能夠更好的處理異質網絡的異質性、動態(tài)性、偏斜性、稀疏性,使模型具備更好的可解釋性、可擴展性、魯棒性;同時,通過加強對模型的深入的理論分析,助力模型的理解、應用和拓展。

猜你喜歡
語義特征信息
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 久久国产拍爱| 精品无码国产一区二区三区AV| 色婷婷在线播放| 亚洲乱码视频| 大香伊人久久| 少妇精品在线| 99久久人妻精品免费二区| 91青青草视频| 国产成a人片在线播放| 亚洲欧美一区二区三区图片| 欧美日韩中文国产| 久久久久88色偷偷| 亚洲综合网在线观看| 日本午夜在线视频| 成人无码一区二区三区视频在线观看 | 性色一区| 在线无码私拍| 40岁成熟女人牲交片免费| a亚洲视频| 高清无码一本到东京热| 精品视频第一页| 午夜精品久久久久久久无码软件 | 永久免费av网站可以直接看的 | 精品国产网| 波多野结衣一区二区三区四区视频| 亚洲天堂高清| 国产成人a在线观看视频| 日韩在线欧美在线| 国产流白浆视频| 国产精品伦视频观看免费| 国产欧美中文字幕| 亚洲成AV人手机在线观看网站| 亚洲欧美成人网| av一区二区无码在线| 国产免费福利网站| 亚洲第一天堂无码专区| 久久久精品国产SM调教网站| 久久久国产精品无码专区| 久久久久88色偷偷| 色综合天天综合中文网| 欧美激情首页| 在线看AV天堂| 99在线免费播放| 精品视频福利| 国产理论精品| 这里只有精品免费视频| 福利片91| 亚洲精品男人天堂| 54pao国产成人免费视频| 在线观看免费AV网| 波多野结衣久久高清免费| 免费可以看的无遮挡av无码| 国产成人精品三级| 在线视频亚洲色图| 国产精品一区二区在线播放| 一本色道久久88亚洲综合| 中文字幕在线播放不卡| 99精品热视频这里只有精品7 | 亚洲区欧美区| 91精品专区国产盗摄| 国产精品丝袜视频| 91精品最新国内在线播放| 青青草原偷拍视频| 久久这里只有精品2| 91九色最新地址| 精品亚洲国产成人AV| 亚洲区视频在线观看| 国产成人亚洲日韩欧美电影| 国产欧美高清| 无码AV动漫| 91精品网站| 日韩在线影院| 国产成a人片在线播放| 国产性精品| 91在线播放免费不卡无毒| 四虎精品黑人视频| 二级毛片免费观看全程| 亚洲区一区| 91精品专区| 欧美激情二区三区| 亚洲AV无码不卡无码| 国产精品第三页在线看|