999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

NEG-MF:一種針對(duì)推薦系統(tǒng)的矩陣分解圖嵌入模型

2021-10-08 00:46:07趙素芬
計(jì)算機(jī)時(shí)代 2021年9期

趙素芬

摘? 要: 傳統(tǒng)的矩陣分解圖嵌入模型由于不對(duì)大量未知關(guān)系建模,其性能面臨著很大的挑戰(zhàn)性。為了提升矩陣分解模型的性能,提出了一種基于負(fù)采樣技術(shù)的矩陣分解模型NEG-MF。該模型能夠從跳數(shù)大于6的鄰居節(jié)點(diǎn)中進(jìn)行負(fù)采樣,以降低模型生成圖嵌入時(shí)對(duì)于負(fù)樣本的偏差。在DBLP數(shù)據(jù)集上做的大量實(shí)驗(yàn)結(jié)果表明,相比其他的基線方法,基于NEG-MF的推薦算法在學(xué)術(shù)合作關(guān)系推薦問題上的性能有明顯地提升。

關(guān)鍵詞: 矩陣分解; 圖嵌入; 推薦系統(tǒng); 負(fù)采樣

中圖分類號(hào):TP311? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2021)09-06-04

Abstract: The traditional matrix factorization graph embedding model does not consider a large number of unknown relationships, so that its performance faces great challenges. In order to improve the performance of the generated embeddings, NEG-MF, a matrix factorization model based on negative sampling is proposed. When the model generates node embeddings, it can perform negative sampling from the neighbor nodes with hops>6 to reduce the bias of negative samples. A large number of experiment results on DBLP data sets show that, compared with the baseline methods, the performance of the recommendation algorithm based on the proposed NEG-MF has a significant improvement in the recommendation of academic collaborators.

Key words: matrix factorization; graph embedding; recommender system; negative sampling

0 引言

圖是自然界中一種非常重要的數(shù)據(jù)結(jié)構(gòu)。許多應(yīng)用都是定義在圖的基礎(chǔ)上,例如學(xué)術(shù)合作網(wǎng)絡(luò)、蛋白質(zhì)交互網(wǎng)絡(luò)、社交網(wǎng)絡(luò)、知識(shí)圖譜等等。在基于圖的眾多機(jī)器學(xué)習(xí)問題中,其核心任務(wù)就是找到一種將圖的結(jié)構(gòu)信息和語義信息融合到機(jī)器學(xué)習(xí)任務(wù)的方法,即將網(wǎng)絡(luò)中的節(jié)點(diǎn)、邊或子圖映射到低維的向量空間,并且使得到的特征向量盡可能地保持原有圖結(jié)構(gòu)信息、節(jié)點(diǎn)屬性信息和語義信息等等,即圖嵌入技術(shù)[1]。

隨著word2vec模型[2-3]在文本嵌入領(lǐng)域的廣泛應(yīng)用,目前已經(jīng)涌現(xiàn)了大量的圖嵌入算法,包括各種基于矩陣分解的模型(GF[4],LAE[5],GraRep[6],HOPE[7],LINE[8]等等),基于隨機(jī)游走的方法(Deepwalk[9],Node2vec[10]等),基于鄰居的自編碼模型(SDNE[11],DNGR[12])以及基于圖神經(jīng)網(wǎng)絡(luò)的模型(GCN[13],GraphSage[14])等等。不過,由于真實(shí)世界中網(wǎng)絡(luò)的復(fù)雜性,現(xiàn)有的圖嵌入模型通常面臨如下挑戰(zhàn)。

⑴ 網(wǎng)絡(luò)的大規(guī)模性 真實(shí)世界中的網(wǎng)絡(luò)常常是大規(guī)模的,包含成千上萬的節(jié)點(diǎn)和復(fù)雜的關(guān)系,這對(duì)圖嵌入算法的學(xué)習(xí)效率提出了很大的挑戰(zhàn)。一個(gè)好的模型應(yīng)當(dāng)具有很好的可擴(kuò)展性,具有更少的時(shí)間復(fù)雜度和空間復(fù)雜度,否則難以在小規(guī)模的計(jì)算平臺(tái)上運(yùn)行。

⑵ 嵌入模型本身需要滿足多目標(biāo)性 圖嵌入模型不僅需要考慮網(wǎng)絡(luò)的結(jié)構(gòu)特征,還需要考慮屬性信息、語義信息等。除此以外,嵌入模型在滿足通用性的要求之外,還應(yīng)當(dāng)能夠針對(duì)特定的機(jī)器學(xué)習(xí)任務(wù)有較好的效果。如何在一個(gè)模型中同時(shí)滿足多個(gè)學(xué)習(xí)目標(biāo),對(duì)圖嵌入算法提出了巨大的挑戰(zhàn)。

⑶ 網(wǎng)絡(luò)的動(dòng)態(tài)性真實(shí)世界中的網(wǎng)絡(luò)是在不斷變化的。如果圖嵌入模型是直推式的,則每次網(wǎng)絡(luò)有變化時(shí),都需要重新訓(xùn)練,這是一種巨大的耗費(fèi)。如何處理動(dòng)態(tài)變化的網(wǎng)絡(luò),對(duì)圖嵌入模型提出了嚴(yán)峻的挑戰(zhàn)。

在現(xiàn)有的圖嵌入模型中,矩陣分解是其中一種最經(jīng)典和基礎(chǔ)的一種。由于矩陣分解類模型相對(duì)簡單,針對(duì)大圖的可擴(kuò)展性非常好,因此在各類應(yīng)用中應(yīng)用十分廣泛。然而,基本的矩陣分解模型[4]僅對(duì)正例進(jìn)行建模,給了負(fù)樣本太多的誤差。這會(huì)導(dǎo)致生成的嵌入性能非常有限。為了提升矩陣分解模型生成圖嵌入的性能,針對(duì)挑戰(zhàn)問題⑴和⑵,我們提出了一種新的基于負(fù)采樣技術(shù)的矩陣分解模型NEG-MF。NEG-MF模型在原有的GF模型的基礎(chǔ)上,加入了對(duì)未知關(guān)系的建模。具體來說,模型能夠從跳數(shù)大于6的網(wǎng)絡(luò)鄰居節(jié)點(diǎn)中進(jìn)行負(fù)采樣,以降低模型生成嵌入時(shí)對(duì)于負(fù)例的偏差。

針對(duì)DBLP數(shù)據(jù)集,我們做了大量的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,相比較傳統(tǒng)的基線推薦方法(共同鄰居法、AA算法、DeepWalk、Node2Vec以及基本的矩陣分解模型等),改進(jìn)的NEG-MF模型在推薦系統(tǒng)的性能上有較大的提升。

1 研究問題定義

本文使用的數(shù)據(jù)集是DBLP文獻(xiàn)數(shù)據(jù)集(https://dblp.uni-trier.de/xml/)。該數(shù)據(jù)集中包含了計(jì)算機(jī)類學(xué)術(shù)論文的元數(shù)據(jù)信息,包括論文的標(biāo)題、作者、發(fā)表年份、發(fā)表期刊/會(huì)議名、URL鏈接等等。通過對(duì)文獻(xiàn)數(shù)據(jù)集中作者之間的合作關(guān)系進(jìn)行提取,可以構(gòu)建一個(gè)學(xué)術(shù)社交網(wǎng)絡(luò)[G=V,E]。其中,[V=v1,v2,…,vn]表示網(wǎng)絡(luò)中的學(xué)者,[E=eij,1≤i,j≤n]表示兩個(gè)作者[vi]和[vj]之間具有合作關(guān)系。基于已有的合作關(guān)系,我們?yōu)槊恳粋€(gè)目標(biāo)用戶推薦潛在最有價(jià)值的top-k個(gè)新的合作關(guān)系。

定義1:基于圖嵌入技術(shù)的學(xué)術(shù)合作推薦問題

針對(duì)任意一個(gè)t時(shí)刻之前的學(xué)術(shù)社交網(wǎng)絡(luò)[G=(V,E)],為[G]中每一個(gè)節(jié)點(diǎn)[vi]生成低維特征表示[zi∈Rd,d?|V|],使該特征表示能夠盡可能的捕獲[G]中的網(wǎng)絡(luò)結(jié)構(gòu)信息和屬性信息。同時(shí),針對(duì)給定的目標(biāo)用戶s,為其推薦在[t+Δt]時(shí)刻最具潛在合作性的top-k個(gè)合作關(guān)系。

從定義1中可以看出,本文要解決的研究問題是多目標(biāo)的。也就是說,模型在為網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)生成嵌入的同時(shí),需要能夠?yàn)樘囟ǖ哪繕?biāo)用戶推薦新的社交關(guān)系。

2 新的基于負(fù)采樣技術(shù)的矩陣分解模型NEG-MF

2.1 經(jīng)典的矩陣分解模型Graph Factorization(GF)

經(jīng)典的矩陣分解模型GF[4]的編碼函數(shù)為直接編碼,即:

2.2 NEG-MF矩陣分解模型

為了提升GF模型的性能,我們提出了一個(gè)新的矩陣分解模型:NEG-MF,其思路是在損失函數(shù)⑶中增加對(duì)負(fù)樣本的建模。我們將公式⑶中的損失函數(shù)修改為:

基于計(jì)算好的梯度公式,我們?cè)诒?中給出了NEG-MF算法的隨機(jī)梯度下降(SGD)的版本。在實(shí)際運(yùn)行過程中,也可以視系統(tǒng)內(nèi)存大小將其修改成為批梯度下降的版本。

2.3 關(guān)系推薦

基于2.2節(jié)抽取的用戶節(jié)點(diǎn)嵌入,我們可以使用多種推薦模型為特定的目標(biāo)用戶s進(jìn)行新的關(guān)系推薦。首先, 我們定義了多種打分函數(shù)對(duì)s和候選推薦用戶u的交互值進(jìn)行評(píng)分。

⑴ 內(nèi)積函數(shù):[frs,u=zs?zu]

這是最簡單直接的推薦模型。也就是說,基于前面已經(jīng)求解的嵌入,使用內(nèi)積函數(shù)求解目標(biāo)用戶s和候選推薦用戶u之間的關(guān)系得分。在這個(gè)模型中,求解節(jié)點(diǎn)嵌入和合作關(guān)系推薦是兩個(gè)互相獨(dú)立的組件。

⑵ 非線性神經(jīng)網(wǎng)絡(luò)模型:[frs,u=σ(Wzszu+b)]

這里,[σ]是sigmoid函數(shù),W和b是可以訓(xùn)練的模型參數(shù),[zszu]表示向量的拼接。在這個(gè)模型中,由于包含可訓(xùn)練的參數(shù),因此可以定義推薦模型階段的損失函數(shù)為:

其中,[VL]是帶標(biāo)記的用戶集合;

[pu|s=exp (frs,u)u'∈Vexp (frs,u')]是用戶u和用戶s之間的條件概率相似度。

這時(shí),求解節(jié)點(diǎn)嵌入和關(guān)系推薦既可以是兩個(gè)相互獨(dú)立的部分,也可以進(jìn)行融合。如果將這兩個(gè)部分放在同一個(gè)模型中一起訓(xùn)練,則模型的總損失函數(shù)為:

這樣,可以在一個(gè)模型中同時(shí)學(xué)習(xí)到節(jié)點(diǎn)嵌入,以及推薦系統(tǒng)部分的模型參數(shù)值。在實(shí)際應(yīng)用中,除了單層的神經(jīng)網(wǎng)絡(luò)模型,還可以選擇很多其他類型的推薦模型和嵌入模型進(jìn)行融合。

使用打分函數(shù)[frs,u]計(jì)算出針對(duì)用戶s的候選用戶得分之后,按照從高到低的次序選擇值最大的前k個(gè)推薦給用戶s即可。

3 實(shí)驗(yàn)結(jié)果

3.1 數(shù)據(jù)集和預(yù)處理

本文使用的數(shù)據(jù)集是DBLP數(shù)據(jù)集(2019-05版本)。我們首先將數(shù)據(jù)集中全部的期刊論文、會(huì)議論文以及全部作者的信息抽取出來,然后將所有論文中發(fā)表年份小于1990的全部去除。接著,以2014年為分割線,統(tǒng)計(jì)每個(gè)作者在1990年至2013年期間(訓(xùn)練階段)以及2014年至2020年(測(cè)試階段)發(fā)表論文的總篇數(shù)。考慮到發(fā)表論文數(shù)較少的學(xué)者對(duì)整體的網(wǎng)絡(luò)結(jié)構(gòu)影響較小,我們?nèi)?-核作者(在訓(xùn)練階段和測(cè)試階段發(fā)表論文數(shù)均不小于4篇的作者)。基于這些4-核作者在訓(xùn)練階段發(fā)表論文建立的合作關(guān)系,我們首先生成了訓(xùn)練階段的鄰接矩陣S1,然后得到一個(gè)囊括156021個(gè)作者的極大聯(lián)通組件。我們剔除了不在極大連通子圖中的作者,以及在測(cè)試階段沒有創(chuàng)建任何關(guān)系的作者,將剩下的153248個(gè)作者作為最終的實(shí)驗(yàn)對(duì)象。數(shù)據(jù)集的最終統(tǒng)計(jì)信息如表2所示。

3.2 基線方法和評(píng)估指標(biāo)

為了評(píng)估NEG-MF圖嵌入算法在學(xué)術(shù)合作關(guān)系推薦問題上的性能,我們將NEG-MF方法的推薦性能和以下基線方法進(jìn)行了比較,包括無監(jiān)督推薦算法:共同鄰居(CNs)、Academic/Ada(AA)以及最短距離(SP),以及圖嵌入算法:基本的矩陣分解(GF)、DeepWalk(DW)以及node2vec (N2V)模型。模型的評(píng)估指標(biāo)為top-k關(guān)系推薦的準(zhǔn)確率precision@k以及召回率recall@k。

3.3 實(shí)驗(yàn)結(jié)果和分析

表3中給出了各個(gè)算法的整體的性能的比較(其中,所有圖嵌入算法DW,N2V,GF,NEG-GF的節(jié)點(diǎn)嵌入維度均設(shè)置為256維)。從表3中可以看出,與經(jīng)典的各種基線方法相比,NEG-MF方法在精確率和召回率上均取得了最好的效果。即使相對(duì)于能夠?qū)Ω唠A鄰居關(guān)系建模的DeepWalk算法和Node2vec算法來說,新提出的NEG-MF算法也毫不遜色。除此以外,我們還探討了當(dāng)節(jié)點(diǎn)嵌入維度從64變化到512時(shí)矩陣分解嵌入算法的推薦效果的比較,結(jié)果顯示在表4中。從表4可以看出,當(dāng)生成的節(jié)點(diǎn)嵌入維度增加時(shí),模型的推薦性能會(huì)變的更好。但是,當(dāng)嵌入維度較低時(shí),維度增加會(huì)使推薦性能增加的幅度更大;當(dāng)維度增加到一定程度的時(shí)候(比如超過256維),靠增加維度的方式能夠提升的性能非常有限。考慮到模型的性能與復(fù)雜度之間的平衡,我們認(rèn)為128~256維是一個(gè)較合適的維度區(qū)間。

4 結(jié)束語

本文中,針對(duì)學(xué)術(shù)合作者推薦問題,我們?cè)O(shè)計(jì)了一種基于負(fù)采樣技術(shù)的矩陣分解嵌入模型NEG-MF,并將該模型生成的嵌入用于學(xué)術(shù)合作推薦問題。實(shí)驗(yàn)結(jié)果表明,相比較傳統(tǒng)的基線推薦算法,NEG-MF由于引入了有策略性的負(fù)采樣技術(shù),而使生成的嵌入質(zhì)量有很大的提升,其推薦性能超越了已有的基線方法。

未來,我們的研究方向主要有三個(gè)方面:①將模型擴(kuò)大到異質(zhì)網(wǎng)絡(luò)嵌入的范疇;②在矩陣分解嵌入模型中引入對(duì)屬性信息的考慮,增強(qiáng)模型的建模能力;③考慮將模型擴(kuò)展到動(dòng)態(tài)網(wǎng)絡(luò)的范疇,設(shè)計(jì)出歸納式模型。

參考文獻(xiàn)(References):

[1] William L. Hamilton, Rex Ying, Jure Leskovec. Represen-tation Learning on Graphs: Methods and Applications. IEEE Data Engineering Bulletin,2017.40(3):52-74

[2] Tomas Mikolov, IlyaSutskever, Chen Kai, et.al. Neural Information Processing Systems, Lake Tahoe, Nevada, United States,2013.

[3] Omer Levy, YoavColdberg. Neural Word Embedding as Implicit Matrix Factorization.NIPS, 2014.

[4] Amr Ahmed, Nino Shervashidze, Shravan Narayanamur-thy.Distributed Large-scale Natural Graph Factorization.WWW, Rio de Janeiro, Brazil,2003.

[5] MikhaiBelkin, ParthaNiyogi. LaplacianEigenmaps and Spectral Techniques for Embedding and Clustering.NIPS,2001:585-591

[6] Cao Shaosheng, Lu Wei, XuQiongkai. GraRep: Learning Graph Representations with Global Structural Information. CIKM, Melbourne, Australia, 2015.

[7] MingdongOu, Peng Cui, Jian Pei, etc.Asymmetric Transitivity Preserving Graph Embedding. KDD,2016.

[8] Jian Tang, MengQu, Minzhe Wang, etc. LINE: Large-scale Information Network Embedding. WWW,2015.

[9] Bryan Perozzi, Rami AI-Rfou, Steven Skiena.DeepWalk:Online Learning of Social Representations. KDD, New York, NY, USA,2014.

[10] Aditya Grover,Jure Leskovec.Node2vec:Scalable Feature Learning for Networks. KDD, San Francisco, CA, USA,2016.

[11] Wang Daixin, Cui Peng, Zhu Wenwu. Structural Deep Network Embedding. KDD, San Francisco, CA, USA,2016.

[12] Shaosheng Cao, Wei Lu, QiongkaiXu. Deep Neural Networks for Learning Graph Representations. AAAI,2016:1145-1152

[13] Thomas N. Kips, Max Welling.Semi-Supervised Classification with Graph Convolutional Networks.5th International Conference on Learning Representations, ICLR 2017, Toulon, France,2017.

[14] William L. Hamilton, Rex Ying, Jure Leskovec. Inductive Representation Learning on Large Graphs.NIPS, Long Beach, CA, USA, 2017.

主站蜘蛛池模板: 波多野结衣中文字幕一区| 99久久精品免费看国产免费软件| 国产精品永久在线| 色悠久久综合| 亚洲日本在线免费观看| 在线欧美日韩国产| 国产在线视频二区| 一本视频精品中文字幕| 亚洲精品天堂自在久久77| 丰满人妻被猛烈进入无码| 一级看片免费视频| 精品视频一区在线观看| 老司国产精品视频| 国内精品久久久久久久久久影视 | 亚洲欧美日韩天堂| 国产永久无码观看在线| 国产成人高清亚洲一区久久| 精品久久香蕉国产线看观看gif| 国产小视频免费观看| 国产 日韩 欧美 第二页| 强乱中文字幕在线播放不卡| 99视频在线观看免费| 成人午夜网址| 亚洲AV无码久久精品色欲| 欧美第一页在线| 久久大香香蕉国产免费网站| 国产老女人精品免费视频| 粉嫩国产白浆在线观看| 亚洲AV色香蕉一区二区| 国产精品污污在线观看网站| 久久中文电影| 色视频国产| 无码免费视频| 欧美伦理一区| 3D动漫精品啪啪一区二区下载| 国产国产人成免费视频77777 | 找国产毛片看| 真人免费一级毛片一区二区 | 亚洲二区视频| 久久久噜噜噜久久中文字幕色伊伊| 在线欧美国产| 亚洲成a∧人片在线观看无码| 一级全免费视频播放| 国产成人超碰无码| 凹凸国产分类在线观看| 国内老司机精品视频在线播出| 精品人妻一区二区三区蜜桃AⅤ| 欧美日韩中文国产va另类| 国产精品久久久久鬼色| 国产美女无遮挡免费视频网站| 欧美激情伊人| 久久久精品久久久久三级| 亚洲国产AV无码综合原创| 99re热精品视频国产免费| 国产成人免费视频精品一区二区| 在线精品欧美日韩| 自拍亚洲欧美精品| 国产十八禁在线观看免费| 国产在线观看人成激情视频| 老熟妇喷水一区二区三区| 欧美一级夜夜爽www| 成人另类稀缺在线观看| 亚洲视频色图| 毛片手机在线看| 99精品视频在线观看免费播放 | 精品久久国产综合精麻豆| 国产三级毛片| 国产日本一线在线观看免费| 丰满少妇αⅴ无码区| 欧美区一区| 很黄的网站在线观看| 国产精品视频猛进猛出| 成人av专区精品无码国产| 国产成人三级| 国产在线视频二区| 韩日午夜在线资源一区二区| 久久精品视频亚洲| 亚洲狠狠婷婷综合久久久久| 日韩在线影院| 欧美在线黄| 久久亚洲国产一区二区| 青青草原国产一区二区|