999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種融合語義分析特征提取的推薦算法

2020-03-21 01:10:12陳嘉穎楊興耀
計算機研究與發展 2020年3期
關鍵詞:語義用戶信息

陳嘉穎 于 炯 楊興耀

1(新疆大學信息科學與工程學院 烏魯木齊 830046) 2(新疆大學軟件學院 烏魯木齊 830008)(chenjy@stu.xju.edu.cn)

近年來,互聯網的蓬勃發展致使網絡信息量呈指數級增長,網絡大數據給人們帶來嚴重的“信息過載”問題,導致終端用戶很難準確獲取與其需求相符合的信息.推薦系統能夠根據用戶歷史行為數據,分析其潛在偏好,為用戶提供個性化推薦,成為緩解“信息過載”問題的有效手段.目前,推薦系統已應用在電子商務(Amazon、阿里巴巴等)、社交網絡(Face-book,Twitter等)、電影推薦(Netflix等)、音樂推薦(Last.fm等)、新聞推薦(GoogleNews等)等領域.

現有推薦系統主要以用戶評分矩陣作為主要的用戶偏好信息[1],用戶評分具有客觀性,不同用戶打分標準不同.多數推薦平臺為用戶提供了交互接口,如點贊、評論等,在線評論是用戶對項目感受的具體反饋,這些反饋信息通常以非結構文本形式存在,合理分析用戶評論信息能夠對項目特征及用戶偏好進行精細刻畫.基于用戶評論[2]、基于用戶隱士反饋信息的推薦算法在解決冷啟動、推薦準確性以及可解釋性等方面具有重要潛力,然而,受到文本信息挖掘技術等方面的限制,基于評論信息分析的推薦算法進展并不明顯.

知識圖譜以結構化的形式將互聯網信息表示為人類易于理解的語義網絡,使人們更容易組織、管理以及利用互聯網信息.知識圖譜的興起,為個性化推薦系統的改進提供了新的思路.針對現有推薦系統對項目特征分析不夠充分的問題,提出一種融合語義分析特征提取的推薦算法.該算法從推薦平臺中非結構化文本信息入手,結合知識圖譜,對項目的描述信息及真實評論數據進行相關實體提取和語義分析,提取項目細粒度特征;設計協同學習框架監督學習用戶、項目的低維向量表征,并以此為目標用戶推薦符合其偏好的項目.在真實數據集上的實驗結果表明,本文提出新算法的推薦效果優于選取的代表性對比算法.本文主要貢獻有3個方面:

1) 利用知識圖譜對多源異構數據的整合性,在對項目特征提取過程中融入語義分析,提出融合語義分析的特征分析方法.

2) 定義相關實體概念對提取的特征實體進行擴展,在特征分析過程中保持項目特征多樣性.

3) 設計知識感知的協同學習框架,將基于知識圖譜的向量表征整合到協同過濾推薦過程中,根據學習結果進行Top-N推薦.

1 相關工作

1.1 個性化推薦

個性化推薦算法主要包括基于內容的推薦算法(content-based recommendation, CBR)、基于協同過濾的推薦算法(collaborative filtering-based reco-mmendation, CFR)和混合推薦算法(hybrid methods)3類[3].基于內容的推薦算法通過抽取各個項目的屬性特征、分析用戶歷史行為構建用戶對項目的偏好向量,然后計算用戶偏好向量與候選項目特征向量的相似性,向用戶推薦相似度高的項目.該方法特征抽取困難,局限于文本資源推薦,很難挖掘用戶潛在興趣[1,4].

協同過濾推薦算法的目標是將用戶和項目間的二元關系轉化為評分預測問題,依據用戶對項目的歷史評分進行協同過濾或排序,進而產生推薦列表[1,5].與基于內容的方法相比,協同過濾推薦算法不需要項目屬性信息,可以根據用戶與物品間點擊、瀏覽、評分等交互信息進行推薦[6],因此被研究者廣泛推崇.

基于協同過濾的推薦算法通常分為基于內存的協同過濾算法(memory-based collaborative filtering)和基于模型的協同過濾算法(model-based collabora-tive filtering).基于內存的協同過濾算法通過計算用戶或項目間的相似度,評估目標用戶對未打分項目的評分而進行推薦[5].此類方法主要依賴用戶對項目的評分資源,適應性廣,同時也面臨高稀疏性、冷啟動、無法有效處理大規模數據等問題[4,7].

基于模型的協同過濾推薦算法使用統計和機器學習技術,根據用戶-項目打分矩陣學習包含用戶隱藏特征的行為預測模型,并利用此模型進推薦.學者們將多種模型用于基于模型的協同過濾方法,如貝葉斯模型[8-9]、矩陣分解模型[10]、潛在語義分析模型[11]、深度學習模型[12]等.基于矩陣分解的方法,如SVD[13](singular value decomposition),NMF[14](non-negative matrix factorization)等,根據高維用戶-項目評分矩陣學習用戶、項目的低維向量表示,并將其用于推薦任務.此類方法在處理大規模數據時有杰出表現.為了緩解協同過濾算法數據稀疏性和冷啟動問題,研究人員將語義知識融入推薦過程.文獻[15]利用鏈接開放數據庫中豐富的語義,提取電影相關RDF數據,計算電影資源向量空間的相似性,并進行Top-N推薦.隨著深度學習算法在自然語言處理、圖像識別、計算機視覺等多個領域取得了巨大的突破,研究者們將深度學習模型引入推薦領域用于隱藏特征的學習.文獻[12]將2層受限玻爾茲曼機(restricted Boltzmann machines, RBM)用于協同過濾算法.該方法以用戶對項目的打分矩陣為輸入學習隱含層并用隱含層的數值來表示用戶特征,首次提出基于深度學習的協同過濾模型.文獻[16]利用用戶信息、歷史行為等多源異構數據,將深度神經網絡用于YouTube視頻推薦系統的候選集生成模塊和精排模塊,推薦效果顯著提升.Google提出Wide&Deep學習模型[17]用于手機APP推薦,該模型聯合訓練一般的線性模型(wild)和多層感知機模型(deep),使其同時具有記憶能力和泛華能力,得到了廣泛的應用.

1.2 知識圖譜及其表示學習模型

2012年5月Google為增強互聯網搜索引擎能力、優化搜索引擎結果而發布知識圖譜產品.知識圖譜(knowledge graph, KG)以一種接近人類認知的結構化表達形式,存儲客觀世界存在的復雜結構化、非結構化信息,其本質是語義網絡[18].近年來,隨著互聯網數據規模的不斷增大,多種開放知識圖譜被推出,如DBpedia,YAGO,Wikidata,BabelNet,Microsoft Concept Graph、中文知識圖譜百度百科、OpenKG等.合理使用知識庫中的語義信息,能夠解決現實生活中通過單一領域知識難以解決的問題,目前,知識圖譜已在互聯網語義搜索、智能問答、大數據語義分析以及智能知識服務等方面得到廣泛應用.

知識圖譜以結構化的形式描述概念、實體及其間的關系,多以RDF(resource describe framework)三元組的形式進行存儲管理,即G=(E,R,E),其中,E={e1,e2,…,e|E|}表示知識庫中|E|個實體的集合;R={r1,r2,…,r|R|}表示知識庫中|R|種不同關系的集合;S?E×R×E表示知識庫中三元組集合.每個三元組(h,r,t)包含2個實體(頭實體h,尾實體t)及2個實體間的關系r.

基于三元組的知識表示方法由于其表現能力強、具有可解釋性等優點被學者廣泛認可,但也面臨著數據稀疏、推理能力低、魯棒性差等問題.隨著自然語言處理領域詞向量嵌入技術的發展,面向知識圖譜的表示學習研究也取得了新進展.基于向量的知識表示方法將知識圖譜中的實體和關系用低維稠密的向量表示,并使相近實體在向量空間有相近的表示,語義相關聯的實體在向量空間有所關聯,進而在低維向量空間中計算實體間語義相似性.基于向量的知識圖譜表示可以有效地將知識圖譜用與其他學習任務相結合,如知識庫補全、關系抽提、實體分類等.

知識圖譜的表示學習方法主要有基于張量分解的方法,如NTN[19],RESCAL[20-21];基于翻譯的方法,如TransE[22],TransD[23],TransH[24],TransR[25]等.基于翻譯的模型認為,對于每個三元組(h,r,t),其中關系r是頭實體h到尾實體t之間的翻譯[26].由于此類方法在大規模知識圖譜中具有簡單、高效等優點,自Bordes等人[22]提出TransE模型后,基于翻譯的方法受到研究者的廣泛關注.本文選用TransR模型在算法中進行表示學習.

(1)

相應的得分函數被定義為

(2)

Fig.1 TransR model圖1 TransR模型

1.3 基于語義分析的推薦算法

基于歷史數據集的推薦算法面臨數據稀疏、冷啟動等問題,近年來許多研究者將語義知識融入協同過濾算法解決上述問題.文獻[27]通過對描述物品的文本進行分詞、提取標簽等處理后,計算描述信息的詞語間的相似度,進而分析物品間的相似性,預測目標用戶對項目的打分;文獻[28]提出一個3層知識表述方法用于新聞推薦,通過在用戶層與項目層中間引入語義豐富、表達明確的知識空間,分析上下文語義信息,改進推薦系統性能;文獻[29]提出一種基于標簽語義相似度分析的推薦算法.該算法通過分析項目標簽與項目之間的相關性,處理單詞間、句子間的相似性來提升對用戶興趣分析的準確度.

由于知識圖譜的語義網絡特性,學者們試圖將知識圖譜用于推薦過程來提升效果.知識圖譜在3個方面對推薦算法有促進作用:1)實體間語義相關性有助于提取異質信息網絡中用戶及項目的潛在特征;2)知識圖譜包含大量實體及豐富的關系,復雜的鏈接關系能夠合理擴展用戶偏好,為用戶做出多樣性推薦;3)通過知識圖譜將用戶的歷史行為記錄連接起來,能夠提升推薦系統帶可解釋性[30].文獻[31]較早提出將DBpedia用于音樂推薦,作者首先將音樂數據集映射到知識庫獲取音樂潛在屬性信息,然后計算各個藝術家在知識庫中的語義距離并以此完成推薦;文獻[32]分別構建了基于聲音和基于音樂的知識圖譜,從項目的標簽、文本描述信息等歷史數據中提取實體,并使用實體鏈接、同義詞消歧技術將提取的實體映射到知識圖譜中,以此豐富聲音、音樂特征,使推薦的覆蓋面更廣;文獻[33]將知識庫中的結構知識、文本知識和圖片知識分別向量化后,通過聯合訓練與協同過濾進行融合,實現了基于異構數據的排序推薦.其中結構知識通過知識圖譜中頭尾實體與實體之間的關系組成,首次將知識圖譜用于推薦算法項目特征提取;文獻[34]將知識圖譜引入新聞推薦系統,提出一種基于內容的深度學習點擊率預測算法(deep knowledge-aware network, DKN).DKN算法設計了知識感知的卷積神經網絡模塊和單詞-實體對齊模塊,關聯新聞標題中的詞語與知識庫中的實體,將新聞語義層面表示與知識層面表示相融合,并使用注意力模塊動態聚合用戶歷史記錄;文獻[30]提出RippleNet算法,RippleNet模擬水面漣漪傳播的過程,在知識庫中根據實體間關系自動迭代擴展用戶的潛在興趣.根據用戶行為歷史,可刺激用戶偏好在多組實體上傳播,形成用戶偏好分布,預測用戶對候選項目的點擊概率;文獻[35]提出基于知識圖譜的推薦算法的通用向量化模型.在知識圖譜上使用神經語言模型學習用戶、項目的特征向量,針對特定屬性創建用戶-項目關聯關系,然后利用機器學習函數生產Top-N推薦序列;文獻[36]提出知識增強的序列推薦算法,該算法將知識圖譜整合到一個RNN網絡與Key-Value存儲網絡相結合的模型,來增強其語義表達,知識增強的KV-MNs能夠捕獲屬性級別的用戶偏好序列,并具有高可解釋性;文獻[37]將知識圖譜視為一個異質信息網絡,構造用戶和項目的基于meta-path或者meta-graph的向量表示,挖掘項目之間屬性關系,靈活使用知識圖譜網絡結構信息提升推薦效果.

2 問題定義及模型框架

本文提出一種融合語義分析特征提取的推薦算法,擬根據用戶在網絡中的歷史行為及項目的評論信息,結合知識圖譜對項目和用戶進行細粒度特征分析,向用戶推薦更符合其偏好的項目.

融合語義分析特征提取的推薦算法整體框架如圖2所示,該模型主要包括基于知識圖譜的項目表示、協同學習、推薦列表生成3個部分.基于知識圖譜的項目表示模塊以項目的評論信息及知識圖譜為輸入,提取項目相關實體組建知識子圖,學習知識子圖中實體低維向量表示并以此對項目進行低維表征;協同學習模塊以項目的向量表示結果及用戶的歷史行為為輸入,通過知識感知的協同學習框架,結合知識圖譜向量表示及用戶的偏好函數協同學習項目、用戶的低維表征;推薦列表生成模塊根據學習得到的用戶、項目低維向量表示,對目標用戶進行Top-N推薦.

Fig.2 Framework of the feature extraction based recommender algorithm fusing semantic analysis圖2 融合語義分析特征提取推薦算法框架

3 基于語義分析的特征提取及推薦

3.1 相關實體提取

目前,多數視頻網站為用戶提供了評論通道以促進用戶間交流,這些以文本形式存在的評論信息中包含了大量與視頻特征相關的信息,也包含用戶對該視頻的態度及個人偏好.對于評論文本,實體是其承載特征信息的基本語言單位,識別評論信息中的實體及其間的相互關系,是理解評論信息的基礎,也為分析視頻特征及用戶偏好提供新的途徑.

命名實體識別(named entity recognition, NER)技術可以將非結構化文本轉化為以命名實體為中心的結構化語義表示,實體鏈接(entity linking, EL)技術可以將識別的實體與知識庫中相應的實體相連接.融合語義分析特征提取的推薦算法使用NER和EL技術,結合知識圖譜在項目評論信息中提取項目相關實體及實體間的鏈接信息.對于一段非結構化評論文本T,T中包含多個命名實體,命名實體集合為A={a1,a2,…,an},對于A中任意實體a,在知識圖譜命名實體庫E中遍歷實體名稱,得到a的候選實體集合ε(a)={ea,1,ea,2,…,ea,k},通過實體消歧技術將a鏈接到知識庫中相應的實體ea上[38].由于Wikipedia中包含大量表示特征的實體,因此本文在處理英文文本信息時選用Wikipedia作為基礎知識庫,選擇百度百科作為分析中文文本信息的知識庫.

圖3為豆瓣網站上某用戶對電影《阿凡達》的評論信息.該評論信息中包含:與電影相關的實體,如卡梅隆、佩戴等;與電影拍攝技術相關的實體,如3D、虛擬攝像、表情抓取、聯合數字立體攝影機等;與電影細粒度特征相關的實體,如探險、挑戰、愛情、好萊塢個人英雄主義、傳奇劇式等;與電影相關聯的其他實體,如泰坦尼克、塞爾達傳說、游戲等.

(3)

(4)

其中,fk為特征函數,wk為特征函數的權重,Z(x)為歸一化因子.

3.2 特征實體表示學習

εk={t|(h,r,t)∈Gandh∈εk-1},

(5)

其中,k=1,2,…,H,H為最大階數.

在提取實體的過程中,實際提取實體數目受評論數量制約,Ru中實體數目變動較大,本文采用擴展相關實體的方式緩解因提取相關實體少而引起的數據稀疏、特征單一的問題.為了豐富用戶u的特征實體集合,本文將通過上述方法得到的實體集合Ru視為知識圖譜中種子實體,通過鏈接關系將其擴展為n階相關實體集合.根據擴展后的實體集合,構建項目特征相關子知識庫,并采用知識圖譜表示學習模型TransR學習上述項目特征相關知識子圖的低維向量表示.圖4是對圖3中影評信息的實體提取、建立子圖及子圖表征的過程.

對于項目i,其相關實體集合ri中的實體以不同程度體現項目i的特征.就圖3影片評論信息而言,實體3D、卡梅隆、虛擬技術較好萊塢、泰坦尼克更能代表影片《阿凡達》的特征.因此,在知識圖譜向量表征的基礎上,本文為不同實體賦予不同的權重,通過權重函數表示項目與其相關實體間的關系,由此得到項目、用戶基于權重函數的低維向量表征.項目i基于權重函數可表示為vi.

Fig.4 The process of relevant entities linking, sub-graph construction and embedding of a review圖4 影評信息實體提取、子圖建立及表征過程

(6)

因此,用戶u的某個瀏覽歷史項目i可表示為

(7)

(8)

3.3 協同學習及排序預測

為了將知識圖譜的表示學習過程整合到協同過濾推薦過程中,本文設計了一種知識感知的協同學習(knowledge-aware collaborative learning, KACL)框架,該框架通過定義用戶偏好函數,構造知識圖譜實體-關系四元組,協同學習實體、項目及用戶的低維向量表征.并以此為目標用戶推薦符合其偏好的項目.

推薦平臺中,隱式反饋信息(如瀏覽、收藏、購買等)通常是對每個用戶的操作數據進行收集,能夠緩解顯示反饋的數據稀疏性問題.本文在推薦學習過程中,借鑒BPR(Bayesian personalizes ranking)模型[40]中用戶喜好商品偏序對的思想,定義用戶-項目對偏好函數并用于學習過程.對于m個用戶及n個項目,用戶-項目隱式反饋矩陣為Rm×n,當Ru,i=1時,表示用戶u與項目i之間存在可觀察到的交互,如點擊、瀏覽、收藏等.當Ru,i=0時,表示用戶u與項目i之間不存在可觀察到的交互,據此定義用戶-項目對偏好函數.

定義2.用戶-項目對偏好函數.設用戶集合為U,u∈U;項目集合I,i∈I,i′∈I,用戶u對項目i的偏好為Ru,i,Ru,i=1表示用戶u對項目i有過交互,否則Ru,i=0.對于用戶-項目三元組(u,i,i′)∈D,集合D表示用戶-項目三元組集合,如果Ru,i=1,且Ru,i′=0,表示用戶u對項目i的偏好程度大于該用戶對項目i′的偏好[40].定義用戶-項目對偏好函數p(u,i,i′)(p(u,i,i′)>0)表示用戶對項目對(i,i′)的偏好:

(9)

其中,uu和vi分別代表用戶u和項目i的向量表征,δ代表sigmoid函數.KACL中協同推薦學習過程認為用戶對隱式反饋商品的偏好大于沒有反饋的商品.

KACL框架中知識圖譜表示學習過程,通過構造與知識圖譜中三元組相關的實體-關系四元組,以優化知識圖譜實體、關系表征為目標,采用sigmoid函數計算知識圖譜中三元組對的得分,訓練知識圖譜表征學習模型.具體過程為:

對于知識圖譜G中任意三元組(h,r,t),構建相關實體-關系四元組集合St,t′=(h,r,t,t′);四元組中實體h,t,t′及關系r滿足(h,r,t)∈G∩(h,r,t′)?G,即(h,r,t)是知識圖譜中真實存在的實體,(h,r,t′)不是知識圖譜中存在的實體.集合S表示實體-關系四元組集合,St,t′∈S.在知識圖譜表示學習過程中,認為真實存在三元組得分大于不存在三元組的得分.因此,協同學習過程中知識圖譜表征過程的監督函數可定義為

yh,r,t,t′=lnδ(fr(h,t)-fr(h,t′)).

(10)

為了得到各參數的最優解,本文采用Adam優化器迭代優化損失函數,KACL模型損失函數:

(11)

為避免學習過程中出現過度擬合現象,在損失函數式(11)中加入正則化項z,其中λ為正則化參數.

(12)

知識感知的協同學習過程如算法1所示:

算法 1.KACL算法.

輸入:用戶集合U={u1,u2,…,un}、項目集合I={i1,i2,…,im}、用戶-項目隱式反饋矩陣Rm×n、知識圖譜G;

輸出:用戶、項目向量表示矩陣P,Q.

① 隨機初始化W,P,Q;

② 構建用戶-項目對三元組集合D;

③ for (uu,vi,vi′)∈Ddo

④ 構建實體關系四元組Si,i′;

⑤ for (h,r,t,t′)∈Si,i′do

⑥ 根據式(6)~(8)對項目、用戶進行向量化表示:vi,vi′,ui;

⑦ 根據式(11)計算損失函數

⑧ Maximizeχu,i,i′+yh,r,t,t′+z;

⑨ end for

⑩ end for

算法1中,通過步驟②④構建用戶-項目三元組集合D,實體關系四元組Si,i′,由此對項目、用戶進行表征,并根據表征結果最大化損失函數值,最終輸出用戶、項目的低維表征矩陣.算法2根據表征結果對目標用戶和項目進行相似度預測,并將相似度結果進行排序,將Top-N的項目作為推薦結果輸出.

算法2.Top-N推薦.

輸入:用戶、項目向量表示矩陣P,Q,推薦個數N;

輸出:Top-N推薦列表.

對于任意用戶u及項目i

① forum∈Udo

② forvi∈Ido

③Smi=pumqvi;

④RankList=Sorthigh→low(Smi);

⑤ end for

⑥ 輸出Top-N推薦列表;

⑦ end for

4 實驗與結果分析

為了證明融合語義分析特征提取的推薦算法的有效性,本文在真實數據集上進行驗證實驗,并將其結果與其他流行算法進行對比分析.

4.1 實驗數據集及評價指標

1) 數據集

本文選用2個真實數據集:豆瓣網(Douban)爬取數據集和亞馬遜提供的Movie Review數據集來驗證實驗性能.豆瓣數據集包含124 153個用戶對電影的409 841個打分、410 254條評論信息.Amazon Movie Review數據集包含12 512個用戶對210 756個項目481 457個打分.為了更好地對算法性能進行評估,實驗前對數據集中評論數少于20的項目進行篩減,然后在篩選后的數據集上進行實驗.實驗中,我們將數據集隨機劃分為訓練集、驗證集、測試集3部分,3個集合的數據比例為7∶1.5∶1.5.

2) 評價指標

本文在實驗中驗證了新模型在Top-N推薦中的效果,選用Precision@k,Recall@k評估Top-N推薦結果,并使用AUC(area under the ROC)對算法進行綜合評估.準確率反映了系統推薦的項目中用戶感興趣項目的比重,召回率反映出被推薦項目是用戶真正感興趣項目的比重.

(13)

(14)

其中,U為用戶集合,top_k(u)表示通過算法獲取的前k個項目列表;T(u)表示測試集中用戶u歷史選擇項目集合;top_k(u)∩T(u)表示k個推薦項目列表與測試集列表的交集,即正確推薦項目集合.為了綜合評價改進算法的性能,我們在實驗過程中將用戶對項目的打分轉換為用戶對項目的反饋數據,從二分類問題角度出發,以AUC為評價指標綜合評價改進算法的推薦結果.以上3評價指標的值越大,推薦效果越優[41].

4.2 實驗設置

為了證明本文提出算法的優越性,我們將新算法與3個經典推薦算法進行對比.

1) Wide&Deep[17].Wide&Deep是Google 提出的用于手機APP推薦的學習模型,該模型聯合訓練一般的線性模型(wild)和多層感知機模型(deep),使新模型同時具有記憶能力和泛化能力,是基于深度學習的協同算法的代表.

2) CKE[33](collaborative knowledge base emb-edding).CKE模型在推薦算法中融合結構知識、文本知識、圖片知識提取項目語義特征用于排序推薦,其中結構知識通過知識圖譜中三元組獲取.CKE是基于知識圖譜的推薦算法的代表,為了保持算法的公平,對比實驗中我們僅在CKE中融合結構知識.

3) NFM[42](neural factorization machine).NFM算法將矩陣分解(factorization machines, FM)模型與神經網絡相結合,用于提取項目二階線性特征及高階非線性特征.

本文為實驗搭建Wikipedia、百度百科知識圖譜,采用Python為開發語言,所有實驗在Python 3.7.2,tensorflow1.13.0環境下完成.對于數據集中的每個項目,我們分別在知識圖譜中提取其屬性實體,并將實體集合擴展到3階相關實體集合.學習過程中,隨機將數據集以7∶1.5∶1.5的比例劃分為訓練集、驗證集、數據集3部分,進行5次實驗取其平均值作為實驗結果.KACL模型在訓練過程中選用adam優化器進行參數優化,其初始學習率設置為0.001,迭代次數設置為10,數據集用戶、項目的向量表示維度為100,并選用BatchNorm實現深度神經網絡更快更穩定的訓練.對比算法中向量也設置了相同的維度.

4.3 實驗結果及分析

1) KACL穩定性測試

在KACL算法中,推薦個數k的設置直接影響推薦結果.為了證明模型的穩定性,我們設置k分別取值為5,10,15,20,25,30,35,40,在不同推薦個數條件下比較推薦準確性.實驗結果如圖5所示,從圖5可以看出,在2數據集上,隨著k值的增大,算法推薦結果Precision@k的值先降低,隨后趨于穩定.KACL模型在不同k值條件下,推薦結果均優于對比算法,這說明KACL推薦效果不受推薦個數的影響,具有穩定性.

Fig.5 The comparison of accuracy with different k圖5 不同k值時推薦結果準確率比較

2) 不同推薦算法比較

在同樣的實驗環境下,我們將本文提出的融合語義分析特征提取的推薦算法與選取的基于深度學習的推薦算法(Wide&Deep)、基于知識圖譜的推薦算法(CKE)及基于矩陣分解的推薦算法(NFM)進行實驗比較.各算法在Douban數據集上推薦結果Precision@k,Recall@k的值如表1所示.圖6顯示了精確率和召回率隨著推薦個數k的變化情況.

從圖6可以看出,KACL在不同k值條件下,其推薦準確率、召回率均高于對比算法.基于融合語義分析特征提取的推薦算法的Precision@k值隨著推薦個數值的增加逐漸降低,當k=20時趨于穩定.當k<20時,KACL算法推薦結果的準確率較對比算法有明顯優勢.算法推薦結果的Recall@k值隨著推薦個數的增加而增加,這是由于當推薦個數增大時,算法推薦結果會覆蓋更多用戶的偏好項目.當k≥30時,KACL算法推薦結果召回率較對比算法有明顯的提升.當k=20時,整體推薦效果最佳,KACL較基于知識圖譜的CKE算法準確率提升了32.62%,召回率提升了6.0%,由此說明KACL算法較傳統基于知識圖譜的方法能夠更好的利用異構資源分析項目語義特征,向目標用戶推薦更符合其興趣愛好的項目.此外,KACL算法較基于深度學習的Wide&Deep算法準確率提升了27.78%,召回率提升了6.27%,較基于矩陣分解的算法準確率提升了11.20%,召回率提升了6.10%.

Table 1 The Evaluation Results of Different Methods with Different k on Douban表1 各算法不同k值時在Douban數據集上的推薦性能

Fig.6 The comparison results of different methods on Douban圖6 在Douban數據集上不同算法性能比較

各算法在Amazon Movie Review數據集上的預測結果如表2、圖7所示.從圖7可以看出,在不同推薦個數下,KACL推薦結果的Precision@k,Recall@k值均高于對比算法.與豆瓣數據集相比,Amazon Movie Review數據量較少,項目評論信息偏少.盡管如此,KACL算法的推薦效果較其他推薦算法仍然具有優勢.以上對各算法推薦性能的分析可以說明,本文提出的融合語義分析特征提取的推薦算法能夠為用戶推薦更符合其偏好的項目.

為了綜合評價KACL算法與對比算法,我們將用戶對項目的打分信息轉化為用戶對項目的反饋信息進行二分類測試,得到各算法推薦結果的AUC值.表3列出了各算法推薦結果AUC值以及KACL算法較對比算法AUC值提升程度.從表3可以看出,KACL算法的AUC結果高于所以對比算法.與基于知識圖譜的CKE算法的AUC結果相比,KACL在2個數據集上的推薦結果分別提升了10.11%和8.56%.說明了本文提出的KACL算法在項目的細粒度特征提取方面更具敏感性,能夠更準確的分析項目特征、用戶偏好,從而做出更準確的推薦.

Table 2 The Evaluation Result of Different Methods with Different k on Amazon Movie Review表2 各算法不同k值時在Amazon Movie Review數據集上的推薦性能

Fig.7 The comparison results of different methods on Amazon Movie Review圖7 在Amazon Movie Review數據集上不同算法推薦性能比較

Table 3 The AUC Results of Different Methods and the Comparison Between them on 2 Datasets
表3 2個數據集上不同算法推薦結果的AUC值及其比較

DatasetsWide&DeepCKENFMKACLImprovement Rate of KACL∕%Wide&DeepCKENFMDouban0.75210.72390.78590.80537.0711.242.47Amazon Movie Review0.66790.63560.68230.65104.079.361.88

3) 算法時間復雜度比較

綜合以上實驗結果,本文提出的基于知識圖譜的推薦算法在推薦效果及算法效率方面均優于具有代表性的對比算法,能夠在不丟失大量理想項目的情況下將符合用戶需求的項目推薦給用戶.

5 結 論

基于標簽等語言分析推薦算法在分析用戶、項目細粒度特征等方面存在一定的局限性.推薦平臺上項目描述信息、評論信息中包含大量項目特征信息以及用戶偏好信息,對評論信息進行有效分析是項目細粒度特征提取、提升推薦效果的有效途徑.

為了更準確地分析用戶、項目特征,本文在項目評論等文本信息的基礎上,結合知識圖譜,對文本信息進行語義分析,提出一種基于語義分析特征提取的推薦算法.新算法通過知識圖譜實體識別鏈接技術,根據文本信息內容在知識庫中提取項目屬性特征實體及與其相關聯的實體,以此分析用戶、項目的細粒度特征,并根據用戶、項目基于特征的向量表示,完成對目標用戶的推薦.在2個數據集上的實驗證明了本文提出算法的有效性.在今后的工作中,我們將在語義分析的基礎上,結合評分矩陣進一步對細粒度特征分析,并考慮融合社交網絡等外部信息解決推薦算法中冷啟動等問題.

猜你喜歡
語義用戶信息
語言與語義
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
認知范疇模糊與語義模糊
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 黄色网址手机国内免费在线观看| 亚欧成人无码AV在线播放| 欧洲成人在线观看| 国产精品所毛片视频| 一本一本大道香蕉久在线播放| 波多野结衣爽到高潮漏水大喷| 青草精品视频| 久久精品国产亚洲麻豆| 92精品国产自产在线观看| 久久久精品国产SM调教网站| 人妻无码中文字幕一区二区三区| 国产99欧美精品久久精品久久| 日韩人妻少妇一区二区| 欧美一区精品| 高清欧美性猛交XXXX黑人猛交| yjizz视频最新网站在线| 国产福利一区视频| 婷婷成人综合| 久久99国产综合精品女同| 国产日韩欧美精品区性色| 女人18毛片久久| 日本在线免费网站| 人人艹人人爽| 国产在线第二页| 中文字幕 日韩 欧美| 欧美精品在线看| 国产成人精品一区二区秒拍1o| 2021国产精品自产拍在线| 亚洲一区二区三区国产精华液| 亚洲一级毛片免费看| 国产va在线观看| 亚洲AⅤ综合在线欧美一区| 91年精品国产福利线观看久久| 五月婷婷综合色| 国产精品香蕉| 中文字幕人妻av一区二区| 不卡无码网| 日韩福利视频导航| 欧美亚洲国产一区| 最新精品久久精品| 精品国产免费人成在线观看| 9999在线视频| 免费午夜无码18禁无码影院| 国产精品第页| 亚洲人成网线在线播放va| 亚洲国产中文欧美在线人成大黄瓜 | 99在线观看免费视频| 国产尤物jk自慰制服喷水| 国产精品刺激对白在线| 日本欧美午夜| 欧美激情二区三区| 四虎综合网| 9啪在线视频| 国产一二三区在线| 欧美亚洲一二三区| 国产视频自拍一区| 中文纯内无码H| 热思思久久免费视频| 亚洲国产日韩欧美在线| 福利视频一区| 成人精品午夜福利在线播放 | 福利一区三区| 中国国产一级毛片| 亚洲aⅴ天堂| 在线无码九区| 在线观看网站国产| 97无码免费人妻超级碰碰碰| 成人欧美日韩| 国产玖玖玖精品视频| 日本尹人综合香蕉在线观看| 一级黄色欧美| 亚洲成人一区二区三区| 成年看免费观看视频拍拍| 波多野结衣一二三| 香港一级毛片免费看| 九色综合伊人久久富二代| 最新无码专区超级碰碰碰| 日韩精品高清自在线| 四虎成人在线视频| 又黄又湿又爽的视频| 國產尤物AV尤物在線觀看| 青青草a国产免费观看|