馮晨嬌 宋 鵬 王智強(qiáng) 梁吉業(yè)
1(計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室(山西大學(xué)) 太原 030006) 2(山西財(cái)經(jīng)大學(xué)應(yīng)用數(shù)學(xué)學(xué)院 太原 030006) 3(山西大學(xué)經(jīng)濟(jì)與管理學(xué)院 太原 030006)
互聯(lián)網(wǎng)時(shí)代,伴隨電子商務(wù)的迅猛發(fā)展,推薦系統(tǒng)日益受到廣泛的關(guān)注.一方面,推薦系統(tǒng)能夠給用戶提供其可能感興趣的商品、服務(wù)等各類信息,進(jìn)而有效提升用戶的信息獲取效率.另一方面,推薦系統(tǒng)可以幫助商家有效分析用戶偏好,從而增加商品銷售數(shù)量和銷售種類.自1992年郵件過濾系統(tǒng)Tapestry問世以來,推薦系統(tǒng)已滲透于各個(gè)領(lǐng)域,包括:娛樂性的電影、音樂、游戲等;內(nèi)容性的個(gè)性化新聞、文檔推薦、網(wǎng)頁推薦等;電子商務(wù)性的書籍推薦、商品推薦等;服務(wù)性的旅游推薦、房屋租賃推薦等;社交性的朋友推薦等.隨著這些應(yīng)用系統(tǒng)的有效推廣,推薦方法的研究受到了學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注.
推薦方法中,用戶評(píng)分是數(shù)據(jù)建模的重要基礎(chǔ).然而,在現(xiàn)實(shí)的推薦場景中,用戶給予項(xiàng)目的評(píng)分或者選擇項(xiàng)目的頻次是一個(gè)典型的長尾現(xiàn)象,符合帕累托定律.推薦系統(tǒng)中,所謂長尾是指長尾項(xiàng),俗稱冷門項(xiàng)目,最早由Anderson[1]提出.其區(qū)別于冷啟動(dòng)問題,冷啟動(dòng)問題是指針對(duì)新用戶或新項(xiàng)目的推薦,而長尾項(xiàng)或者說冷門項(xiàng)目是指只有少數(shù)人給予評(píng)分的項(xiàng)目.
在電子商務(wù)等應(yīng)用場景中,長尾項(xiàng)有其獨(dú)特的價(jià)值,并日益受到重視.文獻(xiàn)[2]指出對(duì)長尾項(xiàng)的推薦是推薦系統(tǒng)有效性的重要評(píng)測指標(biāo).一方面,長尾項(xiàng)往往是用戶獨(dú)有的興趣,對(duì)長尾項(xiàng)的抓取是提升個(gè)性化推薦精度的關(guān)鍵所在;進(jìn)一步地,長尾推薦可以給用戶帶來不同程度的驚喜度和滿意度[3-4].另一方面,對(duì)于商家來說,長尾推薦是其收益提升的重要途徑.文獻(xiàn)[5]指出亞馬遜網(wǎng)站30%~40%的圖書銷售業(yè)績?cè)醋杂谀切╇y以在實(shí)體店發(fā)現(xiàn)的書目,在此基礎(chǔ)上,文章進(jìn)一步強(qiáng)調(diào)長尾商品是支撐電子商務(wù)業(yè)績?cè)鲩L的重要驅(qū)動(dòng)力.文獻(xiàn)[6]以亞馬遜網(wǎng)站200類圖書為樣本,開展了長尾商品的推薦效應(yīng)研究,結(jié)果表明,最冷門的20%圖書商品可實(shí)現(xiàn)50%的業(yè)績?cè)鲩L.文獻(xiàn)[7]指出推薦系統(tǒng)的設(shè)計(jì)不應(yīng)僅僅關(guān)注熱門商品,面向長尾商品的推薦系統(tǒng)研究可有效提高冷門產(chǎn)品的銷售業(yè)績,進(jìn)而實(shí)現(xiàn)商家的利潤最大化.
事實(shí)上,稀疏性是制約推薦系統(tǒng)性能提升的重要影響因素.特別地,對(duì)于長尾項(xiàng)而言,其數(shù)據(jù)稀疏程度更加凸顯.因此,從現(xiàn)有研究進(jìn)展來看,諸多成果通過增加信息源來緩解數(shù)據(jù)稀疏問題,進(jìn)而開展長尾推薦研究.文獻(xiàn)[8-12]利用用戶信息(如社會(huì)網(wǎng)絡(luò)、用戶屬性、用戶評(píng)論和文本挖掘)或產(chǎn)品屬性等額外的信息源來挖掘用戶的個(gè)性化偏好和長尾項(xiàng)之間的關(guān)系.另一方面,相關(guān)研究成果通過引入多樣性指標(biāo)提升系統(tǒng)的新穎性推薦性能,進(jìn)而促進(jìn)長尾項(xiàng)的推薦效果[13-15].從推薦方法研究路徑來看,現(xiàn)有成果已由單一追求預(yù)測精度向“準(zhǔn)確性+新穎性”綜合考量的方向發(fā)展,相應(yīng)地,其在一定程度上促進(jìn)了長尾項(xiàng)的推薦.然而,多樣性指標(biāo)尚缺乏統(tǒng)一的度量,且其和準(zhǔn)確性、新穎性之間的內(nèi)在關(guān)聯(lián)也存在不同的觀點(diǎn)[16-18],因此,多樣性指標(biāo)的非一致性問題也給長尾推薦建模帶來了新的困惑.
與以往研究不同,本文試圖在不引入額外信息源的基礎(chǔ)上,同時(shí)回避多樣性指標(biāo)的非一致性問題,將影響長尾項(xiàng)推薦的3個(gè)因素引入概率圖模型.其中,3個(gè)因素分別是用戶活躍度、項(xiàng)目非流行度和用戶-項(xiàng)目偏好水平.在實(shí)際的推薦場景中,從用戶視角來看,與新用戶或非活躍用戶相比,活躍用戶更傾向于選擇一些冷門項(xiàng)目,因此,用戶活躍度是長尾項(xiàng)推薦的重要影響因素之一;從項(xiàng)目視角來看,項(xiàng)目的非流行程度決定了其是否歸屬于長尾項(xiàng)目,相應(yīng)地,項(xiàng)目非流行度自然是長尾推薦的重要影響因素之二;從用戶對(duì)項(xiàng)目的評(píng)價(jià)視角來看,偏好水平越高,越可能表明用戶對(duì)該項(xiàng)目具有個(gè)性化偏好,而長尾項(xiàng)目往往是用戶個(gè)性化偏好的現(xiàn)實(shí)表現(xiàn),因此,用戶-項(xiàng)目偏好水平則是長尾推薦的重要影響因素之三.基于上述分析,本文引入前述3個(gè)因素構(gòu)造二項(xiàng)分布隨機(jī)變量,在概率圖模型框架下構(gòu)建了一個(gè)新的長尾推薦方法,進(jìn)而實(shí)現(xiàn)推薦精度與新穎性的相對(duì)均衡.
早期的長尾推薦多采用聚類方法開展相關(guān)研究.文獻(xiàn)[8]通過評(píng)分?jǐn)?shù)目的多少將所有的項(xiàng)目分為長尾項(xiàng)和熱門項(xiàng),在此基礎(chǔ)上,基于項(xiàng)目屬性對(duì)長尾項(xiàng)聚類,通過同一類中長尾項(xiàng)評(píng)分的共享,增加長尾推薦中可用的評(píng)分?jǐn)?shù)目,進(jìn)而運(yùn)用已有的預(yù)測模型進(jìn)行推薦.文獻(xiàn)[9]進(jìn)一步對(duì)文獻(xiàn)[8]方法進(jìn)行了改進(jìn),提出一個(gè)自適應(yīng)聚類方法.其與文獻(xiàn)[8]方法的主要區(qū)別在于不再硬性劃分長尾項(xiàng)和熱門項(xiàng),而是通過評(píng)分?jǐn)?shù)目的自適應(yīng)聚類實(shí)現(xiàn)長尾推薦.然而,文獻(xiàn)[9]方法仍然面臨著聚類個(gè)數(shù)難以確定、初始類中心點(diǎn)選擇困難等問題.
近年來,諸多成果基于多樣性、新穎性、相似性等指標(biāo)的設(shè)計(jì)與改進(jìn)來促進(jìn)長尾項(xiàng)目的推薦.文獻(xiàn)[13]基于3個(gè)目標(biāo)實(shí)現(xiàn)推薦列表的優(yōu)化,即提高準(zhǔn)確性、提升多樣性以及降低項(xiàng)目流行度.其中,給出的多目標(biāo)優(yōu)化問題通過模擬退火算法進(jìn)行問題求解.文獻(xiàn)[15]給出一種“資源”分配策略,即給予高評(píng)分項(xiàng)目與非流行項(xiàng)目相對(duì)均衡的推薦機(jī)會(huì),進(jìn)而在保持一定推薦準(zhǔn)確性的同時(shí),增加推薦方案的多樣性,并提高長尾推薦效果.文獻(xiàn)[19]基于推薦結(jié)果準(zhǔn)確性與多樣性的權(quán)衡,提出了一種多目標(biāo)進(jìn)化推薦方法,在此基礎(chǔ)上可獲得一組推薦方案的帕累托解,相應(yīng)地,特定的目標(biāo)用戶可根據(jù)其行為偏好在若干推薦列表中進(jìn)行選擇.文獻(xiàn)[20]提出了一種在保證推薦精度的同時(shí)降低推薦集中度的策略,即用評(píng)分和流行度指標(biāo)的加權(quán)得到新的推薦排序指標(biāo).文獻(xiàn)[21]提出了一個(gè)長尾推薦的多目標(biāo)框架,在此框架下,設(shè)計(jì)了2個(gè)相互沖突的目標(biāo)函數(shù),分別刻畫推薦方法的準(zhǔn)確性與新穎性,進(jìn)而基于相應(yīng)的多目標(biāo)進(jìn)化算法構(gòu)建推薦生成策略.可以看出,現(xiàn)有的推薦方法不再單純追求準(zhǔn)確率的提升,而是尋求準(zhǔn)確性、多樣性、新穎性等不同視角融合的折中(trade-off)推薦方案.
總體來看,諸多學(xué)者基于聚類、多目標(biāo)優(yōu)化等方法開展了長尾推薦方法研究,并在一定程度上提升了長尾項(xiàng)目推薦的效果.然而,聚類算法中,聚類個(gè)數(shù)設(shè)置、初始中心點(diǎn)選擇等共性難題制約了其在實(shí)際中的應(yīng)用.類似地,多目標(biāo)優(yōu)化算法中全局最優(yōu)解、帕累托解的求解也仍然是其難點(diǎn)所在.特別是長尾推薦中存在的典型的數(shù)據(jù)稀疏問題,使得上述算法的有效求解變得更加困難.從現(xiàn)有研究進(jìn)展來看,概率圖模型因其可對(duì)真實(shí)世界中存在的依賴關(guān)系提供具有可解釋性的數(shù)據(jù)建模與問題求解路徑而逐漸受到重視.尤其對(duì)于推薦系統(tǒng)而言,“算法黑箱”是其飽受詬病的重要因素,相應(yīng)地,長期以來,推薦系統(tǒng)的可解釋性研究一直是學(xué)術(shù)界與工業(yè)界共同關(guān)注的問題.因此,基于概率圖模型的推薦方法因其在可解釋性方面的優(yōu)勢而日益受到重視[22-24].然而,從已有成果來看,鮮有研究基于概率圖模型開展長尾推薦的算法設(shè)計(jì).進(jìn)一步地,本文試圖以可解釋性為切入,基于用戶、項(xiàng)目及其關(guān)聯(lián)關(guān)系,提出基于用戶活躍度、項(xiàng)目非流行度和用戶-項(xiàng)目偏好水平的3因素概率圖模型,進(jìn)而在準(zhǔn)確性、新穎性之間給出相對(duì)均衡的長尾項(xiàng)目推薦生成策略.
本文基于概率圖模型開展長尾推薦研究.概率圖模型(probabilistic graphical model,PGM),簡稱圖模型,是指一種用圖結(jié)構(gòu)來描述多元隨機(jī)變量之間條件獨(dú)立關(guān)系的概率模型.圖模型通過假設(shè)已知觀測變量條件下隱變量的條件分布,來表達(dá)2類變量之間的關(guān)系,并對(duì)變量及其潛在結(jié)構(gòu)給出一種可視化表示.該模型中的條件分布,通常被稱為后驗(yàn)概率.然而,這個(gè)后驗(yàn)概率往往難以直接計(jì)算.一般地,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法通常利用KL(Kullback-Leibler)散度將后驗(yàn)概率分布求解轉(zhuǎn)換為其近似分布的求解,這里的近似分布稱為變分分布,相應(yīng)地,其推斷方法稱為變分推斷[25].為了減少變分推斷的計(jì)算復(fù)雜性,現(xiàn)有研究成果通常利用平均場理論,給出含有未知參數(shù)的隱變量的變分分布假設(shè).這種近似推斷策略將一個(gè)難以計(jì)算的后驗(yàn)概率問題轉(zhuǎn)化為求解分布中未知參數(shù)的優(yōu)化問題.
推薦系統(tǒng)中主要包括用戶、項(xiàng)目及評(píng)分3部分.具體地,rij為第i個(gè)用戶對(duì)第j個(gè)項(xiàng)目的評(píng)分.評(píng)分通常采用5分制,1分代表最弱的偏好,5分代表最強(qiáng)的偏好.為了方便,本文將項(xiàng)目集分為熱門項(xiàng)目集和長尾項(xiàng)目集.事實(shí)上,用戶對(duì)項(xiàng)目的評(píng)分?jǐn)?shù)值通常由用戶對(duì)項(xiàng)目的行為偏好所決定,因此,推薦系統(tǒng)的首要環(huán)節(jié)就是對(duì)用戶的行為偏好進(jìn)行建模.進(jìn)一步地,由于不同用戶的評(píng)分尺度往往不同,且不同項(xiàng)目其質(zhì)量也不相同,因而,建模時(shí)則需考慮用戶偏置與項(xiàng)目偏置.相應(yīng)地,用戶活躍度、項(xiàng)目非流行度等作為長尾項(xiàng)推薦的重要影響因素,其在建模時(shí)也需考慮活躍度偏置與流行度偏置.因此,在構(gòu)建長尾推薦模型之前,本節(jié)首先給出模型中的相關(guān)變量描述.
對(duì)于第i位用戶:
對(duì)于第j個(gè)項(xiàng)目:
對(duì)于每一個(gè)評(píng)分rij:
1)xij=1表示用戶ui評(píng)價(jià)過的項(xiàng)目yj是長尾項(xiàng)目,xij~Bernoulli(σ(dicjzij)),其中σ(·)表示sigmoid函數(shù),其中x=(xij)m×n.xij受3個(gè)因素影響:
① 第i位用戶的活躍度di.用戶活躍度越大,即用戶越活躍,其評(píng)分項(xiàng)目越可能是長尾項(xiàng).


面向長尾推薦的3因素概率圖模型(three-factor based probabilistic graphical model,TFPGM)是生成模型.圖1為該模型的板塊表示.圖1中節(jié)點(diǎn)表示隨機(jī)變量,實(shí)心節(jié)點(diǎn)是觀測變量,空心節(jié)點(diǎn)是隱變量;有向邊表示概率依存關(guān)系;矩形表示重復(fù),其中的數(shù)字表示重復(fù)次數(shù).

Fig.1 Three-factor based probabilistic graphical model圖1 3因素概率圖模型
TFPGM模型的具體生成過程為:
1)用戶偏置ai、項(xiàng)目偏置bj、用戶潛在特征向量ui、熱門項(xiàng)目潛在特征向量vj和長尾項(xiàng)目潛在特征向量wj共同生成連續(xù)型隱變量zij,進(jìn)一步地,zij生成可觀測評(píng)分rij.
2)用戶活躍度di、項(xiàng)目非流行度cj和用戶-項(xiàng)目偏好水平zij這3個(gè)因素共同作用生成xij.
3)用戶活躍度偏置αi生成用戶活躍度di,活躍度di生成可觀測比值ni.

模型是以觀測變量和隱變量組合的聯(lián)合概率分布,設(shè)為p(R,x,η,θ,a,b,c,d,U,V,W,α,β),其中R,x,η,θ是觀測變量,z,a,b,c,d,U,V,W,α,β是隱變量.為了方便起見,記為Θ,聯(lián)合概率分布簡記為p(R,x,η,θ,Θ).σR,σz,σa,σb,σU,σV,σW,σθ,ση,σc,σd,σα,σβ是超參數(shù).目標(biāo)是學(xué)習(xí)模型的后驗(yàn)概率分布p(Θ|R,x,θ,η),在此基礎(chǔ)上進(jìn)行概率推斷.但是由于該模型含有多個(gè)隱變量,直接計(jì)算后驗(yàn)概率分布是困難的,所以采用變分推斷方法用變分分布q(Θ)近似后驗(yàn)分布.其目標(biāo)變換為尋找q*(Θ)使得KL散度D(q(Θ)‖p(Θ|R,x,θ,η))達(dá)到最小.為了降低計(jì)算復(fù)雜度,通常利用平均場理論給出q(Θ)的含有未知參數(shù)的概率分布.由變分推斷理論,KL散度達(dá)到最小等價(jià)于證據(jù)下界最大[22].證據(jù)下界為
L(q)=Eq(lnp(R,x,θ,η,Θ))-Eq(lnq(Θ)),
其中,Eq表示關(guān)于q(Θ)的數(shù)學(xué)期望.故此,首先建立聯(lián)合概率分布

其中,Iij是示性函數(shù),Iij=1表示有評(píng)分,Iij=0表示評(píng)分項(xiàng)缺失.其次,根據(jù)平均場理論及變分推斷,本文建立了一個(gè)隱變量之間相互獨(dú)立且分布來自于正態(tài)分布的變分分布

設(shè)Ξ={μzij,Λzij,μui,Λui,μai,Λai,μdi,Λdi,μαi,Λαi,μvj,Λvj,μwj,Λwj,μbj,Λbj,μcj,Λcj,μβj,Λβj}是q(Θ)的參數(shù),即變分參數(shù).
最后,定義證據(jù)下界

其中

(1)
同理:

(2)

Eq(lnp(xij|σ(dicjzij)))是Bernoulli-log似然,利用文獻(xiàn)[26]中的不等式:

可以得到相應(yīng)的下界:

(3)

(4)

(5)

(6)

(7)

(8)


(9)

(10)

(11)

(12)
再迭代更新第i位用戶的全局變分參數(shù)Λui,μui,Λai,μai,Λdi,μdi,Λαi,μαi:

(13)

(14)

(15)

(16)

(17)

(18)

(19)

(20)
最后迭代更新第j個(gè)項(xiàng)目的全局變分參數(shù)Λvj,μvj,Λwj,μwj,Λbj,μbj,Λcj,μcj,Λβj,μβj:
(21)

(22)

(23)

(24)

(25)

(26)

(27)

(28)

(29)

(30)
直至收斂.其中I(xij)表示示性函數(shù),即當(dāng)xij=1時(shí)取1;當(dāng)xij=0時(shí)取0.
基于上述思想及相關(guān)計(jì)算,變分推斷的長尾項(xiàng)推薦方法的步驟如算法1.
算法1.長尾項(xiàng)推薦變分算法.
輸入:可觀測評(píng)分R、長尾示性矩陣x、更新步長ρ、迭代次數(shù)iter_num;
輸出:變分參數(shù)Ξ.
① 隨機(jī)初始化全局變分參數(shù)
② whileiter ③iter=iter+1; ④ forrij是R的元素 ⑤ while不收斂 利用式(9)~(12)計(jì)算ξij,λij,Λzij,μzij; ⑥ end while ⑦ end for ⑧ fori=1,2,…,m ⑨ end for ⑩ forj=1,2,…,n (31) 本節(jié)引入實(shí)驗(yàn)需要的數(shù)據(jù)集;介紹了代表準(zhǔn)確性、多樣性和新穎性的評(píng)價(jià)指標(biāo);引入了TFPGM及其對(duì)比算法開展實(shí)驗(yàn)比較分析. 本文選擇了3個(gè)數(shù)據(jù)集ML-100k,ML-lm(1)https://grouplens.org/datasets/movielens/,F(xiàn)ilm-Trust(2)https://www.librec.net/datasets.html.上述數(shù)據(jù)集中的評(píng)分均是以5分制給出,即最高為5分,最低為1分.數(shù)據(jù)集ML-100k中有943個(gè)用戶對(duì)1 680個(gè)項(xiàng)目給出的100 000個(gè)評(píng)分,數(shù)據(jù)集密度為6.3%.數(shù)據(jù)集ML-lm中有6 040個(gè)用戶對(duì)3 952個(gè)項(xiàng)目給出的1 000 209個(gè)評(píng)分,數(shù)據(jù)集密度為4.19%.FilmTrust數(shù)據(jù)集包括1 508個(gè)用戶對(duì)2 071個(gè)項(xiàng)目給出的35 497個(gè)評(píng)分,數(shù)據(jù)集密度為1.14%. 本文利用巴萊多定律(也叫二八定律)將項(xiàng)目分為熱門項(xiàng)目和長尾項(xiàng)目.其方法是將項(xiàng)目按照評(píng)分?jǐn)?shù)量由高到低排列,取后20%的項(xiàng)目為長尾項(xiàng)目[27].按此方法,ML-100k,數(shù)據(jù)集中評(píng)分?jǐn)?shù)量少于6個(gè)的項(xiàng)目是長尾項(xiàng);ML-lm數(shù)據(jù)集中評(píng)分?jǐn)?shù)量少于14個(gè)的項(xiàng)目是長尾項(xiàng);FilmTrust數(shù)據(jù)集中評(píng)分?jǐn)?shù)量少于2個(gè)的項(xiàng)目是長尾項(xiàng). 本文選擇了5個(gè)指標(biāo),具體包括:與準(zhǔn)確性相關(guān)的平均絕對(duì)誤差(mean absolute error,MAE)、均方根誤差(root mean squared error,RMSE)、召回率(Recall)、與多樣性相關(guān)的平均列表內(nèi)距離(in list distance,ILD)[28]、與流行度相反的新穎性(Novelty)[21],用于刻畫長尾推薦性能.具體公式為 其中,|·|表示集合中元素的個(gè)數(shù);Rtest表示5折交叉驗(yàn)證法中隨機(jī)選擇出的1折測試集;Ii表示面向第i位用戶推薦的前k個(gè)物品集合,I表示面向所有用戶推薦的前k個(gè)物品集合;Ti表示測試集中面向第i位用戶推薦的物品集合;d(i,j)表示第i個(gè)項(xiàng)目和第j個(gè)項(xiàng)目的距離,本文采用余弦距離;Li表示第i位用戶的topN列表,Uj表示評(píng)分過項(xiàng)目j的用戶集合.這5個(gè)指標(biāo)中,MAE,RMSE表示預(yù)測評(píng)分的準(zhǔn)確率,衡量預(yù)測評(píng)分與真實(shí)評(píng)分之間的誤差,該值越小,誤差越小.Recall表示topN推薦預(yù)測的召回率,該值越大,說明預(yù)測的topN和真實(shí)的topN之間越一致.上述3個(gè)準(zhǔn)確性指標(biāo)的計(jì)算均采用5折交叉驗(yàn)證方法.ILD表示推薦結(jié)果的多樣性,該值越大,推薦的覆蓋面越大.Novelty表示推薦結(jié)果的平均流行度,該值越小,推薦結(jié)果越新穎.為了降低隨機(jī)初始化導(dǎo)致的誤差,本文在計(jì)算ILD和Novelty指標(biāo)時(shí),重復(fù)10次取平均值. 為了說明本文方法的有效性,選擇了其他經(jīng)典方法作為對(duì)比實(shí)驗(yàn),具體有: 1)概率矩陣分解(probabilistic matrix factori-zation,PMF)方法[22].PMF是已知用戶評(píng)分,給出用戶潛在特征和項(xiàng)目潛在特征的后驗(yàn)概率,并以對(duì)數(shù)后驗(yàn)概率最大化為目標(biāo)函數(shù)得到用戶潛在特征矩陣和項(xiàng)目潛在特征矩陣的估計(jì)值,最后通過兩者的內(nèi)積來預(yù)測未知評(píng)分.該方法的核心參數(shù)是潛在特征空間維數(shù),本文設(shè)為30. 2)k近鄰?fù)扑](knearest neighbor recommen-dation,kNN)方法[29].kNN是利用目標(biāo)用戶近鄰的項(xiàng)目評(píng)分的加權(quán)平均值作為預(yù)測評(píng)分,此方法的核心是近鄰的確定和權(quán)重的設(shè)置.本文均以皮爾遜相關(guān)系數(shù)為依據(jù)給出近鄰和權(quán)重,且采用基于用戶的近鄰?fù)扑].該方法的核心參數(shù)是近鄰數(shù),本文設(shè)為30. 3)基于變分推斷的概率圖模型(probabilistic graphical model based on variation inference,PGMVI).事實(shí)上,圖2所示的概率圖模型在推薦系統(tǒng)中更多地稱為矩陣分解模型.一般地,由于矩陣分解其最終目標(biāo)函數(shù)是二次函數(shù),因此,通常采用梯度下降法求解.需要說明的是,由于3因素概率圖模型的復(fù)雜性(如2.2節(jié)所示),本文采用了變分推斷求解參數(shù).與此相對(duì)應(yīng),本文針對(duì)圖2的矩陣分解模型引入變分推斷算法,其預(yù)測公式為 (32) Fig.2 Probabilistic graphical model圖2 概率圖模型 該模型與TFPGM涉及到的參數(shù)在表1中列示.由于2個(gè)模型有共同的參數(shù),為了清晰地比較2個(gè)模型的效果,令相同參數(shù)的取值一致;考慮表1的簡潔性,TFPGM方法中與PGMVI相同的參數(shù)不再重復(fù)列示.不同算法迭代步長均為0.3,迭代100次,變量初始化采用相同的策略. Tabel 1 Parameter Settings表1 參數(shù)設(shè)定 本節(jié)通過5個(gè)評(píng)價(jià)指標(biāo)在3個(gè)數(shù)據(jù)集上運(yùn)行4種算法來進(jìn)行對(duì)比研究.本文提出的方法是在適當(dāng)保持準(zhǔn)確性前提下,提高推薦新穎性.為了便于比較,本文將實(shí)驗(yàn)結(jié)果如表2所示. Tabel 2 Performance Comparison of Different Recommendation Methods表2 不同推薦方法在性能上的比較 從表2可以看出,在準(zhǔn)確性方面,kNN方法在MAE,RMSE取到最優(yōu)值的情況最多,PGMVI,TFPGM的表現(xiàn)稍差;而召回率指標(biāo)上,在3個(gè)不同的數(shù)據(jù)集,PGMVI,TFPGM,PMF分別是最優(yōu).在多樣性方面,各種方法則沒有表現(xiàn)出明顯的優(yōu)勢.如前文所述,“多樣性可優(yōu)化精確性”[16]“多樣性提升需以精確性為代價(jià)”[17,20]導(dǎo)致的非一致性問題為推薦系統(tǒng)建模帶來了新的困惑,而本文實(shí)驗(yàn)結(jié)果中多樣性指標(biāo)表現(xiàn)出的不確定性也進(jìn)一步印證了其存在的非一致性問題.在新穎性方面,TFPGM在所有數(shù)據(jù)集上均達(dá)到最優(yōu),其次是PGMVI,且TFPGM,PGMVI顯著優(yōu)于kNN和PMF.實(shí)驗(yàn)結(jié)果驗(yàn)證了變分推斷方法對(duì)長尾推薦的有效性.進(jìn)一步地,從新穎性指標(biāo)來看,TFPGM優(yōu)于PGMVI,這歸功于模型中添加的3因素變量,其在推薦方法中起到了促進(jìn)長尾推薦的作用. 需要著重強(qiáng)調(diào)的是,PMF在準(zhǔn)確性指標(biāo)MAE,RMSE上的效果稍差.其原因在于,本文在整體實(shí)驗(yàn)部分采用了準(zhǔn)確性與新穎性的折中策略[18],即對(duì)新穎性的追求在一定程度上損失了精度.為了更好地說明這一問題,以PMF為例,表3列示了“精度優(yōu)先”策略、“精確性與新穎性折中”策略的實(shí)驗(yàn)結(jié)果. 從表3可以看出,精度優(yōu)先策略下,PMF在3個(gè)數(shù)據(jù)集上的MAE,RMSE指標(biāo)均表現(xiàn)出較好的性能,但在新穎性指標(biāo)上則表現(xiàn)較差;折中策略下,PMF在3個(gè)數(shù)據(jù)集上的新穎性指標(biāo)均表現(xiàn)較好,而在準(zhǔn)確性方面則表現(xiàn)較差.事實(shí)上,從現(xiàn)有研究成果來看,準(zhǔn)確性與新穎性的均衡特性具有普遍性[18,21,30],因此,本文的實(shí)驗(yàn)分析均采用折中策略. Tabel 3 Performance Comparison of PMF Based on Two Strategies表3 PMF基于2種策略的性能比較 新穎性作為長尾推薦的重要評(píng)價(jià)指標(biāo),表2表明,PGMVI和TFPGM在新穎性指標(biāo)上明顯優(yōu)于PMF和kNN.為了進(jìn)一步比較PGMVI和TFPGM方法在新穎性指標(biāo)上的差異,本節(jié)取top 3,top 5,top 7,top 10的不同推薦場景對(duì)上述2種方法的長尾推薦性能進(jìn)行對(duì)比. 圖3~5分別給出了PGMVI和TFPGM方法在3個(gè)數(shù)據(jù)集的4種推薦場景下的比較結(jié)果.可以看出,TFPGM均優(yōu)于PGMVI方法.實(shí)際上,2種方法的關(guān)鍵區(qū)別在于3因素概率圖模型從用戶、項(xiàng)目及其關(guān)聯(lián)關(guān)系3維視角引入了長尾推薦的重要影響要素.進(jìn)一步比較2種方法的預(yù)測式(31)(32),相對(duì)于概率圖模型而言,3因素概率圖模型預(yù)測公式中包含參數(shù)μwj.由于參數(shù)μwj受到μdi,μcj,μzij的影響,這使得如果參數(shù)μdi,μcj,μzij數(shù)值較大,則μwj的值較大,相應(yīng)地,在topN推薦中其對(duì)應(yīng)的評(píng)分項(xiàng)則更容易被推薦.同時(shí),由于上述變分參數(shù)恰好是3因素di,cj,zij的變分參數(shù),因此,當(dāng)參數(shù)μdi,μcj,μzij數(shù)值較大時(shí),xij=1的概率也較大,即增加了長尾項(xiàng)目推薦的可能性. Fig.3 Comparison of Novelty on ML-100k圖3 Novelty在ML-100k數(shù)據(jù)集上的比較 Fig.4 Comparison of Novelty on ML-1m圖4 Novelty在ML-1m數(shù)據(jù)集上的比較 需要進(jìn)一步說明的是,盡管本文方法是準(zhǔn)確性與新穎性的均衡調(diào)節(jié),但其在準(zhǔn)確性上也表現(xiàn)出相應(yīng)的優(yōu)勢.為了更清晰地展現(xiàn)不同的topN推薦場景下4種方法的推薦精度,本文以Recall指標(biāo)為例,分別在top 10,top 100,top 200,top 300,top 400,top 500的不同推薦場景下進(jìn)行了實(shí)驗(yàn)比較.圖6~8表明,在3個(gè)數(shù)據(jù)集上,隨著推薦項(xiàng)目數(shù)量的增加,所有算法的召回率持續(xù)增加;在ML-100k和Film-Trust中 PGMVI和TFPGM有明顯優(yōu)勢,在ML-1m中4種方法差異不大.可見,本文提出的TFPGM方法,在保證一定精度的前提下提高了推薦的新穎性. Fig.6 Comparison of Recall on ML-100k圖6 Recall在ML-100k數(shù)據(jù)集上的比較 Fig.7 Comparison of Recall on ML-1m圖7 Recall在ML-1m數(shù)據(jù)集上的比較 Fig.8 Comparison of Recall on FilmTrust圖8 Recall在FilmTrust數(shù)據(jù)集上的比較 本文面向推薦場景中的長尾現(xiàn)象,以提高推薦系統(tǒng)的可解釋性為切入,著眼于用戶、項(xiàng)目以及兩者之間內(nèi)在關(guān)聯(lián)的統(tǒng)一性,基于用戶活躍度、項(xiàng)目非流行度、用戶-項(xiàng)目偏好水平3個(gè)長尾推薦的重要影響因素,提出了基于概率圖模型的長尾推薦方法.4種方法、3組數(shù)據(jù)集、5個(gè)評(píng)價(jià)指標(biāo)的比較實(shí)驗(yàn),驗(yàn)證了本文方法在推薦準(zhǔn)確性與新穎性之間的均衡調(diào)節(jié)作用.本文研究成果對(duì)于提升長尾推薦性能、發(fā)現(xiàn)用戶個(gè)性化偏好具有重要的科學(xué)價(jià)值,在電商網(wǎng)站、社交媒體等各類推薦場景中具有廣泛的應(yīng)用前景. 需要說明的是,本文的長尾推薦方法僅考慮了用戶對(duì)項(xiàng)目的評(píng)分矩陣信息,未來研究中可以圍繞社交網(wǎng)絡(luò)等多源信息的引入,進(jìn)一步挖掘用戶的個(gè)性化偏好,進(jìn)而給出更加優(yōu)良的長尾推薦方法.此外,進(jìn)一步挖掘多樣性與準(zhǔn)確性、多樣性與新穎性之間的內(nèi)在關(guān)聯(lián),也值得繼續(xù)深入探討.
2.3 概率推斷


3 實(shí)驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)集
3.2 評(píng)價(jià)指標(biāo)

3.3 對(duì)比實(shí)驗(yàn)



3.4 實(shí)驗(yàn)結(jié)果分析







4 總 結(jié)