999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向完全冷啟動的深度混合協同過濾推薦算法*

2020-06-09 06:17:50陳健美
計算機與數字工程 2020年3期
關鍵詞:用戶模型

胡 楊 陳健美

(江蘇大學計算機科學與通信工程學院 鎮江 212013)

1 引言

在這個數據爆炸的時代,如何快速找到需求的信息變得越來越困難。搜索引擎的出現幫助人們通過關鍵字快速找到想要的信息,但是很多時候,人們的需求往往不是很明確,或者是想要更加符合個人口味和喜好的結果,推薦系統便應運而生。除此之外,很多商業組織也使用推薦系統來拓展業務,提高業績。

這些年來研究產生了大量的推薦算法,它們大體上可以劃分成兩類[1]:基于內容的推薦[2]和協同過濾[3],其中最為常用的是協同過濾。基于內容的推薦主要是根據推薦物品或內容的元數據,發現物品或者內容的相關性,進行推薦;而協同過濾則根據用戶對物品的評分記錄,分析出用戶與用戶之間存在的關系以及物品與物品之間隱藏的關聯,預測用戶對某個物品的潛在評分,進行推薦。

當前,在協同過濾方法中最為成功有效的是隱含因子模型(Latent Factor Model,LFM)[4]算法。隱含因子模型算法直接從用戶-物品評分矩陣中學習有效的隱含因子。但是,在實際情況下用戶-物品評分矩陣往往是特別稀疏的,只有小部分元素有值,這就導致協同過濾算法在學習隱含因子時性能會顯著下降。協同過濾存在的另外一個問題是冷啟動問題,在系統中出現新用戶和新物品時,無法對其進行精準推薦。

因此,對于協同過濾算法存在的冷啟動問題,融合輔助信息進行推薦是必然的,混合推薦[1]也變得越來越流行。雖然現在有很多種混合推薦來解決推薦系統的稀疏性和冷啟動問題,但是冷啟動問題依舊是一個開放的問題。

為了解決協同過濾的冷啟動問題,本文提出了一種深度混合協同過濾推薦算法,它是基于深度學習方法、融合物品信息的混合推薦模型,并考慮到時間因素。主要貢獻如下:1)提出了一種結合協同過濾與機器學習的通用框架,該框架可用于對冷啟動物品進行推薦;2)提出了一種基于堆棧降噪自編碼機器的物品特征學習算法,將稀疏高維的物品內容編碼成稠密、低維度的物品特征向量;3)提出一種結合安全的半監督S4VM 的預測算法,對冷啟動物品進行評分預測,并將堆棧降噪自編碼機學習的特征向量和S4VM 預測的結果融入完全冷啟動情景下的LMF 算法中。實驗結果證明,所提出的算法能有效緩解冷啟動與稀疏性問題,與現有的算法相比,在推薦精度上有較大提升。

2 相關工作

傳統的協同過濾算法主要分為基于鄰域的算法和基于模型的算法。基于鄰域的算法主要通過相似度計算公式,計算出物品與物品之間的相似度后,再依據計算出的結果以及用戶曾經的評分行為為系統用戶進行相關物品的推薦[5]。基于模型的算法嘗試填充用戶-物品評分矩陣,依托一些機器學習算法來對物品的向量進行訓練,建立模型預測用戶對新物品的評分,如基于樸素貝葉斯(Na?ve Bayesian)[6]、主題模型(Topic Model)[7]、支持向量機(SVM)[8]等協同過濾算法。

由于協同過濾受數據稀疏性和冷啟動的影響較大,越來越多的方法嘗試融入額外的信息來克服這個問題。廣泛受到關注的是HFT(Hidden Factors as Topic)[9]將主題模型 LDA(Latent Dirichlet Allocation)[10]與協同過濾結合,其準確率較經典的LFM 模型有一定的提升。其余多融合用戶的社會標簽或人口統計學信息進行協同過濾推薦,但是它們的輔助信息的隱含表示受到極度稀疏的內容信息的影響,不能有效的學習。

近些年來,深度學習在自然語言處理、圖像處理等領域上取得了巨大的成功,而在推薦系統方向,它的應用仍處于萌芽時期。國內外學者將深度學習引入到推薦系統的主要有以下幾個經典模型:1)Hinton 等 使 用 RBM(Restricted Boltzmann Machines)[11]來進行協同過濾,但是其沒有融入輔助信息;2)王[12]等直接使用 CNN(Convolutional Neural Network)和DBN(Deep Belief Network)從主題信息中獲取隱含因子,但是他們只考慮物品信息,且該方法只適用于音樂數據;3)王[13]等在SDAE 的基礎上提出了Bayesian SDAE 模型,并與概率化LFM 模型結合,但是它僅關注到用戶信息稀疏的情況,而且主要任務是進行TopN推薦。

由上可知,利用深度學習及輔助信息來解決推薦的稀疏性和冷啟動問題是一個必然趨勢,但是現有研究工作仍存在很多不足,例如很難從有限的粗糙的屬性中挖掘出具體的特征,沒有充分考慮到時間、位置等因素。

針對上述問題,本文提出了一種深度混合協同過濾推薦算法(DCF_CS),結合 SDAE、S4VM 與LFM 模型,同時考慮到時間因素,有效緩解冷啟動問題,提高推薦精度。

3 深度混合協同過濾推薦算法

深度混合協同過濾推薦算法主要思想為采用深度降噪自編碼機獲取物品特征,然后根據特征使用安全的S4VM 初步預測完全冷啟動物品的評分,結合考慮時間因素的LFM 模型,最終產生預測評分。下面將介紹算法使用到的模型的原理及意義,最終展示所提的預測算法。

3.1 SDAE

降噪自編碼器(denoising auto-encoder,DAE)[14]是一種三層神經網絡,它包含輸入層、隱藏層和輸出層。其目標是學習恒等函數h(x)=x,即學習一個近似的恒等函數,使得輸出近似等于輸入。同時,為了解決恒等函數的風險,我們往往會隨機采用部分受損的輸入,使得自動編碼器必須進行恢復或者降噪,從而在隱藏層得到輸入的良好表征。具體做法是對原始數據,進行人為隨機損壞加噪聲,得到損壞的數據,該噪聲可以采用高斯噪聲或bi-nary mask噪聲。

對于給定樣本集合S,降噪自編碼器對輸入的編碼和解碼如下:

其中代表加噪后的輸入,代表重建的輸入樣本,h為隱藏層,即輸入的隱含表示,W為權重矩陣,b為偏置向量,g(·)為編碼函數,f(·)為解碼函數。

因為單個降噪自編碼器的編碼能力是有限的,現有研究表明[15~17],將多個降噪自編碼器堆疊在一起,可以在隱藏層中產生更加豐富的表示,從而使SDAE 比DAE 有更出色的處理能力。SDAE 的每一層都當成一個DAE,通過逐層貪婪的訓練方式,首先對第一層DAE 進行訓練,將第一層的輸出作為第二層的輸入,再將第二層的輸出作為第三層的輸入,以此類推。假設SDAE 有L層,我們通常把前2/L 層作為編碼部分,后2/L 層作為解碼部分,編碼部分學習受損輸入的特征表示,解碼部分恢復其受損前輸入。L層SDAE解決如下優化問題:

其中SL表示 L 層的輸出,Wl和bl表示 L 層的權重矩陣和偏置項,本次研究采用的是4 層SDAE。隱藏層學習得物品特征后,將用于LFM模型中。

本文是采用SDAE 替代LDA 模型及矩陣分解得到物品特征向量,主要原因如下:1)矩陣分解得到的物品特征向量缺乏語義上的解釋,而SDAE 的隱藏層學習得的物品特征向量能更好地反映出物品的特征;2)降低物品內容向量的維度,使其與隱含因子向量相等,能夠融入隱含因子模型中,并增加矩陣分解的一般性。

3.2 引入S4VM

半監督學習是一種將少部分有標記的樣本和絕大部分無標注的樣本結合的學習框架,其中的直推式學習把將要預測的數據作為未標記樣本,這與推薦系統中數據稀疏性、冷啟動問題十分一致。S4VM 是一種安全的半監督支持向量機,所謂“安全”,是指半監督學習方法的性能不會明顯低于只利用小部分有標記樣本的歸納學習方法的性能。由于S3VM 存在多個低密度劃分導致性能下降,所以才出現了S4VM。它首先找到候選的低密度劃分,然后對未標記樣本的標記進行優化使得性能提升最大[18]。當半監督學習的低密度假設成立時,S4VM 必定安全[19]。因此,使用 S4VM 來預測未標記樣本的協同過濾推薦算法,在理論上要優于其他的相似性、基于聚類、基于樸素貝葉斯等協同過濾算法。

傳統算法的針對冷啟動問題,主要是采用相似度計算將冷啟動物品與非冷啟動物品關聯起來,主要有Top-of-Al(lToA)和Top-of-User(ToU)兩種算法。ToA 主要是通過在所有的非冷啟動物品中找到M 個與冷啟動最相近的物品來預測冷啟動物品的評分,預測規則如下:

其中SM(j)表示與冷啟動物品j最相似的M 個非冷啟動物品的集合,既可以是真實評分也可以是預測評分。

ToU 則是根據一個用戶對M 個最相似的非冷啟動物品的評分來預測冷啟動物品評分,預測規則如下:

其中SM(u,j)表示用戶u 對與j 最相似的M 個非冷啟動物品的集合,rui表示訓練集中的真實評分。

上面兩種方法簡單的通過相似性來預測評分,忽略了評分矩陣中的其他信息,經過之前的分析,使用安全的半監督S4VM 對冷啟動物品進行預測理論上要優于之前相似性算法。同時,我們也對S4VM 預測的效果與基于相似度的ToA 和ToU 進行實驗對比,結果顯示S4VM 的性能要優于它們。因此,為了初步預測完全冷啟動物品的評分,使用S4VM 取代相似度等算法,根據SDAE 隱藏層學習得的物品特征,將訓練集中冷啟動物品隨機劃分為n 個數據集,非冷啟動物品構建為初始數據集。對于冷啟動物品,構建其屬性特征,并將其與非冷啟動物品的特征和評分標簽作為S4VM 算法的輸入,S4VM將輸出冷啟動物品的評分標簽。

3.3 評分預測模型

隱含因子矩陣分解(LFM)是推薦系統中應用較為普遍的模型,如果把用戶對物品的評分看為一個矩陣,則矩陣的每個元素都是某個用戶對某個物品的評分,則可以將評分矩陣R 分解成2 個低維度的矩陣P 和Q,假設用戶數為u,物品數為i,則評分R=(ru,i),預測評分為

由于不同的人有不同的評分習慣,且物品也有質量的好壞等差別,我們從這兩個角度考慮,使用基于平均偏差的矩陣分解模型,評分預測如下:

其中,偏置項可用來模擬用戶興趣隨時間的變化以及物品的生命周期,因此將bi和bu變成一個隨時間變化而變化的參數:

其中,時間相關的物品偏置由一個固定部分bi和一個隨時間變化的部分bi,Bin(t)組成。Bin 為把數據集劃分的不同間隔;時間相關的用戶偏置同樣由一個固定部分和一個隨時間變化的部分組成,其中αudevu(t)代表了用戶興趣的偏移,bu,t代表某個特殊時期的突然偏移。

由于完全冷啟動物品沒有獲得任何評分,因此冷啟動物品沒有參與到LFM 模型的訓練。同時作為一個新物品,我們不知曉其質量等偏置因素,相比于用戶物品因素則顯得更加靜態,不會隨時間的變動而改變,所以僅考慮用戶偏置,將S4VM 預測的結果φ融入LFM 模型中,替換平均評分和物品偏置項。因為傳統的協同過濾算法不能直接應用于完全冷啟動問題,所以用物品內容特征θi替換物品因子Qi,得到所提出模型的預測公式:

具體算法步驟:

輸入:用戶-物品評分矩陣R,物品屬性集Y,評分標簽I

輸出:推薦列表

步驟1:根據物品內容屬性集,訓練SDAE,SDAE的隱藏層將學習得物品的特征;

步驟2:將冷啟動物品的特征,非冷啟動物品的特征和評分標簽作為S4VM 算法的輸入,S4VM將輸出冷啟動物品的評分標簽;

步驟3:將S4VM輸出的評分標簽及由步驟1獲得的物品特征融入LFM 模型中,通過隨機梯度下降法最小化損失函數;

步驟4:根據預測評分,為用戶推薦其預測評分較高的物品。

所提出模型(圖1)與經典LFM 模型(圖2)的對比如下。

圖1 DCF_C模型框架

圖2 LFM模型框架

基于矩陣分解的算法在數據稀疏時非常容易出現過擬合現象,因此,使用常用的正則化方法來避免過擬合,優化模型的目標就是最小化:

由于上式中所有的參數都是用戶相關的,因此訓練之后可用來預測完全冷啟動物品的評分,我們使用隨機梯度下降法(SGD)來進行系數優化。

4 實驗

4.1 實驗數據集及設置

本次實驗采用的是標準數據集MovieLens中的1M 規模數據集,其包含了使用者對電影的百萬個打分,每個打分都是一個1~5 的數值,我們二值化評分數據,將評分值在4 分及以上記為1,4 分以下記為0。此外,從數據集中取出電影的內容信息,包含電影標題,電影發布時間,電影所屬類別等。我們將其編碼成二值向量,向量長度為1943。同時,數據集還提供了電影第一次受到評分的時間戳,我們將其劃分為10 個間隔,統計每個間隔中有多少部電影。為了模擬新電影出現的情況,我們選擇L 個最新的電影作為測試集,其余電影作為訓練集,從而保證這L 部電影不會被訓練集中的任何用戶看到。

4.2 評價指標

與絕大部分現有工作一致,本次實驗采用均方根誤差(Root Mean Squared Error,RMSE)指標來衡量算法的效果,均方根誤差的公式如下:

其中rui是用戶u對物品i的現實打分,是與其所對應的預測評分。T是測試集,代表測試集中所有評分的數量。

由于評分信息是以隱式反饋的形式,與CDL一致,我們采用召回率(Recall)作為另外一種指標。公式如下:

4.3 實驗結果與分析

為了評價所提出的DCF_C 算法的優劣,本文選擇了 Top-of-All(ToA)算法,Top-of-User(ToU)算法,timeSVD++算法和CDL 算法作為比較算法。表1 展示了預測結果的RMSE 值,其中L 指完全冷啟動電影的測試集的規模。

表1 所提算法與相關算法的性能(RMSE)對比

由表可知,我們提出的算法(DCF_C)的RMSE最低,性能最好,且顯著好于其他算法。ToA 算法主要是通過M 個最相似的物品來預測冷啟動物品的評分,而ToU算法主要是通過用戶對M 個最相似物品的評分來預測冷啟動物品的評分,它們都是基于相似性的,但是忽略了其他信息,因此它們的性能比所提出的算法要差,實驗中我們將M 取值100。timeSVD++是考慮時間因素的SVD 算法,雖然考慮了時間因素對用戶物品的影響,但是未充分利用輔助信息,因此性能不如我們提出的算法。CDL 是基于深度學習的協同過濾推薦模型的典型代表,它是由王等在SDAE的基礎上,提出了Bayesian SDAE 模型,利用該模型學習物品的隱含特征,進而利用概率矩陣分解來擬合原始評分矩陣。但是,CDL 只關注于用戶稀少的情況,且主要任務是進行Top-N 推薦,因此對于冷啟動情況性能一般,但好于另外幾種比較算法。

圖3 展示了我們提出的混合模型與ToA,ToU,timeSVD++,CDL的召回率對比,從中可以看出ToA的召回率最低,性能最差,它是最簡單的相似性算法。timeSVD++的性能低于CDL 以及我們所提出的混合模型,但高于ToA 與ToU 算法,因此考慮時間因素是必要的,但是其未考慮輔助信息。所提模型的性能最佳,推薦的物品受用戶喜歡數較多,且顯著高于CDL,因為我們結合了S4VM,預先對冷啟動物品進行初步預測,然后結合改進的LFM 模型進行預測,同時充分利用SDAE 隱藏層獲得的電影特征,替換矩陣分解中的電影特征向量,因此可以進行對冷啟動物品進行更準確的推薦。

圖3 召回率對比

在所提混合模型中,將參數λ設置為0.01,隨機梯度下降中的學習率設置為0.004。與CDL模型一致,將噪聲等級設置為0.3。由于使用到SDAE模型,其隱藏層的學習能力與編碼機的層數設置有關,本次實驗也對其層數進行研究,經過實驗研究,將SDAE 的層數設置為4 層,其性能較單層的DAE提升0.79%。

5 結語

對于協同過濾存在的數據稀疏性與冷啟動問題,本文提出了一種基于深度學習的混合協同過濾算法,既能預測冷啟動物品的評分,又可以緩解數據的稀疏性問題,同時充分考慮到物品的屬性以及時間因素的影響,從我們的分析和實驗結果可知,物品的內容以及時間因素對推薦的影響是較大的,尤其是冷啟動物品;我們所提出的算法性能顯著優于其他算法,對冷啟動物品的推薦精度和質量均有較大提高。

本文使用的是深度網絡是SDAE,下一步工作考慮將其他深度學習網絡與協同過濾融合,替換SDAE來提升更多的性能,例如CNN或RNN。

猜你喜歡
用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 欧美日韩国产精品综合| 性色在线视频精品| 亚洲欧洲AV一区二区三区| 小说区 亚洲 自拍 另类| 亚洲国产AV无码综合原创| 亚洲αv毛片| 91最新精品视频发布页| 亚洲无码精彩视频在线观看| 亚洲乱伦视频| 国产精品免费电影| 无码区日韩专区免费系列 | 国产精品欧美在线观看| 日韩a在线观看免费观看| 久久精品娱乐亚洲领先| JIZZ亚洲国产| 无码福利视频| 国产成人高清亚洲一区久久| 99re热精品视频中文字幕不卡| 久久精品国产精品一区二区| 国产精品视频导航| 亚洲综合在线网| 成人在线观看一区| 99久久国产综合精品女同| 午夜日韩久久影院| 日韩在线播放中文字幕| 久久情精品国产品免费| 国产凹凸一区在线观看视频| 国产无套粉嫩白浆| 欧美精品亚洲二区| 亚洲欧洲自拍拍偷午夜色| 国产91熟女高潮一区二区| 亚洲国产一区在线观看| 无码国产偷倩在线播放老年人 | 亚洲欧美一区二区三区蜜芽| 成年人免费国产视频| 一本色道久久88综合日韩精品| 无码精品福利一区二区三区| 国产中文一区a级毛片视频| 欧美日韩国产精品va| 亚洲开心婷婷中文字幕| 玖玖免费视频在线观看| 精品午夜国产福利观看| 人妖无码第一页| 野花国产精品入口| 国产免费网址| 99久久这里只精品麻豆| 国产色婷婷| 国产成人AV男人的天堂| 香蕉综合在线视频91| 成年人国产网站| 欧美日韩在线亚洲国产人| 视频在线观看一区二区| 亚洲AV无码不卡无码| 91精品国产自产在线老师啪l| 97综合久久| 国产三区二区| 毛片久久网站小视频| 久久综合结合久久狠狠狠97色| 亚洲无码A视频在线| 谁有在线观看日韩亚洲最新视频| 漂亮人妻被中出中文字幕久久 | 免费国产福利| 欧美天堂在线| 永久免费无码成人网站| 香蕉在线视频网站| 亚洲最新在线| 亚洲午夜福利在线| 四虎亚洲精品| 国产伦精品一区二区三区视频优播 | a级毛片免费播放| 国产91在线|日本| 国产亚洲视频中文字幕视频| 日本福利视频网站| 少妇精品在线| 亚洲日本中文字幕乱码中文| 香蕉网久久| 国产亚洲欧美日韩在线一区二区三区| 91久久青青草原精品国产| 欧美日韩亚洲国产主播第一区| 91高清在线视频| 国产福利微拍精品一区二区| 国产又色又爽又黄|