999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

棧式降噪自編碼器的標簽協同過濾推薦算法

2018-03-28 06:33:12鄭德原高麗萍楊滬滬
小型微型計算機系統 2018年1期
關鍵詞:用戶實驗信息

霍 歡,鄭德原,高麗萍,楊滬滬,劉 亮,張 薇

1(上海理工大學 光電信息與計算機工程學院,上海 200093) 2(復旦大學 上海市數據科學重點實驗室,上海 201203)

1 引 言

協同過濾算法通過矩陣分解技術挖掘出用戶和推薦對象的隱含特征,幫助用戶在海量過載的互聯網信息中獲取對自己有用的信息,是近年來推薦系統研究的熱點.但協同過濾算法對于稀疏的評分矩陣沒有很好的解決方案.目前有不少較新的協同推薦技術都在這方面做了努力,如[1]考慮到了推薦對象的標簽特征,[2]引入了混合推薦技術等,這在一定程度上能緩解評分矩陣稀疏的問題,但同時標簽矩陣大多同樣是非常稀疏的,所以僅僅依靠引入原生標簽信息不足以克服協同過濾算法的缺點.

推薦系統的另一個方法是基于內容的推薦.[3]通過用戶或推薦對象的肖像刻畫,維護一個特征向量或屬性集來構建推薦系統.基于內容的推薦缺點在于不能自動抽取深層特征,無法挖掘出對象的深層隱式特征和用戶的潛在興趣,再加上業(yè)界對互聯網隱私問題的考慮,導致這種問題更加嚴重.所以基于內容的推薦需要和協同過濾配合,構建混合推薦系統以產生更好的推薦效果.

如何增加推薦數據的信息量和挖掘內容信息深層特征,是提升推薦算法性能表現的關鍵.基于內容推薦的算法在抽取特征時,通常會采用LDA(Latent Dirichlet Allocation)[4]等模型,此類模型在傳統基于內容的推薦中有著不錯的表現.另一方面,深度學習具有自動學習深層特征的能力,非常適合與協同過濾算法配合,應用于基于內容信息的推薦模型上.本文提出基于深度學習的DLCF(Deep Learning for Collaborative Filtering)算法,首先利用棧式降噪自編碼器SDAE(Stacked Denoising Auto Encoders)[5]訓練出推薦對象和其標簽的特征向量,得出新的標簽物品矩陣,將信息量較少稀疏標簽矩陣轉化為具有深層特征信息的標簽矩陣,大幅度增加了原始數據的信息量,然后再和原始評分矩陣結合進行協同過濾處理.

本文的貢獻主要包括以下三個方面:

1)將深度學習算法應用于基于內容的推薦模型上,通過抽取深層特征,大幅提升了原始數據的信息量;

2)通過構建輔助矩陣,將先前訓練得到的物品和標簽特征向量與原始評分矩陣結合,最大限度發(fā)揮了數據標簽的作用,將數據標簽、內容信息與評分矩陣統一到算法框架中去;

3)在真實數據上對算法性能進行了實驗,通過多種評估方法分在橫向和縱向上對比了不同算法的表現,并且指出了模型參數對算法性能的影響.

文章第2節(jié)介紹了背景知識,第3節(jié)闡述了DLCF算法的具體細節(jié),第4節(jié)在真實數據集上進行了實驗驗證.

2 背景知識

目前的協同推薦技術主要結合協同過濾模型和基于內容模型進行嘗試[6,7].對于輔助信息的使用,[8]提出物品標簽可以應用于協同過濾算法中,[9]通過項目類型信息來降低矩陣的稀疏性和冷啟動問題,[10]通過分析標簽系統中的對象的關系提出了社會化標簽推薦方法,[11]提出了一種基于標簽的系統同推薦方法Tag-CF.但這些方法只能利用數據已經提供的輔助信息,無法挖掘出數據隱含的深層信息,效果并不理想.

由于深度學習具備充分挖掘數據隱含信息的能力,文獻[12] 使用DBN(Deep Belief Networks)來挖掘深層內容信息,[13]提出一種基于關系的Relational SDAE算法.但這些算法僅僅應用了深度學習的特征,而沒有將其與協同過濾算法有機結合起來.

將深度學習模型應用于基于內容的推薦中,并將其與協同過濾算法相結合,是本文提出的DLCF算法核心.本文采用的深度學習模型SDAE是將多個DAE(Denoising Auto Encoder)[14]堆疊起來形成的一種模型,能抽取內容信息的深層特征,同時擁有較強的可解釋性和較低的模型復雜度.SDAE能從原始內容信息中抽取新的特征維度,訓練出標簽內容矩陣,大大增加了原始數據的可用信息量,再將新的內容標簽矩陣融入到概率矩陣分解模型PMF(Probabilistic Matrix Factorization)中,使得基于內容的推薦模型和協同過濾完美結合在一起.同時,本文采用SGD(Stochastic Gradient Descent-隨機梯度下降) 通過最小化損失函數來訓練模型參數,克服了深度學習算法迭代速度慢的問題,完美解決了傳統協同過濾算法中矩陣稀疏的問題和基于內容推薦算中存可用內容信息不足的缺點.

圖1 概率矩陣分解Fig.1 Probabilistic matrix factorization

2.1 概率矩陣分解

概率矩陣分解模型(PMF)將先驗概率分布引入到傳統矩陣分解模型中,假設觀測到的評分數據的條件概率:

(1)

(2)

(3)

模型原理如圖1所示.

2.2 棧式自編碼器

DAE即降噪自編碼器,模型由編碼器和解碼器構成,每一個編碼器都對應有一個解碼器,通過編碼和解碼的過程處理數據噪聲.圖2展示了棧式降噪自編碼器SDAE是將多個DAE堆疊起來的前饋神經網絡,類似于多層感知機,每一層是下一層的輸入,也是上一層的輸出.SDAE即棧式降噪自編碼器使用逐層貪婪訓練策略依次訓練網絡的每一層,進而預訓練整個深度網絡,其思想就是將多個DAE堆疊在一起形成一個深度的框架,模型通過受損殘缺的輸入和已修復的輸出來訓練中間模型通過受損殘缺的輸入和已修復的輸出來訓練中間層.

圖2 棧式降噪自編碼器Fig.2 Stack denoising auto encoder

圖3展示了SDAE模型的具體結構,公式(4)為SDAE的訓練模型.其中Zc是被若干標簽標記的向量組成的矩陣,作為SDAE最后的輸出;Z0表示模型中最初受損的輸入矩陣;ZL是模型的中間層,最終需要訓練得出的目標矩陣為ZL/2,表示經Z0和Zc訓練得出含有深層內容信息的矩陣.Wl和bl分別表示SDAE模型第l層的權重矩陣和偏置向量,λ表示正則參數,‖·‖F是Frobenius范數.

圖3 棧式降噪自編碼器訓練模型Fig.3 Stack denoising auto encoder training model

(4)

3 CF算法

3.1 訓練標簽內容矩陣

根據SDAE模型和原理,輸出矩陣Zc和受損輸入矩陣Z0都是已觀測變量,對Zc做如下定義:對于SDAE的每一層l:

Wl,*n~

(5)

bl~

(6)

其中Wl,*n表示第l層權重矩陣中第n列,Ik表示單位矩陣的第K個對角值.對于Zc和ZL:

Zl,j*~

(7)

Zc,j*~

(8)

其中σ(·)表示sigmoid函數,λw,λn和λs均為模型參數.基于以上定義,最大化Wl,bl,Zl,Zc的最大后驗概率,等同于最小化上述變量的聯合對數似然函數,定義模型損失函數為:

(9)

定義Ti,j為一個二值量,當物品j包含標簽i的時候,Ti,j為1,否則為0.則由ZL/2,j*和原始標簽矩陣Ti,j,求出標簽和物品的隱因子向量ti和vj:

(10)

其中λt和λv為正則參數,ci,j在物品j包含標簽i的時候設為1,否則設為一個很小的值,譬如0.001或0均可.

3.2 構建用戶標簽矩陣

由標簽和物品的特征向量ti和vj,可以構建DLCF算法中的標簽物品矩陣G.Ru,i表示用戶u對物品i的評分,Gi,t表示物品i對標簽t的取值,包含標簽t則取值為1,否則為0.通過聯合矩陣R和G,得到目標矩陣H:

(11)

3.3 構建DLCF算法

在構造出用戶-標簽矩陣H后,分別利用原來的評分矩陣R和新構造的用戶-標簽矩陣對H對傳統協同過濾算法進行改進.如圖4所示,U和V分別表示用戶和物品包含的隱式特征向量,Q表示標簽和用戶隱式特征的關系,U將作為R和H之間信息流通的橋梁:

圖4 構建聯合矩陣Fig.4 Co-association matrix construction

將矩陣H融入到PMF中,構造出新的損失函數:

(12)

(13)

其中λU=ωU+φU,λV=ωV,λQ=ωQ.

圖5展示了DLCF的框架,與傳統的PMF模型相比,DLCF使用了由SDAE拓展出的用戶-標簽矩陣H,將其與原始評分矩陣Ru,i結合,豐富了原始數據的信息量,將基于內容挖掘出的隱含信息應用在了協同過濾算法中.

3.4 SGD訓練算法

SGD(Stochastic Gradient Descent-隨機梯度下降)算法也叫增量梯度下降法,是在傳統梯度下降法的基礎上改進而來,收斂速度快很多,是常用的參數訓練算法.SGD通過最小化損失函數來訓練模型參數,根據每個樣本來迭代更新一次,可以控制下降速率和迭代次數,使得參數的訓練更可控.本文使用SDG來訓練χ.

圖5 作為輔助信息的聯合矩陣Fig.5 Co-association auxiliary matrix

Algorithm1:DLCF?SGDtrainingalgorithmInput:評分矩陣R,特征向量維度K,學習率η,比例參數α,正則參數λUλVλQOutput:U,V1. 初始化:用一個較小的值隨機構造U,V和Q2. while(erroronvalidationsetdecrease)3. ΔUχ=I(UTV-R)V+α(UTQ-H)Q+λUUΔVχ=[I(UTV-R)]TU+λVVΔQχ=α(UTQ-H)TU+λQQ4. setη=0.15. while(χ(U-ηΔUχ,V-ηΔVχ,Q-ηΔQχ)>χ(U,V,Q))6. setη=η/27. Endwhile8. U=U-ηΔUχ V=V-ηΔVχQ=Q-ηΔQχ9. Endwhile10. ReturnU,V

4 實驗結果與分析

4.1 實驗數據集

實驗數據集采用國內知名社交分享網站豆瓣讀書(https://book.douban.com/)中的數據.每本書都有用戶從1到5的評分,并且每本書都有用戶標注的特征,可以用于基于內容模型中的特征向量使用,很適合DLCF算法的使用場景.數據集包括89434本書,373241名用戶,以及12436087條評分數據.實驗選取不同稀疏程度的數據集,對于不同稀疏程度的數據集,分別選取80%作為訓練數據,20%作為測試數據,并且在實驗的過程中將數據隨機分成5分,進行交叉檢驗數據格式如表1所示.

表1 數據格式
Table 1 Data format

UserIDBookIDRatingLabels用戶編號圖書編號評分標簽

4.2 算法評估標準

推薦系統的評估方式一般有兩種,一種評估預測評分與用戶實際評分的貼近程度,這種評估方式很常見,本文采用均方根誤差(Root Mean Square Error,簡稱RMSE)來作為算法性能衡量的標準.

(14)

其中τ表示用戶u對物品i評分存在的集合.

另一種評估反映算法預測的準確程度.我們采用recall@R作為度量方式.recall@R通過選取測試用戶,將推薦結果排序并選取其中最受用戶喜歡的R個,得出其與用戶所有標記總數的比值,值越大表明算法預測效果越好.

(15)

4.3 對比模型和實驗設置

為了體現出DLCF算法的特點,我們選取三種算法作為基準測試,傳統的協同過濾,這里選取概率矩陣分解(PMF)、結合標簽信息的協同過濾算法(Tag-CF)和未使用標簽的深度學習算法(DBN).首先利用上述的三個算法和DLCF做橫向對比,然后再觀測DLCF在不同實驗設置下的縱向對比表現,以此綜合評判各算法的性能表現.

在更進一步的實驗對比之前,先考察公式(12)中的參數α,即用戶-標簽矩陣在整個模型中的影響因子.若將α置為0,則表示不考慮用戶-標簽矩陣,此時算法退化為不考慮標簽的傳統協同過濾算法.在本文所進行的實驗中,其它參數固定時,α=0.9時能夠最小化RMSE,如表2所示.

表2 參數α對模型的影響
Table 2 Parameterαwith RMSE

αRMSE00.970.10.920.50.880.90.851.20.8720.98101.21

對于其它參數λU=ωU+φU,λV=ωV,λQ=ωQ,ωU=σR/σU,ωV=σR/σV,表示模型中的正則參數λU,λV,λQ是由其它隱含參數復合而成的,理論上我們需要對每個隱含參數取值,然后再計算λU,λV,λQ的值.但在實際使用中,可以先對λU,λV,λQ設置一個比較小的值,例如λU=λV=λQ=0.001,然后通過實驗中交叉驗證進行調節(jié),結果證實,這樣做對算法性能影響并不明顯.

表3 不同稀疏程度的數據
Table 3 Dataset sparsity

dataset?adataset?b98.78%90.54%

接下來的對比實驗中,將實驗數據按照稀疏程度分成如表3所示的兩份,然后分別針對兩種評估方式對各個算法進行性能比較.

4.4 算法橫向比較

橫向對比部分側重在比較不同算法相同場景下的表現.對于recall@R這種評估標準,我們比較不同R值下各算法的表現.對于RMSE標準,通過選擇不同的特征向量分解維度K的值,來對比各種算法的表現.上述比較會在不同稀疏度的數據集上分別實驗.

圖6 數據集a,b下recall@R的表現Fig.6 Recall@R on dataset a and b

首先觀察四種算法在recall@R上的表現,如圖6所示,會發(fā)現傳統不引入輔助信息的協同過濾算法表現最差,DBN和Tag-CF由于都只采用了部分輔助信息,性能差異表現并不大,而DLCF顯著優(yōu)于其他三類算法.同時很明顯可以看出,算法在較稠密數據集上的表現要好于稀疏數據的表現.

接下來針對RMSE觀察,會發(fā)現情況基本和recall@R類似,DLCF仍然表現出很大的優(yōu)勢.如圖7所示,同樣,算法在稀疏數據集上的表現差于在稠密數據集上的表現.并且可以觀察到,在稠密數據集上,DBN和Tag-CF表現的差異沒有其在稀疏數據集上的差異那么大.這是因為稠密數據集信息量較大,一定程度上彌補了算法性能的差異.綜合上述橫向比較可以看出,算法性能表現的關鍵在于是否能夠盡可能的利用已有數據的隱含信息.

圖7 數據集a,b下RMSE的表現Fig.7 RMSE on dataset a and b

4.5 算法縱向比較

橫向對比部分側重在于比較不同算法相同場景下的表現,而縱向比較主要探索參數對于DLCF的影響.經過多次實驗發(fā)現,縱向對比中以recall@R為評估標準的實驗表現比RMSE差異更明顯,所以此部分著重展現以recall@R為評估標準的實驗結果.結合深度學習和協同過濾模型的特性,并且經反復實驗之后,本文分別選取SDAE模型的中間層L/2和模型參數λn作為關鍵參數.

首先針對參數λn進行實驗,實驗結果如圖8所示.λn在SDAE中用來訓練中間層,是生成DLCF新標簽矩陣的關鍵參數.觀察實驗結果會發(fā)現,λn的值并不是越大越好或者越小越好,而是存在一個表現良好的范圍.當λn值很小時(通常小于1),算法性能表現很差,這時提高λn的值,會提升算法性能表現.但當λn的值在三位數以后,再繼續(xù)提升λn,算法性能提升已經不明顯.而且同樣,模型在較稠密數據集的表現顯著好于在稀疏數據集上的表現.

圖8 DLCF中λn對recall@R的影響Fig.8 Recall@R under different λn on DLCF

最后來看以SDAE的中間層L/2為觀測變量的實驗結果,如圖9所示.顯而易見的是,較稠密數據集上的算法表現明顯好于稀疏數據集.對于中間層,當L/2=1時,由于層數太少,性能表現差于L/2=2和L/2=3時的結果.但對于L/2=2和L/2=3時的結果,會發(fā)現性能差異很小,而且隨著R值的變化,雙方結果互有勝負.考慮到深度學習模型中,中間層每增加一層,算法復雜度就會提升,并且在調參方面也更加困難,所以在保障算法性能的前提下,不建議增加太多的中間層.

圖9 DLCF中L/2對recall@R的影響Fig.9 Recall@R under different L/2 on DLCF

5 結 論

傳統協同過濾算法無法克服矩陣稀疏的問題,即使引入標簽信息,標簽矩陣也同樣存在著矩陣稀疏問題,無法擁有理想的性能表現.而傳統基于內容的推薦算法由于自身的特性,不適合與協同過濾算法直接融合.本文利用深度學習模型挖掘數據隱含信息的特性,通過處理原始的物品標簽信息,大幅度提升了原始數據的可用信息量,將基于內容的推薦模型和協同過濾模型結合在一起,提出了DLCF算法.在真實數據集上的實驗表明,DLCF算法能夠取得優(yōu)于傳統推薦模型的性能.

另一方面,引入深度學習模型能夠提升算法性能,但對于算法的調參無疑提出了更高的要求,并且算法的復雜度也相比傳統算法提升不少.未來的工作將為集中解決上述問題,提升算法的可解釋性和工程意義.

[1] Li W J,Yeung D Y,Zhang Z.Generalized latent factor models for social network analysis[C].Proceedings of the 22nd International Joint Conference on Artificial Intelligence (IJCAI),Barcelona,Spain,2011:1705-1710.

[2] Grivolla J,Badia T,Campo D,et al.A hybrid recommender combining user,item and interaction data[C].Proceedings of the International Conference on Computational Science and Computational Intelligence (CSCI),Las Vegas,Nevada,USA,2014,1:297-301.

[3] Shen Y,Fan J.Leveraging loosely-tagged images and inter-object correlations for tag recommendation[C].Proceedings of the 18th ACM International Conference on Multimedia (ACMMM),Firenze,Italy,2010:5-14.

[4] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[5] Vincent P,Larochelle H,Lajoie I,et al.Stacked denoising autoencoders:learning useful representations in a deep network with a local denoising criterion[J].Journal of Machine Learning Research,2010,11:3371-3408.

[6] Zheng D Y,Huo H,Chen S Y,et al.LTMF:Local-based tag integration model for recommendation [C].Proceedings of the 11th EAI International Conference on Collaborative Computing,Wuhan,China,2015,11:296-302.

[7] Van den Oord A,Dieleman S,Schrauwen B.Deep content-based music recommendation[C].Advances in Neural Information Processing Systems,Harrahs and Harveys,Lake Tahoe,2013:2643-2651.

[8] Vig J,Sen S,Riedl J.The tag genome:encoding community knowledge to support novel interaction[J].ACM Transactions on Interactive Intelligent Systems (TiiS),2012,2(3):13:1-13:44.

[9] Pirasteh P,Jung J J,Hwang D.Item-based collaborative filtering with attribute correlation:a case study on movie recommendation[M].Intelligent Information and Database Systems,Springer International Publishing,2014:245-252.

[10] Bobadilla J,Ortega F,Hernando A,et al.Recommender systems survey[J].Knowledge-Based Systems,2013,46(1):109-132.

[11] Kim B S,Kim H,Lee J,et al.Improving a recommender system by collective matrix factorization with tag information[C].2014 Joint 7th International Conference on Soft Computing and Intelligent Systems (SCIS) and 15th International Symposium on Advanced Intelligent Systems (ISIS),Kita-Kyushu,Japan,2014:980-984.

[12] Wang X,Wang Y.Improving content-based and hybrid music recommendation using deep learning[C].Proceedings of the ACM International Conference on Multimedia,Orlando,Florida,USA,2014:627-636.

[13] Wang H,Shi X,Yeung D Y.Relational stacked denoising autoencoder for tag recommendation[C].Proceedings of the 29th AAAI Conference on Artificial Intelligence,Austin,Texas,USA,2015:3052-3058.

[14] Vincent P,Larochelle H,Bengio Y,et al.Extracting and composing robust features with denoising auto encoders[C].Proceedings of the 25th International Conference on Machine Learning,Helsinki,Finland,2008:1096-1103.

猜你喜歡
用戶實驗信息
記一次有趣的實驗
做個怪怪長實驗
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 日本成人在线不卡视频| 欧美精品在线观看视频| 人人艹人人爽| 日本精品视频一区二区| 成人国内精品久久久久影院| 亚洲人成网7777777国产| 国产尤物视频网址导航| 亚洲人成人无码www| 国产成人无码AV在线播放动漫| 国产精品夜夜嗨视频免费视频| 午夜不卡视频| 最新国产高清在线| 911亚洲精品| 欧美午夜理伦三级在线观看| 国产新AV天堂| 91欧洲国产日韩在线人成| 男女男免费视频网站国产| 国产亚洲高清在线精品99| 野花国产精品入口| 久久久久亚洲AV成人网站软件| 国产精品综合色区在线观看| 国产黑丝一区| 狠狠躁天天躁夜夜躁婷婷| 国产精品毛片一区视频播| 欧美亚洲一二三区| 国产成人91精品免费网址在线| 成人在线亚洲| 亚洲精品第一在线观看视频| 国产成人综合亚洲欧美在| 日本亚洲成高清一区二区三区| 四虎国产精品永久一区| 亚洲国产一成久久精品国产成人综合| 萌白酱国产一区二区| 久无码久无码av无码| 国产精品99一区不卡| 国产伦精品一区二区三区视频优播 | 91精品啪在线观看国产| 久久国语对白| 国产久操视频| 久久精品娱乐亚洲领先| 国产区福利小视频在线观看尤物| 欧美在线观看不卡| 欧美在线一级片| 91黄视频在线观看| 日本免费一区视频| 国产精品片在线观看手机版| 久久99蜜桃精品久久久久小说| 国产精品9| 国产又黄又硬又粗| 精品国产Ⅴ无码大片在线观看81| 免费精品一区二区h| 亚洲国产精品一区二区高清无码久久| av一区二区三区在线观看 | 99这里只有精品6| 黄色在线网| 精品国产自在现线看久久| 久久人与动人物A级毛片| 国内精品91| 91蝌蚪视频在线观看| 国产精品三区四区| 国产另类乱子伦精品免费女| 日本黄色不卡视频| 凹凸国产熟女精品视频| 亚洲精品手机在线| 欧美综合一区二区三区| 国产成人在线无码免费视频| 免费观看无遮挡www的小视频| 国产三级韩国三级理| 国产95在线 | 成年人国产视频| 四虎永久在线视频| 国产色爱av资源综合区| 免费福利视频网站| 国产AV无码专区亚洲精品网站| 国产精品永久免费嫩草研究院| 国产精品九九视频| 欧美精品在线看| 成年A级毛片| 亚洲成a∧人片在线观看无码| 精品久久久久久中文字幕女| 色噜噜狠狠色综合网图区| 国产高清免费午夜在线视频|