999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

混合秩矩陣分解模型*

2019-07-11 07:28:44李幸幸劉華鋒景麗萍
計算機與生活 2019年7期
關鍵詞:用戶信息模型

李幸幸,劉華鋒,景麗萍

北京交通大學 計算機與信息技術學院,北京 100044

1 引言

隨著信息時代的到來,人們獲取的信息越來越豐富,而如何有效獲取有用的信息成為一個難題。以搜索為代表的信息檢索雖然可以幫助用戶獲取有用的信息,但是關鍵字檢索無法滿足用戶的個性化需求。而推薦系統[1-13]可以通過用戶的興趣愛好以及需求信息、歷史行為等信息為用戶提供個性化服務。篩選滿足用戶特定需求的信息,來解決信息過載的難題[14-15]。

推薦系統廣泛存在于人們的生活中,亞馬遜的商品推薦,網易的音樂推薦,Netflix的電影推薦等,這些平臺的推薦基礎是根據用戶的歷史信息獲取用戶的喜好[15],而矩陣分解[16]的方法由于思路簡單易于理解,穩定性高,可擴展性強等優點成為當前的研究熱點。矩陣分解的方法主要學習用戶物品的潛在因子矩陣,通過用戶對不同元素的偏好程度來近似擬合原始的評分矩陣[16-17]。傳統的矩陣分解方法NMF(non-negative matrix factorization)[2]、PMF(probabilistic matrix factorization)[1]、SVD++(singular value decomposition)[18]等通過矩陣分解獲取用戶物品的潛在因子矩陣來預測評分。雖然這種方法可以基于所有用戶對物品的評分,獲取具有結構信息的預測評分,但是卻丟失了局部信息,例如相似用戶對某些物品評分之間的聯系。

為了挖掘用戶物品之間的強相關性,基于集成的局部矩陣補全方法成為研究熱點[19-20]。LLORMA(local low-rank matrix approximation)[21]是一種利用聯合聚類算法將原始評分矩陣劃分成一系列具有局部結構的子矩陣,通過多次加權多次劃分結果對原始評分矩陣進行預測。ACCAMS(additive co-clustering to approximate matrices succinctly)[22]通過聯合聚類將相似用戶以及相似物品聚類到一起,然后基于相似性原則,以每個子矩陣中評分的均值作為該子矩陣中空缺元素的預測。雖然這些方法取得了顯著的推薦精度提升,但只關心評分矩陣的局部強相關性信息,忽略了整體的結構信息。此外,由于不同數據往往具備不同的結構信息,手動調試聚類個數需耗費大量的時間。因此本文提出了一種基于boosting框架的混合矩陣秩的矩陣分解方法(mixture rank matrix factorization,MRMF)[23-24]。

隨著評分矩陣結構越來越復雜,基于單一角度分析的模型推薦精度較低。比如傳統矩陣分解方法通過用戶物品的特征矩陣從整體結構角度擬合矩陣評分,忽視了評分矩陣的局部強相關性以及用戶的特殊偏好等局部信息,而基于局部的集成方法忽略了整體的結構信息。為了更好地對用戶進行個性化推薦,本文提出混合秩矩陣分解的模型MRMF。MRMF既考慮整體結構信息也考慮局部強相關性信息,通過減少真實評分與預測評分的差值來提高預測精度。MRMF可以從殘差矩陣中學習局部信息。為了更好地抓取局部信息,通過設定不同的秩來表示不同的特征偏好,進而表示不同用戶的喜好。MRMF對每一部分的殘差矩陣進行矩陣近似求解,同時考慮混合模型的魯棒性,讓每個模型只學習有用的信息,防止模型過擬合。

基于評分服從高斯分布的先驗,考慮到整體樣本權重向量應具備稀疏性,為此,通過引入服從拉普拉斯分布的用戶/物品特征權重,提出了自適應權重矩陣分解模型(adaptive weight matrix factorization,AWMF)。當預測評分值與真實評分值誤差較小時,存在較大的權重值;否則,權重值較小。此外,考慮到隨著殘差迭代學習的進行,殘差矩陣的稀疏度不斷增大。采用EM(expectation-maximization)[25]算法對矩陣集成的權重進行自適應求解,從而減少人工調參的復雜性。通過在真實數據集上的實驗表明,該方法可以獲取一個較好的推薦精度。

2 概率矩陣分解

矩陣分解(matrix factorization,MF)推薦模型最早由Simon Funk在博客上公布。如圖1所示,其基本思想是從評分矩陣X∈?n×m中學習用戶在低維隱空間上的表示U∈?K×n和物品在低維隱空間上的表示V∈ ?K×m。

Fig.1 Matrix factorization圖1 矩陣分解

在矩陣分解中,將評分矩陣近似表示為:X≈UTV。其中U=[U1,U2,…,Un]∈?K×n代表用戶的特征矩陣,Ui表示用戶i的特征向量(偏好向量),V=[V1,V2,…,Vm]∈?K×m代表物品的潛在因子矩陣,Vj表示物品j的特征向量。

Salakhutdinov和Mnih從概率的角度對于上述矩陣分解模型進行解釋,提出概率矩陣分解模型(probabilistic matrix factorization,PMF)[1]。如圖2所示。

概率矩陣分解模型假設評分數據Xij滿足高斯分布Xij~Ν(UiTVj,σ2),同時用戶、物品的特征矩陣也滿足均值為0的高斯分布,Ui~Ν(0,σU2,)Vj~Ν(0,σV2,)其中Ν(μ,σ2)代表均值為μ,方差為σ2的高斯分布。

Fig.2 Graphical model for probabilistic matrix factorization圖2 基于概率矩陣分解的圖模型

根據貝葉斯規則,特征矩陣的后驗概率可以表示為:

最大化特征矩陣的后驗概率等價于最小化上式的負對數。因此,當超參數固定時,可得如下目標函數:

其中Ω={Xij|Xij≠0}為觀測數據集合,λ代表正則項的系數。

3 基于Boosting學習的混合秩矩陣分解模型構建

PMF等單模型僅關注評分矩陣的整體結構信息,而忽視局部用戶對某些產品的偏好等信息。為了挖掘評分矩陣的局部信息,對評分矩陣的殘差進行學習,從殘差中學習整體結構中忽略的局部信息。然而隨著迭代矩陣近似求解的學習,殘差矩陣越來越稀疏,若選用固定的矩陣秩,易導致模型過擬合。因此,在混合秩矩陣近似模型MRMF中,隨著迭代計算學習,殘差矩陣所對應的矩陣秩也需要不斷變大。最后,基于隨機梯度提升的框架,將不同秩的殘差矩陣結合起來進行評分預測。同時每一步中的殘差矩陣求解使用自適應權重模型AWMF,即如果真實評分與預測評分之間差距較小,則賦予較大的權重;否則,賦予較小的權重。

3.1 自適應權重概率矩陣分解模型

本節在傳統概率矩陣分解模型基礎上提出自適應權重概率矩陣分解模型(AWMF)。通過自適應學習每一個用戶和物品的權重,實現不同用戶和物品的區別對待。其概率圖模型如圖3所示。

Fig.3 Graphical model for adaptive weight matrix factorization圖3 自適應權重概率矩陣分解圖模型

依據傳統概率矩陣分解模型,考慮到整體樣本權重向量應具備稀疏性,為此,通過引入服從拉普拉斯分布的用戶/物品權重向量α∈?n×1,β∈?m×1,構建自適應權重概率矩陣分解模型。具體來說,評分數據服從的概率分布如下所示:

式中,α、β分別表示用戶與物品的權重向量。αi、βj表示用戶i與物品j的特征權重。依據模型構建規則,當預測評分值與真實評分值誤差較小時,存在較大的權重值αi?βj;否則,權重值較小。

通過自適應學習用戶與物品的特征權重,實現對觀測數據信息的充分挖掘,得到更加精確的用戶物品特征向量U、V,避免模型過擬合。因此根據貝葉斯規則,特征矩陣U、V以及權重向量α、β的后驗分布可表示成:

最大化特征矩陣U、V以及權重向量α、β的后驗分布等價于最小化上式的負對數。由于得到的目標函數難以直接求解,故使用Jensen不等式獲取下界,最終得到自適應權重模型的目標函數如式(5)所示。因此可通過下式獲取用戶物品的隱因子矩陣對(U,V:)

通過分析上式,若令先驗分布中的超參數固定,由于超參數個數較多,極易導致模型過擬合。此外,由于不同用戶偏好與物品種類的多樣性,導致不同用戶和物品特征矩陣服從的高斯分布的方差也大不相同。因此超參數具體更新規則如下:

3.2 基于梯度提升的混合秩矩陣分解模型

基于矩陣分解的協同過濾方法,通常人為選擇一個較小的值r<<min{m,n}作為原始評分矩陣的秩。然而,由于不同數據集往往在數量級和稀疏度等方面存在較大的差異,所有數據服從統一秩的假設往往會造成模型出現過擬合或欠擬合的現象,從而無法準確學習用戶的偏好。

為此,結合boosting學習策略,通過結合不同秩矩陣學習方法,提出混合秩矩陣分解模型(MRMF),以此挖掘評分矩陣的整體結構信息與局部相關信息。對于評分矩陣Xn×m,MRMF模型通過融合K個由AWMF學習獲得的近似矩陣Rk=(Uk)TVk來預測缺失的評分值,預測的評分可表示為:

其中,K代表模型的個數,k代表第k次迭代。Rk表示第k次迭代中AWMF模型的預測評分矩陣。ωk代表第k次迭代學習得到的評分矩陣權重。其中Rk=(Uk)TVk,(Uk,Vk)為第k次迭代獲取用戶物品的隱因子矩陣對。因此可以得到目標函數的形式如式(8)所示,k=1時,即為普通的矩陣分解模型。

MRMF模型采用梯度提升(gradient boosting)的思想,依據前向分步算法,利用損失函數的負梯度作為當前模型的輸入。在MRMF中,負梯度表示為評分的真實值與預測值之間的差值。

在第k-1步迭代中,評分是由前k-1個預測評分矩陣共同表示,其中表示第k-1次迭代所得預測殘差矩陣。計算第k-1步真實值與預測值之間差值,即第k步的殘差矩陣。具體殘差矩陣計算方式如圖4所示。

Fig.4 Residual matrix determined by rating matrix and predictive rating matrix in previous stage圖4 通過前一步驟的真實值與預測值獲取殘差矩陣

得益于boosting學習策略,MRMF能夠通過不斷擬合殘差矩陣來實現對原始評分矩陣Xn×m的近似。在第k次迭代過程中,將前k-1個殘差矩陣擬合的預測評分值與真實值的殘差矩陣作為當前迭代的評分矩陣,通過AWMF模型學習用戶和物品的特征表示Uk、Vk。第k步殘差矩陣計算公式如下:

其中,ωk表示第k步學習到的預測評分矩陣的權重。殘差矩陣Xk作為第k步模型的輸入。在第k步中,模型AWMF的輸入如下表示:

其中,Rk=(Uk)TVk。當進行第k次學習時,依據自適應權重概率矩陣分解模型AWMF,學習得到當前殘差矩陣的用戶/物品特征表示Uk、Vk。

基于梯度提升學習策略,漸進地學習用戶/物品特征表示。具體計算步驟如算法1所示,具體來說,在每一次迭代計算過程中,依據式(9)計算當前迭代殘差矩陣,進而利用自適應權重矩陣分解模型AWMF學習殘差矩陣的用戶物品隱特征表示Uk、Vk。而后通過EM算法計算當前迭代計算中預測評分矩陣的權重,從而實現對原始評分矩陣的近似求解。

算法1MRMF算法框架

輸入:觀測評分矩陣X∈?n×m,擬合矩陣的數目K。

輸出:預測評分矩陣R?。

對k=1,2,…,K

1.依據式(9)計算當前迭代殘差矩陣Xk

2.根據AWMF模型學習殘差矩陣Xk的用戶物品特征表示Uk、Vk,進而得到第k次迭代預測Rk=(Uk)TVk

3.通過EM算法更新矩陣權重ω1,ω2,…,ωk

4.更新預測評分表示為:

4 實驗與結果

本文使用四個典型推薦數據集Ciao、Epinions、Douban、Movielens(10M)來驗證提出的混合秩矩陣分解模型MRMF。

4.1 數據集

本文使用的數據集為研究推薦問題常用的公開數據集Ciao、Epinions、Douban、Movielens(10M)。上述數據集中評分的范圍為1~5分,對每一個數據集采用五折交叉驗證,將數據集隨機劃分為5份,輪流將4份作為訓練集進行建模,1份數據作為測試集進行預測,5次實驗結果的均值作為最終的實驗結果。這些數據集的詳細信息如表1所示。

Table 1 Statistics of experimental datasets表1 實驗數據集統計

4.2 評測標準

評價推薦預測精度高低的評測指標主要是均方根誤差(root mean squared error,RMSE)和平均絕對誤差(mean absolute error,MAE),兩個指標均通過評估預測值與真實值的差異大小作為衡量標準。RMSE的定義為:

式中,Τ表示測試集中評分的集合,Τ的模|Τ|表示測試集中評分的個數,Xij表示用戶i對物品j的真實評分,而表示用戶i對物品j的評分預測值,MAE的表示如下:

較小的RMSE或者MAE代表精度更高,并且由于推薦評分數據龐大,一個較小的精度提升在推薦系統的應用上均可以擁有顯著的提高。

4.3 對比算法

本節介紹三種本實驗對比算法:基于整體結構的PMF、RSVD(regularized singular value decomposition)以及基于局部信息的集成模型ACCAMS。

(1)PMF[1]:一種基于概率的矩陣分解方法,假設評分服從高斯分布。同時模型中的超參數均采用固定值。

(2)RSVD[18]:是一種應用廣泛的矩陣分解方法,通過最小化預測與真實值的誤差來獲取用戶物品的特征向量。

(3)ACCAMS[22]:通過聯合聚類將相似用戶以及相似物品聚類到一起,然后基于相似性原則,以每個子矩陣中評分的均值作為該子矩陣中空缺元素的預測。

4.4 實驗參數設置

比較本文提出的MRMF模型與PMF、RSVD、ACCAMS模型在4.1節介紹的數據集上的測試結果,實驗結果如表2所示。在MRMF算法中,在訓練過程中自適應學習模型中的超參數(如3.2節所述),通過自動調整避免模型過擬合。而迭代更新參數和超參數的過程中,梯度下降學習率會影響最終的推薦精度。學習率代表梯度下降的步長,太大的值容易在最低點“震蕩”,太小的步長則導致下降速度太慢,實驗效率較低。經過對已有的梯度下降算法進行實驗對比,adam方法具有下降速度快且收斂精度高的特點。因此在本實驗中,選擇adam作為梯度下降的方法。設置其中的步長為0.001,指數衰減率分別為0.900、0.999。在本文的模型中,高斯分布的個數設置為5。

對比算法參數設置如下,在PMF、RSVD中正則項的系數λu=0.01,λv=0.01 ,PMF中使用加入動量的梯度下降,動量為0.8,矩陣的秩為10。在RSVD中正則項的系數為λu=0.06,λv=0.06 ,其余參數 設置均為論文中的參數設定。對于ACCAMS算法,用戶物品聚類個數相同。在數據集Ciao、Epinions上,模板數與聚類數分別為s=1,k=4 ;在數據集Douban、Movielens(10M)上,分別為s=1,k=30,參數設置為實驗驗證適合對應數據分布最優參數。

4.5 實驗結果分析

為了評估各推薦算法的性能,從整體、局部的角度對實驗結果進行分析,整體的角度為所有用戶的整體架構,適合大部分評分的普適性能。局部的角度表示局部相同愛好的用戶,相似性質物品的高相似性,以及用戶對某些物品的偏好等。以下分析主要從上述兩方面進行分析。

用戶評分以及預測評分之間的誤差統計可以有力反映算法的預測性能。RMSE或者MAE的微小提升反映在龐大的推薦數據集上,可以在推薦應用上擁有顯著的效益。表2表示MRMF模型與傳統的PMF、RSVD,以及經典local算法ACCAMS在上述提到數據集上的性能對比。從表中可以看到,本文提出的混合秩矩陣分解算法MRMF相比較于傳統的基于高斯的矩陣分解算法PMF有很大的性能提升。

Table 2 Performance comparisons of different collaborative filtering methods表2 不同協同過濾方法的性能對比

實驗數據集Ciao和Epinions具有較高的稀疏度(其稀疏度分別為0.036%和0.010%)。如何提升高度稀疏數據集的推薦精度,是推薦系統面臨的一大挑戰。從表2中可以發現稀疏數據的推薦精度明顯低于Douban以及Movielens(10M)相對稠密的數據集。分析表中數據以及圖5、圖6可以發現,RSVD在稀疏數據上的性能較差,而本文提出的算法MRMF由于融合多個不同秩矩陣,以及自適應樣本點權重的加入,使得模型可以充分挖掘隱藏的局部特征,在稀疏數據上仍能保持較好的性能。

ACCAMS作為一種多個評分矩陣集成的模型在推薦精度取得了較高的提升,但ACCAMS只關注局部信息,忽視了整體的結構信息,用聚類之后用戶對物品的評分直接取平均表示預測物品的評分,過于強調局部相關性,忽視整體數據對局部的影響。而本文提出的MRMF模型,結合評分矩陣的整體結構化信息以及評分矩陣的局部強相關性,解決了ACCAMS忽視整體結構的缺點,同時考慮隨著殘差矩陣越來越稀疏,對應的殘差矩陣的秩也越來越大。

4.6 實驗結果可視化

本節對實驗結果進行可視化分析,分析提出模型MRMF相對PMF、RSVD、ACCAMS等對比算法的提升程度及原因,以及RMSE(MAE)隨著融合矩陣個數增加的變化趨勢。

圖5、圖6展示了提出的算法MRMF在不同數據集上對比整體的模型PMF、RSVD以及局部集成模型ACCAMS的提升比重。可以看到本文提出的算法MRMF較PMF具有較大的提升,同時也優于考慮了局部結構信息的ACCAMS。如圖5、圖6所示,MRMF相較于RSVD在稀疏數據集(Ciao稀疏度0.036%,Epinions稀疏度0.010%)具有明顯的性能提升,由此說明MRMF能夠有效解決因數據稀疏帶來的推薦精度低的問題。

Fig.5 Relative improvements of MRMF in term of MAE圖5 MRMF在MAE上的提升比重

Fig.6 Relative improvements of MRMF in term of RMSE圖6 MRMF在RMSE上的提升比重

為了驗證boosting框架的有效性,展示了預測誤差隨擬合矩陣個數變化的變化趨勢,如圖7、圖8所示。分析圖像當矩陣個數從1增加到5,整體呈現下降趨勢,但在k=3時出現了微小的上浮。k=1時,一個矩陣擬合時學習具有整體結構的整體普適信息。k=2時,擬合去除整體結構化評分剩下的局部個性化特征,此時過于強調局部個性化信息易導致過擬合。MRMF模型融合多個子模型矩陣的加權表示,隨著融合矩陣個數的增加,模型對異常點權重調整可以看成對訓練數據的一種擾動。因此MRMF模型可以降低方差,不斷增強模型的魯棒性,降低RMSE以及MAE,但隨著融合矩陣個數的增加,相應的迭代次數也增加,雖然推薦精度提升,但實驗成本耗時也增大,因此折中處理,選擇矩陣個數為5進行實驗。

Fig.8 MAE under different number of matrices圖8 不同矩陣個數下MAE的變化

5 總結

本文提出了一種混合秩矩陣近似模型。本文基于boosting框架,融合多個不同秩的殘差矩陣,同時每一個殘差矩陣引入拉普拉斯先驗的權重先驗,可以自適應地學習樣本權重。本文提出的MRMF方法在準確度方面優于已有的傳統矩陣分解方法。通過實驗結果的對比分析,本文方法可行且有效。

猜你喜歡
用戶信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 青青青国产视频手机| 在线国产你懂的| 小蝌蚪亚洲精品国产| 亚洲天堂色色人体| 人禽伦免费交视频网页播放| 久久综合婷婷| 这里只有精品在线播放| 亚洲AV无码久久精品色欲| 天堂成人在线视频| 色婷婷啪啪| 欧美日韩成人在线观看| 亚洲日韩精品欧美中文字幕| 亚洲中文字幕97久久精品少妇| 97视频在线观看免费视频| 91国语视频| 国产迷奸在线看| 久久精品嫩草研究院| 国产在线观看成人91 | 国产精品hd在线播放| 成人中文字幕在线| 国产美女在线观看| 欧美精品v| 99热这里只有免费国产精品| 97在线国产视频| 中文字幕永久在线看| 国产无码网站在线观看| 亚洲欧美日韩天堂| 色综合激情网| 色老二精品视频在线观看| 亚洲精品成人7777在线观看| 伦精品一区二区三区视频| 亚洲天堂视频在线播放| 国产成人做受免费视频| 国产日韩久久久久无码精品| 国产 日韩 欧美 第二页| 亚洲第一色网站| 国产精品区视频中文字幕| 国产91麻豆免费观看| 一级毛片视频免费| 国产粉嫩粉嫩的18在线播放91| 国产精品网拍在线| 免费一级毛片在线播放傲雪网| 欧美午夜一区| 五月婷婷综合在线视频| a级毛片免费在线观看| 久久99久久无码毛片一区二区| 欧类av怡春院| 亚洲欧州色色免费AV| av无码一区二区三区在线| 911亚洲精品| 91久久精品国产| 国产裸舞福利在线视频合集| 91久久国产综合精品女同我| 成人日韩视频| 久久黄色影院| 午夜欧美理论2019理论| 高清无码手机在线观看| a级免费视频| 亚洲一区毛片| 国内99精品激情视频精品| 麻豆国产在线不卡一区二区| 老司机精品久久| 亚洲动漫h| 潮喷在线无码白浆| 欧美一道本| 亚洲无限乱码| 欧美在线免费| 精品国产免费观看| 色吊丝av中文字幕| 91精品国产情侣高潮露脸| 亚洲AV无码久久天堂| 国产91视频观看| 国产91在线|中文| 亚洲无线观看| 国产网站一区二区三区| AⅤ色综合久久天堂AV色综合| 无码精油按摩潮喷在线播放| 亚洲bt欧美bt精品| 亚洲综合色婷婷中文字幕| 四虎影院国产| 一级爱做片免费观看久久| 欧美不卡二区|