999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于降噪自編碼和卷積神經網絡的協同過濾算法*

2020-12-07 05:26:08張碩偉陳軍華雍睿涵
計算機與數字工程 2020年10期
關鍵詞:特征用戶模型

張碩偉 陳軍華 雍睿涵

(上海師范大學信息與機電工程學院 上海 201400)

1 引言

協同過濾推薦算法是個性化推薦技術[1]中應用最廣泛也是最成功的一個,它的基本思想是:根據評分過項目的評分計算與目標用戶的最近鄰用戶,通過這些用戶的評分近似逼近目標用戶未評分項目的評分進行推薦。

但是隨著大數據時代的到來,協同過濾的推薦質量不斷降低,學術界進行了大量的研究[2~5]發現評分數據稀疏性[6]是影響推薦質量主要因素之一。在這種情況下,傳統的協同過濾算法僅使用極少數共同評分項目,無法準確計算用戶間隱式相似度,推薦效果往往不好。

目前國內外學者[7~10]解決數據稀疏性問題主要利用矩陣分解將用戶-項目評分矩陣實現降維,提取潛在特征信息。但是用戶對項目的評分不是只呈現線性關系,也可能是非線性關系,導致基于矩陣分解的協同過濾算法不能高質量地向目標用戶推薦。為了解決非線性問題,Wu Y 等[11]提出一種三層降噪自編碼器神經網絡模型,對用戶-項目評分矩陣中的非線性特征進行有效提取,并證實推薦準確率得到提升。然而,該模型的初始參數是隨機的,并沒有提出有效的選擇方法,其中權重系數是初始參數中最主要的部分,更隱含著用戶對項目的偏愛程度,因此降低了推薦的準確性。

基于上述存在問題,本文提出一種基于降噪自編碼和卷積神經網絡的協同過濾算法C-DAECF。該算法通過CNN 對用戶的文本評論進行情感分析,挖掘出用戶對項目的偏愛程度,得到項目向量矩陣。利用項目向量矩陣作為DAE 的初始權重系數,對用戶-項目評分矩陣的缺失值進行預測和填充,解決了評分數據稀疏性問題,提升了降噪自編碼神經網絡的訓練速度,更有效提升了推薦準確率。

2 相關工作

2.1 基于卷積神經網絡的推薦模型

由于卷積神經網絡獨特的網絡結構,如圖1 所示,能夠學習深層次隱含特征,因而在文本分析研究中被廣泛應用。Yin W 等[12]提出一種注意力機制的卷積神經網絡,證明其在文本分析問題中具有優越的能力;用戶對項目也有文本評論,用戶使用什么詞評論項目,反映了用戶對不同項目的興趣偏好,基于這一思想,楊錫慧等[13]提出融合卷積神經網絡的協同過濾模型,利用卷積神經網絡學習用戶-項目評論中深層次的隱含特征,通過矩陣分解模型進行預測評分。雖然推薦效果得到較好的提高,但是該模型還是只能解決用戶-項目評分的線性問題。

圖1 標準CNN的文本分析

2.2 降噪自編碼

自編碼器是神經網絡中的一種,結構如圖2 所示,它嘗試將輸入近似復制到輸出,自動學習數據的隱含特征,去代替原始數據。Vincent P等[14]提出在一種在輸入端加噪,在輸出端降噪的降噪自編碼模型,不僅具有傳統自編碼器的自動學習數據特征,更能強迫隱藏層學到抗干擾性更強的特征,因此網絡訓練后噪音的權值比重小,特征的魯棒性更強。常見加入噪聲的方式有兩種:一種是加入高斯噪聲,另外一種是按照一定的比例,將輸入的部分數據賦值為0。

為了增加魯棒性和減少時間復雜度,本文對用戶-評分矩陣進行加噪處理,使用單層DAE 建立模型,用反向傳播方式進行訓練模型,對網絡初始權重系數進行微調。

圖2 自編碼器神經網絡

3 基于C-DAE的協同過濾算法

本文提出一種基于C-DAE 的協同過濾推薦模型,模型結構如圖3 所示。首先,本文采用word2vec 方法,將用戶的文本評論詞向量表示。然后利用CNN 學習到詞向量的語義特征,獲得不同用戶對項目的偏好程度,進而獲得項目向量矩陣。然后項目向量矩陣作為DAE 輸入層到隱藏層的初始權重,訓練DAE 網絡學習到抗干擾性更強的特征,從而重構稀疏的用戶-項目評分矩陣,填充缺失值。根據預測的評分矩陣,計算用戶間的相似度進行推薦。

圖3 基于C-DAE的協同過濾模型

3.1 詞向量生成

采用google 發布的word2vec 開源工具獲取文本詞向量,使用CBOW模型來獲取用戶評論的詞向量表示。將每個項目的不同用戶評論拼接成一個文檔,文檔中單詞用詞向量表示構成項目的詞向量矩陣。假設項目數量為m,文檔中單詞總數為n,詞向量維度為d ,最后獲得m 個維度為n×d 的詞向量矩陣Χ 。

3.2 卷積神經網絡生成項目向量

將所有詞向量矩陣作為卷積神經網絡的輸入數據,通過卷積層中不同卷積核挖掘多組局部特征向量,隨后經過交叉卷積層對相同位置特征卷積計算得到多組特征向量,再通過最大池化層選取每個特征向量中最具代表的特征值,最后通過全連接層映射輸出項目向量。CNN網絡結構如圖4所示。

圖4 CNN模型結構

選取卷積核w(w ∈Rh×d),窗口大小為h×d ,ei代表卷積核對輸入詞向量矩陣進行卷積操作而獲得的特征值,卷積過程如式(1)所示:

式中f 表示非線性激活函數,本文采用的非線性激活函數是雙曲正切函數(ReLu函數)。 Χi:i+h-1表示對詞向量Χi到詞向量Χi+h-1的局部區域內特征提取。h 表示滑動窗口中包含詞向量的數量,b 表示偏移量。

本文使用“same”模式對詞向量矩陣卷積,保證輸出規模與輸入矩陣規模相同。隨著滑動窗口一步步滑動,不斷對局部進行卷積獲取特征值,這些特征值組成一個特征向量,如式(2)所示:

為了充分挖掘每個詞的上下文信息,從而提取不同大小的局部特征。本文通過改變窗口寬度h的大小設計不同大小的卷積核,每種卷積核對詞向量矩陣Χ 進行卷積操作都會得到一維向量,這些一維向量組成一個n×T 特征矩陣G。

式中T 表示卷積核的數量。

為了更深層次提取局部特征和模型的精準度,在卷積層之后,添加了一層交叉卷積層。卷積層輸出的特征矩陣G 中,每一行表示卷積核在詞向量矩陣相同局部提取的特征值。那么,交叉通道卷積層使用可變長卷積核,對特征矩陣G 的每一行提取更多的局部相關特征信息ci,交叉卷積操作如式(4)所示:

式中g 表示非線性激活函數。Gi表示特征矩陣G的第i 行特征值。b 表示偏移量。

池化層能夠對特征向量C 進行二次提取,保留關鍵特征,同時對特征進行壓縮,防止網絡出現過擬合問題。采用最大池化,即選取C 中最大值,代表這塊區域的特征值。最后通過全連接層映射得到1×k 項目向量w 。那么m 個項目組成m×k項目向量矩陣W 。

3.3 降噪自編碼器預填充評分矩陣

利用卷積神經網絡生成的項目向量矩陣作為初始權重參數構建降噪自編碼器模型。為了減少計算復雜度的指數級增長和防止模型的過于復雜導致過擬合,本文采用單層DAE 網絡模型。將高度稀疏評分矩陣的每一行x,進行降噪處理缺失值補0 為x′,作為DAE 的輸入。W 作為DAE 的初始權重,進而會從未缺失的值中找到隱含規律,進而預測缺失值。式(5)如下:

式中x′表示降噪處理后的x,即缺失值補0。 g′和f′表示編碼函數和解碼函數。σ 表示非線性sig?moid函數。b1和b2表示偏差值。

對整個網絡的最終輸出nn(x′)與原始數據xj進行重構誤差的計算,當誤差大于一定的閾值時,將誤差反向傳播到網絡各層,原先訓練好的各層降噪自編碼器微調各自的連接權重,直到誤差小于一定的閾值時,網絡達到全局最優。重構誤差式(6)如下:

式中xj表示評分矩陣第j 行輸入向量。nn(x′)j表示評分矩陣第j 行降噪處理后經過降噪自編碼后的預測結果。?(·)表示正則化,防止模型過擬合,采用L2正則化。

降噪自編碼器的預測評分的過程如圖5所示。

圖5 降噪自編碼器訓練過程

4 實驗結果與分析

4.1 實驗數據集

為了可以比較用戶興趣偏好和評分預填充對推薦結果的影響,實驗數據集應包含用戶信息,項目信息,用戶評分以及用戶評論。為此,本文選用亞馬遜發布的公開產品數據庫作為實驗數據集。在該數據庫中,每個用戶可以為購買過的書籍做出[1,5]范圍內的評分和文本評論。綜上所述,亞馬孫數據庫比較適合作為本文的實驗數據集,選取數據集中30%作為測試集,70%作為訓練集。

4.2 評價標準

本文實驗采用準確率/召回率和F1 值[15]作為評價標準。F1 值越大,表示模型的推薦質量越好。假設N 表示推薦列表大小,U 表示所有用戶集合,R(u) 表示推薦模型為用戶u 推薦的集合,S(u)表示測試集上用戶u 評分過的項目集合。則準確率、召回率和F1值公式如下:

4.3 實驗設置與結果分析

利用CNN 網絡訓練項目向量時,影響實驗結果的主要參數有迭代次數,詞向量維度,卷積核窗口大小和卷積核的個數。迭代次數是指在訓練集上訓練模型時迭代的次數,隨著迭代次數的增加,模型的性能逐步提升。在實驗中,迭代次數取50時達到最好的效果,如果迭代次數繼續增加,模型會因為過度學習數據特征而產生過擬合問題,導致實驗效果降低。詞向量維度代表用戶評論文本向量化的維度。卷積核窗口大小是指卷積計算時滑動窗口的寬度。卷積核的個數是指不同卷積核的數量。

圖6 顯示了詞向量維度為120 時,卷積核個數對實驗結果的影響。從圖中可以看出,隨著卷積核個數的增加,推薦效果也逐漸提升。這說明在訓練項目語料時,詞向量所攜帶的語義信息得到更好地挖掘,即不同用戶對項目的偏好程度。實驗過程中發現,當卷積核個數增加到詞向量維度的1/4~1/3時,推薦效果最好,再繼續增加卷積核個數,推薦效果有所下降。這說明需要更多的語料來訓練更高維度的詞向量。因此在之后實驗中,卷積核個數設置為詞向量維度的1/4倍。

圖6 卷積核個數對實驗結果的影響

在DAE 網絡訓練評分向量階段,主要影響實驗結果的參數有項目向量維度和輸入數據的加噪比。項目向量作為DAE 輸入層到隱藏層的初始權重系數,因此其維度對評分預測有一定的影響。輸入數據的加噪比是指對用戶未評分項目補0程度。

圖7 顯示項目向量維度對實驗結果的影響。從圖中可以看出,隨著項目向量維度的增大,推薦效果得到明顯提升,但當維度增大到一定值時,效果提升減緩,甚至開始下降。這說明在訓練過程中過度學習數據特征而出現過擬合現象,導致推薦性能下降。

圖7 項目向量維度對推薦結果的影響

圖8 顯示了輸入數據的加噪比例對實驗結果的影響。從圖中可以看出,當加噪比例為0.3 時,F1 值有明顯提升。說明在網絡訓練時加入0.3 的噪聲程度下,減小了重構誤差,學習到更加魯棒性的特征。隨著加噪比例的逐步提高,輸入數據的稀疏性也越來越高,推薦質量也越來越低。

圖8 噪聲比對推薦結果的影響

圖9 顯示了不同推薦模型的對比結果。將本文提出的模型(C-DAECF)與基于降噪自編碼器(DAE)的推薦模型、基于奇異值分解(SVD)的推薦模型和傳統的協同過濾推薦模型進行對比實驗。從圖可以看出,本文提出的模型推薦質量明顯優于其他推薦模型,比基于DAE 的推薦模型性能提高了大約5.8%。表明利用CNN 提取用戶偏好程度,生成項目向量矩陣作為DAE 的初始權重參數,能夠提高DAE 網絡訓練速度,提升推薦質量。本文提出的模型性能又好于另外兩種推薦模型,說明非線性模型比線性模型更適合推薦系統。

圖9 不同推薦方法對比

5 結語

本文采用基于降噪自編碼和卷積神經網絡的模型對用戶進行智能推薦,通過CNN 提取用戶評論信息中潛在的語義特征,生成項目向量矩陣。利用項目向量矩陣作為初始權重參數構建DAE 模型,將用戶的興趣偏好納入DAE 中,對用戶-項目評分矩陣中的缺失值進行填補。利用填補后的矩陣計算與目標用戶相似度較高的用戶推薦其可能喜歡的項目。最后通過多個實驗證明,本文提出的C-DAE 模型相比于其他經典的模型,可以有效提高推薦的精準度。在今后的工作中,我們將進一步研究用戶評論中的時間序列問題,為模型增加更好的性能。

猜你喜歡
特征用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 九色91在线视频| 99精品视频在线观看免费播放| 91精品国产情侣高潮露脸| 夜夜拍夜夜爽| 任我操在线视频| 婷婷色中文网| 亚洲中文字幕无码爆乳| 日韩天堂视频| 无码人中文字幕| 亚洲精品国产精品乱码不卞| 欧美第一页在线| 国产午夜福利在线小视频| 国产成人亚洲无码淙合青草| 波多野结衣一区二区三区四区视频| 国产在线观看成人91| 国产00高中生在线播放| 亚洲欧美综合在线观看| 米奇精品一区二区三区| 无码电影在线观看| 国产亚洲精品97AA片在线播放| 精品亚洲国产成人AV| 国产精品护士| 综合五月天网| 一级毛片在线播放免费| 国产无码在线调教| 亚洲一区二区三区国产精品| 久久亚洲国产一区二区| 欧美一区二区福利视频| 久热re国产手机在线观看| 在线免费观看AV| 亚洲色图另类| www.99在线观看| 亚洲无码A视频在线| 国产成人高清在线精品| 日本高清有码人妻| 亚洲色欲色欲www在线观看| 国产99免费视频| 国产亚洲视频免费播放| 亚洲另类第一页| 成人免费午间影院在线观看| 狠狠ⅴ日韩v欧美v天堂| 婷婷伊人久久| 狠狠五月天中文字幕| 成人精品免费视频| 999在线免费视频| 日本精品视频一区二区| 伊人福利视频| 91麻豆国产视频| 91久久精品日日躁夜夜躁欧美| 青青青国产免费线在| 精品无码一区二区在线观看| 88国产经典欧美一区二区三区| 久久香蕉国产线看精品| 国产精品理论片| 一级全黄毛片| 免费不卡在线观看av| 2021国产乱人伦在线播放| www.日韩三级| 国产精品极品美女自在线看免费一区二区| 日日噜噜夜夜狠狠视频| 国产亚洲高清在线精品99| 精品偷拍一区二区| 国产h视频免费观看| 久久熟女AV| 丝袜美女被出水视频一区| 久久婷婷六月| 亚洲爱婷婷色69堂| 国产成人精品无码一区二| 亚洲欧美日韩天堂| 免费又爽又刺激高潮网址 | 亚洲一级毛片在线观播放| 91精品国产麻豆国产自产在线| 三上悠亚一区二区| a级毛片免费网站| 国产午夜无码专区喷水| 秋霞一区二区三区| 天天爽免费视频| 日韩亚洲综合在线| 成人看片欧美一区二区| 伊人成人在线视频| 东京热一区二区三区无码视频| 91精品aⅴ无码中文字字幕蜜桃|