基于多神經網絡和改進PMF的視頻推薦算法

2021-01-20 08:30:36鄭建國蘇成卉

計算機工程與設計 2021年1期

鄭建國，蘇成卉

(東華大學旭日工商管理學院，上海 200050)

0 引言

隨著影片數量的逐年增加，電影信息過載現象日益加劇。推薦系統實時反饋給用戶其偏好的選擇，可以高效地解決這一問題。傳統推薦算法只考慮顯性評分對用戶偏好的影響，存在嚴重的數據稀疏性問題[1]，日益增長的用戶及項目數量使得傳統推薦方法推薦精度不佳。而視頻簡介文本可以在一定程度上反映用戶、視頻信息和真實評分三者的潛在關系，伴隨著NLP文本處理領域的發展，如何在推薦系統中高效利用文本數據成為研究熱點。此外，神經網絡等深度學習模型主要解決分類問題，不適合直接實現推薦任務，存在可解釋性不強的問題[2]，將機器學習算法與傳統經典的推薦算法相融合實現推薦研究成為推薦領域需要進一步研究的方向。

本文為了充分挖掘用戶、視頻信息和真實評分三者的關系，首先，針對視頻劇情簡介文本數據，利用卷積神經網絡(CNN)和雙向長短期循環神經網絡(BiLSTM)構建混合的神經網絡結構(CBiLSTM)來提取視頻文本潛在特征，生成視頻潛在特征概率分布來表示視頻潛在特征；其次，將混合的神經網絡結構CBiLSTM與受偏置約束的概率矩陣分解算法融合生成混合推薦模型(CBiLSTM-PMF+)，實現評分預測，為電影視頻網站的推薦策略提供思路。

1 相關工作

1.1 視頻推薦算法

視頻推薦的研究主要是基于用戶的歷史行為數據(評分為主)，預測用戶對未觀看視頻的打分，進而反映用戶對未觀看視頻的偏好程度，將預測評分高的影片作為推薦結果[3]。視頻推薦的相關研究主要分為兩類：①利用多源異構數據提取更豐富的特征。②改進算法模型或使用混合推薦模型增強預測能力[4]。

為了緩解傳統推薦模型因數據稀疏性導致的推薦精度不足問題，利用各類輔助信息學習潛在特征，如用戶屬性、社交網絡、用戶信任信息、視頻描述文件、視頻圖像、用戶對項目的評論。陳婷等[5]通過社交網絡中的用戶間信任關系填補稀疏矩陣，將信任度代替相似度，對協同過濾提出改進。Yashar Deldjoo等[6]提出了一種基于內容的推薦系統，將視頻文件類型等顯性特征融合到傳統的基于內容的推薦技術中，并從視頻內容中提取和使用低級視覺特征，給用戶提供個性化推薦。肖成龍等[7]融合用戶社交網絡信息以及關鍵用戶信息和視頻評分信息并配比不同權重實現視頻評分預測。石佩生等[8]將用戶基本屬性、評分時間戳與用戶評分、偏好、評價項目的相似因子相結合解決推薦冷啟動問題。江周峰等[9]利用社會化標簽來填補特征項，改進了一種融合標簽的基于內容的推薦算法。

1.2 深度學習在推薦系統中的應用

近幾年，學者將深度學習算法與傳統推薦算法實現了融合，Wu等[10]使用去噪自動編碼器來構建僅考慮評級數據的協同過濾方法。Bansal等[11]使用一種變形RNN門控循環單元(GRU)，對隱式反饋數據集有效地編碼用于多任務學習。Wei J等[12]基于深度神經網絡(SADE)提取視頻的內容特征，用于冷啟動視頻項目的評級的預測。Andy W.Chen等[13]使用機器學習模型KNN算法，通過每對視頻和標簽的相關性分數找到將在數據中分離視頻的最佳聚類數。He等[14]使用視頻海報圖像數據從預訓練的CNN獲得圖像特征。

在文本處理方面，有學者將深度學習算法與傳統推薦算法融合。Wang等[15]提出堆棧去噪自編碼器(SDAE)和概率矩陣分解(PMF)融合的協同深度學習算法(CDL)。但SADE和LDA兩者都使用詞袋模型，忽略了上下文單詞環境對視頻文本信息的影響。Yoon Kim[16]在word2vec和詞嵌入技術的基礎上，提出TextCNN模型，利用單層CNN算法實現句子分類，并設置多通道和卷積窗口，充分反映文本特征，此模型簡單、高效并且獲得很高的準確率，成為文本分類處理領域的經典。Donghyun等[17]提出了一種上下文感知的混合推薦算法ConvMF，將深度學習中的CNN與概率矩陣分解模型PMF融合，彌補了SADE和LDA的缺陷，進一步提高了混合模型的推薦精度, 是推薦系統領域利用隱式文本數據結合顯性評分數據實現評分預測的經典算法。Ye H等[18]將考慮時序特征的長短期記憶神經網絡(LSTM)與概率矩陣分解模型PMF融合，但忽略了上下文語義獲取。

本文將在前人研究基礎上進行改進，集成多神經網絡算法與受偏置約束概率矩陣分解算法，解決現有算法存在的缺陷問題，并進一步提高推薦精確度。

2 相關理論

2.1 卷積神經網絡

卷積神經網絡(CNN)[19]的基本結構由輸入層、卷積層、池化層、全連接層和輸出層構成。卷積層是對嵌入向量和濾波矩陣做內積。池化層對卷積層得到的每一個特征圖進行池化。學者的大量研究已經證實最大值池化的方式相較于平均值池化可以提取更好的特征,效果更優,目前研究都采用最大值池化方法。全連接層將池化層的輸出特征作為輸入，經激活函數激活，得到固定維數的特征向量。CNN在分類問題方面效果突出，但在推薦算法方面的成果卻不多，主要因為推薦是回歸問題，兩者的目標不同。在針對文本數據的推薦算法中，學者將CNN融合經典推薦算法構建混合推薦模型實現更精準的推薦效果。

2.2 雙向長短期時序循環神經網絡

在傳統的循環神經網絡中，各層間的神經元相互連接，可以保留短距離的時序特征，但隱層間的梯度不穩定，存在梯度消失或梯度爆炸的問題。而長短期時序循環神經網絡(LSTM)結構使得梯度能夠很好的在各隱藏層中傳遞，可以很好地學習文本等具有時序特點的數據。LSTM結構的神經元僅學習層間前邊神經元的信息，而單詞的前后詞語都會影響語義關系。雙向長短期循環神經網絡(BiLSTM)融合兩組學習方向相反(一個按句子順序，一個按句子逆序)的長短期時序循環神經網絡(LSTM)，相較LSTM可以更好理解上下文語義。

LSTM神經網絡由遺忘門ft、輸入門it、記憶單元ct和輸出門ot這4個主要元素組成。遺忘門決定記憶單元前一個狀態信息的留存，輸入門控制記憶單元中當前時刻信息的輸入，記憶單元根據當前輸入信息更新記憶狀態，再由輸出門判斷記憶單元對下一個狀態的輸出結果。計算過程為

ft=σ(Wf[ht-1,xt]+bf)

(1)

it=σ(Wi[ht-1,xt]+bi)

(2)

(3)

(4)

ot=σ(Wo[ht-1,xt]+bo)

(5)

ht=ot*tanh(ct)

(6)

其中，W是矩陣乘法操作，ht表示記憶單元的狀態，xt表示信息輸入，b是函數的偏置項，σ是sigmoid函數，*表示點乘操作。

(7)

其中，⊕是連接運算符。這種雙層結構使得BiLSTM模型可以充分學習輸入序列數據中詞語的上下文信息。

2.3 概率矩陣分解模型

矩陣分解算法(PMF)可以從稀疏的評分矩陣中挖掘潛在特征，在主流的協同過濾中廣泛使用，尤其在稀疏性很強的數據上取得了良好的效果。PMF算法將原有的高維的用戶U-項目V評分矩陣拆分成低維矩陣并進行擬合。因此，模型可以利用各類影響推薦結果的數據并轉化為低維矩陣并與評分矩陣進行擬合，提高模型預測的準確率。

概率矩陣分解模型(PMF)假設觀測噪聲(用戶-項目評分矩陣R與用戶和項目潛在特征矩陣U、V做內積得到的近似評分矩陣間的誤差值)服從高斯分布，N個用戶和M個項目的評分數據的條件概率表示為

(8)

同時，模型假設用戶潛在特征矩陣U和項目潛在特征矩陣V服從零均值的球面高斯分布，其中ui和vj為某個特定用戶i和影片j的K維特征向量，用戶潛在特征模型U和視頻潛在特征模型V的條件概率分布表示為

(9)

(10)

貝葉斯公式可以將用戶潛在特征矩陣U和項目潛在特征矩陣V的后驗概率表示為

(11)

對后驗概率取對數，去掉常數項簡化后的目標函數表示為

(12)

3 基于神經網絡和偏置概率矩陣分解的混合視頻推薦算法(CBiLSTM-PMF+)設計

3.1 問題描述

假設在視頻推薦系統中，有N個觀影用戶，M個被觀看的影片以及相應的用戶對觀看視頻的評分，目的是預測用戶對未觀看影片的評分，進而實現影片推薦。一般情況下，大量的用戶和影片會產生非常稀疏的評分數據，導致僅憑評分數據預測用戶觀影偏好精確度不佳。本文通過獲取視頻影片簡介文檔，得到樣本數據N(ui,vj,rij,Dj)。其中，rij表示用戶i對視頻j的評分，用戶評分為1～5整數值，代表用戶對視頻的偏好程度，rij∈RN*M。Dj是視頻j的視頻簡介短文本文檔。

因此，本文要解決的問題是，針對文本型的數據，如何挖掘隱含文本特征；如何利用用戶-視頻評分矩陣R以及視頻簡介短文本文檔Dj來提取用戶特征和視頻特征，將用戶特征和視頻特征表示利用混合推薦模型實現用戶對未觀看視頻的評分預測。

為了清晰的表述本文提出的模型，將結合卷積神經網絡(CNN)和長短期記憶網絡(LSTM)的多神經網絡結構簡稱為CBiLSTM，將多神經網絡結構與偏置約束概率矩陣分解算法融合的混合推薦算法簡稱為CBiLSTM-PMF+，并匯總了模型中的常用符號與含義，見表1。

表1 本文常用符號及含義

3.2 基于CBiLSTM神經網絡的視頻文本特征潛在模型

在推薦系統領域，對文本數據特征的提取已有的方法只考慮文本數據中的局部特征，無法獲取短文本數據在上下文語義中存在的時序特征。在文本情感分析領域，已有學者證實結合卷積神經網絡(CNN)和長短期記憶網絡(LSTM)模型既能夠有效提取短文本局部最優特征，又能夠解決遠距離的上下文依賴，并且局部特征和時序特征融合可以取得更好的文本分類效果[20]。因此，在TextCNN文本分類模型基礎上，本文構建了視頻文本特征潛在模型，即卷積神經網絡和雙向長短期循環神經網絡混合的神經網絡結構(CBiLSTM)從視頻劇情簡介短文本文檔集中學習生成文本潛在特征表示，如圖1所示。視頻簡介文本嵌入層一方面訓練CNN模型學習到文本主要特征，一方面訓練BiLSTM模型學習到上下文語義特征，融合文本主要特征和上下文語義特征，以更好地學習視頻簡介語義，既解決單卷積神經網絡模型忽略詞在上下文語義中時序特征的問題，也可以有效避免傳統循環神經網絡梯度消失或梯度彌散問題[20]。

圖1 基于CBiLSTM神經網絡的文本特征提取框架

基于CBiLSTM神經網絡的視頻文本特征潛在模型設計包括嵌入層、卷積層、池化層、全連接層、BiLSTM層、拼接層和輸出層。接下來對每層進行詳細分析。

(1)嵌入層

(13)

(2)CNN卷積層

(14)

其中，f(?) 是一個非線性激活函數，本文采用可以加速收斂并避免局部最值的Relu函數， ?表示內積操作，Di∶(i+wsp-1)∈Rwsp×Kw，i∈[1,l-wsp+1]，bp是卷積核偏置項。

(15)

其中，p∈[1,Nw]，Nw是卷積核個數，l-wsp+1代表多組不同的卷積窗口下得到的特征維度。

(3)CNN池化層和全連接層

為了從卷積層內積操作后得到的特征圖中提取主要特征，池化層對卷積層的輸出進行降維，減小特征圖的計算復雜度。在卷積層每個滑動窗口下得到的映射屬性特征都是不定長度的，利用最大池化的方法將每個卷積核得到的特征保留最大值特征，使得特征長度一致，易于后續控制模型過擬合問題。卷積層和池化層將文本數據映射到隱層特征空間上，然后全連接層將模型學到的“分布式特征表示”映射到樣本標記空間中。全連接層將池化層輸出的同種大小的滑動窗口下得到的卷積映射屬性值進行連接，得到文檔特征向量表示為

(16)

(4)CNN拼接層

全連接層將同種大小的滑動窗口下的映射屬性值連接后，在CNN拼接層，將q組不同大小的滑動窗口下得到的文檔特征向量實現拼接，實現TextCNN框架特征的輸出，每個影片簡介通過CNN結構學習到的文檔特征向量表示為

(17)

(5)BiLSTM層

(6)CBiLSTM模型拼接層

(18)

(7)CBiLSTM模型輸出層

因為推薦任務不是分類問題，模型最后輸出不再通過softmax層分類。為防止過擬合，輸出層將CBiLSTM模型拼接層學習的視頻文檔潛在特征融合向量cblj添加Dropout層并映射到D維空間，每次迭代放棄部分訓練好的參數，使權值的更新不再依賴部分固有特征，最終得到所需要的D維CBiLSTM模型表示的文檔特征列向量θj，表示為

θj=tanh(Wθ·(tanh(Wdropout(cblj·rdropout)+bdropout))+bθ)

(19)

其中，Wθ，Wdropout是非線性映射矩陣，rdropout是Dropout丟棄控制向量[21]，服從伯努利分布，bdropout，bθ是偏置向量。

3.3 基于約束偏置概率矩陣分解算法的混合推薦算法(CBiLSTM-PMF+)

首先，CBiLSTM-PMF+模型考慮了用戶評分行為相似性反映用戶特征相似性這一影響因素，受限概率矩陣分解算法可以約束用戶的特征,使得評分行為相近的用戶生成相似的用戶潛在特征向量，解決推薦系統中對評分影片較少的用戶的未觀看視頻的評分預測接近影片評分均值的問題；其次，CBiLSTM-PMF+模型將視頻文本特征潛在模型集成到概率矩陣分解算法中，通過視頻文本潛在特征模型生成的視頻文本潛在特征矩陣來表示視頻潛在特征；最后，CBiLSTM-PMF+還考慮到有的用戶傾向于對滿意的物品評分，導致個人評分均值偏高，或者優質視頻本身受評分均值偏高[22]，將受約束偏置與全局平均融入推薦算法模型中。

PMF+模型首先使用受限概率矩陣分解算法(CPMF)構建用戶潛在特征模型和評分模型?？紤]到評分視頻集合相似的用戶具有相似的興趣，用戶潛在特征向量ui表示為

(20)

其中，Wu是用戶潛在特征的約束矩陣 (Wu∈RD×M)，表示用戶對某一特定視頻進行評分的結果與用戶特征向量的先驗均值相關；Yi是用戶潛在特征的補償矩陣，當用戶在新用戶狀態下(即用戶沒有發生視頻打分行為)，沒有先驗均值的影響，Ui=Yi。

本文PMF+模型在此基礎上，加入用戶偏置Pi，視頻偏置Qj，并對用戶偏置加入全局平均約束Zj(Zj∈RD×M)，來避免用戶評分行為傾向對評分預測產生的影響。因此，假設視頻打分的噪聲(用戶-視頻評分矩陣R與融入約束和偏置的用戶和視頻潛在特征矩陣做內積得到的近似評分矩陣間的誤差值)服從期望為0，方差為σ2的高斯分布，用戶-視頻評分生成概率模型的條件概率先驗分布由式(8)改進表示為

(21)

其中，參數Y,Z,P,Q,Wu依據式(9)和式(10)分別服從期望為0的高斯先驗分布且相互獨立分布，條件概率分布分別表示為

(22)

(23)

(24)

(25)

(26)

在3.2章節中，視頻文本潛在特征模型通過CBiLSTM結構將視頻簡介短文本文檔集Dj輸出為文檔特征列向量θj，并表示成視頻文本潛在特征矩陣θ。在PMF+模型中，假設視頻潛在特征矩陣服從高斯分布，引入一個均值0方差為σV2高斯噪聲向量ε，使視頻潛在特征矩陣Vj的每個列向量都通過3個變量生成：①CBiLSTM模型中的內部權重變量W; ②視頻簡介短文本文檔集Dj; ③高斯噪聲向量ε，實現CBiLSTM結構與PMF+模型的集成。視頻潛在特征向量vj表示為

vj=θ+ε

(27)

因此，視頻潛在特征模型的條件概率先驗分布表示為

(28)

假設視頻文本潛在特征模型參數集W中每個參數wl服從期望為0，方差為σW2的零均值球面高斯分布，參數集W條件概率分布表示為

(29)

3.4 CBiLSTM-PMF+模型的參數學習

本文提出的CBiLSTM-PMF+模型主要參數有：用戶潛在特征模型U包含的Y,Z,P,Q,Wu；視頻潛在特征模型V和CBiLSTM模型參數集W。基于式(11)，通過貝葉斯推理推得用戶潛在特征矩陣U和視頻潛在特征矩陣V的后驗概率表示為

(30)

CBiLSTM-PMF+模型的參數優化學習過程借鑒了現有模型的最大似然估計(MAP)，基于式(12)，去掉給定常量并簡化后的損失函數表示為

(31)

為了最小化損失函數，本文采用梯度下降(SGD)方法增量學習參數Yj,Pi,Wuj,Qj,Zj,Vj。對每一個樣本數據 (useri,moviej,rij,Dj) 的損失函數由式(31)簡化為

(32)

得到參數更新

(33)

(34)

(35)

(36)

(37)

(38)

θ←CBiLSTMW(D′j)

(39)

與用戶潛在特征模型U和視頻潛在特征模型V的更新不同，CNN-BiLSTM神經網絡模型參數集W采用反向傳播算法訓練優化，優化過程執行到損失函數收斂，損失函數表示為

(40)

當模型參數優化更新完成，預測用戶對未觀看視頻的評分表示為

(41)

4 實驗及分析

本文使用python語言實現提出的CBiLSTM-PMF+模型，神經網絡模型由深度學習框架keras搭建，科學計算由科學運算庫numpy、math實現。

4.1 實驗數據集

為了驗證提出算法的有效性和推薦效果，評分數據來源于AIV(amazon instant video)數據集、ML-100k(MovieLens-100k)和ML-1M(MovieLens-1M)3個穩定的基準真實數據集。這些數據集均包含用戶對項目的評分信息，評分值是[1,5]范圍內的整數。除此之外，AIV數據集還提供視頻描述文檔信息，而MovieLens 數據集沒有電影視頻的描述文檔信息，運用爬蟲工具在IMDB互聯網視頻數據庫中爬取數據集視頻的視頻簡介。3個數據集的詳細信息見表2。

表2 實驗數據集的統計信息

4.2 實驗數據預處理及參數設置

模型對獲取的評分數據和影片文本數據先進行預處理：①去除沒有視頻簡介的視頻；②去除評分數量小于3的用戶；③計算視頻簡介出現的單詞的tf-idf，取tf-idf值大于0.5且前8000個值最高的詞作為詞匯表，其它詞去除；④如果詞匯表的單詞未出現在語料庫中，則隨機初始化，生成正態分布隨機數。

CBiLSTM嵌入層的詞向量使用glove.6B.200d語料庫獲取。CBiLSTM-PMF+中涉及的λY,λWu,λV超參數在PMF和CPMF算法的文獻中均有實驗取值作為參考，調整范圍不大。主要針對CBiLSTM-PMF+算法中λP,λQ,λZ參數進行調整，這3個參數與λY,λWu,λV屬同類型參數，使用EM算法在每一次迭代過程中自動調整參數。參數集W使用基于RMSprop方法的mini-batch批處理訓練。

4.3 實驗評估指標

本文選取均方根誤差(root mean squared error，RMAE)來評價算法的評分準確率。RMAE值越小，說明預測模型的精確度越高，是推薦算法中最常用的評價指標，其表達式為

(42)

4.4 實驗結果與分析

實驗設置CBiLSTM-PMF+混合推薦模型中用戶和項目潛在特征矩陣的分解維度D為50，視頻簡介文檔最大長度設置為300，詞向量維度Kw為200，參數集W的mini-batch設置為128，3組不同滑動窗口寬度wsp分別設置為3、4、5，每組滑動窗口下卷積核數量設置為100，SGD方法參數學習率設置為0.0001。根據實驗結果得到參數λY,λV,λP,λQ,λZ,λWu在不同數據集上推薦效果最佳時的設置見表3，其中為降低模型復雜度，CBiLSTM-PMF+模型設置同類型超參數λV=λY,λWu=λZ,λP=λQ。

表3 不同實驗數據集上的超參數設置

(1)不同數據集上各種算法的推薦質量對比

實驗環節選擇以下幾種算法，在ML-100k、ML-1M、AIV這3個數據集上進行對比實驗：

PMF：概率矩陣分解算法，僅通過用戶對項目的顯性評分數據實現預測。

ConvMF[17]：一種基于上下文感知的混合推薦經典算法，將卷積神經網絡算法(CNN)與概率矩陣分解模型PMF融合，實現混合推薦。

LS-PMF[18]：單一長短期循環神經網絡算法LSTM與概率矩陣分解模型PMF融合的文本特征混合推薦算法。

BLS-PMF：單一雙向長短期循環神經網絡算法BiLSTM與概率矩陣分解模型PMF融合的文本特征混合推薦算法。

CBiLSTM-PMF：本文提出的多神經網絡模型實現文本特征融合，并集成PMF算法的文本特征混合推薦算法。

CBiLSTM-PMF+：本文提出的多神經網絡模型實現文本特征融合，并集成考慮了約束偏置PMF的混合推薦算法。

為驗證利用CNN和BiLSTM進行文本特征融合方法的性能，在對文本數據處理過程中，分別選擇ConvMF、LS-PMF、BLS-PMF以及本文提出的CBiLSTM-PMF混合推薦模型實現評分預測。選取設置epoch為5，進行對比實驗，每次評價指標RMAE值取5次迭代的均值，不同算法在不同數據集上的精確度結果見表4。

從表4中可以看出，在各個數據集上，本文提出的CBiLSTM-PMF算法對比其它3個算法都有不同程度上的精確度的提高，多神經網絡(CBiLSTM)進行文本特征融

表4 不同算法在不同數據集上的精確度評價指標結果(a)

合實現推薦的效果優于單神經網絡特征混合推薦模型。說明CBiLSTM結構可以在獲取上下文語義時序特征的同時不受梯度問題影響，從而使得精確度更高，也表明了同時考慮局部特征和上下文時序特征這兩方面信息進行評分預測的合理性。

本文還將提出的考慮了約束偏置的混合推薦模型(CBiLSTM-PMF+)與經典算法進行對比。實驗設置算法中涉及的超參數見表3，各模型的效果評估見表5。

表5 不同算法在不同數據集上的精確度評價指標結果(b)

由表5可以看出，僅通過用戶對項目的顯性評分數據實現預測的PMF算法在精確度上低于結合文本數據提取隱式文本特征得到的預測精確度，說明模型融入影片的簡介描述可以更精確判斷用戶觀影喜好。多神經網絡和約束偏置下概率矩陣分解混合推薦算法(CBiLSTM-PMF+)效果明顯優于傳統的概率矩陣分解算法(PMF)，并實驗證實優于經典模型ConvMF，效果略優于CBiLSTM-PMF，表明了考慮用戶評分行為相似性和偏向性可以減少非用戶喜好因素(如評分習慣等)對推薦產生的負影響，提升預測結果的精確度。

(2)用戶和視頻潛在特征向量維度D

影響CBiLSTM-PMF+混合推薦方法性能的主要參數除了表3涉及的超參數以外，還有用戶和視頻潛在特征向量維度D和詞向量化后的維數Kw。

設置D為10、20、50、100，以ML-1M為例，觀察其變化對RMSE值的影響如圖2所示。

圖2 不同潛在特征向量維度D下的RMSE值

(3)詞向量化后的維數Kw

設置Kw為100、200、300，以ML-1M為例，觀察其變化對RMSE值的影響如圖3所示。

圖3 不同詞向量化維數Kw下的RMSE值

通過實驗結果可以發現，維度D與維數Kw在某個數值最低并隨后趨于平穩，維度的增加不會使得評價指標數值明顯下降，推薦效果趨于穩定。為減少模型迭代次數，采用的最佳設置為用戶和視頻潛在特征向量維度D=50，詞向量化后的維數Kw=200。

5 結束語

本文首先提出了一種利用卷積神經網絡和雙向長短期循環神經網絡實現特征融合的文本潛在特征表示模型(CBiLSTM)；其次考慮了用戶評分行為相似性反映了用戶特征相似性這一影響因素，還考慮到有的用戶傾向于對滿意的物品評分，導致個人評分均值偏高，或者優質視頻本身受評分均值偏高，采用受約束偏置概率矩陣分解算法集成；最后構建了一種針對視頻簡介信息和視頻評分信息的混合推薦算法(CBiLSTM-PMF+)，完成視頻評分預測的任務。

目前，本文的工作未考慮到評分的時效對預測評分的影響，用戶對電影觀看的興趣隨著時間推移可能會發生變化，而引入時間窗口這種考慮時間因素的方法是將歷史數據刪掉以展現觀影喜好變化，帶來評分稀疏性嚴重的問題。因此，下一步考慮時間信息對用戶偏好的影響值得進行深入研究。此外，評分數據極度稀疏，隱式數據(如瀏覽、收藏、點擊等行為)更容易獲取。因此，通過更高維度的用戶行為表示來分析用戶偏好也值得進一步探究。