基于邊界矩陣低階近似和近鄰模型的協同過濾算法

2018-01-08 07:47:13溫占考易秀雙田申申王興偉

計算機應用 2017年12期

關鍵詞：利用用戶模型

溫占考，易秀雙，田申申，李婕，王興偉

(東北大學計算機科學與工程學院，沈陽 110819)

基于邊界矩陣低階近似和近鄰模型的協同過濾算法

溫占考，易秀雙*，田申申，李婕，王興偉

(東北大學計算機科學與工程學院，沈陽 110819)

為解決矩陣分解應用到協同過濾算法的局限性和準確率等問題，提出基于邊界矩陣低階近似(BMA)和近鄰模型的協同過濾算法(BMAN-CF)來提高物品評分預測的準確率。首先，引入BMA的矩陣分解算法，挖掘子矩陣的隱含特征信息，提高近鄰集合查找的準確率；然后，根據傳統基于用戶和基于物品的協同過濾算法分別預測出目標用戶對目標物品的評分，利用平衡因子和控制因子動態平衡兩個預測結果，得到目標用戶對物品的評分；最后，利用MapReduce計算框架的特點，對數據進行分塊，將該算法在Hadoop環境下并行化。實驗結果表明，BMAN-CF比其他矩陣分解算法有更高的評分預測準確率，且加速比實驗驗證了該算法具有較好的可擴展性。

協同過濾；矩陣分解；邊界矩陣；近鄰模型；Hadoop

0 引言

推薦系統是根據用戶現在的興趣，預測用戶將來可能感興趣的物品，并推薦給用戶[1]。根據推薦算法不同，可以分為：基于內容的推薦(Content-based Recommendation)算法、協同過濾和混合推薦[2]。協同過濾算法主要是利用用戶-物品評分矩陣分析用戶興趣，在用戶群中找到與目標用戶興趣相似的用戶，綜合這些用戶對某一物品的評分，形成目標用戶對該物品喜好程度的預測。協同過濾推薦算法主要的階段是近鄰集合的查找，其準確率直接影響到推薦的準確率。在實際的電子商務系統和視頻網站系統中(比如Amazon、NetFlix等)，用戶和物品種類的數量都非常巨大，這對于協同過濾算法準確率和效率都是非常大的挑戰。

目前協同過濾算法主要面臨以下幾點問題：1)數據稀疏性是制約協同過濾推薦算法準確率的最主要問題。用戶對物品評分的數量較少，造成用戶-物品評分矩陣非常稀疏。在這種情況下，用戶之間共同評分的物品數量少，計算出的最近鄰居用戶集合質量不高，會造成推薦的準確率低。2)算法的可擴展性是制約推薦系統實施的重要因素。協同過濾算法面對日益增加的用戶維度和物品維度時，用戶間相似性計算的耗費也很大，這樣會導致算法遇到嚴重的擴展性問題。3)大數據背景下，系統難以及時響應用戶的請求，影響用戶的實時性體驗。

為了解決上述問題，提出基于邊界矩陣低階近似(Bounded Matrix low rank Approximation, BMA) 和近鄰模型的協同過濾并行化算法(Collaborative Filtering algorithm based on BMA and Nearest neighbor model, BMAN-CF)。BMAN-CF是根據實際推薦系統的評分范圍，將評分矩陣R分解為子矩陣P和Q，降低矩陣維度和稀疏性；挖掘子矩陣中P、Q中的隱含特征，提高近鄰集合查找準確率；綜合考慮用戶和物品對預測結果的影響，利用平衡因子動態平衡兩種協同過濾算法的預測結果，得到最終的預測結果。

1 相關工作

協同過濾推薦算法主要分為基于內存的協同過濾算法和基于模型的協同過濾算法兩類。

基于內存的協同過濾算法分為4個過程：1)構建用戶-物品評分矩陣；2)計算用戶(物品)間相似度；3)查找近鄰集合；4)預測用戶對物品的評分。文獻[3]利用典型性相關概念對物品和用戶進行聚類降低數據稀疏性，提高了預測準確率；文獻[4]將隱式數據作為用戶積極或者消極偏好的指示，與置信度聯系起來，訓練出針對隱式反饋推薦的因子模型降低數據稀疏性；文獻[5]使用關聯檢索框架和相關的實際算法，根據用戶歷史反饋來探索用戶間的傳遞性關聯，用這種傳遞性關聯來描述用戶的興趣，從而解決數據稀疏性的問題。

基于模型的協同過濾算法利用用戶歷史行為，依托機器學習或數據挖掘算法來構建用戶興趣模型，利用該模型為用戶推薦物品。此類算法構建用戶興趣模型需要耗費大量時間，但在建立用戶興趣模型后，數據規模明顯降低，所以可以離線訓練模型，在線推薦及時響應用戶請求。基于模型協同過濾算法主要有隱語義模型、貝葉斯分類、神經網絡等，隱語義模型由于高預測精度成為目前使用較為廣泛的技術。文獻[6]提出基于轉移學習的方法，利用變分期望最大化(Variational Expectation-Maximization, VEM)來學習出概率矩陣分解模型，利用多方面具有密集數據的輔助信息來解決數據稀疏問題，實驗結果證明該算法在每個用戶只對一個物品評分時能得到最好的效果；文獻[7]提出用概率矩陣分解來填充用戶-物品評分矩陣，然后融合基于用戶的協同過濾和基于物品的協同過濾，但該算法以固定的權重融合基于用戶和基于項目預測的評分值，忽略了用戶和物品間的關系，并且不同的數據集權值分配差別很大；文獻[8]將流形正則化與矩陣分解結合構成新模型，此模型有全局最優和封閉形式的解決方法，使用交替迭代和不精確的內部迭代來求解新模型，對矩陣分解算法效率和準確率都有很大的提升。

2 BMAN-CF設計

非負矩陣分解(Nonnegative Matrix Factorization, NMF)是針對實際應用中矩陣元素為負數沒有意義而提出的，但在推薦系統中用戶-物品評分矩陣元素不僅非負，還有固定的評分區間。矩陣分解算法在應用到推薦系統時，將超過評分區間的預測評分設為區間的最大值，這會限制預測準確率。而邊界矩陣低階近似根據實際推薦系統的評分區間確定近似矩陣PQ元素的一個上界和一個下界，而不僅僅在子矩陣P、Q的元素上保證非負[9]。

2.1 邊界矩陣分解

邊界矩陣分解主要是將原始用戶-物品評分矩陣Rn*m分解為兩個低階矩陣Pn*k和Qk*m，P和Q分別由列向量px和行向量qxT組成，接下來詳細介紹近似矩陣元素在評分區間的界定下，如何通過最小化目標函數來求解列向量px和行向量qxT，即式(1):

(1)

s.t.T+pxqxT≤rmax,T+pxqxT≥rmin

假設px，已知根據px求解qxT。為了不失一般性，固定px求解qxT的情景同樣適用于固定qxT求解px,這樣就會產生兩種不同的更新策略：p1→q1T→…→pk→qkT和p1→…→pk→q1T→…→qkT。

根據文獻[10]對不同損失函數如何選擇相應更新策略作出的說明，本文算法選擇交替更新px和qxT策略。本文算法利用塊坐標下降算法來迭代求解問題，從塊坐標下降算法性質中可以發現，qxi、qxj∈qxT是相互獨立的，計算qxi并不影響元素qxi求解過程，qxT中其他元素的求解方法相同。qxi的計算過程如圖1所示。

圖1 矩陣元素qxi計算過程Fig. 1 Calculation process of qxi in matrix

?i=[1,m],?x=[1,k]

(2)

s.t.T(:,i)+pxqxi≤rmax，T(:,i)+pxqxi≥rmin

2[M(:,i)·*(R-T)(:,i)]Tpx

(3)

(4)

(5)

(6)

(7)

交替求解矩陣P和矩陣Q的各個向量，從而完成算法的一次迭代，當迭代結果符合結束條件時停止迭代，最終得到分解后的矩陣P和矩陣Q，滿足R≈P×Q。

這里面的結束迭代條件有必要說明一下。由文獻[12]可知，迭代停止標準應該是對于給定低階階數k，低階子矩陣P與Q的乘積應該接近原有矩陣R的階數。所以可以定義停止迭代標準ε如式(8):

(8)

當取浮點數精度為1E-5時，在精度范圍內，迭代標準ε在成功迭代之后不再發生變化，此時迭代結束。

2.2 推薦列表計算

2.2.1 相似用戶查找

接下來充分挖掘子矩陣P、Q的隱含特征，矩陣P和Q的潛在特征可以描述為，矩陣Pn*k每行可以看成用戶對k個特征的喜愛程度，矩陣Qk*m每列可以看成物品對k個屬性的擁有程度。這樣通過對k個特征喜愛程度和k個屬性擁有程度的差異來計算用戶間和物品間的相似度。在矩陣P上利用挖掘出的隱語義特征來查找目標用戶u的近鄰集合Nu，在矩陣Q上利用挖掘出的隱含義屬性查找目標物品i的近鄰集合Ni。

2.2.2 物品評分預測

根據用戶u的近鄰集合Nu，利用傳統基于用戶的協同過濾算法和式(9)可以計算出目標用戶u對物品i的評分Pu:

(9)

然后根據物品i的近鄰集合Ni，利用基于物品的協同過濾算法與式(10)可以計算出目標用戶對物品i評分Pi:

(10)

如果只使用基于用戶的協同過濾或者只使用基于物品的協同過濾，容易忽略一些有用信息，所以本算法利用基于近鄰的協同過濾算法，即同時從用戶和物品兩個角度考慮，分別預測用戶u對物品i的評分，然后利用平衡因子來動態平衡兩個預測評分。文獻[11]提出使用系數λ將兩個算法進行整合如式(11):

Pu,i=λ×Pu+(1-λ)×Pi

(11)

但是系數λ沒有考慮用戶間和物品間的內在相關性，為了進一步提升預測準確率，本算法采用平衡因子mu、mi和系數θ相結合的方法來動態平衡兩種算法預測的評分[13]。mu、mi的計算方法為式(12):

(12)

由于多個近鄰用戶與目標用戶之間的相似度不同，平衡因子mu的作用就是得到一個能夠用來代表用戶間的相似度權值，同理mi是代表物品間相似度權值。根據平衡因子mu、mi和系數λ組合出新的系數tu和ti，計算方法如式(13):

(13)

目標用戶u對物品i的評分就可以轉換為式(14)，最終可以計算出用戶u對未評分物品集合Iu中所有物品的評分，評分排序后將評分最高的Top-N個物品推薦給目標用戶u，這樣就完成了對用戶u推薦列表的計算。

Pu,i=tu×Pu+ti×Pi

(14)

3 BMAN-CF并行化

3.1 邊界矩陣分解并行化

BMA矩陣分解是利用塊坐標下降迭代求解子矩陣，塊坐標下降并行化思想應用到邊界矩陣分解并行化就是，將初始化后的矩陣P和矩陣Q按照集群節點數分別進行列分塊和行分塊，得到P={P1,P2,…,Ps}，Q={Q1,Q2,…,Qs}(s為集群節點個數)；根據矩陣P和Q分塊結果，將R分解為這樣的形式：R=R1+R2+…+Rs，其中矩陣Ri依然是n行m列，這樣就完成了參數集合和相應數據集的劃分；并行化執行階段每個Map任務都讀入矩陣P和Q的一個分塊Pi、Qi以及相應的數據集Ri，在Map函數中就可以利用2.1節的方法對Pi和Qi中的各個行列向量進行迭代更新，直到收斂為止，Reduce階段的Reduce函數就是將各個Map的結果進行整合輸出兩個更新后的矩陣P和Q。邊界矩陣分解MapReduce并行化流程如圖2所示。

圖2 邊界矩陣分解并行化數據流Fig. 2 Data flow of boundary matrix decomposition parallelization

3.2 推薦列表計算并行化

推薦列表并行化是在獲取到分解后的矩陣P和Q后，預測出用戶對未評分物品的評分，然后將評分最高Top-N個物品推薦給用戶。本并行化算法假設查找近鄰集合時用戶和物品都是獨立的，基于這個假設可以直接利用MapReduce的特性對算法進行并行化。推薦列表計算MapReduce并行化的流程如圖3所示。進行評分預測之前需要找到目標用戶未評分的物品集合，結果保存以〈TargetUserID,list〈TargetItemID〉〉形式保存在Hadoop分布式文件系統(Hadoop Distributed File System, HDFS)文件中。下面介紹利用矩陣P和矩陣Q進行評分預測得到Pu、Pi的數據流。

圖3 推薦列表計算并行化流程Fig. 3 Flow chart of recommended list calculation parallelization

3.2.1 利用矩陣P預測評分

MapReduce(MR1)中Setup函數是用來讀取第一步保存的文件，數據緩存格式為〈TargetUserID,list〈TargetItemID〉〉；Map階段輸入為矩陣P的一行，數據格式為〈UserID,list〈Feature,rate〉〉,通過map函數計算用戶間的相似度輸出為〈TargetUserID,〈UserID,Similarity〉〉；經過Shuffle后相同的TargetUserID會被送到同一個Reduce中，Reduce階段reduce函數先將相似度排序，選取相似度最高的Top-k個相似用戶作為近鄰集合，根據式(4)預測目標用戶對這些物品的評分，輸出為〈TargetUserID,list〈TargetItemID,Rate〉〉。

3.2.2 利用矩陣Q預測評分

MapReduce(MR2)與MR1Map和Shuffle操作類似，只是MR2中Map階段輸入的是矩陣Q的轉置的一行。Reduce階段reduce函數先將TargetItemID相同的數據聚集在一起，然后根據相似度大小為每個TargetItem選擇Top-k個物品作為近鄰集合，依次計算出目標用戶對各個TargetItem的評分，輸出為〈TargetUserID,list〈TargetItemID,Rate〉〉。

3.2.3 最終評分預測

MapReduce(MR3)Map階段輸入為MR1和MR2的輸出〈TargetUserID,list〈TargetItemID,Rate〉〉，經過Shuffle后TargetUserID相同的數據會被送到同一reduce函數中；在reduce函數中對每個TargetItemID都有兩個評分，利用式(14)來平衡兩個評分，得到對TargetItemID的最終評分，然后將評分最高的N個物品輸出〈TargetUserID,list〈TargetItemID,Rate〉〉。

4 實驗結果與分析

串行實驗是在單機上對BMAN-CF進行實驗，主要是在算法準確率上基于近鄰模型的協同過濾(Nearest-based Model Collaborative Filtering, NMCF)算法、概率矩陣分解與近鄰模型相結合的協同過濾(Probabilistic Matrix Factorization and Nearest-based Model Collaborative Filtering, PNCF)算法、邊界矩陣低階近似(BMA)算法進行比較分析。

并行實驗是在Hadoop分布式集群上對并行化算法進行實驗，通過與串行實驗運行時間的比較，得到算法加速比，分析算法的可擴展性。

4.1 算法串行實驗與分析

4.1.1 MAE指標下算法準確率比較分析

由于矩陣分解的階數k可能會影響平均絕對誤差(Mean Absolute Error, MAE)指標下的算法準確率，所以首先測試k值對準確率影響，選取合適的k值，實驗時選取k值依次是10、20、30、40、50，實驗數據集選取MovieLens-100k，圖4為不同k值下算法的準確率。

圖4 不同k值下BMAN-CF的MAEFig. 4 MAE under BMAN-CF of different k values

從圖4縱坐標軸的間隔來看，不同k值下算法MAE差異很小，但是在k為20時達到最小，所以接下來實驗選取k=20。

本文算法在選取近鄰集合使用Top-k選擇策略，近鄰的個數對算法準確率有很大影響，所以接下來是比較各算法在不同近鄰個數時MAE的大小，實驗結果如圖5所示。

圖5 不同近鄰個數下的MAEFig. 5 MAE under different number of neighbors

從圖5中可以看出，本文算法受近鄰個數影響較小，并且跟其他算法相比，本文算法MAE值始終最小，也就是本文算法準確率最高。BMAN-CF的MAE相比NMCF至少提升了1.87個百分點，說明近鄰模型不能更好地為用戶興趣建模，導致近鄰集合查找不準確，從而影響算法準確率；相比PNCF，BMAN-CF的MAE至少提升了1.86個百分點，PNCF也是在概率矩陣分解后結合近鄰模型產生推薦，但本文算法在矩陣分解時限制了近似矩陣元素上、下界，因此比概率矩陣分解更適合推薦系統；BMAN-CF的MAE相比BMA至少提升了4.2個百分點，本文算法通過挖掘子矩陣的隱含信息，提高了算法預測精度。

4.1.2 RMSE指標下算法準確率比較分析

首先對比本文算法與改進的奇異值分解(Singular Value Decomposition, SVD++)算法、帶偏置的奇異值分解(Biased Singular Value Decomposition, Bias-SVD)算法、隨機梯度下降(Stochastic Gradient Descent, SGD)算法、正則化交替最小二(Alternating Least Squares with Regularization, ALSWR)乘法在不同階數k下的均方根誤差(Root Mean Square Error, RMSE)結果，如表1所示。

從表1中可以看出，k值不同時，本文算法的RMSE比其他算法都要高一些。隨著k值增加雖然各個算法精度都有稍許的增加，但k值增大會增加矩陣分解階段計算時間復雜度，所以要選取適合的k值；本文算法的RMSE相比其他算法有一定程度的提升，是因為其他算法都專注于子矩陣P和Q乘積與原始矩陣的近似程度，將更多的精力放在了如何優化矩陣分解上，而沒有利用子矩陣隱含信息來進行評分預測。

表1 不同階數k下不同算法的RMSETab. 1 RMSE of different algorithms under different k values

比較本文算法與其他算法在不同近鄰個數下的RMSE結果，進行比較的算法有基于非負矩陣分解和近鄰模型結合的協同過濾(Nonnegative Matrix Factorization and Nearest neighbor model CF, NMFN-CF)算法、邊界矩陣分解BMA，實驗結果如圖6所示。從圖6中可以看出，隨著近鄰個數的增加，各個算法的RMSE都有一定程度的下降，本文算法與BMA相比RMSE至少提升了2.5個百分點，與NMFN-CF相比RMSE至少提升了1.6個百分點。

圖6 不同算法在不同近鄰個數下的RMSEFig. 6 RMSE of different algorithms under different number of neighbors

本文算法結合邊界矩陣分解和基于近鄰模型的協同過濾算法，在矩陣分解階段利用實際推薦系統中的評分區間來限制子矩陣P和Q的元素取值范圍，從而使近似矩陣PQ更加接近于原始評分矩陣R，由于得到的子矩陣P和Q是低階子矩陣，且它們并不是稀疏矩陣，所以這樣可以很好地解決推薦系統數據稀疏所帶來的一系列問題。在查找近鄰集合時利用子矩陣P和Q中的隱含語義，提高了近鄰集合查找的準確率，并且查找近鄰集合時，兩個子矩陣可以看作原始矩陣降維而來，所以可以降低計算復雜度，算法有較好的可擴展性；預測用戶對物品的評分時，先利用基于用戶和基于物品兩種協同過濾算法分別預測用戶對物品的評分，再利用平衡因子和控制因子來動態平衡兩種算法的預測評分，使最終預測評分更加準確。

4.2 算法并行實驗與分析

算法并行化實驗環境是有7個節點的集群環境，數據集是MovieLens-latest，評價指標是加速比。通過實驗得到本文算法與理想情況下的加速比，實驗結果如圖7所示。

從圖7中可以看出，隨著集群中節點數量的增加，并行化的優勢漸漸體現出來，MapReduce任務由多個節點來執行，所以加速比增速較大；但最后加速比增速緩慢，這是因為子矩陣階數k沒發生變化，矩陣分解階段對參數劃分不能太小，否則文件讀取時間耗費太多，所以只使用部分節點執行MapReduce任務來迭代分解矩陣，造成加速比增速緩慢，從加速比實驗結果可以看出，本文算法有較好的可擴展性。

圖7 并行化算法加速比Fig. 7 Speedup of parallelized algorithm

5 結語

針對矩陣分解應用到協同過濾算法中的局限性和準確率等問題，本文提出基于邊界矩陣低階近似和近鄰模型的協同過濾算法(BMAN-CF)來提高物品評分預測的準確率。該算法根據實際推薦系統的評分范圍界定近似矩陣及目標函數，找出目標用戶和目標物品近鄰集合，并利用平衡因子和控制因子動態平衡兩個預測結果，得到目標用戶對物品的評分。在Hadoop環境下并行化實現了該算法。實驗結果表明，所提算法能夠提高算法的預測準確率，且并行環境下的加速比實驗表明，所提算法具有較好的可擴展性。由于并行化后的加速比受矩陣分解的階數k和并行化節點數量兩個參數的影響，接下來將進一步研究如何選擇及優化矩陣分解的階數k和并行化節點數量。

References)

[1] BARJASTEH I, FORSATI R, ROSS D, et al. Cold-start recommendation with provable guarantees: a decoupled approach [J]. IEEE Transactions on Knowledge & Data Engineering, 2016, 28(6):1462-1474.

[2] ADOMAVICIUS G, SANKARANARAYANAN R, SEN S, et al. Incorporating contextual information in recommender systems using a multidimensional approach [J]. ACM Transactions on Information Systems, 2005, 23(1): 103-145.

[3] CAI Y, LEUNG H F, LI Q, et al. TyCo: towards typicality-based collaborative filtering recommendation [J]. IEEE Transactions on Knowledge & Data Engineering, 2014, 2(3): 97-104.

[4] HU Y, KOREN Y, VOLINSKY C. Collaborative filtering for implicit feedback datasets [C]// Proceedings of the 8th IEEE International Conference on Data Mining. Washington, DC: IEEE Computer Society, 2008: 263-272.

[5] HUANG Z, CHEN H, ZENG D. Applying associative retrieval techniques to alleviate the sparsity problem in collaborative filtering [J]. ACM Transactions on Information Systems, 2004, 22(1): 116-142.

[6] JING H, LIANG A C, LIN S D, et al. A transfer probabilistic collective factorization model to handle sparse data in collaborative filtering [C]// Proceedings of the 2014 IEEE International Conference on Data Mining. Washington, DC: IEEE Computer Society, 2014: 250-259.

[7] WANG J, DE VRIES A P, REINDERS M J T. Unifying user-based and item-based collaborative filtering approaches by similarity fusion [C]// Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development In Information Retrieval. New York: ACM, 2006: 501-508.

[8] ZHANG Z, ZHAO K. Low-rank matrix approximation with manifold regularization [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013, 35(7): 1717-1729.

[9] KANNAN R, ISHTEVA M, PARK H. Bounded matrix low rank approximation [C]// Proceedings of the 2013 IEEE 13th International Conference on Data Mining. Washington, DC: IEEE Computer Society, 2012: 319-328.

[10] KIM J, HE Y, PARK H. Algorithms for non-negative matrix and tensor factorization: a unified view based on block coordinate descent framework [J]. Journal of Global Optimization, 2014, 58(2): 285-319.

[11] MA H, KING I, LYU M R. Effective missing data prediction for collaborative filtering [C]// Proceedings of the 2007 International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2007: 39-46.

[12] KANNAN R, ISHTEVA M, DRAKE B, et al. Bounded matrix low rank approximation [C]// Proceedings of the 8th IEEE International Conference on Data Mining. Washington, DC: IEEE Computer Society, 2012: 319-328.

[13] 陳彥萍,王賽.基于用戶-項目的混合協同過濾算法[J].計算機技術與發展,2014,24(12):88-91.(CHEN Y P, WANG S. A hybrid collaborative filtering algorithm based on user-item [J]. Computer Technology and Development, 2014, 24(12): 88-91.)

This work is partially supported by the National Natural Science Foundation of China (61572123), the National Science Foundation for Distinguished Young Scholars in China (61225012, 71325002), the Liaoning Bai Qian Wan Talents Program (2013921068), the CERNET Innovation Project (NGII20160616).

WENZhankao, born in 1980, M. S., engineer. His research interests include next generation Internet, network security, big data analysis.

YIXiushuang, born in 1969, Ph. D., professor. His research interests include next generation Internet, network security, big data analysis.

TIANShenshen, born in 1992, M. S. candidate. His research interests include next generation Internet, big data analysis.

LIJie, born in 1981, Ph. D., associate professor. His research interests include next generation Internet, smart routing.

WANGXingwei, born in 1968, Ph. D., professor. His research interests include next generation Internet, smart routing, software defined network, cyberspace security, big data analysis.

Collaborativefilteringalgorithmbasedonboundedmatrixlowrankapproximationandnearestneighbormodel

WEN Zhankao, YI Xiushuang*, TIAN Shenshen, LI Jie, WANG Xingwei

(SchoolofComputerScienceandEngineering,NortheasternUniversity,ShenyangLiaoning110819,China)

To solve the limitation and accuracy of matrix decomposition in Collaborative Filtering (CF) algorithm, a Collaborative Filtering algorithm based on Bounded Matrix low rank Approximation (BMA) and Nearest neighbor model (BMAN-CF) was proposed to improve the accuracy of item scoring prediction. Firstly, the matrix factorization algorithm of BMA was introduced to extract the implicit feature information of sub-matrix and improve the accuracy of neighborhood set search. Then, the target users’ scores on target items were respectively predicted according to the traditional user-based and item-based collaborative filtering algorithms. And the equilibrium factor and control factor were used to dynamically balance the two prediction results, the target users’ scores of items were obtained. Finally, the data was partitioned, and the proposed algorithm was parallelized in Hadoop environment by using the characteristics of MapReduce computing framework. The experimental results show that, the BMAN-CF has higher rating prediction accuracy than other matrix factorization algorithms, and the speedup experiment shows that the proposed parallelized algorithm has better scalability.

collaborative filtering; matrix factorization; bounded matrix; nearest neighbor model; Hadoop

2017- 05- 04;

2017- 07- 10。

國家自然科學基金資助項目(61572123);國家杰出青年科學基金資助項目(61225012,71325002);遼寧省百千萬人才工程項目(2013921068);賽爾網絡下一代互聯網技術創新項目(NGII20160616)。

溫占考(1980—)，男，江西贛州人，工程師，碩士，主要研究方向:下一代互聯網、網絡安全、大數據分析；易秀雙(1969—)，男，內蒙古赤峰人，教授，博士，主要研究方向:下一代互聯網、網絡安全、大數據分析；田申申(1992—)，男，遼寧沈陽人，碩士研究生，主要研究方向:下一代互聯網、大數據分析；李婕(1981—)，女，遼寧沈陽人，副教授，博士，主要研究方向:下一代互聯網、智能路由；王興偉(1968—)，男，內蒙古包頭人，教授，博士，主要研究方向:下一代互聯網、智能路由、軟件定義網絡、網絡空間安全、大數據分析。

1001- 9081(2017)12- 3472- 05

10.11772/j.issn.1001- 9081.2017.12.3472

(*通信作者電子郵箱xsyi@mail.neu.edu.cn)

TP181；TP312