魏思怡 陳鵬 胡正凱

摘? ?要:隨著網絡的飛速發展,交友網站大量涌現,為快節奏的單身男女提供了廣闊的交友平臺。本文在考慮現實交友的審美觀、門當戶對觀的基礎上,采用融合算法, 融合了基于內容的Bayes推薦與基于用戶的KNN協同過濾兩種方法,構造了有效的評分排序模型,能夠為用戶推薦適合的交友對象。通過使用美國某大型交友網站的用戶數據,驗證了該模型的精度。經計算得出上述融合模型NDCG@20值高于單一方法精度,能有效地避免過擬合問題,提高了推薦精度。
關鍵詞:融合算法;Bayes;KNN;協同過濾;交友推薦
1? 引言
隨著網絡時代的飛速發展,各種交友網站層出不窮。研究國內多數交友網站發現,很多網站為吸引客源,追求快速匹配,基于用戶的少量特征簡單分類,無法有效處理大批質量參差不齊的用戶信息,導致用戶間成功配對率很低,無法有效的配對交友。因此,本文設計了一套合理有效的算法,在學歷、經濟水平、地域范圍推薦的基礎上,根據用戶的興趣偏好推薦其適合的交友對象,以期提高用戶的交友成功率。
2? 模型建立
2.1? 評價指標
交友網站主要關注用戶的交友成功率及準確性兩方面[1]。針對實際情況采用Normalized Discounted Cumulative Gain(NDCC)作為評價標準,定義如下:
其中DCG是根據已給評分排序后計算推薦精度的指標,如果所給評分較理想,能準確預測用戶A對于所推薦用戶的偏好排序,則此時DCG為IdealDCG。
2.2? 基于內容的交友對象推薦
基于內容的推薦[2]主要通過選取候選用戶的一些特征指標,計算用戶對其興趣得分。考慮到實際生活中的交友情況并結合美國大型交友網站eHarmony上的用戶信息初步劃分以下影響用戶產生關注及通信的因素有:候選用戶的受歡迎程度:用戶的頭像和昵稱;用戶和候選用戶之間的匹配度,如年齡、學歷、收入等;網站推薦功能。
將用戶與候選用戶之間的關注或通信作為事件的發生,變量[XA]表示用戶A是否產生關注或通信,變量[YB]表示候選用戶B是否被關注或有通信。計算用戶A對候選用戶B產生關注或通信的概率,據此對候選用戶B進行排序:
Step1:計算P([YB]=1),即候選用戶B被關注或產生通信的概率,主要依賴于候選用戶B的個人魅力或流行度,統計候選用戶B的個人流行度并定義下列函數計算此概率:
式中,分子為候選用戶B被關注或產生通信的次數,分母為推薦用戶A的候選用戶B人數,[ω1],[ω2]為平滑參數。
Step2:計算P([XA]=1|[YB]=1),通過計算用戶的收入差距及候選用戶B的流行度計算候選用戶B被關注或通信對象為用戶A的概率。
由數據分析得:所有用戶對收入的要求符合正態分布,呈現中間高兩邊低的規律。同時男女用戶的偏好也呈現不同趨勢,男性用戶普遍偏左,而女性用戶普遍偏右,因此設置男女收入差距系數[ω3],[ω4]。同時,因為被推薦次數多的候選用戶被關注和通信次數遠多于被推薦次數少的候選用戶,設置被推薦次數系數[ω5]。
2.3? 基于用戶的協同過濾
基于用戶的協同過濾思想主要是通過計算用戶之間的相似度,找到與用戶興趣偏好相似的用戶群,根據用戶群對候選用戶的評價進一步確定用戶的吸引度得分,根據得分排序候選用戶。根據交友網站分別給用戶[A1]、[A2]推薦的候選用戶集合的相似程度定義用戶之間的相似性:
2.4? 融合算法
融合以上兩種方法可從多個角度為用戶推薦最適合的交友人選,有效避免了單一方法的局限性可有效避免過擬合現象。采用加權投票算法將兩種算法分別所得NDCG@20值作為排序權值,得到加權排序序列,再次計算排序序列NDCG@20值。
3? 結果驗證與檢驗
通過調節相應參數和權重,分別計算:采用Bayes算法計算得基于內容交友推薦的NDCG@20值為0.24844,采用KNN算法計算得基于用戶協同過濾的NDCG@20值為0.21356,融合算法計算得出NDCG@20值為0.25168,充分說明利用融合算法計算的合理性。
4? 結論
本文基于現實交友狀況與某大型交友網站的真實數據,提出了融合基于內容和基于用戶兩種推薦模型的融合算法,可有效地減少由于交友信息的龐大復雜造成的誤差,幫助用戶找到適合的交友對象,具有較高精度。模型結合審美觀、門當戶對觀念等社會婚戀觀,多重考慮IDF思想和推薦次數,實現網站的智能推薦。同時發現基于內容的推薦結果優于基于用戶的協同過濾結果,說明在交友網站上用戶的個人魅力所占權重更大。
參考文獻:
[1] Burke R. Hybrid recommender systems: Survey and experiments[J].User modeling and user-adapted interaction,2002(4):331~370.
[2] 許海玲,吳瀟,李曉東,閻保平.互聯網推薦系統比較研究[J].軟件學報,2009(2):350~362.