引言:計算機系統中的信任問題長期以來都倍受國家、學術界和企業界的關注。本文參考社會學和心理學將人與人之間信任的產生來源分為三個方面:外部來源、交互來源和內部來源,并提出一種層次化的信任度計算模型,該模型可以根據不同類型的用戶調整不同來源的信任在整個模型中所占的比例。最后,利用Epinions網站的相關數據對模型進行了驗證。
本文參考社會學和心理學將人們之間信任的產生來源分為三個方面:外部來源、交互來源和內部信任,如圖 1.1所示。外部信任是由于當前用戶在公共環境中的聲譽而使得其他用戶對其產生的信任,它是一種全局信任,獨立于單個用戶。交互信任是系統中用戶之間的交互所產生的信任關系,這是一種本地信任度。內部信任,是由于兩個人之間內在的相似性(如愛好等)產生的信任關系。
圖 1.1 分層信任模型示意圖
1基于層次的信任度計算模型
本文提出基于層次的信任度計算模型如(1.1)所,其中Reputation表示外部信任,InteractiveTrust表示交互信任,Similarity表示內部信任。a,b,c是加權平均系數,滿足a+b+c=1。這三個系數分別應對不同類型的用戶:冷啟動用戶、常規用戶,爭議用戶。
(1.1)
在本文接下來的篇幅中將詳細介紹三種信任的計算方法以及a,b,c三個參數對于不同用戶的取值情況。
1.1外部信任
本文使用的PageRank算法來計算外部信任。PageRank將指向一個網頁的鏈接看成是對于這個網頁的投票,本文將這種鏈接稱之為回指鏈接,而將一個網頁指向其他網頁的鏈接稱之為外向鏈接。例如在圖 2.1中,將用戶看作是網絡中的結點,將用戶之間的信任關系看做他們之間的信任,對于用戶A來說,從其他用戶到用戶A的鏈接如(B->A)等都是用戶A的回指鏈接;而從用戶A到其他用戶的鏈接如(A->B)等都是用戶A的外向鏈接。
圖 2.1 信任網絡初始狀態示意圖
PageRank在計算網頁排名的時候不單單考慮了網頁的回指鏈接的數量,更重要的是它還考慮了回指鏈接源網頁的價值。也就是說,一個高等級的頁面可以讓它所指向的低等級的頁面的等級提升。PageRank中,一個頁面的重要性是由鏈向它的所有頁面的重要性經過遞歸算法得到的,如等式(2.2)所示是RageRank的數學表達式:
(2.2)
Reputation(u)表示用戶u的信譽度,Bu表示指向用戶u的所有用戶的集合,Nv表示以用戶v為源用戶的所有鏈接的數目,也就是用戶v的外向鏈接數。
1.2交互信任
本文使用MoleTrust來作為度量交互信任值的算法,之所以選擇MoleTrust有兩個原因:1. 它具有省時高效的特點;2. 該算法對信任的計算是按照層次順序進行的,這與我們的社交習慣非常類似。接下來將詳細介紹MoleTrust的計算過程及其缺點以及對MoleTrust的改進措施。
1.2.1MoleTrust
MoleTrust的整個計算過程可以分為兩步完成:1.從源節點出發遍歷整個信任網絡,去除網絡中多余的信息和循環信任,構造一個單向無循環的信任網絡;2.在第一步的基礎上,從源節點出發開始傳播信任值,計算當前用戶對于網絡中其他用戶的信任。如Step 1和Step 2所示,是MoleTrust的具體運算過程:
MoleTrust的Step 1過程有一個非常重要的參數:trust_propagation_distance,該參數用來控制信任傳播的距離。圖 2.1經過MoleTrust的Step 1階段后得到圖 2.2所示信任網絡。將該信任網絡視為一個有向圖,在圖的第0層是當前用戶A,第1層,為用戶A的直接朋友,以此類推。
圖 2.2 經MoleTrust的Step 1后的信任網絡
在MoleTrust的Step 2階段,同樣有一個非常重要的參數:trust_threshold。只有信任值大于trust_threshod的用戶才會被加入到信任網絡中,該策略可以有效防止惡意用戶對于推薦系統的影響。
1.2.2Modified MoleTrust
MoleTrust在計算信任值的過程中存在一個很大的漏洞,如Tr(A,G)=7,但這和我們的直覺是相悖的,因為G的上層用戶C的信任值只有3。為了彌補上述漏洞,本文提出一種修正的MoleTrust:Modified-MoleTrust。本文在在MoleTrust的Step 2階段引入一個遞減因子ω,其計算方式如等式(2.5)所示。
1.3內部信任
本文認為用戶對項目的評分是用戶內部屬性的綜合體現,所以本文選擇用戶對項目的評分矩陣來作為內部信任的計算依據。有學者證明了在眾多衡量用戶相似性的指標中,Person相關系數的綜合表現最好,所以本文選擇Person相關系數作為內部信任的衡量指標。
Person相關系數的取值范圍是[-1,1],若Person相關系數的取值為正,則說明兩個用戶之間存在著相似性,反之當其取為負時說明兩個人之間的興趣可能是相悖的。Person相關系數的計算公式如等式(2.6)所示。其中n表示用戶A和用戶W共同評分的項目數,r(K,i)表示用戶K對項目i的評分。
2實驗結果說明
本文利用Epinions網站的數據和Apache的Mahout平臺對所提出的模型進行了驗證。面對不同類型的用戶,對參數進行調整后,該模型總能得到較為理想的推薦準確度和覆蓋率,具體數3結束語
本文提出了一種基于層次的信任度計算模型,并做了相應的實證研究,該模型能在很大程度上改善用戶的體驗。我們接下來的研究方向將是進一步優化該理論模型,并且在Apache的Hadoop平臺上實現分布式、實時性的推薦模型。
(作者單位:首都經濟貿易大學)