999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶興趣序列相似性度量的圖書協同過濾推薦方法研究

2019-12-16 08:17:42王剛郭雪梅
新世紀圖書館 2019年11期

王剛 郭雪梅

摘 要 論文通過用戶在一系列時間節點對所借閱圖書的評分形成用戶興趣序列,并提取用戶之間的最長公共興趣子序列(LCSIS)和所有公共興趣子序列(ACSIS),以此為基礎計算用戶之間的相似性并與傳統的協同過濾推薦方法相結合,提出了基于用戶興趣序列的改進協同過濾圖書推薦方法。將本文提出的方法和傳統的基于用戶的協同過濾推薦方法在天津醫科大學圖書館圖書借閱數據集進行實驗驗證,結果發現該方法在推薦效果上優于傳統方法。

關鍵詞 用戶興趣序列 相似性度量 協同過濾推薦 智能薦書

分類號 G250.7

DOI 10.16810/j.cnki.1672-514X.2019.11.008

Research on Book Collaborative Filtering Recommendation Based on Similarity Measurement of Users Interest Sequences

Wang Gang, Guo Xuemei

Abstract This paper forms user interest sequence through the user rating of the borrowed books in a series of time nodes, and exacts the Longest Common Sub-IS (LCSIS) and All Common Sub-IS (ACSIS) between users interest sequences. Based on this, the similarity between users is measured and combined with the traditional collaborative filtering book recommendation method, and an improved collaborative filtering book recommendation method based on user interest sequence is proposed. The proposed method is compared with the traditional user based collaborative filtering recommendation method by experiment on our library database. The experimental results show that the proposed method is superior to the traditional method in book recommendation effect.

Keywords Users interest sequence. Similarity measurement. Collaborative filtering recommendation. Intelligent book recommendation.

0 引 言

隨著互聯網技術的迅速發展,數字圖書館的信息量日益增多,瀏覽大量無關的圖書信息會使讀者浪費大量的時間,并導致信息過載現象 [1]。為了適應圖書館館藏數量快速增長的實際情況,便于用戶快速準確獲取所需館藏資源,個性化推薦服務應運而生。在圖書館個性化推薦服務所使用的技術中,協同過濾推薦方法應用最為廣泛,它通過收集眾多類似用戶的興趣來預測用戶的評分,該方法基于的假設是過去有類似興趣的用戶在未來可能有共同的興趣[2-3]。協同過濾最廣泛的處理方式是基于目標用戶最近鄰方法進行實現,它依賴于用戶之間的相似性,選擇最相似的用戶作為目標用戶的最近鄰,然后使用最近鄰的項目評分來預測目標用戶的項目評分[4],而對于用戶隨著時間變化對于項目評分的序列很少被研究,因此本文將評分序列作為研究重點。

1 相關研究

協同信息推薦系統逐漸被應用到數字圖書館中,并成為該領域的主要研究主題之一[3]。董坤提出構建基于協同過濾算法的個性化圖書推薦系統,該方法通過引入讀者專業、角色、學歷、借閱記錄等影響和反映讀者信息需求的因素構建讀者特征模型,基于該模型采用優化的協同過濾算法挖掘讀者信息需求,并產生個性化圖書推薦信息[5]。林曉霞等在研究傳統協同過濾算法的基礎上,首先利用借閱記錄中的數據構建評分矩陣,然后融合信任相似度對用戶相似度進行改進,同時引入對新生、新書推薦的解決方法,并對圖書館借閱數據集進行對比實驗[6]。宋楚平提出一種協同過濾改進方法,以圖書分類為圖書生成用戶評價矩陣,并考慮借閱方式、借閱時間和圖書相似度對用戶興趣度的影響,優化矩陣中的樣本數據;同時,在計算讀者相似度時融入讀者特征和圖書特征[7]。

對相關研究的分析中可以發現,實現圖書推薦服務相似性度量是首要工作,最常用的相似性度量方法包括皮爾遜相關系數、余弦相似性和改進余弦相似性等[8]。但是,現有的基于協同過濾的圖書推薦方法忽略了用戶對于所評分圖書的順序,而用戶所借閱圖書的評分序列對于提高推薦準確度至關重要,這是由于用戶各自的特征會導致每個用戶產生獨特的項目評分序列,此外評分序列可以反映用戶興趣和偏好的變化,這在一定程度上可以揭示用戶興趣偏好的潛在信息。因此,基于協同過濾的圖書推薦中,用戶對于所借閱圖書的興趣序列比單個項目評分包含更多的語義,這些語義可以用來分析用戶真實的動態興趣演化模式。這些動態興趣過程可以通過用戶行為序列來表示。以此為基礎本文設計了基于用戶興趣序列的用戶相似性度量方法以及目標用戶所感興趣圖書的評分預測方法。

2 基于興趣序列相似性度量的協同過濾推薦

2.1 相關定義

時間序列數據大量存在于現實世界中,主要應用于生物信息學、Web挖掘和文本挖掘等[9]。由于連續的時間序列數據的特點和時間,最長公共子序列的長度(LCS)是最常用的測量兩時間序列之間距離的指標[10]。協同過濾方法可以使用最長公共子序列為序列之間相似性的度量指標[11],但該方法忽略了其他較短公共子序列中所共有的信息,因此需要引入全部公共子序列的數量來提高序列之間相似性度量的效果。

本文提出的推薦方法是基于用戶借閱圖書的興趣序列,根據用戶借閱圖書的時間順序考慮用戶的圖書借閱行為序列。首先對所提出的推薦方法涉及的相關概念進行詳細說明。對用戶的圖書借閱行為可以通過函數形式表示,表明用戶對于圖書的興趣。令U={u1,u2,……,un}表示用戶集合,I={it1, it2,……,itn}表示圖書集合,Ts={ts1, ts2,……, tsn}表示用戶借閱圖書的時間節點。為了便于描述基于興趣序列的推薦方法,進行如下相關概念的定義。

定義1:興趣點(Interest Point,記為IP) 代表用戶某一時間節點上對某本圖書的借閱行為,它由用戶、圖書、評分和時間節點組成,記為:

其中,用戶u在時間節點tsi借閱圖書iti后歸還,產生對該圖書的評分值,記為。

定義2:興趣序列(Interest Sequence,記為IS)是根據用戶的借閱圖書時間序列來表示該用戶一系列興趣點序列,記為:

其中,ts1

基于上述定義,我們可以將所有用戶對所借閱圖書的評分數據轉化為興趣序列。與現有推薦方法不同,本文利用用戶行為分析的方法,分析用戶的獨特偏好,因為它具有比單獨用戶的項目評分更深的語義,不僅能揭示用戶的動態興趣,而且能顯示其演化模式。為了計算用戶之間的相似性,使用最長公共子序列的長度和全部公共子序列的數量,為此進行如下定義。

定義3:興趣序列匹配(Interest Sequence Match,記為ISM)給定一個用戶評分偏差約束閾值θ,以及兩個不同用戶的興趣序列中isu、isv的子序列:

當且僅當(1);(2)時,兩個子序列形成長度為j的興趣序列匹配。

在上述定義中,函數用來計算用戶u和用戶v借閱同一本圖書i產生的評分時,評分之間的偏差,記為:

鑒于不同用戶對于所借閱圖書評分尺度的多樣性,即不同用戶對于所借閱的相同圖書因滿足其個人需要的程度不同,導致借閱時長的差距明顯,進而導致評分存在明顯差異。因此,所有用戶對于所借閱圖書的評分值應規范為相同取值區間,即[0,1]。如果他們的評分偏差小于偏差約束閾值θ,兩用戶評分可以考慮相同。閾值θ取值設定越小意味著相似性約束越嚴格,但過于嚴格的相似性約束將限制推薦的效果。因此,應該根據具體的應用環境確定合理的閾值。

定義4:最長公共興趣子序列(Longest Common Sub-IS,記為LCSIS)。兩個興趣序列之間的興趣序列匹配形成的公共興趣子序列,當且僅當兩個興趣序列之間沒有其他更長的興趣序列匹配時,才是最長的公共興趣子序列。

定義5:全部公共興趣子序列(All Common Sub-IS,記為ACSIS)。計算兩個興趣序列的所有興趣序列匹配的數量,其中包括空興趣序列匹配。

通過定義4和定義5可知,當兩用戶的興趣序列之間具有更長的LCSIS和更多的ACSIS數量時,表明這兩個用戶的相似程度較高。

2.2 基于LCSIS和ACSIS的用戶相似性度量

本文從用戶興趣序列的角度出發計算用戶之間的相似度。正如上節的相關定義,用戶興趣序列使用所借閱的圖書及其評分組成的時間序列數據,按照時間順序排序,并以索引指示各個興趣點在序列中的位置。最長興趣子序列是度量時間序列數據之間相似性的重要指標。此外,當兩個用戶興趣序列之間存在較長的最長公共子序列和較多的全部公共興趣子序列數量時,用戶之間興趣偏好的相似程度較高。

分別從用戶u和v的歷史評分記錄中獲取兩個用戶的興趣序列,分別記為:isu和isv,isu長度為m,isv長度為n,令ω為(m+1)×(n+1)階矩陣。用戶u和v興趣序列之間的最長公共興趣子序列記為:lcsis(u,v),其長度計算方法如下:

當0≤i≤m且0≤i≤n時,則|lcsis(u,v)|=ω[m,n]

示例1:如表1所示,給定用戶u和v對于所借閱圖書集合Item={圖書1,圖書2,圖書3,圖書4}的評分形成的興趣序列isu和isv,令max(ruit)=max(rυit)=5.0且min(ruit)=min(rυit)=0,此外設定閾值θ=0.2,則興趣序列isu和isv間的最長公共興趣子序列為{圖書1→圖書4,圖書3→圖書4},且|lcsis|=2。

表1 用戶u和v借閱圖書評分序列

t1 t2 t3 t4

isu (圖書1,2.5) (圖書3,3.0) (圖書2,4.5) (圖書4,0.5)

isv (圖書3,4.0) (圖書2,2.5) (圖書1,3.5) (圖書4,1.5)

|lcsis|的計算過程如下所示:

興趣序列isu和isv間的全部公共興趣子序列的數量記為|acsis(u,v)|,其計算公式如下所示:

當0≤i≤m且0≤i≤n時,則|acsis(u, v)|=ω[m,n]

在最長公共興趣子序列和全部公共興趣子序列長度的計算方法中均考慮兩個用戶評分匹配項的偏差。函數用于獲取當且時,用戶v的興趣序列isv中的興趣點所在的位置x,該函數如下所示:

示例2:考慮示例1中用戶u和v的興趣序列isu和isv,這兩個序列間全部公共子序列集合為{ 圖書1, 圖書3, 圖書1→圖書4,圖書3→圖書4},則兩個興趣序列間全部公共子序列數量即|acsis(u,v)|=6,計算過程如下所示:

|acsis(u,v)| =ω[4,4]

=ω[3,4]+ω[3,4-1]

=ω[2,4]+ω[3,3]

=ω[1,4]+ω[1,1-1]+ω[3,3]

=ω[0,4]+ω[0,3-1]+1+ω[3,3]

=1+1+1+ω[2,3]

=3+ω[1,3]+ω[1,1-1]

=3+ω[0,3]+ω[0,3-1]+1

=4+1+1

=6

為了比較兩個用戶興趣序列的相似性,將|lcsis(u,v)|和|acsis(u,v)|分別進行歸一化,如下所示:

然后,引入調節因子α將上述兩個公式進行組合形成基于LCSIS和ACSIS的用戶相似性度量方法,如公式(1) 所示:

公式(1)

其中調節因子α取值范圍為[0,1],α和1-α分別表示LCSIS和ACSIS在度量方法中的各自權重,其取值的設定根據具體的應用環境而定。

2.3 建立評分矩陣

電商網站中用戶對于購買過的商品會做出評價,以此作為對該商品的評分。圖書館圖書借閱場景中很難獲得用戶對于所借閱圖書的評分,因此用戶對于圖書的評分可以通過多種因素綜合而成,其中包括以下三個方面:借閱時長、借閱形式及用戶類型。

2.3.1 借閱時長

借閱時長能夠反映出用戶對于所借閱圖書的偏好程度,借閱時長與偏好呈正相關關系,本文中的圖書借閱時長以“天”為計算單位。tui表示用戶u對圖書i的借閱天數,tmin(i)表示圖書i被借閱的最短天數,tmax(i)表示圖書i被借閱的最長時間,用戶u對圖書i的借閱時長經規范化處理后記為:

2.3.2 用戶類型

圖書館特別是高校圖書館針對不同的用戶類型賦予不同的圖書借閱時長,不同類型用戶的圖書借閱時長分別記為{d1,d2,…dn},取圖書借閱時長最短的用戶類型記為dmin=min{d1,d2,…dn},以d1t(t=1…n)表示用戶類型t的借閱因子為。

2.3.3 借閱形式

如果用戶對于某本圖書進行預約,表明該用戶對于圖書有一定了解,存在一定的興趣度。相比于預約,初次借閱圖書存在一定的盲目性,而續借圖書表明用戶在初次借閱后產生興趣。因此對于這三種不同的借閱形式賦予不同的權重值,故用戶u對于圖書i的借閱形式系數記為buj,其計算公式如下:

因此,綜合借閱時長、借閱形式以及用戶類型三個因素,可以得到用戶u借閱圖書i歸還后產生評分,得到用戶-圖書評分矩陣:

2.4 基于興趣序列相似性度量的評分預測

將基于興趣序列的相似性度量與現有協同過濾推薦算法中的傳統相似性度量相結合,引入皮爾遜相似性計算方法可以進一步改進推薦效果,因此基于用戶興趣序列相似性的度量方法如公式(2)所示:

公式(2)

其中pc(u,v)為通過皮爾遜相關系數利用用戶評分計算用戶之間的相似性,其計算公式如公式(3) 所示:

公式(3)

fIS(u,v)為權重函數,用于反映用戶興趣序列對用戶相似性的影響,其計算公式如公式(4) 所示:

公式(4)

其中,common(u,v)表示用戶u和v共同借閱的圖書數量,total(u,v)表示用戶u和v二者分別借閱的圖書總和,SimIS(u,v)表示公式(1)所示的基于LCSIS和ACSIS的用戶相似性度量方法。

在計算用戶相似性之后,對借閱過所要推薦圖書的用戶進行排序,排序規則為這些用戶與目標用戶之間的相似性降序排列,選擇排序最高的K個用戶作為目標用戶的最近鄰。對于目標用戶u,令作為推薦系統需要給目標用戶提供預測評分的圖書集合,令為借閱過所要推薦圖書的目標用戶u最近鄰集合,評分預測公式如公式(5)所示:

公式(5)

3 實驗對比與分析

為了驗證本文所提出的方法的有效性,需要通過數據進行實驗驗證,并將結果與其它的推薦方法在評估指標上進行性能比對。此外,通過實驗驗證用戶之間評分偏離約束閾值θ,以及基于最長共同興趣子序列(LCSIS)和所有公共子序列(ACSIS)進行相似性度量中的權重調節因子α對于用戶相似性度量結果的影響。

3.1 數據準備

本文在對比實驗中使用本校圖書館2018年度1月至8月的圖書借閱數據作為實驗對象,圖書借閱量共計11273條,涉及中外文圖書共計3275種。本校圖書館的用戶分為三種類型,分別為本科生、研究生以及教職工,對應的圖書借閱時間(天)為{30,45,60}。根據建立評分矩陣中的方法,計算得到用戶對于所借閱圖書的評分數據。實驗將數據集分割為訓練集(80%)和測試集(20%)。此外,為了便于實驗比對,將本文提出方法中用戶之間評分偏離約束閾值θ設置為0.8,最長共同興趣子序列(LCSIS)和所有公共子序列(ACSIS)進行相似性度量中的權重調節因子α設置為0.5。

3.2 評價標準

為了驗證實驗效果,本文在對比實驗中采用均方根誤差(RMSE)和平均絕對誤差(MAE)來驗證兩種推薦方法的推薦質量[12],其計算公式如下:

其中,u∈Users表示目標用戶,i∈upred表示目標用戶的未評分項目,表示目標用戶對于項目的實際評分,表示目標用戶對于項目的預測評分,表示目標用戶未評分項目的數量。因此,可知RMSE和MAE值越低表明推薦效果越精確。

3.3 對比分析

為了驗證本文所提出方法的性能和有效性,將該方法與傳統的基于用戶的協同過濾推薦方法和基于用戶動態信息的推薦方法進行比較。文獻[13]所提出的基于用戶的協同過濾推薦方法(記為User-Based) 是利用用戶的評分歷史計算用戶之間的相似度,然后結合相似度度量結果以及目標用戶最近鄰的評分進行評分預測。文獻[14]考慮用戶興趣的動態變化,通過引入時間遞減函數來模擬用戶的動態興趣特征實現對目標用戶的推薦,該方法記為Interest-Based。

3.3.1 RMSE和MAE結果對比

將User-Based、Interest-Based及本文方法在借還書記錄數據集上的實驗結果進行比較,并將最近鄰K值設置為{10,20,30,40,50,60,70,80}。MAE和RMSE實驗對比結果分別如圖1和圖2所示。

通過實驗結果可以發現,三種方法中User-Based推薦精度最差,本文提出方法的推薦精度最高。當K=10時,三種方法的推薦精度均最低,隨著K取值提高,三種方法的推薦精度逐步提高。其中,K提高至20時推薦精度提高程度最大。當K=30時,本文所提出方法的推薦精度達到最高;當K>30時,其他兩種方法推薦精度提升程度降低,且隨著K取值增大,推薦精度保持平穩;而本文所提出的方法在K>30情況下,推薦精度略微下降,這種情況說明最近鄰數量的提高對于本文所提出的方法有著細微的影響,但總體的推薦精度仍然優于另兩種方法。

3.3.2 參數θ和α對相似性度量結果的影響

為了評估最長公共子序列和所有共同興趣子序列對推薦結果的影響,在該部分實驗中為評分偏離約束閾值θ,以及基于最長共同感興趣子序列(LCSIS)和全部公共子序列(ACSIS)進行相似性度量中的權重調節因子α設置不同的取值。其中,θ取值為{0.2,0.5,0.8}分別表示用戶之間評分的偏差弱、中、強約束,同時將α取值設置為{0.2,0.5,0.8},表示在進行用戶相似性計算時,LCSIS和ACSIS各自所占權重。預期結果應該是隨著θ和α取值不同會導致不同的相似性度量結果,但是通過實際的實驗結果發現,推薦精度幾乎保持不變。其原因在于,用戶對于項目的評分歷史具有較高的稀疏性。因此,最長公共子序列的長度和全部公共子序列的數量不會隨著θ和α取值發生顯著變化。

4 結語

傳統的基于協同過濾技術的圖書推薦方法中通常關注于用戶對于所借閱圖書的靜態評分,而忽略了用戶隨著時間變化對于所借閱圖書評分順序。但是,用戶對于所借閱圖書的評分序列可以反映用戶興趣和偏好的變化,用戶興趣序列可以揭示用戶興趣偏好的潛在信息。針對這一問題,本文首先引入最長興趣子序列和全部興趣子序列這兩項指標,并給出了指標的規范化定義。其次,將這兩項指標應用于用戶之間興趣序列相似性度量,結合基礎與傳統的協同過濾推薦方法產生目標用戶所感興趣圖書的評分預測。最后,將本文提出的方法與其他兩種推薦方法在本校圖書館圖書借閱數據集進行實驗驗證,通過對比實驗驗證引入用戶興趣序列在提高推薦精度方面的有效性。

參考文獻:

[1] 朱白.數字圖書館推薦系統協同過濾算法改進及實證分析[J].圖書情報工作,2017,61(9):130-134.

[2] 鄧愛林,朱揚勇,施伯樂.基于項目評分預測的協同過濾推薦算法[J].軟件學報,2003(9):1621-1628.

[3] 吳志強,馬慧娟.協同信息推薦技術及其在數字圖書館中的應用研究述評[J].圖書情報工作,2012,56(19):122-127.

[4] 榮輝桂,火生旭,胡春華,莫進俠.基于用戶相似度的協同過濾推薦算法[J].通信學報,2014,35(2):16-24.

[5] 董坤.基于協同過濾算法的高校圖書館圖書推薦系統研究[J].現代圖書情報技術,2011(11):44-47.

[6] 林曉霞,劉敏,楊曉東,徐堯.融合信任相似度的高校圖書館個性化推薦研究[J].數字圖書館論壇,2018(8):14-19.

[7] 宋楚平.一種改進的協同過濾方法在高校圖書館圖書推薦中的應用[J].圖書情報工作,2016,60(24):86-91.

[8] Lu Z, Dou Z, Lian J, et al. Content-Based Collaborative Filtering for News Topic Recommendation[C].In: Procedings of the twenty-Ninth AAAI Conference on Artificial Intelligence. Austin Texas, USA, 2015:217–223.

[9] ?Deorowicz S, Obstoj J. Constrained Longest Common Subsequence Computing Algorithms in Practice[J]. Computing & Informatics, 2010, 29(3):427-445.

[10] 李曉靜,張曉濱.基于LCS的用戶時空行為興趣相似性計算方法[J].計算機工程與應用,2013,49(20):251-254.

[11] 汪彥紅,楊波,胡玉鵬.個性化推薦推薦系統中基于WEB的挖掘[J].計算機系統應用,2011,20(10):67-70,119.

[12] 于金明,孟軍,吳秋峰.基于改進相似性度量的項目協同過濾推薦算法[J].計算機應用,2017,37(5):1387-1391,1406.

[13] Su X, Khoshgoftaar T M. A Survey of Collaborative Filtering Techniques[M]. Hindawi Publishing Corp. 2009.

[14] Cheng J, Liu Y, Zhang H, et al. A New Recommendation Algorithm Based on Users Dynamic Information in Complex Social Network[J]. Mathematical Problems in Engineering,2015,(2015-3-29), 2015, 2015(9):1-6.

主站蜘蛛池模板: 亚洲国产理论片在线播放| 欧美日韩激情在线| 五月天在线网站| 久久久久久久久18禁秘| 免费看一级毛片波多结衣| 2021亚洲精品不卡a| 亚洲自偷自拍另类小说| 日韩免费成人| 92精品国产自产在线观看| 欧美成人免费一区在线播放| 欧美性天天| 欧美日在线观看| 无码一区二区波多野结衣播放搜索| 福利一区在线| 日韩第八页| 成人毛片免费在线观看| 98精品全国免费观看视频| 国产精品亚洲专区一区| 亚洲日韩欧美在线观看| 日韩欧美网址| 国产成人精品在线1区| 中文字幕有乳无码| 精品久久久久久久久久久| 91色在线观看| 欧洲一区二区三区无码| 欧美精品三级在线| 在线无码av一区二区三区| 天天爽免费视频| 久久特级毛片| 亚洲Av激情网五月天| 国产理论最新国产精品视频| 2021国产精品自产拍在线| 青青极品在线| 国产呦视频免费视频在线观看| 女人18毛片水真多国产| 亚洲,国产,日韩,综合一区| 亚洲娇小与黑人巨大交| 亚洲一级色| 国产丝袜啪啪| 亚洲精品片911| 日韩视频福利| 91九色最新地址| 欧美成人手机在线视频| 午夜欧美理论2019理论| 美女高潮全身流白浆福利区| 国产成人一区免费观看| 欧美日本视频在线观看| 国产精品亚洲综合久久小说| 91精品视频播放| 久久婷婷色综合老司机 | 日韩欧美网址| 亚洲第一色网站| 久久婷婷国产综合尤物精品| 日韩精品一区二区三区swag| 99视频精品在线观看| 一级片一区| 福利视频一区| 国产一在线观看| 99久久精品免费观看国产| 综合亚洲网| 三级国产在线观看| 国产福利一区二区在线观看| 国产精品亚洲一区二区三区z| 国产真实乱子伦视频播放| 国产在线精彩视频论坛| 欧美日韩亚洲国产| 黄色a一级视频| 久久99这里精品8国产| 国产色图在线观看| 国产成人综合日韩精品无码首页| 欧美成人区| 色成人亚洲| 成人福利在线视频| 青青久久91| 亚洲精品777| 青青操视频在线| 高清码无在线看| 少妇被粗大的猛烈进出免费视频| 欧美性久久久久| 亚洲激情99| 色九九视频| 日韩在线2020专区|