999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多源數據融合視角下的智慧圖書館個性化推薦方法*

2022-03-21 06:20:00
圖書館論壇 2022年3期
關鍵詞:關聯智慧圖書館

葉 穎

0 引言

在經歷計算機圖書館、網絡圖書館、數字圖書館以及移動圖書館等階段的發展后,圖書館來到了智慧時代[1]。伴隨新技術的迅速發展,智慧圖書館逐漸由理論構想走向實踐,圖書館數據處理的策略也由收集數據、轉換數據、發布數據演化為數據的融合與重構。智慧圖書館生態體系涌現出大量多源、異構、動態的數據,這些數據需要經過清洗、加工和融合,對其中的內容特性、屬性特征、時空特征等進行關聯、挖掘、發現和表達,才能真正實現生態鏈整合,發揮智慧圖書館框架的優勢。信息資源推薦作為圖書館智慧服務的重要組成部分,是圖書館開展個性化適應性服務的關鍵[2],也是用戶體驗智慧圖書館的首要內容。如何全方位地利用智慧圖書館生態鏈中各環節的數據,是圖書館智慧服務的核心環節,也是智慧圖書館改善用戶體驗的驅動力。基于此,文章從多源數據融合的視角出發,以智慧圖書館生態鏈各環節產生的用戶數據為切入點,匯聚與融合異構數據中的共同特征,依據數據間的關聯關系進行重構,使用相似度計算等方法進行個性化推薦。通過多類型用戶數據,精確把控用戶對于圖書館推薦服務的需求,同時利用動態數據實時調整推薦結果,提供智慧圖書館服務的新體驗。

1 相關研究

當前有關圖書館信息資源推薦的工作與研究主要分為兩類:一類是面向范圍群體的閱讀推廣,另一類是面向用戶個體的個性化推薦。前者的主要作用是激發大眾使用圖書館資源的興趣、傳播知識、提升群體信息素養,以充分利用圖書館的資源優勢;后者主要是為圖書館用戶精確推薦所需資源,滿足其知識需求,發揮圖書館的資源優勢。張微[3]認為閱讀推廣應遴選經典作為推薦的主要內容,對群體特征的考量應大于個體特征,以引導讀者閱讀為主要目標,推薦資源主要由人工綜合各類考量因素進行選取。茆意宏[4]探討數字閱讀推廣的理論基礎及實踐方法,認為數字閱讀推廣能夠改進資源提供者與用戶間的關系,提升用戶使用圖書館各類服務的意愿與效率。Elliott[5]指出閱讀推廣是圖書館的基本服務,對讀者來說,參與閱讀推廣活動是對圖書館資源推薦的一種響應,相比于借閱更能反映出讀者對圖書館資源的需求。針對讀者個體進行個性化推薦的研究集中在讀者與圖書館交互數據的挖掘與分析中,利用各種推薦算法實現資源的推送。Tewari等[6]利用圖書館資源的內容特征,結合內容過濾、協同過濾和關聯規則挖掘等方法計算資源相似度,進行圖書資源的推薦。Vaz等[7]從讀者屬性角度進行分析,將背景相似的讀者進行聚類,利用相同聚類中讀者不同的借閱數據進行資源推薦。Sohail等[8]使用大眾標簽法對資源進行標注,通過標簽間的相似度關聯相似資源,完成書目資源的推薦。李曉敏等[9]從用戶數據出發,利用標簽相似度算法對相似讀者和相似圖書進行融合計算,實現基于用戶畫像的圖書推薦。上述研究表明,圖書館信息資源推薦研究多圍繞著資源使用所產生的日志數據;然而,閱讀推廣、座位管理、空間預約等多種新型服務系統中產生的有關數據同樣能描繪用戶特征,反映用戶行為特征,但由于異構、非結構化、采集困難等原因,未能在用戶的個性化推薦服務中發揮相應作用。智慧圖書館架構中的互聯互通、全流程智慧化管理[10]為用戶數據的融合與重構提供了框架基礎,應用智慧圖書館生態系統對數據流動機制進行分解,能夠挖掘數據、用戶、資源、服務間的關聯關系,解構不同的數據特征,挖掘用戶屬性及行為特征,獲取資源內容與語義特征,引導服務推進[11],實現圖書館信息資源智慧推薦的目標。

2 融合多源數據的智慧圖書館個性化推薦框架

智慧圖書館的目標是利用智慧化分析方法對資源進行解構,并使用信息網絡提供全方位的智慧服務[12]。智慧圖書館的基礎是對人、資源、空間三要素在智能化應用的大背景下進行融合與重構,其核心是滿足人即用戶與管理者的需求[13]。三要素是指導圖書館現有系統向智慧圖書館生態系統演進的核心元素,三要素的出現為系統數據的融合與重構提供了頂層設計,而智慧圖書館下的用戶需求為個性化推薦提供了目標。文章對三要素分類下的子系統以服務、資源、空間三大框架進行數據融合,依據用戶關聯關系、資源關聯關系、用戶-資源關聯關系三維度,按照智慧化的個性化推薦方法進行重構,構建面向智慧圖書館用戶需求的信息資源個性化推薦框架,如圖1所示。

圖1 多源融合視角下的智慧圖書館個性化推薦框架

2.1 多源數據的融合

圖書館擁有眾多信息系統,這些系統中的數據通常都在獨立運行。由于數據格式、存儲方法的差異,以往的信息資源推薦研究往往圍繞單一系統而進行,數據來源單一,推薦方法難以推廣。根據智慧圖書館生態的三類基本要素,文章將現有圖書館系統歸并為三大類,分別是面向“人”要素的服務管理子系統,面向“資源”要素的資源管理子系統,面向“空間”要素的空間管理子系統。服務管理子系統主要提供用戶與圖書館進行的交互數據與背景信息數據,如閱讀推廣活動平臺中用戶參與的評論、推薦內容等非結構化數據和用戶注冊時提供的專業、年齡、性別等能對用戶進行差異化區分的個人信息數據。資源管理子系統提供圖書館資源流動情況的總覽,如圖書館管理系統中的讀者借閱數據記錄的是資源流通信息,而系統中存儲的書目題名、中圖分類號、關鍵詞等則是資源內容的數據。空間管理子系統反映的是圖書館空間的使用情況,如選座系統中的用戶在館時長、門禁系統中的用戶入館時間、頻率等,能夠從時間維度體現空間使用情況,而用戶對于閱覽室座位的選擇、不同分館的進館數據等則可以從空間維度反映用戶位置。三類子系統均提供圖書館不同信息系統間數據歸類合并的方法,為數據的融合提供了參考依據。而后,需要對同類型系統中的數據進行匯總,并進行不同子系統間數據關聯關系的構建,實現系統間的數據交換,完成數據的融合。

2.2 多源數據的重構

數據的重構是數據間不同形態的轉換,通過提取不同類型數據中的共同特征,能夠實現多源和異構數據的聯接,重構后的數據能夠進行統一的計算,更全面地描繪相關工作的特征。文章從3個維度對融合后的數據進行特征挖掘,分別是用戶行為特征、資源內容特征和用戶信息特征。

用戶行為特征是進行用戶相似度計算的基礎,行為相似的用戶可以被認為存在一定的關聯性,同時根據用戶的資源使用行為能夠構建其與資源的關聯關系,而使用過同一資源的用戶也能夠通過其在不同資源中的借閱行為構建資源間的關聯。資源內容特征可以直觀反映資源間的相似程度,喜好同一資源的用戶可能存在相似的特征,因此資源內容能夠與用戶標簽建立起用戶與資源間的關聯關系。用戶信息特征數據能夠為用戶相似度、資源相似度計算提供用戶的自然屬性信息,并能從內容上將用戶與資源進行關聯,提供信息資源推薦的基礎數據。

作為個性化推薦的重要依據,相似度理所應當成為數據重構的目標。文章將用戶特征與資源內容特征進行融合,分別進行用戶相似度和資源相似度計算。資源相似度計算的主要目的是,根據用戶使用資源情況進行相似資源的推薦,為用戶對資源的深度利用提供幫助。而用戶相似度計算的主要目的是,建立用戶層面的關聯關系,利用相似用戶使用資源的情況進行推薦,從而拓寬用戶接受資源的廣度,在類似用戶群體中挖掘共同的興趣點并推薦給目標用戶。

2.3 多種類個性化推薦

單一系統下僅能針對系統中已有的資源進行個性化推薦,然而,本文所融合與重構的數據來源于多種信息系統,其中,服務管理子系統數據多來自于用戶輸入,擁有著較大的自由度與開放性。因此,在進行館藏資源推薦之時,可以將用戶推薦的網絡信息資源通過相似度計算推送給其他用戶,拓寬個性化推薦的資源范圍。這既包含即時更新的網絡信息資源,也包含圖書館尚未采購的新出版物,也可以是音頻、視頻等多元化的信息資源,是圖書館封閉體系推薦方法所不具備的特性。同時,結合時空數據能夠為用戶推薦可能感興趣的閱覽室,發揮圖書館資源分類排架聚合的效應。推薦用戶前往指定位置,可增加用戶獲取相關資源的可能性,從而充分利用圖書館在資源管理中的質量與模式優勢。

3 融合多源數據的智慧圖書館個性化推薦實驗

為了驗證多源融合視角下的智慧圖書館個性化推薦方法對于圖書館資源個性化推薦的實際效果,文章以中南財經政法大學智慧圖書館系統數據為例,將多系統數據進行融合與重構,開展個性化推薦實驗。實驗數據包括服務管理子系統中“閱跑中南”第一季及第二季的閱讀推廣活動用戶參與數據13,285條、資源管理子系統中2018-2019年的圖書借閱數據478,982條、空間管理子系統中2018-2019年用戶座位使用時間記錄18,682條。

3.1 用戶相似度計算

本文從各子系統中分解代表用戶行為特征的數據,利用用戶評論內容的相似性、用戶在館時長與借閱數的相似性,對用戶背景信息(如專業、年級等)進行聚類,并加入相應權重計算相似度。用戶評論內容的相似性數據來源于閱讀推廣活動中參與用戶對書目、視頻、音樂等資源的評論數據,在內容的提取上,文章對文本進行分詞后采用LDA主題模型進行主題識別。LDA模型是一種三層貝葉斯概率模型[14],用于文檔、詞項、主題的分析:假設所有的文檔中有一定數量的隱含主題,通過一定概率抽取主題,然后再從選定主題中抽取特征詞,通過預設的迭代次數得到足夠的特征詞[15]。文檔中包含特征詞的概率為:

由于用戶評論通常為短文本,如果直接利用主題關鍵詞共現來計算,評論相似度會由于數據的稀疏性導致無意義結果較多。因此,需要根據內容對用戶評論進行分類,利用類別間的相似度作為用戶相似度的代替結果。文章將所有評論數據匯總,進行文檔集合的困惑度[16]計算,決定最優主題數,計算公式為:

其中p(w),代表測試集中每一個詞的出現概率,N表示測試集。文章取關鍵詞數k=20,計算主題數為1至20間的困惑度,選擇最低值作為主體分類個數的依據。由圖2的困惑度計算結果可知,評論集合可以分為8個主題集合。

圖2 用戶評論集合困惑度計算結果

在分類主題關鍵詞集合的計算中,設置主題個數為8,每個主題下的關鍵詞個數為20,迭代次數100,進行主題關鍵詞的獲取。最終得到8類主題及其關鍵詞,結果如表1所示。

表1 用戶主題-關鍵詞分類結果

文章將用戶評論關鍵詞與不同主題下的關鍵詞進行耦合,將耦合成功的關鍵詞在當前主題中的權重進行加權計算,選取其中的最大值作為用戶主題相似度。計算公式如下:

在館時長反映了用戶對圖書館空間的使用情況,而借閱數量反映的是圖書館資源的使用情況,綜合兩類數據可以從整體角度分析用戶使用圖書館的特征。文章將用戶借閱圖書的總數作為X軸,將用戶在館時長作為Y軸,映射至二維空間中。鑒于二維空間映射的特殊性,如果以部分位于圖像中間位置的用戶為檢索入口進行相似度計算,那么由于X軸和Y軸附近用戶的歐式距離相近,會導致這兩類用戶具有同樣的相似度。但從實際角度來看,只使用圖書館空間而不借閱圖書的用戶和只借閱圖書而不使用圖書館空間的用戶在特征上具有本質的區別。為避免上述情況的出現,文章利用K-means算法對映射至二維空間中的(用戶數據)節點進行聚類。經過對比,最終選擇k=7作為聚類個數,得到圖3所示的時空數據聚類結果。其中,X軸代表用戶的圖書借閱總量,單位為本;Y軸代表用戶在館時長,單位為天。以與各聚類團體中心點間的歐式距離作為時間-資源分類下用戶使用行為相似度的計算依據,算式為:

圖3 用戶行為數據聚類結果

其中,distmax(A,N)代表檢索入口用戶所在聚類與最不相關聚類間的歐式距離,dist(A,B)代表檢索入口用戶與其他用戶所在聚類間的歐式距離。

在用戶信息的融合上,文章提取用戶的年級、專業等數據,進行讀者背景信息相似度計算。若檢索入口用戶的某一項背景信息與其他用戶相同,則該項為1,否則為0;然后根據所有背景信息的相關情況計算用戶背景相似度,即:

計算過程如圖4所示。

圖4 融合用戶相似度的計算過程

3.2 資源相似度的計算

在服務管理子系統中,用戶評論既是用戶發表的評論也是用戶對于其所推薦資源內容的理解,將用戶發表的評論進行匯總可以挖掘用戶間的相似性。同樣,將有關資源獲得的評論進行匯總可以挖掘資源間的相似性。文章依據上文所述用戶主題相似度計算方法,將資源關鍵詞與主題關鍵詞進行耦合,將耦合成功的關鍵詞在當前主題中的權重進行加權計算,選取其中的最大值作為資源內容相似度。計算公式如下:

資源相似度的另一來源是《中國圖書館分類法》。它使用字母與數字的混合號碼從左到右排列,從而形成具有層次性的樹形結構。中圖分類號越接近,資源相似度越高。書目在資源管理子系統中的相似度計算公式見下:

D(A,B)代表兩種圖書間分類號最接近的父節點的高度,D代表分類樹的總高度。融合資源相似度公式見下,計算過程如圖5所示。

圖5 融合資源相似度的計算過程

3.3 用戶-資源關聯構建

構建用戶與資源間的關聯關系,是完成多源數據融合視角下個性化推薦的關鍵。文章將服務管理子系統中用戶在閱讀推廣活動中推薦的信息資源以及資源管理子系統中用戶借閱圖書的記錄進行融合,構建用戶與信息資源間的關聯關系。

在關系的構建上,以圖模型G=(V,E)來表示用戶與資源間的關聯關系,V表示用戶與資源,E表示用戶-資源關聯關系。如果用戶多次借閱或推薦信息資源則E的值會隨次數的增加而增長,也會在后續的推薦結果中占據更大的權重。構建用戶與資源的關聯關系后,面向目標用戶從用戶相似度與資源相似度兩方面獲取推薦資源,完成融合視角下的個性化推薦,推薦過程如圖6所示。

圖6 融合視角下的資源推薦過程

3.4 個性化推薦結果

(1)融合用戶相似度。融合用戶相似度計算,需要將用戶的三類相似度結果進行加權平均。首先,計算用戶主題相似度。文章以系統編號“172104012”的用戶為例,進行多源數據融合的個性化推薦實證研究。該用戶在服務管理子系統中提交了閱讀推廣活動的推薦書目《法律思維與民法實例》。根據其評論數據,使用LDA主題模型抽取到的前20個主題關鍵詞分別為:“法律(0.024)、規范(0.011)、民法(0.007)…教材(0.003)、過程(0.003)”,與本文表1中8類主題中的主題2(法律)相似度最高;經過歸一化計算后,與屬于主題2的用戶主題相似度為1,排名第二的為主題1(政治),相似度為0.71。隨后,計算用戶背景相似度。經過對智慧圖書館各管理系統用戶信息的統籌考慮,文章選擇用戶的教育層次、年級、性別、專業4個方面進行背景相似度的計算。教育層次分為三類:本科、碩士、博士,與之分類相同的用戶該項取值為1,否則為0;年級、性別采用同樣的分類計算方法;專業相似度計算則采用類似資源分類相似度的計算方法,依據教育部專業分類目錄按科別、類別、專業名稱的樹形結構進行計算,用戶處于同一最小分類則相似度最高。本研究中,確定推薦目標用戶的教育層次為本科,年級為二年級、性別為女、專業為人文社會科學法學類下的涉外經貿法專業,與其他用戶遍歷進行背景相似度的計算。最后,計算用戶行為相似度。目標用戶在數據統計時間段內借閱圖書7本,在館時長10.5天,屬于行為數據聚類結果中的黃色分類,因此與同在黃色分類中的用戶的行為相似度為1。

(2)融合資源相似度。計算融合資源相似度,需要從與用戶具有關聯關系的資源的內容和分類兩方面切入。首先,確定用戶推薦的信息資源或借閱書目是否擁有評論數據,通過評論找出同一分類下的資源;然后,計算這些候選資源在中圖分類法下的相似度,得到用戶關聯資源的相似度指標。以《法律思維與民法實例》為例,其用戶在服務管理子系統中推薦的書目經計算具有相同分類特征的有《通過法律的社會控制》《尋找法律的印跡》《中國法律與中國社會》《法律職業的精神》等,相似度均為1;而且,其中圖分類號為DF504,其他4種文獻資源分別為C51、DF091、DF092、DF53。因此,本例中的圖書與其他4種文獻資源的融合資源相似度分別為0.6、0.7、0.7、0.8。

(3)推薦結果。通過融合用戶相似度與融合資源相似度的計算,得到基于相似用戶的推薦結果和關聯資源,以及基于相似資源的推薦結果及其相似度。為了突出本文方法對圖書館未收錄信息資源的推薦能力,特別將計算結果中館藏未收錄的資源單獨列出,排名前五的資源如表2所示。

從表2可發現,依據關聯資源進行個性化推薦的書目內容與專業基本保持一致,與用戶所在的涉外經貿法專業內容較為相符,說明本文方法圍繞用戶關聯資源進行相似度計算,能夠準確推薦與用戶當前使用資源相關的書目資源。在相似用戶的推薦中既有同年級同專業的用戶也有其他年級其他專業的用戶,說明該方法圍繞用戶特征進行分類,能夠發現具有共同興趣愛好但處于不同背景下的用戶,從而拓寬個性化推薦的范圍,挖掘具有關聯關系的對象。此外,資源推薦結果展現出多樣性的特點,為用戶拓展資源、開闊視野提供了幫助。特別需要注意的是,非館藏資源的推薦結果。由于該類信息資源沒有經過編目,無法借閱,因此其融合相似度計算結果相對較低,無法在總推薦排名中占據前列;但將其單獨統計后能夠為用戶推薦更大范圍的信息資源,符合智慧圖書館生態鏈中信息資源開放性、包容性的特點,還可以為圖書館的資源薦購工作提供有意義的參考。

表2 多類型推薦的相似度計算結果(部分)

4 結語

隨著智能技術的推廣及應用,智慧圖書館已經從框架概念的構建走向實踐。物聯網、云計算、智慧化技術與設備在實現圖書館智能化和自主化的管理的同時,也產生了大量復雜且異構的運行數據。作為完善智慧圖書館服務的必要條件,如何充分利用這些數據成為搭建圖書館智慧服務拼圖的重要組件。文章將智慧圖書館框架下的多源用戶數據與資源信息數據按照空間、資源、服務三要素的宏觀系統視角進行匯總與融合,隨后重構與用戶行為有關的數據,分別通過用戶標簽進行主題相似度計算、通過用戶個人的特征信息進行背景相似度計算、通過用戶時空數據與資源使用數據進行行為相似度計算,再融合三類相似度計算結果,得到多因素融合的用戶相似度;同時,利用重構的資源內容標簽與分類數據進行資源相似度的計算。最后,根據用戶與資源間的關聯關系進行相似資源、相似用戶、相似用戶-資源的推薦,滿足多種場景下的智慧圖書館個性化推薦服務需求。

實驗結果表明,文章提出的多源數據融合視角下的智慧圖書館個性化推薦框架具有可行性,能夠充分利用多種用戶數據,進行多類型的個性化推薦,可滿足用戶對于專業、社交、資源的多種需求。但是,在各類數據的融合過程中,不同相似度在當前計算場景中的權重仍有待優化,可開展更大規模、更深入的用戶調研,以更好地獲取符合用戶意愿的信息資源推薦結果。下一步的研究將選取智慧圖書館生態鏈中更大范圍的系統數據,充分利用云計算、5G、大數據技術等帶來的變革,進行各系統數據的動態載入、實時處理與即時推薦,進一步完善圖書館智慧推薦服務。

猜你喜歡
關聯智慧圖書館
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
飛躍圖書館
圖書館里的是是非非
有智慧的羊
去圖書館
智慧派
智慧與創想(2013年7期)2013-11-18 08:06:04
語言學與修辭學:關聯與互動
當代修辭學(2011年2期)2011-01-23 06:39:12
主站蜘蛛池模板: 亚洲AV色香蕉一区二区| 无码区日韩专区免费系列| 成人噜噜噜视频在线观看| 在线综合亚洲欧美网站| 久久精品免费国产大片| 亚洲国产成人在线| 91国内在线观看| 亚洲欧洲天堂色AV| 亚洲成A人V欧美综合天堂| 亚洲天堂久久| yy6080理论大片一级久久| 亚洲人成人伊人成综合网无码| 91热爆在线| 国产精品综合色区在线观看| 91色在线观看| 欧美精品伊人久久| 亚卅精品无码久久毛片乌克兰| 国产成人凹凸视频在线| av性天堂网| 欧美高清视频一区二区三区| 亚洲综合精品香蕉久久网| 无码人中文字幕| 国产精品久久久久久搜索| 中文字幕调教一区二区视频| 中文字幕在线日韩91| 亚洲国产91人成在线| 欧美日本一区二区三区免费| 中国精品自拍| 91在线激情在线观看| 欧美人人干| 亚洲经典在线中文字幕| 亚洲日本中文字幕天堂网| 国产一级特黄aa级特黄裸毛片| 毛片免费网址| 精品久久777| 国产电话自拍伊人| 国产麻豆福利av在线播放| 97se亚洲综合在线天天| 欧美国产日韩在线| 亚洲欧美成人网| 一本色道久久88| 综合色天天| 日本欧美精品| 欧美中文字幕无线码视频| 国产黄色爱视频| 日本三区视频| 亚洲国产日韩在线成人蜜芽| 91在线无码精品秘九色APP | 亚洲—日韩aV在线| 国产国语一级毛片在线视频| 老司机精品一区在线视频| 欧美午夜视频在线| 国产www网站| 欧洲欧美人成免费全部视频| 国产乱人乱偷精品视频a人人澡 | 欧美一级一级做性视频| 99re66精品视频在线观看| 免费可以看的无遮挡av无码| 欧美亚洲国产视频| 久久久久久久97| 丁香六月综合网| 就去吻亚洲精品国产欧美| 97免费在线观看视频| 亚洲欧美综合另类图片小说区| 四虎影视国产精品| 亚洲熟妇AV日韩熟妇在线| 91小视频在线播放| 91精品aⅴ无码中文字字幕蜜桃 | 免费一级毛片| 露脸真实国语乱在线观看| 亚洲狼网站狼狼鲁亚洲下载| 亚洲经典在线中文字幕| 色婷婷成人| 国产成人三级在线观看视频| 天堂av综合网| 国产精品视频第一专区| 99热这里只有精品在线观看| 亚洲自偷自拍另类小说| 四虎国产永久在线观看| 国产免费网址| 国产成人狂喷潮在线观看2345| 美女视频黄频a免费高清不卡|