
【摘 "要】 推薦算法在高職院校圖書館領域的理論研究和應用正處于發展的初級階段,有廣闊的應用前景。文章分析了高職圖書館用戶數據環境,梳理總結了用戶數據類型、置信度、顯式及隱式數據的特性及優缺點,并分析各類推薦算法思想的優勢與局限性以及在高職圖書館用戶數據環境中的適用性。
【關鍵詞】 高職圖書館;推薦算法;顯隱式數據
推薦算法在國內的應用非常廣泛,除了電子商務領域,近年來也被應用在社交媒體和短視頻領域,目前推薦算法在高校圖書館領域的理論研究與應用探索還處于發展的初級階段,有廣闊的研究空間和應用前景。本文分析高職圖書館掌握的用戶數據種類、數據類型、顯式及隱式數據以及數據置信度,并根據算法思想的不同對個性化推薦系統常見算法進行分類梳理和總結,分析各類推薦算法思想在高職圖書館用戶數據環境中的適用性。
一、顯式數據和隱式數據
用戶行為數據分為顯式數據和隱式數據兩種。“顯式數據”也可稱為“顯性數據”,指可以直觀反映用戶喜好的數據,即用戶對被評價項目(以下簡稱item)的顯式打分,比如用戶對書籍、商品的評分,通常有5分制和10分制。優點是行為的置信度高,因為是用戶明確給出的打分,可以真實反映用戶對item的喜歡程度。缺點是顯式數據在數據收集方面難度較大,用戶大多具有惰性不愿對item進行評級,這就容易導致數據量小且非常稀疏;同時這部分評分也僅代表了小部分用戶的興趣,可能會導致數據有失偏頗;此外用戶打分行為還可能存在撒謊現象,如故意給某部沒看過的作品打低分。
“隱式數據”也可稱為“隱性數據”,指那些不是很直觀地反映用戶喜好的數據,如用戶對item的瀏覽、點擊、購買、收藏、評論、分享等數據,其特點是用戶沒有顯式地給item打分,用戶對item的感興趣程度都體現在他對item的瀏覽、點擊、購買、收藏、評論、分享等行為的強度上。“隱式數據”的優點是容易獲取,數據量很大。因為幾乎所有用戶都會有瀏覽、點擊等行為,所以數據量大,而且幾乎覆蓋所有用戶,不會導致數據偏頗。其缺點是置信度不如顯式數據高,比如用戶瀏覽不一定代表感興趣,還要看強度,經常瀏覽同一類東西才能以較高置信度認為用戶感興趣。
一般用戶在網站能看到的評分方式是“主動評分”,即“顯性反饋行為”。如豆瓣電影中的評分機制和抖音等短視頻平臺中的“點贊”功能都是典型的顯性反饋。還有一種用戶看不到的“被動評分”,是根據用戶的行為記錄由系統代替用戶完成評價,不需要用戶直接打分或輸入評價數據。如用戶在京東的圖書瀏覽日志、在網易云上聽歌的日志等,實際上京東和網易已經得到了一定的用戶行為數據,但沒有以顯性方式直接反饋,而是在其他地方間接地反饋出來。
二、高職圖書館用戶數據環境
高職院校圖書館一般可以掌握兩類用戶數據,如表1所示。一是用戶人口特征數據,如學生專業、年齡、性別等;二是用戶行為數據,如用戶進出館、座位預約、研討間預約、圖書借還、圖書預約、推薦購買圖書、圖書檢索記錄等數據。與本科院校主要以論文為結課或畢業要求不同,職業院校主要采用畢業設計項目、綜合實訓、行業實訓、頂崗實習等多種實踐性更強的項目作為教學評價,因此與本科院校相比,職業院校學生使用文獻檢索較少,目前大多數職業院校并未收集用戶在文獻檢索方面的行為數據。
表1中將用戶行為數據置信度分為5級,數值越大置信度越高。用戶進出館數據能反映用戶來館頻率和時長,但該數據受學生排課等客觀影響較大,因此反映用戶個體偏好的置信度較低,更適用于群體預測,如根據在館人數峰值時段決定舉辦活動的時間,能有效提高參與活動的人數。座位及研討間預約數據反映個體偏好的置信度較進出館數據稍高,由于帶有位置信息,能部分反映用戶偏好,如座位偏好可能與館藏位置及館內布局相關,學生會預約自己專業書籍附近的座位,研討間使用量能反映學生的小組研討需求。圖書檢索、預約、推薦購書數據能在一定程度上反映用戶對圖書的偏好,但由于尚未試閱,故而該數據與電商網站的點擊瀏覽數據類似,具有中等置信度。圖書借閱數據在隱式數據中具有最高置信度,用戶在借書前一般會在館內對圖書進行試閱,確認喜歡后才會借閱,因此圖書借閱數據反映用戶喜好的置信度明顯高于其他隱式數據。
相較于電商、社交平臺等領域,隱式數據在高校圖書館用戶喜好預測方面有更好的置信度。在電商領域,用戶點擊某商品不代表他對該商品感興趣,可能只是想看看介紹,但看完介紹發現該商品不喜歡,甚至購買的商品也可能不是自己喜歡的商品而是送人或代他人購買,因此隱式數據得出的用戶畫像往往很奇怪。但圖書館用戶的圖書檢索、預約、借還等行為往往建立在用戶對圖書有一定了解的基礎上才會發生,尤其是借閱行為往往建立在試閱滿意的基礎上,因此反映用戶偏好的置信度更高。
而在顯式數據方面,評分屬于顯性反饋行為,能夠精確反映用戶對被評價項目的喜歡程度,置信度最高,但當前國內高職院校圖書館系統中極少建立和推廣資源打分機制,用戶也沒有形成評分習慣,缺少顯式數據的收集渠道,并且高職圖書館用戶數量相對較少,很容易出現數據稀疏的問題。因此,使用隱式數據由系統代替用戶完成評價的“被動評分”模式更適合高職院校圖書館用戶數據環境。
三、推薦算法在高職圖書館數據環境中的適用性分析
推薦系統的本質是資訊過濾的一類應用,基礎框架是將各類信息源輸入系統,經過推薦模塊處理,輸出推薦項目。通過目前常見的推薦算法,根據算法思想的不同可以分類為:基于人口統計學、基于內容、協同過濾、基于知識、混合算法等。
(一)基于人口統計學的推薦算法
基于人口統計學的算法思想最直接,其基本思想是假設具有相似人口特征學屬性的用戶也會有相似的偏好,根據用戶的基本信息推薦相似用戶喜愛的項目。這種算法思想的推薦效果一般,而且個性化程度較低。因為實際情況中,以人口統計學分類粒度較粗,通常具有相同人口特征屬性的用戶數量較大,并且用戶偏好和基本信息之間關聯不強,導致該算法個性化程度較低。將人口統計學信息與其他推薦模型融合能在一定程度上緩解用戶冷啟動問題。
但該算法在高校圖書館領域能起到比其他應用領域更好的推薦效果,原因是高校圖書館用戶除了年齡、性別等人口特征屬性外,還具有學生專業、年級等與用戶需求或喜好相關度較高的人口特征數據,利用這些數據能為用戶精確推薦同年級該專業領域最需要的專業書目。因此基于人口統計學的算法更適合應用于高校圖書館這類用戶人口特征屬性與用戶喜好相關度較高的領域。
(二)基于內容的推薦算法
基于內容的算法能很好地解決用戶和用戶喜好之間相關度的問題,基本思想是根據用戶歷史喜好的項目來推薦相似的項目。該算法思想能建立用戶和喜好之間的聯系,通常具有較好的效果,但是該算法只能反復推薦用戶有過正反饋的興趣類別,不能為用戶拓展新的興趣類別,并且依賴于項目的內容和屬性信息。
該算法在高職圖書館領域應用的主要難度在于構建描述項目的結構化特征。在構建項目模型的過程中需要對非結構化的項目內容進行處理,但圖書館掌握的項目往往缺少電子化可處理的項目內容,如館藏書目僅有書名、作者、出版社等基礎信息,進行項目內容相似度計算時置信度較低。并且對沒有行為記錄的用戶存在冷啟動問題。
(三)基于協同過濾的推薦算法
基于協同過濾的推薦算法能擺脫對項目內容的依賴,其基本思想是假設具有相同歷史偏好的用戶,未來的偏好也會相同,根據用戶的行為信息來推薦相似用戶的喜愛項目或與用戶歷史喜愛項目相似的項目。該算法不僅具有較好的個性化程度,而且能幫助用戶發掘一些新的興趣。但該算法依賴于用戶的歷史行為信息,存在冷啟動困難,對于新用戶或新項目,由于缺乏歷史行為信息則無法做出推薦。
協同過濾算法根據輸入顯式和隱式數據的不同,分為兩種輸出結果。一是Top-N推薦,輸入隱式數據(布爾值,取值[0,1]),輸出的是預測的用戶對項目的相對偏好程度;二是評分預測,輸入顯式數據(整數型,取值[0,n]),輸出是預測的用戶對項目的絕對評分。由于高職圖書館掌握的用戶行為數據大多為隱式數據,因此在進行協同過濾相似度計算時大多能得出用戶對項目的相對偏好程度的預測,較難得出用戶對項目具體評價分數的預測。
(四)基于知識的推薦算法
基于知識的推薦不依賴用戶歷史行為,其基本思想是根據用戶的顯式需求和專業領域知識進行推薦。該算法不依賴于歷史偏好,但依賴于專業領域的知識,適合應用于用戶歷史行為間隔時間長且產品屬性復雜的領域。
該算法在高職圖書館領域可以考慮在無歷史行為記錄的新用戶進行主動資源檢索時應用,如用戶檢索文獻資源時,高職圖書館大多并未收集用戶文獻檢索的行為數據,并且文獻資源屬性復雜,以知網為例,一般具有文獻類型、主題、學科、發表年度、研究層次、來源類別、基金、作者機構等多種篩選維度。
(五)混合推薦算法
各種基礎推薦算法各有利弊,但互相之間存在互補性,因此可以利用這種互補性根據數據環境和推薦需求來構建混合推薦。混合推薦算法的基本思想是通過多種算法的組合來避免或彌補單一算法的弱勢,以提升系統的準確度和穩定性。從誤差分析角度,混合推薦的基本假設是參考不同的獨立的意見降低錯誤,提升準確率。從信息源的角度,常見的信息源有:用戶人口統計學屬性、用戶關系、用戶行為、領域知識、用戶需求、項目內容這六大類。不同的推薦模型只利用了部分信息源,如基于人口統計學的推薦算法,利用用戶人口統計學屬性,協同過濾利用用戶關系和用戶行為,基于內容的推薦利用項目內容和用戶行為。由于單一推薦模型只利用了部分信息源,導致推薦結果受限,混合推薦能將各個基礎推薦模型組合,利用更多樣更全面的信息源,產生更好的推薦結果。
四、結語
本研究對高職圖書館用戶數據環境進行分析,將用戶數據分為人口特征數據和用戶行為數據,梳理并總結了各類用戶數據的數據類型、置信度,對比了顯式及隱式數據的特性及優缺點。根據算法思想的不同,將常見推薦系統算法分為基于人口統計學、基于內容、協同過濾、基于知識、混合算法這五個大類,對比各類推薦算法思想的優勢與局限性,針對高職圖書館用戶數據環境分析上述算法思想的應用場景,并提出利用算法之間的互補性因地制宜構建混合推薦方案以提升推薦效果。
參考文獻:
[1] 張亞明,高忠萍,高祎晴,等. 融合顯隱式反饋的協同過濾推薦算法研究[J]. 小型微型計算機系統,2022,43(04):731-740.
[2] 劉宏志. 推薦系統[M]. 北京:機械工業出版社,2020.
[3] 韓勝寶,伊華偉,李曉會,等. 基于融合相似度和層次聚類的冷啟動推薦算法[J]. 小型微型計算機系統,2022,43(05):985-991.
[4] 于蒙,何文濤,周緒川,等. 推薦系統綜述[J]. 計算機應用,2022,42(06):1898-1913.
[5] 李孟浩,趙學健,余云峰,等. 推薦算法研究進展[J]. 小型微型計算機系統,2022,43(03):544-554.
[6] 李征,金迪,黃雪原,等. 基于隱式反饋的推薦研究綜述[J]. 河南大學學報:自然科學版,2022,52(03):305-319.