陳公禹
上海大學(xué)圖書情報(bào)檔案系 上海 200444
近年來,大數(shù)據(jù)、云計(jì)算、人工智能等互聯(lián)網(wǎng)信息技術(shù)不斷飛速發(fā)展,人們的生活也隨之發(fā)生翻天覆地的變化,讀者用戶的需求越發(fā)個(gè)性化、多元化。用戶畫像因其可以用來描述用戶特征、挖掘用戶需求,并以此提供用戶個(gè)性化服務(wù)的特點(diǎn),目前已被廣泛應(yīng)用于各種領(lǐng)域。用戶畫像技術(shù)應(yīng)用于圖書館服務(wù)有利于創(chuàng)新圖書館服務(wù)模式,也為圖書館未來的良好發(fā)展提供了機(jī)遇。現(xiàn)如今,圖書館正面臨諸多挑戰(zhàn),面對(duì)讀者用戶需求的多元化以及海量的文獻(xiàn)資源,圖書館只有充分了解用戶的需求,才能為用戶提供更加個(gè)性、精準(zhǔn)的服務(wù)。用戶畫像應(yīng)用于圖書推薦系統(tǒng)可以提高圖書資源的利用率,通過分析挖掘用戶的行為,對(duì)用戶進(jìn)行個(gè)性化精確化的服務(wù),實(shí)現(xiàn)智能化圖書精確推送。
用戶畫像(User portraits)由交互設(shè)計(jì)之父Alan Cooper所提出,又稱用戶角色、用戶模型、客戶畫像、受眾畫像。它主要通過用戶調(diào)研、數(shù)據(jù)采集等方式全面地搜集用戶信息,包括用戶背景、用戶行為習(xí)慣等,來具體地、標(biāo)簽化地、有針對(duì)性地描述用戶特征,建立目標(biāo)用戶模型。簡(jiǎn)單來說,用戶畫像就是以海量數(shù)據(jù)為基礎(chǔ),分類描述用戶行為,刻畫出真實(shí)用戶的虛擬形象。在圖書推薦系統(tǒng)領(lǐng)域,用戶畫像主要是通過標(biāo)簽化處理讀者用戶的數(shù)字足跡,刻畫用戶行為,從而為用戶提供個(gè)性化、精確化的圖書資源推薦服務(wù)。讀者用戶信息主要包含借閱圖書、瀏覽網(wǎng)頁、下載文獻(xiàn)、入館時(shí)間等記錄,通過從各類系統(tǒng)中全面抽取出用戶的相關(guān)數(shù)據(jù),分析用戶行為習(xí)慣以及資源偏好,進(jìn)而準(zhǔn)確描述用戶特征,最終實(shí)現(xiàn)圖書信息資源的精準(zhǔn)推薦[1]。
截至2021年9月4日,以“用戶畫像”和“個(gè)性化推薦+圖書推薦+資源推薦”為主題在相關(guān)網(wǎng)站上進(jìn)行高級(jí)檢索,將文獻(xiàn)分類目錄限定為圖書情報(bào)與數(shù)字圖書館領(lǐng)域,去除無效文獻(xiàn),總計(jì)檢索出中文文獻(xiàn)46篇。
國(guó)內(nèi)研究主要集中在圖書館資源推薦服務(wù)模式、圖書館知識(shí)服務(wù)、圖書推薦系統(tǒng)等方面。王慶等[2]歸納圖書館現(xiàn)有資源推薦服務(wù)研究,并對(duì)圖書館用戶畫像數(shù)據(jù)源進(jìn)行分析,以此構(gòu)建了圖書館用戶畫像模型,提出從單用戶和群體用戶角度進(jìn)行資源推薦的服務(wù)模式。陳慧香[3]通過分析國(guó)內(nèi)外圖書館領(lǐng)域用戶畫像的研究現(xiàn)狀,結(jié)合已有的用戶畫像模型和服務(wù)情況,為用戶畫像應(yīng)用于圖書館精準(zhǔn)服務(wù)提出建議。劉海鷗等[4]圍繞圖書館用戶基本信息標(biāo)簽、內(nèi)容偏好標(biāo)簽、互動(dòng)標(biāo)簽、會(huì)話標(biāo)簽、情境標(biāo)簽來構(gòu)建用戶畫像模型,并引入情境化推薦方法來實(shí)現(xiàn)圖書館知識(shí)服務(wù)的個(gè)性化推薦,提升圖書館的知識(shí)服務(wù)水平。王順箐[5]以讀者需求多樣化和無差別推薦的矛盾出發(fā),探討了實(shí)現(xiàn)智慧型個(gè)性化閱讀推廣的可能,最終構(gòu)建了智慧型個(gè)性化推薦系統(tǒng)。何娟[6]通過構(gòu)建用戶的個(gè)人畫像和群體畫像,綜合讀者借閱行為特征實(shí)現(xiàn)圖書的個(gè)性化推薦并對(duì)其可行性進(jìn)行測(cè)評(píng)。
目前,國(guó)內(nèi)已有部分學(xué)者基于用戶畫像對(duì)圖書推薦系統(tǒng)進(jìn)行了應(yīng)用及優(yōu)化,大多數(shù)關(guān)于圖書館資源推薦的相關(guān)研究主要方向是探討個(gè)性化推薦模式及相關(guān)推薦算法技術(shù),并以此來優(yōu)化館藏資源和提高利用率,而從用戶視角發(fā)掘用戶的圖書興趣偏好、基礎(chǔ)屬性和瀏覽動(dòng)態(tài),進(jìn)而形成完整的推薦系統(tǒng)的研究較少。
圖書館構(gòu)建讀者用戶畫像可以分為三個(gè)過程:數(shù)據(jù)的收集與處理、建立用戶畫像數(shù)據(jù)標(biāo)簽、構(gòu)建用戶畫像模型。
首先,對(duì)讀者用戶的數(shù)據(jù)進(jìn)行收集與處理。圖書館的讀者用戶數(shù)據(jù)包括讀者靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)。其中,靜態(tài)數(shù)據(jù)包括讀者用戶的讀者證號(hào)、姓名、性別、年齡、職業(yè)、學(xué)歷、專業(yè)、城市、郵箱地址等基本信息。這些靜態(tài)數(shù)據(jù)一般都可以直接從系統(tǒng)中獲取。動(dòng)態(tài)數(shù)據(jù)則是指讀者用戶的行為數(shù)據(jù),一般包括讀者用戶使用數(shù)據(jù)庫的信息、使用圖書借閱系統(tǒng)的信息以及讀者用戶使用各種設(shè)施的信息等。除了這些數(shù)據(jù)之外,圖書館還可以通過設(shè)計(jì)調(diào)查問卷的方式,來獲取系統(tǒng)中無法反映的額外數(shù)據(jù),使得讀者用戶數(shù)據(jù)更加真實(shí)、完整。這些數(shù)據(jù)來自不同的信息系統(tǒng)平臺(tái),因而需要對(duì)不統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)加以整合處理,完善讀者用戶的信息,有利于構(gòu)建真實(shí)、可靠以及完整的讀者用戶畫像。
其次,建立讀者用戶畫像的數(shù)據(jù)標(biāo)簽。數(shù)據(jù)標(biāo)簽是基于用戶動(dòng)態(tài)與靜態(tài)數(shù)據(jù)分析而來的高度精練的用戶特征標(biāo)識(shí),能很方便地理解每個(gè)數(shù)據(jù)標(biāo)簽的含義,使模糊的用戶立體化、形象化[7]。為讀者用戶建立數(shù)據(jù)標(biāo)簽是圖書館構(gòu)建用戶畫像的關(guān)鍵工作。圖書館可根據(jù)讀者用戶的屬性,構(gòu)建基本屬性標(biāo)簽、借閱行為標(biāo)簽、圖書偏好標(biāo)簽。基本屬性標(biāo)簽主要包括:姓名標(biāo)簽、性別標(biāo)簽、年齡標(biāo)簽、職業(yè)標(biāo)簽、學(xué)歷標(biāo)簽以及專業(yè)標(biāo)簽等;借閱行為標(biāo)簽是區(qū)分讀者類型的標(biāo)簽,通過對(duì)讀者的入館情況數(shù)據(jù)以及借閱記錄數(shù)據(jù)可以將讀者區(qū)分為低借閱讀者、普通讀者、高借閱讀者以及入館達(dá)人;圖書偏好標(biāo)簽主要由圖書類別偏好標(biāo)簽和圖書內(nèi)容偏好標(biāo)簽組成。
最后,在完成對(duì)用戶的靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)收集處理的基礎(chǔ)上,進(jìn)行分析以及語義化抽象綜合上述標(biāo)簽構(gòu)建用戶畫像。
基于用戶畫像的圖書推薦系統(tǒng)的模塊包括數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊、圖書推薦模塊以及可視化模塊。
數(shù)據(jù)采集模塊從圖書館各類系統(tǒng)中主動(dòng)搜集爬取用戶數(shù)據(jù),用戶數(shù)據(jù)包括靜態(tài)與動(dòng)態(tài)兩類,隨后記錄為用戶行為日志,為數(shù)據(jù)處理提供基礎(chǔ)。
數(shù)據(jù)處理模塊處理來自不同平臺(tái)的用戶數(shù)據(jù),包括清洗、規(guī)范統(tǒng)一、分析,從而獲得與用戶行為相關(guān)的權(quán)重標(biāo)簽,并加以處理整合,是構(gòu)建用戶畫像的基礎(chǔ)。可以采用統(tǒng)一標(biāo)記的方式分析用戶行為,按照標(biāo)記規(guī)則為不同用戶設(shè)置對(duì)應(yīng)的靜態(tài)標(biāo)簽。而動(dòng)態(tài)標(biāo)簽的設(shè)置,可以采用數(shù)據(jù)挖掘算法進(jìn)行大規(guī)模數(shù)據(jù)分析,通過聚類算法區(qū)分用戶,并通過數(shù)據(jù)抽取的方式獲得對(duì)應(yīng)的標(biāo)簽[8]。
前端服務(wù)界面包含可視化模塊和資源推薦模塊。資源推薦模塊包括兩個(gè)方面,首先是相關(guān)推薦,通過基于內(nèi)容的文本相似度算法,找到與某個(gè)讀者瀏覽的圖書信息資源相似的其他信息資源。其次是熱門推薦,可以根據(jù)相似度匹配計(jì)算出用戶偏好指數(shù)最高的資源,分享給該讀者。系統(tǒng)根據(jù)讀者的基本信息和行為數(shù)據(jù)進(jìn)行讀者用戶畫像構(gòu)建,隨著時(shí)間的推進(jìn),讀者的興趣偏好逐漸明顯或者逐漸改變,系統(tǒng)應(yīng)當(dāng)具備可以自動(dòng)采集讀者最新的基礎(chǔ)信息數(shù)據(jù)和行為數(shù)據(jù)并更新該讀者畫像的功能。圖書推薦系統(tǒng)根據(jù)用戶畫像進(jìn)行推薦,將基于用戶畫像與圖書的相似匹配度計(jì)算方法,將符合條件的最新圖書資源篩選出來,進(jìn)行優(yōu)化后顯示在最新推薦結(jié)果頁面。
相似圖書的推薦是基于用戶畫像中的動(dòng)態(tài)數(shù)據(jù)而實(shí)現(xiàn)的。讀者用戶的動(dòng)態(tài)數(shù)據(jù)中,可以從圖書和讀者兩個(gè)維度對(duì)數(shù)據(jù)進(jìn)行挖掘分析。讀者用戶對(duì)圖書的借閱行為會(huì)生成借閱記錄,這些借閱記錄反映了該讀者的圖書借閱偏好,系統(tǒng)通過尋找與這些借閱記錄相類似的圖書實(shí)現(xiàn)推薦。圖書維度的特征屬性主要有題名、主題詞、作者、學(xué)科主題、出版發(fā)行商以及中圖分類號(hào)等。其中可以利用中圖分類號(hào)以及關(guān)鍵詞進(jìn)行圖書間的相似匹配度計(jì)算,最后將兩種相似度計(jì)算結(jié)果進(jìn)行整合排序,從而得到結(jié)果[9]。
中圖分類號(hào)采用漢語拼音字母與阿拉伯?dāng)?shù)字相結(jié)合的混合號(hào)碼,具有從整體到局部的特征[10],從左到右進(jìn)行編號(hào),具有一定的層次性。圖書館中的每一本圖書都有其所屬的唯一中圖分類號(hào),通過中圖分類號(hào)可以清晰直觀地看出圖書屬于什么類別與級(jí)別,因而可以依據(jù)中圖分類號(hào)來進(jìn)行圖書之間的相似匹配度計(jì)算。表現(xiàn)圖書特征維度的除了中圖分類號(hào)之外,還有題名、作者和學(xué)科主題,系統(tǒng)可以將題名、作者和學(xué)科主題通過計(jì)算文本相似度的方法進(jìn)行兩本圖書之間的相似匹配度計(jì)算。
在計(jì)算了中圖分類號(hào)和題名、作者和學(xué)科主題兩個(gè)維度的相似度之后,將基于中圖分類號(hào)和題名、作者和學(xué)科主題的圖書相似度進(jìn)行整合,由于兩者對(duì)于圖書相似度之間的影響基本相同,可以依照兩者接近的比例整合,最終實(shí)現(xiàn)相似圖書的推薦。
相似讀者的圖書推薦是基于用戶畫像中的靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)相結(jié)合而實(shí)現(xiàn)的。系統(tǒng)通過相似度計(jì)算方法找到目標(biāo)讀者的相似讀者,從而推薦相似讀者所感興趣的圖書。用戶畫像基于讀者用戶的靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)對(duì)讀者進(jìn)行刻畫,系統(tǒng)可以依據(jù)這兩個(gè)維度的相似度計(jì)算結(jié)果進(jìn)行整合,從而選出相似度較高的幾位讀者,再對(duì)讀者的借閱圖書進(jìn)行排序,依照相似度高低降序排列,選擇前幾本相似度較高的圖書推薦給目標(biāo)讀者。
對(duì)于讀者用戶的靜態(tài)數(shù)據(jù),可以利用計(jì)算文本相似度的方法計(jì)算兩個(gè)讀者間靜態(tài)數(shù)據(jù)的相似度。包括專業(yè)、職業(yè)、年齡段、性別、學(xué)歷等靜態(tài)數(shù)據(jù)的相似度匹配。
對(duì)于動(dòng)態(tài)數(shù)據(jù),讀者的借閱偏好通過讀者在圖書館借閱系統(tǒng)中,借閱、續(xù)借以及收藏等操作記錄表現(xiàn)出來。而圖書維度的屬性特征仍舊包括題名、主題詞、作者、學(xué)科主題、出版發(fā)行商以及中圖分類號(hào)等。系統(tǒng)選取圖書的題名、作者、學(xué)科主題詞作為讀者圖書興趣偏好的模型構(gòu)建基礎(chǔ)數(shù)據(jù)進(jìn)行相似匹配度計(jì)算。
在計(jì)算了讀者的靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)兩個(gè)維度的相似度之后,將這兩個(gè)維度的相似度進(jìn)行整合,由于動(dòng)態(tài)數(shù)據(jù)相較于靜態(tài)數(shù)據(jù)對(duì)于圖書偏好的影響較大,可以依照動(dòng)態(tài)數(shù)據(jù)大于靜態(tài)數(shù)據(jù)的比例進(jìn)行整合,最終實(shí)現(xiàn)相似讀者的圖書推薦。
讀者用戶信息是重要的信息資源,也是圖書推薦系統(tǒng)構(gòu)建讀者用戶畫像的基礎(chǔ)。系統(tǒng)在構(gòu)建讀者用戶畫像時(shí),會(huì)收集大量讀者信息,在利用并挖掘這些數(shù)據(jù)的同時(shí),要尤其注意讀者信息安全和用戶隱私問題。首先,在讀者知曉并同意其相關(guān)的數(shù)據(jù)被獲取后,系統(tǒng)才能采集讀者信息。其次,應(yīng)當(dāng)收集已有的和必要的數(shù)據(jù),減少無關(guān)數(shù)據(jù)的采集,例如,不應(yīng)收集身份證號(hào)碼和家庭成員等重要信息。最后,可以通過安全加密和設(shè)定訪問權(quán)限來保障讀者信息安全。在大數(shù)據(jù)時(shí)代,用戶信息安全與隱私保護(hù)是十分重要的課題,只有在保證用戶信息安全的前提下,讀者用戶才會(huì)愿意將隱私數(shù)據(jù)提供給圖書館,構(gòu)建用戶畫像才會(huì)更加精準(zhǔn)。
隨著時(shí)間的推移讀者偏好和需求特征都會(huì)發(fā)生變化,因此用戶畫像模型并非一直有效。讀者用戶的動(dòng)態(tài)數(shù)據(jù)包括用戶圖書資源的興趣、偏好等變化以及用戶來館頻率、停留時(shí)間、在館行為等數(shù)據(jù)變化。如何解決好用戶畫像實(shí)時(shí)變化問題顯得尤為重要。由于難以判斷用戶閱讀偏好何時(shí)發(fā)生變化,對(duì)用戶畫像階段性調(diào)整難以實(shí)施;另外,如果系統(tǒng)實(shí)時(shí)對(duì)用戶畫像進(jìn)行調(diào)整,那么用戶數(shù)據(jù)的實(shí)時(shí)交換問題以及所產(chǎn)生的巨大數(shù)據(jù)量問題有待解決。因此,基于用戶畫像的圖書推薦系統(tǒng)還需不斷改善來精確描述用戶狀態(tài)。
目前,大部分研究主要集中在用戶畫像模型構(gòu)建、推薦系統(tǒng)設(shè)計(jì)及平臺(tái)搭建。然而,在構(gòu)建用戶畫像、完成圖書推薦系統(tǒng)搭建之后,很少提及系統(tǒng)評(píng)估方面的內(nèi)容,缺乏系統(tǒng)的評(píng)估指標(biāo),對(duì)于基于用戶畫像構(gòu)建的圖書推薦系統(tǒng)完整的、規(guī)范的指標(biāo)和評(píng)估體系沒有建立。國(guó)內(nèi)的相關(guān)研究大多是提出構(gòu)建用戶畫像的模型或是系統(tǒng)設(shè)計(jì)的設(shè)想,還沒有實(shí)際運(yùn)用到圖書館中。只有不斷探索有效、規(guī)范的評(píng)估指標(biāo)和方法,才能客觀反映出基于用戶畫像構(gòu)建的圖書推薦系統(tǒng)的質(zhì)量,進(jìn)而在此基礎(chǔ)上不斷優(yōu)化改善,形成良性循環(huán),最終實(shí)際應(yīng)用到圖書館中。
基于用戶畫像的圖書推薦系統(tǒng),可以根據(jù)用戶畫像分析結(jié)果,既能定向準(zhǔn)確地推送圖書資源,還可以做到圖書資源的準(zhǔn)確定位,為其找到相匹配的讀者。實(shí)現(xiàn)“為人找書,為書找人”的功能,起到激發(fā)讀者用戶閱讀興趣,提升用戶閱讀體驗(yàn)的效果。對(duì)于圖書館來說,這樣不僅能夠提高圖書信息資源的利用率,還可以讓圖書館的服務(wù)水平朝著更高質(zhì)量方向發(fā)展。
然而在實(shí)際應(yīng)用層面,基于用戶畫像的圖書推薦系統(tǒng)目前面臨著許多困難與挑戰(zhàn),包括解決技術(shù)難題并將其成熟地運(yùn)用到圖書館領(lǐng)域、保護(hù)好用戶的隱私及信息安全,強(qiáng)化實(shí)時(shí)用戶畫像的研究以及建立系統(tǒng)的評(píng)估指標(biāo)體系。未來如何處理好這些問題,獲取更多來源的讀者用戶數(shù)據(jù),更加全面地把握讀者信息,從而更好地提升系統(tǒng)推薦效果,最終將用戶畫像融入圖書館體系中,還需要不斷地研究和探索。