吳澹寧,陳 敏
十九大報告提出加快建設創新型國家發展目標,“智慧社會”被寫入報告[1]。基于“智慧社會”新視角,圖書館應探索融合新技術的發展新路徑,為國家發展、社會進步、科技創新、個人終身學習提供智慧化的知識服務,構建支撐綠色、低碳、可持續發展的關鍵驅動力。
互聯網極大豐富了知識的獲取方式,但“知識迷航”現象日漸顯著。初景利等[2]認為圖書館必將從文獻服務走向智慧服務,要求圖書館服務內容從簡單的文獻單元向深度挖掘的知識單元轉化,服務方式從粗放的多渠道投放向精準的按需推送轉變。高校圖書館投入大量經費購買數字資源和建設特色資源,并推出各種個性化服務,滿足在校師生更多深層次的需求。但是,因缺乏對讀者需求的及時反饋和準確把握,圖書館的資源和服務很難做到精準推送,資源利用率與服務效果不甚理想。為解決此類困境,本文引入畫像建模技術,結合高校圖書館資源與服務的特殊性和復雜性,設計一套多維度、細粒度的特征標簽體系,探究畫像建模的詳細流程與實際問題,研究圖書館智慧推介的模式構建和實施策略。憑借現代科技所蘊含的“技術智慧”,提升基于知識服務的“圖書館智慧”,激活求知創新過程中的“用戶智慧”,為建立面向深度學習的知識圖譜和多元立體的知識資源體系積累經驗、夯實基礎[3]。
交互設計之父Alan Cooper最早提出用戶畫像(Persona/User Profile)概念,即對用戶的自然屬性、行為軌跡、潛在興趣等信息的虛擬刻畫。用戶畫像理念及其技術得到了廣泛應用,如阿里巴巴圍繞“人、貨、場、商”營造全新的數字化生態系統,疏導目標流量,提高場貨分發效能[4]17-21。在文化教育領域,用戶畫像也成為討論熱點。筆者以“用戶畫像”“讀者畫像”“圖書館”“文化教育”等關鍵詞在CNKI中國知網進行檢索,篩選得到311篇相關文獻。
陳慧香等[5]從定義組成、算法模型、實踐應用等方面討論國外圖書館用戶畫像研究現狀,發現技術類的集成創新較少,而國內學者所構建的用戶畫像模型多以局部數據為主,缺乏完整性。劉海鷗等[6]引入情境化推薦方法來重塑圖書館個性化服務模式。曾子明等[7]搭建個性化移動視覺搜索及推薦服務模型,拓展設計用戶畫像的思路。劉速[8]以天津圖書館大數據分析平臺的順利實施,驗證多維度交叉分析、用戶關系圖譜等用戶畫像分析方法,為基于用戶畫像的智能化服務研究提供了案例參考。單軫等[9]總結用戶畫像研究中存在的問題:理論研究中的概念模糊,如混淆了“群體畫像”與“個人畫像”的概念;技術研究中的視野缺失,如忽視了信息安全和評價機制等問題。因此,本文以2020年浙江音樂學院圖書館的350 萬條運行數據和73 萬條資源數據為基礎,論述特征標簽、“群體畫像”和“個人畫像”的設計過程和集成算法,強調動態數據的收集和實時畫像的構建,研究相似性、差異性、關聯性和線下實時推介的實現方式,并嘗試以借閱、瀏覽、點播等行為指標評估資源推介效果,旨在探索一條以完整性、準確度為導向的圖書館智慧推介的實踐之路,推動用戶畫像與圖書館智慧服務的深度融合。
構建用戶畫像所需的數據,可分為讀者數據和資源數據。讀者數據既包含姓名、年級、專業等屬性數據,也包括在圖書館自動化系統上采集到的行為數據,如文獻系統中的借閱信息、門禁系統中的入館信息、發現系統中的檢索信息等。資源數據是指MARC數據和各類元數據,如題名、責任者、主題詞、URL等,它反映了讀者行為所涉及的內容,是剖析讀者興趣偏好和構建“個人畫像”的重要依據。資源數據的采集有賴于資源聯合編目和元數據開放共享。
準確識別用戶身份是行為數據線上采集的前提和基礎。現在多數應用都設置了實名認證,系統會記錄特定讀者的借閱、入館、預約、薦購等操作。然而,圖書館每年花費大量資金采購和自建的數字資源是以IP授權形式開放的,讀者登錄校園網或VPN,便能順利訪問各種數字資源,但系統無法識別用戶身份,難以記錄產生的行為數據。為了實現行為數據采集范圍的全覆蓋,國內某些高校圖書館[10]采用了最新的WebVPN技術和Counter R5收割標準,開發數字資源門戶及統計分析系統,設置身份認證環節,統一訪問入口,分析、評價數字資源的使用情況。
智慧書架能實時監控貼有RFID標簽的流通資料,精準感知每本圖書物理位置的變化。智能視頻監控系統是借助光學裝置和傳感器獲得被檢測物體的特征圖像,從圖像中提取、分析和處理信息,進而實現對書架停留時間、書目翻閱時間等細節的全息探知[11]。iBeacon 是一項室內定位技術,具有低成本、易部署等特點。該技術通過iBeacon 基站、節點的布設,建立與移動終端的通信,即時獲取位置信息,信號最小覆蓋半徑15cm,適用于書架等近距離觸發場景[12]。未來圖書館將以室內定位技術描繪用戶的移動軌跡,以機器視覺技術判定讀者身份,抓取找書、翻書等細微動作,以RFID技術關聯讀者翻閱的書籍信息,構筑多場景、伴隨式的數據無感采集模式。
用戶畫像通常分為“群體畫像”和“個人畫像”。前者是對具有相似行為特性的用戶進行語義劃分,即定性分析讀者的行為習慣,便于制定精準化服務的實施策略;后者是對讀者興趣的文本挖掘,可用于定量分析其顯性或隱性的情感偏好,確定個性化服務的具體內容。
特征標簽是一種高度精煉的符號語言,有助于快速了解用戶在特定領域的行為表現。個別畫像研究對特征標簽的理解存在偏差,混淆了特征標簽與具體數據之間的從屬關系,譬如有文章提到姓名等屬性歸為一級標簽,年齡、星座等歸為二級標簽,注冊時間等行為信息為三級標簽[13]。其實,標簽和數據可類比為編程語言中的“類”和“對象”,數據是對客觀事物或行為的定量表述,標簽是對數據的歸納和抽象。所以,基于圖書館資源與服務的具體內容,將讀者需求歸納為實體資源P、數字資源E、空間資源U、服務資源S和活動資源A等5個方面,定義為5個一級標簽;按本館實際情況設計若干二級標簽,依據采集的數據字段,細分為三級及以上標簽,形成多維度、細粒度的特征標簽體系。例如,實體資源標簽下設置紙質文獻PP、音像資料PV等2個二級標簽,紙質文獻標簽下再設置借閱PPB、續借PPR、預約PPH等3個三級標簽,以此類推。然后,通過行為數據的歸一化處理,協調同級標簽間的比例關系,完成各級特征標簽的賦值計算,建立每位讀者的特征標簽矩陣,本研究涉及的主要數據如表1所示。
群體畫像描述的是群體的共性特征,是一個虛擬的用戶代表。在完成各級標簽賦值后,采用Hadoop 分布式計算平臺和MapReduce 計算框架,以K-Means等聚類算法,將所有讀者預先分為若干類別,不斷迭代分析,使同一群體內的特征偏好盡可能相近,不同群體的讀者則具有顯著差異。鑒于經典K-Means算法容易出現局部最優的缺陷,且迭代次數和計算速度受孤立點數據的影響較大,本研究選用了基于馬氏距離的二分K-Means 算法[14],聚類中心數K=sqrt(n/2),其中n代表待聚類目標總數。如前所述,每位讀者具備了5個一級標簽,每個標簽按需求的強弱定為高、中、低三檔,理論上有243種排列組合。那么,對浙江音樂學院5,493名讀者的標簽數據集(見表2)做K為11的聚類分析,收斂成11個“群體畫像”,各群體人數、比例及特征標簽值范圍如表3所示。

表2 讀者特征標簽矩陣數據集

表3 各群體人數、比例及特征標簽值范圍
個人畫像注重個性刻畫,通過行為與資源數據的映射關聯,提煉文本中的語義信息,繪制讀者興趣圖譜,發掘興趣的內在聯系,為后續的智慧服務奠定基礎。由于資源數據普遍存在非結構化特征,需應用文本挖掘技術中的向量空間模型,將文本內容處理簡化為向量空間中的運算。因而,讀者興趣矩陣可表示為{(i1,w1),(i2,w2)…(in,wn)},其中i代表興趣內容,w代表興趣權重[15],且賦予各興趣以時間標識,采用經過關聯性、時序性兩方面優化的TF-IDF 算法,確定每個興趣點的相應權重。
3.3.1 基于關聯影響的權重優化
從神經網絡角度理解,某一時刻的輸入可能取決于前一時刻的輸出,亦會影響下一時刻的抉擇,其邏輯關系使各節點間存在關聯性[16]。傳統TF-IDF算法僅是抽取、分析特定行為映射到的資源數據,并未考慮諸多行為間的相互影響及依賴關系,這會導致計算結果呈現離散稀疏、噪聲較大的特點。
利用貝葉斯神經網絡等深度學習技術,模擬讀者微觀行為和交互信息,捕捉行為序列對興趣生成的影響,設置興趣的關聯系數,校正不同興趣點的權重計算。例如,根據某讀者2020年9月22日至29日的行為模擬和興趣分析,勾勒出興趣點的網絡結構,如圖1-2所示。這位讀者的初始興趣為“古典音樂”,后延續至幾位著名作曲家的經典作品,關注古典音樂方向的評論分析,最終轉向“歷史音樂學”“音樂史”等領域。“古典音樂”貫穿于整個興趣網絡,是興趣生成和發展的主要線索,視為核心興趣點,分配最高關聯系數;“歷史音樂學”作為興趣遷移目標,視為關鍵興趣點,分配較高關聯系數;以此類推,“海頓”“音樂評論”等興趣點,只需分配較低關聯系數。

圖1 讀者行為模擬與興趣分析示例

圖2 讀者興趣的網絡結構示例
3.3.2 基于時序影響的權重優化
過往“個人畫像”研究只是簡單地在數據集合中分析讀者興趣所在及相應權重,忽略興趣維持的時變性特點。相同興趣點的權重會隨著時距的增加而減小,如一個月前挖掘出的興趣點比一年前產生的相同興趣點有更高的影響力。故借鑒艾賓浩斯遺忘曲線,根據興趣的發生時間,設計興趣權重的衰減模型,其公式如下:

其中,A為tn時刻某讀者的興趣衰減系數,m為記憶常量,b為衰減常量,tc為當前時刻。記憶常量一般為1,衰減常量針對不同人群作適當調整。
不同于檢索、瀏覽、下載等瞬時行為,借閱等行為挖掘出的興趣將一直延續至資源的歸還時刻。為了豐富此類行為的興趣表征,可通過個人借閱時長的綜合分析,得出每位讀者個性化的借閱習慣,以Box-Cox 變換后的累積分布函數,預測該讀者(借閱行為挖掘出的)興趣發展曲線,如公式(2)和表4所示:

表4 2657號讀者的借閱時長分析

其中,tb為資源借出時刻,tr為歸還時刻,t為借閱間隔;E為tn時刻某興趣點的分布系數,μ為該讀者所有借閱時長的平均值,σ為經Box-Cox變換后新的標準差,λ為Box-Cox變換中得出的偏度指數[17]。
3.3.3 讀者興趣的綜合建模
一言蔽之,關聯系數反映了各興趣點在邏輯思維鏈中的重要性,衰減系數表達了時間序列對同一興趣點的影響程度,分布系數是研究連續行為所涉及的興趣分布期望。某一興趣的分析挖掘,應綜合不同時間點的修正系數,加權得出相應的權重結果,完成讀者興趣矩陣的最終構建,如公式(3)~(5)所示:

其中,cn′為(瞬時行為挖掘出的)興趣修正系數,cn′′為(連續行為挖掘出的)興趣修正系數,R為關聯系數,A為衰減系數,E為分布系數,wn為TF-IDF算法確定的原始興趣權重,wn′為修正后的興趣權重。
所謂智慧服務,是依托對用戶需求的自動感知而提供優質精準的資源和服務。構筑以畫像建模、資源匹配、推介輸出為主線的智慧推介模式,是推進圖書館智慧服務的有益嘗試,有助于緩解愈加凸顯的“知識迷航”現象,使資源建設更符合讀者的身心發展和內心期盼。智慧推介所體現的個性化、實時性、交互性、人性化等特征,亦是智慧圖書館建設的必然要求和重要目標。
特征標簽體系和群體畫像的構建初衷是充分分析和掌握每位讀者的顯性需求及所屬群體的特征分布,為不同需求讀者群體提供個性化服務,致力于改善讀者情感體驗,彰顯人文關懷。圖書館用戶畫像與智慧推介項目中,畫像系統以兩個月為周期,采集所有讀者過去一年的各項行為數據,更新群體畫像的特征標簽值范圍,明確各群體下一周期的推介策略。例如,0001 號讀者的特征標簽矩陣為{0.305,0.795,0.233,0.474,0.781},判斷其符合01 號“群體畫像”,該群體對數字和活動資源的需求旺盛,實體和服務資源的需求處于平均水平,空間資源需求偏低。那么,對于0001號讀者的推介策略應遵循01號群體的常規設置,強化匹配其興趣的數字和活動資源的推介力度。此外,深入分析此讀者的二級標簽,明晰資源需求方向,若偏好期刊論文和講座培訓,則高頻推送相關信息。總之,堅持以讀者為中心、需求為導向、開放聯動為原則,按需謀劃圖書館資源建設和讀者服務工作,協助學校教學科研的科學決策和精細化管理。
智慧推介大致可分為相似性推介、差異性推介、關聯性推介和線下實時推介等四個模塊。前三者以每月更新的“個人畫像”為基礎,依照既定的推介策略,周期性推送各種資源和服務。線下實時推介主要依靠讀者當前行為分析,做好互動引導與實時推薦。
(1)相似性推介。相似性推介的核心思想是推薦與興趣相契合的資源。根據“個人畫像”中的讀者興趣矩陣,推介系統按權重從高到低羅列出N個興趣詞條,采用基于鄰域的協同過濾算法,進行興趣詞條與資源特征向量間的余弦相似度計算;排除已利用的資源項,結合剩余資源的受歡迎程度(借閱率、下載量、點播量等)做輔助排序,排名靠前的資源列為優先推介項;綜合待推介資源的館藏現狀和讀者的個性化推介策略,依次推薦給該讀者,如圖3所示。

圖3 0001號讀者的相似性推介示例
(2)差異性推介。2018年5月,習近平總書記考察北京大學時指出,廣大青年既擁有廣闊發展空間,也承載著偉大時代使命。[18]這就要求當代大學生展現出思辨、創新、實踐和審美能力,努力成長為“一專多能”的復合型人才。相似性推介側重的是個人興趣或專業知識的“高精尖”,而差異性推介主張的是知識結構拓展和完善,倡導吸納各種類型的知識經驗,以更宏觀的視角審視和解決問題。差異性推介的思路是先從興趣、行為、屬性等方面分別篩選出與目標對象相仿的讀者,后根據相仿讀者的行為記錄,逐條比對確定差異項,再排除涉及共同興趣點的資源項,遵從個性化策略分批推薦,如圖4所示。

圖4 0001號讀者的差異性推介示例
(3)關聯性推介。高校圖書館的大數據分析應當切實加強與教育教學數據的聯動性,例如通過學生成績與資源利用的關聯分析,不難發現:成績中下學生的首要需求在于獲取知識載體,尤其是完整的知識講解、知識脈絡以及適合自身條件的學習路徑。針對此類讀者,不僅要提供精準化的知識推送(如教學參考書、慕課、習題),還需不定期推介成績優異同學的閱讀曲線和學習方式,引導和激勵其拓寬閱讀廣度、挖掘知識深度;同時,積極與一線教師開展合作,利用館藏資源共同制作思維導圖、知識網絡、短視頻等個性化配套資源,營造“主動參與、共建共享”的知識新生態。可見,關聯性推介是結合學生學習情況的動態分析和準確把控,以知識粒度為本體重塑現有的知識組織體系,生動描摹知識元、知識體和知識群中的分類、推理、關聯等邏輯關系[19],使讀者可以借鑒成功的學習經驗,厘清各知識點的內在聯系,促進良好學習習慣養成和方法掌握。
(4)線下實時推介。人工智能描畫了美好的發展愿景,即萬端感知、萬機融合、萬數計算的“全景智能”時代[20],未來圖書館會像具有“智慧”的人類一樣與讀者互動并提供服務,是實體空間、虛擬資源等全方位的存在,做到“我懂你”和“我幫你”。線下實時推介,是以RFID、機器視覺、iBeacon等為代表的先進技術,完成實體空間與虛擬資源的互通互聯,著力全景數據的即時計算,打通推介服務的線上閉環,從而體現智慧服務的高效能和洞察力。自讀者進入圖書館,增量數據采集、畫像更新與推介服務同步啟動,首先根據已有的畫像數據,發送實體資源至交互界面;再根據讀者選擇或查詢的目標資源,提供導覽服務,規劃最優行進路線,快速導航至所在架位;否則,系統繼續記錄行為軌跡,計算興趣所在。若讀者在某書架的停留時間超出閾值,系統分辨其駐足尋書,會再次發起推介服務和交互請求,將附近架位中與當前興趣匹配的資源推送給讀者,循環迭代實現情境式的線下實時推介。
相比傳統圖表,數據可視化是更生動友好的表現形式,通過交互式可視化大屏來發現并診斷業務問題已成為越來越多大數據解決方案中的重要環節[21]。本文探討的用戶畫像與智慧推介系統會將讀者興趣矩陣和推介資源以動態圖譜的形式在前端展示,開放可視化溝通窗口,實時接收、計算和評估反饋信息。
為進一步掌握推介資源的用戶匹配度和現實反饋,使用“金數據”表單和線下問卷相結合的方式(因單項資源的自主評價數據較少),于2021年9月集中組織了一次智慧推介服務的使用情況調研[22]。問卷由“基礎信息”“群體畫像”“個人畫像”“推介策略”“已推介資源項”和“總體滿意度”等六部分組成。“基礎信息”部分,線下需受訪者填寫學/工號,線上則授權微信公眾號中已綁定的一卡通賬號,便于后續“已推介資源項”的精準導出和問題設置。“群體畫像”“個人畫像”和“推介策略”部分,受訪者可量化評價各級特征標簽、高權重興趣點和推介側重,列舉不認同的標簽項與興趣點,提出個性化的推介頻率。“已推介資源項”部分,根據身份認證信息從資源推介記錄中隨機挑選5項,了解受訪者對資源推介項的主觀評價。
2021年9月6-30日,累計回收紙質和電子問卷 1,933 份,有效問卷 1,890 份。結果顯示,智慧推介總體滿意度(即非常滿意和較為滿意選項)78.0%,服務續訂意愿(即非常愿意選項)69.1%,資源好評率(即大有裨益和益于了解選項)73.9%,59.5%的受訪者偏好每周一次的推介頻率。可見試運行1 年的圖書館智慧推介服務基本得到讀者認可,超半數受訪用戶愿意繼續接受該項服務。但是,資源推介頻率過高、資訊推送不夠及時、資源導航尚需完善、移動端閱讀體驗不佳等問題依然存在,有待持續改進。

表6 音視頻(庫客音樂)推介效果抽樣評估
除調研用戶主觀體驗,還應建立健全推介采納度的綜合評價機制,加強對推介資源的瀏覽、點播、下載、借閱等后續操作的統計分析,及時干預和調整負評價較多的個人或群組。例如,文章隨機抽取100位讀者為分析對象,選取2021年6月接收的實體資源紙質文獻推介155項和數字資源音視頻(庫客音樂)推介342項,以2021年3-5月為推介前統計區間,6-9月為推介后統計區間,逐個分析各資源項的利用指標,如紙質書借閱率、借閱時長、相應電子書的瀏覽/下載量、音視頻點播量、點播時長等,如表5-6所示。綜合推介前后的指標變化率:從單項看,四項指標(除點播時長)均有接近或超過半數的推介項呈現增長趨勢(即變化率≧20%);整體而言,47.7%的紙質文獻和20.2%的音視頻(庫客音樂)推介項有兩項以上指標呈現增長趨勢,各項指標均未明顯變化的比例分別為15.6% 和44.6%,如表7所示。數據表明,實體資源紙質文獻的推介效果可能優于數字資源音視頻,但類似的統計分析需繼續深入到不同資源平臺(如AS世界音樂等多個音視頻資源庫)和資源類型(如數字資源中的期刊論文等),以更豐富的統計指標完善推介效果的評估工作。最終以評估結果反哺畫像修正和推介優化,體現智慧服務的工具理性與人文內涵。

表5 紙質文獻推介效果抽樣評估

表7 推介前后各項指標的變化率分析
本文聚焦畫像建模與推介服務的細節探究和應用實例,完整闡述了從數據采集、特征標簽設計、用戶畫像構建、智慧推介架構和推介效果評估的全過程,探討了以深度學習技術研究興趣網絡結構和時間序列對興趣衰減、發展的影響,研究了基于“群體畫像”“個人畫像”的智慧推介模式及評估辦法,對于全面推進智慧圖書館建設具有一定的借鑒意義。當然也存在一些不足,例如評估指標體系、信息安全等方面的研究尚有欠缺,后續將繼續深入和細化。