程光勝(寧夏財經職業技術學院信息與智能工程系)
在以 “智慧” 為主題的時代背景下,智慧圖書館的研究和建設已成為圖書情報領域關注的熱點,但目前關于智慧圖書館的內涵,還沒有統一的界定。曾強等認為,智慧圖書館是有感知的,通過智能化技術的感知為用戶提供高效、精準的服務,這種服務是建立在智慧圖書館具備分析、判斷、思考和創造的服務能力基礎上的[1]。石婷婷等認為,智慧圖書館是圖書館發展的高級階段,并從感知、要素、人文、哲學等不同視角對智慧圖書館的定義進行了綜述,得出智慧圖書館是以人為本的可持續發展和高品質服務的一種新模式[2]。吳建中等認為,智慧圖書館是建立在數字化圖書館基礎上的,是一種高度智慧化的知識服務體系,是一個 “以人為本” 的線上與線下、虛擬和線上融合的新業態,凸顯 “使用和增值”[3]。從這些研究可以看出,智慧圖書館是在物聯網、大數據、人工智能等新一代智能技術的賦能下,實現圖書館的全要素智慧化建設和轉型,體現 “以人為本” 的個性化、精準化和泛在化的智慧服務。同時,也有文獻從邏輯方法、服務模式等角度對智慧圖書館進行了論述。總之,無論是智慧圖書館的理論研究還是業界實踐,目前都處于探索階段。
用戶畫像的概念由Alan Cooper等提出[4],是指建立在真實數據基礎上的用戶模型,是用戶信息的標簽化表示,是智慧圖書館用戶研究的有力工具,最近幾年在電子商務、教育、公共服務等領域得到廣泛應用。用戶畫像本質是研究用戶、探求用戶真實需求、對用戶進行信息分析的過程,通過分析,準確定義、描述和刻畫用戶特征,為用戶提供更加精準和個性化的服務。
趙建建在用戶畫像模型設計的基礎上,從用戶數據入手,建立用戶標簽體系,通過TF-IDF算法以及聚類分析全方位闡述了個體用戶畫像和群體用戶畫像的生成過程[5]。廖運平等將智慧圖書館的用戶畫像按照應用目的劃分為面向設計的用戶畫像和面向營銷的用戶畫像,并從內涵特征、需求分析、創建方法、創建步驟等方面闡述了兩類用戶畫像的區別及生成過程[6]。楊倩為了精準分析與預測用戶需求,選取用戶、資源和服務三個維度,并分別創建標簽內容表,運用聚類算法分組用戶,構建了基于需求深度和資源廣度的差別化用戶群組畫像[7]。肖海清等提出并構建了基于參與視角的用戶畫像,并將其應用到圖書館閱讀推廣領域[8]。于興尚等從用戶認知維度提出圖書館用戶畫像系統模型,旨在契合圖書館用戶信息軌跡,改善用戶認知需求質量,縮小認知差距[9]。李曉敏等以智慧圖書館的圖書推薦為目的,從自然屬性、興趣屬性、社交屬性三個維度構建了用戶畫像,并實證了該用戶畫像能夠提升個性化服務能力,達到精準推薦的效果。[10]
上述文獻側重從圖書情報領域構建用戶畫像,最終目的是實現圖書資源的精準推薦和個性化服務,但是在構建維度上略有差異,運用的算法、流程以及方法不盡相同,這為本文提供了很好的思路。然而,用戶畫像的構建需要依賴大量用戶數據,如何從數據科學的角度,發揮數據的最大價值并構建用戶精準畫像,現有文獻卻很少涉及。因此,本文將用戶數據分為用戶 “小數據” 和用戶 “大數據” ,根據小數據和大數據的特點構建精準的用戶畫像和群體畫像,并通過精準畫像為用戶提供智慧服務。
這里的用戶 “小數據” 是指個體數據,用其構建用戶畫像能夠 “見微” ,用戶 “大數據” 是指全量數據,反映群體特征,用其構建群體畫像能夠 “知著” 。在用戶畫像中,通過綜合運用 “大數據+小數據” ,既能以小帶大、小中見大,又能抓大放小、以大兼小,充分發揮大小數據的優勢,讓大數據體現規律、小數據蘊含智慧。大數據時代下的小數據是一類新型的數據,并不是數據量小,而是圍繞個體的全方位數據,對外形成一個富有個人色彩的數據系統,具有鮮明的個體獨特性、復雜多樣的數據特性、高度的實時動態性和明顯的人機交互性。[11]
數據多未必就是大數據。對于單個圖書館而言,現有的數據量映射到全體用戶上是很稀疏的,難以反映特定的相關關系和規律,因此圍繞單個用戶的小數據分析可能更具優勢。小數據的數據體量有限、相關性強、價值密度高,關注個體的特殊性,而非總體的普遍性,數據的獲取、處理和分析成本很低,能夠準確描述個體的特征和行為,體現其個性化閱讀及知識需求,為圖書館個性化智能服務決策制定和模式構建提供有力支撐[12]。而大數據分析采用全樣本方法,得到的結果是一般化的共性,用戶的個性化需求完全被忽略,將其應用到智慧圖書館的 “智慧” 服務中,難以讓個體用戶滿意。
獲取用戶小數據是實現用戶精準畫像的基礎,一般包括用戶表達和行為感知兩個方面[13]。前者是用戶需求的直接反映,如用戶的借閱行為、文獻的查閱、對特定主題的評論反饋等,這些可以視作外表特征,是用戶自身可以表達的;后者需要借助特定的技術或設備去感知,如特定時空維度下的行為軌跡感知、基于用戶情境的社交行為感知等。與其他數據來源相比,智慧圖書館下的用戶小數據除了能夠記錄和反映用戶的行為及喜好等特征外,還能記錄用戶的心理、生理、思想、情感和文化等特征,并將這些特征進行量化表示,以便繪制更加精準的用戶畫像。
劉慶麟認為,用戶小數據由個體特征數據、讀者體驗數據和社會化及共享數據構成[14]。陳臣等根據畫像的需要,將圖書館用戶小數據劃分為讀者特征數據、用戶生成數據和閱讀相關數據,其中的閱讀相關數據具體為閱讀情景數據、閱讀行為數據、閱讀心理數據、閱讀社會關系數據[15]。劉揚等將用戶個人小數據分解為用戶基本數據、用戶行為數據、科研協同數據和情景數據[16]。綜合以上分類并根據本文的研究需要,筆者將智慧圖書館環境下的用戶小數據劃分為用戶特征數據、用戶場景數據、用戶行為數據以及用戶情感數據。
用戶特征數據反映用戶的人口統計屬性,包括用戶在注冊或個人信息維護時填寫的姓名、性別、文化程度、專業方向、關注領域等,屬于靜態數據,一般不會發生變化;用戶場景數據反映用戶使用圖書館的位置空間變換,線上可以通過網絡IP地址、移動終端傳感設備,線下可以通過智慧圖書館內的視頻采集設備等途徑采集;用戶行為數據反映用戶使用圖書館過程中執行的各種操作,如圖書借閱、文獻下載、主題詞查詢、觀看音視頻資源、資源評論等,記錄了用戶使用圖書館時留下的操作痕跡;用戶情感數據反映用戶在使用圖書館過程中的情感變化,有顯性和隱性之分,顯性可通過智能設備采集和感知,隱性可借助智能技術深度挖掘和分析獲取,是用戶小數據很重要的組成部分。過去囿于技術和設備,情感數據在研究中一直被忽視,近年來隨著機器學習、人工智能等技術的深度應用,情感數據已經引起不同領域研究者的極大關注。
圖書館中的用戶小數據可能分散于各個子系統和不同的數據節點。不同的子系統由于產生數據的方式和環境的不同,其數據類型和存儲方式呈現多樣性,如用戶的基本信息、查詢信息、借閱信息等結構化數據屬于信息系統常規的數據和操作,而對用戶行為的跟蹤和記錄等半結構化或非結構化數據一般由系統自動生成,主要采用文本、XML文件等存儲。另外,還有一部分數據由各種傳感器生成,如位置定位、心理生理指標等,屬于行為感知數據,這類數據一般也屬于半結構化或非結構化數據。針對結構化數據,在存儲時可采用基于SQL的關系型數據庫,而對半結構化或非結構化的數據,則需借助基于NoSQL的非關系型數據庫實現,比較有代表性的有鍵值對型(如 Redis、Riak等)、文檔型 (如 MongoDB、CouchDB等)、列存儲型(如HBase、Cassandra等)和圖形(如 Infinite Graph、Neo4J等)。因此,從這些不同的子系統和數據節點獲取用戶小數據時,就需面臨如何來獲取以及獲取后如何整合等問題,獲取的完整性和整合的一致性直接影響用戶畫像的精準性。目前,已有成熟的API和第三方工具用于獲取不同存儲環境下的數據,在整合時需要對數據進行清洗,如補充缺失值、剔除異常值、刪除重復值等。
為了建立用戶精準畫像,首先需要創建用戶畫像標簽。有了上述用戶小數據,用戶畫像標簽可由經過數據處理和分析的用戶小數據動態生成。具體生成過程見模型。
式(1)中,M表示用戶畫像標簽,M={M1,M2,M3,M4},M1表示用戶基本信息標簽,M2表示用戶場景信息標簽,M3表示用戶行為信息標簽,M4表示用戶情感信息標簽。則

其中,i=1,2,3,4,j=1,2,……,n,n代表用戶小數據的數據容量。aij為常量矩陣,表示因子載荷,Fj為相互獨立且不可測的公因子,表示畫像相關因子在整個用戶小數據指標體系中的權重,εi為僅對該類畫像標簽有影響的特殊因子,在M的計算表達式中,F與εi相互獨立。
用戶畫像就是用戶信息、用戶場景、用戶行為和用戶情感不同類別標簽的集合,可以完整刻畫用戶在特定時間段內的綜合表現。通過上述模型生成的用戶標簽并不是固定不變的,會隨著用戶行為、情感、場景等的變化而變化,這種變化可以通過模型進行刻畫和描述,如果用P表示用戶在某個時間點上生成的畫像,那么引入時間變量t,P就是一個隨時間t衰減的函數,具體見式(2)。

式(2)中,i=1,2,3,4,Ct為隨時間t變化的衰減值,Ct∈(0,1],時間間隔越長,則Ct的取值越小,衰減越厲害。其計算公式見式(3)。

式(3)中,t為當前時間,t'為學習行為發生或畫像模型生成的時間,α為衰減因子,其值可由專家根據經驗給出或通過回歸計算得到。
以時間作為X軸、以空間(位置)作為Y軸、以情感作為Z軸,生成立體化的用戶個體畫像(見圖1)。

圖1 立體畫像描述
在時間上,可以分為(0:00,6:00]、(6:00,8:00]、(8:00,12:00]、(12:00,14:00]、(14:00,18:00]、(18:00,20:00]、(20:00,24:00] 七個時間段,用于探索用戶的學習時間規律;在空間上,可以反映用戶的位置變化,進一步了解用戶在學習時是否經常集中于某個地點,以發現用戶的特定學習模式;情感維度反映用戶學習時的情感變化,與時間、空間維度不同的是,情感無法直接提取,需要借助文本分析、圖像識別、視頻挖掘等技術手段深層次分析獲取。通過以上三個維度集中反映用戶的學習行為,從而獲取用戶的關注領域、研究方向、資源偏好、操作習慣、網絡互動等重要信息。
圖書館的每個用戶在學習過程中會與其他個體產生某種關聯,從而形成特定的網絡關系。利用用戶小數據可以為每一位用戶建立精準畫像,但是會給系統帶來極大的資源和計算開銷,且個人用戶畫像在應用中也會受限。因此,為了減輕系統計算壓力,提高用戶畫像應用的實際性,有必要利用圖書館積累的大數據建立用戶群體畫像。與個體精準畫像不同,群體畫像本質上是對用戶進行分組,按照相似性原理將具有相似特征的用戶群體組織成一個虛擬整體,并用特定標簽對其進行描述。群體內的用戶有很多共性特征,而群體之間的用戶在某種程度上存在一定的差異,因此群體畫像是一個將扁平化的用戶數據經過不同的數據分析方法形成高度概括化和標簽化畫像的過程[17]。
為了推動知識交流和創新,也為了促進學科交叉和融合,本文以閱讀興趣為主題構建群體畫像,構建流程見圖2。群體畫像使得群內具有趨同性,群內用戶通過交流深化領域學習,不同群體畫像具有外部互異常性,群間用戶通過交流促進融合創新[18]。

圖2 群體畫像構建流程
群體畫像構建流程在邏輯上劃分為數據層、分析層和概念層。數據層表示用戶的各項數據,在群體畫像中主要關注用戶的各項行為數據,而這些行為數據一般是系統通過日志的方式記錄下來的,默認為文本文件或XML文件格式;分析層按照特定需求對數據層的各項數據進行分析,典型的分析方法有聚類分析、文本分析、主題分析、網絡分析等,通過綜合運用這些方法,形成用戶大數據與畫像標簽的關聯;概念層是標簽在特定用戶群體上的可視化呈現,可以按照不同的時間段、不同的方式展示群體畫像結果。
根據圖書館用戶的閱讀和學習行為,筆者認為可從用戶基本信息、學習興趣和網絡社交關系三個方面設計畫像標簽。用戶基本信息可以顯示畫像群體人數、男女性別占比、學科專業分布、學歷或職稱結構分布等信息;學習興趣反映畫像群體關注哪些關鍵詞,并以類似詞云的方式呈現關鍵詞熱度;網絡社交關系以網絡圖的方式顯示用戶和用戶之間關于某一主題(話題)的討論、評價等信息,或在某一段時間內共同學習了某個資源,或通過合作關系發表了某篇論文,或通過引證關系引用了其他用戶的作品等。
在設計群體畫像標簽后,需要對用戶數據進行整合處理。整合后將以用戶ID為關鍵字,對應用戶一段時間的所有文本信息,文本信息主要反映這一段時間用戶學習的資源、搜索的關鍵詞、發布的文本評論等。在此基礎上,提取所有文本信息的關鍵詞,通過關鍵詞構建用戶學習興趣模型,并采用關鍵詞共現網絡的方式發現用戶的共同學習興趣,構建學習興趣模型。
通過關鍵詞共現網絡,形成了基于關鍵詞的詞網絡。關鍵詞共現次數越多,說明用戶關注的主題越相似,學習興趣越大。在詞網絡的基礎上,可借助社團劃分算法劃分用戶群體。顧名思義,社團就是在網絡中屬性相似或角色相近的點集,而這里就是以關鍵詞為中心形成的用戶群體,群體內部連接緊密而群體之間連接松散。為了在復雜網絡中有效劃分社團而形成一系列有意義的社團結構,誕生了很多網絡社團劃分,如Girvan等提出的GN算法(分裂法)、Newman提出的FN貪婪算法(聚合法)、Blondel等提出的Louvain算法(聚合法)、Waltman等提出的SLM算法(聚合法)等。陳云偉等針對這些算法進行了比較研究,結果表明:GN算法時間效率低下,FN算法無法保證計算精度和計算效率,而Louvain算法、Louvain多級細分算法、SLM算法針對中小型數據集的劃分效果較好[19]。
執行具體劃分是一個數據量較大的計算過程,考慮到結果生成的非實時性、吞吐量、處理速度等因素,可以選擇Spark實現對數據的處理和計算。同時,不論是處理的數據對象還是生成的群體畫像對象,都可以采用基于文檔的MongoDB數據庫實現存儲管理。在搭建技術平臺時,可以選擇Spark+MongoDB的大數據技術管理平臺實現群體畫像的計算處理和存儲。
用戶畫像的目的是為智慧圖書館的個性化推薦系統提供智能化支持,為單個用戶和群體用戶提供個性化資源推薦,實現用戶和資源之間精準映射。用戶畫像的結構關系見圖3,從圖3可以看出,用戶畫像是個性化推薦的基礎,個性化推薦系統是推薦的核心,推薦系統需要與用戶畫像、館藏資源同時交互,從而產生針對用戶個體和用戶群體的不同推薦。

圖3 用戶畫像應用
(1)學習需求推薦。通過精準用戶畫像,可以獲知用戶使用圖書館是基于哪一種類型的閱讀需求。如果是學習型閱讀需求,可以結合用戶的閱讀興趣和偏好推薦與閱讀主題相關的優質學習資源;如果是科研型閱讀需求,可以推薦與用戶最近研究主題相關的文獻資料;如果是實踐型閱讀需求,可以推薦相關視頻資源和操作手冊;如果是娛樂型閱讀需求,可以從用戶成長發展的角度推薦業余文化生活方面的信息資源。
(2)場景服務推薦。場景個性化服務是指圖書館提供的契合用戶興趣和需求的各種服務,滿足用戶的實時場景(時間、空間、學習情境等)需求。融入場景標簽的用戶畫像為圖書館個性化場景服務推薦提供了有效支撐,如用戶只要打開智慧圖書館App,借助智能終端的傳感器設備,用戶畫像模型就能夠實時獲取用戶的場景數據,從而推薦與場景相匹配的資源列表。
(3)智能用戶追蹤。用戶從注冊圖書館到使用再到最終的注銷退出,存在用戶生命周期特性。用戶個體畫像可以捕獲用戶所處生命周期的階段,運用機器學習、數據挖掘等方法判別用戶的狀態和類別(普通、活躍、流失),并根據這些信息制定追蹤策略、優化資源供給、改進服務模式,確保為用戶提供優質資源,并根據流失用戶的畫像信息建立流失預警分析機制,強化個性化服務措施,吸引流失用戶回到圖書館。
(4)智慧服務評估。用戶可以對推薦結果進行有效評估,幫助推薦系統優化推薦算法,生成更高質量、更加精準的推薦結果,提高推薦引擎的推薦質量,滿足用戶潛在的學習需求,體現 “以人為本” 的智慧服務。
本文基于智慧圖書館的用戶海量行為數據,從數據科學的角度區分了小數據和大數據的內涵,明確了二者的相互關系。在此基礎上,利用小數據構建用戶個體畫像,利用大數據構建用戶群體畫像,充分發揮了用戶大數據和用戶小數據的各自優勢。生成的用戶畫像模型實現了圖書館各種資源與用戶需求的精準對接,滿足了用戶的個性化需求,進而有效支撐智慧圖書館的 “智慧” 服務。然而,本文僅僅側重于圖書館的用戶畫像,事實上要實現用戶和知識資源的精準適配,還需要從多個維度、更細粒度刻畫資源實體——知識元,形成有語義化的知識元和知識元之間的結構關系,并按需組合知識元,形成特定意義上的學習資源。這將打破以文獻、圖書為單位的資源體系,從而使用戶需求和知識元之間能夠形成更加靈活的映射關系。