王麗艷,郭春俠
(安徽大學管理學院,安徽 合肥 232601)
近年來,大數據、云計算以及人工智能的快速發展逐漸催生出用戶畫像。用戶畫像是一種以大量數據為基礎,從海量用戶使用痕跡中細分用戶群,精準挖掘用戶需求的工具。基于圖書館目前所提供的資源與服務跟用戶真實需求之間存有明顯差距,圖書館需回歸讀者本身來重新審視其復雜多變的閱讀需求,為其提供專業化與定制化精準服務。作為用戶描述工具的用戶畫像一經出現,便引起圖書館界眾多人士的關注。國內圖書館用戶畫像發展較快,近幾年已經積累大量研究文獻,也產生許多新的研究領域。因此,非常有必要對2014年以來的國內圖書館用戶畫像文獻進行系統梳理,采用定量和定性方法融合研究用戶畫像,深入探討其研究現狀以及未來發展趨勢。
用戶畫像最早于1999年在國外設計領域興起,其常用英文是Personas或User Profiles,且Persons是Cooper,A引入的一種描述User Profiles的方法。在國外,Personas更加偏重于用戶理論研究,與種族人類學(人種學)密切相關,是具有名稱、面孔、興趣和偏好的原型用戶的描述性模型;而User Profiles是人們利用機器學習和文本挖掘技術等從數量驚人的可用數據中歸納出用戶興趣的結構化模型。2011年,Miaskiewicz等采用德爾菲方法論篩選出用戶畫像引入到設計領域所帶來的5個最重要的優點,即聚焦受眾、產品需求優先級、受眾優先級、質疑有關用戶的錯誤假設、防止自我參照設計。
綜上所述,大數據時代下,圖書館用戶畫像即用戶信息標簽化,是以圖書館服務系統及其相關平臺一系列真實數據為基礎,借助數據預處理、機器學習、數據挖掘、可視化等技術自動提取出個體或群體用戶標簽,從而建立起聯系用戶訴求與設計方向的目標用戶模型。
圖書館應用用戶畫像需要特定的流程,可從數據采集層、數據挖掘層以及數據應用層三個層面構建完整的用戶畫像模型(見圖1)。

圖1 圖書館用戶畫像建模
首先,明確模型構建目的。只有明確模型要解決什么樣的實際問題,才能有的放矢地采集有效數據。
其次,數據采集層圍繞模型構建目的進行相關數據的采集以及清洗整理工作。用戶畫像數據由結構化數據(學歷、專業等)、半結構化數據(瀏覽、下載等)以及非結構化數據(評論內容、反饋意見等)構成。其中,半結構化數據與非結構數據較為復雜,可采用數據預處理方法將其轉化為結構化數據后再進行數據挖掘與數據分析。這里展示了構建用戶畫像所需的6個基本維度的用戶數據,即用戶基本數據、用戶行為數據、用戶社交數據、用戶科研數據、用戶情境數據與用戶信用數據。用戶數據之間有較強的關聯性與內在機理且需動態更新。若用戶畫像應用到圖書館某具體領域,需根據領域特色補充相關數據。
再次,在數據挖掘層將采集到的用戶數據提煉出群體用戶多級標簽。標簽通常是人為規定的高度精練的特征標識,如學歷、院系、信用等級等。本文將學歷、天氣狀況、信用等級定為一級標簽,而用戶基本信息、用戶情境信息以及用戶信用信息則定為二級標簽,以此類推,逐級歸納聚類,形成單個用戶的多級標簽,所有用戶標簽利用數據挖掘技術進行關聯分析、聚類分析、分類分析,按照特定的劃分標準將單個用戶多級標簽聚類形成群體用戶多級標簽,由此形成用戶畫像分級分類體系。
最后,在數據應用層利用可視化技術呈現展示用戶畫像模型,使用戶畫像適用于不同的應用領域。
截至2020年7月,在中國知網數據庫以主題為“圖書館+用戶畫像”或者“圖書館+讀者畫像”或者“圖書館+人物畫像”進行精確檢索,最終得出119篇有效期刊論文和7篇碩士和博士學位論文,共計126篇論文。本文采用文獻調研方法對這126篇論文進行研究分析,由于文章篇幅限制,本文僅選擇有代表性的進行綜述。
從圖2能夠看出,圖書館界在2014年開始研究用戶畫像,2015—2017年學術研究較少。不過,從2018年開始,圖書館界有關用戶畫像的學術文獻迅速增加。碩士和博士學位論文從2018年開始研究圖書館用戶畫像,且呈遞增趨勢,預計在未來一段時間內,研究主題為圖書館用戶畫像的碩博士學位論文將會持續增加。據本次調研,圖書館用戶畫像的科研基金項目最早是2017年福建省中青年教師教育科研項目“高校移動圖書館用戶畫像構建研究”(項目編號:JZ170349),隨后,科研基金項目不斷增加,2018年出現了教育部人文社會科學研究項目與國家社會科學基金項目,圖書館用戶畫像研究呈現出欣欣向榮的景象。

圖2 圖書館用戶畫像論文年發文量(單位:篇)
用戶是用戶畫像的主要研究對象,而用戶類型以及用戶需求的多樣性決定了文章在研究某個具體領域時,用戶群體的研究范圍以及研究側重點是不一樣的,即用戶畫像具有較強的領域性。鑒于當前學術界對用戶畫像的研究已有一定的研究成果,本文在梳理圖書館領域用戶畫像文獻的基礎上,綜合圖書館實踐業務工作,對這些文獻主題進行深入分析并匯總整理,從中篩選出圖書館應用用戶畫像的4個細分領域,分別是資源采購、資源推薦、知識咨詢服務以及圖書館設計。
3.2.1 用戶畫像用于資源采購。基于用戶畫像的采購模式與以往不同,它是根據用戶主觀性的借閱、續借、瀏覽、下載等使用痕跡,從海量客觀數據出發,推測用戶閱讀需求的一種文獻資源采購方式。張勝蓉提出大數據背景下圖書館與出版社應在用戶特性、用戶畫像模式、用戶畫像標準等方面進行規范化統一,以形成基于用戶畫像的精準合作關系。朱會華等在建立用戶畫像數據庫的基礎上,形成三大智能薦購模式,即以數據挖掘為核心的用戶薦購、以知識聚類為核心的學科薦購、以用戶需求為核心的采訪薦購模式。
3.2.2 用戶畫像用于資源推薦。這里的資源推薦指的是廣義的資源推薦,包括資源推薦、資源推送、資源推廣等。用戶畫像用于資源推薦是學者重點關注甚至是研究探討最多的領域。推薦系統既要滿足用戶個性化檢索的需求,又要主動為用戶推薦符合其喜好的文獻資源。為此,基于用戶畫像的資源推薦系統可以從滿足用戶的興趣偏好和閱讀保健治療兩方面閱讀需求入手,分別刻畫用戶偏好畫像和用戶健康畫像,通過度量用戶畫像與資源畫像的相關性來實現個性化檢索與精準推薦。
用戶偏好畫像。以用戶偏好畫像為核心的智慧推薦系統從滿足用戶興趣愛好的角度出發,向用戶推薦文獻資源與講座活動等基礎服務。王順箐借助用戶畫像把握用戶對不同資源的個人喜好和動態需求,以實現文獻資源的個性化推薦。劉海鷗等融合用戶基本信息標簽、內容偏好標簽、互動標簽、會話標簽以及情境標簽構建圖書館用戶畫像模型,力圖實現知識服務情境化推薦。王慶等從用戶基本信息、用戶內容偏好數據、用戶互動數據、用戶會話數據等多個維度分析用戶興趣偏好,建立用戶畫像模型,從而對單用戶以及群體用戶進行資源推薦。
用戶健康畫像。以用戶健康畫像為核心的智慧推薦系統利用How Net詞典或者“伯恩斯抑郁癥清單(BDC)”結合用戶網上言論與行為構建用戶情緒詞典,刻畫用戶畫像。在“互聯網+”時代,圖書館聯合微信、微博等新媒體記錄用戶負面言行,及時發現用戶負面情緒,為用戶建立健康檔案并實時為用戶推送相關文獻,如心理學、哲學、歷史、文學等不同類別的書籍,達到提前診斷,提早治療的目的。目前,在用戶畫像的研究文獻中,大部分資源推薦是基于用戶興趣愛好的,而以滿足用戶保健治療為目的的論文數量則較為稀少,有進一步研究的空間。
3.2.3 用戶畫像用于知識咨詢服務。人工智能時代下的基于用戶畫像的數字咨詢服務是借助大數據技術抓取發現用戶顯性與隱性問題并主動為其推送相匹配的解答。
參考咨詢。邢海鑫等以用戶興趣信息和用戶行為信息為切入點,構建基于用戶畫像的數字參考咨詢智能化推薦模式,從而實現用戶方面信息與圖書館方面信息的主動匹配。朱娜娜等融合人物畫像建立人機對話模型,增強數字參考咨詢服務的個性化與趣味性。
學科服務。薛歡雪從學科服務角度創建高校圖書館用戶畫像。馬管等探討學科用戶畫像建模流程并拓展其應用場景,如學科信息素養教育、館藏資源建設及關聯推薦、嵌入式科研支撐服務等。潘宇光指出高校智慧圖書館學科服務使用讀者畫像的優勢并進行建模分析。
文獻傳遞。蔣君等以中國醫學科學院圖書館為例,構建原文傳遞用戶畫像。
3.2.4 用戶畫像用于圖書館設計。圖書館空間設計。近年來,讀者對圖書館空間布局、服務設施等空間服務的需求越來越多樣化與個性化,了解用戶對圖書館空間的使用偏好可以使圖書館空間布局的規劃設計更加貼合用戶需求,提高用戶到館率。不同用戶的活動習慣不盡相同,楊燕認為用戶畫像是圖書館制訂未來發展規劃和空間建設的重要依據。尹相權以北京師范大學圖書館研究間系統日志為數據源,探索影響研究間使用的相關因素以及各因素間的深層次關聯,為研究間的設施改善、精準服務提供數據支撐。劉海鷗等提出利用用戶畫像發現對創業有想法的用戶,并在圖書館規劃的空間內為其提供相匹配的創業工作坊、創客空間等創新創業知識服務。康存輝設計出基于用戶畫像的高校智慧圖書館服務空間再造策略。楊琬如等提出一種基于用戶畫像優化設計公共圖書館座位的構思。
數字圖書館界面設計。數字圖書館界面設計直接關系到用戶參與的舒適度,是人機交互的關鍵,為此,圖書館越來越重視讀者的個性化閱讀體驗,力圖打破無差別的數字圖書館閱讀界面設計,改善用戶體驗,提高用戶忠誠度。用戶需求被視為一組嚴格的設計規則,而不是與設計團隊的服務對話。設計人員借助用戶信息數據、用戶行為數據、用戶情境數據等感知用戶對數字圖書館界面風格與功能設計的需求與期望,以確定整個數字圖書館界面的主配色、字體、功能設置、互動需求、頁面排版與布局,等等。目前,國內有關用戶畫像與數字圖書館界面設計的研究成果較少,其中,有關數字圖書館界面設計的文獻成果則更為稀少。嚴春來建議高校利用用戶畫像來設計完善移動數字圖書館App的功能模塊。李大偉等利用用戶畫像對圖書推薦App進行詳細設計,使其具備美觀性與易用性。
研究方法是了解和認識學術研究,形成學術成果的一種手段和工具。梳理用戶畫像研究方法,對于摸清其研究脈絡,提高其研究質量具有重要價值。筆者逐一審讀126篇論文,在判定研究方法時,以文中所提到的研究方法為準,若文章未曾提到,則在貼合文章內容的基礎上,人工標注其實際采用的研究方法。最后,文章選取理性思辨法、模型展示法、調查法、實驗法、案例分析法等常用研究方法,對其使用頻次進行統計(見圖3),并探索分析其在圖書館用戶畫像領域的適用情況以及存在的問題。

圖3 研究方法使用頻次統計(單位:次)
3.3.1 研究方法使用頻次。從2014年1月至2020年7月底,與圖書館用戶畫像有關的論文共有126篇,其中,模型展示法使用72次,調查法使用27次,實驗法使用8次,案例分析法使用19次。由于基本每篇論文都會使用理性思辨法,因此未曾統計使用頻次。模型展示法、調查法、實驗法以及案例分析法在2014—2016年均沒有使用記錄。2017年,論文開始采用模型展示法、調查法、實驗法以及案例分析法。自2017年以來,模型展示法、調查法、案例分析法的使用頻次基本呈上升趨勢。研究方法的使用情況在一定程度上代表了這個主題的完善程度,這表明用戶畫像在圖書館領域的應用日臻成熟完善。
3.3.2 研究方法適用情況及存在的問題。
(1)理論研究方法
理論研究先于實證研究,是實證研究的基石。只有把理論基礎夯實,實證研究方能走得更穩,走得更遠。目前,用戶畫像理論研究略占上風,但遠未達到飽和,尚處于探索階段。常用的理論研究方法為理性思辨法和模型展示法。
理性思辨法。理性思辨法是使用最為廣泛的一種方法,運用思辨法研究圖書館用戶畫像主要集中于以下三個方面:一是“什么是用戶畫像”——用戶畫像概念內涵、英文表達、構成要素以及特性等基本問題的梳理探討;二是“為什么應用用戶畫像”——圖書館應用用戶畫像的可行性與必要性、應用價值、應用優勢以及應用領域的研究分析;三是“如何應用用戶畫像”——用戶畫像構建流程、算法技術、應用啟示、應用困境以及應用策略等的研究。
模型展示法。模型展示法是構建模型、平臺、框架、本體等,主要展示基于用戶畫像的多層次、立體化用戶模型,常見的表達方式有模式、模型、建模、框架、流程、體系、方案、架構等。用戶畫像模型通常分為數據采集層、數據挖掘層以及數據應用層。在所調研的文獻中,模型展示法使用率最高且是文獻理論部分的核心,究其原因是用戶畫像作為一種目標用戶模型與模型展示法契合度較高,運用模型展示法能為資源精準化推薦、空間環境的改進以及服務系統的完善提供一種清晰完整的新思路與新框架。例如,劉海鷗等在《面向情境化推薦服務的圖書館用戶畫像研究》一文中,將圖書館用戶畫像框架結構分為數據資源層、數據挖掘層以及應用服務層三層,并在文章的后半部分結合實例來驗證用戶畫像理論框架。
(2)實證研究方法
用戶畫像是一種與圖書館工作聯系緊密的理論模型,其實踐應用性不容忽視。采用實證研究方法驗證理論模型無疑是用戶畫像由理論轉為實踐的關鍵環節,是最具說服力的科學嚴謹的驗證策略。通常是用戶畫像理論模型先行提出,可行性驗證(實例驗證與實驗驗證)隨后跟上。實證研究方法的三大核心方法為調查法、實驗法與案例分析法。
調查法。調查法是搜集數據的有效方式,常用的有問卷調查法、訪談調查法、網絡調查法以及實地調查法。問卷調查法既能在實驗前搜集用戶數據,又能在實驗后通過獲取用戶滿意度來對用戶畫像模型進行后期評估。借助網絡或者現場發放問卷的方式搜集用戶數據,數據保密性好,但樣本量較小、覆蓋面不廣,容易導致用戶畫像的群體類型有遺漏的風險。訪談調查法使用類型豐富,包括座談會、一對一訪談、專家訪談法等形式,但使用頻率較低,是一種輔助研究方法。問卷調查法與訪談調查法能直接獲取用戶的主觀感受,但由于采集成本較高,使用率不高。網絡調查法是用戶畫像數據搜集的最主要方法。追本溯源,用戶畫像依托于大數據技術產生、發展,對數據要求較高。用戶數據維度越全,質量越高,形成的畫像就越精準,而網絡調查法采集數據效率高、成本低且更具客觀性,因此,其也成為用戶畫像數據搜集的最普通方式。在構建用戶畫像模型時,利用Python,ACHE和八爪魚等數據爬蟲工具從圖書館及其相關平臺抓取訪問日志、注冊信息等用戶數據,有助于提高文本與數據挖掘的準確性與有效性,提高用戶畫像運用的成功率。實地調查法是深入實地,在與用戶的直接接觸中考察用戶以獲得原始資料的研究方法。實地調查法在文獻研究中使用頻次較少,適用于圖書館實地調查,例如,對圖書館周邊環境、家具類型、采光條件、相對位置以及電源插座等的調研。調查法還常與案例分析法或實驗法相結合,用于搜集研究數據。例如,《淺議數字圖書館知識發現系統中的用戶畫像——以天津圖書館為例》綜合采用調查法與案例分析法研究用戶畫像;《基于VSM的移動圖書館用戶畫像及場景推薦》綜合運用問卷調查方法、訪問日志挖掘方法、出聲思考法以及專家訪談法搜集數據,然后利用實驗法驗證用戶畫像理論模型的可行性。
實驗法。實驗法常與調查法相結合,主要用于閱讀推薦領域。運用實驗法對文章所提出的模型進行可行性驗證或驗證其所提出的用戶畫像構建方法與傳統方法相比具備更高的準確性與用戶滿意度。實驗的評價指標具體包括用戶滿意度、查準率以及召回率等。用戶滿意度直接反映用戶意愿,主觀性較強,而查準率、召回率等評價指標依靠客觀數據計算,人為因素干擾較小,增強了研究結論的可靠性與可信性,但這種算法是否具備普適性還是一個未知數。總之,實驗法在用戶畫像實證研究中的作用與價值不容忽視,其未來的應用將更加普遍。
案例分析法。部分文獻僅從題目描述就能看出其采用案例分析法,如“以×××為例”,而有些文獻則難以看出,需通讀全文后,人工判別其采用的研究方法。調研發現,部分文獻在其后半部分采用案例分析法來驗證假設模型。例如,《數字圖書館用戶畫像建模與應用實踐》一文以國家農業圖書館為例實踐驗證用戶畫像理論模型。文獻所選用的案例多數是作者所在的高校圖書館,這可能與高校圖書館保密意識較強,數據不易獲取有關。選用的案例一般可分為兩種,一種是傳統圖書館,另一種是正在應用用戶畫像的圖書館。傳統圖書館研究如何借助用戶畫像實現更優質發展,而正在應用用戶畫像的圖書館如中國農業科學院國家農業圖書館、中國國家圖書館則講述其當前應用用戶畫像的進展、建設成果以及未來系統平臺服務優化方向。
圖書館用戶畫像不再是大范圍地粗略關注用戶,而是進一步聚焦從用戶身上所折射出來的各類標簽以及這些標簽所抽象呈現的各類栩栩如生的圖書館場景,如資源采購、資源推薦、知識咨詢服務、圖書館設計等大場景以及這些大場景下的各類小場景。圖書館用戶畫像未來的用戶將“生活”于具有代表性的特定場景中,因此,用戶畫像不僅適用于場景推薦,還適用于場景規劃與場景重構。
2014年,李業根首次將用戶畫像引入圖書館界。自此之后,圖書館界有關用戶畫像的各級各類科研基金項目不斷涌現,研究項目持續推進,眾多學者紛紛將目光投向用戶畫像研究,研究熱度不斷升溫,主題為用戶畫像的期刊論文與碩士和博士學位論文發文量呈逐年遞增趨勢,研究成果層出不窮,研究領域不斷拓展,圖書館用戶畫像研究不斷向縱深方向發展。
本文梳理了資源采購、資源推薦、知識咨詢服務與圖書館設計4個較為成熟的研究領域,資源推薦領域文獻研究最多,其次是圖書館設計領域。筆者通過上述檢索獲取了各研究領域的發文數量、研究主題與起始時間:資源采購有2篇,研究主題包含智能薦購、圖書館與出版社合作模式,第1篇文獻發表年份為2016年;資源推薦有55篇,研究主題包括資源推薦、資源推廣、資源推送,第一篇文獻發表年份為2018年;知識咨詢服務有6篇,研究主題包括問答服務、學科服務與文獻傳遞,第一篇文獻發表年份為2018年;圖書館設計有7篇,研究主題包括空間設計與界面設計,第一篇文獻發表年份為2018年。由此可見,圖書館用戶畫像研究領域以及研究主題不斷豐富深入。后續學者依然可以在這些較為成熟的研究領域,采用不同的方法從不同的主題或者視角繼續展開研究,如決策參考服務、引文推薦服務、服務自動化等。
不同研究方法各有其特性、優點與不足,在選用研究方法時,一般綜合采用多種研究方法,從多方面、多角度驗證完善學術研究成果。在所調研的文獻中,“理性思辨法+模型展示法”“模型展示法+調查法+案例分析法”“模型展示法+調查法+實驗法”綜合運用較多。一方面,理論研究應切實發揮其先導性與預見性作用,為實證研究提供科學指導,引領其未來發展方向;另一方面,實證研究應起到檢驗理論模型的作用,為理論研究提供最新數據與實例支撐,以消弭理論研究與實證研究之間的鴻溝。用戶畫像理論還與其他學科理論,如本體論、超級IP、概念格、場景五力等理論相融合,有助于開闊學術視野,為圖書館建設與發展注入新的生機與活力。
大數據、云計算以及人工智能等技術為圖書館用戶畫像帶來了全新的機遇與挑戰。本文采用文獻調研法與內容分析法,對研究圖書館用戶畫像的期刊論文與碩士和博士學位論文進行分析,揭示圖書館用戶畫像4大研究領域,指出理論研究方法與實證研究方法的應用現狀,從而歸納得出圖書館用戶畫像的研究趨勢,希望能為后續的研究提供一定的借鑒與參考。但由于時間與文章篇幅限制,本研究只能從期刊級別與主題新穎等方面選擇具有代表性的論文進行綜述,分析對象的全面性有待進一步提升。