基于用戶畫像的圖書館知識發現服務研究

2018-03-12 19:18:00張鈞

圖書與情報 2017年6期

摘要：人工智能技術發展，驅動著圖書館的知識服務向著個性化、精準化方向發展。文章在概述知識發現和用戶畫像的基礎上，構建了圖書館讀者用戶畫像，以此構建了基于用戶畫像的圖書館知識發現服務模型。分析發現，基于用戶畫像的圖書館知識服務，能在服務的個性化、精準化方面有著一定的優勢，能夠提升圖書館知識服務體驗。

關鍵詞：人工智能；用戶畫像；圖書館；知識發現；知識工程；機器學習

中圖分類號：G252 文獻標識碼：A DOI：10.11968/tsyqb.1003-6938.2017114

Abstract The development of artificial intelligence technology drives the library's knowledge service towards individuation and precision. Basic on the summarization of knowledge discovery and User portrait， this article constructs the user portrait， so as to construct a service model of librarys knowledge discovery. It is found that the library knowledge service based on user portrait has some advantages in personalized and precision service， and also can improve the experiences of library knowledge service.

Key words artificial intelligence； user portrait； library； knowledge discovery； knowledge engineering； machine learning

智能化與自動化是人工智能時代的兩大主題，而移動智能終端的普及應用，也為智能化與自動化的實現提供了海量的大數據基礎，通過數據挖掘和算法計算，從海量數據中發現需要的知識發現，也在機器學習、神經網絡模型和知識表示等人工智能技術的推動下，呈現出了新的發展態勢。同時，隨著大數據的發展，數據量的爆發式增長和大數據分析技術的成熟使用戶可捕捉的行為數據越來越多，可形成用戶關鍵信息畫像的用戶畫像被廣泛的應用到了以標簽、畫像為基礎的精準服務領域[1]。將用戶畫像與知識發現相結合，可以為用戶的需求精準提供基于知識發現的決策知識、咨詢知識等服務。

圖書館是人類知識的傳承和傳播中心，實現對館藏知識的傳播與增值服務也一直是信息時代到大數據時代圖書館的主要服務內容。近年來，基于知識發現系統如Primo、Worldcat Local、Encore等的圖書館知識發現服務也成為了知識服務的主要組成部分。隨著人工智能時代的到來驅動著圖書館向智能化服務、自動化服務轉型的過程中，基于用戶畫像的圖書館知識發現服務無疑將提高讀者的服務體驗與滿意度。

1 知識發現與用戶畫像

1.1 從人工智能到知識發現

從學科體系來看，人工智能是計算機科學的一個分支，它試圖了解智能的實質，并生產出一種新的能以人類智能相似的方式做出反應的智能機器，該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。知識工程作為人工智能的五大研究領域（即腦認知、機器感知與模式識別、自然語言處理與理解、知識工程、機器人與智能系統）之一，一直備受科學界關注。中國人工智能學會理事長李德毅就認為知識工程才是人工智能時代最有意義的課題之一。

知識發現（Knowledge Discovery，KD）則是一門來源于人工智能、知識工程和機器學習等眾多學科新興交叉的學科。具體來看，知識發現就是一次完整的從大量的異構、復雜數據或數據集、數據平臺中提取出隱含的、未知的、潛在有用的并能被人們理解的規則與模式，并檢查趨勢、發掘出事實的高級處理過程[2]。

1.2 知識發現的實現與發展

1989年，在“知識工程（Knowledge Engineering）”被提出12年之后，“知識發現”這一概念在第11屆國際聯合人工智能學術會議上出現。但由于當時的數據主要以數據庫的形式存儲管理，因而當初提出的知識發現主要是指基于數據庫的知識發現（Knowledge Discovery in Database， KDD），隨著數據挖掘技術的發展和數據來源、數據類型的豐富，知識發現也逐漸從基于數據庫的知識發現向面向大數據的知識發現方向發展。

1.3 用戶畫像的概念與應用

用戶畫像（User portrait）即用戶信息標簽化，就是通過收集與分析用戶的社會屬性、生活習慣、消費行為等主要信息之后，完美的抽象出一個用戶的信息全貌[3]。目前，由于用戶畫像能夠為服務提供方進一步精準、快速地分析用戶行為習慣、商業意愿、消費需求提供了重要的數據基礎，進而能夠幫助商業機構快速定位用戶/群體等更為廣泛的商業信息，基于用戶畫像的個性化推薦服務系統已經處處可見，典型如今日頭條，普通如電子商務、社交網絡、影視推送、閱讀推送等。

2 面向大數據的圖書館知識發現服務

2.1 圖書館知識發現服務的發展現狀

（1）圖書館文獻資源發現服務。現代圖書館一直注重用戶的文獻檢索服務，并通過數據庫檢索技術而實現的圖書館書目數據檢索系統、主題資源檢索系統、綜合資源登記管理系統等文獻資源的檢索系統，向用戶提供館藏數量、文獻排序等服務。如經國務院批準的我國高等教育“211工程”“九五”“十五”總體規劃中三個公共服務體系之一的中國高等教育文獻保障系統（China Academic Library & Information System，CALIS）可為讀者提供文獻發現、文獻傳遞、館際互借等服務。endprint

（2）圖書館知識發現系統服務。當云計算的概念提出以后，基于云計算的圖書館知識發現系統也應運而生，目前已有Summon、Primo、Worldcat Local與Encore等越來越多的圖書館知識發現系統被開發，并廣泛的應用到了圖書館的資源檢索、信息組織與知識服務中。此外，還有中國學術搜索、超星發現系統、智立方發現系統、學知搜索、百度學術等在線知識發現系統也都在圖書館得到廣泛應用。從服務內容來看，圖書館基于這些知識發現系統的服務主要有文獻檢索、資源聚合、粒度分析、知識關聯、規律總結等服務。

2.2 圖書館讀者的用戶畫像構建

根據用戶畫像的相關理論[4]，基于大數據的圖書館讀者用戶畫像的構建主要分為基礎數據收集、行為建模、構建畫像三個階段（見圖1）。其中，數據收集大致分為網絡行為數據（如活躍人數、頁面瀏覽量、訪問時長、激活率、外部觸點、社交數據等）、服務行為數據（如瀏覽路徑、頁面停留時間、訪問深度、唯一頁面瀏覽次數等）、用戶內容偏好數據（如瀏覽/收藏內容、評論內容、互動內容、生活形態偏好、品牌偏好等）[5]等三類；行為建模是對基礎數據收集階段收集到的大數據，通過機器學習進行用戶行為建模，以抽象出圖書館用戶的標簽，并運用數學算法模型對用戶的行為、偏好等進行預測；在行為建模階段的標簽抽象和特征計算后，根據用戶的基本屬性（如身份證號、年齡、性別、地域等）、行為特征（如Cookie）、興趣愛好（如URL信息）、心理特征（如社交表情）、社交網絡（如微信、QQ社交網絡等）等基礎數據不斷修正，則會根據已知數據來抽象出新的標簽，從而使用戶畫像越來越立體和清晰。

2.3 基于用戶畫像的圖書館知識發現服務模型構建

本研究基于知識發現的三大階段（數據準備、數據挖掘、解釋與評估）和基于異構、海量、多粒度的大數據資源，采用人工智能技術中的自然語言處理、機器學習和神經網絡模型技術的內容信息挖掘、結構信息挖掘、自然語言信息挖掘的知識發現技術，在上述基于大數據的圖書館讀者用戶畫像的基礎上，構建了基于用戶畫像的圖書館知識發現服務模型（見圖2）。

相較于已有的圖書館知識發現模型，基于用戶畫像的圖書館知識發現服務模型區別有：（1）在數據準備階段，面向大數據資源集，突破了原有的由數據庫資源，豐富了數據的來源和類型，這就對包括啟用機器學習的語義自動發現、智能聯接、智能分析、層次生成、數據沿襲和對各種數據源（包括多結構化數據）的數據混合技術處理提供了新的挑戰；（2）在數據挖掘階段，增加了面向自然語言信息的知識發現，這也增加了面向大數據自然語言信息資源的自動化處理，如相關性、異常、集群、關聯和預測等；（3）解析與評估階段，增加了圖書館讀者的用戶畫像與知識發現原型系統的匹配，這就使得在圖書館用戶的知識服務需求并不一定需要用戶自己來表達，提高了圖書館用戶知識發現服務的精準度。

2.4 圖書館知識發現服務的創新技術實現

信息化時代的知識發現主要是針對結構化數據的數據庫知識發現，以及針對非結構化數據的基于文獻的（非）相關文獻知識發現、全文獻知識發現兩大分支。從應用的技術來看主要有統計方法（如回歸分析、判別分析、聚類分析、探索性分析、模糊集方法、支持向量機方法、粗糙集等）、機器學習方法（如規則歸納、決策樹、范例推理、遺傳算法等）、神經計算方法（如自組織映射網絡、反傳網絡等）、語義網技術（如關聯數據等）。本文所構建的服務模型，則在上述技術和用戶畫像技術的應用基礎上借鑒引入了自然語言處理和隱語義模型，以實現對大數據資源中自然語言如語音、視頻的智聯處理，和對用戶畫像與知識發現的個性化推薦匹配。

（1）面向自然語言信息的知識發現。自然語言處理技術短文本相似度度量在信息檢索、新聞推薦和智能客服，文章標簽在個性化推薦、話題聚合，文章分類在個性化推薦、主題劃分等領域的成功應用，為本文所設計的面向自然語言信息的知識技術拓展提供了借鑒。每一種自然語言處理技術的豐富模型也為面向不同的視頻、語音、圖片等處理提供了選擇空間，可以根據語言信息的屬性特征和用戶畫像的需求特征選擇適合的度量模式。如短文本相似度常用的計算方法就有TF-IDF、LSI、LDA等模型算法。其中TF-IDF主要用以評估某一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度，返回過濾掉常見的詞語的重要詞語；LSI主要運用潛在語義索引和SVD降維方法來解決一詞多義和一義多詞問題；LDA是一種文檔主題生成模型（包含詞、主題和文檔三層結構），可以用來識別大規模文檔集或語料庫中潛藏的主題信息[6]。

（2）基于隱語義模型的推薦服務匹配實現。本文所構建的是一種基于內容（圖書館知識發現應用）和用戶畫像的個性化推薦服務模型（見圖3），模型有兩個實體（內容和用戶）和一個關聯關系（標簽），內容轉換為標簽即為內容特征化、用戶則成為用戶特征化。

在這一模型基礎上，采用隱語義模型進行推薦，即通過用戶畫像實時計算用戶對于某一知識發現內容的興趣度（CTR），進而通過人機交互、場景應用進行推薦精準知識服務。

CTR的計算公式[7]為：r=q*m*n

其中i=1…N是知識發現結果c具有的標簽，m（ci）指知識發現結果c和標簽i的關聯度（可以簡單認為是1），n（ui）指的是用戶u的標簽i的權重值，當用戶不具有此標簽時n（ui）=0，q（c）指的是知識發現結果c的質量，可以使用點擊率（click/pv）表示。

2.5 圖書館知識發現服務的內容

圖書館大數據資源的類型大致可以分為文本、視頻、音頻、圖片、動畫、軟件、中間件、數據集、網頁等，大數據時代與人工智能時代則主要是在數據集（如Cookie數據集、用戶行為數據集、科學數據集、政府開放數據集等）和自然語言信息（如人機交互語音、圖片、音頻等）方面豐富了圖書館的資源結構、內容及數量。針對這些數字化的資源類型，運用本文所提出的基于用戶畫像的圖書館知識發現模型方法進行知識挖掘與服務呈現，可在個性化知識資源聚合、個性化愛好推薦圖譜繪制等方面豐富傳統的數字圖書館服務范圍。如采用基于關聯規則的知識發現方法，可以構建不同資源、不同概念間的資源聚合體，從而達到發現連接內容和模式匹配用戶畫像即需求的概念實體，以及這些概念實體間的隱性關聯關系；采用基于推導傳遞的知識發現方法，發現不同資源內容信息中包括引證等關系在內的隱性關聯，從而達到復雜數據集的隱性知識發現，并通過用戶畫像匹配實現個性化知識推薦；通過分析多粒度大數據資源和用戶（群體）的屬性特征，借助引證、合作等關系來揭示用戶個體間的網絡社交、科學研究、愛好興趣關聯，以及用戶群體之間的研究貢獻、活躍可見度等指數，從而形成不同類型、不同范圍的動態關系網絡圖譜。同時，基于圖書館用戶多種屬性分析和應用的用戶畫像構建，不但能為知識發現原型系統的用戶社交網絡分析提供資源，而且也能為實體分析對象提供幫助。如綜合基于模式匹配、基于機器推理等多種揭示手段，可以構建如資源關系流動網絡圖譜、科研用戶知識流動網絡圖譜、機構關系知識流動網絡圖譜等，進而形成面向不同服務對象和群體、具有個性化差異化特征的推理圖譜，讓用戶可以從時間、空間、知識單元追蹤等角度推導和觀察到具有多維度關系的網絡演化、知識流動軌跡。

3 結語

基于內容、行為認知和群體協同建模構建的圖書館用戶畫像，不但能夠準確的描繪出基于大數據標簽的圖書館用戶屬性特征，以此為基礎表達和傳遞圖書館知識服務需求，而且能讓圖書館基于大數據的知識發現系統更深層次地挖掘數據資源價值，最終為圖書館用戶提供個性化知識發現服務。

參考文獻：

[1] 一步步教你看懂大數據時代下的“用戶畫像”[EB/OL].[2017-11-26].https：//www.sohu.com/a/69687539_353595.

[2] 苗蔚，李后卿.知識發現及其實現技術的研究概述[J].現代情報，2005（1）：12-15.

[3] 楊雙亮.用戶畫像在內容推送的研究與應用[D].北京：北方工業大學，2017.

[4] 牛溫佳，劉吉強，石川，等.用戶網絡行為畫像——大數據中的用戶網絡行為畫像分析與內容推薦應用[M].北京：電子工業出版社，2016.

[5] 基于大數據的用戶畫像構建（理論篇）[EB/OL].[2017-11-26].https：//www.jianshu.com/p/0d77238771ef.

[6] 自然語言處理入門（1）——文本相似度計算[EB/OL].[2017-11-26].http：//blog.csdn.net/flysky1991/article/details/72786820.

[7] 王爾昕.基于隱語義模型和聚類算法的電子商務個性化推薦系統的研究與實現[D].北京：北京郵電大學，2017.

作者簡介：張鈞，男，鄧小平圖書館副研究館員。endprint