常盛
?
新媒體環境下基于用戶畫像的智慧圖書館建設*
常盛
(長春市圖書館,吉林 長春 130021)
分析了當前圖書館數字化服務形勢,指明了建立讀者標簽庫的意義,闡述了現代圖書館基于用戶畫像的構架、關鍵算法、標簽庫建立、高維向量相似度計算、實現路徑等內容。
用戶畫像;智慧圖書館;新媒體;智能化水平
面對信息化時代向大數據時代的轉型期,傳統圖書館基于簡單供給方式的粗獷服務方式難以滿足公眾的閱讀需求,由于用戶數據缺乏有效分析與訓練,形成用戶習慣及喜好盲區,個體閱讀的差異性成為精準化服務的難點。建設以數字化、網絡化、智能化的現代信息技術為基礎,以互聯、高效、便利為主要特征,將綠色發展和數字惠民作為本質追求的現代化圖書館[1]成為時代的必然要求,民眾對圖書館服務的智能化水平要求日益提高。在海量數據中及時、有效地推送用戶所需的內容,成為智慧圖書館的基礎功能,而了解用戶的個性化需求成為首要任務。
相比于傳統行業經驗進行的簡單用戶特點描述,現代化的用戶畫像建立在數據挖掘的基礎之上,通過分析用戶社會屬性、生活習慣、消費行為等信息抽象出用戶偏好的標簽[2]。基于OOA(面向對象分析)的思想,用戶畫像模型的建立過程是建立在數以十萬普通讀者閱讀習慣、行為等屬性的抽象過程。以OO(面向對象)為基礎的用戶畫像類具有較好數據結構和實現性,同時,具備繼承、多態、封裝等屬性。
唯一標識是準確識別用戶的基礎。隨著新媒體技術的發展,在缺乏頂端設計的情況下,各類系統被引入圖書館應用,用戶唯一標識使用變得混亂。發展初期的身份證號、讀者證號、電子郵箱、電話號碼,逐漸轉變為微信號、淘寶號、QQ號等第三方登陸標識。混亂的唯一標識雖然讓數據記錄缺乏唯一性、處理變得復雜,但在信息獲取維度上獲得了更多的擴展。圖書館可通過以下3種方式實現唯一標識的統一,進而實現用戶畫像數據庫中記錄的唯一性和完備性:①激勵用戶完善信息的方式(成本高,難以大規模開展);②跨平臺檢索ID強打通(基于平臺差異性,難于實現);③提取特征向量通過機器學習模糊拉通(適合大規模數據)。
根據描繪用戶特征的信息分類可分為靜態數據和動態數據。靜態數據是指基本屬性、家庭、單位等穩定性較好的信息;動態數據是指瀏覽行為、查詢、下載等變化性較大的信息。人的描述屬性是極為復雜的,畫像屬性也必然伴隨著高維度和高復雜性而變化,龐大的屬性標簽也將提高數據挖掘運算的復雜度,因此,按照目標進行適當的屬性設計是一種擇優策略。
一般情況下靜態信息主要包含人口屬性、行業屬性、閱讀偏好、社交數據等;動態信息一般包括訪問行為、興趣特征、場景、消費特征等。具體如圖1所示。

圖1 主要信息示意圖

表1 文獻分類標簽表(單位:次)
分類A分類B分類C分類D 讀者A5320 讀者B2141 讀者C0420
計算可得,讀者A標簽1的=0.5,=1.22,-=0.61,對應填入文獻分類-權重表如表2所示。
表2 文獻分類權重表
分類A分類B分類C分類D 讀者A0.610.330.220 讀者B0310.140.550.39 讀者C00.730.360
其次,相對于文獻分類之外,讀者關于訪問行為、訪問觸點、返回次數等標簽對于預測讀者獲取文獻內容具有較大價值,以訪問時長為例,讀者對于某類文獻瀏覽時間占據其訪問時間總長比例越大,說明該讀者對該類文獻的需求越高,因此建立權重計算方式為:

式(1)中:s—end?s—start為某類文獻的駐留時間;end?start為訪問平臺總長。
由于文獻的分類多元化,其訪問時長的標簽也絕非單一數值,而是一個差異化增長的一組數值,隨機選取一個讀者的訪問時長記錄制作其標簽表如表3所示。
表3 訪問時長標簽表(單位:s)
分類A分類B分類C分類D分類E 讀者A03020080
計算繪制其權重表如表4所示。
表4 訪問時長權重表
分類A分類B分類C分類D分類E 讀者A00.230.1500.61
為提高內容預測的精準性,發掘讀者閱讀行為的潛在關聯和規律,用戶畫像標簽庫的建立將是動態的過程,但過于精確的用戶畫像預測降低了投入產出比。因此,將用戶畫像標簽進行聚類,進而形成群體畫像,一方面提升了整體服務效能;另一方面,將具有相似閱讀偏好的讀者聚集,易于組織專題性閱讀推廣活動。聚類技術屬于無監督學習,實現算法較多劃分法、層次法、密度算法等,但在文獻分類標簽每個讀者的閱讀偏好呈現為向量形式,即可將讀者偏好的聚類轉化為向量相似度的檢索。


cos()的取值范圍為[-1,1],值越大表明夾角越小,相反夾角越大。使用MATLAB:=1-pdist(,'cosine')可以計算其夾角余弦。
但在實際應用中,面對龐大的讀者群體,該方法的遍歷比較過程時間復雜度極高(^2),無法在實際中大規模應用。高維向量相似度可采用LSH(Location Sensitive Hash)位置敏感哈希函數進行算法實現。原數據樣本空間臨近的數據點經過映射和變形后,在新的數據空間仍有較大概率相鄰。
對于任意,屬于,如果從集合到的函數族={1,2,…,n}對距離函數,滿足條件[4]:(,)≤,且滿足[()=()] ≥1;(,)>+,[()=()]≤2這些條件,則稱是敏感位置。原始數值落入不同數值桶,進而完成的讀者閱讀文獻的喜好分類實現聚類。
用戶畫像技術的應用是現代圖書館數據挖掘和人工智能技術應用的典型應用,要求圖書館在用戶數據采集、存儲、使用上要有科學的規劃和系統的建設,絕非一朝一夕之功,可以按照快速原型或是迭代式的發展模式,按照一般圖書館的建設方式可以總結成以下形式:接觸點數據采集→形成標簽層→讀者數據特征化→形成用戶畫像數據庫。
[1]王世偉.論智慧圖書館的三大特點[J].中國圖書館學報,2012(06):22-28.
[2]王慶.基于“用戶畫像“的圖書館資源推薦模式設計與分析[J].現代情報,2018(03):105-109.
[3]宗成慶.統計自然語言處理[M].北京:清華大學出版社,2008.
[4]Piotr Indyk.data-dependent LSH algorithms[EB/OL].http://people.csail.mit.edu/indyk,2015.
中國圖書館學會閱讀推廣課題(編號:YD2016B39);吉林省圖書館學、情報與文獻學科研課題(編號:WK2018C140);長春市文廣新局調查研究項目“圖書館推動全民閱讀戰略的對策與研究”
2095-6835(2018)18-0138-02
G250.7
A
10.15913/j.cnki.kjycx.2018.18.138
〔編輯:張思楠〕