基于聚類的讀者行為分析應用研究＊

2017-09-17 16:59:48印國成殷益蓉

科技與創新 2017年18期

關鍵詞：數據庫圖書館資源

印國成，殷益蓉

（揚州大學廣陵學院，江蘇揚州225009）

基于聚類的讀者行為分析應用研究＊

印國成，殷益蓉

（揚州大學廣陵學院，江蘇揚州225009）

進入大數據時代，圖書館將面臨轉型，文獻資源和讀者閱讀方式更加數字化，閱讀途徑也更加多元化。通過對圖書館的文獻數據和圖書館的讀者行為數據進行聚類處理，對圖書館數據進行抽取集成、分析和建模，建立讀者行為分析系統，實現圖書館的知識發現，從而有效地對讀者進行相關文獻信息推送，提高圖書館的服務水平，為圖書館的文獻采訪和圖書館的保障服務模式提供決策參考。

圖書館；聚類；讀者行為；知識發現系統

人類的文明發展有賴于科技進步。技術的發展帶來巨大的力量，改變了人們的生產方式和生活方式。如今，大數據（big data）作為繼云計算、物聯網之后信息技術行業的又一大技術革命正開啟了一場變革[1]?；跀祿姆治觯瑢蔀槲覀冋J識和改造世界的另外一把利器，能夠使得我們進一步提升生產效率，在互聯網＋背景下推動信息技術與其他技術的融合和創新[2]。圖書館作為記錄、儲存、傳播和應用人類文明與數據的機構，在數字化浪潮下，其擁有的數據也在如其他領域的數據一樣呈幾何級增長[3]：各種不同載體的文獻和數字化資源，改變了圖書館館藏格局；圖書館每天產生的其他各種與讀者和文獻資源有關聯的數據，正逐步形成圖書館的數據。在圖書館服務信息化和文獻資源日益豐富的背景下，讀者閱讀方式也向數字化和多元化發展。傳統圖書館面臨數字化轉型——從內容數字化到內容數據化，從數據化閱讀到閱讀數據化[4]。

1 網絡化和數字化對傳統圖書館的影響

1.1 傳統圖書館不再是獲取信息的有效途徑

傳統圖書館的報紙、期刊和圖書屬于實體資源的文獻形式[5]，也是圖書館資源建設的重要組成部分。但隨著網絡化和數字化的發展，時效性強的傳統媒體的統治地位逐步被新興的網絡媒體取代，人們獲取文獻資源的方式和閱讀習慣均發生了巨大的變化，他們更愿意使用電子設備終端通過搜索引擎或數據庫來獲取所需要的信息。傳統圖書館文獻資源利用的優勢越來越不明顯，圖書館的利用率也逐年下降。分析近幾年我們圖書館每年組織的讀者調查活動，結果顯示超過80%的受訪者使用搜索引擎搜集信息來替代使用圖書館相關數據庫查閱紙質資料。而2016年公布的《第十三次國民閱讀調查報告》也證實人們閱讀電子資源的時間遠超紙質圖書，報告指出，2015年我國成年人數字化閱讀的接觸率為64.0%，較2014年的58.1%上升了5.9個百分點[6]。數據表明，近年來我國成人利用移動終端的閱讀接觸率逐年提高，2013年為41.9%，2014年為51.8%，每年都有大幅的增長。由此可見，在信息快速發展、工作節奏加快的今天，人們更愿意通過電子設備閱讀獲取信息。

1.2 傳統圖書館面臨更大的挑戰

面對信息技術浪潮的挑戰，圖書館有被邊緣化的威脅，唯有面對挑戰加強數字化建設，才能通過技術手段證明并提升圖書館存在的價值。圖書館面臨的挑戰有：信息技術的飛速發展、用戶的多樣性和個性化需求、多元化的文獻資源來源、碎片化的閱讀時間等。而在可以預見的未來，這些趨勢并不會消褪，IT技術還會遵循摩爾定律發展。另外，用戶對知識發現的要求越來越高，新興媒體的出現使信息來源更復雜。當然，新興媒體在高速發展中也有許多問題，比如文獻資源的原創性和嚴肅性不足，海量數據使得文獻資源信息繁雜等。而傳統的圖書館文獻資源保障能力強，服務體系完備。所以，在數字媒體的沖擊下，傳統圖書館只有加快數字化建設步伐，才能在文獻建設和服務保障中立于不敗之地。

1.3 面對挑戰圖書館服務模式的改變

圖書館傳統的信息服務模式是以紙質資源為主要館藏內容，重視讀者到館，重視提供紙質文獻借閱服務。而在如今大數據和互聯網＋環境下，讀者的閱讀環境數字化、智能化、移動化、泛在化，文獻資源海量化。如何讓讀者選擇有價值的信息，如何讓圖書館更好地服務讀者，傳統的服務模式已經不能滿足讀者對知識的要求和個性化服務的需要。這就需要圖書館根據文獻資源和讀者的潛在需求，通過數據分析等手段分析讀者行為，建立知識發現系統，為讀者推送需要的、有價值的文獻資料。

2 圖書館建立讀者行為分析系統的必要性

上海市圖書館館長吳建中在圖書館界發展論壇的演講中提到，知識是流動的。如何讓知識流動起來，取決于知識的開放性、關聯度、流暢度和傳播力[7]。要使知識流動，對數據的分析顯得尤為重要。通過基于讀者行為的知識發現系統建設，讓知識流動起來。如今，面向大數據的自然語言處理等方面的基礎性技術已經基本成熟，并得到了大規模的應用，典型的包括Google、Autonomy、Smarts、Systran等。在圖書館領域，國內眾多圖書館在發現知識系統方面主要依賴于搜索引擎或圖書館專業服務商，比如國外的Summon2、EDS，國內的超星發現系統和萬方數據知識服務平臺等，它們的共同特點是收集市場上數據庫的元數據，利用元數據進行檢索[8]，但在個性化服務方面，仍有待進一步提高和挖掘。大多數圖書館沒有重視本館產生的大量可能被忽視的數據，以及結合讀者借閱、查詢、閱讀等行為的數據。而這些數據對開展個性化知識發現服務至關重要。在圖書館海量數據中尋找內在的關系，通過分析讀者的行為，建立圖書館的知識發現系統，不僅可以為讀者搜索到資源，還可以對各類文獻資源數據進行處理和分析，使用分析系統揭示各類文獻之間的復雜關系，可以幫助讀者挖掘數據背后的信息，發現讀者潛在的知識需求[9]，為其提供更加精準的知識發現服務，進而提高圖書館的服務水平。

3 數據的處理

3.1 圖書館數據的抽取和集成

圖書館知識發現系統的數據除了涵蓋讀者的個人借閱、查詢數據外，還將個人數據關聯至各學科、各類文獻及網絡學術資源數據。通過大數據技術進行知識整合、知識發現和知識推送，為用戶和圖書館提供知識發現服務，實現知識價值的再造。

在圖書館數據中，根據文獻資源和讀者行為建立數據庫，并對數據進行抽取和集成。數據的抽取就是搜索整個數據庫，其數據源分關系型和非關系型數據庫[10]。而圖書館的大數據要面臨海量結構化和非結構化的業務數據，其處理方法如下：對于相同數據源的數據，DBMS（數據庫管理系統）會提供數據庫鏈接功能，通過數據服務器建立鏈接直接寫Select語句訪問；對于不同數據源的數據，也可以通過數據庫鏈接，比如SQL和Oracle，如果不能鏈接，則可以用程序接口來完成或將數據源導成統一的格式（比如.txt）來完成；對于非結構化的數據，比如聲音、圖片等，往往需要作為一個整體來處理。在采用抽取算法找到數據對象后，需通過元數據，比如數據抽取模型、抽取規則、映射參數等，用映射規則描述數據類型與相應字段的對應關系，然后組裝到知識發現系統數據庫。由于目前圖書館管理系統均采用基于Web的系統，其數據抽取可以通過Web來獲取，可以采用基于本體和基于XML的方法來抽取信息，并通過PageRank算法來進行廣域Web搜索。抽取的數據使用Hadoop技術進行清洗，將不符合要求的數據轉化成規范的數據，通過數據集成向用戶提供統一的全局數據模式。

3.2 數據的分析和建模

數據模型是對信息系統中客觀事物的數據描述，目前海量數據的處理已有大量的技術支撐，比如大數據分析工具SAS（Statistical Analysis System）、Google Dremel等。數據模型的數據庫分為關系型數據庫和非關系型數據庫，讀者行為數據分析挖掘的主要類型有對象數據庫系統、內存數據庫、分布式數據庫和并行數據庫。數據建模的方法主要有Richard Barker表示法、IDEF1X表示法和UML表示法。數據建模技術可以用Sybase PowerDesigner來實現，可以系統、方便地對系統進行設計分析，通過該軟件可以制作數據流程圖、概念數據模型、物理數據模型等。

4 圖書館基于聚類的讀者行為分析系統

圖書館的知識發現取決于對圖書館讀者行為的分析，尋找內在的關聯。圖書館可以根據讀者行為分析產生個性化的定制。結合讀者對圖書或者文獻信息的查閱瀏覽、讀者獲得資料的痕跡、讀者的借閱記錄、讀者對圖書文獻的評價、讀者對文獻的喜好等，再通過對讀者行為的挖掘和分析，可以提高圖書館服務的精度和讀者的滿意度。

本文主要通過計算基于讀者行為的集合S對讀者u的影響概率，即對單個讀者u的閱覽行為作出預測，為知識發現的推送提供條件。一般閾值模型中的閾值θu是用戶u受到影響的閾值。當Pu（S）≥θu時，可以預測用戶u的行為。集合S是根據讀者所在學校圖書館借閱系統中的相關偏好樣本數據，通過相關數據加工提煉得到。

對于讀者行為分析，可以通過基于集合S的樣本數據原型聚類，簇是對象的集合。聚類算法對具有數值屬性的數據很有效，但該算法對各個屬性聚類結果的貢獻均勻，沒有考慮不同屬性特征對聚類結果可能造成的影響。聚類算法需要節點之間的相似度組成的矩陣T，在用T（i，j）表示節點j作為i的聚類中心的合適程度。節點j與節點i的相似度表示為：

節點k為實值T（k，k），即相似矩陣T對角線上第k行的元素。T（k，k）值越大，說明第k點作為聚類中心的可能性越大。

執行聚類算法，引入吸引度R和歸屬度A.吸引度是從節點i傳遞到聚類中心節點k的信息，其值記為r（i，k）。歸屬度是從候選聚類中心節點k傳遞到節點i的信息，節點i對節點k的歸屬度，其值記為a（i，k）。其算法流程如下：初始化，將所有a（i，k）全部賦值為零，輸入相似矩陣s，其中，s（i，k）是節點i與節點k之間的相似值。用H來評價相異程度，且考慮每個特征的差別。

通過對每一項取絕對值來定義聚類的區別。

建立Jaccard相似度模型，用來比較讀者u與集合S樣本的相似性。

因此，采用Jaccard系數可以評價可能的知識推送和讀者行為之間的相似度。Jaccard系數取決于其離散時間的模型，其取值范圍為[0，1]，在實際應用中，我們也取一定的值作為相似度的閾值。大于閾值的，表示相似度高，可以推送類似讀者的信息給該讀者，比如喜歡的圖書和文獻；低于閾值的，再進行比對，然后進行Jaccard系數評價，直到找到高于閾值的模型，并對該讀者進行知識推送。知識發現的本質是資源發現，通過Jaccard系數評價，能準確發現讀者行為和讀者需求的關系，從而有效提供滿足讀者個性化需求的服務。

5 結語與展望

在互聯網＋和大數據時代，可以通過本文提出的基于大數據面向服務的讀者行為分析，實現資源的有效運用和知識發現，在館藏資源有限的情況之下，不僅能有效提高圖書館的服務水平和層次，也能有效提高讀者對圖書館的滿意度，還有助于圖書館的轉型升級。通過建立知識發現系統，能有效研判讀者對文獻或圖書的閱讀趨勢，為圖書館的讀者服務策略、文獻資源的采訪和圖書館的保障模式提供決策參考。圖書館的知識發現系統將極大地提高讀者獲取所需文獻資料的效率。

［1］馬娜梅.大數據背景下圖書館知識咨詢服務策略［J］.圖書館研究，2014（7）：90-93.

［2］咸由根，蔡承秉.掘金大數據［M］.北京：北京時代華文書局，2013.

［3］曹霞.高校圖書館非結構化大數據的D-SFSD管理模式研究［J］.圖書館學研究，2014（1）：57-60.

［4］姜山，王剛.大數據對圖書館的啟示［J］.圖書館工作與研究，2013（4）：52-54.

［5］袁寶龍.從信息、文獻、文明視角看網絡化時代傳統圖書館的存在價值［J］.新世紀圖書館，2014（7）：9-12.

［6］中國新聞出版研究院.第十三次國民閱讀調查報告［ED/OL］.［2016-04-19］.http：//news.xinhuanet.com/ politics/2016-04/19/c_128907616.htm.

［7］吳建中.知識是流動的：出版界與圖書館界的新課題［J］.圖書館雜志，2015（3）：4-6.

［8］和婷.大數據思維對圖書館信息服務工作的啟示［J］.圖書館建設，2014（1）：64-66.

［9］張松巖，崔鵬.圖書館知識發現系統建設與應用研究［J］.圖書館工作與研究，2014（2）：55-56.

［10］王秀芬，周玉松.基于互聯網＋的高校固定資產管理研究［J］.科技與創新，2017（04）：53-54.

TP391.9；G250

10.15913/j.cnki.kjycx.2017.18.128

2095－6835（2017）18－0128－03

印國成，高級工程師，碩士。殷益蓉，講師，碩士。

〔編輯：劉曉芳〕

江蘇省高校自然科學基金項目“基于大數據的圖書館知識發現應用研究”（14KJB520041）研究成果之一