基于大數據技術的智慧圖書館系統設計

2022-03-30 14:13:58田文武

呼倫貝爾學院學報 2022年1期

田文武

(呼倫貝爾學院內蒙古海拉爾 021008)

1 傳統圖書館存在的問題

傳統圖書館通過館內閱覽、書刊借閱和復印等形式提供服務，其服務價值由圖書館的藏書量和藏書面積等自身的指標來衡量。目前，網上數字資源還處于檢索和下載的非核心業務階段，其服務的內容有限，服務手段相對落后，特別是其服務效率不能滿足用戶日益增長的信息需求。隨著互聯網、大數據和人工智能等新興技術的廣泛應用，信息的種類和形式越來越多，存儲和傳輸的信息量不斷增加，用戶獲取知識資源的方式和手段也發生了變化。高校從事科研工作的教師和學生對網上數字資源的需求越來越大，傳統圖書館所提供的服務內容和服務模式等受到挑戰。因此，圖書館應充分利用這些新技術，及時調整館藏資源來適應讀者需求，通過資源整合提高圖書館知識資源的利用效率；通過智能化提供更加精準的個性化服務，加快圖書館的轉型和智能化建設，在知識服務領域實現創新發展。

2 大數據技術在智慧圖書館建設中的作用

智慧圖書館是采用數字化、智能化和云技術等信息科學手段，整合不同媒體存儲的信息資源，實現高效檢索、靈活智能和系統安全可靠的未來圖書館運行新模式。大數據技術在智能圖書館建設中能提供的主要服務包括：

2.1 知識共享

傳統圖書館紙質和電子音像資源由于受時空限制共享不夠充分，管理勞動強度大且使用效率較低，數字資源常分布于不同的網絡平臺，增加了讀者檢索的難度。在智慧圖書館建設過程中，可利用大數據技術和云存儲技術，將實物館藏資源數字化，與網絡數據庫、網上出版物等虛擬館藏資源進行集成整合，形成一個跨平臺具有很好的可擴展性和兼容性的知識網絡系統。使人們在很大程度上可以不受空間和時間的限制，在智能終端以線性可視化的方式搜索知識資源，并將搜索結果集中呈現在用戶終端，從而擴大檢索范圍、改善檢索效率，實現更充分的資源共享。

2.2 知識推薦

(1)可為用戶提供信息訂制服務，根據館藏資源的變化及時更新信息并給訂制用戶推薦；(2)挖掘用戶潛在的信息需求，并向用戶推薦符合其知識體系和當前需求的知識資源。借鑒商業網站通過對用戶瀏覽查詢商品、購物情況進行分析，挖掘用戶的潛在需求并在客戶端為其推薦商品的做法，圖書館也可以和用戶在簽訂服務協議的前提下，對用戶的專業愛好、研究方向、借閱圖書日志、檢索和下載數字資源日志等數據進行統計分析，有針對性的給用戶推薦相關的知識資源，實現以用戶為中心的個性化服務。

2.3 服務優化

隨著圖書館建設規模的擴大，信息量和承載量都在不斷增加，傳統圖書館在服務效率和管理方式上都難以適應。只有通過對圖書館提供的各種服務進行梳理分析和有效的信息挖掘，使用電子終端輔助設備和安全可靠的圖書館綜合管理系統為用戶提供便捷快速的一站式身份識別、自動借閱、按需采買等綜合服務，才能實現高效的管理，讓讀者節省更多的時間，享受圖書館智能化帶來的方便。

3 智慧圖書館建設的內容

為了實現智慧圖書館的知識共享、知識推薦和服務優化，同時使系統具有更好的可擴展性、安全性和易于維護，從信息管理和應用的角度可以采用物理隔離的三層體系結構：系統資源層、智能處理層和功能展示層，如圖1所示。這樣可以把智能處理過程與后端系統資源進行隔離，有利于系統擴展，把功能展示從智能處理中分離出來，可使系統更加安全也易于維護。

圖1 智慧圖書館系統整體構架

3.1 知識共享服務的實現

圖書館龐大的知識資源可分為紙質資源、音視頻資源、數字資源、互聯網訂閱資源、互聯網開放資源等。這些信息資源的存在形式從搜索者的角度來看是碎片化的。為了實現一體化的資源檢索，需要采用統一的數據標準，建立一個集中所有不同形態資源的元數據庫。其關系模式可包括資源編號、分類號、名稱、作者、出版機構、出版時間、書刊號、簡介、關鍵字、存儲方式、存儲網址(位置)等屬性。當用戶檢索到相關的資源時，可以通過其存儲的網址鏈接到相應的數字資源或者提供相應實物的存儲位置。知識資源元數據需要采用不同的方式和手段來獲取，如圖2所示。對紙質圖書、音像資料等可以為其建立元數據的數字標簽，也可以通過數字處理技術將這些信息資源存儲在高性能計算機或網絡空間中。對館藏和網上訂閱電子資源可運用自然語言處理技術來分析挖掘相關資源的元數據。

圖2 知識資源元數據庫的構成

館藏數字資源和網上的知識資源以非結構化、半結構化數據形式存在的較多。為了便于檢索需要對不同結構的數據進行整理、分析挖掘，去除重復的不可靠數據并確定知識資源的關鍵詞等元數據，從而實現知識資源的一體化檢索和應用。自然語言處理技術是融合計算機科學、語言學和數學的日益成熟的一門科學，目前廣泛應用在人工智能領域。根據貝葉斯假設，文檔中的字詞可被看成是相互獨立的。因此，可以將文檔表達成字詞的集合，通過對集合中字詞的分析統計獲得構成文檔的重要詞匯列表。NLTK(Natural Language Toolkit)是用Python程序處理人類語言數據的領先平臺，作為一個開源項目擁有強大的社區支持。它為許多個詞匯資源和語料庫提供了用于標記、分類、解析和語義推理使用的文本處理數據庫。其處理包括分詞、詞形歸一化、詞性標注和過濾掉停止詞等過程，下面給出了統計一篇文檔的高頻詞的Python程序代碼：

# -*- coding: utf-8 -*-

import re # 正則表達式庫

import collections # 詞頻統計庫

import numpy as np # numpy數據處理庫

import jieba # 結巴分詞

fn = open('知識資源文件.txt','rt',encoding='utf-8') # 打開文件

string_data = fn.read() # 讀出整個文件

fn.close() # 關閉文件

pattern = re.compile(u' | n|-|:|;|-！|…|“|”|"') # 定義正則表達式匹配模式

string_data = re.sub(pattern, '', string_data) # 將符合模式的字符去除

seg_list_exact = jieba.cut(string_data, cut_all = False) # 精確模式分詞

object_list = []

remove_words =[u' 的', u'，',u' 和', u' 是', u' 等',u' 為',u' 把',u' 著'] # 自定義去除詞庫

if word not in remove_words: # 如果不在去除詞庫中

object_list.append(word) # 分詞追加到列表

word_counts = collections.Counter(object_list) # 對分詞做詞頻統計

word_counts_topn = word_counts.most_common(n) # 獲取前n最高頻的詞

在詞匯統計的基礎上，為了評估一個字詞對于文件的重要程度，可采用信息檢索與文本挖掘中常用TF-IDF算法(其表達式如1所示)及針對標題和內容賦予不同權重的改進TF-IDF算法等來獲取知識資源的關鍵詞等元數據。

(1)

3.2 知識推薦服務的實現

為用戶提供個性化服務包括：(1)為匿名用戶只提供信息檢索服務；(2)為注冊用戶提供基本的信息檢索、資源定制、信息收藏服務；(3)在為注冊用戶提供基本服務的基礎上，為用戶提供知識推薦服務。知識推薦服務需要跟蹤和分析用戶行為，這會涉及到用戶隱私。因此需要在充分告知并征求用戶同意的基礎上簽訂相關的安全協議。跟蹤用戶行為包括用戶定制及收藏的內容、借閱和下載的資源、檢索和瀏覽的內容等。通過分析用戶行為數據和資源屬性等數據，對用戶偏好和資源特征進行建模，然后使用基于協同過濾推薦算法進行篩選，找到用戶可能感興趣的知識資源，結合用戶使用場景對推薦結果進行一定的過濾調整后推薦給用戶，如圖3所示。

第二，推進中國—東盟國際學術活動品質升級。為提升本校在藝術領域的國際影響力，聯盟各高校舉辦了一系列中國—東盟國際學術交流活動，緊緊圍繞“藝術+學術”的中心內容開展頻繁互動，廣泛分享學術成果，深入開展藝術交流。在聯盟高校的廣泛參與和大力支持下，這些活動的內容得到豐富，形式更加多樣，成果更加豐碩，品質得到升級，發展成為中國與東盟、中國—東盟與世界藝術教育合作與交流的學術新高地。

圖3 推薦系統模型

基于協同過濾推薦算法的基本思想是通過大數據技術分析用戶的行為來計算知識資源的相關度。它假設，如果使用A資源的用戶也使用了B資源，則A、B資源是具有一定相關性。由此通過對大量用戶的統計分析可以得到不同資源的相關度的矩陣。當用戶P使用了一個知識資源后，可通過相關度矩陣推薦給他與該資源相關度高的其他知識資源，如圖4所示。假設A、B、C、D代表知識資源，可將P1、P2、P3用戶使用知識資源的情況轉化為知識資源的相似度矩陣M，如P1用戶使用了A、C，則它的矩陣M[A,C]和M[C,A]置1(默認其它不相關的對應元素為0)，其它同理。將所有用戶的資源相似矩陣相加得到最終的資源相似度矩陣M，其中M[i,j]記錄的是同時喜歡i和j知識資源的用戶數，本圖中合并后元素較大的是M[A,C]和M[C,A]的2，其代表了A、C資源的相關度較高，因P2用戶使用過A資源而未使用C，可根據相關度矩陣將資源C推薦給P2用戶。通過對大量用戶進行跟蹤統計，并將矩陣M歸一化可得到知識資源間的余弦相似度矩陣W。與之對應的算法描述如下：

圖4 知道資源的相似度矩陣

#計算資源相似度矩陣

For每個用戶

For 用戶P表達偏好的每個知識資源i

For 用戶P表達偏好的每個知識資源j(j不等于i)

M[i,j]=M[j,i]=M[i,j]+1

M矩陣歸一化

ReturnM矩陣

#按資源相似度矩陣做推薦

For用戶P表達偏好的某領域的每個知識資源i

For用戶P未表達偏好的每個知識資源j

查詢M[i,j]相似度值并做降序排列

Return值較高的前N個元素

3.3 綜合服務功能的實現

圖書館常見的業務流程包括知識資源的獲取、編目、流通管理和服務等。通過對圖書館業務流程的分析，找出不同業務間、業務與用戶間的各種關聯規則，進而做好業務處理流程的優化。(1)通過系統的智能架構為用戶提供統一的身份認證，用戶只需進行一次注冊獲得用戶身份并分配相應權限，登錄時對用戶的電子身份進行識別，通過后就可以根據權限標識使用系統提供的相應服務，如圖5所示；(2)對讀者檢索、閱覽和反饋意見進行統計分析，根據讀者需求來確定知識資源的采買，提高資源的利用效率；(3)館內通過引入各種智能終端，實現讀者身份的自動識別、圖書的自動借閱和歸還，減少管理服務人員的負擔，為用戶提供智能高效的服務。

圖5 統一認證系統架構

目前，大數據和人工智能技術發展迅猛，新的算法和應用層出不窮。如關鍵詞的提取還有基于Word2Vec詞聚類關鍵詞提取算法、LDA文檔主題生成模型等。推薦算法除協同過濾推薦算法外，還有基于內容、基于隱語義、基于關聯規則等推薦算法。因可利用的大數據的資源量、不同的應用場景等因素會影響算法的處理效率、查準率、查全率等指標，單一的算法往往難以取得最佳的效果。如上述的協同過濾推薦算法就存在對新資源的推薦度偏低的問題，在實踐中需將不同的推薦算法進行有機結合實現互補。由于科技手段的飛速發展和研究的不足，文章中給出的方案未必是最優的，一些設計還有改進的空間。隨著機器學習算法的優化和可供學習的大數據資源不斷積累，未來智慧圖書館所能提供的服務也會更加準確、高效。