大數據情報分析平臺在圖書館管理與服務中的應用

2020-04-20 11:36:10王慧

卷宗 2020年5期

摘要：伴隨著大數據時代的到來以及相關技術的不斷發展，圖書館也必然需要隨著大數據時代的發展而改變。圖書館的館藏數量近些年呈現出了內容龐大、結構多樣的發展趨勢，數據雖然增多但是在實際應用方面的效果并不理想。對此，為了進一步推動圖書館發展，提升圖書館的社會服務價值，本文簡要分析大數據情報分析平臺在圖書館管理與服務中的應用，希望可以為相關工作者提供幫助。

關鍵詞：大數據時代;圖書館;情報分析平臺;管理與服務

隨著互聯網時代的快速發展，大數據時代以及智能化時代已經充斥著改革行業，在這一背景之下，傳統的圖書館管理和服務模式也逐漸進入到了智能化時代。對此，當代圖書館的管理與服務模式也需要適當的改變，從而適應時代的發展步伐。今年前國外就開展了關于眾包的圖書館管理模式，眾包屬于一種全新的經濟模式，主要是指公司或機構以員工執行的任務以外包方式提供個大眾網絡，從而提高工作的整體效益。對于圖書館而言，大數據的到來也間接提供了許多的發展空間，圖書館也需要學些各種全新模式，像眾包這種創新一樣更好的改進智能檢索系統，并提升圖書館的館藏使用價值。對此，探討大數據情報分析平臺在圖書館管理與服務中的應用具備顯著現實意義。

1 大數據環境下圖書館的管理與服務模式發展需求

大數據時代環境之下，傳統的圖書館管理與服務模式已經無法滿足用戶以及圖書館自身發展的實踐性需求，當代圖書館的館藏資料大多數已經轉變為單子文檔，這一些文檔資料的結構非常豐富，同時數量龐大，與傳統紙質資料相比所記錄的內容更多。在用戶想要找尋某一個資料時，便需要從海量的文獻資料當中進行搜索，此時許多用戶都無法根據自己的需求以及所提供的數據資料選擇出最佳的文獻，再加上一些低質量文獻的存在，導致用戶在文獻資料檢索過程中所消耗的時間會非常多，從而呈現出低效率、低收益的服務特征[1]。對此，圖書館在大數據時代背景之下必須有意識的創新，并借助情報分析平臺的建設與應用，促使圖書館達到高效率的文獻管理，并為用戶提供更高效率的檢索服務。在具體工作中，一方面需要根據圖書館的管理模式現狀進行針對性改進，落實與創新智能化模式，并構建一個自主性、高效率性的文獻管理方法，盡可能降低人為資源的投入，降低維護風險。另一方面需要為用戶提供一個針對性的服務，并保證服務本身的快捷、智能化，促使用戶可以快速的尋找到自己所需要的文獻，并按照用戶的實際喜好與需求，自動的為用戶提供一些可能有價值意義的文獻推薦，從而提高圖書館信息服務綜合價值。

2 大數據情報分析平臺在圖書館管理與服務中的應用

2.1 平臺的搭建

網絡爬蟲技術主要是依據相關的規則自動的抓取萬維網的程序，其主要可以劃分為聚焦網絡爬蟲、通用網絡、深層網絡以及增量式的網絡。本文的研究目的在于抓取圖書館當中的館藏資料和借閱的相關數據資料，所以在具體應用中可以應用聚焦網絡爬蟲實現[2]。在具體工作流程方面，先提供一個初始的URL，在抓取到網頁全文并按照相關的需求描述之后獲得有效的數據，之后從網頁當中提出全新的URL鏈接，在篩選之后借助篩選URL鏈接并加入到列表當中，之后以循環方式不斷的抓取新的內容，直到滿足相關條件之后才停止。在整個運行期間，核心環節在于網頁的模塊解析，模塊本身的問題在于兩個方面，一方面是解決網頁當中提取自連接的問題，促使其可以順利的加入到URL隊列當中;另一方面是需要解決網頁內容的解析問題，當前主流的技術是以HTMLParser為主。

HTMLParser屬于當前基于HTML的數據處理與解析器，HTMLParser可以實現直接提取網頁當中的子URL、解析網絡的結構并對網頁當中的信息數據進行提取、處理，并將網頁數據以XML的格式進行輸出[3]。在HTMLParser獲取文獻節點的同時，會對文本內容進行處理借助聚焦網絡爬蟲并以圖書館作為主題實行數據爬取，此時便可以獲得圖書館情報的數據資料，并通過萬維網當中的HTML網頁，這一些網頁劃分為兩種，一種是和網頁主題相關的信息，另一種屬于部分和主題相關的信息，典型內容為版權、導航等信息。對于關聯性不高的數據會及時進行過濾。

在數據處理方面，獲得的情報信息并不能及時分析，需要以分詞方式進行處理，這里的數據會涉及中文與英文甚至是其他的文字，對于英文的相關文獻，可以應用分子處理方式，這一種處理也比較簡單，可以直接應用空格作為分隔符，并不需要其他的特殊處理方式。當前成熟的分詞系統一種是按照字符串的匹配方式進行計算，另一種按照統計和機器學習結合的形式進行計算。按照字符串的匹配算法，主要是對字符串進行掃描，在發現與詞料庫相匹配的字符串后進行記錄[4]。例如，正反向、雙向的匹醉打匹配算法，這一種算法的速度非?？觳⑶視r間復雜度比較低，更容易實現，分類的效果也比較突出，但是對于歧義與未登錄詞匯的處理效果并不理想。另一種是按照統計學和計算機學習的結合形式，分類效果更好，可以解決歧義的相關詞匯，當時需啊喲人工標注的詞性作為支持，構建分詞系統模型，可以應用標注后的數據對模型實行訓練，也就是調整模型的參數。在分詞階段借助訓練好的模型計算出分詞的概率，并以最大概率的分詞進行輸出。因為兩種類型的分詞系統都有各自的優勢，所以在應用中也可以應用結合的原則，例如按照雙向醉打匹配與HMM的分詞方式消除歧義的問題，這一種模型可以應用正向最大匹配與逆向的足底啊匹配兩種形式實現對文本信息的分析處理，并通過HMM模型實現對兩次匹配結果的對比分析，最終達到理想的分詞效果。

2.2 實踐應用

目前來看，在大數據環境之下，情報分析平臺的應用流程已經相對比較清晰，在面對海量數據的儲存基礎上，可以將已經擁有的數據實行分析、整理、選擇以及轉換等處理措施，數據的準備工作屬于情報分析平臺的基礎前提，同時也是決定情報分析平臺應用質量與效率的關鍵。當前來看，圖書館在服務與管理工作中情報分析平臺的應用已經具備較高的實踐價值。在圖書館發展方面，可以借助這一平臺實現市場發展方向的明確。與市場營銷相似，屬于最早應用情報分析平臺的領域，其主要是按照用戶的實際需求，將不同的圖書館閱讀、借閱等習慣以及消費的特征等分類的方式進行總結管理，同時保障館藏資源的供應更適用于閱讀者的需求，盡可能提升圖書館館藏的使用價值。促使圖書館的服務范圍也可以從廣泛性轉變為針對性、個性化。

3 總結

綜上所述，大數據時代的到來雖然給圖書館的運營與管理工作提出了許多的挑戰，但是也間接的供應了更加理想和寬闊的發展前景。對此，圖書館在新時代環境之下，應當勇于創新，借助硬件、理念等方面的創新，提升大數據技術的實踐性應用價值，提升圖書館綜合管理水平，為館藏需求者提供更加優質、人性化、全買性的服務，為社會的進一步、長遠性發展提供可靠支持。

參考文獻

[1]高峰，羅雪瓊，張建偉.醫院大數據平臺建設及其在醫療行為監管中的應用[J].中國醫學裝備，2019，31（3）：168-171.

[2]郭力，邊根慶.基于大數據挖掘與決策分析體系的高校圖書館個性化服務系統研究[J].電子測量技術，2019，23（16）：1-6.

[3]黨秀云，杜男杰.大數據在公共服務需求識別與精準供給中的應用研究[J].中共福建省委黨校學報，2019，14（5）：62-70.

[4]楊利軍，高軍.圖書館個性化服務中的大數據可視化分析與應用研究[J].現代情報，2015（7）：70-74.

作者簡介

王慧（1974-），女，漢族，湖南澧縣，本科，中級職稱，圖書管理，桃江縣科學技術和工業信息化局。