張青云
關鍵詞:文本數(shù)據(jù)挖掘技術;圖書館;地方文獻資源;數(shù)據(jù)庫
摘 要:文章介紹了文本數(shù)據(jù)挖掘技術的產生、發(fā)展及內涵,分析了文本數(shù)據(jù)挖掘技術在圖書館地方文獻資源開發(fā)利用中的優(yōu)勢,指出了文本數(shù)據(jù)挖掘技術應用于圖書館地方文獻資源開發(fā)及利用中的方法,旨在提高地方文獻資源的利用率。
中圖分類號:G250文獻標識碼:A文章編號:1003-1588(2019)10-0107-03
地方文獻資源是圖書館館藏的重要組成部分,在館藏資源體系中具有唯一性,因此其在圖書館信息資源服務中具有重要地位。伴隨著科學技術的快速發(fā)展,越來越多的專家學者借助地方文獻資源從事各學科的研究工作,特別是圖書館與政府文化機構從事編史修志工作以來,各單位對地方特色文獻資源的需求與日俱增,同時,地方文獻資源對學者研究地方人文、經(jīng)濟和社會結構情況具有重要作用[1]。在圖書館地方文獻資源的開發(fā)和利用中引入文本數(shù)據(jù)挖掘技術,可以使地方文獻資源更好地服務于地方經(jīng)濟、文化和社會的發(fā)展。
1 文本數(shù)據(jù)挖掘技術概述
1.1 文本數(shù)據(jù)挖掘技術的產生與發(fā)展
伴隨著計算機技術的快速發(fā)展,大量的信息數(shù)據(jù)隨之產生。為了給信息獲取者提供全方位的信息視角,許多科技企業(yè)、互聯(lián)網(wǎng)公司在多個領域建立了大量的數(shù)據(jù)倉庫,但人們很難從中快速找到有價值的信息資源,而依托傳統(tǒng)信息網(wǎng)絡形成的數(shù)據(jù)查詢、報表分析工具無法滿足海量文本數(shù)據(jù)提取的需求。因此,人們迫切需要一種新的數(shù)據(jù)分析技術對數(shù)據(jù)倉庫中海量的文本數(shù)據(jù)進行挖掘分析,并從中提取有價值的信息。在此背景下,文本數(shù)據(jù)挖掘技術應運而生,并伴隨數(shù)據(jù)倉儲技術的發(fā)展而逐步得到完善[2]。文本數(shù)據(jù)挖掘是指從大量文本數(shù)據(jù)信息中自動抽取隱藏在文本夾內有價值信息數(shù)據(jù)的過程。這些文本數(shù)據(jù)表現(xiàn)形式可能為規(guī)律、概念、模式及各種準則,文本數(shù)據(jù)挖掘技術可以幫助信息獲取者分析數(shù)據(jù)倉庫中的歷史數(shù)據(jù)和當前數(shù)據(jù),并從中發(fā)現(xiàn)各類型信息數(shù)據(jù)潛在的規(guī)則與聯(lián)系,進而實現(xiàn)未來預測。文本數(shù)據(jù)挖掘技術是數(shù)據(jù)挖掘技術的一種,是一門涉及多個領域的交叉學科,涉及數(shù)據(jù)庫、大數(shù)據(jù)、可視化表達、交叉計算、人工智能等多個領域,其可以對數(shù)據(jù)倉庫中大量的文本數(shù)據(jù)進行挖掘、提取、轉換、分析和可視化模型處理,并從中找到滿足決策者需求的信息數(shù)據(jù)。傳統(tǒng)的報表查詢處理技術只能直觀顯示事件的發(fā)生和結果,并沒有深入分析事件產生的背景和原因,而文本數(shù)據(jù)挖掘技術側重于了解事件發(fā)生的背景、原因以及其他誘發(fā)因素,并以一定的置信度模型對未來事件進行可能性預測,可以為決策者提供參考[3]。
1.2 文本數(shù)據(jù)挖掘技術的內涵
文本數(shù)據(jù)挖掘通常包括信息特征提取、文本標題識別、文本摘要提取、文本信息分類、文本概念界定、文本信息提取以及文本信息數(shù)據(jù)分析等流程。文本數(shù)據(jù)挖掘技術包括用于文檔詞匯頻率分析的向量表示法、用于文本概念解析的數(shù)據(jù)分析法、用于文本詞匯解讀的字符串技術、用于文本分類的貝葉斯分類算法、基于文本概念的聚合優(yōu)化方法等[4]。作為用于文本數(shù)據(jù)挖掘分析的技術,文本數(shù)據(jù)挖掘技術可以對多種數(shù)據(jù)文本進行分析,如語音文本、可視化視頻文本及文本文檔等,如果將其應用到圖書館特色文獻資源開發(fā)利用中,將會提高文獻資源的檢索效率。
2 在地方文獻資源開發(fā)利用中應用文本數(shù)據(jù)挖掘技術的意義
圖書館地方文獻資源是記錄某一地域知識文化、民俗風情、社會經(jīng)濟發(fā)展情況的知識載體,是反映特定文化區(qū)域人類社會活動及自然現(xiàn)象的文字記錄,有著較強的地域性、文化性、民俗性特征,是地方圖書館特色文化資源體系的重要組成部分。在地方文獻資源開發(fā)利用中應用文本數(shù)據(jù)挖掘技術,可以挖掘圖書館地方文獻資源的潛藏價值,提高文獻信息資源的獲取速度。
2.1 挖掘圖書館地方文獻資源的潛藏價值
地方特色文獻資源大多以紙質書籍、特色檔案、電子文獻的形式存在于館藏資源數(shù)據(jù)庫中,因此,發(fā)揮地方特色文獻資源的社會價值就要挖掘這些文獻資源的隱含信息,找到其歷史價值和文化價值。文本數(shù)據(jù)挖掘技術可以對地方圖書館海量的文本數(shù)據(jù)進行深入挖掘和科學分析,同時還可以使用算法工具、數(shù)理統(tǒng)計工具及信息聚合技術挖掘地方特色文獻資源的潛藏價值,并實現(xiàn)其潛在信息的高效聚合[5]。
2.2 提高用戶的資源獲取速度
為保證用戶能夠在短時間內獲取地方特色文獻資源,圖書館可以針對不同用戶的需求單獨設置信息獲取專題,并將用戶的專題需求設置為事務,記錄每一次地方特色文獻資源的獲取過程并組建專題事務庫,再使用關聯(lián)規(guī)則采掘算法找到訪問頻率較高的專題項目集,通過分類算法工具將用戶對不同地方特色文獻資源的瀏覽日志記錄與項目集合進行相似匹配,將具有相同信息獲取習慣的用戶組織到同一數(shù)據(jù)鏈中。同時,圖書館可以針對用戶的信息需求進行關聯(lián)檢測,找到事務庫中被頻繁訪問的專題集,再利用語義關聯(lián)技術分析不同專題間的語義聯(lián)系,找到各個主體間的語義關聯(lián)規(guī)律,并存儲到相關數(shù)據(jù)庫中。當用戶通過圖書館界面快速訪問地方特色文獻資源時,圖書館就可以通過網(wǎng)絡代理根據(jù)預先設置的規(guī)則快速響應用戶,用戶也可以快速獲取與個人需求相匹配的地方特色文獻資源[6]。
2.3 提升圖書館地方文獻資源檢索效率
目前,地方圖書館采用的信息檢索系統(tǒng)在信息交互、用戶信息認知等方面還存在不足,用戶使用信息檢索系統(tǒng)得到的信息查詢結果往往呈線性分布,致使用戶不知如何高效地檢索所需的地方文獻資源?;谖谋緮?shù)據(jù)挖掘技術的文獻檢索系統(tǒng)不僅支持概念檢索、模糊檢索及多語言輸入檢索,而且能利用文本數(shù)據(jù)挖掘算法對檢索結果進行精確分類,使其更加條理化,同時還可借助UI可視化界面進一步幫助用戶進行智能篩選,提高資源檢索效率。
3 文本數(shù)據(jù)挖掘技術在圖書館地方文獻資源開發(fā)利用中的應用
文本數(shù)據(jù)挖掘技術在圖書館地方文獻資源的開發(fā)和利用中顯示出了強大的生命力,借助數(shù)據(jù)服務器、數(shù)據(jù)挖掘工具以及圖書館地方文獻資源庫模型對地方文獻資源進行搜集、聚合、分類、清洗、提取,可以挖掘出地方文獻資源的隱含信息和潛藏價值,實現(xiàn)地方文獻資源的高效開發(fā)和利用(見圖1)。
3.1 圖書館地方文獻資源優(yōu)化建設
使用文本數(shù)據(jù)挖掘技術對圖書館地方文獻資源的借閱情況、流通狀況、用戶需求及資源目錄進行挖掘,并按照用戶需求采集借閱量較多和借閱量較少的借閱集,不僅可以為地方文獻資源的開發(fā)利用提供決策支持,而且可以分析不同圖書館地方文獻資源的利用率,及時更新文獻信息。如:圖書館可以對數(shù)字圖書館系統(tǒng)中的用戶留言和網(wǎng)絡日志進行搜集,并使用文本數(shù)據(jù)挖掘技術提取其中有價值的信息資源,并轉換為結構數(shù)據(jù)庫,進而根據(jù)用戶需求為其提供有價值的信息資源。
3.2 圖書館地方文獻資源智能化服務
應用文本數(shù)據(jù)挖掘技術可以在短時間內實現(xiàn)大量文獻數(shù)據(jù)的搜集。首先,圖書館應對用戶獲取地方文獻資源的行為習慣信息進行搜集,記錄用戶每次的瀏覽信息。其次,圖書館可應用關聯(lián)規(guī)則算法找到訪問頻率較高的項目集,結合分類算法將具有同一行為特征的用戶聚集到一起,以提高用戶的資源獲取效率。智能化的算法工具、信息檢索工具不僅支持用戶的多種檢索方式,還能對多種語言搜索結果進行聚類分析,使其清晰地呈現(xiàn)出來,方便用戶選擇。
4 基于文本數(shù)據(jù)挖掘技術的圖書館地方文獻資源開發(fā)利用方法
4.1 建立圖書館地方文獻資源數(shù)據(jù)庫
利用文本數(shù)據(jù)挖掘技術對地方文獻資源進行開發(fā)利用,應針對地方圖書館、文化機構、檔案館、博物館中的地方特色文獻資源,包括圖書文獻、歷史文物、歷史檔案等進行數(shù)字化處理,借助轉換算法工具將數(shù)字化文獻資源轉化為文本數(shù)據(jù),再使用文本數(shù)據(jù)挖掘技術對數(shù)字文獻進行深入挖掘。在挖掘其潛在價值和潛藏信息的基礎上,圖書館可以應用SQL數(shù)據(jù)庫技術將文獻資源存儲到特定的數(shù)據(jù)倉庫中,并對不同種類、不同結構的地方特色文獻資源進行分類存儲,設置不同的專題集開展集中利用,并以此為依托面向用戶推出不同種類的地方文獻資源產品與服務,滿足用戶的研究及閱讀需求。
4.2 構建地方特色文獻資源檢索系統(tǒng)
基于文本數(shù)據(jù)挖掘技術的文獻資源開發(fā)與應用需要相應的信息檢索系統(tǒng),通過信息檢索系統(tǒng)可以實現(xiàn)用戶資源需求與圖書館地方特色文獻資源的有效對接,提升圖書館地方文獻資源的利用率。信息檢索系統(tǒng)的設計不能局限于操作功能,除了考慮圖書館地方文獻資源的結構特點,還要根據(jù)數(shù)據(jù)庫的構造、圖書館地方文獻資源的類型設計不同的算法工具。圖書館只有圍繞用戶需求提供便捷的地方文獻資源檢索服務,才能提高資源利用率。
4.3 建立圖書館地方文獻資源智能服務模式
圖書館應依托大數(shù)據(jù)分析技術面向用戶建立專門的習慣集,在精準分析用戶需求的基礎上采用智能技術為用戶量身打造個性化服務方案,及時調取與用戶需求相匹配的圖書館地方文獻資源并提供給用戶,同時提供相關的解析、數(shù)據(jù)分析以及參考決策等服務。
5 結語
文本數(shù)據(jù)挖掘技術在圖書館地方文獻資源開發(fā)利用過程中發(fā)揮著重要作用,使用文本數(shù)據(jù)挖掘技術不僅能提高圖書館地方文獻資源的利用率,還能提升圖書館的智能化服務程度,從而更加科學、高效地滿足用戶的個性化需求。
參考文獻:
[1] 趙剛.文本與數(shù)據(jù)挖掘的版權問題:法律適用障礙和圖書館的版權立場及博弈策略[J].圖書館工作與研究,2018(10):12-17.
[2] 于靜.國際圖書館界對文本和數(shù)據(jù)挖掘權利的爭取及啟示[J].圖書館,2016(3):80-84.
[3] 王艷.數(shù)據(jù)挖掘在數(shù)字圖書館中的應用[J].現(xiàn)代圖書情報技術,2002(5):8-10.
[4] 侯玉玲.圖書館應用文本和數(shù)據(jù)挖掘技術的版權問題芻議[J].圖書館界,2015(6):1-4.
[5] 秦劼.文本與數(shù)據(jù)挖掘技術應用背景下的英國版權例外制度的創(chuàng)新:兼議對我國解決圖書館數(shù)字版權問題的啟示[J].晉圖學刊,2018(4):57-61.
[6] 龔真平.基于web文獻的數(shù)據(jù)挖掘研究應用[D].成都:西南交通大學,2017.
(編校:周雪芹)