基于數據關聯與文本挖掘技術的圖書館文獻資源開發利用研究

2019-08-19 01:59:24張影

中國中醫藥圖書情報雜志 2019年4期

張影

張影

太原市圖書館，山西太原 030024

數據關聯與文本挖掘技術為圖書館文獻資源開發利用提供了新方法。文章闡述了圖書館文獻資源開發利用的現狀，闡明應用數據關聯與文本挖掘技術的必要性，明確了基于數據關聯與文本挖掘技術圖書館文獻資源開發利用的4項原則，即持久性原則、重點性原則、主動性原則與價值性原則。并從數據源、文本處理、文本挖掘分析、可視化處理4個方面設計了基于數據關聯與文本挖掘技術圖書館文獻資源開發利用的流程，提出了構建過程中應注意的問題，以期推動圖書館文獻資源的開發與利用。

數據關聯；文本挖掘；圖書館；文獻資源；開發利用

圖書館文獻資源開發是一項復雜的系統性工作，圖書館文獻蘊含著濃厚的歷史，具有非凡的歷史價值和科學價值，開發利用圖書館文獻有利于繼承和發展中華民族文化遺產，為圖書館文化研究提供一手資源[1]。對圖書館文獻資源的開發利用，可以結合數據關聯與文本挖掘技術，從已有的文本中提取有價值的信息，充分發揮數據挖掘的技術優勢，從大量的圖書館文獻資源數據中抽取可用的知識。但是，數據關聯與文本挖掘需要處理非結構化的文本和模糊的語義，涉及到多個學科和領域，涵蓋統計學、數據學、語義識別等技術，因此，基于數據關聯與文本挖掘技術的圖書館文獻資源開發利用研究十分具有挑戰性。

1 圖書館文獻資源開發利用現狀分析

當前圖書館文獻資源開發利用工作存在諸多不足，既有服務理念上的忽視，也有保障機制上的缺失。從服務理念上來看，部分圖書館認為圖書館文獻的搜集和整理并不重要，將其認為是某一個部門的工作，在整體上缺乏統一協調管理，導致圖書館文獻總體館藏數量少、質量偏低。從投入上來看，因為對圖書館文獻工作的不重視，使得圖書館文獻資源開發利用經費及人才短缺，不能夠及時更新文獻，無法滿足讀者的閱讀需求。從圖書館文獻資源利用上看，部分圖書館館內沒有專門的文獻儲藏空間，更談不上深度的開發與高效利用，這些嚴重制約了圖書館文獻資源的服務水平[2]。可見，圖書館對于文獻資源的開發和利用十分被動，無法真正形成科學的、具有規模的服務體系，導致讀者對圖書館開發利用文獻資源缺乏信任。因此，重塑圖書館文獻資源開發利用體系至關重要。

圖書館文獻資源往往具有較高的學術研究價值，人們通過查詢閱讀文獻資料，了解過去、追溯歷史、把握現在、展望未來。隨著社會的不斷進步和發展，信息的發展呈爆炸式增長趨勢，越來越多的人開始重視圖書館文獻資源，查閱圖書館資源的讀者用戶與日俱增。部分圖書館已經意識到圖書館文獻資源的重要性，但由于受傳統的資源開發技術制約，難以挖掘圖書館文獻資源的數據關聯和隱藏的規律性信息，導致圖書館文獻資源的開發程度有限，利用率有限[3]。因此，應用數據關聯與文本挖掘技術，可以突破資源開發利用的技術瓶頸，通過數據挖掘等手段，能夠發現和抽取可用知識，在相關數據間生成一定規則的鏈接，便于形成知識間的遷移，使讀者更加全面和便捷地對圖書館文獻資源進行檢索，提高文獻資源開發與利用的質量。

2 基于數據關聯與文本挖掘技術的圖書館文獻資源開發利用原則

圖書館在進行圖書館文獻資源開發利用的過程中，既要結合數據關聯與文本挖掘的技術優勢，又要遵循持久性原則、重點性原則、主動性原則與價值性原則。

2.1 持久性原則

圖書館文獻資源的開發利用是一項長期的、宏觀的系統性工程，要保證圖書館文獻的繼承性，在統籌協調文獻資源開發利用過程中，應該始終遵循持久性原則，解決相關機構設置和人員管理的問題，結合數據關聯與文本挖掘技術，充分考慮技術人才的引進，從資源構建環節到知識輸出平臺，都要符合數據開發的標準與要求。將圖書館文獻資源挖掘工作作為一種常態化、持久性的工作[4]，使文獻資源成為圖書館的名片，推動館藏文獻形成規模。

2.2 重點性原則

圖書館文獻資源內容豐富，涵蓋人文、社會、經濟、民風民俗等方方面面的內容，并且載體多樣，有視頻、音頻、圖片、文本等，由于圖書館經費和人力有限，不可能事無巨細地對每一個數據都進行挖掘，詳略不分地資源開發只會產生泛而不專的問題，難以突出圖書館文獻資源的精髓和特色。因此，在對文獻資源進行數據關聯和文本挖掘技術處理時，要遵循重點性原則，根據圖書館具體的情況因地制宜，優化資源配置，有的放矢，挖掘重點。

2.3 主動性原則

對圖書館文獻資源的數據關聯和文本挖掘工作具有很大的難度，一是在技術處理方面需要專業的人才和設備，二是需要大量全面地收集與整合文獻資源，三是需要社會上和相關部門的大力支持，例如經費支持、社會捐贈等。在文獻資源開發利用沒有得到重視的情況下，圖書館要遵循主動性原則，主動聯系社會團體和相關單位，爭取他們的支持和幫助，推動圖書館文獻資源開發利用順利進行。

2.4 價值性原則

價值性原則，即在進行數據處理時，關注圖書館文獻資源與學科研究的交叉點，遷移其學術價值。圖書館文獻資源傳承著區域的文化脈絡，必然與區域地理、人文和歷史學科息息相關[5]。所以，圖書館在進行數據整理時，要充分挖掘文獻資源的學術價值和人文價值。

3 基于數據關聯與文本挖掘技術圖書館文獻資源開發利用的流程設計

數據關聯和文本挖掘的目標在于應用Web技術將計算機與資源描述框架（Resource Description Framework, RDF）相關聯，進而形成數據網。圖書館應該從數據源建設、文本處理、數據挖掘分析與可視化處理等層面進行設計，最終能夠為用戶提供揭示資源和知識鏈接的整合結果，使圖書館文獻資源得到開發與利用。

3.1 數據源

圖書館可以利用BIBFRAME（書目框架）2.0取代原有的MARC模型方式，重塑圖書館文獻資源數據庫，強化資源元數據的描述，便于應用數據關聯和文本挖掘技術，建立更加開放的數據關聯環境，使文獻資源數據庫具有一定程度的伸縮性，能夠融入語義網絡環境中，符合文獻資源開發和利用的格式標準。由于文獻資源數據，如數據庫、網頁、論文集、期刊及圖書等，存在多樣性和復雜性，我國不同地區、不同級別圖書館對圖書館文獻工作的理解和管理有所差異，造成圖書館文獻的交流與互通存在障礙。基于數據關聯與文本挖掘技術的圖書館文獻資源開發利用要制訂統一標準，以便更加全面地整合大量數據源，為數據關聯和文本挖掘提供資源基礎。

3.2 文本處理

為揭示數據源中文獻資源的相關性，圖書館要對其進行文本處理，如分詞、提取數據特征等。常見的數據關聯方式有實體上位關聯方法，例如，將個人與組織相關聯（bf:Person, bf:Organization）、個人與家族相關聯（bf:Person, bf:Family）；還有側重點關聯的方法，例如，將居住地和出生地相關聯（local:residence, local:birth place）[6]。通過這種有規律的文本處理，可以從復雜的數據源中，鏈接出數據間的關系，充分表達數據間的相關性。另外，圖書館還可以根據本館文獻資源實際情況和特征，劃分不同關聯主題，為下一步的文本挖掘分析奠定基礎。

3.3 文本挖掘分析

在基于數據關聯與文本挖掘技術的流程中，文本挖掘分析是核心環節，是發現圖書館文獻資源知識規則的關鍵，包括文本結構分析、文本摘要、文本分類、關聯分析、分布分析用趨勢預測等。分析人員不需要對數據的分布做出假設性方案，也不需要按照一定的程序對其計算，文本挖掘技術可以自動識別數據變量之間的關系，并提取雜亂數據間的規律。一般來說，文本挖掘分析技術會重點處理數據分類、數據聚類、數據關聯及定性4類問題。

3.4 可視化處理

將整合的文獻資源進行可視化處理，是圖書館資源開發利用的終端環節，同樣也是一項復雜的技術性工作，要嚴格遵循數據導出的程序。這是數據關聯與文本挖掘技術的成果輸出環節，因此對于圖書館文獻資源的可視化技術處理要由富有經驗的專業人員來完成。整合后的資源符合網絡平臺的語義環境，標引方式也滿足網絡平臺的要求，可以提高檢全率、檢準率。圖書館文獻資源可視化后，可供讀者用戶查詢和瀏覽。

4 基于數據關聯與文本挖掘技術的圖書館文獻資源開發利用應注意的問題

在開發和利用圖書館文獻資源過程中，數據庫建設工作是基礎（見圖1），規范化的數據挖掘程序十分重要，可以保證文獻資源的有序排列和輸出，為讀者用戶提供系統化、關聯性強的檢索結果。同時，充實圖書館文獻書目數據庫與提高圖書館館員的素質水平也是基于數據關聯與文本挖掘技術圖書館文獻資源開發利用需要解決的關鍵問題。

圖1 圖書館文獻資源數據庫建設流程

4.1 充實圖書館文獻書目數據庫

文獻資源數據庫建設是開發利用文獻資源的基礎性工作，在文獻資源選取的過程中，一要注意全面性，盡可能地著錄完整的圖書館資源；二要注意特色性，即突出圖書館文獻資源的特征，根據圖書館文獻資源的實際情況分類[7]。總之，充實圖書館文獻書目數據庫是應用數據關聯和文本挖掘技術的前提，如審核通過將會進入文獻加工環節，如審核未通過，則要重新構建文獻資源體系。

4.2 規范化數據挖掘流程

基于數據關聯與文本挖掘技術圖書館文獻資源開發利用還要注意數據挖掘的規范化，保證數據的質量是首要工作，要對文獻數據的字段和格式進行硬性的規范，并且要保證這種格式是持續遵循的，充分為以后的文本挖掘工作和圖書館網絡平臺建設打好基礎。從圖1可以看出，文獻標引、數據錄入與鏈接，都需要規范和監督，如遇不合格的情況，要及時返回上一流程重新校對和驗證。圖書館必須對文獻資源的數據挖掘層層把關，完善CNMARC和BIBFRAME的數據轉換。

4.3 提高圖書館館員的素質水平

文獻資源的數據關聯和文本挖掘工作，對圖書館館員提出了更高的要求。圖書館要加強對館員的培養，提高素質水平，在掌握基本的圖書情報專業知識基礎上，具備圖書館文獻背景知識和一定的數據挖掘技術，以及計算機應用知識，從而保障圖書館文獻資源的充分開發與利用，從人才角度保障圖書館文獻資源的數據關聯與文本挖掘工作。

5 小結

網絡環境和計算機信息技術的發展為圖書館文獻資源開發與利用提供了有利條件，將數據關聯與文本挖掘技術應用到圖書館文獻資源開發利用中，能更好地發揮圖書館傳承文明的作用，突出圖書館在資源、技術、人才方面的優勢，打造全面性、規范性、有價值的圖書館文獻資源數據庫。

[1] 林澤斐,孟雪梅.基于關聯數據的地方文獻地名規范控制[J].圖書館雜志,2017,36(10):55-62.

[2] 趙夷平,畢強.關聯數據在學術資源網相似文獻發現中的應用研究[J].現代圖書情報技術,2016(3):41-49.

[3] 黃曉斌,王堯.地方文獻與地方特色新型智庫建設[J].圖書情報知識,2016(1):35-41.

[4] 宋玉軍,金曉英.數字時代公共圖書館地方文獻工作探析[J].圖書館理論與實踐,2014(11):77-79.

[5] 歐石燕,胡珊,張帥.本體與關聯數據驅動的圖書館信息資源語義整合方法及其測評[J].圖書情報工作,2014,58(2):5-13.

[6] 高紅妮.圖書館關聯數據創新動態組合服務模型研究[J].農業圖書情報學刊,2018,30(9):158-160.

[7] 劉穎.基于語義關聯的數字圖書館知識檢索系統研究[J].圖書館學刊,2018(6):107-110.

Study on Development and Utilization of Library Literature Resources Based on Association Data and Text Mining Technology

ZHANG Ying

(Taiyuan Library, Taiyuan 030024, China)

Association data and text mining technology provide a new method for the development and utilization of library literature resources. This article expounded the current situation of the development and utilization of library literature resources, elucidated the necessity of applying association data and text mining technology, and clarified four principles of the development and utilization of library literature resources based on association data and text mining technology, namely, the principles of persistence, focus, initiative and value. It also designed the process of development and utilization of library literature resources based on association data and text mining technology from the aspects of data source, text processing, text mining analysis and visualization processing, and proposed the problems that should be paid attention to during the construction process, in order to promote the development and utilization of library literature resources.

association data; text mining; library; literature resources; development and utilization

10.3969/j.issn.2095-5707.2019.04.012

G254

2095-5707(2019)04-0048-04

（2018-12-11）

2018-12-28；

張影.基于數據關聯與文本挖掘技術的圖書館文獻資源開發利用研究[J].中國中醫藥圖書情報雜志,2019,43(4): 48-51.

張影，E-mail: 30549466@qq.com

編輯：魏民