999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據關聯與文本挖掘技術的圖書館文獻資源開發利用研究

2019-08-19 01:59:24張影
中國中醫藥圖書情報雜志 2019年4期
關鍵詞:關聯圖書館文本

張影

基于數據關聯與文本挖掘技術的圖書館文獻資源開發利用研究

張影

太原市圖書館,山西 太原 030024

數據關聯與文本挖掘技術為圖書館文獻資源開發利用提供了新方法。文章闡述了圖書館文獻資源開發利用的現狀,闡明應用數據關聯與文本挖掘技術的必要性,明確了基于數據關聯與文本挖掘技術圖書館文獻資源開發利用的4項原則,即持久性原則、重點性原則、主動性原則與價值性原則。并從數據源、文本處理、文本挖掘分析、可視化處理4個方面設計了基于數據關聯與文本挖掘技術圖書館文獻資源開發利用的流程,提出了構建過程中應注意的問題,以期推動圖書館文獻資源的開發與利用。

數據關聯;文本挖掘;圖書館;文獻資源;開發利用

圖書館文獻資源開發是一項復雜的系統性工作,圖書館文獻蘊含著濃厚的歷史,具有非凡的歷史價值和科學價值,開發利用圖書館文獻有利于繼承和發展中華民族文化遺產,為圖書館文化研究提供一手資源[1]。對圖書館文獻資源的開發利用,可以結合數據關聯與文本挖掘技術,從已有的文本中提取有價值的信息,充分發揮數據挖掘的技術優勢,從大量的圖書館文獻資源數據中抽取可用的知識。但是,數據關聯與文本挖掘需要處理非結構化的文本和模糊的語義,涉及到多個學科和領域,涵蓋統計學、數據學、語義識別等技術,因此,基于數據關聯與文本挖掘技術的圖書館文獻資源開發利用研究十分具有挑戰性。

1 圖書館文獻資源開發利用現狀分析

當前圖書館文獻資源開發利用工作存在諸多不足,既有服務理念上的忽視,也有保障機制上的缺失。從服務理念上來看,部分圖書館認為圖書館文獻的搜集和整理并不重要,將其認為是某一個部門的工作,在整體上缺乏統一協調管理,導致圖書館文獻總體館藏數量少、質量偏低。從投入上來看,因為對圖書館文獻工作的不重視,使得圖書館文獻資源開發利用經費及人才短缺,不能夠及時更新文獻,無法滿足讀者的閱讀需求。從圖書館文獻資源利用上看,部分圖書館館內沒有專門的文獻儲藏空間,更談不上深度的開發與高效利用,這些嚴重制約了圖書館文獻資源的服務水平[2]。可見,圖書館對于文獻資源的開發和利用十分被動,無法真正形成科學的、具有規模的服務體系,導致讀者對圖書館開發利用文獻資源缺乏信任。因此,重塑圖書館文獻資源開發利用體系至關重要。

圖書館文獻資源往往具有較高的學術研究價值,人們通過查詢閱讀文獻資料,了解過去、追溯歷史、把握現在、展望未來。隨著社會的不斷進步和發展,信息的發展呈爆炸式增長趨勢,越來越多的人開始重視圖書館文獻資源,查閱圖書館資源的讀者用戶與日俱增。部分圖書館已經意識到圖書館文獻資源的重要性,但由于受傳統的資源開發技術制約,難以挖掘圖書館文獻資源的數據關聯和隱藏的規律性信息,導致圖書館文獻資源的開發程度有限,利用率有限[3]。因此,應用數據關聯與文本挖掘技術,可以突破資源開發利用的技術瓶頸,通過數據挖掘等手段,能夠發現和抽取可用知識,在相關數據間生成一定規則的鏈接,便于形成知識間的遷移,使讀者更加全面和便捷地對圖書館文獻資源進行檢索,提高文獻資源開發與利用的質量。

2 基于數據關聯與文本挖掘技術的圖書館文獻資源開發利用原則

圖書館在進行圖書館文獻資源開發利用的過程中,既要結合數據關聯與文本挖掘的技術優勢,又要遵循持久性原則、重點性原則、主動性原則與價值性原則。

2.1 持久性原則

圖書館文獻資源的開發利用是一項長期的、宏觀的系統性工程,要保證圖書館文獻的繼承性,在統籌協調文獻資源開發利用過程中,應該始終遵循持久性原則,解決相關機構設置和人員管理的問題,結合數據關聯與文本挖掘技術,充分考慮技術人才的引進,從資源構建環節到知識輸出平臺,都要符合數據開發的標準與要求。將圖書館文獻資源挖掘工作作為一種常態化、持久性的工作[4],使文獻資源成為圖書館的名片,推動館藏文獻形成規模。

2.2 重點性原則

圖書館文獻資源內容豐富,涵蓋人文、社會、經濟、民風民俗等方方面面的內容,并且載體多樣,有視頻、音頻、圖片、文本等,由于圖書館經費和人力有限,不可能事無巨細地對每一個數據都進行挖掘,詳略不分地資源開發只會產生泛而不專的問題,難以突出圖書館文獻資源的精髓和特色。因此,在對文獻資源進行數據關聯和文本挖掘技術處理時,要遵循重點性原則,根據圖書館具體的情況因地制宜,優化資源配置,有的放矢,挖掘重點。

2.3 主動性原則

對圖書館文獻資源的數據關聯和文本挖掘工作具有很大的難度,一是在技術處理方面需要專業的人才和設備,二是需要大量全面地收集與整合文獻資源,三是需要社會上和相關部門的大力支持,例如經費支持、社會捐贈等。在文獻資源開發利用沒有得到重視的情況下,圖書館要遵循主動性原則,主動聯系社會團體和相關單位,爭取他們的支持和幫助,推動圖書館文獻資源開發利用順利進行。

2.4 價值性原則

價值性原則,即在進行數據處理時,關注圖書館文獻資源與學科研究的交叉點,遷移其學術價值。圖書館文獻資源傳承著區域的文化脈絡,必然與區域地理、人文和歷史學科息息相關[5]。所以,圖書館在進行數據整理時,要充分挖掘文獻資源的學術價值和人文價值。

3 基于數據關聯與文本挖掘技術圖書館文獻資源開發利用的流程設計

數據關聯和文本挖掘的目標在于應用Web技術將計算機與資源描述框架(Resource Description Framework, RDF)相關聯,進而形成數據網。圖書館應該從數據源建設、文本處理、數據挖掘分析與可視化處理等層面進行設計,最終能夠為用戶提供揭示資源和知識鏈接的整合結果,使圖書館文獻資源得到開發與利用。

3.1 數據源

圖書館可以利用BIBFRAME(書目框架)2.0取代原有的MARC模型方式,重塑圖書館文獻資源數據庫,強化資源元數據的描述,便于應用數據關聯和文本挖掘技術,建立更加開放的數據關聯環境,使文獻資源數據庫具有一定程度的伸縮性,能夠融入語義網絡環境中,符合文獻資源開發和利用的格式標準。由于文獻資源數據,如數據庫、網頁、論文集、期刊及圖書等,存在多樣性和復雜性,我國不同地區、不同級別圖書館對圖書館文獻工作的理解和管理有所差異,造成圖書館文獻的交流與互通存在障礙。基于數據關聯與文本挖掘技術的圖書館文獻資源開發利用要制訂統一標準,以便更加全面地整合大量數據源,為數據關聯和文本挖掘提供資源基礎。

3.2 文本處理

為揭示數據源中文獻資源的相關性,圖書館要對其進行文本處理,如分詞、提取數據特征等。常見的數據關聯方式有實體上位關聯方法,例如,將個人與組織相關聯(bf:Person, bf:Organization)、個人與家族相關聯(bf:Person, bf:Family);還有側重點關聯的方法,例如,將居住地和出生地相關聯(local:residence, local:birth place)[6]。通過這種有規律的文本處理,可以從復雜的數據源中,鏈接出數據間的關系,充分表達數據間的相關性。另外,圖書館還可以根據本館文獻資源實際情況和特征,劃分不同關聯主題,為下一步的文本挖掘分析奠定基礎。

3.3 文本挖掘分析

在基于數據關聯與文本挖掘技術的流程中,文本挖掘分析是核心環節,是發現圖書館文獻資源知識規則的關鍵,包括文本結構分析、文本摘要、文本分類、關聯分析、分布分析用趨勢預測等。分析人員不需要對數據的分布做出假設性方案,也不需要按照一定的程序對其計算,文本挖掘技術可以自動識別數據變量之間的關系,并提取雜亂數據間的規律。一般來說,文本挖掘分析技術會重點處理數據分類、數據聚類、數據關聯及定性4類問題。

3.4 可視化處理

將整合的文獻資源進行可視化處理,是圖書館資源開發利用的終端環節,同樣也是一項復雜的技術性工作,要嚴格遵循數據導出的程序。這是數據關聯與文本挖掘技術的成果輸出環節,因此對于圖書館文獻資源的可視化技術處理要由富有經驗的專業人員來完成。整合后的資源符合網絡平臺的語義環境,標引方式也滿足網絡平臺的要求,可以提高檢全率、檢準率。圖書館文獻資源可視化后,可供讀者用戶查詢和瀏覽。

4 基于數據關聯與文本挖掘技術的圖書館文獻資源開發利用應注意的問題

在開發和利用圖書館文獻資源過程中,數據庫建設工作是基礎(見圖1),規范化的數據挖掘程序十分重要,可以保證文獻資源的有序排列和輸出,為讀者用戶提供系統化、關聯性強的檢索結果。同時,充實圖書館文獻書目數據庫與提高圖書館館員的素質水平也是基于數據關聯與文本挖掘技術圖書館文獻資源開發利用需要解決的關鍵問題。

圖1 圖書館文獻資源數據庫建設流程

4.1 充實圖書館文獻書目數據庫

文獻資源數據庫建設是開發利用文獻資源的基礎性工作,在文獻資源選取的過程中,一要注意全面性,盡可能地著錄完整的圖書館資源;二要注意特色性,即突出圖書館文獻資源的特征,根據圖書館文獻資源的實際情況分類[7]。總之,充實圖書館文獻書目數據庫是應用數據關聯和文本挖掘技術的前提,如審核通過將會進入文獻加工環節,如審核未通過,則要重新構建文獻資源體系。

4.2 規范化數據挖掘流程

基于數據關聯與文本挖掘技術圖書館文獻資源開發利用還要注意數據挖掘的規范化,保證數據的質量是首要工作,要對文獻數據的字段和格式進行硬性的規范,并且要保證這種格式是持續遵循的,充分為以后的文本挖掘工作和圖書館網絡平臺建設打好基礎。從圖1可以看出,文獻標引、數據錄入與鏈接,都需要規范和監督,如遇不合格的情況,要及時返回上一流程重新校對和驗證。圖書館必須對文獻資源的數據挖掘層層把關,完善CNMARC和BIBFRAME的數據轉換。

4.3 提高圖書館館員的素質水平

文獻資源的數據關聯和文本挖掘工作,對圖書館館員提出了更高的要求。圖書館要加強對館員的培養,提高素質水平,在掌握基本的圖書情報專業知識基礎上,具備圖書館文獻背景知識和一定的數據挖掘技術,以及計算機應用知識,從而保障圖書館文獻資源的充分開發與利用,從人才角度保障圖書館文獻資源的數據關聯與文本挖掘工作。

5 小結

網絡環境和計算機信息技術的發展為圖書館文獻資源開發與利用提供了有利條件,將數據關聯與文本挖掘技術應用到圖書館文獻資源開發利用中,能更好地發揮圖書館傳承文明的作用,突出圖書館在資源、技術、人才方面的優勢,打造全面性、規范性、有價值的圖書館文獻資源數據庫。

[1] 林澤斐,孟雪梅.基于關聯數據的地方文獻地名規范控制[J].圖書館雜志,2017,36(10):55-62.

[2] 趙夷平,畢強.關聯數據在學術資源網相似文獻發現中的應用研究[J].現代圖書情報技術,2016(3):41-49.

[3] 黃曉斌,王堯.地方文獻與地方特色新型智庫建設[J].圖書情報知識,2016(1):35-41.

[4] 宋玉軍,金曉英.數字時代公共圖書館地方文獻工作探析[J].圖書館理論與實踐,2014(11):77-79.

[5] 歐石燕,胡珊,張帥.本體與關聯數據驅動的圖書館信息資源語義整合方法及其測評[J].圖書情報工作,2014,58(2):5-13.

[6] 高紅妮.圖書館關聯數據創新動態組合服務模型研究[J].農業圖書情報學刊,2018,30(9):158-160.

[7] 劉穎.基于語義關聯的數字圖書館知識檢索系統研究[J].圖書館學刊,2018(6):107-110.

Study on Development and Utilization of Library Literature Resources Based on Association Data and Text Mining Technology

ZHANG Ying

(Taiyuan Library, Taiyuan 030024, China)

Association data and text mining technology provide a new method for the development and utilization of library literature resources. This article expounded the current situation of the development and utilization of library literature resources, elucidated the necessity of applying association data and text mining technology, and clarified four principles of the development and utilization of library literature resources based on association data and text mining technology, namely, the principles of persistence, focus, initiative and value. It also designed the process of development and utilization of library literature resources based on association data and text mining technology from the aspects of data source, text processing, text mining analysis and visualization processing, and proposed the problems that should be paid attention to during the construction process, in order to promote the development and utilization of library literature resources.

association data; text mining; library; literature resources; development and utilization

10.3969/j.issn.2095-5707.2019.04.012

G254

A

2095-5707(2019)04-0048-04

(2018-12-11)

2018-12-28;

張影.基于數據關聯與文本挖掘技術的圖書館文獻資源開發利用研究[J].中國中醫藥圖書情報雜志,2019,43(4): 48-51.

張影,E-mail: 30549466@qq.com

編輯:魏民

猜你喜歡
關聯圖書館文本
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
飛躍圖書館
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
圖書館里的是是非非
去圖書館
主站蜘蛛池模板: 波多野结衣第一页| 国产极品美女在线播放| 亚洲综合色婷婷| 国产一区二区三区免费观看| 国产成人久久777777| 国产91丝袜在线播放动漫| 国产亚洲精品97AA片在线播放| 国产91蝌蚪窝| 999精品视频在线| 四虎成人精品| 日本亚洲欧美在线| 毛片视频网址| 欧美成人影院亚洲综合图| av大片在线无码免费| 国产精品va免费视频| 亚洲国产精品日韩欧美一区| 免费一级毛片完整版在线看| 国产精品视频导航| 久久久久国产一级毛片高清板| 无码精油按摩潮喷在线播放| 91人妻在线视频| WWW丫丫国产成人精品| 日韩精品亚洲一区中文字幕| 国产精品污视频| 亚洲啪啪网| 成人午夜视频网站| h视频在线播放| 中文成人无码国产亚洲| 精品国产网站| 欧美日本激情| 青草视频免费在线观看| 国产午夜一级淫片| 国产成人综合日韩精品无码首页| 91精品国产无线乱码在线| 久久中文字幕av不卡一区二区| 亚洲综合经典在线一区二区| 久久综合国产乱子免费| 婷婷在线网站| 国产成人一区在线播放| 免费一级全黄少妇性色生活片| 久久国产精品波多野结衣| 精品国产一区二区三区在线观看| 丁香五月亚洲综合在线| 又污又黄又无遮挡网站| 国产精品99在线观看| 毛片最新网址| 亚洲欧美日韩高清综合678| 国产地址二永久伊甸园| 成人va亚洲va欧美天堂| 国产网站免费观看| 国产极品美女在线| 亚洲动漫h| 老色鬼欧美精品| www.亚洲色图.com| 亚洲视频无码| 这里只有精品国产| 成年A级毛片| 亚洲精品波多野结衣| 国产成人AV大片大片在线播放 | 国产交换配偶在线视频| 国产成人精品一区二区秒拍1o| 2048国产精品原创综合在线| 色色中文字幕| 免费人成网站在线观看欧美| 毛片大全免费观看| 国产自在线拍| 丝袜亚洲综合| 中文字幕人妻av一区二区| 色综合久久88色综合天天提莫| 国产亚洲精品yxsp| 亚洲中文字幕久久精品无码一区| 秋霞午夜国产精品成人片| 亚洲无码电影| 成年人视频一区二区| 免费视频在线2021入口| 国产精品亚洲欧美日韩久久| 一本大道视频精品人妻| 人妻中文久热无码丝袜| 久久一本日韩精品中文字幕屁孩| 欧美综合在线观看| 国产成人免费视频精品一区二区| 午夜福利视频一区|