劉玫
摘 要:21世紀是數字化、科技化的時代,數據挖掘技術在為實現數字化提供了有力支持,該文不僅對數據挖掘技術、數字圖書館的基本概念做出了闡述,而且研討了數據挖掘在數字化圖書館運營管理當中的應用問題,表明數據挖掘技術在數字圖書館中應用的重要性。
關鍵詞:數據挖掘 ?數字圖書館 ?應用研究
中圖分類號:G25 文獻標識碼:A 文章編號:1674-098X(2014)11(a)-0193-01
在現代科技帶動下,圖書館也向信息化、自動化與數字化的方向邁進。數據挖掘就是在這個時代應運而生的,如今,它已經在金融業、銷售業、建筑業等行業取得了許多成功,為這些領域的更快更好發展立下了汗馬功勞。目前,互聯網上的數字圖書館數量與日俱增,因此數字圖書館的數據挖掘技術就具有很重要的意義。數據挖掘技術在數字圖書館中的應用,將為數字圖書館在圖書資源組織管理、服務質量的提升與服務方式的擴展等方面提供有力的技術支持。
1 數據挖掘概述
數據挖掘這個技術是近幾年來從計算機科學研究中發展出來的一個分支學科。具體是指從海量數據中提取或挖掘出隱藏的信息。所有信息載體或信息存儲上都可以使用數據挖掘技術。數據挖掘的整個過程是由準備數據、數據采集、顯示結果與解釋分三個部分組成的。整個采集過程是對數據的循環精練過程,離不開人為的操作。數據挖掘技術大大降低了從大型數據庫中挖掘出有用信息的難度,采集人員并不需要有很強的數據分析和數據統計的能力。數據挖掘與知識挖掘既存在一定聯系,同時又有一些差別。通常認為數據挖掘是知識挖掘過程的一個基本過程,它采用特定算法把數據從數據庫中采集出來的模式,最后再經過系統解釋與翻譯功能把這種模式變換成用戶能夠理解的信息。另外,數據挖掘的過程是隨機發生的,用戶預先不能知道結果;信息檢索的初衷是幫助用戶從大量數據中挖掘出滿足其查詢條件的信息,而數據挖掘是把文檔內隱藏的知識提取出來。這兩個系統是相輔相成的。因此可以利用數據挖掘的研究結果來提高信息檢索的效率與準確度,優化檢索結果的顯示,使信息檢索系統更優良、更全面。
2 數字圖書館的定義
如今對掘數字圖書館的定義有很多,總體概括起來,數字圖書館就是依靠計算機互聯網絡、信息檢索技術、圖書分類技術、管理等技術,把圖書整理、保存、保護、數字信息收集與使用等功能融于一體的綜合智能數字信息管理與服務中心,這里包含了計算機網絡、人工智能、數據庫、圖書情報學等最新技術。數字圖書館是基于本著盡最大可能滿足用戶的所有需要,方便用戶使用的宗旨,向用戶提供能夠滿足特定需求的優質服務,同時它又能夠培養用戶個性,引導用戶的需求,這種方式大大促進的現代圖書館的發展。促進人類文明的進步。如今國內外數字圖書館的數量顯著增加,對信息服務系統的研究也越來越深入,信息服務的應用也更加廣泛。
3 數據挖的功能特性
(1)聚類。聚類就是把所有數據個體根據它們所具有的相同特點歸納在一起,形成一組具有特定屬性的數據群組,同種類聚類就是把同一種類的數據放在一起,不同類聚類則是把不同種類的數據放在一起。,這樣就能反映出同種事物的共同屬性與不同事物間的差異屬性。通過這種方式,數據庫中的數據就會被劃分成許多有特定屬性的子集。
(2)關聯分析。它反映了各數據單元間關聯的信息,如果一組數據多項屬性都存在關聯,那么其中某一項的屬性就可根據其他一些屬性來判斷分析。
(3)概念描述。概念描述就是對某類對象的本質進行探討分析,并總結這類對象的相關特點,概念描述有區別描述與特征描述兩種,前者描述不同類對象間的差別,后者則是描述某類對象的相同特征,最后形成一個類的特征性描述,并且只涉及這類對象中全部對象的共同特性。
(4)預測趨勢與行為。數據挖掘系統能夠以時間為依據,從過去或當前的大型數據庫中自動挖掘未知信息來預測以后的信息。
(5)偏差檢測。數據庫中的數據也會發生錯誤,從數據庫中檢測這些錯誤是非常重要的,因為錯誤中也包括許多隱藏的信息。
4 數據挖掘在數字圖書館中的應用
數字圖書館旨在將不同區域不同屬性的數字信息資源進行整合從而達到用戶共享的效果。它主要是一種通過數字技術將信息進行整合處理從而使得用戶方便瀏覽。根據處理對象的屬性差異,可以把數字圖書館數據挖掘基本分為三類:結構挖掘、內容挖掘與用戶使用記錄挖掘。結構挖掘是從web文檔中結構下手,除文檔中的超鏈接結構,更對文檔內部結構以及目錄路徑結構進行挖掘。內容挖掘即對web文檔中的內容信息進行挖掘。而用戶使用記錄挖掘則是對于一些服務器上的用戶注冊信息購買記錄等數據進行挖掘。
4.1 進行結構挖掘
對數字圖書館等結構挖掘主要是通過網頁的鏈接和組織結構從而能夠發現圖書館頁面的結構模式并且對此進行分類和聚類并加以分析,這樣可以使得更好的對網絡建設提供指導以及方便通過超鏈接等方式從而分析各學術未來發展。
4.2 進行內容挖掘
內容挖掘主要包含如下幾點,首先是組織文獻數據。通過對數字圖書館內文件的組織分類,將其分為若干個組,充分區分好各個組所涉及的內容。這樣就可以大大縮短用戶搜索所需時間,用更短的時間找到更準確的內容。第二是對特征的自動提取和描述。可以由一個內容分析器來從中分析并且提取充相關的內容特征,用戶采取提取特征后才能更加準確快速的實現信息定位。其三是自動采集整理專題信息。這主要是通過對圖書管內的海量信息進行了解,并且能夠從中挖掘到一些有規律的信息反映給用戶,從而使得用戶無需瀏覽大量無用信息,能夠自動捕捉提取概要信息。
4.3 進行用戶使用記錄挖掘
由數字圖書館的海量訪問信息中歸納出圖書館用戶的訪問規律信息,運用關聯性法則與聚類法則,將不同類型用戶需求進行分類總結,提供針對服務,從而提高瀏覽速度優化用戶體驗。同時還應當鼓勵用戶建立自己的Web站點從而更好的了解到使用數字圖書用戶的了解意向,更能由此推析出未來發展趨勢,進而研究出其行為規律。
5 結語
通過將數據挖掘技術引入數字圖書館這一舉措,能夠大大提高數字圖書館的信息資源量,優化圖書館的信息服務的質量,用戶可以更方便、更多的獲取想要的知識,同時圖書館的業務范圍也將得到大幅度擴展,為圖書館帶來巨大的經濟與社會效益,達到雙贏的效果。但數據挖掘終究是一種新興的智能科技產物,它的發展還是有很多挑戰與難題需要面對。如何將數據挖掘系統更好的應用到數字圖書館中還需要進一步的探討與研究。
參考文獻
[1] 周文云.數據挖掘在數字圖書館個性化服務中的研究與應用[J].軍民兩用技術與產品,2012(1):56.
[2] 田瑞雪.國內圖書館數據挖掘技術應用研究述評[J].科技信息,2014(1):167.
[3] 付紅偉,盧春,周楊.數據挖掘技術及其在數字圖書館中的應用[J].軟件導刊,2013(1).endprint