王海燕(長春光華學院 吉林 長春 130033)
數(shù)字圖書館數(shù)據(jù)挖掘研究
王海燕
(長春光華學院 吉林 長春 130033)
自從改革開放以來,我國經(jīng)濟得到了快速的發(fā)展和進步。伴隨著經(jīng)濟的快速發(fā)展,我國在科學技術方面取得了比較顯著的成就,尤其是在數(shù)字圖書館的數(shù)據(jù)挖掘方面更是取得了令人舉世矚目的成就。眾所周知的是,近幾年來我國漸漸的涌出了大量的數(shù)字圖書館,并且已經(jīng)開始漸漸的取代傳統(tǒng)的圖書館。數(shù)字圖書館的出現(xiàn)不僅僅大量的提高了整個圖書館的管理效率,而且減少了人力和物力的損耗。而在數(shù)字圖書館的日常管理過程中,數(shù)據(jù)挖掘是極其重要的一個環(huán)節(jié),數(shù)據(jù)挖掘很好的豐富了數(shù)字圖書館的內(nèi)容。但是,由于受多方面因素的約束,我國在數(shù)字圖書館的數(shù)據(jù)挖掘方面始終存在著一系列問題,進而嚴重的阻礙了整個數(shù)字圖書館的進一步發(fā)展。本文就目前我國數(shù)字圖書館數(shù)據(jù)挖掘做了簡要的分析和探討。
數(shù)字圖書館;數(shù)據(jù);挖掘
隨著科技的快速發(fā)展,21世紀已經(jīng)是一個數(shù)字化和科技化的時代,各種數(shù)字技術已經(jīng)被廣泛的應用到了各個領域中,并且也都取得了比較顯著的成就。而在數(shù)字圖書館的建立和管理過程中,數(shù)字挖掘技術更是扮演了極其重要的角色,它是數(shù)字圖書館發(fā)展過程中不可或缺的一部分。與傳統(tǒng)的圖書館相比較,數(shù)字挖掘技術的應用更好的實現(xiàn)了圖書館的數(shù)字化,使得圖書館大量的工作都又原來的人工操作嘗變成了數(shù)字技術操作。我國政府也已經(jīng)認識到了數(shù)據(jù)挖掘技術的重要性,并且在數(shù)據(jù)挖掘技術方面投入了大量的資金和精力,同時也培養(yǎng)了大量的高端數(shù)據(jù)挖掘技術人員。但是,與西方其他先進的發(fā)達國家相比較,我國整體的數(shù)據(jù)挖掘技術水平仍然比較低。為了盡快改變這一現(xiàn)狀,必須要積極的引進并且學習其他國家先進的數(shù)據(jù)挖掘技術,并且應用到我國數(shù)字圖書館的日常管理過程中。
為了更好的將數(shù)據(jù)挖掘應用到數(shù)字圖書館中,我們必須要首先準確的了解并且掌握數(shù)據(jù)挖掘的具體概念。對于數(shù)據(jù)挖掘而言,它是一個新型的概念,是計算機科學技術的一個重要部分,主要指的就是通過利用信息技術從海量數(shù)據(jù)中準確的提取并且挖掘一些隱藏的信息,然后將這些信息應用到實際應用中,而對于一般的信息載體都可以利用數(shù)據(jù)挖掘技術來進行提取信息。數(shù)據(jù)挖掘的過程比較復雜,包括數(shù)據(jù)的準備、數(shù)據(jù)的具體采集以及數(shù)據(jù)結果的顯示以及解釋,因此,在利用數(shù)據(jù)挖掘技術之前,我們必須要首先掌握這幾個過程。而數(shù)字圖書館主要就是利用現(xiàn)代新型的計算機技術和信息檢索技術對圖書館里面所有的圖書進行整理、保存,同時對數(shù)字信息進行收集和使用的綜合智能數(shù)字信息管理與服務的中心。通過利用信息技術和計算機技術可以盡可能的滿足所有讀者的實際需求。
3.1 聚類
與其他普通的技術相比較,數(shù)據(jù)挖掘的功能特性比較顯著,而且種類比較豐富,其中比較重要的一個功能特性就是聚類。聚類是比較復雜的一個功能特性,它主要指的就是利用現(xiàn)代計算機技術將所有的數(shù)據(jù)個體根據(jù)它們自身的特點進行歸納,然后使得所有的這些數(shù)據(jù)都可以形成一組具有獨特屬性的數(shù)據(jù)群組。而聚類可以分成兩種類型,對于同一種類聚類的結合就是將同一種類型的數(shù)據(jù)集中在一起進行管理和保存。而不同類聚類就是將不同特性的不同數(shù)據(jù)進行同一管理。然后我們可以根據(jù)這些特性來得知同種類事物之間的共同性和不同種類事物之間所存在的差異性。
3.2 關聯(lián)分析
在數(shù)據(jù)挖掘的功能特性中,關聯(lián)分析是另一個比較顯著的特性,它與聚類存在著比較大的差別。對于關聯(lián)分析而言,它主要就是反映了數(shù)字圖書館中所收集的各種數(shù)據(jù)單元之間所存在一定關聯(lián)性的具體信息。例如,對于數(shù)字圖書館中的一組數(shù)據(jù)而言,如果這一組數(shù)據(jù)中大部分的數(shù)據(jù)都存在著相互的關聯(lián)性。那么我們可以根據(jù)其中一項的具體屬性來了解并且掌握其他項的具體屬性。
3.3 概念描述
概念描述就是對某類對象的本質(zhì)進行探討分析,并總結這類對象的相關特點,概念描述有區(qū)別描述與特征描述兩種,前者描述不同類對象間的差別,后者則是描述某類對象的相同特征,最后形成一個類的特征性描述,并且只涉及這類對象中全部對象的共同特性。
我們我們建立數(shù)字圖書館的主要目的就是通過計算機技術將不同地區(qū)以及不同屬性的數(shù)據(jù)信息資源進行整合,然后將這些整合資源提供給用戶進行使用。數(shù)字圖書館數(shù)據(jù)挖掘可以分成三類,即結構挖掘、內(nèi)容挖掘以及用戶使用記錄挖掘。下面就這三種類型數(shù)據(jù)挖掘的具體應用做了簡要的介紹。
4.1 進行結構挖掘
在將數(shù)據(jù)挖掘應用到數(shù)字圖書館的過程中,進行結構挖掘是一個重要的應用之一,并且與其他的應用相比較,結構挖掘的操作比較簡單。例如,進行結構挖掘主要就是通過計算機網(wǎng)頁的一些具體鏈接和組織結構盡快的了解并且發(fā)現(xiàn)圖書館頁面的的具體結構模式,然后根據(jù)模式的具體特征進行具體的分類和分析。利用這種方式,我們可以快速的并且準確的對數(shù)字圖書館的網(wǎng)絡建設提供一定的積極指導,同時也可以通過這些網(wǎng)頁的鏈接對我國各個學術未來的發(fā)展方向進行具體的了解和分析。最后,利用這種數(shù)據(jù)挖掘技術可以大大的節(jié)省人力和物力,提高數(shù)字圖書館管理效率。
4.2 進行內(nèi)容挖掘
與結構挖掘相比較,內(nèi)容挖掘的過程比較復雜,內(nèi)容比較豐富。例如,對于內(nèi)容挖掘而言,它主要包含了幾個方面的內(nèi)容。第一,組織文獻數(shù)據(jù):它主要指的就是通過利用現(xiàn)代信息技術對數(shù)字圖書館里面所有的文件進行整理和分類,然后對各個分類的具體內(nèi)容進行充分的了解和掌握,這樣用戶在利用數(shù)字圖書館中的信息的時候,可以根據(jù)自己所要查找的信息分類快速的搜索相關的內(nèi)容分區(qū),同時還可以更好的確保他們所查找信息的準確性。第二就是對特征的自動提取和描述。這是一個技術性比較高的過程,在利用數(shù)據(jù)挖掘技術的過程中,我們可以利用一個具體的內(nèi)容分析器從其中分析并且提取出相關的內(nèi)容特征,當用戶在準確的提取這些內(nèi)容特征以后才能在數(shù)字圖書館中更加準確的實現(xiàn)自己需要查找的信息的具體定位。其三是自動采集整理專題信息。但數(shù)據(jù)挖掘終究是一種新興的智能科技產(chǎn)物,它的發(fā)展還是有很多挑戰(zhàn)與難題需要面對。
4.3 進行用戶使用記錄挖掘
與結構挖掘和內(nèi)容挖掘相比較,進行用戶使用記錄挖掘也具有它獨特的特征。對于用戶使用記錄挖掘而言,就是通過挖掘技術對用戶以前在數(shù)字圖書館中的查詢記錄進行挖掘和記錄,然后用戶可以在最短的時間內(nèi)再次準確的查找這些信息,這樣可以大大的減少用戶進行信息查詢的時間,并且也提高了用戶查詢信息的準確性。
綜上所述,為了更好的將數(shù)據(jù)挖掘技術應用到數(shù)字圖書館中,必須要首先準確的了解并且認識到數(shù)據(jù)挖掘的具體功能個性,然后根據(jù)數(shù)據(jù)挖掘的具體功能特性進行應用。同時,還應該不斷的加大對于數(shù)據(jù)挖掘技術的資金投入力度,不斷的提高我國數(shù)據(jù)挖掘技術水平。
[1]周文云.數(shù)據(jù)挖掘在數(shù)字圖書館個性化服務中的研究與應用[J].軍民兩用技術與產(chǎn)品,2012(1):56.
[2]田瑞雪.國內(nèi)圖書館數(shù)據(jù)挖掘技術應用研究述評[J].科技信息,2014(1):167.
[3]付紅偉,盧春,周楊.數(shù)據(jù)挖掘技術及其在數(shù)字圖書館中的應用[J].軟件導刊,2013(1).
G647
A
1009-5624(2016)06-0137-02