汪濤
摘 要: 數據挖掘作為一種深層次的數據分析方法,此方法可以從大量數據中尋找出反應用戶特征的信息和規則,將中學圖書管理與數據挖掘相結合,尋找提取隱藏在大量的管理數據之中的有效數據,包括用戶數據的搜集、數據倉的建立,以及用戶特征的分析等主要內容。
關鍵詞:數據挖掘 中學 圖書管理系統
中圖分類號:TP315 文獻標識碼:A 文章編號:1003-9082(2016)12-0151-01
現今時代,隨著數據庫技術的成熟和數據引用的普及,人類積累的數據量正以指數級迅速增長。進入九十年代,隨著英特網的出現和高速發展,以及隨之到來的私有網以及內部網和外部網的產生運用,整個世界之間的距離被縮小,人們可以利用發達的網絡跨越時空的局限,在網絡上進行數據的交換。因此,曾經的局部數據庫不復存在,展現在人們面前的是龐大的的信息海洋,數據正如洪水一般向人們涌來。當數據量龐大到一定范圍時,如果沒有有效的方法,找尋提取有限數據的工作難度加大,人們面對著如海洋一般龐大的數據像大海撈針一樣徒勞無功。據有效估計,一個大型企業數據庫中只有約7.23%的數據得到應用。
隨著我國經濟的快速發展,在教育之中投入了更多的基礎建設資金,不少中學都擁有自己的圖書館,學生的學習方式更加多樣化,不僅僅是只用教科書,圖書館的建立擴大了學生的知識來源,大量的數據需要更加合適的管理才能將圖書館的功能發揮最大化。
數字圖書館概念的提出無疑是傳統圖書館管理的一次新進步、新改革,數字圖書館是在傳統圖書館的基礎上建立起來的,是現代圖書館進化階段的一大步。未來中學圖書館的發展重點將是在數字化管理信息的基礎上發展,穩定高效的信息管理系統是圖書館發展的大前提大后方。
數據挖掘技術的應用將更好地幫助圖書館管理系統的運行。
一、數據挖掘的定義
數據挖掘是機器學習、人工智能以及數據庫三者有機結合所得的產物。21世紀是數字化的時代,信息大爆炸所帶來的科學數據的大量積累,因此數據庫被廣泛使用,人們在利用數據的過程中認識到海量的數據利用起來十分不方便、效率低下,并且從大量的數據之中找出有效數據的難度巨大。在這樣的困難的敦促之下,數據庫挖掘技術適時而生。
數據挖掘技術是從大量的、隨機的、有干擾的數據之中,尋找提取出隱藏在海量數據中對人們有用的或人們不自知但又存在潛在的利用價值的數據、知識、規則或者模型。數據挖掘是一門包含很多復雜知識的交叉學科,它不僅包括數理統計,模式識別、模糊數學這些有關數學的專業知識,還包括神經網絡、數據庫等相關的技術知識。
數據挖掘技術的內容主要有三個方面:數據、算法和技術以及建模能力。數據挖掘技術按照功能可分為兩大類:預測新模式以及描述性模式[1]。
數據挖掘的步驟內容龐大,簡單概括得到以下內容:
1.從海量的數據庫中獲得數據;
2.選擇適當的特征屬性;
3.挑選出合適的樣本策略;
4.排除數據中不正常的數據,同時補充不夠的部分;
5.用恰當的降維、變換的手段使數據挖掘的過程與數據模型相適配;
6.辨識出所得到的數據是否可視化或者是信息化;
這些步驟是從數據到知識的必經之路。每一步驟都可能是成功的關鍵或失敗的開始。在一般的定義中數據挖掘是知識獲取的一部分。
二、數據挖掘技術在圖書管理系統上的應用意義
關于數據挖掘技術在圖書管理系統上的應用,有以下幾個理論與方法: Kyle Banerjee 先生在1998年提出數據挖掘技術更適用于全文本動態變化的數據庫;Nicholson和Stanton在2002年的圖書館中數據挖掘的研究中提出了“書目挖掘(Bibliomining)”這一專業名詞,書目挖掘是指在圖書館的數據管理中,將數據挖掘、統計學原理、書目計量方式和報告工具這些技術有機的結合在一起,在行為信息與數據的基礎上獲取隱藏的模式。[2]
在中學的圖書館中大致有兩個方面的問題,第一,圖書館的管理中會有大量的不斷需要更新數據和之前需要保存的歷史數據,這些數據如何被高效的利用起來。另一個方面,許多中學為了一些關于圖書館的評測,只重視圖書館的藏書量,但忽略了這些圖書的分類結構與質量高低,這大大降低了圖書館數據的利用率,導致圖書館的藏書不能物盡其用,大量的書籍閑置。
因為以上所述的原因,筆者認為數據挖掘技術將能夠在中學圖書館管理系統之中有很大的研究價值及發展空間。
三、在中學圖書館管理系統中應用數據挖掘技術的重點
1.圖書館中大量的數據
大量的數據是數據挖掘技術的基礎,圖書館中的信息面對著不斷的更新,例如用戶的借還信息,圖書館每日人流量,借閱圖書名錄等,這些信息都可以作為數據挖掘的數據來源,每一日的新數據在第二天都將變成歷史數據,在不斷增加的歷史數據面前,傳統的數據庫只能起到數據管理的作用,而不能透過這些數據得到規律。
2.讀者的需求分析
一般的分析是以調查研究為基礎,但數據挖掘的分析與此不同,運用數據分析可以從海量的、不同類型的數據中挖掘出讀者身份,讀者閱讀習慣等具有特色的數據。
3.服務個性化
隨著各種書籍的種類、內容、出版社等日益增多,知識的載體也逐漸豐富,讀者的需求越來越難以把握,想要做到讀者滿意與資金的利用兩方平衡十分不易。應用數據挖掘技術可以更好地幫助這個問題的解決,利用大數據的挖掘分析出事物之間的聯系與規律,在大量的用戶數據中分析出他們讀書類型的傾向,以方便圖書館購書便利以及優化圖書館藏書結構。用大數據挖掘實現個性化的服務。
四、在圖書館管理系統中應用數據挖掘技術還存在的問題
1.在大數據中數據挖掘的精度問題
在現今的數據挖掘中都是利用數據驅動來進行數據挖掘,這只能在數據內容上得出規律,這樣的數據準確性及精度遠遠不夠[3]。而且,數據挖掘并不是萬能的,它只是一個幫助更容易分析數據的一個工具,它能夠輔助圖書館工作人員更加深入的分析數據,但他不能辨識出數據的實際價值。
2.用戶的數據安全
現在是信息化的時代,個人的信息安全問題得到人們的重視。在構建數據庫、運用各種數據挖掘、分析工具的同時,要注意用戶隱私數據的處理。
3.數據挖掘技術與圖書館其他應用的融合問題
目前數據挖掘技術還不是十分完備,它正處于一個不斷發展的過程中,要是數據挖掘技術可以和更多的管理應用系統相融合,成為一種嵌入式技術,使各個技術都能發揮優勢的一面,而不輕易出現互相沖突。
參考文獻
[1]周倩,《數據挖掘在圖書館用戶資源管理中的應用研究》[J],《圖書情報知識》2006(6)
[2]周倩,《構建圖書館現代化CRM系統》[J],《圖書情報工作》,2004(6)
[3]楊睿娜,《數據挖掘在高職院校圖書館管理中的應用》[J],《科技創新與應用》2012(3)