摘要:數據挖掘技術是計算機領域和人工智能領域中的一種關鍵技術,可以將表面上龐大雜亂的數據轉換為有用的知識和信息,因此引起了信息產業界的廣泛關注。近年來,圖書館的信息服務管理漸漸引入數據挖掘技術,高校圖書館作為圖書館中的特殊群體,是為高等學校教學、科研活動提供信息保障的學術性機構,作為綜合性知識和信息的集散地與發源地,數據挖掘技術在高校圖書館管理中的應用顯得更為必要。
關鍵詞:數據挖掘;高校圖書館;技術應用
中圖分類號:G640 文獻標志碼:A 文章編號:1674-9324(2013)20-0174-02
高校圖書館是圖書館中的特殊群體,兼具了圖書館的一般特性和自身獨有的學術性,一方面,它擁有一般圖書館的兩大基本職能,即:文獻的收集、整合和保存;讀者服務。另一方面,因其服務對象的具體性和學術性,要求其應具備更為針對性和學術性的讀者服務。數據挖掘作為一種新興的信息技術,可以從許多信息庫中挖掘有用的知識和信息,這符合當前高校圖書館信息管理的發展趨勢,滿足其更好地為讀者服務的要求,可以在圖書館的日常工作和各項信息服務中發揮極大的作用。同時,圖書館系統中除了存儲在數據庫中的數字化信息外,還有很多必須由館員親自去發掘的信息,比如讀者的個人反饋,書架上的積灰程度,等等,如果能將這些分散的信息整合起來,找出聯系并充分利用,就可以為圖書館管理者做出正確的決策提供幫助,這就要求圖書館的工作人員在日常工作中還應具備一定的“數據挖掘”意識。
一、數據挖掘技術概述
1.數據挖掘的概念。數據挖掘就是從大量的、不完全的、模糊的、隨機的數據中,提取隱含在其中但又潛在有用的信息和知識的過程。數據挖掘借助了多年來數理統計技術和人工智能以及知識工程等領域的研究成果構建自己的理論體系,是一個交叉學科領域。它通過對查詢內容進行模式的總結和內在規律的搜索,幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為,從而為決策行為提供有利的支持,很多人又稱為“數據淘金”。
2.數據挖掘方法。數據挖掘的方法有多種,具體在圖書館管理中的應用主要有四種方法:(1)關聯分析:關聯分析是為挖掘出隱藏數據間的相互關系。(2)序列分析:序列模式分析技術主要用于發現一定時間間隔內接連發生的事件。它是基于分析數據間的前后關系和因果關系。(3)分類分析:就是通過分析具有類別的樣本特點,得到決定樣本屬于各種類別的規則或方法。(4)聚類分析:就是將數據庫中的記錄化分為一系列有意義的子集,再對其進行描述即聚類分析。
3.數據挖掘的過程。數據挖掘過程可粗略地分為:問題定義、數據準備和預處理、數據挖掘以及結果的解釋和評估等階段。首先在問題定義過程中,數據挖掘人員必須與領域專家及最終用戶緊密協作,一方面明確實際工作對數據挖掘的要求,另一方面通過對各種學習算法的對比進而確定可用的學習算法。有了具體的問題定位之后,便可以展開一定的數據挖掘,該階段首先根據對問題的定義明確挖掘的任務或目的;之后要決定使用什么樣的算法,針對用戶的不同需求來選擇適當的規則。最后,要對通過數據挖掘得出結果進行合理的解釋和評估。
二、數據挖掘技術在高校圖書館中的應用
傳統圖書館業務一般是按文獻資料的加工處理過程,業務流程主要劃分為采訪、編目、典藏、流通、閱覽、參考咨詢等幾部分。以下我們主要談一下數據挖掘技術在高校圖書館的采訪、編目、流通等三大業務中的應用。
1.采訪部門。傳統的采訪工作主要包括選書、查重、定購、組織采購目錄、驗收、送交編目等。在高等學校中,圖書館面臨的一個很大問題就是有限的購書經費與讀者對圖書品種需求之間的矛盾,只有極大地滿足學校師生的閱讀需求,才能保證學校學術研究與發展的有效進行。如何用有限的資金,購買借閱量和利用率較高的書,是采訪部門需要解決的首要問題。我們將數據挖掘技術引入進來,根據流通數據庫的集成數據,從而掌握讀者對圖書資源的使用頻率表。根據這些使用頻率的數據,進而可以同時實現對讀者的分類和對適合不同類別的讀者的圖書資源的聚類,這樣就可以快速而精確地得到一份訂書單。以讀者和學術的需求來選書,其圖書的利用率得到極大的提高。
2.編目部門。圖書的編目工作是一個揭示文獻資源的過程,傳統的編目工作主要是針對印刷型文獻,具體主要包括圖書的查重、分類、組織目錄、入藏等工作。表面上看來似乎不需要進行某些數據挖掘,然而需要注意的是編目工作涉及了圖書的館藏分配,而館藏書目數據庫是圖書館中的重要數據庫,它與公共查詢系統的結合是用戶最為熟知、使用最多的圖書館系統。用戶在登陸系統和對書目的查詢過程中會產生大量的數據,從中可以得到很多很多有價值的信息,比如用戶對于哪一類型圖書更感興趣,在什么時間對圖書館的使用頻率最高,等等,對于這些數據信息的挖掘,可以使圖書館的館藏分配更加合理和科學化,館藏分配的科學性有效地保證了圖書的利用,不至于出現因為館藏分配的原因,致使一些圖書資源喪失了其本該有的利用率,同時也影響了學科服務職能的發揮。
3.流通部門。流通是指圖書館為讀者提供的各種文獻的外借服務,具體包括圖書的借、還、預約、續借、查詢、過期罰款、統計等。流通部門是圖書館的一線部門,與讀者有著最直接的接觸,高校圖書館的借閱管理系統已經有超過十年的時間,借閱系統數據庫中也積累了幾百萬甚至上千萬的讀者借閱數據,通過對這些數據的挖掘和分析,不僅僅可以得到館藏圖書的總體利用情況,還可以通過一些關聯性的分類得出更多的信息,比如,可以從學科角度來分析不同學科專業的師生借閱圖書的情況,以有利于評價圖書館館藏對學校主要學科的文獻保障情況和利用情況;可以從讀者類型角度來分析教師、本科生、碩士生、博士生對圖書的借閱情況,這對評價圖書館滿足教學和科研用書的保障和利用情況提供參考依據;可以從不同年級角度來查看借閱情況,這對于圖書館引導讀者借閱、推出讀書參考書目有重要借鑒作用。
三、數據挖掘理念在圖書館中的應用
圖書館中的很多信息是不能數字化的,要靠館員的觀察和思考,并隨時留心平時工作中的各類現象,運用總結歸納的能力,從工作中所遇到的現象入手挖掘有用的信息,進而不斷完善圖書館的服務。比如,圖書的積灰度,在開架的圖書中積灰程度是不同的,經常被借閱的圖書積灰度自然很低,而那些借閱率很低的圖書會隨著時間積下不少灰塵,通過這一細微的現象,我們就可以粗略得到讀者對于不同圖書的需求程度。再如,通過分析圖書館電子閱覽室的計算機訪問日志,可以從中找出學生經常瀏覽的網絡資源,包括圖書館內部的電子資源和各類網站,對這些信息進行數據挖掘,一方面可以為圖書館日后電子資源數據庫的采購提供指導,另一方面,集中并篩選一些讀者經常瀏覽的網站,可以為日后開展推薦優秀網站活動做充分準備。
大量的非數字化信息要求高校圖書館的館員具備一定的數據挖掘意識,特別是進入“圖書館信息化”時代后,我們不能僅僅依靠電子技術,圖書館工作中的許多規律需要館員親身去留心去發現,真正讓用戶滿意的圖書館不是機械的技術組合,而是以先進的技術為手段,以圖書館的專業知識為指導,同時還要貫穿著館員們極大的工作熱情和積極性,積極地進行細微處的數據挖掘,留心看似簡單雜亂的現象,深入挖掘現象的內涵,才能進一步提升高校圖書館的學科服務職能。
參考文獻:
[1]張堯庭.數據采掘入門及應用[M].北京:中國統計出版社,2001.
[2]張曉林.走向挑戰,走向新生——國際圖聯第74屆年會熱點學術問題選評[J].大學圖書館學報,2009,(01).
[3]潘小楓.數據挖掘技術及其在數字圖書館建設中的運用[J].圖書館理論與實踐,2006,(04).
[4]于彩云.數據挖掘原理在圖書館信息收集中的應用[J].圖書情報工作,2005,(S1).