基于ＷＥＫＡ軟件的圖書館數據挖掘研究

2009-04-29 00:00:00馬林丁勇

電腦知識與技術 2009年24期

摘要:根據目前圖書館數據越來越多，而潛在數據很難開發并挖掘出來的現狀。該文以數據挖掘技術為基礎，利用WEKA軟件作為圖書館數據挖掘工具，通過WEKA里的J48樹算法和數據關聯等算法，對圖書館的館藏數據進行相應的分析，從海量數據中挖掘出用戶需要的有用數據，并得到合理的統計結果。最終達到提高工作效率，能夠科學管理的目的。

關鍵詞:數據挖掘;WEKA;J48;數據關聯;圖書館

中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2009)24-6930-03

The Data Mining Research of Library which base on WEKA

MA Lin， DING Yong

(ZheJiang Medical College， Hangzhou 310053， China)

Abstract: According to the status of the mumber of library data become more and more，it’s very difficult to develop the potential of data. This paper is based on data mining technology，use WEKA as a library data mining software tool，use WEKA's J48 tree algorithm and data association analysis library data.Mining useful data which user needs from the mass library data and get Reasonable results.Ultimately to improve work efficiency and scientific management.

Key words: data mining; WEKA; J48; data association; library

隨著數據庫技術的迅速發展以及數據庫管理系統的廣泛應用，存在于這個世界和我們生活中的數據總量正在不斷增長，積累的數據量越來越多。隱藏在這些數據后的是信息，具有潛在用處的信息很少被發現或者用于應用，我們希望能夠對其進行更高層次的分析，以便更好地利用這些數據。

當今，知識資本正在取代傳統物質資本在生產中的地位，成為知識經濟時代最重要的生產資料而如何獲取知識便成為廣大研究者和工程人員關注和研究的重點。利用數據挖掘技術從大量的數據中所取隱含在其中的、人們事先不知道的、潛在的、有用的知識。[1]

與此同時，圖書館數字化程度與數字圖書館的建設不斷發展。圖書館要處理和提供的信息更多、更新、更廣泛、更復雜。在圖書館現有的數字化系統中每年、每月、每天產生著大量的統計數據和表單，它們對圖書館館藏建設等業務有著很強的指導作用。[2]

1 數據挖掘概述

數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。[3]

用數據庫管理系統來存儲數據，用機器學習的方法來分析數據，挖掘大量數據背后的知識，這兩者的結合促成了數據庫中的知識發現(KDD:Knowledge Discovery in Databases)的產生，數據挖掘是KDD最核心的部分。[4]數據挖掘就是通過分析存在于數據庫里的數據來解決問題。在數據挖掘中計算機以電子化的形式存儲數據，并且能自動的查詢數據，通過關聯規則、分類于回歸、聚類分析等算法對數據進行一系列的處理，尋找和描述數據里的結構模式，進而挖掘出潛在的有用的信息。數據挖掘就是通過分析存在于數據庫里的數據來解決問題。[5]

2 數字圖書館

數字圖書館(Digital Library DL)，是新世紀產生的一個全新的概念。隨著計算機技術的迅猛發展，特別是網絡技術﹑數碼存儲與傳輸技術等的全面普及，使得人們對文獻信息的加工﹑存儲﹑查詢﹑利用等方面有了新的要求。因此，數字圖書館也就應運而生。數字圖書館以組織數字化信息及其技術進入圖書館并提供有效服務。幾乎圖書館的所有載體的信息均能以數字化的形式獲得，包括所有聯機采購﹑編目﹑公共查詢;對各種信息資源的檢索，通過網絡組織讀者訪問外界數字圖書館和文獻信息數據庫系統，如電子雜志﹑電子圖書﹑聲像資料﹑動畫片﹑影視片﹑多媒體資料等:用計算機系統管理圖書﹑期刊等的讀者服務;圖書館利用網絡連接到全球各個角落，讓人們很方便地共享資源。

如果沒有建立點擊流數據和進行挖掘，對圖書館服務管理而言，哪種類型的讀者喜歡訪問哪些資源，并將會需要什么樣的服務，圖書館管理者無法上升到知識發現的高度。[6]

3 WEKA簡介

Weka全名為懷卡托智能分析環境(Waikato Environment for Knowledge Analysis)，是一個基于Java、用于數據挖掘和知識發現的開源項目.其開發者是來自新西蘭懷卡托大學的Ian H.Witten和Eibe Frank。經過十多年年的發展歷程，Weka是現今最完備的數據挖掘工具之一，而且被公認為是數據挖掘開源項目中最著名的一個。[7]

本文用WEKA軟件作為工具，結合某校圖書館實例數據對學校圖書館的數據進行分析。

4 數據預處理

4.1 數據準備

WEKA存儲數據的格式是ARFF(Attribute-Relation File Format)文件，這是一種ASCII文本文件。ARFF文件是由一組實例組成，并且每個實例的屬性值由逗號分開。大多數電子數據表及數據庫程序允許用戶將數據導入逗號分割數值(CSV)格式的文件中。

4.2 數據轉換

使用WEKA作數據挖掘，面臨的第一個問題往往是我們的數據不是ARFF格式的。為此我們可以把原始的EXL文件另存為CSV格式，然后打開WEKA，選擇Tools里的ArffViewer，打開此CSV文件，再另存為ARFF格式即可。

5 數據挖掘

本文采用C4.5算法的J48決策樹模型和Apriori算法產生關聯規則進行分類預測。

5.1 J48決策樹分析

決策樹是利用一系列規則構建一棵樹.它可高度自動化地建立起易于為用戶所理解的模型并且具有較好地處理缺省數據及帶有噪聲數據等能力。[8]可以直觀、清晰地表達加工的邏輯要求。特別適合于判斷因素比較少、邏輯組合關系不復雜的情況。數據挖掘中決策樹是一種經常要用到的技術，可以用于分析數據，同樣也可以用來作預測。

決策樹分類算法有CLS，ID3，C4.5，CART等算法。本文采用C4.5算法。WEKA里的J48決策樹模型是對Quinlan的C4.5決策樹算法的實現，并加入了比較好的剪枝過程，有非常好的精度。

假設某醫科大學圖書館數據見表1(因總量很大，篇幅所限，現截取其中30條)，此表為EXL原始數據，需要經過預處理:去掉對數據挖掘無用的屬性列，把所有內容改成英文(WEKA不兼容中文)并轉換成CSV文件。預處理的最終結果見表2?，F利用WEKA對表2做J48決策樹分析。分析時的參數采用默認設置，confidenceFactor(置信因數)=0.45，

minNumOjb(最小實例數)=2，numFolds(交叉數)=3，Seed(種子數)=1運行的結果見圖1。

下面對決策樹的結果做一些解釋:從決策樹中的矩陣可看出，原本“借閱次數”為“少”的實例，有9個被正確預測為“少”，有4個預測錯誤;原本“借閱次數”為“多”的實例，有12個被正確預測為“多”，有5個預測錯誤。模型的準確度為70%。另我們還可以通過WEKA查看此模型錯誤實例的分布(見圖2)。

由圖2可知合計9個預測錯誤項的具體分布，可知在中間和兩頭的實例有較多的預測錯誤出現。我們可以通過J48算法生成決策樹，如圖3。

從決策樹中還可以得到以下規則:一是文學類的書借閱次數為多的比例為為77.8%;二是醫學類的書借閱次數為多的比例為81.8%;三是外文類的書借閱次數為少的比例達到了70%;四是科學類的書借閱次數為少的比例達到了77.8%。

可見，文學類和醫學類的圖書在某醫科大學借閱次數較多。而外文類和科學類的則借閱次數較少，針對這種預測，此醫科大學應把主要精力集中在購買醫學和文學類的圖書上。

5.2 關聯規則分析

數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性，就稱為關聯。Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。

該算法的基本思想是:首先找出所有的頻集，這些項集出現的頻繁性至少和預定義的最小支持度一樣。然后由頻集產生強關聯規則，這些規則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產生期望的規則，產生只包含集合的項的所有規則，其中每一條規則的右部只有一項，這里采用的是中規則的定義。一旦這些規則被生成，那么只有那些大于用戶給定的最小可信度的規則才被留下來。為了生成所有頻集，使用了遞推的方法。

假設某醫科大學圖書館學生借閱情況見表3(因篇幅所限，只選取其中15項)，其中某學生如果借閱某類書較多(大于50次)則標注為“M”，反之(小于50次)則為“L”。

利用WEKA生成的關聯規則見圖4，生成參數設置為metricType=Confidence，minMetric=0.5，numRules=60，即設最小信任度閥值為50%，產生60條規則。下面簡要地對第10條-第11條規則做下解釋:第10條規則說，在借閱科學類圖書較多的4個學生中，均很少借閱外文類圖書;第11條規則說，同時借閱文學和外文較多的4個學生中，均借閱了較多的醫學類圖書。從結果中可以發現，如果學生借閱了較多的文學類和外文類圖書，他有很大的可能同時借閱醫學類圖書;而借閱科學類較多的學生中，很少借閱外文類圖書。圖書館采購人員可以進行一系列圖書的采購甄選工作。

6 結束語

總體來說，現階段我國大學圖書采購并沒有一整套科學的以計算機統計軟件為基礎的圖書采購方法。本文利用WEKA作為數據挖掘工具，通過決策樹分析以及關聯規則的分析，為高校電子圖書館系統統計一些潛在的關聯規律，從而預測出學生有可能需要的圖書和不同類別圖書之間的聯系，增加圖書采購的效率，實現科學購書的目的。

參考文獻:

[1] Chen M S.Data mining:an overview from database perspective[J].IEEE Transactions on Knowledge and data Engineering，1996，8(6):866-883.

[2] 龔宇花.數據挖掘技術在高校數字化圖書館中的應用[J].電腦知識與技術，2008(34):1547.

[3] Han J W.數據挖掘:概念和技術[M].北京:機械工業出版社，2001.

[4] 劉曉華.基于WEKA的數據挖掘技術在物流系統中的應用[J].科技情報開發與經濟，2007，17(22):189.

[5] Ian H.Wittcn Eibe Frank.Data Mining Practical Machine Learning Tools and Techniques Second Edition[M].China Machine Press，2005:5.

[6] 張源漳.基于WEKA點擊流數據的讀者需求可視化分析[J].圖書館論壇，2007，27(4):67.

[7] 王學輝，賈麗麗.Weka，使數據挖掘不再神秘[J].電腦知識與技術，2007(5):699.

[8] 王明哲.基于數據挖掘技術的信用卡客戶的信用評價[J].商業現代化，2007(22):77.

電腦知識與技術2009年24期

電腦知識與技術的其它文章: 基于Ｐｅｔｒｉ網的復合ＷｅｂＳｅｒｖｉｃｅ構造與分析; 嵌入式系統概述; 如何維護和管理單位互聯網絡; 關于ＲＡＤＩＵＳ協議擴展屬性的研究; 淺談網頁設計中的布局工具; ＶＢＡ編程實現ｅｘｃｅｌ數據管理的閱卷