999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于WEKA軟件的圖書館數據挖掘研究

2009-04-29 00:00:00
電腦知識與技術 2009年24期

摘要:根據目前圖書館數據越來越多,而潛在數據很難開發并挖掘出來的現狀。該文以數據挖掘技術為基礎,利用WEKA軟件作為圖書館數據挖掘工具,通過WEKA里的J48樹算法和數據關聯等算法,對圖書館的館藏數據進行相應的分析,從海量數據中挖掘出用戶需要的有用數據,并得到合理的統計結果。最終達到提高工作效率,能夠科學管理的目的。

關鍵詞:數據挖掘;WEKA;J48;數據關聯;圖書館

中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2009)24-6930-03

The Data Mining Research of Library which base on WEKA

MA Lin, DING Yong

(ZheJiang Medical College, Hangzhou 310053, China)

Abstract: According to the status of the mumber of library data become more and more,it’s very difficult to develop the potential of data. This paper is based on data mining technology,use WEKA as a library data mining software tool,use WEKA's J48 tree algorithm and data association analysis library data.Mining useful data which user needs from the mass library data and get Reasonable results.Ultimately to improve work efficiency and scientific management.

Key words: data mining; WEKA; J48; data association; library

隨著數據庫技術的迅速發展以及數據庫管理系統的廣泛應用,存在于這個世界和我們生活中的數據總量正在不斷增長,積累的數據量越來越多。隱藏在這些數據后的是信息,具有潛在用處的信息很少被發現或者用于應用,我們希望能夠對其進行更高層次的分析,以便更好地利用這些數據。

當今,知識資本正在取代傳統物質資本在生產中的地位,成為知識經濟時代最重要的生產資料 而如何獲取知識便成為廣大研究者和工程人員關注和研究的重點。利用數據挖掘技術從大量的數據中所取隱含在其中的、人們事先不知道的、潛在的、有用的知識。[1]

與此同時,圖書館數字化程度與數字圖書館的建設不斷發展。圖書館要處理和提供的信息更多、更新、更廣泛、更復雜。在圖書館現有的數字化系統中每年、每月、每天產生著大量的統計數據和表單,它們對圖書館館藏建設等業務有著很強的指導作用。[2]

1 數據挖掘概述

數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。[3]

用數據庫管理系統來存儲數據,用機器學習的方法來分析數據,挖掘大量數據背后的知識,這兩者的結合促成了數據庫中的知識發現(KDD:Knowledge Discovery in Databases)的產生,數據挖掘是KDD最核心的部分。[4]數據挖掘就是通過分析存在于數據庫里的數據來解決問題。在數據挖掘中計算機以電子化的形式存儲數據,并且能自動的查詢數據,通過關聯規則、分類于回歸、聚類分析等算法對數據進行一系列的處理,尋找和描述數據里的結構模式,進而挖掘出潛在的有用的信息。數據挖掘就是通過分析存在于數據庫里的數據來解決問題。[5]

2 數字圖書館

數字圖書館(Digital Library DL),是新世紀產生的一個全新的概念。隨著計算機技術的迅猛發展,特別是網絡技術﹑數碼存儲與傳輸技術等的全面普及,使得人們對文獻信息的加工﹑存儲﹑查詢﹑利用等方面有了新的要求。因此,數字圖書館也就應運而生。數字圖書館以組織數字化信息及其技術進入圖書館并提供有效服務。幾乎圖書館的所有載體的信息均能以數字化的形式獲得,包括所有聯機采購﹑編目﹑公共查詢;對各種信息資源的檢索,通過網絡組織讀者訪問外界數字圖書館和文獻信息數據庫系統,如電子雜志﹑電子圖書﹑聲像資料﹑動畫片﹑影視片﹑多媒體資料等:用計算機系統管理圖書﹑期刊等的讀者服務;圖書館利用網絡連接到全球各個角落,讓人們很方便地共享資源。

如果沒有建立點擊流數據和進行挖掘,對圖書館服務管理而言, 哪種類型的讀者喜歡訪問哪些資源,并將會需要什么樣的服務, 圖書館管理者無法上升到知識發現的高度。[6]

3 WEKA簡介

Weka全名為懷卡托智能分析環境(Waikato Environment for Knowledge Analysis),是一個基于Java、用于數據挖掘和知識發現的開源項目.其開發者是來自新西蘭懷卡托大學的Ian H.Witten和Eibe Frank。經過十多年年的發展歷程,Weka是現今最完備的數據挖掘工具之一,而且被公認為是數據挖掘開源項目中最著名的一個。[7]

本文用WEKA軟件作為工具,結合某校圖書館實例數據對學校圖書館的數據進行分析。

4 數據預處理

4.1 數據準備

WEKA存儲數據的格式是ARFF(Attribute-Relation File Format)文件,這是一種ASCII文本文件。ARFF文件是由一組實例組成,并且每個實例的屬性值由逗號分開。大多數電子數據表及數據庫程序允許用戶將數據導入逗號分割數值(CSV)格式的文件中。

4.2 數據轉換

使用WEKA作數據挖掘,面臨的第一個問題往往是我們的數據不是ARFF格式的。為此我們可以把原始的EXL文件另存為CSV格式,然后打開WEKA,選擇Tools里的ArffViewer,打開此CSV文件,再另存為ARFF格式即可。

5 數據挖掘

本文采用C4.5算法的J48決策樹模型和Apriori算法產生關聯規則進行分類預測。

5.1 J48決策樹分析

決策樹是利用一系列規則構建一棵樹.它可高度自動化地建立起易于為用戶所理解的模型 并且具有較好地處理缺省數據及帶有噪聲數據等能力。[8]可以直觀、清晰地表達加工的邏輯要求。特別適合于判斷因素比較少、邏輯組合關系不復雜的情況。數據挖掘中決策樹是一種經常要用到的技術,可以用于分析數據,同樣也可以用來作預測。

決策樹分類算法有CLS,ID3,C4.5,CART等算法。本文采用C4.5算法。WEKA里的J48決策樹模型是對Quinlan的C4.5決策樹算法的實現,并加入了比較好的剪枝過程,有非常好的精度。

假設某醫科大學圖書館數據見表1(因總量很大,篇幅所限,現截取其中30條),此表為EXL原始數據,需要經過預處理:去掉對數據挖掘無用的屬性列,把所有內容改成英文(WEKA不兼容中文)并轉換成CSV文件。預處理的最終結果見表2?,F利用WEKA對表2做J48決策樹分析。分析時的參數采用默認設置,confidenceFactor(置信因數)=0.45,

minNumOjb(最小實例數)=2,numFolds(交叉數)=3,Seed(種子數)=1運行的結果見圖1。

下面對決策樹的結果做一些解釋:從決策樹中的矩陣可看出,原本“借閱次數”為“少”的實例,有9個被正確預測為“少”,有4個預測錯誤;原本“借閱次數”為“多”的實例,有12個被正確預測為“多”,有5個預測錯誤。模型的準確度為70%。另我們還可以通過WEKA查看此模型錯誤實例的分布(見圖2)。

由圖2可知合計9個預測錯誤項的具體分布,可知在中間和兩頭的實例有較多的預測錯誤出現。我們可以通過J48算法生成決策樹,如圖3。

從決策樹中還可以得到以下規則:一是文學類的書借閱次數為多的比例為為77.8%;二是醫學類的書借閱次數為多的比例為81.8%;三是外文類的書借閱次數為少的比例達到了70%;四是科學類的書借閱次數為少的比例達到了77.8%。

可見,文學類和醫學類的圖書在某醫科大學借閱次數較多。而外文類和科學類的則借閱次數較少,針對這種預測,此醫科大學應把主要精力集中在購買醫學和文學類的圖書上。

5.2 關聯規則分析

數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。

該算法的基本思想是:首先找出所有的頻集,這些項集出現的頻繁性至少和預定義的最小支持度一樣。然后由頻集產生強關聯規則,這些規則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產生期望的規則,產生只包含集合的項的所有規則,其中每一條規則的右部只有一項,這里采用的是中規則的定義。一旦這些規則被生成,那么只有那些大于用戶給定的最小可信度的規則才被留下來。為了生成所有頻集,使用了遞推的方法。

假設某醫科大學圖書館學生借閱情況見表3(因篇幅所限,只選取其中15項),其中某學生如果借閱某類書較多(大于50次)則標注為“M”,反之(小于50次)則為“L”。

利用WEKA生成的關聯規則見圖4,生成參數設置為metricType=Confidence,minMetric=0.5,numRules=60,即設最小信任度閥值為50%,產生60條規則。下面簡要地對第10條-第11條規則做下解釋:第10條規則說,在借閱科學類圖書較多的4個學生中,均很少借閱外文類圖書;第11條規則說,同時借閱文學和外文較多的4個學生中,均借閱了較多的醫學類圖書。從結果中可以發現,如果學生借閱了較多的文學類和外文類圖書,他有很大的可能同時借閱醫學類圖書;而借閱科學類較多的學生中,很少借閱外文類圖書。圖書館采購人員可以進行一系列圖書的采購甄選工作。

6 結束語

總體來說,現階段我國大學圖書采購并沒有一整套科學的以計算機統計軟件為基礎的圖書采購方法。本文利用WEKA作為數據挖掘工具,通過決策樹分析以及關聯規則的分析,為高校電子圖書館系統統計一些潛在的關聯規律,從而預測出學生有可能需要的圖書和不同類別圖書之間的聯系,增加圖書采購的效率,實現科學購書的目的。

參考文獻:

[1] Chen M S.Data mining:an overview from database perspective[J].IEEE Transactions on Knowledge and data Engineering,1996,8(6):866-883.

[2] 龔宇花.數據挖掘技術在高校數字化圖書館中的應用[J].電腦知識與技術,2008(34):1547.

[3] Han J W.數據挖掘:概念和技術[M].北京:機械工業出版社,2001.

[4] 劉曉華.基于WEKA的數據挖掘技術在物流系統中的應用[J].科技情報開發與經濟,2007,17(22):189.

[5] Ian H.Wittcn Eibe Frank.Data Mining Practical Machine Learning Tools and Techniques Second Edition[M].China Machine Press,2005:5.

[6] 張源漳.基于WEKA點擊流數據的讀者需求可視化分析[J].圖書館論壇,2007,27(4):67.

[7] 王學輝,賈麗麗.Weka,使數據挖掘不再神秘[J].電腦知識與技術,2007(5):699.

[8] 王明哲.基于數據挖掘技術的信用卡客戶的信用評價[J].商業現代化,2007(22):77.

主站蜘蛛池模板: 国产农村精品一级毛片视频| 97成人在线视频| 婷婷六月天激情| 国产亚洲精品资源在线26u| 国产乱人伦偷精品视频AAA| 亚洲永久视频| 幺女国产一级毛片| 伊人久久婷婷| 一区二区三区国产精品视频| 国产欧美日韩另类| 制服丝袜一区二区三区在线| 青草视频久久| 亚洲视频在线网| 久青草免费在线视频| 久久情精品国产品免费| 欧美区一区| 在线观看精品自拍视频| 久久精品中文无码资源站| 亚洲成a人片7777| 中文字幕欧美日韩高清| 亚洲视频影院| 99久视频| 国产成人精品一区二区不卡 | 国产在线98福利播放视频免费| 99精品国产高清一区二区| 久久99精品国产麻豆宅宅| 四虎国产在线观看| 久久久久亚洲精品成人网| 亚洲欧州色色免费AV| 国产成人a在线观看视频| 国产爽歪歪免费视频在线观看| 亚洲av成人无码网站在线观看| 亚洲日韩高清无码| 国产欧美日本在线观看| 久久国产精品电影| 午夜毛片福利| 亚洲成人黄色网址| 日本免费新一区视频| 中文字幕乱码二三区免费| 国产精品亚洲一区二区三区在线观看| 美女视频黄频a免费高清不卡| 亚洲中文字幕无码mv| 色噜噜在线观看| 国产欧美日韩专区发布| 日韩不卡高清视频| 日韩精品毛片| 国产一在线| 国产尤物jk自慰制服喷水| 91在线日韩在线播放| 亚洲午夜片| 中文字幕欧美日韩| 在线国产毛片| 国产精品精品视频| 嫩草在线视频| 一级毛片视频免费| 国产人人射| 色播五月婷婷| 欧美高清三区| 中文字幕亚洲另类天堂| 日韩大乳视频中文字幕| 日韩美女福利视频| 国产手机在线观看| 亚洲国产一区在线观看| 久久香蕉国产线看观看精品蕉| 激情六月丁香婷婷| 亚洲天堂免费在线视频| 国产在线八区| 国产va免费精品观看| 午夜日b视频| 亚洲欧美激情小说另类| 日韩精品专区免费无码aⅴ| 人妻无码AⅤ中文字| 國產尤物AV尤物在線觀看| 久久网欧美| 久久黄色一级视频| 亚洲无码91视频| 国产美女自慰在线观看| 九九热精品在线视频| 亚洲男人在线| 国产嫩草在线观看| 最新亚洲人成无码网站欣赏网| 日韩高清在线观看不卡一区二区|