999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘技術的圖書館流通數據的關聯分析

2009-04-29 00:00:00陸覺民馬國棟
現代情報 2009年9期

〔摘 要〕運用改進的Apriori算法,對具有代表性的與分析任務相關的數據進行樣本抽取,利用Weak作為數據挖掘算法開發工具,產生了一系列強關聯規則。根據這些規則,我們可以解讀出一些現象,它不僅能揭示隱藏在大量數據后的重要關系信息,同時也為這種關系提供了量化描述手段。這些定性定量的信息不僅能對圖書館的各項工作提供技術上的支持,還可對學校的教學,課程的設置,學科的交叉滲透等提供信息。

〔關鍵詞〕數據挖掘;關聯規則;圖書館

〔中圖分類號〕G250.7 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)09-0108-03

The Association Analysis for Library Circulation

Data Based on Data Mining TechniqueLu Juemin Ma Guodong Zheng yu

(Library,Shanghai University,Shanghai 200072,China)

〔Abstract〕This paper presented an improved algorithm based on the analysis of the Apriori method,collected typical samples related to our task analysis,used WEKA as Development Tools to discover strong association rules.According to these rules,we can reveal important relations between mass data and quantize the relations.Those quantized information not only provided support for routine work in library,but also for education,curriculum and interpenetration.

〔Key words〕data mining;association rules;library

隨著圖書館數字信息化的進展,信息的種類越來越多,且變化頻繁,信息資源呈爆炸性的增長。與此同時,知識的不斷更新和科研課題的時間性和階段性,使高校讀者對信息的需求具有針對性、及時性和新穎性,并呈多元化和個性化的特征。

然而,在信息需求多樣化、個性化的趨勢下,人們發現要準確、快速地查找自己所需的信息并非容易。從需求內容上,他們要求提供的信息更具全面性和精確性,不再僅僅滿足獲得信息載體方面的信息,還需要權威性相關信息,并希望進一步得到經過整合、創新,能解決問題的知識內容;從需求時效上,他們要求個人的信息需求及時得到滿足。在這樣的背景下,高校圖書館傳統的服務方式受到了嚴峻的挑戰,高校圖書館不僅需要根據用戶明確提出的個性化要求提供信息服務,而且需要通過認真分析用戶個人特征和使用信息的習慣等來發現其潛在需求并主動地向他們提供可能需要的服務。為此,2008年上海市圖書館學會將此作為立項課題。

1 研究的內容

用戶需求是圖書館工作存在和發展的前提,只有加強用戶需求信息需求行為特點的研究,才能有針對性地開展工作。就目前數字圖書館個性化信息服務系統普遍比較單一,個性化智能程度不高的特點,本文提出利用數字挖掘技術進行圖書館個性化技術的研究,我們以上海大學圖書館部分流通數據作為研究對象通過用戶的歷史訪問記錄,采用關聯規則挖掘技術,發現用戶潛在可能的興趣,進行針對性的提煉整合和更高層次的分析。

1.1 運用改進的Apriori算法

通過對經典的Apriori算法的改進,采用JAVA作為數據挖掘矩陣算法的開發環境,針對其算法性能瓶頸,根據頻繁項集的性質和二進制邏輯運算的基本思想,提出基于矩陣的數據挖掘算法。挖掘關聯規則的關鍵問題在于提高算法的效率,對于類似圖書館這樣的信息量大且數據分散的大型數據庫系統矛盾更為突出,采用矩陣的數據挖掘技術較好避免了Apriori系列算法固有的缺陷,算法占用內存小,I/O操作少,執行速度快,系統效率大大提高。

1.2 數據的預處理

數據預處理的質量直接影響后續工作,高質量的數據預處理,不僅能節約系統資源,而且能提高數據挖掘過程的精度和性能,提高系統效率。

對具有代表性的與分析任務相關的數據進行樣本抽取,讀者的借閱習慣與其所從事的專業有很大的聯系,因此需要從圖書館系統的數據庫中根據讀者專業屬性提取借閱數據,將相關數據庫轉換整合,數據歸約,把用戶空間分成若干相似用戶聚類群,實現與數據挖掘矩陣算法的對接。

我們著重跟蹤上海大學機電工程與自動化學院及知識產權學院2005級大一及大三學生借閱O-數理學科和化學類,H31-英語類,D-政治法律類,I-文學類,TP-自動化及計算機技術類書籍的數據,總計12 747條記錄,分類統計見表1。

1.3 用戶隱私安全與保護問題

為了更好地開展個性化服務,用戶的個人信息是不可缺少的,這就涉及到了用戶的隱私問題。由于個性化信息服務需要對用戶的基本信息和查詢行為進行基本的分析,因此有關用戶日常行為日志、個人信息、注冊信息等都在用戶個性化特征分析之中。個性化信息服務應該使用戶相信其個人信息不會被濫用,而是用于有效滿足用戶的需求。同時應該在用戶中樹立良好的信譽感,制定出較為完善的隱私保護政策,保證用戶個人信息不被第三方使用。

2 關聯挖掘結果及評估

經統計05級自動化學院、知識產權學院和文學院參與關聯分析的5類書籍借閱人數占總借閱人數的比例都在90%以上,樣本選取合理,可信度高。05級自動化學院、知識產權學院文學院大一、大三學生借閱率變化如圖1。工科類的借閱率呈下降,文科類的借閱率呈上升。文科大一大三的借閱率都高于工科。

根據統計,學校的文理科都有這個變化趨勢。我們分析主要原因是當今社會科技發展日新月異,工科專業類的圖書更新相對落后于需要,上網查資料成了學生解決問題的重要途徑。而文科則不同,隨著學習的深入,需要的是更經典,更具有積淀的資料,這些專業信息,圖書館的藏書更多于網上能提供的資源。總的來說網絡是影響借閱率的主要因素之一。

課題利用Weka作為數據挖掘算法開發工具,Weka的全名是懷卡托智能分析環境,是一款免費的、非商業化的,基于JAVA環境下開源的機器學習以及數據挖掘軟件。它和它的源代碼可在其官方網站下載。WEKA能承擔對數據進行預處理,分類、回歸、聚類、關聯規則以及在新的交互式界面上的可視化。而開發者則可使用Java語言,利用Weka的架構上開發出更多的數據挖掘算法。頻繁項目集L={O,D,H31,I,TP},取最小置信度minConfidence為0.66。關聯挖掘的結果如下:

05級大一自動化,時間:2005年9月-2006年7月

讀者數N=315,最小支持度為0.2,得到頻繁三項集L3={O,I,H31}。自動化05級大一強關聯規則見表3。

05級大三自動化,時間:2007年9月-2008年7月

讀者數N=293,最小支持度為0.1,得到頻繁三項集L3={TP,I,H31}。自動化05級大三強關聯規則見表4。

05級大一知識產權,時間:2005年9月-2006年7月

讀者數N=156,最小支持度為0.2,得到頻繁三項集L3={D,I,H31}。知識產權05級大一強關聯規則見表5。

05級大三知識產權,時間:2007年9月-2008年7月

讀者數N=172,最小支持度為0.1,得到頻繁三項集L3={D,I,H31}。知識產權05級大三強關聯規則見表6。

關聯挖掘得出的結果與圖書館實際工作及讀者調查相比較,結果是很相近的。現選擇典型的加以說明。

(1)根據所選取的關聯規則最小支持度,機電工程與自動化學院1,3年級得到的頻繁三項集分別為L3={O,I,H31}和L3={TP,I,H31}。從實際情況來看:自動化專業的學生在整個大學的學習過程中一般很少有借閱政治法律類書籍的需要,大一的學生對數學等基礎課程的圖書借閱比較集中而對自動化及計算機技術類書籍的借閱量相對少,到了大三隨著基礎課程的結束和專業課的開設學生對數理學科和化學類書籍的借閱急劇減少,對自動化及計算機技術類書籍的借閱量卻大大增加了。

(2)知識產權學院1,3年級所得到的頻繁三項集沒有變化L3={D,I,H31},O(數理學科和化學類)和TP(自動化及計算機技術類)不參與各年級的關聯規則的運算。這個結果也是很顯然的。

(3)表3~表6中,H31英語類書籍出現在較多的強關聯規則里,從宏觀上來說英語是學校工科、文科各年級的主要借閱書籍。從另個角度看,整個大學期間學生在外語上花費了大量的時間和精力。

(4)表4中,H31=>TP,I=>TP的作用度分別是3.32和1.41,表明自動化大三年級期間,相對于文學書籍而言,外語類書籍與專業書籍相關性更高些。在表6中,因為I=>D的作用度小于1,所以文學類書籍與法律類書籍的關聯是無效的。

(5)用圖表分析后,表5和表6中的D=>I、I=>D作用度的變化,我們可以解釋為由于大三專業課的增加,知識產權學院的學生相對于大一借閱法律書籍數量大大增多,而借閱文學書籍的學生稍有減少。

3 結束語

數字圖書館的流通信息為我們提供的是最基礎的原始的數據,通過對流通數據的關聯挖掘,不僅能揭示隱藏在大量數據后的重要關系信息,同時也為這種關系提供了量化描述手段。這些定性定量的信息不僅能對圖書館的各項工作提供技術上的支持,還可對學校的教學,課程的設置,學科的交叉滲透等提供信息。從表3~表6中我們得到了許多強關聯規則,數據挖掘工具能夠發現滿足條件的關聯規則,但它不能判定關聯規則的實際意義。對關聯規則的理解需要熟悉業務背景,豐富的業務經驗對數據有足夠的理解,也可以通過篩選技術排除虛假規則,只有這樣才能去其糟粕,取其精華,充分發揮關聯規則的價值。

參考文獻

[1]陸覺民,鄭宇.基于矩陣的數據挖掘技術在數字化圖書館中的應用[J].現代情報 2007,27(12):92-93,98.

[2]魏育輝,潘潔.圖書流通數據的關聯挖掘量化分析方法[J].現代情報,2005,(11):108-110.

[3]鮑靜,范生萬.基于數據挖掘的圖書數據預處理大學[J].圖書情報學刊,2008,26(2):31-33.

[4]王偉,張征芳,王明海.基于數據挖掘的圖書館讀者行為分析[J].現代圖書情報技術,2006,(11):51-54.

[5]李虹.面向用戶的數字圖書館信息服務模式研究[J].情報雜志,2007,(8):134-136.

主站蜘蛛池模板: 亚洲最猛黑人xxxx黑人猛交| 亚洲一区精品视频在线| 天天操天天噜| 成人在线不卡视频| 色综合a怡红院怡红院首页| av尤物免费在线观看| 国产成人综合日韩精品无码不卡| 玩两个丰满老熟女久久网| 国产自在线拍| 国产成人三级| 国产精品第5页| 亚洲国产综合精品中文第一| 成人日韩视频| h网址在线观看| 国产乱人伦AV在线A| 久久精品中文字幕免费| 国产天天色| 国产精品久线在线观看| 国产91蝌蚪窝| 日韩小视频在线观看| 特级aaaaaaaaa毛片免费视频| 国产一区二区三区精品久久呦| 99精品国产自在现线观看| 国产精品v欧美| 国产aaaaa一级毛片| 色婷婷电影网| 91精选国产大片| 亚洲一区二区三区中文字幕5566| 欧美无专区| 成人综合网址| 国产毛片不卡| 亚洲国产精品日韩专区AV| 中国精品久久| 中国特黄美女一级视频| 精品无码专区亚洲| 亚洲成aⅴ人在线观看| 免费可以看的无遮挡av无码| 国产91丝袜| 国产不卡国语在线| 亚洲床戏一区| 免费网站成人亚洲| 91啦中文字幕| 国产日本视频91| 毛片免费高清免费| 中文字幕1区2区| 亚洲国产精品美女| 日本一区高清| 无码 在线 在线| 欧美三级不卡在线观看视频| 黄网站欧美内射| 精品伊人久久大香线蕉网站| 精品人妻无码中字系列| 91蝌蚪视频在线观看| 亚洲日本一本dvd高清| 中文字幕波多野不卡一区| 久久性视频| 伊人久久久久久久久久| 国产99欧美精品久久精品久久| 久久人人妻人人爽人人卡片av| 在线看片中文字幕| 第九色区aⅴ天堂久久香| 国产精品综合色区在线观看| 91口爆吞精国产对白第三集| 国产欧美精品专区一区二区| 久久久波多野结衣av一区二区| 欧美色伊人| 国产成人无码播放| 91原创视频在线| 久久久久国色AV免费观看性色| 日韩AV无码一区| 精品免费在线视频| 欧美午夜视频在线| 欧美精品啪啪| 亚洲欧洲日韩综合| 亚洲成综合人影院在院播放| 在线观看国产精品第一区免费| 国产成人综合欧美精品久久| 久久人午夜亚洲精品无码区| 成人午夜视频网站| 国产精品亚洲一区二区三区z| 91极品美女高潮叫床在线观看| 亚洲热线99精品视频|