999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

規范化序列模式在讀者借閱行為模式挖掘的應用研究

2014-04-29 00:01:54鄧廣彪
計算機時代 2014年4期
關鍵詞:數據挖掘規范化數據庫

鄧廣彪

摘 要: 高校圖書管理系統經過多年運行產生了大量借閱數據,為從借閱數據中發現讀者借閱圖書的行為模式和借閱規律,提出使用PrefixSpan算法對借閱數據進行序列模式挖掘。為平衡序列模式中支持度和長度各自的重要性,將挖掘結果進行規范化處理,得到帶有權值的序列模式。通過對帶有權值序列模式進行分析,可得到讀者借閱圖書的前后銜接關系和借閱規律,根據這些借閱規律可對讀者進行借閱指導。

關鍵詞: 序列模式; PrefixSpan算法; 規范化; 借閱規律

中圖分類號:TP274+.2 文獻標志碼:A 文章編號:1006-8228(2014)04-34-03

Abstract: The operation of the college library management system has generated a large amount of borrowing data for so many years. In order to find out the behavior pattern and borrowing rules of readers, the PrefixSpan algorithm is proposed to lead data sequence pattern mining. To keep balance of importance between the support degree and the length in sequence mode, the mining results will be normalized and the sequence patterns will be given with weights. Based on the weighted sequential pattern analysis, the linking relation and the borrowing rules can be obtained, and readers may borrow based on these rules.

Key words: sequential patterns; prefixspan algorithm; normalization; borrowing rules

0 引言

數據挖掘又稱為數據中知識發現,是從海量數據中獲得有趣、有用、隱含在數據背后且可理解的相關知識[1]。數據挖掘中常見方法有關聯規則、分類、聚類、序列模式、Web挖掘等,這些技術在圖書館的應用主要集中在關聯分析和聚類分析[2]兩方面,使用序列模式進行分析的較少。

目前各高校圖書管理系統經過多年運行生成大量借閱數據,通過對這些數據直接分析可得知哪些是熱門書籍讀者借閱圖率、圖書利用率等信息,但是要發現借閱數據背后的規律不是直接分析數據能夠做到的。同時,圖書館是為讀者服務的部門,應該主動掌握讀者的借閱習慣、借閱規律和借閱傾向,主動為讀者推薦書籍。借助于系統推薦圖書分兩個方面,一方面是讀者借閱某本圖書時主動為其推薦相關書籍并給出借閱圖書的先后順序;另一方面是在讀者根本不清楚自己要閱讀什么書時,應根據讀者專業主動推薦相關專業圖書的借閱順序。同時還要解決以往系統關聯規則僅能發現同時被某些讀者借閱過的圖書而無法給出借閱圖書的先后順序問題。因此本文提出使用PrefixSpan算法挖掘序列模式,使用[0,1]區間規范化處理挖掘到的序列模式。

1 PrefixSpan算法

PrefixSpan算法[3]在挖掘序列模式時不需要產生候選項集,挖掘速度較快。算法的基本思想是,找出頻繁1序列后產生投影數據庫,根據前綴挖掘投影數據庫得到局部頻繁項集,將前綴與局部頻繁項集結合得到頻繁序列,具體挖掘步驟如下。

Step1:掃描序列數據庫S,找出滿足最小支持度的頻繁1-項集,即得到長度為1的序列模式。

Step2:將長度為1的序列模式作為前綴構造投影數據庫。

Step3:對每個前綴掃描所屬的投影數據庫,根據最小支持度得到相關局部頻繁項集,將前綴和局部頻繁項集結合得到頻繁序列。

Step4:繼續將得到的頻繁序列作為前綴,挖掘該前綴的投影數據庫得到局部頻繁項集,結合得到頻繁序列。重復該步驟直至不能發現更長的頻繁序列,算法停止。

2 序列模式規范化處理

如何有效使用挖掘出來的序列模式成為序列模式應用的關鍵。目前大部分使用的方法是按長度降序排列,長度越長的越有用;也有按支持度降序排列,支持度越高的序列模式越有用。這兩種方法各有利弊,第1種方法序列模式支持度不夠大而不具有非常的普遍性,第2種方法序列模式太短而起到的指導作用小。為兼顧支持度和長度的重要性,我們提出各自占50%的比例來計算序列模式的權值,但是各自的計量單位不同,支持度為百分比而長度為整數,所以必須進行數據變換,在此選擇規范化[4]處理,使支持度和長度值變換后均在[0-1]范圍。

規范化處理是數據挖掘前的數據預處理方法,本文應用于數據挖掘后結果處理是一種新的嘗試。規范化是將數據按比例縮放使之落入一個特定區間,有三種形式:最大-最小規范化、z-score規范化和按小數點定標規范化,在此選擇“最大-最小規范化”,計算公式為:

其中,maxA和minA為屬性A的最大值和最小值,經過處理后將A的當前值v映射到區間[new_minA,new_maxA]中的v'。

3 PrefixSpan算法在讀者借閱行為模式挖掘的應用

3.1 序列模式在讀者借閱行為挖掘的應用模型

序列模式在圖書管理系統中讀者借閱行為挖掘及應用主要分為三個步驟,即數據準備、知識獲取和知識應用,如圖1所示。數據準備主要是保證被挖掘數據的準確性、適用性和完整性,知識獲取主要是應用序列模式挖掘算法對準備好的數據進行挖掘獲取讀者借閱行為,知識應用主要是根據讀者借閱圖書的類別或讀者專業進行相關圖書推薦。

3.2 數據狀態分析

本次序列模式挖掘使用廣西民族師范學院圖書管理系統中2009級、2010級本專科學生的借閱數據作為數據源進行序列模式挖掘分析。廣西民族師范學院2009、2010級本專科學生共5823人,涉及到漢語、外語、計算機、管理等13個大類專業,為使得挖掘的序列模式能夠較好地發現各大類專業讀者的借閱行為習慣,整理好數據后按大類專業進行序列模式挖掘。

圖書管理系統中借閱數據包含的屬性很多,在分析時只需要學號、借閱日期和索書號這3個字段的信息。廣西民族師范學院圖書管理系統每借閱一本書就會產生一條借閱記錄;在圖書管理系統中,同一本書的多個副本索書號相同,但同一類別的書有多本不同的書名,索書號的編碼以中圖分類號開頭,但“.”之后的比中圖分類號更詳細,“.”之后的用來區分同一大類中不同小類的書,最后加上“/……”區分該小類中不同的圖書,如TP391.413/1188表示《PHOTOSHOP蛻變:人像攝影與后期》這本書,TP391.413/1151表示《PHOTOSHOP CS5數碼人像修飾208例》這本書,TP391.414/72表示《FLASH CS6中文版從入門到精通》這本書,則TP391.413表示photoshop類的圖書等,那么在處理數據時對于索書號只用“/”之前的作為借閱書籍的標識,這樣就可以區分每一小類的圖書。

3.3 數據預處理

本次挖掘從圖書管理系統中獲取238145條借閱記錄,經過索書號處理后得到148236條記錄。然后以學號作為序列ID,以一天內所借閱書籍作為序列中的一個元素,按照時間的遞增順序編排,得到每個學生借閱圖書的序列,如表1所示,最終得到的序列數據庫S有4938條序列。

3.4 序列模式挖掘

序列模式挖掘的目的是尋找序列數據庫中按照某種順序出現的規律[5],但在高校讀者借閱規律中,并不是每個規律對所有專業的讀者都適用,必須要分門別類對不同專業進行挖掘得到對應專業的借閱規律,才能給對應類別專業的學生進行借閱圖書指導,如計算機類專業的規律不能應用于化學類,化學類的規律對外語類學生指導借閱順序是沒有意義的。因此,將序列數據庫中的序列分為外語、漢語、物理、化學、數學、通信、計算機、金融、營銷、管理、美術、音樂、體育等13個大類專業,分別對每個大類專業進行序列模式挖掘。

本次序列模式挖掘在Win7操作系統、Myeclipse 8.5平臺下使用Java語言實現PrefixSpan算法,序列數據庫經過處理后保存在Microsoft SQL Server 2008數據庫中,本次挖掘設置最小支持度為5%,對挖掘得到的結果中選取計算機類專業的部分序列模式,如表2所示。本次序列模式挖掘結果刪除長度為1的序列模式,因為該模式對獲取讀者的借閱規律沒有指導意義。

3.5 結果分析

根據上述挖掘結果,從圖書管理系統中尋找相關索書號所屬的圖書類別,得到計算機類專業第1條序列模式中圖書類別如下:

TP312C:C語言類

H319.34:大學英語四級類

TP311.138:數據庫類

TP312JA:JAVA基礎語言類

TP311.5:軟件工程類

TP391.413:PHOTOSHOP圖像處理類

TP312.25:JAVA項目開發類

TP312UM:UML建模類

TP311.55:軟件測試類

G642.477:畢業論文撰寫類

由此可知該序列為計算機類專業中軟件工程學生的借書模式,借閱圖書的基本規律:基礎C語言—>數據庫—>Java語言—>軟件工程—>項目開發—>軟件測試等,在學習的過程中穿插大學英語四級以及圖像處理的書籍。對上述挖掘結果中第2條序列模式進行分析,可知是計算機類專業中網絡工程學生借閱圖書的模式。

3.6 應用分析

為能夠更好地體現讀者的借閱規律,充分利用序列模式中支持度和長度的重要性,將挖掘到的序列模式進行[0,1]規范化處理。處理后計算每條序列模式的權值計算公式為:

權值=支持度×50%+長度×50%

最后將挖掘得到的序列模式按照權值的降序排列以供對讀者進行借閱推薦時使用。表3為挖掘到每大類專業的序列模式情況。

從表3可知,外語類序列模式數量較多,主要是外語類包括了英語、越南語、泰語這三類專業的借閱模式,因為各專業中書籍類別不同,所以產生模式較多。本次序列模式挖掘結果大部分序列的支持度在5%-8.5%之間,因為序列模式中是最大的頻繁序列,最大頻繁序列的支持度一般不會很大。各大類專業中權值最大的序列一般是長度較長(不一定是最長)且支持度在6.5%以上,這些序列具有學習的連續性和相對普遍性;權值最小的序列,一般長度和支持度較小的,主要出現在該大類專業中少部分同學喜歡借閱其他類別專業的圖書。

在給讀者進行借書模式推薦時,根據讀者當前借閱的圖書,從按權值排序的序列模式中從上到下尋找當前借閱圖書所在的序列模式,找到模式后,從該讀者的借閱歷史庫中尋找該讀者是否已經借閱模式中當前借閱圖書類別之前的圖書類別,若沒有,則詢問讀者是否已經閱讀過相關圖書類別,如果沒閱讀過則推薦先閱讀相關圖書類別后再借閱當前這本書,如果已閱讀過則推薦閱讀完當前圖書后繼續閱讀序列模式中該圖書之后的圖書類別;若序列模式中所借閱圖書之前的圖書類別該讀者均已借閱過,則直接推薦讀者閱讀當前所借閱圖書后,繼續閱讀序列模式中該圖書之后的圖書類別。另外,有部分讀者很茫然,不知道要閱讀什么圖書,這時可根據讀者的專業,主動為其推薦該專業中權值最大的三個借閱模式,滿足學生個性發展的需要。

4 結束語

通過本文的研究表明,使用序列模式挖掘能從讀者借閱歷史數據中找到讀者的借閱模式和借閱規律,通過挖掘到的借閱規律可以對其他讀者借閱圖書時進行相關圖書推薦,避免讀者借閱圖書的盲目性和隨意性,同時能提高圖書館圖書的借閱率,提高讀者對圖書館的滿意度。但是本文提出的方法僅靜態地對當前存在的歷史借閱數據挖掘發現讀者借閱圖書的序列模式,而圖書館的借閱數據經過一段時間后增加很多記錄,那么讀者的借閱規律可能會發生改變,接下來,如何快速發現增量數據后的借閱模式將是我們研究的方向。

參考文獻:

[1] 王海峰,張健,黃曉亞.數據挖掘技術及其在漁情預報中的應用[J].計算機時代,2007.11:52-53

[2] 馮研,王馨.國內圖書館數據挖掘技術實踐應用進展分析[J].圖書館學研究,2011.20:2-4

[3] J.Pei, J.Han, B.Mortazavi-Asl,et al.PrefixSpan: Mining Sequential

Patterns efficiently by prefix-projected pattern growth. In Proc of the 17th Intl. Conf. on Data Engineering, Heidelberg,Germany, April 2001.

[4] (加)Jiawei Han,MichelineKamber(著),范明,孟小峰(譯).數據挖掘概念與技術[M].機械工業出版,2010.

[5] 王虎,丁世飛.序列模式挖掘研究與發展[J].計算機科學,2009.36(12):14-17

猜你喜歡
數據挖掘規范化數據庫
探討人工智能與數據挖掘發展趨勢
價格認定的規范化之路
商周刊(2017年23期)2017-11-24 03:24:09
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
一種基于Hadoop的大數據挖掘云服務及應用
狂犬病Ⅲ級暴露規范化預防處置實踐
高血壓病中醫規范化管理模式思考
主站蜘蛛池模板: 亚洲欧美自拍视频| 视频一区亚洲| 性色一区| 丁香五月婷婷激情基地| 亚洲男人天堂2020| 国产人成在线视频| 在线无码九区| 精品伊人久久久久7777人| 香蕉视频在线精品| 99热线精品大全在线观看| 亚洲国产91人成在线| 国产 在线视频无码| 亚洲日韩高清在线亚洲专区| 综合色区亚洲熟妇在线| 国产精品浪潮Av| 亚洲一区无码在线| 国产日韩精品欧美一区喷| 国产免费高清无需播放器| 亚欧美国产综合| 国产欧美成人不卡视频| 欧美国产日韩在线| 91久久夜色精品| 亚洲视频欧美不卡| 综1合AV在线播放| V一区无码内射国产| 午夜一区二区三区| 久久成人18免费| 99精品一区二区免费视频| 婷婷六月天激情| 婷婷成人综合| 欧美日韩精品一区二区在线线| 色一情一乱一伦一区二区三区小说 | 亚洲色欲色欲www在线观看| 国产91九色在线播放| 国产女人18水真多毛片18精品| 国产精品性| 午夜日韩久久影院| 亚洲AV无码一区二区三区牲色| 国产99视频免费精品是看6| 国产精品亚洲一区二区三区z| 国产69囗曝护士吞精在线视频| 美女无遮挡免费视频网站| 91精品专区国产盗摄| 色综合中文字幕| 国产福利2021最新在线观看| 成人福利在线看| 国产一区二区三区在线观看视频| 伊人久久福利中文字幕| 亚洲高清日韩heyzo| 伊人激情综合网| 免费视频在线2021入口| 国产精品区网红主播在线观看| 国产成人亚洲日韩欧美电影| 精品无码国产一区二区三区AV| 亚洲成人高清无码| 欧美另类第一页| 国产黄在线免费观看| 99热国产这里只有精品9九| 高清视频一区| 亚洲一道AV无码午夜福利| 在线观看国产网址你懂的| 成人国产三级在线播放| 亚洲综合中文字幕国产精品欧美 | 欧美午夜在线播放| 伊人AV天堂| 97久久免费视频| 亚洲欧美日韩天堂| 国产99在线| 亚洲国产午夜精华无码福利| 日韩精品成人网页视频在线| 国产在线麻豆波多野结衣| 国产在线拍偷自揄拍精品| 国产18页| 无码精品国产dvd在线观看9久| 亚洲中文字幕在线观看| 国内精品九九久久久精品| 日韩激情成人| 国产成人av大片在线播放| 韩国v欧美v亚洲v日本v| 日本午夜影院| 视频二区中文无码| 欧美亚洲综合免费精品高清在线观看|