999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)挖掘的書目推薦研究

2017-07-04 13:37:13劉月學(xué)
創(chuàng)新科技 2017年4期
關(guān)鍵詞:數(shù)據(jù)挖掘圖書館

劉月學(xué)

[摘 要] 通過(guò)分析推薦書目的作用,在幾種傳統(tǒng)圖書推薦服務(wù)方式的基礎(chǔ)上,嘗試將數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則引入到圖書館書目推薦的工作中。基于借閱實(shí)例,利用關(guān)聯(lián)原則和Apriori算法對(duì)讀者借閱記錄進(jìn)行分析,從而為讀者提供個(gè)性化的圖書推薦服務(wù)。文章指出這種書目推薦方式對(duì)圖書館和讀者都具有重要的意義。

[關(guān)鍵詞] 圖書館;數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;書目;個(gè)性化信息服務(wù)

[中圖分類號(hào)] TP311.13 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1671-0037(2017)4-91-3

Research on Booklist Recommendation based on Data Mining

Liu Yuexue

(Library of Xinyang Agricultural and Forestry University, Xinyang Henan 464000)

Abstract: By analyzing the effects of the recommended books, this paper tried to introduce the association rules of data mining to the library booklist recommendation on the basis of several traditional book recommendation and service models. Based on specific cases of borrowing, it adoptd the association rules and Apriori algorithm to analyze the borrowing records of readers, ao as to provide personalized book recommendation service for readers. The paper pointed out that this model of booklist recommendation had great importance for both the library and the readers.

Key words: library; data mining; association rules; booklist; personalized information service

現(xiàn)代圖書館肩負(fù)著為讀者推薦優(yōu)秀書目并同時(shí)提供所推薦圖書的使命。如何從大量的館藏中快速地推薦給讀者適合其閱讀的圖書,是一個(gè)棘手的難題。為了解決此問(wèn)題,本文嘗試?yán)脭?shù)據(jù)挖掘領(lǐng)域的相關(guān)理論和技術(shù)進(jìn)行圖書館的書目推薦工作,從而在技術(shù)層面解決這個(gè)難題。

1 基本概念概述

1.1 圖書推薦服務(wù)概述

目前,傳統(tǒng)的圖書推薦服務(wù)主要有以下幾種方式:

1.1.1 暢銷書排行。這種推薦方式就是按照?qǐng)D書銷售量的多少來(lái)向讀者推薦當(dāng)前最暢銷的書,比如當(dāng)當(dāng)網(wǎng)和亞馬遜等網(wǎng)上書店的暢銷書排行榜等。這種方式是向用戶推薦銷量靠前的書,實(shí)施起來(lái)比較簡(jiǎn)單,便于操作,可信度比較高。

1.1.2 相關(guān)書籍推薦。相關(guān)書籍推薦是以某一本書為基礎(chǔ)的推薦,比如,用戶在借閱或?yàn)g覽某本書時(shí),圖書館的工作人員以這本書為基礎(chǔ),向其推薦與該書的內(nèi)容、主題相關(guān)、相似或相同的書,將這些相關(guān)圖書的基本信息,比如館藏地點(diǎn)、購(gòu)買鏈接等信息反饋給讀者。這種圖書推薦方式屬于主動(dòng)推薦,具有一定的難度,這種推薦方式要求推薦人員具有一定的專業(yè)知識(shí),并且知識(shí)廣泛,熟悉館藏圖書。

1.1.3 基于用戶興趣的推薦。此種推薦模式,是完全基于讀者的閱讀需求和閱讀興趣,匹配最適合的讀者和最適合讀者興趣的圖書,即為人找書、為書找人,核心點(diǎn)在于如何把控不同讀者的閱讀興趣。由于此方式具有較高的主動(dòng)性和個(gè)體性,能根據(jù)不同讀者的需求推薦書目,因此被廣泛應(yīng)用于基于數(shù)據(jù)挖掘的個(gè)性化圖書推薦中。

1.2 數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘就是從大量的應(yīng)用數(shù)據(jù)中提取出有用的信息、知識(shí)的過(guò)程, 提取出來(lái)的知識(shí)和信息是人們事先不知道的,是通過(guò)對(duì)已知數(shù)據(jù)進(jìn)行分析而發(fā)現(xiàn)的[1]。

數(shù)據(jù)挖掘具有以下三點(diǎn)特征:

第一,它是對(duì)海量的原始數(shù)據(jù)進(jìn)行挖掘提取,比如,在圖書推薦服務(wù)中,數(shù)據(jù)挖掘就是對(duì)大量的讀者借閱原始數(shù)據(jù)進(jìn)行挖掘,進(jìn)而為讀者推薦滿足其個(gè)性化需求的圖書。而在挖掘借閱數(shù)據(jù)之前,還要對(duì)其進(jìn)行整理,因?yàn)檫@些原始數(shù)據(jù)之間本身存在一定的干擾。第二,數(shù)據(jù)挖掘是探索性挖掘,在挖掘之前,并不知道挖掘的結(jié)果是什么,會(huì)怎么樣,不具有驗(yàn)證性。第三,數(shù)據(jù)挖掘是從大量原始數(shù)據(jù)中發(fā)現(xiàn)從未被發(fā)現(xiàn)的信息,其結(jié)果容易被理解和接受,對(duì)人們有用。

數(shù)據(jù)挖掘應(yīng)用在高校圖書館的圖書推薦中,就是分析借閱數(shù)據(jù)的相關(guān)性從而為讀者進(jìn)行個(gè)性化書目推薦。用戶在借閱某些類別的圖書時(shí),往往會(huì)同時(shí)借閱其它類別的圖書,因此,通過(guò)利用數(shù)據(jù)挖掘中的關(guān)聯(lián)分析功能,尋找存在于圖書管理系統(tǒng)中的原始借閱記錄的相關(guān)性,從而得到最適合用戶的推薦書目,這個(gè)過(guò)程稱為基于數(shù)據(jù)挖掘的書目推薦。

1.3 推薦書目數(shù)據(jù)挖掘流程

基于數(shù)據(jù)挖掘的書目推薦主要包括三個(gè)層面:數(shù)據(jù)庫(kù)層、數(shù)據(jù)挖掘?qū)雍陀脩艚缑鎸印?/p>

數(shù)據(jù)庫(kù)層是基礎(chǔ),主要包含讀者的借還書記錄、讀者信息等大量的數(shù)據(jù)。數(shù)據(jù)挖掘就是預(yù)先加工處理數(shù)據(jù)庫(kù)層中的信息,映射成易被讀取的數(shù)據(jù),再傳遞給數(shù)據(jù)挖掘?qū)?。在?shù)據(jù)挖掘?qū)?,需要采取相?yīng)的算法,轉(zhuǎn)換成可執(zhí)行程序,然后對(duì)數(shù)據(jù)庫(kù)層送來(lái)的數(shù)據(jù)實(shí)施挖掘,在一定規(guī)則下完成對(duì)圖書進(jìn)行推薦,同時(shí)將推薦結(jié)果反饋給用戶界面層。在用戶界面層,通過(guò)人和機(jī)器之間的對(duì)話來(lái)傳遞相關(guān)的指令,比如最小支持度和最小置信度等,通過(guò)這些指令等來(lái)調(diào)整圖書推薦結(jié)果的準(zhǔn)確度,并將結(jié)果呈現(xiàn)給用戶。數(shù)據(jù)挖掘的流程如圖1所示。

2 基于數(shù)據(jù)挖掘的書目推薦算法

關(guān)聯(lián)規(guī)則分析是數(shù)據(jù)挖掘中最常用的方法,本文將采用關(guān)聯(lián)規(guī)則進(jìn)行書目推薦。以下是基于數(shù)據(jù)挖掘的書目推薦算法:

關(guān)聯(lián)規(guī)則算法通常可以用項(xiàng)集X和項(xiàng)集Y來(lái)表示,并且項(xiàng)集X和項(xiàng)集Y相互獨(dú)立,不重合,即:X∩Y=?。項(xiàng)集X和項(xiàng)集Y之間的規(guī)則滿足如下的條件:這兩個(gè)項(xiàng)集有用并且這兩個(gè)項(xiàng)集之間的規(guī)則具有一定的普遍性,即有趣度。比如,設(shè)I={i1,i2,…,im}是項(xiàng)的集合,任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫(kù)事務(wù)的集合,其中每個(gè)事務(wù)T是項(xiàng)的集合,使得T?I。每一個(gè)事務(wù)有一個(gè)標(biāo)志符,稱做TID。設(shè)A是一個(gè)項(xiàng)集,事務(wù)T包含A當(dāng)且僅當(dāng)A?T。關(guān)聯(lián)規(guī)則是形如A=>B的蘊(yùn)涵式,其中A?I,B?I,并且A∩B=?。[2]

2.1 支持度和置信度

當(dāng)規(guī)則A==>B(在事務(wù)集D中成立),具有支持度s,D中事務(wù)包含A∪B(即A和B二者的全部)的百分比,它是概率P(A∪B)也即支持度。

當(dāng)規(guī)則A===>B(在事務(wù)集D中成立),具有置信度c,D中包含A的事務(wù)同時(shí)也包含B的百分比,這是條件概率P(B|A)也即置信度。即

Support(A==>B)=P(A∪B)

Confidence(A==>B)=P(B|A)

為方便統(tǒng)計(jì),筆者用0%~100%之間的值,而不是用0~1之間的值表示支持度和置信度。

2.2 Apriori算法

關(guān)聯(lián)規(guī)則挖掘問(wèn)題通??梢员环殖蓛蓚€(gè)部分:第一部分為找到所有與關(guān)聯(lián)規(guī)則相關(guān)的頻繁項(xiàng)集;第二部分是在第一部分產(chǎn)生頻繁項(xiàng)集的基礎(chǔ)上產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則(既滿足最小支持度閾值(min_sup)又能滿足最小置信度閾值(min_conf)的規(guī)則稱做強(qiáng)規(guī)則)。在用關(guān)聯(lián)規(guī)則進(jìn)行挖掘的過(guò)程中,中心問(wèn)題要迅速、高效地找出事務(wù)數(shù)據(jù)庫(kù)中的全部頻繁項(xiàng)集。尋找頻繁項(xiàng)集要采用一些算法,通常采用的經(jīng)典算法是Apriori算法,但采用這種算法會(huì)存在效率低下的問(wèn)題,因?yàn)槊看芜B接產(chǎn)生太多的候選項(xiàng)集,導(dǎo)致在算法運(yùn)行過(guò)程中需要一次一次的掃描數(shù)據(jù)庫(kù),每次都需要對(duì)掃描結(jié)果進(jìn)行判斷和比較,所耗費(fèi)的工作量比較大。

Apriori算法流程:

先由候選項(xiàng)目集產(chǎn)生的逐層迭代,找出頻繁項(xiàng)目集。

輸入:事務(wù)數(shù)據(jù)庫(kù)D和最小支持度min_sop。

輸出:D中的頻繁項(xiàng)目集Lo

方法:

l)L1=find--frequen_1一itemsets(D):

2) For(k=2;Lk-l≠?;k++){

3) Ck=Apriori-gen(Lk-1,min_sup);

4) for each transaction t∈D{//scan D for counts

5) Ct=subset(Ck,t);//get the subset of t that are candidates

6) for each candidate C∈Ct

7) c.count++:

8) }

9)Lk={e∈Ck|c.eount≥min_suP}

10)}

11)return L=UkLk;

找到頻繁項(xiàng)目集后,接著產(chǎn)生關(guān)聯(lián)規(guī)則。

算法如下:

算法:產(chǎn)生關(guān)聯(lián)規(guī)則。

輸入:頻繁項(xiàng)目集L和最小置信度閩值(min_conf)。

輸出:關(guān)聯(lián)規(guī)則。

l)對(duì)于L中的每一個(gè)頻繁項(xiàng)目集1,產(chǎn)生1的所有非空子集。

2)對(duì)于1的每一個(gè)非空子集S,如果滿足大于等于最小置信度,則輸出規(guī)則。

3 基于數(shù)據(jù)挖掘的圖書推薦在圖書館的應(yīng)用

3.1 圖書借閱中的關(guān)聯(lián)規(guī)則

在讀者借閱記錄數(shù)據(jù)中,假設(shè)項(xiàng)集I是借閱數(shù)據(jù)的集合,假設(shè)D為借閱歷史數(shù)據(jù)庫(kù),D={R1,R2,…,Rn}。Ri是關(guān)于讀者借閱信息的記錄,并且1≤i≤n,Ri={Ci,Ij},Ci為讀者標(biāo)志,Ij是對(duì)讀者借閱書目信息的記錄,1≤j≤m。設(shè)事務(wù)T包含A,并且滿足A?T。關(guān)聯(lián)規(guī)則是形如Rx∩Ry的蘊(yùn)涵式,其中Rx?D,Ry?D,并且Rx∩Ry=?。

3.2 關(guān)聯(lián)規(guī)則在圖書館中的應(yīng)用實(shí)例

本文通過(guò)簡(jiǎn)單的借閱實(shí)例來(lái)說(shuō)明管理規(guī)則數(shù)據(jù)挖掘如何應(yīng)用在圖書館的書目推薦中。以9位讀者所借閱的5本書為例子,Rx為讀者的編號(hào),Ix為書目信息,R1借的圖書為I1、I3、I4,R2借的圖書為I2、I4,R3借的圖書為I2、I3、I5,R4借的圖書為I1、I2、I4,R5借的圖書為I1、I3,R6借的圖書為I2、I3,R7借的圖書為I3、I5,R8借的圖書為I1、I3、I5,R9借的圖書為I1、I2、I3。

在這個(gè)數(shù)據(jù)庫(kù)中,關(guān)聯(lián)規(guī)則的確定需要分兩步來(lái)實(shí)現(xiàn):第一,找出滿足最小支持度的項(xiàng)集,這個(gè)是根據(jù)假設(shè)的最小支持度(假設(shè)為2)來(lái)進(jìn)行查找的;第二,根據(jù)設(shè)定的最小置信度的值來(lái)查找符合其閾值的關(guān)聯(lián)規(guī)則。

假設(shè)書目I1,I2,I3,I4,I5分別代表5本書目信息,Sups代表該書的借閱次數(shù),則I1,I2,I3,I4,I5對(duì)應(yīng)的借閱次數(shù)分別為5、5、7、3、2。

滿足最小支持度計(jì)數(shù)的集合L1,L1為{I1}、{I2}、{I3}、{I4}、{I5},{I1}、{I2}、{I3}、{I4}、{I5}對(duì)應(yīng)的Sups值分別為5、5、7、3、2。

由L1產(chǎn)生滿足最小支持度計(jì)數(shù)的集合C2,C2為{I1,I2}、{I1,I3}、{I1,I4}、{I1,I5}、{I2,I3}、{I2,I4}、{I2,I5}、{I3,I4}、{I3,I5}、{I4,I5},其對(duì)應(yīng)的Sups值分別為2、4、2、1、3、2、1、1、3、0。

滿足最小支持度的L2為{I1,I2}、{I1,I3}、{I1,I5}、{I2,I3}、{I2,I4}、{I2,I5},其對(duì)應(yīng)的Sups值分別為2、4、1、3、2、1。

由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則:

Confidence(A=>B)=P(A|B)=Support count(A∪B)/Support count(A)

基于找出的頻繁項(xiàng)集I{I1,I2,I5}可以產(chǎn)生的強(qiáng)關(guān)聯(lián)規(guī)則:

I2∧I1=>I5,Confidence=1/2=50%

I1∧I5 =>I2,Confidence=1/5=20%

I2∧I5 =>I1,Confidence=1/5=20%

I1 =>I2∧I5,Confidence=1/1=100%

I2 =>I1∧I5,Confidence=1/1=100%

I5 ==>I1∧I2,Confidence=1/2=50%

如果最小置信度閾值為20%,則產(chǎn)生強(qiáng)規(guī)則。

即是說(shuō),當(dāng)讀者借閱了I1,I5,應(yīng)該為其推薦I2;當(dāng)讀者借閱了I5,應(yīng)該為其推薦I1,I2。

基于找出的頻繁項(xiàng)集I{I2,I3,I4}可以產(chǎn)生的強(qiáng)關(guān)聯(lián)規(guī)則:

I2∧I3==>I4,Confidence=1/3=33%

I2∧I4==>I3,Confidence=1/7=14%

I3∧I4==>I2,Confidence=1/5=20%

I2==>I3∧I4,Confidence=1/1=100%

I3==>I2∧I4,Confidence=1/2=50%

如果最小置信度閾值為20%,則產(chǎn)生強(qiáng)規(guī)則。

也就是說(shuō),當(dāng)讀者借閱了I2,I3,應(yīng)為其推薦I4;

當(dāng)讀者借閱了I2,I4,應(yīng)為其推薦I3;

當(dāng)讀者借閱了I3,I4,應(yīng)為其推薦I2。

在這個(gè)實(shí)例中,本文將支持度假設(shè)為1,在實(shí)際應(yīng)用中,支持度需要根據(jù)專家和讀者的意見進(jìn)行調(diào)整。

4 結(jié)語(yǔ)

圖書書目的推薦工作意義重大。本文將數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則應(yīng)用在圖書館的書目推薦中,借助讀者的借閱信息,很方便快捷的為讀者推薦其感興趣的圖書。這種推薦方法對(duì)圖書館和讀者來(lái)說(shuō)都具有重要的意義。對(duì)圖書館來(lái)說(shuō),圖書館通過(guò)數(shù)據(jù)挖掘?qū)^藏圖書推薦給讀者,提高了館藏的利用率,突出為讀者個(gè)性服務(wù)宗旨;另外,讀者能很容易的拿到自己需要的圖書,省時(shí)高效,事半功倍。因?yàn)槊课蛔x者的借閱記錄千差萬(wàn)別,而這種推薦方式又是基于讀者借閱記錄進(jìn)行推薦的,所以,這種推薦方式能滿足每位讀者的個(gè)性化需求,是所有推薦方式中最具有個(gè)性化的一種書目推薦方式。

參考文獻(xiàn):

[1] 荊月敏.基于數(shù)據(jù)挖掘的圖書館書目推薦服務(wù)研究[D].太原:中北大學(xué),2014.

[2] 陳定權(quán).關(guān)聯(lián)規(guī)則與圖書館書目推薦[J].情報(bào)理論與實(shí)踐,2009(6):81-84.

猜你喜歡
數(shù)據(jù)挖掘圖書館
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
圖書館
文苑(2019年20期)2019-11-16 08:52:12
時(shí)間重疊的圖書館
文苑(2018年17期)2018-11-09 01:29:40
圖書館
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
飛躍圖書館
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
圖書館里的是是非非
去圖書館
主站蜘蛛池模板: 亚洲人成影院在线观看| 亚洲精品国偷自产在线91正片| 老色鬼久久亚洲AV综合| 亚洲—日韩aV在线| 亚洲一区第一页| 欧美黄色网站在线看| 国产成人凹凸视频在线| 久久久久亚洲Av片无码观看| 92午夜福利影院一区二区三区| 亚洲一本大道在线| 亚洲欧洲日韩久久狠狠爱| 精品一区国产精品| 婷婷中文在线| 国产一级在线观看www色| 福利小视频在线播放| 99热国产在线精品99| 一本色道久久88亚洲综合| 午夜爽爽视频| 九九久久99精品| 99久久精品国产麻豆婷婷| 亚洲国产精品不卡在线 | 久久久久人妻一区精品色奶水| 国产女人喷水视频| 视频一本大道香蕉久在线播放 | P尤物久久99国产综合精品| 亚洲二三区| 欧美日在线观看| 最新国产午夜精品视频成人| 久久国产精品麻豆系列| 亚洲美女AV免费一区| 日韩二区三区| 少妇高潮惨叫久久久久久| 中文字幕欧美日韩| 久久成人18免费| 国产在线观看人成激情视频| 91在线视频福利| 无码人妻免费| 国产在线日本| 在线视频一区二区三区不卡| 亚州AV秘 一区二区三区| 91久久性奴调教国产免费| 亚洲成人黄色在线观看| 午夜啪啪网| 丁香五月婷婷激情基地| 好吊色妇女免费视频免费| 国产在线精品99一区不卡| 亚洲第一精品福利| 四虎影院国产| 亚洲精品中文字幕午夜| 福利在线不卡一区| 在线免费亚洲无码视频| 女人爽到高潮免费视频大全| 亚洲一区二区视频在线观看| 性色在线视频精品| 国产精品手机视频一区二区| 欧美视频免费一区二区三区| 国产av色站网站| 韩日午夜在线资源一区二区| 无码精品福利一区二区三区| 久久鸭综合久久国产| 成年免费在线观看| 国产成人1024精品| 日韩中文精品亚洲第三区| 亚洲精品日产精品乱码不卡| 欧美曰批视频免费播放免费| 亚洲欧洲日韩综合色天使| 狠狠色综合久久狠狠色综合| 欧美国产日韩在线播放| 国产一区二区精品福利| 亚洲香蕉伊综合在人在线| 在线看免费无码av天堂的| 亚洲国产清纯| 欧美精品高清| 国产精品主播| 欧美日韩成人| 免费国产高清精品一区在线| 欧美午夜精品| 日本免费一区视频| 欧美日韩91| 中文字幕久久亚洲一区| a欧美在线| 高清不卡毛片|