999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館個(gè)性化推薦中的應(yīng)用研究

2013-12-31 00:00:00王顯斌
中國(guó)電子商情 2013年16期

引言

討論如何在圖書館個(gè)性化推薦中應(yīng)用網(wǎng)絡(luò)數(shù)據(jù)挖掘,并具體對(duì)社會(huì)網(wǎng)絡(luò)分析的應(yīng)用進(jìn)行了深

入分析,提出了具體算法。

網(wǎng)絡(luò)數(shù)據(jù)挖掘又稱Web數(shù)據(jù)挖掘,是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息處理中的應(yīng)用,從與網(wǎng)絡(luò)相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息,是從Web網(wǎng)站的數(shù)據(jù)中發(fā)掘關(guān)系和規(guī)則。其挖掘?qū)ο笫谴罅俊愘|(zhì)、分布的Web文檔,可以對(duì)數(shù)據(jù)庫、Web服務(wù)器上的日志、讀者信息等數(shù)據(jù)展開挖掘工作。同時(shí),由于Web在邏輯上是一個(gè)由文檔節(jié)點(diǎn)和超鏈接構(gòu)成的圖,因此Web挖掘所得到的模式可能是關(guān)于Web內(nèi)容的,也可能是關(guān)于Web結(jié)構(gòu)的,或者是關(guān)于用戶行為模式的1。通過網(wǎng)絡(luò)數(shù)據(jù)挖掘?qū)γ總€(gè)用戶的訪問行為、頻度、和內(nèi)容等進(jìn)行分析,能提取出每個(gè)用戶的特征,給每個(gè)用戶個(gè)性化的界面,提供個(gè)性化的Web信息服務(wù)。

本文以中國(guó)知網(wǎng)(CNKI)總庫為統(tǒng)計(jì)源,以主題“We數(shù)據(jù)挖掘”、“網(wǎng)絡(luò)數(shù)據(jù)挖掘”搜索到國(guó)內(nèi)近六年的論文數(shù)量,從中可以看出相關(guān)領(lǐng)域的研究從2007年開始呈逐年上升趨勢(shì),2009年達(dá)到峰值后,逐年有所下降。具體數(shù)據(jù)如表2所示:

根據(jù)對(duì)這些文章內(nèi)容的分析,研究網(wǎng)絡(luò)數(shù)據(jù)挖掘算法及其實(shí)現(xiàn)的占大多數(shù),國(guó)內(nèi)關(guān)于網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館的應(yīng)用研究不多,大多是作為電子商務(wù)中數(shù)據(jù)挖掘研究的一部分。網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館中的應(yīng)用主要表現(xiàn)在以下幾個(gè)方面:

(1)圖書推薦系統(tǒng)。這類系統(tǒng)主要通過日志挖掘讀者的借閱習(xí)慣,推測(cè)讀者的閱讀需求,從而為不同興趣的讀者提供相應(yīng)的推薦內(nèi)容。這種個(gè)性化推薦系統(tǒng)能夠較好地把握讀者需求,通過聚類和關(guān)聯(lián)規(guī)則為讀者推薦借閱過的相似圖書或可能需要的其他文獻(xiàn)。但它的缺點(diǎn)在于,推薦的相似圖書,讀者已經(jīng)借閱過,再借閱的幾率不大。因此,這個(gè)研究的重點(diǎn)和難點(diǎn)在使用的挖掘算法上2。

(2)網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)。現(xiàn)代圖書館越來越重視讀者的學(xué)習(xí)需求,從而推出各種學(xué)習(xí)服務(wù)3。這類應(yīng)用主要是針對(duì)網(wǎng)絡(luò)學(xué)習(xí)中的學(xué)習(xí)資源的挖掘。因?yàn)樵趫D書館提供的虛擬學(xué)習(xí)平臺(tái)中,資源是龐大的,而讀者的精力有限,同時(shí)每個(gè)人的興趣不同,需要對(duì)不同的讀者組織不同的教育資源。而網(wǎng)絡(luò)數(shù)據(jù)挖掘在其中所起的重要作用就是對(duì)讀者的借閱和瀏覽行為進(jìn)行挖掘分析,根據(jù)分析結(jié)果為讀者匹配學(xué)習(xí)資源。

(3)文獻(xiàn)檢索系統(tǒng)。網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)也常見于文獻(xiàn)檢索系統(tǒng)的應(yīng)用中,圖書館資源包含大量的文本、期刊、視頻等。讀者常常需要通過檢索才能獲取自己想要的信息,使用網(wǎng)絡(luò)數(shù)據(jù)挖掘也是為讀者提供高效獲取信息的方式。

由以上分析看出,網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館中應(yīng)用的主要目的就是為讀者找到所需資源,滿足讀者的個(gè)性化需求。下面我們就針對(duì)網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館個(gè)性化推薦中的應(yīng)用進(jìn)行探討。

1、圖書館個(gè)性化推薦常用分析方法

1.1聚類算法

通常說來,許多圖書館的讀者建模方法是基于統(tǒng)計(jì)的,即對(duì)所有讀者的統(tǒng)計(jì)數(shù)據(jù)(比如基于平均值)進(jìn)行分析。這樣的后果是對(duì)讀者的個(gè)性化行為視而不見,影響了讀者專業(yè)性和個(gè)性化需求,忽略了隱含的讀者信息的價(jià)值。而讀者聚類建模,則是把一類讀者聚集起來,分析他們的特性并對(duì)這類讀者建模,在建模質(zhì)量相同或接近的條件下,聚類建模所需的數(shù)據(jù)量將遠(yuǎn)遠(yuǎn)低于對(duì)單個(gè)讀者建模的數(shù)據(jù)量,因?yàn)榉诸愔械拿總€(gè)讀者(知識(shí)背景和生活閱歷貢獻(xiàn)具有很大的相似度)都貢獻(xiàn)了其數(shù)據(jù)。常用聚類算法如表3。

1.2 社會(huì)網(wǎng)絡(luò)分析

社會(huì)網(wǎng)絡(luò)分析已經(jīng)有相當(dāng)長(zhǎng)的一段歷史了,近60年來,相關(guān)研究人員做了大量的研究,由Brin和Page等人提出的PageRank算法,以及由Kleinberg說提出來的HITS算法開創(chuàng)了將社會(huì)網(wǎng)絡(luò)研究應(yīng)用在Web范疇的先河。這兩種算法都來源于社會(huì)網(wǎng)絡(luò)分析,都利用了網(wǎng)頁的超鏈接結(jié)構(gòu)并依據(jù)網(wǎng)頁的“威望”或者“權(quán)威”級(jí)別來對(duì)網(wǎng)頁進(jìn)行分級(jí)排序。這在搜索引擎中得到了廣泛的運(yùn)用。圖書館也同樣存在著這樣的社會(huì)網(wǎng)絡(luò)關(guān)系,這種關(guān)系主要通過讀者瀏覽和獲取文獻(xiàn)行為體現(xiàn)。這種關(guān)系和活動(dòng)可以用網(wǎng)絡(luò)或圖來表示,其中,每一個(gè)頂點(diǎn)(結(jié)點(diǎn))用來表示一個(gè)讀者,而一條邊的連接用來表示兩個(gè)讀者之間的關(guān)系。利用網(wǎng)絡(luò)圖我們可以研究該網(wǎng)絡(luò)的結(jié)構(gòu)特征,以及每個(gè)讀者威望性、中心性等屬性。同時(shí)從中我們也可以找到各種類型的子圖,即社區(qū)。

2、基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的圖書館個(gè)性化推薦分析

2.1基于K-means聚類推薦分析

圖書館讀者聚類可以通過兩種方式進(jìn)行聚類,建立二維推薦模型,即:查詢聚類和借閱聚類。在此,只要實(shí)現(xiàn)查詢信息和借閱信息的高效率、高準(zhǔn)確率的自動(dòng)分類,然后根據(jù)讀者興趣模型匹配,就可以完成其推薦過程。自動(dòng)分類信息可以采用K-均值聚類算法實(shí)現(xiàn),并根據(jù)圖書館相關(guān)信息結(jié)構(gòu)的特點(diǎn),對(duì)算法本身加以改進(jìn)。具體流程如圖1。

2.2 基于PageRank社會(huì)網(wǎng)絡(luò)分析

在圖書館借閱場(chǎng)景下,讀者瀏覽和借閱行為反應(yīng)了讀者的需求。PageRank算法關(guān)鍵在于測(cè)度每個(gè)對(duì)象的隨機(jī)訪問概率。我們假定讀者借閱史就是讀者推薦書目單,反應(yīng)了讀者對(duì)于圖書的認(rèn)可程度。在此,我們可以把訪問概率轉(zhuǎn)化為讀者推薦書目單的緊密程度,因此,問題轉(zhuǎn)化為求讀者推薦書目單的緊密程度,然后通過PageRank算法,求出讀者推薦書目單的權(quán)威度排名,進(jìn)而推薦給興趣模型相似的讀者。

我們用dist(j, t)表示兩個(gè)讀者推薦書目單關(guān)系程度,使用其文本相似度 來度量,進(jìn)而產(chǎn)生新的PageRank2算法。對(duì)于每個(gè)讀者推薦書目單,其重要度PR2(i)可定義為:

其中DIS(j,i)定義為:

在實(shí)際應(yīng)用中,由于某些讀者推薦書目單可能與其他讀者推薦書目單 值為0,故將公式2調(diào)整為:

其中a為衰減系數(shù),設(shè)定為0和1之間,其本質(zhì)是為了消除孤立讀者,給每個(gè)讀者增加一條指向所有其它讀者的鏈接,并且給予每個(gè)鏈接一個(gè)由參數(shù)a控制的轉(zhuǎn)移概率,在這里我們沿用PageRank中的取值a=0.8570。

3、結(jié)語

本文主要探討了網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館中的應(yīng)用問題,并對(duì)于社會(huì)網(wǎng)絡(luò)分析的應(yīng)用進(jìn)行了較為深入的分析,提出了具體算法。網(wǎng)絡(luò)數(shù)據(jù)挖掘廣泛應(yīng)用于互聯(lián)網(wǎng)。隨著數(shù)字圖書館的不斷興起,其在圖書館領(lǐng)域的應(yīng)用將更加廣泛4。但是,圖書館相對(duì)封閉的信息環(huán)境制約著網(wǎng)絡(luò)數(shù)據(jù)挖掘的應(yīng)用。相信隨著Web2.0和讀者個(gè)性化需求不斷得到重視5,數(shù)字圖書館技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)挖掘?qū)?huì)發(fā)揮更加重要的作用。

參考文獻(xiàn)

[1] 馬費(fèi)成,王曉光.信息資源管理研究及國(guó)際前沿[J].情報(bào)學(xué)研究進(jìn)展.武漢大學(xué)出版社,2007.

[2] 劉曉忠.數(shù)據(jù)挖掘技術(shù)在圖書館建設(shè)中的應(yīng)用[J].硅谷,2012(6).

[3]夏南強(qiáng),張紅梅.基于數(shù)據(jù)挖掘的數(shù)字圖書館個(gè)性化服務(wù)[J].圖書館學(xué)研究, 2006, (1):32-34.

[4]李卓玲,王健.基于Web挖掘個(gè)性化服務(wù)系統(tǒng)的研究與實(shí)現(xiàn)[J].信息技術(shù),2007(10)..

[5] 王偉軍,孫晶.WEB2.0研究與應(yīng)用綜述[J].情報(bào)科學(xué),2007(12).

主站蜘蛛池模板: 久久精品这里只有国产中文精品| 国产在线观看精品| 亚洲男人天堂2020| 中文字幕调教一区二区视频| 国产手机在线小视频免费观看| 亚洲AⅤ综合在线欧美一区| 五月婷婷导航| 尤物在线观看乱码| 8090成人午夜精品| 亚洲天堂日韩在线| 国产精品 欧美激情 在线播放| 97se亚洲综合在线天天| 国产美女丝袜高潮| AV无码无在线观看免费| 国产凹凸视频在线观看| 精品乱码久久久久久久| 国产精品刺激对白在线| 美女扒开下面流白浆在线试听 | 日韩欧美中文在线| 亚洲天堂网在线观看视频| 国产不卡在线看| 四虎影视库国产精品一区| 国产99精品久久| 久久久久亚洲Av片无码观看| 四虎成人免费毛片| 国产毛片基地| 亚洲第一精品福利| 中文字幕2区| 毛片手机在线看| 国产凹凸一区在线观看视频| 国产精品99久久久| 日韩黄色在线| 尤物午夜福利视频| 欧美三級片黃色三級片黃色1| 久久精品午夜视频| 亚洲av片在线免费观看| 欧美国产日产一区二区| 在线a视频免费观看| 亚洲三级电影在线播放 | 国产成人精品一区二区三区| 国产欧美亚洲精品第3页在线| 日韩国产黄色网站| 国产成人区在线观看视频| 久久久无码人妻精品无码| 香蕉伊思人视频| 99视频在线精品免费观看6| 国产成人精品2021欧美日韩| 高潮毛片免费观看| 国产在线自乱拍播放| 97se亚洲综合在线天天 | 欧美国产日韩一区二区三区精品影视 | 在线亚洲天堂| 午夜色综合| 欧美啪啪网| 欧美啪啪一区| 狠狠色噜噜狠狠狠狠色综合久| 国产一区二区三区免费| 四虎影视无码永久免费观看| 好吊色妇女免费视频免费| 一本大道无码日韩精品影视| 欧美区一区二区三| 国产小视频网站| 91无码网站| 91久久偷偷做嫩草影院免费看| 精品视频一区二区观看| 在线观看无码a∨| 老司国产精品视频91| 欧美午夜网站| 亚洲中文字幕在线精品一区| 欧美在线国产| 亚洲码一区二区三区| 色婷婷天天综合在线| 亚洲天堂伊人| 青青极品在线| 亚洲成a人片在线观看88| 国产精品流白浆在线观看| 亚洲无码电影| 国产99久久亚洲综合精品西瓜tv| 亚洲精品片911| 亚洲av无码成人专区| 国产在线自乱拍播放| 特级做a爰片毛片免费69|