網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館個(gè)性化推薦中的應(yīng)用研究

2013-12-31 00:00:00王顯斌

中國(guó)電子商情 2013年16期

引言

討論如何在圖書館個(gè)性化推薦中應(yīng)用網(wǎng)絡(luò)數(shù)據(jù)挖掘，并具體對(duì)社會(huì)網(wǎng)絡(luò)分析的應(yīng)用進(jìn)行了深

入分析，提出了具體算法。

網(wǎng)絡(luò)數(shù)據(jù)挖掘又稱Web數(shù)據(jù)挖掘，是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息處理中的應(yīng)用，從與網(wǎng)絡(luò)相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息，是從Web網(wǎng)站的數(shù)據(jù)中發(fā)掘關(guān)系和規(guī)則。其挖掘?qū)ο笫谴罅俊愘|(zhì)、分布的Web文檔，可以對(duì)數(shù)據(jù)庫、Web服務(wù)器上的日志、讀者信息等數(shù)據(jù)展開挖掘工作。同時(shí)，由于Web在邏輯上是一個(gè)由文檔節(jié)點(diǎn)和超鏈接構(gòu)成的圖，因此Web挖掘所得到的模式可能是關(guān)于Web內(nèi)容的，也可能是關(guān)于Web結(jié)構(gòu)的，或者是關(guān)于用戶行為模式的1。通過網(wǎng)絡(luò)數(shù)據(jù)挖掘?qū)γ總€(gè)用戶的訪問行為、頻度、和內(nèi)容等進(jìn)行分析，能提取出每個(gè)用戶的特征，給每個(gè)用戶個(gè)性化的界面，提供個(gè)性化的Web信息服務(wù)。

本文以中國(guó)知網(wǎng)（CNKI）總庫為統(tǒng)計(jì)源，以主題“We數(shù)據(jù)挖掘”、“網(wǎng)絡(luò)數(shù)據(jù)挖掘”搜索到國(guó)內(nèi)近六年的論文數(shù)量，從中可以看出相關(guān)領(lǐng)域的研究從2007年開始呈逐年上升趨勢(shì)，2009年達(dá)到峰值后，逐年有所下降。具體數(shù)據(jù)如表2所示：

根據(jù)對(duì)這些文章內(nèi)容的分析，研究網(wǎng)絡(luò)數(shù)據(jù)挖掘算法及其實(shí)現(xiàn)的占大多數(shù)，國(guó)內(nèi)關(guān)于網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館的應(yīng)用研究不多，大多是作為電子商務(wù)中數(shù)據(jù)挖掘研究的一部分。網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館中的應(yīng)用主要表現(xiàn)在以下幾個(gè)方面：

（1）圖書推薦系統(tǒng)。這類系統(tǒng)主要通過日志挖掘讀者的借閱習(xí)慣，推測(cè)讀者的閱讀需求，從而為不同興趣的讀者提供相應(yīng)的推薦內(nèi)容。這種個(gè)性化推薦系統(tǒng)能夠較好地把握讀者需求，通過聚類和關(guān)聯(lián)規(guī)則為讀者推薦借閱過的相似圖書或可能需要的其他文獻(xiàn)。但它的缺點(diǎn)在于，推薦的相似圖書，讀者已經(jīng)借閱過，再借閱的幾率不大。因此，這個(gè)研究的重點(diǎn)和難點(diǎn)在使用的挖掘算法上2。

（2）網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)。現(xiàn)代圖書館越來越重視讀者的學(xué)習(xí)需求，從而推出各種學(xué)習(xí)服務(wù)3。這類應(yīng)用主要是針對(duì)網(wǎng)絡(luò)學(xué)習(xí)中的學(xué)習(xí)資源的挖掘。因?yàn)樵趫D書館提供的虛擬學(xué)習(xí)平臺(tái)中，資源是龐大的，而讀者的精力有限，同時(shí)每個(gè)人的興趣不同，需要對(duì)不同的讀者組織不同的教育資源。而網(wǎng)絡(luò)數(shù)據(jù)挖掘在其中所起的重要作用就是對(duì)讀者的借閱和瀏覽行為進(jìn)行挖掘分析，根據(jù)分析結(jié)果為讀者匹配學(xué)習(xí)資源。

（3）文獻(xiàn)檢索系統(tǒng)。網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)也常見于文獻(xiàn)檢索系統(tǒng)的應(yīng)用中，圖書館資源包含大量的文本、期刊、視頻等。讀者常常需要通過檢索才能獲取自己想要的信息，使用網(wǎng)絡(luò)數(shù)據(jù)挖掘也是為讀者提供高效獲取信息的方式。

由以上分析看出，網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館中應(yīng)用的主要目的就是為讀者找到所需資源，滿足讀者的個(gè)性化需求。下面我們就針對(duì)網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館個(gè)性化推薦中的應(yīng)用進(jìn)行探討。

1、圖書館個(gè)性化推薦常用分析方法

1.1聚類算法

通常說來，許多圖書館的讀者建模方法是基于統(tǒng)計(jì)的，即對(duì)所有讀者的統(tǒng)計(jì)數(shù)據(jù)（比如基于平均值）進(jìn)行分析。這樣的后果是對(duì)讀者的個(gè)性化行為視而不見，影響了讀者專業(yè)性和個(gè)性化需求，忽略了隱含的讀者信息的價(jià)值。而讀者聚類建模，則是把一類讀者聚集起來，分析他們的特性并對(duì)這類讀者建模，在建模質(zhì)量相同或接近的條件下，聚類建模所需的數(shù)據(jù)量將遠(yuǎn)遠(yuǎn)低于對(duì)單個(gè)讀者建模的數(shù)據(jù)量，因?yàn)榉诸愔械拿總€(gè)讀者（知識(shí)背景和生活閱歷貢獻(xiàn)具有很大的相似度）都貢獻(xiàn)了其數(shù)據(jù)。常用聚類算法如表3。

1.2 社會(huì)網(wǎng)絡(luò)分析

社會(huì)網(wǎng)絡(luò)分析已經(jīng)有相當(dāng)長(zhǎng)的一段歷史了，近60年來，相關(guān)研究人員做了大量的研究，由Brin和Page等人提出的PageRank算法，以及由Kleinberg說提出來的HITS算法開創(chuàng)了將社會(huì)網(wǎng)絡(luò)研究應(yīng)用在Web范疇的先河。這兩種算法都來源于社會(huì)網(wǎng)絡(luò)分析，都利用了網(wǎng)頁的超鏈接結(jié)構(gòu)并依據(jù)網(wǎng)頁的“威望”或者“權(quán)威”級(jí)別來對(duì)網(wǎng)頁進(jìn)行分級(jí)排序。這在搜索引擎中得到了廣泛的運(yùn)用。圖書館也同樣存在著這樣的社會(huì)網(wǎng)絡(luò)關(guān)系，這種關(guān)系主要通過讀者瀏覽和獲取文獻(xiàn)行為體現(xiàn)。這種關(guān)系和活動(dòng)可以用網(wǎng)絡(luò)或圖來表示，其中，每一個(gè)頂點(diǎn)（結(jié)點(diǎn)）用來表示一個(gè)讀者，而一條邊的連接用來表示兩個(gè)讀者之間的關(guān)系。利用網(wǎng)絡(luò)圖我們可以研究該網(wǎng)絡(luò)的結(jié)構(gòu)特征，以及每個(gè)讀者威望性、中心性等屬性。同時(shí)從中我們也可以找到各種類型的子圖，即社區(qū)。

2、基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的圖書館個(gè)性化推薦分析

2.1基于K-means聚類推薦分析

圖書館讀者聚類可以通過兩種方式進(jìn)行聚類，建立二維推薦模型，即：查詢聚類和借閱聚類。在此，只要實(shí)現(xiàn)查詢信息和借閱信息的高效率、高準(zhǔn)確率的自動(dòng)分類，然后根據(jù)讀者興趣模型匹配，就可以完成其推薦過程。自動(dòng)分類信息可以采用K-均值聚類算法實(shí)現(xiàn)，并根據(jù)圖書館相關(guān)信息結(jié)構(gòu)的特點(diǎn)，對(duì)算法本身加以改進(jìn)。具體流程如圖1。

2.2 基于PageRank社會(huì)網(wǎng)絡(luò)分析

在圖書館借閱場(chǎng)景下，讀者瀏覽和借閱行為反應(yīng)了讀者的需求。PageRank算法關(guān)鍵在于測(cè)度每個(gè)對(duì)象的隨機(jī)訪問概率。我們假定讀者借閱史就是讀者推薦書目單，反應(yīng)了讀者對(duì)于圖書的認(rèn)可程度。在此，我們可以把訪問概率轉(zhuǎn)化為讀者推薦書目單的緊密程度，因此，問題轉(zhuǎn)化為求讀者推薦書目單的緊密程度，然后通過PageRank算法，求出讀者推薦書目單的權(quán)威度排名，進(jìn)而推薦給興趣模型相似的讀者。

我們用dist（j， t）表示兩個(gè)讀者推薦書目單關(guān)系程度，使用其文本相似度來度量，進(jìn)而產(chǎn)生新的PageRank2算法。對(duì)于每個(gè)讀者推薦書目單，其重要度PR2（i）可定義為：

其中DIS（j，i）定義為：

在實(shí)際應(yīng)用中，由于某些讀者推薦書目單可能與其他讀者推薦書目單值為0，故將公式2調(diào)整為：

其中a為衰減系數(shù)，設(shè)定為0和1之間，其本質(zhì)是為了消除孤立讀者，給每個(gè)讀者增加一條指向所有其它讀者的鏈接，并且給予每個(gè)鏈接一個(gè)由參數(shù)a控制的轉(zhuǎn)移概率，在這里我們沿用PageRank中的取值a=0.8570。

3、結(jié)語

本文主要探討了網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館中的應(yīng)用問題，并對(duì)于社會(huì)網(wǎng)絡(luò)分析的應(yīng)用進(jìn)行了較為深入的分析，提出了具體算法。網(wǎng)絡(luò)數(shù)據(jù)挖掘廣泛應(yīng)用于互聯(lián)網(wǎng)。隨著數(shù)字圖書館的不斷興起，其在圖書館領(lǐng)域的應(yīng)用將更加廣泛4。但是，圖書館相對(duì)封閉的信息環(huán)境制約著網(wǎng)絡(luò)數(shù)據(jù)挖掘的應(yīng)用。相信隨著Web2.0和讀者個(gè)性化需求不斷得到重視5，數(shù)字圖書館技術(shù)的不斷發(fā)展，網(wǎng)絡(luò)數(shù)據(jù)挖掘?qū)?huì)發(fā)揮更加重要的作用。

參考文獻(xiàn)

[1] 馬費(fèi)成，王曉光.信息資源管理研究及國(guó)際前沿[J].情報(bào)學(xué)研究進(jìn)展.武漢大學(xué)出版社，2007.

[2] 劉曉忠.數(shù)據(jù)挖掘技術(shù)在圖書館建設(shè)中的應(yīng)用[J].硅谷，2012（6）.

[3]夏南強(qiáng)，張紅梅.基于數(shù)據(jù)挖掘的數(shù)字圖書館個(gè)性化服務(wù)[J].圖書館學(xué)研究， 2006，（1）：32-34.

[4]李卓玲，王健.基于Web挖掘個(gè)性化服務(wù)系統(tǒng)的研究與實(shí)現(xiàn)[J].信息技術(shù)，2007（10）..

[5] 王偉軍，孫晶.WEB2.0研究與應(yīng)用綜述[J].情報(bào)科學(xué)，2007（12）.

中國(guó)電子商情2013年16期

中國(guó)電子商情的其它文章: 淺析室內(nèi)環(huán)境污染的危害及其對(duì)策; 建筑電氣節(jié)能探討; 淺析我國(guó)生態(tài)環(huán)境法制建設(shè)現(xiàn)狀及其對(duì)策; PEG/PPG共聚醚酯表面張力與接觸角的研究; 淺析土木工程現(xiàn)狀及發(fā)展趨勢(shì); 基于php的網(wǎng)絡(luò)信息管理系統(tǒng)在醫(yī)院信息管理中應(yīng)用前景分析