引言
討論如何在圖書館個(gè)性化推薦中應(yīng)用網(wǎng)絡(luò)數(shù)據(jù)挖掘,并具體對(duì)社會(huì)網(wǎng)絡(luò)分析的應(yīng)用進(jìn)行了深
入分析,提出了具體算法。
網(wǎng)絡(luò)數(shù)據(jù)挖掘又稱Web數(shù)據(jù)挖掘,是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息處理中的應(yīng)用,從與網(wǎng)絡(luò)相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息,是從Web網(wǎng)站的數(shù)據(jù)中發(fā)掘關(guān)系和規(guī)則。其挖掘?qū)ο笫谴罅俊愘|(zhì)、分布的Web文檔,可以對(duì)數(shù)據(jù)庫、Web服務(wù)器上的日志、讀者信息等數(shù)據(jù)展開挖掘工作。同時(shí),由于Web在邏輯上是一個(gè)由文檔節(jié)點(diǎn)和超鏈接構(gòu)成的圖,因此Web挖掘所得到的模式可能是關(guān)于Web內(nèi)容的,也可能是關(guān)于Web結(jié)構(gòu)的,或者是關(guān)于用戶行為模式的1。通過網(wǎng)絡(luò)數(shù)據(jù)挖掘?qū)γ總€(gè)用戶的訪問行為、頻度、和內(nèi)容等進(jìn)行分析,能提取出每個(gè)用戶的特征,給每個(gè)用戶個(gè)性化的界面,提供個(gè)性化的Web信息服務(wù)。
本文以中國(guó)知網(wǎng)(CNKI)總庫為統(tǒng)計(jì)源,以主題“We數(shù)據(jù)挖掘”、“網(wǎng)絡(luò)數(shù)據(jù)挖掘”搜索到國(guó)內(nèi)近六年的論文數(shù)量,從中可以看出相關(guān)領(lǐng)域的研究從2007年開始呈逐年上升趨勢(shì),2009年達(dá)到峰值后,逐年有所下降。具體數(shù)據(jù)如表2所示:
根據(jù)對(duì)這些文章內(nèi)容的分析,研究網(wǎng)絡(luò)數(shù)據(jù)挖掘算法及其實(shí)現(xiàn)的占大多數(shù),國(guó)內(nèi)關(guān)于網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館的應(yīng)用研究不多,大多是作為電子商務(wù)中數(shù)據(jù)挖掘研究的一部分。網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館中的應(yīng)用主要表現(xiàn)在以下幾個(gè)方面:
(1)圖書推薦系統(tǒng)。這類系統(tǒng)主要通過日志挖掘讀者的借閱習(xí)慣,推測(cè)讀者的閱讀需求,從而為不同興趣的讀者提供相應(yīng)的推薦內(nèi)容。這種個(gè)性化推薦系統(tǒng)能夠較好地把握讀者需求,通過聚類和關(guān)聯(lián)規(guī)則為讀者推薦借閱過的相似圖書或可能需要的其他文獻(xiàn)。但它的缺點(diǎn)在于,推薦的相似圖書,讀者已經(jīng)借閱過,再借閱的幾率不大。因此,這個(gè)研究的重點(diǎn)和難點(diǎn)在使用的挖掘算法上2。
(2)網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)。現(xiàn)代圖書館越來越重視讀者的學(xué)習(xí)需求,從而推出各種學(xué)習(xí)服務(wù)3。這類應(yīng)用主要是針對(duì)網(wǎng)絡(luò)學(xué)習(xí)中的學(xué)習(xí)資源的挖掘。因?yàn)樵趫D書館提供的虛擬學(xué)習(xí)平臺(tái)中,資源是龐大的,而讀者的精力有限,同時(shí)每個(gè)人的興趣不同,需要對(duì)不同的讀者組織不同的教育資源。而網(wǎng)絡(luò)數(shù)據(jù)挖掘在其中所起的重要作用就是對(duì)讀者的借閱和瀏覽行為進(jìn)行挖掘分析,根據(jù)分析結(jié)果為讀者匹配學(xué)習(xí)資源。
(3)文獻(xiàn)檢索系統(tǒng)。網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)也常見于文獻(xiàn)檢索系統(tǒng)的應(yīng)用中,圖書館資源包含大量的文本、期刊、視頻等。讀者常常需要通過檢索才能獲取自己想要的信息,使用網(wǎng)絡(luò)數(shù)據(jù)挖掘也是為讀者提供高效獲取信息的方式。
由以上分析看出,網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館中應(yīng)用的主要目的就是為讀者找到所需資源,滿足讀者的個(gè)性化需求。下面我們就針對(duì)網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館個(gè)性化推薦中的應(yīng)用進(jìn)行探討。
1、圖書館個(gè)性化推薦常用分析方法
1.1聚類算法
通常說來,許多圖書館的讀者建模方法是基于統(tǒng)計(jì)的,即對(duì)所有讀者的統(tǒng)計(jì)數(shù)據(jù)(比如基于平均值)進(jìn)行分析。這樣的后果是對(duì)讀者的個(gè)性化行為視而不見,影響了讀者專業(yè)性和個(gè)性化需求,忽略了隱含的讀者信息的價(jià)值。而讀者聚類建模,則是把一類讀者聚集起來,分析他們的特性并對(duì)這類讀者建模,在建模質(zhì)量相同或接近的條件下,聚類建模所需的數(shù)據(jù)量將遠(yuǎn)遠(yuǎn)低于對(duì)單個(gè)讀者建模的數(shù)據(jù)量,因?yàn)榉诸愔械拿總€(gè)讀者(知識(shí)背景和生活閱歷貢獻(xiàn)具有很大的相似度)都貢獻(xiàn)了其數(shù)據(jù)。常用聚類算法如表3。
1.2 社會(huì)網(wǎng)絡(luò)分析
社會(huì)網(wǎng)絡(luò)分析已經(jīng)有相當(dāng)長(zhǎng)的一段歷史了,近60年來,相關(guān)研究人員做了大量的研究,由Brin和Page等人提出的PageRank算法,以及由Kleinberg說提出來的HITS算法開創(chuàng)了將社會(huì)網(wǎng)絡(luò)研究應(yīng)用在Web范疇的先河。這兩種算法都來源于社會(huì)網(wǎng)絡(luò)分析,都利用了網(wǎng)頁的超鏈接結(jié)構(gòu)并依據(jù)網(wǎng)頁的“威望”或者“權(quán)威”級(jí)別來對(duì)網(wǎng)頁進(jìn)行分級(jí)排序。這在搜索引擎中得到了廣泛的運(yùn)用。圖書館也同樣存在著這樣的社會(huì)網(wǎng)絡(luò)關(guān)系,這種關(guān)系主要通過讀者瀏覽和獲取文獻(xiàn)行為體現(xiàn)。這種關(guān)系和活動(dòng)可以用網(wǎng)絡(luò)或圖來表示,其中,每一個(gè)頂點(diǎn)(結(jié)點(diǎn))用來表示一個(gè)讀者,而一條邊的連接用來表示兩個(gè)讀者之間的關(guān)系。利用網(wǎng)絡(luò)圖我們可以研究該網(wǎng)絡(luò)的結(jié)構(gòu)特征,以及每個(gè)讀者威望性、中心性等屬性。同時(shí)從中我們也可以找到各種類型的子圖,即社區(qū)。
2、基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的圖書館個(gè)性化推薦分析
2.1基于K-means聚類推薦分析
圖書館讀者聚類可以通過兩種方式進(jìn)行聚類,建立二維推薦模型,即:查詢聚類和借閱聚類。在此,只要實(shí)現(xiàn)查詢信息和借閱信息的高效率、高準(zhǔn)確率的自動(dòng)分類,然后根據(jù)讀者興趣模型匹配,就可以完成其推薦過程。自動(dòng)分類信息可以采用K-均值聚類算法實(shí)現(xiàn),并根據(jù)圖書館相關(guān)信息結(jié)構(gòu)的特點(diǎn),對(duì)算法本身加以改進(jìn)。具體流程如圖1。
2.2 基于PageRank社會(huì)網(wǎng)絡(luò)分析
在圖書館借閱場(chǎng)景下,讀者瀏覽和借閱行為反應(yīng)了讀者的需求。PageRank算法關(guān)鍵在于測(cè)度每個(gè)對(duì)象的隨機(jī)訪問概率。我們假定讀者借閱史就是讀者推薦書目單,反應(yīng)了讀者對(duì)于圖書的認(rèn)可程度。在此,我們可以把訪問概率轉(zhuǎn)化為讀者推薦書目單的緊密程度,因此,問題轉(zhuǎn)化為求讀者推薦書目單的緊密程度,然后通過PageRank算法,求出讀者推薦書目單的權(quán)威度排名,進(jìn)而推薦給興趣模型相似的讀者。
我們用dist(j, t)表示兩個(gè)讀者推薦書目單關(guān)系程度,使用其文本相似度 來度量,進(jìn)而產(chǎn)生新的PageRank2算法。對(duì)于每個(gè)讀者推薦書目單,其重要度PR2(i)可定義為:
其中DIS(j,i)定義為:
在實(shí)際應(yīng)用中,由于某些讀者推薦書目單可能與其他讀者推薦書目單 值為0,故將公式2調(diào)整為:
其中a為衰減系數(shù),設(shè)定為0和1之間,其本質(zhì)是為了消除孤立讀者,給每個(gè)讀者增加一條指向所有其它讀者的鏈接,并且給予每個(gè)鏈接一個(gè)由參數(shù)a控制的轉(zhuǎn)移概率,在這里我們沿用PageRank中的取值a=0.8570。
3、結(jié)語
本文主要探討了網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館中的應(yīng)用問題,并對(duì)于社會(huì)網(wǎng)絡(luò)分析的應(yīng)用進(jìn)行了較為深入的分析,提出了具體算法。網(wǎng)絡(luò)數(shù)據(jù)挖掘廣泛應(yīng)用于互聯(lián)網(wǎng)。隨著數(shù)字圖書館的不斷興起,其在圖書館領(lǐng)域的應(yīng)用將更加廣泛4。但是,圖書館相對(duì)封閉的信息環(huán)境制約著網(wǎng)絡(luò)數(shù)據(jù)挖掘的應(yīng)用。相信隨著Web2.0和讀者個(gè)性化需求不斷得到重視5,數(shù)字圖書館技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)挖掘?qū)?huì)發(fā)揮更加重要的作用。
參考文獻(xiàn)
[1] 馬費(fèi)成,王曉光.信息資源管理研究及國(guó)際前沿[J].情報(bào)學(xué)研究進(jìn)展.武漢大學(xué)出版社,2007.
[2] 劉曉忠.數(shù)據(jù)挖掘技術(shù)在圖書館建設(shè)中的應(yīng)用[J].硅谷,2012(6).
[3]夏南強(qiáng),張紅梅.基于數(shù)據(jù)挖掘的數(shù)字圖書館個(gè)性化服務(wù)[J].圖書館學(xué)研究, 2006, (1):32-34.
[4]李卓玲,王健.基于Web挖掘個(gè)性化服務(wù)系統(tǒng)的研究與實(shí)現(xiàn)[J].信息技術(shù),2007(10)..
[5] 王偉軍,孫晶.WEB2.0研究與應(yīng)用綜述[J].情報(bào)科學(xué),2007(12).