摘要:高校圖書(shū)館的數(shù)字化系統(tǒng)中,積累了大量的讀者對(duì)資源的歷史訪問(wèn)數(shù)據(jù)。這些數(shù)據(jù)背后隱藏著許多重要的信息,通過(guò)對(duì)其進(jìn)行更高層次的分析,便能更好地利用這些數(shù)據(jù)為讀者服務(wù)。文章在描述數(shù)據(jù)挖掘技術(shù)與方法的基礎(chǔ)上,結(jié)合目前高校的實(shí)際情況,探討了數(shù)據(jù)挖掘在數(shù)字圖書(shū)館中的應(yīng)用空間以及其所具有的應(yīng)用價(jià)值,就如何應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行了研究,并給出了利用數(shù)據(jù)挖掘技術(shù)在高校圖書(shū)館中優(yōu)化館藏資源和提供讀者個(gè)性化服務(wù)的實(shí)現(xiàn)過(guò)程及方法。
關(guān)鍵詞:數(shù)據(jù)挖掘;圖書(shū)館;關(guān)聯(lián)規(guī)則;館藏資源;個(gè)性化服務(wù)
中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2008)34-1547-02
The Application of Data Mining in College Digital Library
GONG Yu-hua, XING Nai-sheng
(Technology Services of Library, University of Shanghai for Science and Technology, Shanghai 200093, China)
Abstract: There are many data of the user logged the collections in the digital system of college library. These data hide much important information. According to the analysis,librarian can provide better reader services. This article introduces data mining technology and method , and dicusses the practical space and value of data mining in college library, and dicusses how to apply data mining technology in light of actual situation in college library. And then the procedure and method on how to optimize library construction and provide personalized service in the library by applying data mining technology are given.
Key words: data mining; library; association rule; library construction; personalized service
1 引言
隨著圖書(shū)館數(shù)字化程度與數(shù)字圖書(shū)館建設(shè)的不斷發(fā)展,圖書(shū)館要處理和提供的信息更多、更新、更廣泛、更復(fù)雜。在圖書(shū)館現(xiàn)有的數(shù)字化系統(tǒng)中每年、每月、每天產(chǎn)生著大量的統(tǒng)計(jì)數(shù)據(jù)和表單,它們對(duì)圖書(shū)館館藏建設(shè)等業(yè)務(wù)有著很強(qiáng)的指導(dǎo)作用。但快速增長(zhǎng)的、過(guò)多的數(shù)據(jù)收集往往會(huì)變成“數(shù)據(jù)墳?zāi)埂保テ渲笇?dǎo)價(jià)值。為了避免陷入“數(shù)據(jù)豐富,但信息貧乏”的局面,圖書(shū)館有必要增強(qiáng)對(duì)信息的處理能力以及對(duì)信息資源的組織能力。應(yīng)用數(shù)據(jù)挖掘技術(shù)可以對(duì)海量信息進(jìn)行深層次的開(kāi)發(fā),提取表面上龐雜無(wú)序的信息的內(nèi)在聯(lián)系,從而優(yōu)化圖書(shū)館資源建設(shè)以及推動(dòng)讀者個(gè)性化服務(wù)。
2 數(shù)據(jù)挖掘技術(shù)
2.1 數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘是近年來(lái)隨著數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的發(fā)展而出現(xiàn)的一種全新的信息技術(shù)。根據(jù)W. J. Frawley等人的定義,數(shù)據(jù)挖掘( Data mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道、但又是潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘和數(shù)據(jù)分析最大的區(qū)別在于,數(shù)據(jù)統(tǒng)計(jì)分析是通過(guò)一定量的數(shù)據(jù)來(lái)驗(yàn)證事先的假設(shè),而數(shù)據(jù)挖掘則是從大量的規(guī)則的數(shù)據(jù)當(dāng)中通過(guò)科學(xué)的方法來(lái)發(fā)現(xiàn)其中的關(guān)聯(lián),從而得出某種“出人意料”的結(jié)論。
2.2 數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘方法有多種,其中比較典型的有分類分析、聚類分析、關(guān)聯(lián)分析、序列模式分析、可視化、偏差分析、粗糙集和模糊集理論等。下面分別介紹幾類重要的數(shù)據(jù)挖掘方法。
2.2.1 分類
分類就是找出一個(gè)類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來(lái)構(gòu)造模型, 一般用規(guī)則或決策樹(shù)模式表示。分類是利用訓(xùn)練數(shù)據(jù)集通過(guò)一定的算法而求得分類規(guī)則。分類可被用于規(guī)則描述和預(yù)測(cè)。
2.2.2 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘研究的一個(gè)重要分支,關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的眾多知識(shí)類型中最為典型的一種。關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)存在于數(shù)據(jù)庫(kù)中的項(xiàng)目或?qū)傩蚤g的有趣關(guān)系,這些關(guān)系是預(yù)先未知的和被隱藏的,也就是說(shuō)不能通過(guò)數(shù)據(jù)庫(kù)的邏輯操作(如:表的聯(lián)接)或統(tǒng)計(jì)的方法得出。這說(shuō)明它們不是基于數(shù)據(jù)自身的固有屬性(例如函數(shù)依賴關(guān)系),而是基于數(shù)據(jù)項(xiàng)目的同時(shí)出現(xiàn)特征,所發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則可以輔助人們進(jìn)行市場(chǎng)運(yùn)作,決策支持及商業(yè)管理,網(wǎng)站設(shè)計(jì)等。關(guān)聯(lián)規(guī)則是由R. Agrawal等人首先提出的,它的一個(gè)典型例子就是:“90%的客戶在購(gòu)買面包的同時(shí)也會(huì)購(gòu)買牛奶”,其直觀意義為顧客在購(gòu)買某些商品的時(shí)候有多大的傾向會(huì)購(gòu)買另外一些商品。Apriori算法是挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項(xiàng)集的基本算法,也是最著名的關(guān)聯(lián)規(guī)則挖掘算法之一。Apriori算法就是根據(jù)有關(guān)頻繁項(xiàng)集特性的先驗(yàn)知識(shí)(prior knowledge)而命名的。該算法利用了一個(gè)層次順序搜索的循環(huán)方法來(lái)完成頻繁項(xiàng)集的挖掘工作。
2.2.3 聚類
聚類是將數(shù)據(jù)集劃分為多個(gè)類,使得在同一類中的數(shù)據(jù)之間有較高的相似度,而不同類中的數(shù)據(jù)差別盡可能大。聚類分析作為統(tǒng)計(jì)學(xué)的一個(gè)分支,已經(jīng)被廣泛研究了許多年,主要集中于基于距離的聚類分析。聚類分析是無(wú)指導(dǎo)學(xué)習(xí)。
3 數(shù)據(jù)挖掘在數(shù)字化圖書(shū)館中的應(yīng)用
3.1 館藏資源建設(shè)
高校圖書(shū)館每年的文獻(xiàn)購(gòu)置費(fèi)有限,如何利用有限的經(jīng)費(fèi)來(lái)科學(xué)地采集各門學(xué)科相關(guān)的專業(yè)信息,使采集經(jīng)費(fèi)最大程度地發(fā)揮效益,一直是采訪上作的難點(diǎn)。此外,各種文獻(xiàn)存儲(chǔ)空間也是有限的。館藏分布,包括傳統(tǒng)文獻(xiàn)、多媒體文獻(xiàn)的擺放位置、電子文獻(xiàn)索引在服務(wù)器上的組織等,應(yīng)如何調(diào)整才能實(shí)現(xiàn)其最大利用率和最高效率,也一直是圖書(shū)館工作中的一個(gè)難題。在圖書(shū)館的數(shù)字化系統(tǒng)中,對(duì)書(shū)目的館藏信息、文獻(xiàn)的流通情況、檢索需求信息有著詳細(xì)的記錄。利用這些信息可以使用關(guān)聯(lián)挖掘等技術(shù)挖掘文獻(xiàn)的使用規(guī)律、需求動(dòng)向,從而指導(dǎo)圖書(shū)館采購(gòu),調(diào)整館藏結(jié)構(gòu)、排架布局和各圖書(shū)館分部間的文獻(xiàn)分布。
3.2 讀者個(gè)性化服務(wù)
隨著讀者信息水平和信息要求的不斷提高,向讀者提供更主動(dòng)的和個(gè)性化的信息服務(wù)被擺到圖書(shū)館的面前。圖書(shū)館要謀求自身的發(fā)展,傳統(tǒng)業(yè)務(wù)固步于傳統(tǒng)方法是不可取的,必須在原有工作基礎(chǔ)上不斷拓展,不斷滿足讀者新的更復(fù)雜的需求。圖書(shū)館個(gè)性化信息服務(wù)主要是指圖書(shū)館通過(guò)對(duì)讀者的個(gè)性、借閱行為和習(xí)慣等進(jìn)行跟蹤和分析研究,運(yùn)用相關(guān)的技術(shù),找出其中的規(guī)律性,從而變被動(dòng)為主動(dòng),向讀者提供其可能需要的信息和服務(wù)。這一服務(wù)是目前圖書(shū)館領(lǐng)域中一項(xiàng)非常有意義的研究?jī)?nèi)容。在用戶利用圖書(shū)館的資源過(guò)程中會(huì)留下諸如讀者基本信息、借閱歷史、檢索歷史等有價(jià)值的大量信息,這正是獲取用戶信息需求、用戶分類、需求聚類的寶貴數(shù)據(jù),獲取這些信息就可以據(jù)此提供個(gè)性化服務(wù),即根據(jù)用戶興趣文件或興趣規(guī)則主動(dòng)向用戶提供有價(jià)值的資源。
4 數(shù)據(jù)挖掘在數(shù)字化圖書(shū)館中的實(shí)現(xiàn)
數(shù)據(jù)挖掘技術(shù)在圖書(shū)館中的實(shí)現(xiàn)可以優(yōu)化圖書(shū)館館藏資源,也為圖書(shū)館展開(kāi)個(gè)性化服務(wù)提供了技術(shù)支持。應(yīng)用數(shù)據(jù)挖掘技術(shù)挖掘圖書(shū)館數(shù)據(jù)庫(kù)中數(shù)據(jù)的基本過(guò)程如圖1所示。
4.1 收集原始數(shù)據(jù)
圖書(shū)館中的業(yè)務(wù)數(shù)據(jù)記錄主要有以下四種:
1) 用戶基本信息記錄:主要包括讀者證件號(hào)、姓名、性別、專業(yè)、借閱等級(jí)、聯(lián)系方式等。
2) 借閱歷史信息記錄:這部分信息是利用數(shù)據(jù)挖掘技術(shù)獲取圖書(shū)館文獻(xiàn)利用狀況的關(guān)鍵,通過(guò)對(duì)它們的統(tǒng)計(jì)、歸類、分析有助于了解書(shū)刊的使用情況并進(jìn)行預(yù)測(cè)分析。主要包括借閱記錄號(hào)、書(shū)名、索書(shū)號(hào)、借閱者證件號(hào)、借閱時(shí)間、歸還時(shí)間等。
3) 檢索歷史記錄:這部分?jǐn)?shù)據(jù)是了解用戶需求的絕佳途徑,其主要內(nèi)容包括用戶編號(hào)、檢索字段、檢索時(shí)間。由于對(duì)于電子資源來(lái)說(shuō)很多情況下是匿名,此時(shí)可以利用IP地址代替用戶標(biāo)識(shí)。
4)書(shū)目信息:主要包括書(shū)名、索書(shū)號(hào)、排架號(hào)、作者、出版社、出版日期、購(gòu)入日期等。
4.2 數(shù)據(jù)預(yù)處理和數(shù)據(jù)轉(zhuǎn)換
由于最初的數(shù)據(jù)是從圖書(shū)館管理系統(tǒng)中導(dǎo)出。因此,會(huì)產(chǎn)生大量的“噪聲”數(shù)據(jù)。因此,我們要做的首先就是數(shù)據(jù)的清理和預(yù)處理,對(duì)收集到的數(shù)據(jù)進(jìn)行加工處理和組織重構(gòu),如檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、去除噪聲或刪除無(wú)效數(shù)據(jù)、填補(bǔ)丟失的域、去除空白數(shù)據(jù)域、考慮時(shí)間順序和數(shù)據(jù)變化,找到數(shù)據(jù)的特征,用維變換或轉(zhuǎn)換方法減少無(wú)效變量的數(shù)目,數(shù)據(jù)類型的轉(zhuǎn)換等,構(gòu)建相關(guān)主題的數(shù)據(jù)倉(cāng)庫(kù),為下一步的數(shù)據(jù)挖掘過(guò)程提供基礎(chǔ)平臺(tái),做好前期準(zhǔn)備。
首先掃描整個(gè)數(shù)據(jù)集,獲取所有屬性的不同值。由于數(shù)據(jù)量龐大,可以先刪除一些無(wú)法量化的屬性,比如證件號(hào)、姓名、聯(lián)系方式等屬性。然后在剩余屬性中抽取樣本進(jìn)行量化,比如將年齡量化為各個(gè)不同的年齡段、性別量化為男、女兩個(gè)值,專業(yè)量化為文、理、工、商等。
4.3 挖掘規(guī)律
4.3.1 優(yōu)化館藏資源
圖書(shū)館的排架需科學(xué)安排,否則會(huì)出現(xiàn)某類書(shū)籍大量堆積無(wú)法擺放,某類書(shū)籍排架卻十分空曠。所以通過(guò)數(shù)據(jù)挖掘?qū)v史數(shù)據(jù)的分析,獲取平均上架數(shù)量對(duì)于圖書(shū)館的優(yōu)化館藏排架結(jié)構(gòu)十分重要。
因?yàn)槲墨I(xiàn)使用的量是動(dòng)態(tài)變化的,如果需要實(shí)時(shí)統(tǒng)計(jì),那是非常耗時(shí)且具有很大工作量的,顯然并不現(xiàn)實(shí)。因此,可以通過(guò)利用往年相同時(shí)期的流通數(shù)量變化情況,特別是在高校圖書(shū)館,由于院系課程進(jìn)度的原因,會(huì)出現(xiàn)周期性學(xué)生大量借閱同類書(shū)籍文獻(xiàn)的現(xiàn)象,利用這一已知規(guī)律,可以很方便地來(lái)推算當(dāng)前流通數(shù)量。然后利用使用回歸分析、時(shí)間序列分析的方法來(lái)獲取這些規(guī)律。
如果曲線歷來(lái)比較平穩(wěn),說(shuō)明這類書(shū)籍的在館率比較穩(wěn)定,而如果偶然出現(xiàn)一次高峰,則可以通過(guò)關(guān)聯(lián)挖掘獲取其當(dāng)時(shí)借閱量突增的原因。首先利用類SQL的挖掘語(yǔ)句從借閱歷史信息記錄中獲取某一時(shí)間段中借閱量大增的圖書(shū)主題及其數(shù)量,例如:select 圖書(shū)主題 count(*) from 借閱歷史表 where 借閱時(shí)間段=X group by 圖書(shū)主題 having count (*)>Y。然后從同樣的數(shù)據(jù)集中列出所有該圖書(shū)主題的借閱條目。通過(guò)關(guān)聯(lián)挖掘,首先獲取主題與時(shí)間屬性的關(guān)聯(lián)度,包括支持度support( A=>B}=P(A UB),置信度confidence( A=> B) = P(A|B) o其中A為某一圖書(shū)主題, B為某一借閱時(shí)間段。通過(guò)我們事先設(shè)定的閾值可以獲得所有的頻繁借閱集,然后再在頻繁借閱集中通過(guò)關(guān)聯(lián)挖掘獲得該主題文獻(xiàn)與有關(guān)院系或單位間的關(guān)聯(lián)度,以獲取是哪些用戶大量借閱了該類書(shū)籍并制定對(duì)策。
4.3.2 提供個(gè)性化服務(wù)
我們這里所說(shuō)的圖書(shū)館個(gè)性化信息服務(wù)主要是指圖書(shū)館通過(guò)對(duì)讀者的個(gè)性、借閱行為和習(xí)慣等進(jìn)行跟蹤和分析研究,運(yùn)用相關(guān)的技術(shù),找出其中的規(guī)律性,從而變被動(dòng)為主動(dòng),向讀者提供其可能需要的信息和服務(wù)。(下轉(zhuǎn)第1557頁(yè))
(上接第1548頁(yè))
正如前面所說(shuō)的,用戶在利用圖書(shū)館的資源過(guò)程中會(huì)留下大量信息,我們可以使用關(guān)聯(lián)挖掘技術(shù)對(duì)這些歷史數(shù)據(jù)進(jìn)行分析,從中發(fā)現(xiàn)讀者對(duì)資源的借閱模式。例如,Apriori算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則可能會(huì)發(fā)現(xiàn)有多人比例的讀者借閱了圖書(shū)A的同時(shí)又借閱了圖書(shū)B(niǎo)。如果這個(gè)比例高,說(shuō)明圖書(shū)A和B之間有強(qiáng)大的關(guān)聯(lián)規(guī)則,就可以向來(lái)借閱者推薦和他借的有關(guān)的書(shū)。例如,在通常情況下,讀者在檢索一本書(shū)的時(shí)候,只查找到這本書(shū)的位置,而通過(guò)對(duì)讀者借閱記錄進(jìn)行數(shù)據(jù)挖掘,可以分析出不同類型讀者所借書(shū)目的集合。當(dāng)讀者再次借一本書(shū)的時(shí)候,系統(tǒng)就可以根據(jù)挖掘的結(jié)果自動(dòng)為讀者提供與這本書(shū)相關(guān)種類的其他書(shū)籍,從而指導(dǎo)圖書(shū)館的讀者服務(wù)工作向個(gè)性化信息服務(wù)的層面發(fā)展。
此外,關(guān)聯(lián)規(guī)則生成還可用于找出在某次服務(wù)器會(huì)話中最經(jīng)常出現(xiàn)的相關(guān)網(wǎng)頁(yè)。在使用挖掘中,發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則往往是指支持度超過(guò)預(yù)設(shè)訪問(wèn)閾值的組網(wǎng)頁(yè),這些網(wǎng)頁(yè)之間可能并沒(méi)有超鏈接直接訪問(wèn)。通過(guò)挖掘出這些網(wǎng)頁(yè),可以在讀者在網(wǎng)上瀏覽某本書(shū)的時(shí)候提供推薦相關(guān)書(shū)目信息頁(yè)面的個(gè)性化服務(wù)。
5 結(jié)束語(yǔ)
隨著數(shù)據(jù)挖掘技術(shù)進(jìn)一步成熟,在圖書(shū)館中采用這項(xiàng)技術(shù)會(huì)對(duì)圖書(shū)館的讀者服務(wù)、資源建設(shè)、以至領(lǐng)導(dǎo)的決策管理起到巨大的推動(dòng)作用,同時(shí)對(duì)于傳統(tǒng)圖書(shū)館和數(shù)字圖書(shū)館的更好的融合提供了科學(xué)的方法和手段。隨著數(shù)據(jù)挖掘技術(shù)在高校圖書(shū)館的應(yīng)用,使信息資源得以進(jìn)一步的優(yōu)化和豐富,信息服務(wù)的質(zhì)量發(fā)生重大壇躍,范圍將進(jìn)一步拓展,從而為高校教學(xué)科研提供質(zhì)量更好范圍更廣的信息服務(wù)。
參考文獻(xiàn):
[1] Immon W H.數(shù)據(jù)倉(cāng)庫(kù)[M].王志海,譯.北京:機(jī)械工業(yè)出版社,2000.
[2] 朱明.數(shù)據(jù)挖掘[M].合肥:中國(guó)科學(xué)技術(shù)大學(xué)出版社,2002.
[3] 朱曉華.淺析數(shù)據(jù)挖掘技術(shù)在圖書(shū)館自動(dòng)化中的應(yīng)用[J].圖書(shū)館學(xué)研究,2002(5):41-42.
[4] 何少卓.淺談數(shù)據(jù)挖掘及其在圖書(shū)館的應(yīng)用[J].圖書(shū)館界,2004(3):52-54.
[5] 王燕.數(shù)據(jù)挖掘在數(shù)字圖書(shū)館中的應(yīng)用[J].情報(bào)科學(xué),2003(2):211-214.
[6] 宋麗哲,牛振東,宋瀚濤,等.數(shù)字圖書(shū)館的個(gè)性化服務(wù)[J].計(jì)算機(jī)工程,2004(2):46-48.
[7] 向陽(yáng),張巍.基于事務(wù)數(shù)據(jù)庫(kù)的關(guān)聯(lián)規(guī)則采掘算法研究[J].山東大學(xué)學(xué)報(bào):自然科學(xué)版,2001,20(2):55-59.
[8] 宋麗哲,牛振東,宋瀚濤,等.數(shù)字圖書(shū)館的個(gè)性化服務(wù)[J].計(jì)算機(jī)工程,2004(2):46-48.