◆嚴(yán)春來
?
大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用研究
◆嚴(yán)春來
(攀枝花學(xué)院圖書館 四川 617000)
隨著大數(shù)據(jù)時代的到來,對海量數(shù)據(jù)的分析和處理以及提取可用信息是高校圖書館面臨的新挑戰(zhàn)。本文闡述了數(shù)據(jù)挖掘技術(shù)的內(nèi)涵和技術(shù)背景,討論了數(shù)據(jù)挖掘技術(shù)在圖書館中讀者分析、個性化服務(wù)、館藏維護(hù)與采訪、書目推薦、離線數(shù)據(jù)分析等方面的應(yīng)用。
圖書館;大數(shù)據(jù);數(shù)據(jù)挖掘
隨著網(wǎng)絡(luò)和數(shù)據(jù)庫技術(shù)的發(fā)展,快速增長的海量數(shù)據(jù)收集、存放在大量數(shù)據(jù)儲存庫中,要理解和處理他們已經(jīng)遠(yuǎn)遠(yuǎn)超出人的能力。目前大多數(shù)仍然依據(jù)傳統(tǒng)的數(shù)據(jù)分析技術(shù)來分析這些數(shù)據(jù),而呈PB級增長的海量數(shù)據(jù)堆積起來已經(jīng)形成了“數(shù)據(jù)墳?zāi)埂保瑥亩鴮?dǎo)致了“數(shù)據(jù)豐富,信息貧乏”的現(xiàn)狀,這顯然不能滿足不斷增長的社會需求。為了更好地理解和處理這些海量數(shù)據(jù),找出其中潛在的規(guī)律和聯(lián)系,以便指導(dǎo)決策,研究者們提出,知識發(fā)現(xiàn)(KDD)技術(shù)和數(shù)據(jù)挖掘(Data Mining,DM)方法可以達(dá)到這一目的。它們是強(qiáng)有力的數(shù)據(jù)處理方式,可以把海量數(shù)據(jù)轉(zhuǎn)化成有用知識信息,從而跨越了數(shù)據(jù)與知識之間的鴻溝。當(dāng)前,信息化、數(shù)字化、智慧化成為高校圖書館發(fā)展的主要方向,其職能也隨之逐漸地發(fā)生變化,除傳統(tǒng)的讀者服務(wù)和教育職能外,正在成為讀者提高、領(lǐng)導(dǎo)決策、學(xué)校發(fā)展的知識庫,如何將數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書館管理系統(tǒng),從海量讀者借閱數(shù)據(jù)信息中,發(fā)掘出其潛在的規(guī)律、關(guān)聯(lián),根據(jù)挖掘結(jié)果分析預(yù)測有關(guān)圖書的需求情況,為師生提供更好地個性化圖書服務(wù),是高校圖書館工作者在新時期所面臨的具體任務(wù)。
1.1 數(shù)據(jù)挖掘的背景
1.1.1 數(shù)據(jù)挖掘的商業(yè)背景
數(shù)據(jù)挖掘首先是需要商業(yè)環(huán)境中收集了大量數(shù)據(jù)并要求挖掘的知識是有價值的。對商業(yè)而言,有價值主要表現(xiàn)在三個方面:降低開銷;提高收入;增加股票價格。在商業(yè)運營中,數(shù)據(jù)挖掘主要用作以下四種工具:數(shù)據(jù)挖掘作為研究工具;數(shù)據(jù)挖掘提高過程控制;數(shù)據(jù)挖掘作為市場營銷工具;數(shù)據(jù)挖掘作為客戶關(guān)系管理CRM工具。
1.1.2 數(shù)據(jù)挖掘的技術(shù)背景
數(shù)據(jù)挖掘是八十年代,投資人工智能研究項目失敗后,人工智能轉(zhuǎn)入實際應(yīng)用時提出的。它是一個新興的、面向商業(yè)應(yīng)用的人工智能研究。選擇數(shù)據(jù)挖掘這一術(shù)語,表明了與統(tǒng)計、精算、長期從事預(yù)言模型的經(jīng)濟(jì)學(xué)家之間沒有技術(shù)的重疊。數(shù)據(jù)挖掘技術(shù)包括三個主要部分:算法和技術(shù)、數(shù)據(jù)、建模能力。與數(shù)據(jù)挖掘密切相關(guān)的技術(shù)包括:機(jī)器學(xué)習(xí)、統(tǒng)計、決策支持系統(tǒng)、數(shù)據(jù)倉庫、OLAP(聯(lián)機(jī)分析處理)、DataMart(數(shù)據(jù)集市)、多維數(shù)據(jù)庫等。
1.1.3 數(shù)據(jù)挖掘的社會背景
數(shù)據(jù)挖掘號稱能通過歷史數(shù)據(jù)的分析,預(yù)測客戶的行為,而事實上,客戶自己可能都不明確自己下一步要作什么。所以,數(shù)據(jù)挖掘的結(jié)果,沒有人們想象中神秘,它不可能是完全正確的。客戶的行為是與社會環(huán)境相關(guān)聯(lián)的,所以數(shù)據(jù)挖掘本身也受社會背景的影響。
1.2 數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是一個新興、交叉學(xué)科領(lǐng)域,根據(jù) W. J. Frawley 等人的定義,數(shù)據(jù)挖掘即為從大量的、不完全的、有噪聲的、隨機(jī)的數(shù)據(jù)中提取含在其中的、人們事先不知道的、有用的信息和知識的過程。
1.3 數(shù)據(jù)挖掘的一般過程
數(shù)據(jù)挖掘技術(shù)的一般步驟為,首先對問題進(jìn)行定義,然后收集該問題的數(shù)據(jù)并作分析處理,接下來編寫并執(zhí)行數(shù)據(jù)挖掘算法,最后對執(zhí)行結(jié)果進(jìn)行分析和評估。圖1展示了數(shù)據(jù)挖掘的一般過程。系統(tǒng)的數(shù)據(jù)挖掘是一個不斷循環(huán)、優(yōu)化的過程。

圖1 數(shù)據(jù)挖掘一般過程示意圖
2.1 分類
分類是用一個函數(shù)把各個數(shù)據(jù)項映射到某個預(yù)定義的類,或者說是開采出關(guān)于該類數(shù)據(jù)的描述或模型。數(shù)據(jù)分類方法有決策樹分類方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)方法、粗集方法等。例如,利用當(dāng)前借閱歷史數(shù)據(jù)可以建立各種借閱行為的分類規(guī)則,對于新來的讀者,根據(jù)其就可以知道此人的借閱意愿、興趣。
2.2 頻繁模式挖掘
頻繁模式挖掘是在事務(wù)數(shù)據(jù)庫(Transaction Database)中不同商品之間的聯(lián)系規(guī)則,也就是在數(shù)據(jù)中頻繁出現(xiàn)的模式,包括項集、子序列和子結(jié)構(gòu)。
2.3 聚類
聚類是利用一些特征的組合來對樣本作群體的分類,具體說就是把一組個體按照相似性歸成若干類或簇。劃分的原則是在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大,即為“最小化類間的相似性,最大化類內(nèi)的相似性”原則。
2.4 時間序列分析
時間序列分析是一組按時間順序發(fā)生的事件,研究者根據(jù)每一固定時間間隔的次序來記錄事件結(jié)果,而時間序列數(shù)據(jù)最大的特點就是當(dāng)中每一筆緊接著數(shù)據(jù)的記錄時間間隔是相同的。如圖書館讀者借閱的年度分布,股票市場固定時段價格變化,每月進(jìn)出口貿(mào)易相關(guān)數(shù)字,每年人口出身率數(shù)字等分別為時間序列數(shù)據(jù)。
數(shù)據(jù)挖掘技術(shù)在高校圖書館中的應(yīng)用涵蓋了如下幾個方面:個性服務(wù)與優(yōu)化、內(nèi)容評價、社區(qū)構(gòu)建、績效評價、采購優(yōu)化(文獻(xiàn)資源建設(shè))、內(nèi)部工作流程優(yōu)化、用戶行為分析、用戶評價、知識發(fā)現(xiàn)和利用。
3.1 讀者分析
數(shù)據(jù)挖掘在讀者分析中包含三個方面:(1)統(tǒng)計分析:以統(tǒng)計的方式對數(shù)據(jù)倉庫的數(shù)據(jù)進(jìn)行分析,找出借閱率高的書籍跟借閱率高的讀者,并分析代表的意義。(2)分類分析:利用借閱記錄及讀者信息庫,分析讀者的不同群體間借閱行為的差異,以了解讀者的行為模式。(3)孤立點分析:學(xué)校圖書館服務(wù)全體讀者,對于特殊需要用戶,也要有所照顧。
3.2 個性化服務(wù)
一是做關(guān)聯(lián)規(guī)則分析,從借閱記錄庫中找出讀者借閱圖書的共通性,進(jìn)而推薦相關(guān)圖書給讀者。二是做時間序列分析,讀者借閱館藏時,可能會先借入門的書籍再借深入的書籍,如果把這些借閱的順序特性找出來,下次讀者借閱時主動推薦給讀者。
3.3 館藏維護(hù)與采訪
利用聚類分析,找出不同群體之間不同的借閱行為,挖掘出每個群體間普遍出現(xiàn)的書籍類型,并把此做為圖書采購的參考依據(jù)。不同的季節(jié),會有不同的借閱行為,或者因為期末考試等。都會出現(xiàn)不同的借閱習(xí)慣,找出這樣的規(guī)則,可以根據(jù)時段將某些圖書放在顯眼的位置或者加以推薦。
3.3 館藏書目推薦
通過收集、加工和處理涉及用戶借閱行為的大量信息,確定特定借閱群體或個體的興趣,進(jìn)而推斷出下一步的消費行為,并以此為基礎(chǔ),對所識別的借閱群體進(jìn)行特定內(nèi)容的定向推薦。書目推薦服務(wù)由兩個模塊構(gòu)成:書目檢索模塊和書目推薦模塊。
3.4 離線數(shù)據(jù)分析中心
離線數(shù)據(jù)分心中心可以做如下基礎(chǔ)數(shù)據(jù)挖掘:動態(tài)數(shù)據(jù),包括讀者構(gòu)成屬性、文獻(xiàn)流通方式、讀者借閱行為、讀者信息行為的變化趨勢分析;日志數(shù)據(jù),包括在線情況、時段分析、關(guān)鍵字分析、來路分析、受訪分析、訪客詳情、用戶忠誠度分析;用戶數(shù)字資源使用行為趨勢分析、用戶信息服務(wù)模式變化趨勢分析;各種服務(wù)系統(tǒng)數(shù)據(jù),針對各種服務(wù)系統(tǒng),進(jìn)行數(shù)量統(tǒng)計、時間序列分析等,根據(jù)系統(tǒng)特點,對用戶使用情況、數(shù)據(jù)對象進(jìn)行挖掘;事實數(shù)據(jù),包括館藏分布、人力資源、資金使用、設(shè)備配置等變化趨勢分析。
大數(shù)據(jù)時代,一方面給我們提供了海量的信息資源,無疑會給我們的讀者服務(wù)提供足夠的資源保證。另一方面,大量的冗余數(shù)據(jù)、垃圾數(shù)據(jù)給我們的收藏以及信息的開發(fā)帶來了相當(dāng)大的困難。因此對用戶行為分析將有效提高圖書館服務(wù)質(zhì)量,數(shù)據(jù)挖掘技術(shù)是改進(jìn)圖書館工作有效的方法。數(shù)據(jù)挖掘是一個長期的過程,高校圖書館應(yīng)該在數(shù)據(jù)挖掘方面持續(xù)地開展研究和實踐。
[1]陳京民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:電子工業(yè)出版社,2002.
[2]曾春,邢春曉,周立柱.個性化服務(wù)技術(shù)綜述[J].軟件學(xué)報,2002.
[3]董云鵬.數(shù)據(jù)挖掘技術(shù)在圖書館中的應(yīng)用[J].現(xiàn)代情報,2006.
[4]趙嘉凌.數(shù)據(jù)挖掘在數(shù)字圖書館中的應(yīng)用研究[J].計算機(jī)與網(wǎng)絡(luò),2010.
[5]鄭建明,錢鵬.國內(nèi)數(shù)字圖書館建設(shè)模式研究--以國家數(shù)字圖書館與中國高等教育數(shù)字圖書館為例[J].大學(xué)圖書館學(xué)報,2011.