唐吉深
(河池學院圖書館,廣西 宜州 546300)
20世紀 90年代以來,數據挖掘技術已成為數據庫研究最活躍的分支之一。數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道但又是潛在有用的信息和知識的過程[1]。通過數據挖掘機器算法可以幫助決策者從海量的數據中自動發現隱藏其中有價值的關系和模式,從而對未來可能發生的行為進行預測。
隨著圖書館網絡化、自動化的普及,數據庫技術在圖書館的應用中迅速發展。圖書館日常管理產生大量數據,如:圖書館書目數據、讀者流通借還數據、書目檢索記錄、Web訪問記錄等。采用數據挖掘技術對這些數據加以挖掘分析,將對圖書館的采訪、流通、參考咨詢、數字圖書館建設等有著很強的指導作用。同時可為圖書館決策及開展服務創新提供強有力的科學依據。
在國外,數據挖掘技術活躍于各行各業,如加州理工學院噴氣推進實驗室與天文科學家合作開發的SKICAT系統,能夠幫助天文學家發現遙遠的類星體;電子商務領域利用數據挖掘技術識別顧客的購買行為;生物學研究領域用數據挖掘技術對 DNA進行分析;銀行利用數據挖掘技術對客戶詐騙行為進行預測;IBM公司開發的 AS(Advanced Scout)系統針對 NBA的訓練比賽數據,幫助教練優化戰術組合 ,等等[2]。
在 Thomson Reuters的 “Science Citation Index Expanded”數據庫中檢索有關數據挖掘技術及其在圖書館應用方面的論文被 SCI收錄的情況,以“主題=(data mining)and入庫時間 =(2003—2009)”為檢索條件(簡稱檢索方式 1),得到 13 693條結果記錄;以“主題 =(data mining)and主題 =(library)and入庫時間 =(2003—2009)”為檢索條件(簡稱檢索方式 2),得到 27條結果記錄。按發表論文時間排列得到表 1(以上檢索時間為 2010年 5月 28日)。
SCI收錄的文章數量能夠反映某一問題研究的熱度與創新程度。從表 1可以看出,2003—2009年間,SCI收錄數據挖掘技術方面的文章總計 13 693篇,且逐年遞增,呈明顯的上升趨勢。這表明國外學者在數據挖掘技術研究領域相當活躍,成果頗豐。而 SCI收錄數據挖掘在圖書館這一特定領域應用的文章為 27篇,不及總量的 0.2%。這表明數據挖掘在圖書館領域的應用相對較少,且高質量的研究成果不多。

表1 國外數據挖掘論文被SCI收錄情況
在國內,數據挖掘技術應用同樣廣泛,尤其以電子商務、電信等商業領域的應用居多。國內圖書館自引入基于數據庫的自動化管理系統后,數據量劇增。海量數據蘊藏著不菲的研究價值,但由于圖書館本身技術力量薄弱,往往只能憑借業務管理系統自帶的數據分析功能,對數據進行諸如查詢、統計等表面化的分析。缺乏內在的、深層次的問題分析,其分析效果不盡理想。鑒于此,一些學者嘗試利用數據挖掘這種新興技術來解決所面臨的問題,以求服務質量有所突破。
以下通過對中國知網“中國學術期刊網絡出版總庫”收錄的 2003—2009年間有關國內數據挖掘技術在圖書館應用研究方面的論文進行定量、歸納分析,以展示其研究現狀。采用檢索條件式“主題 =(圖書館)并且主題 =(數據挖掘)并且時間 =(2003—2009)”進行檢索,得到有效記錄 533條(以上檢索時間為 2010年 5月 28日)。
對上述檢索結果按照發表論文年代排列得到表2。從表 2可以看出,國內數據挖掘技術在圖書館的應用研究所發表的論文數量逐年遞增,且呈線性上升態勢。學者在這一領域的研究熱情持續升溫,數據挖掘技術在圖書館的應用具有廣闊前景。

表2 國內圖書館數據挖掘技術研究論文年代分布情況
533篇公開發表的論文分布在省級以上的 56種刊物中,其中圖書館專業期刊 36種,共刊載論文 398篇,占總發表量的 74.7%。對 56種刊物按其刊載量進行排序,選取前 10位得到表 3。從表 3可以看出,前 10種期刊共刊載論文 180篇,占總發表量的 33.8%,其中 7種期刊為中文核心刊物,刊載論文 135篇,占前10種期刊刊載量的 75%。這表明其研究成果主要集中在核心刊物,且學術成果價值較高,學者在這一領域的研究得到了圖情界主流的認可。

表3 圖書館數據挖掘技術論文載文量前 10位的期刊
這些公開發表論文的作者分散在 186個學術機構中(其中高校 152個、其他機構 34個)。以機構發表論文數量排序,選取前 10位得到表 4。從表 4可以看出,排在前 10位的機構有 9個為高校,有 1個為科研所。有關這一領域研究的學者多數來自高校,公共圖書館在這一領域開展的研究較少,其原因是高校在學術環境、實驗設施、人力資源等方面較公共圖書館有優勢。但筆者認為公共圖書館擁有龐大的讀者群,且讀者層次不一,利用數據挖掘技術對讀者開展個性化服務很有研究價值。由于高校對這一問題研究相對活躍,公共圖書館可以嘗試與高校開展合作研究,充分利用高校的優勢資源,推進數據挖掘技術在公共圖書館的應用。

表4 國內發表圖書館數據挖掘技術論文數量前 10位的機構
對檢索到的 533篇論文,按照其在圖書館業務中的應用范疇進行分類得到表 5。從表 5可以看出,有關讀者個性化服務中應用數據挖掘技術的論文居首,表明圖書館傾向于利用數據挖掘技術解決如何高效、高質量地為讀者提供個性化服務,最大限度滿足讀者需求的問題。以下選取檢索結果論文中具有代表性主題的文章進行歸納分析。

表5 發表論文研究范疇分類
數據挖掘技術在讀者個性化服務中的應用,主要表現為通過對讀者信息、讀者借閱和 Web使用記錄等進行挖掘,建立讀者興趣模型,并根據模型對讀者開展有針對性的服務。如:史艷梅“建立了一種 CMPS系統模型來獲取用戶興趣”[3];郭家義“探討數據挖掘技術在個性化檢索系統中的作用以及如何發現用戶興趣”[4];柳炳祥等“將粗糙集和模糊聚類數據挖掘算法應用到圖書館個性化服務中”[5];曹強“將數據挖掘技術與 RSS推送技術有機結合,設計、實現個性化信息服務模型”[6]。
數據挖掘技術在文獻采訪工作中的應用,主要表現為通過對讀者信息、書目數據、讀者借閱數據、文獻檢索記錄等信息利用關聯分析、聚類分析進行挖掘,發現讀者與借閱讀書之間的關系、不同讀者群的借閱傾向及不同學科間的聯系等,以指導采訪員科學選書。如:遲春佳等“針對如何科學制訂高校圖書館圖書采購計劃的問題,提出了將數據挖掘技術用于高校圖書館圖書采購計劃制定決策輔助的方法”[7];劉淑瑞“采用 k-means算法將讀者分為活躍讀者、一般讀者、較少讀者三類,并根據不同類讀者的借閱興趣,調整采購策略”[8];王伊蕾等“將數據挖掘技術與運籌學相結合,提出了一種基于庫存理論的圖書訂購策略”[9]。
數據挖掘技術在數字圖書館的應用,主要表現為提供智能搜索引擎服務、圖書館 Web挖掘、多媒體數據挖掘、Web信息抽取等。如:鄒凱等“闡述了數據挖掘技術在智能搜索引擎服務中的個性化知識決策功能”[10];黎琳論述了“文本自動摘要、文本分類和文本聚類等 Web內容挖掘技術在數字圖書館中的應用”[11];張英等“介紹了圖像挖掘、視頻挖掘、音頻挖掘等多媒體挖掘方法,并提出了一種適合多媒體數據挖掘的系統框架”[12];宋玉忠“認為Web數據抽取技術是 Web信息挖掘的關鍵,并提出了一種面向 XML描述的 Web數據抽取模型”[13]。
數據挖掘技術在參考咨詢工作中的作用,主要表現為利用數據挖掘技術發現隱性知識,以使館員在解答讀者咨詢問題時更為客觀、全面。如:楊亞華“將知識管理、知識挖掘和參考咨詢服務有機結合,提出了一種新的參考咨詢服務體系結構”[14]。
近年來,隨著計算機技術及互聯網技術的快速發展,各種新技術不斷涌入圖書館,圖書館進入 3.0時代,云計算、移動閱讀將主導未來圖書館的發展方向。如何將數據挖掘技術與這些新技術融合,已成為亟待解決的問題。筆者就新形勢下,數據挖掘技術在圖書館的應用創新提出以下設想。
當前,國外許多圖書館自動化業務管理系統已整合了數據挖掘功能(如 Mylibrary系統)。國內數據挖掘技術在圖情界的研究相對活躍,但主要是針對如何利用的問題在進行探討,真正可操作性強、能夠指導實際業務的成熟產品很少,僅有少數大學圖書館自行開發有供本館使用的個性化服務系統,如中國人民大學開發的 KBDL系統。由于圖書館一般技術力量比較薄弱,自主開發數據挖掘系統困難較大。由專業公司開發具有數據挖掘功能的圖書館自動化業務管理系統,在圖書館進行推廣使用,將促進數據挖掘技術在圖書館應用的普及。
隨著移動互聯網技術的發展成熟及 3G手機的普及,移動閱讀越來越受到讀者青睞。中國國家圖書館、重慶大學圖書館等率先推出手機圖書館 WAP網站,以滿足手機讀者用戶的需求。手機圖書館的推出大大便利了讀者,讀者足不出戶即可獲得圖書館的資源。如何為手機讀者開展個性化服務,將成為手機圖書館當前面臨的巨大挑戰。圖書館可嘗試在手機圖書館 WAP網站后臺部署讀者興趣挖掘模型,通過模型對手機讀者的訪問記錄及借閱情況進行挖掘,找出讀者感興趣的資源。一旦發現圖書館有其感興趣的資源,就可利用模型推送技術向手機讀者發送短信告知。由此可見,利用數據挖掘技術解決手機圖書館個性化服務具有可行性。
自 Google提出云計算框架以來,云計算得到了廣泛的應用。所謂“云圖書館”即“圖書館云”,這是建立在云計算模式下的一種服務,是整個云計算模式架構中的一個功能層,是互聯網上的一朵云[15]。由此可見,云計算環境下,“云圖書館”本質上是一種服務,來自五湖四海的圖書館終端共享“云圖書館”的基礎設施,共同構成一個存在于互聯網中的大型數據庫。“云圖書館”應用數據挖掘技術,發現深層次的知識,使“云圖書館”服務更具人性化。
基于數據挖掘思想,通過對國內外學者公開發表的有關圖書館數據挖掘應用方面的論文進行深層次分析,并對其未來發展方向進行探討,以期能夠反映其發展軌跡與趨勢,進而推進數據挖掘技術在圖書館的更廣泛應用。
[1]邵峰晶,于忠清.數據挖掘原理與算法[M].北京:中國水利電利出版社,2003:2.
[2]李菁菁,培 基,亦 瀟.數據挖掘在中國的現狀和發展研究[J].管理工程學報,2004(3):10—14.
[3]史艷梅.個性化服務中挖掘用戶興趣的 CMPS[J].現代圖書情報技術,2005(3):85—87.
[4]郭家義.個性化檢索系統中的數據挖掘技術分析[J].現代圖書情報技術,2003(8):93— 97.
[5]柳炳祥,鄧歡軍,高淑妍,等.基于數據挖掘的圖書館個性化服務系統[J].現代情報,2007(3):108—109.
[6]曹 強.圖書館個性化信息服務模型的設計與實現[J].情報雜志,2007(4):80— 83.
[7]遲春佳,毛志勇.基于數據挖掘的高校圖書館圖書采購計劃輔助決策研究[J].現代情報,2007,29(7):108—110.
[8]劉淑瑞,秦文珍,張 聰.基于數據挖掘技術的圖書館采購管理研究[J].重慶文理學院學報(自然科學版),2010,29(1):110—112.
[9]王伊蕾,李 濤,王福生,等.一種基于庫存理論的圖書訂購策略[J].情報科學,2008,26(5):698—700.
[10]鄒 凱,汪全莉.智能搜索引擎與數字圖書館個性化服務[J].情報科學,2004,22(7):874— 877.
[11]黎 琳,趙 英.Web內容挖掘在數字圖書館中的應用[J].圖書館學研究,2006(2):19—21.
[12]張 英,趙艷君.數字圖書館中多媒體數據挖掘的體系結構和方法[J].數字圖書館技術論壇,2008(1):92—94.
[13]宋玉忠.Web抽取技術在數字圖書館中的應用[J].四川圖書館學報,2009,3(169):46— 49.
[14]楊亞華.基于知識管理與知識挖掘中的參考咨詢服務探討[J].科技情報開發與經濟,2007,17(29):28—30.
[15]致齋主.云圖書館就是圖書館云[EB/OL].[2009-09-24].http://www.linhq.net/archives/48.