摘要:在介紹數據挖掘技術的基礎上,從資源建設、用戶分析等方面探討數據挖掘在圖書館服務管理中的作用及實施數據挖掘的具體過程。
關鍵詞:數據挖掘;圖書館
中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2008)14-20796-02
1 引言
圖書館作為文獻資源的提供機構,擁有大量的文獻資源供用戶使用。但隨著圖書館館藏文獻的增多,會有這種現象發生:用戶在眾多的信息中,不知道哪一個才是真正需要的;隨著用戶的不斷增多,圖書管理人員發現,用戶的需求千差萬別,想讓每一個用戶都滿意越來越困難。圖書館和用戶之間的這種矛盾,成為當前急需解決的問題。其實,圖書館除了擁有大量的文獻資源外,還擁有海量的其他信息。如:用戶的基本信息、借閱信息、檢索信息、咨詢信息等。從這些信息中就能找到解決圖書館和用戶之間矛盾的答案,這需要應用數據挖掘技術。通過對圖書館的信息資源進行數據挖掘分析,能發現隱含其中的潛在信息,可以幫助用戶更好的使用圖書館的信息資源,幫助圖書館為用戶提供更好的服務。
2 數據挖掘概述
2.1 內涵
數據挖掘(Data Mining)也叫數據開采、數據采掘等,是從大量的、不完整的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在而又有用的信息和知識的過程。通過數據挖掘,有價值的知識、規則或深層次的信息就能從數據庫的相關數據集合中抽取出來,并從不同角度顯示,使用戶可以在信息的荒漠中更容易找到知識的綠洲,解決了用戶“信息豐富而知識貧乏”的尷尬。
2.2 功能
2.2.1 趨勢和行為預測
預測是根據數據對象的屬性、過去的觀察值對該屬性的未來值進行預測。數據挖掘可以自動地從數據(倉)庫中尋找預測性信息,根據時間序列數據,由歷史的和當前的數據預測未來的趨勢和行為。
2.2.2 關聯分析
關聯分析就是要挖掘隱藏在數據(倉)庫中的數據關聯關系或規則,即發現一個事件和其它事件之間依賴或關聯的規律或知識。
2.2.3 分類分析
分類分析就是研究已分類資料的特征,分析對象屬性,據此建立一個分類函數或分類模型,然后運用該模型計算總結出的數據特征,將其它未經分類或新的數據分派到不同的組中。
2.2.4 聚類分析
聚類分析是在事先不知道的條件下,根據對象的一些相似特征分組,根據事物本身潛在的特性把數據集合中的個體或對象按照相似性歸結成若干類,從而將數據庫中的記錄化分為一系列有意義的子集。
2.2.5 孤立點分析
數據(倉)庫中經常存在一些數據對象,它們與數據的其他部分不同或不一致,而且不符合數據的一般模型,這樣的異常數據對象被稱為孤立點。對孤立點進行數據分析稱為孤立點分析,也稱為偏差分析。
3 數據挖掘在圖書館服務管理中應用
通過數據挖掘技術并結合圖書館的服務管理工作,具體可應用于以下幾個方面:
3.1 資源建設
合理的進行信息資源配置是圖書館管理工作的核心,是為用戶提供優質服務的基礎。資源建設主要包括圖書文獻資源的建設、網絡信息資源的建設。無論是圖書文獻資源還是網絡資源都存館藏結構問題。在網絡化、數字化的今天,不能單憑領導或專家的個人意見,決定采購哪些書目及書目的多少,應該通過數據挖掘技術對圖書館日常工作中產生的大量借閱信息、檢索信息、咨詢信息、館藏書目信息等從多方面進行分析,發現并了解當前的文獻結構還有哪些缺漏,及時進行補充。這樣就可以利用有限的經費,進行有針對性的補充、豐富或剔除某些信息資源,進行合理的資源配置,滿足用戶的需要。
3.2 圖書上架、信息資源存儲
世界著名商業零售連鎖企業沃爾瑪(Wal Mart)意外發現“跟尿布一起購買最多的商品竟是啤酒”,并通過調查分析找到了其中的原因。于是沃爾瑪就在其一個個門店將尿布與啤酒并排擺放在一起,結果是尿布與啤酒的銷售量雙雙增長。圖書館的圖書上架、信息資源存儲和超市的商品上架一樣,也是有規律的。所以,在圖書館的管理中,也應該對通過數據的挖掘、分析找到文獻資源之間的相互關系,這樣才能更好地進行圖書上架及信息資源的有效存儲。如:應該把哪些書籍放在一起、把信息資源按照什么方式進行存儲更方便用戶的查找。
3.3 用戶分析
在企業理論中二八法則又稱“馬特萊法則”,是國際上公認的一種企業法則。即企業80%的利潤來自20%的客戶,而發展新客戶所需費用是維持老客戶的6~8倍。圖書館可以借鑒這一法則,利用數據挖掘對用戶的借閱、咨詢、檢索等信息進行分析,從中找出20%的核心用戶,并根據核心用戶的信息需求,組織人力、物力資源,為他們提供周到、快捷、滿意的服務。同時也不能忽視另外80%的用戶,要從中發現潛在的用戶,培養新的客戶。因為他們也可能會成為圖書館的新的核心用戶。利用數據分析還可以找到其他用戶流失的原因,這樣可以進行有針對性的工作。
結合數據挖掘、數據倉庫和聯機分析技術,對圖書館數據倉庫中的海量數據進行分析,并根據分析結果找出用戶需求的特征及圖書管理中的各種問題,以便能及時做出正確的決策,調整戰略,以適應不斷變化的用戶需求,為各類用戶提供有針對性的、個性化的服務。
4 數據挖掘實施過程
數據挖掘是一個復雜的工作,一般由三個階段組成:數據準備、數據挖掘、結果解釋與評價。
4.1 數據準備階段
數據準備對于數據挖掘的成功應用至關重要,一般需要消耗整個數據挖掘過程中50%~90%的時間和精力。這一階段通常包括如下工作:
首先,確定數據挖掘目標。例如:考慮使用關聯規則對某一時間段的歷史數據進行分析,從中發現用戶對資源的借閱模式,如果發現有很多讀者借閱A 文獻同時也會借閱B 文獻,就可以則向借閱A文獻的用戶推薦B文獻,并在上架時把這兩種文獻放在相鄰或相近的位置。這些規則的發現對提高數據資源的利用率和為讀者提供個性化服務有著重要的意義。
其次,數據采集和數據理解。數據挖掘必須基于大量數據基礎之上,因此必須針對確定的目標進行廣泛而全面地數據采集。如:用戶基本信息、借閱歷史信息記錄、檢索歷史記錄、文獻書目記錄等。但只有大量的數據是沒有任何作用的,在進行信息采集和以后的數據挖掘過程中,如果不理解數據的含義,數據挖掘的結果沒任何作用。所以必須全面獲取和理解數據,確定數據的含義。
再次,進行數據預處理。從采集的數據中選擇與此次挖掘有關的數據,并進一步研究數據的質量,采用適合的預處理技術對數據進行處理。如:一般情況圖書館的數據多為日常的業務數據,不能直接作為挖掘的數據,所以可通過預處理方法對數據進行集成。還可通過填寫空缺值,平滑噪聲數據,識別刪除孤立點等方法來實現格式標準化、異常數據清除、錯誤糾正、重復數據的清除等等。
最后,建立模型。對經過預處理后的數據進行挖掘前,要將數據轉換成一個分析模型,并從現有數據中衍生出所需要的指標,這有賴于數據挖掘者的分析經驗和工具的方便性。分析模型的建立是針對挖掘算法建立的,建立一個真正適合挖掘算法的分析模型是數據挖掘成功的關鍵。
4.2 數據挖掘
對經過數據準備階段之后所得到的數據,利用選定的數據挖掘工具進行挖掘,用選定的算法或算法組合在模型空間中進行反復迭代搜索,從數據集中抽取出隱藏的、新穎的模式和知識。在本過程中大部分工作都是自動完成的,但這并不意味著不需要人的參與。事實上在數據挖掘過程中需要不斷的進行人機交互,以期得到更加符合實際情況的模式和知識。
4.3 結果的解釋與評價
結果的解釋與評價是指根據最終用戶的目的和需要,對數據挖掘發現的模式和知識進行解釋與評價。例如:對開學初兩個月的圖書館借閱記錄,進行挖掘分析后的結果顯示:大部分的文獻借閱次數很少,只有少部分與外文考試相關的文獻被頻繁地、大量地借閱。經過分析發現開學初由于學生的學習壓力不大,且外語是一項與學位掛鉤的科目,學生都非常重視是英語考試類書籍被頻繁地借閱的原因。意外的結果是大學生四、六級詞匯的借閱頻度卻很小。這是因為編目體系的原因,把詞匯類書籍與政治類書籍編在了一起,用戶沒有看到,當然,也與用戶沒有很好利用館藏數據庫檢索有一定的關系。通過挖掘,找到了隱藏在大量數據背后的潛在的信息并對其進行客觀的解釋與評價最終的目的是用于圖書館服務、管理的實踐。所以最后要將評價和解釋的結果同化為圖書館的知識,并應用于圖書館服務管理為用戶提供優質的、個性化的服務。
5 結束語
數據挖掘在圖書館服務管理中的應用尚處于起步階段,但隨著數據挖掘技術、工具、算法的不斷改進,應用的普及和對數據挖掘知識的積累,數據挖掘技術將更加廣泛地應用于圖書館的服務管理中。
參考文獻:
[1] 王偉,張征芳,王海明.基于數據挖掘的圖書館讀者行為分析[J].北京:現代圖書情報技術,2006(11):51-54.
[2] 肖建國.數據挖掘在圖書館中的應用[J].北京:中國信息導報, 2005(3):55-56.
[3] 胡國芳.數據挖掘技術在圖書館創新服務中的應用[J].北京:情報資料工作,2007(2):104-106.
[4] 盧云.基于CRM 的圖書館可持續發展研究[J].北京:圖書情報知識,2004(4):34-35.