
【摘 要】本文探討了如何在現有圖書數據庫管理系統基礎上,利用數據挖掘技術和軟件技術實現對圖書館各種歷史數據的深度分析,以期發現圖書、讀者及管理者之間的某種聯系或規律,為優化館藏分布,提高圖書利用率,提升服務效率等提供參考依據。
【關鍵詞】圖書管理 數據庫 數據挖掘
一、引言
依托數據庫技術的現代圖書管理體系已經成為當前圖書管理的主流,數字化的信息采集與存儲極大地提高了圖書管理的效率,如何深度利用這些數字化信息為圖書管理帶來更高的效率及決策支撐成為近年來圖書管理領域研究的熱門,但是由于目前大部分圖書館已經擁有了自己的管理系統,而放棄現有系統進行改造需要投入大量的人力物力,并不可取。因此,本文旨在探討一種利用現有圖書管理系統的數據資源實現深度挖掘分析的可行方法,從而在較少投入的情況下實現對系統效率的提升。
二、數據挖掘及其在圖書管理中的應用
數據挖掘(Data Mining,簡稱DM)就是從現有大量的數據中提取或者挖掘出人們不易發現的但卻存在的有用知識和信息。對于圖書管理系統來說,主要是通過大量的圖書借閱數據,利用數據挖掘技術對這些數據進行深度分析,從中獲取與圖書利用率、特定類型讀者借閱需求、圖書管理效率等相關的信息,為優化館藏分布、提高圖書利用率、提升服務效率等提供參考依據。例如,在高校圖書館,通過借閱數據挖掘不同專業學生對不同類別圖書的需求關系,在該需求關系的指導下為不同專業的學生推薦合適的圖書,從而提高借閱效率;通過借閱數據挖掘各類圖書在不同館藏數量下的流通情況,從而確定合理館藏數量,提高流通效率。通常的數據挖掘主要包括特征分析、關聯分析、分類預測分析、聚類分析等技術途徑。
特征分析是數據挖掘最基本的分析,是通過分析獲取數據庫中某類數據的一般特征或者匯總。一般情況下,各種類別的基本數據可以通過數據庫的查詢來獲取,然后通過一定的方法,如歸納技術,對這些數據進行泛化或者特征化,最后通過一定的方式將這些數據特征輸出,如餅狀圖、柱狀圖、曲線、數據表等,形成直觀的表現。
關聯分析就是尋找數據庫中各數據項之間存在的關聯規則。關聯分析通過關聯規則挖掘實現,關聯規則一般定義為,對于需要分析的各種項集合,實際數據中一定存在某些事務集合,用事務集中同時包含兩項或多項的概率來表示某關聯規則的支持度,用包含某項的事務集中同時包含其他項的概率來表示置信度,若設定一定的支持度閾值和置信度閾值,則可判定兩項或多項的關聯規則。
分類和預測是兩種數據分析形式,可以用于提取描述重要數據類的模型或預測未來的數據趨勢。在進行數據分類之前,首先需要建立一個模型,來描述一個數據類或者概念集,例如對于圖書管理數據,可以用時間周期和借閱量來描述一個熱門書籍的概念集,然后以借閱數據庫作為訓練數據集,通過查詢分析獲取該概念集的分類規則、判定樹或者數學描述公式等分類判據,通過該分類判據可以判斷某類書籍是否屬于熱門書籍。預測則是通過描述歷史數據某種屬性的變化曲線或者趨勢,然后評估或者預測該屬性的可能值或者區間,例如我們針對某類書籍的借閱歷史數據,利用回歸分析描述借閱量隨時間的變化曲線,然后通過對回歸曲線的擬合分析,可以預測未來某個時間段的借閱量。
聚類分析就是將物理或抽象對象的組合分組成為由類似對象組成的多個類的過程。由聚類生成的類是一組數據對象的組合,同一類中的對象盡可能相似,而不同類中的對象盡可能相異。聚類不同于分類之處在于,聚類分析事先并不知道可能存在各類數據的特性,而分類分析需要提前確定各數據類的特性。例如在實際圖書管理應用中,需要根據讀者的閱覽量來對讀者分類,但是由于各個圖書館的總體借閱數據大相徑庭,因此無法預先劃定多少瀏覽量才屬于活躍讀者,何種為不活躍讀者,因此可以對原始數據進行聚類分析,將讀者聚類成三類,分別代表活躍、一般和不活躍讀者。
三、數據挖掘系統設計
為實現在現有圖書管理系統上的數據挖掘分析,需要設計相應的軟件系統。軟件系統需要解決數據采集、挖掘算法設計、挖掘結果分析和界面設計等問題,總體框架如圖1所示。
圖1所示系統包含兩個數據庫,其中原始數據庫為已有圖書管理系統數據庫,該數據庫中存放著各種圖書管理及借閱信息,是本系統分析必須使用的原始數據;分析匯總數據庫是本系統所使用的數據庫,該數據庫存放著與原始數據庫操作讀取、挖掘分析計算、挖掘結果相關的各種數據。兩個數據庫互相獨立,本系統所有操作均不改變原始數據庫的結構及數據,需要存儲的數據均存放于分析匯總數據庫。
考慮到不同的圖書管理系統可能采取不同的數據庫引擎,因此本系統專門設計了自發現數據讀取、原始數據篩選與提取以及原始數據庫語義解釋三個單元模塊來匹配不同的原始數據庫引擎及結構。首次使用本系統時,用戶首先需要確定原始數據庫引擎及數據庫名,然后將該信息輸入數據庫操作與顯示單元,經原始數據篩選與提取設定條件后,由自發現數據讀取單元讀取原始數據庫結構,該結構反饋回數據庫操作與顯示單元后,由用戶將原始數據庫結構進行語義解釋,該解釋可能包括原始數據庫各表意義,表中個字段意義等,對應的解釋數據存儲至分析匯總數據庫。在以后各挖掘分析算法需要提取原始數據庫中的數據時,則通過原始數據庫語義解釋單元將上述結構解釋數據翻譯成原始數據庫對應表及字段,從而實現本系統與原始數據庫的數據無縫連接。
完成本系統與原始數據庫之間的無縫連接后,圖書管理人員可以通過用戶界面實現對兩個數據庫的操作顯示、挖掘算法的選擇及初始條件設定、挖掘結果顯示等功能。
數據庫操作與顯示單元對兩個數據庫進行各種常規操作,包括查詢、修改、增添、顯示等功能。
挖掘算法選擇不同的挖掘分析算法,選擇好算法后會根據算法需求設定初始條件,如數據類別、時間周期、數據個數、挖掘條件等,然后根據這些條件從原始數據庫中提取對應數據作為算法輸入,經算法計算后輸出至結果分析單元形成可供圖書管理人員直接使用的數據、圖表、文字等信息,這些信息一方面可以存儲在分析匯總數據庫,一方面可以通過結果顯示單元顯示到用戶界面上。所有的挖掘算法均由計算機軟件實現,如分析前的數據預處理的相關性分析、數據平滑處理等算法,用于特征分析的統計函數(均值、方差、標準差等),用于關聯分析的Apriori算法,用于分類的判定樹歸納分類、貝葉斯分類等算法,用于預測的回歸及擬合等算法,用于聚類分析的K-Means等算法。只需為這些算法設定好輸入條件,即可生成輸入數據中隱藏的圖書管理信息,為圖書管理人員提供管理及決策參考。
四、結束語
目前數據挖掘技術在圖書管理中的應用還處于起步階段,本文也只是對數據挖掘的應用及挖掘系統的設計提出了一個總體思路,隨著數字圖書館的發展、數據挖掘技術的不斷完善、讀者對個性化服務的需求增加以及圖書管理人員對提高效率的需求,未來的數據挖掘技術必將對圖書管理產生積極的影響。當然,要完成本系統,除了需要深入掌握各種數據挖掘算法及理論外,還需要熟練的數據庫使用及軟件開發經驗,并經過大量的編程及調試才能實現所有功能,設計出更符合圖書管理領域需求的數據挖掘系統,從而全面提高圖書管理效率。
【參考文獻】
[1]弗羅斯特(美國)等. 數據庫設計與開發. 清華大學出版社,2007.
[2]劉茲恒,徐建華. 長久珍等. 現代圖書館管理. 電子工業出版社,2010.