李玉蘭
(五邑大學 廣東 江門 529020)
高校是培養社會所需高素質人才的基地,而高校圖書館是人類文化傳承和創新的基礎性設施,在中國先進文化建設方面具有重要作用。但近年來高校因連續擴招,學校規模快速擴大,在校人數眾多帶來對館藏圖書需求很大變化,不僅數量需求增加,而且圖書種類也向多樣化發展,圖書館的價值不再僅僅以其所擁有的館藏圖書檔案的數量來衡量,而是以它為用戶提供各種形式的信息的能力和質量來衡量,在高校連續擴招形式下,如何利用目前有限的人力、經費資源,為在校師生提供高質量的服務,是目前高校圖書工作者需要認真研究和解決的一個重要課題。
網絡技術的發展為傳統的圖書管理帶來新的技術手段,國內大多數高校的圖書館都采用圖書管理信息系統,實現了圖書館業務的計算機管理和網絡化查詢服務。在長年的使用過程中,計算機系統積累了龐大的數據資料,以往,這些數據資料僅僅作為記錄憑證供查詢使用,發揮的功能非常有限。而隨著信息技術的發展,數據挖掘技術[1]與計算機強大的處理能力有效的結合,使我們一窺海量數據背后的秘密成為了可能,也為檔案管理者提高管理水平提供了新的機會。引入數據挖掘技術,圖書館管理信息系統中海量的數據就不僅僅用于事務查詢,最主要的是發現數據背后隱藏的潛在需求,從而為圖書館的圖書歸類、圖書采購、圖書分配、及圖書擺放提供更加科學的依據。[2]
數據挖掘(Dat a M i ni ng)是一種新的信息處理技術,其主要特點是對單位、企業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,以從中提取輔助管理決策的關鍵性數據。數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘是一門交叉學科,它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識。隨著信息化的普及和數據庫的廣泛應用,很多大型企業事業單位積累了數百億字節的數據,分析利用如此海量的數據,是數據挖掘技術的用武之地。數據挖掘和數據分析最大的區別在于,數據統計分析是通過一定量的數據來驗證事先的假設,而數據挖掘則是從大量的規則的數據當中通過科學的方法來發現其中的關聯,從而得出某種“出人意料”的結論。在經濟管理領域,數據挖掘技術在爭取與保留客戶、交叉銷售、趨勢分析與市場預測、欺詐檢測與風險防范等方面的成功應用令人鼓舞。自20世紀90年代后期,圖書館開始高度關注并研究數據挖掘技術,并致力于將其引入到圖書館的現代化建設中,有不少圖書館學專家提出了面向圖書館的數據挖掘技術應用理論與方法[3]。
數據挖掘的主要任務包括:
1.分類。分類分析就是通過分析樣本數據庫中的數據,為每個類別做出準確的描述,或建立分類模型,或挖掘出分類規則,然后用這個分類規則對其他記錄進行分類。分類模型也可用于預測,根據已經分好類的資料來研究它們的特征,然后再根據這些特征對其他未經分類的或是新的數據做預測。
2.聚類。聚類是把一組個體按照相似性歸納成若干類別。聚類將沒有分類的記錄,在不知道應分成幾類的情況下,按照數據內在的差異性大小,合理地劃分成幾類,并確定每個記錄所屬類別。聚類的原則是使得屬于同一類別的個體之間的距離盡可能的小,而不同類別上的個體間的距離盡可能的大。
3.關聯分析。數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯分析的目的是找出數據庫中隱藏的關聯網,關聯規則挖掘的一個典型例子就是購物分析,通過發現顧客放入購物籃中不同商品之間的聯系,分析顧客的購買習慣,從而為零售商制定營銷策略提供支持。
4.預測。預測是根據對象屬性之過去觀察值來預測該屬性未來之值。數據挖掘自動在大型數據庫中尋找預測性信息,一個典型的例子是市場預測問題,數據挖掘使用過去有關促銷的數據來尋找未來投資中回報最大的用戶。
數據挖掘的常用方法包括:
1.人工神經網絡:人工神經網絡是模擬人類的形象直覺思維、是在生物神經網絡研究的基礎上,根據生物神經元和神經網絡的特點,通過簡化、歸納、提煉總結出來的一類并行處理網絡。利用其非線性映射的思想和并行處理的方法,用神經網絡本身結構可以表達輸人與輸出的關聯知識。它完成輸入空間與輸出空間的映射關系,是通過網絡結構不斷學習、調整,最后以網絡的特定結構來表達的,沒有顯式函數表達。
2.決策樹:決策樹是一種典型的分類算法,可以得到類似在什么條件下會得到什么結果的規則。比如,建立顧客決策樹模型,進行市場細分,找出最有可能對促銷宣傳感興趣的客戶群。
3.遺傳算法:遺傳算法是基于達爾文的進化論中基因重組、突變和自然選擇等概念。這些算法作用于對某一特定問題的一組可能的解法。它們試圖通過組合或“繁殖”現存的最好的解法來產生更好的解法。利用“適者生存”的概念使較差的解法被拋棄,從而導致解法的集合,即繁殖的結果得到改善。
4.近鄰算法:近鄰算法是將數據集合中每一個記錄進行分類的方法,是最容易使用和理解的技術之一。近鄰算法是以人們思維方式相似的方式作用—檢測最近的匹配樣本。相互之間“接近”的對象也會有相似的預測值。這樣,如果你知道了其中一個對象的預測值,也就可以用它來預測它最近的鄰居對象。
5.規則推導:規則歸納就是通過統計方法歸納、提取有價值的IF-TH EN規則。神經網絡經常為人所指責的一點是它只能給出學習模型的一個黑盒表示,而基于規則的數據挖掘技術則可以給出模型的生成規則描述。這些規則是通過使用某些統計方法對數據集合進行分段而生成的。通常包括有導師算法和無導師算法。
圖書館用戶是指利用圖書館信息資源及信息服務的一切個體或群體。圖書館用戶資源是圖書館在長期的信息服務過程中逐步形成的,是圖書館服務能力在社會關系體系中的呈現。通過數據挖掘技術,對用戶數據進行分析,真實反映用戶的行為特征和屬性。通過對用戶信息的統計和分析,明確用戶信息需求和服務需求,劃分用戶群,針對用戶個性化需求,制定出圖書館相應的信息資源建設和服務策略,實現與用戶服務活動相關的所有信息的集成。通過對用戶行為特征的整理和分析,能廣泛地從用戶信息中發現能夠反映其信息與服務需求特質的模式或模型并進行相關用戶的規模化分類與聚類,并據此進行各種推理和分析,為圖書館決策和服務行為提供客觀依據。
數據挖掘技術的應用,拓寬了圖書館信息服務的范圍,增加了信息服務的項目,使圖書館的信息服務變得更加主動,大大提高服務質量。利用傳統的檢索方式在越來越大的信息數據庫進行定題情報服務難度也越來越大,對于無序的或者排序不規范的電子信息還要在不同的操作平臺進行切換。利用數據挖掘技術可以整合各種類型的數據,將紙質的圖書和不同操作平臺的電子版的信息,通過四種規則為讀者提供一個統一的數據平臺,會大大提高讀者檢索的命中率。
圖書訂購是圖書館采訪部門的主要工作,它是圖書館工作鏈的開端,也是現代化圖書館資源建設的開始。圖書館每年的圖書采購費用是有限的,各門學科之間如何分配、各種文獻載體形式如何均衡才能使這些經費最好地發揮效益,這是一件令人頭疼的事。隨著出版物的數量日益增多,載體日益豐富,高校圖書館信息結構、讀者需求與資金利用的平衡問題越來越不易把握,也令采購工作的決策變得更加復雜。數據挖掘技術可以對流通數據庫和采訪數據庫中的歷史記錄數據進行關聯性分析和序列分析,可以輕松地統計出圖書文獻的頻繁借閱集合,科學分析各類文獻的利用率,為采購文獻提供科學合理的各種分析報告及預測信息,從而指導采訪人員對文獻種類進行科學地篩選[4],合理地確定各種文獻所需的復本量,及時補充短缺的文獻,剔除過時的文獻,幫助采購人員確定采購重點,保障圖書館信息資源體系的科學性和合理性。
運用時間序列挖掘方法,可以從流通數據庫中挖掘出流通量的周期性規律,分析讀者借出圖書流通的高峰期和低谷期,借此可以科學安排流通部門的全年和每天的工作,在人力資源、圖書資源有限的情況下,為讀者提供更多更優質的服務,為流通部門日常工作的安排提供科學的參考數據。例如,對于全年的高峰期.可以集中精力致力于讀者的流通服務;在低谷期,除了日常借閱流通服務外,可以安排一些圖書整理、讀者培訓和業務學習之類的工作,而不像過去那樣盲目地浪費時間和資源。
數據挖掘作為方興未艾的信息技術之一,由于其在數據組織、分析和知識發現及信息深層挖掘等方面體現出的強大優勢,在圖書館領域的應用前景極為廣闊。隨著硬件環境、挖掘算法的改進、應用的普及和經驗的積累,數據挖掘技術在圖書館的應用必將取得長足的發展與進步。
[1]安淑芝,《數據倉庫與數據挖掘》,北京:清華大學出版社,2005.
[2]張金艷,王煌,《數據挖掘技術在圖書館中的應用展望》,載《桂林航天工業高等專科學校學報》,2005年第2期.
[3]魏育輝,潘潔,《圖書流通數據的關聯挖掘量化分析》,載《現代情報》,2005年第11期.
[4]張存祿等,《數據挖掘在圖書采購中的應用》,載《情報科學》,2004年第5期.