摘要:信息技術的飛速發展,改變我們的工作和生活。走進生活,建立相關的信息系統,在信息化的過程中,積累了大量的有用的信息數據。在這些浩瀚的數據之中存在的大量有價值的信息,提供給我們需要決策支持的企業和部門。如何充分利用這些數據,處理和分析信息,是一個有待解決的問題。如今信息化的迅速發展也給傳統意義上的圖書館帶來了革命性的發展。各個圖書館管理系統當中不斷增加的海量數據也越來越被人們所重視,如何較好地利用這些資源,如何能夠挖掘出這大量數據下面有用的信息也成為時下最熱門的話題。
關鍵詞:數據挖掘;圖書館;數字圖書館
中圖分類號:G250 文獻標志碼:A 文章編號:1673-291X(2012)27-0241-03
數據挖掘技術是信息世界發展所得的一種新興事務,應用領域越來越廣。從早期的商業應用,發展到科學研究、金融行業、教育教學等多個領域。并且有了許多成功的應用:在科學實驗中,有專家應用決策樹和基于規則的方法發現了新的類星體;在零售行業,貨籃分析幫助商店確定貨架布局以促進銷售;在金融領域,孤立點的發現用以預測和預防可疑信用卡交易、惡意透支等;在銷售行業,用來提高銷售的成功率;在制造業,用來控制產品生產,降低次品率。
一、數據挖掘的定義
數據挖掘技術是一門交叉學科,涉及數據庫、統計學、人工智能和機器學習等多個領域。“數據挖掘”概念最早是由Usama Fayaad 1995年提出的。因為數據挖掘技術所涉及的領域比較廣,所以現在還不能有一個能包括所有領域的全面的定義。但是比較完整的定義要算是從技術方面給其定義的。數據挖掘的技術定義是這樣描述的:數據挖掘(Data Mining)又稱數據庫中的知識發現(Knowledge Discovery in Database,KDD),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單地說,數據挖掘就是從大量數據中提取或“挖掘”知識。
這里要說明的是,數據挖掘的目的并不僅僅是在數據庫中查找記錄。它跟信息檢索的任務是有區別的。數據挖掘和信息檢索的相同點是從數據抽取數據和信息。不同之處在于數據挖掘尋找現象之間事先未知的關系和關聯。也就是說在數據挖掘任務進行之前我們是沒法兒預測結果的。信息檢索是帶有一定目的、用戶預先可以感知至少是可以在腦海中想象一個抽象的結果的而檢索的結果也不會與用戶事先想象的結果有很大差別。信息檢索是需要用戶明確地提出查詢要求。通俗地來講是信息檢索的目的是幫助用戶從大量的文件中查找到其想要的文檔而數據挖掘是為了揭示文件中所隱藏的知識。這兩個是相輔相成的。我們可以使用數據挖掘研究出來的結果來提高信息檢索的精確度提高檢索結果的“親近性”,從而使信息檢索系統有更高的境界。
二、數據挖掘中的幾種重要算法
(一)關聯規則算法
關聯規則數據挖掘是幫助發現大量數據庫中項集之間的關聯關系。目前這項技術已成為數據挖掘中最成熟、最重要、最活躍的研究內容。這種算法已發展到如教育、科研、醫學等各大領域。
1.關聯規則算法的定義
設I={i1,i2…,im}為所有項目的集合,設A是一個由項目構成的集合,稱為項集。事務T是一個項目子集,每一個事務具有唯一的事務標識Tid。事務T包含項集A,當且僅當AT。如果項集A中包含k個項目,則稱其為k項集。D為事務數據庫,項集A在事務數據庫D中出現的次數占D中總事務的百分比叫做項集的支持度。如果項集的支持度超過用戶給定的最小支持度閾值,就稱該項集是頻繁項集。
關聯規則就是形如XY的邏輯蘊涵關系,其中XI,YI且XY=Φ,X稱作規則的前件,Y是結果,對于關聯規則XY,存在支持度和信任度。
支持度是指規則中所出現模式的頻率,如果事務數據庫有s%的事務包含XY,則稱關聯規則XY在D中的支持度為s%,實際上,可以表示為概率P(XY),即support(XY)=
P(XY)。信任度是指蘊涵的強度,即事務D中c%的包含X的交易同時包含XY。若X的支持度是support(x),規則的信任度為即為:support(XY)/support(X),這是一個條件概率
P(Y|X),即confidence(XY)= P(Y|X)。
2.關聯規則分類
關聯規則有很多的分類方法,基于規則中處理的變量的類別,可以分為布爾型和數值型關聯規則。基于規則中抽象層次,可以分為單層和多層關聯規則。基于規則中涉及的數據維數,可以分為單維和多維關聯規則。還有時態、加權、多支持度、負關聯和混合關聯規則等。
在圖書館數據挖掘應用中,可以使用關聯規則算法對圖書館中讀者借閱數據進行挖掘,挖掘出具有置信度和支持度的關聯規則從而快速挖掘出讀者借閱數據中的關聯關系,最終可以達到發現學科間的隱性關聯這樣一個目的。
(二)遺傳算法
遺傳算法是模擬達爾文的遺傳選擇和自然淘汰的生物進化過程的計算模型。當前,遺傳算法已表現出良好的應用前景,遺傳算法的兩個主要特點是群體搜索策略和群體中個體之間的信息交換,它實際上是模擬由個體組成群體的整體學習過程,其中每個個體都是給定問題搜索空間的一個解點。
1.遺傳算法的定義
遺傳算法是從代表問題可能潛在的解集的一個種群開始的,而一個種群則由經過基因編碼的一定數目的個體組成。每個個體實際上是染色體帶有特征的實體。染色體作為遺傳物質的主要載體,即多個基因的集合,其內部表現是某種基因組合,它決定了個體的形狀的外部表現,如黑頭發的特征是由染色體中控制這一特征的某種基因組合決定的。因此,在一開始需要實現從表現型到基因型的映射即編碼工作。由于仿照基因編碼的工作很復雜,我們往往進行簡化,如二進制編碼,初代種群產生之后,按照適者生存和優勝劣汰的原理,逐代演化產生出越來越好的近似解,在每一代,根據問題域中個體的適應度大小選擇個體,并借助于自然遺傳學的遺傳算子進行組合交叉和變異,產生出代表新的解集的種群。這個過程將導致種群像自然進化一樣的后生代種群比前代更加適應于環境,末代種群中的最優個體經過解碼,可以作為問題近似最優解。
2.遺傳算法的特點
遺傳算法是解決搜索問題的一種通用算法,對于各種通用問題都可以使用。搜索算法的共同特征為:(1)首先組成一組候選解;(2)依據某些適應性條件測算這些候選解的適應度;(3)根據適應度保留某些候選解,放棄其他候選解;(4)對保留的候選解進行某些操作,生成新的候選解。
在遺傳算法中,上述幾個特征以一種特殊的方式組合在一起:基于染色體群的并行搜索,帶有猜測性質的選擇操作、交換操作和突變操作。
3.遺傳算法的應用
由于遺傳算法的整體搜索策略和優化搜索方法在計算時不依賴于梯度信息或其他輔助知識,而只需要影響搜索方向的目標函數和相應的適應度函數,所以遺傳算法提供了一種求解復雜系統問題的通用框架,它不依賴于問題的具體領域,對問題的種類有很強的魯棒性,所以廣泛應用于許多科學。
(三)聚類分析
聚類分析又稱群分析,它是研究分類問題的一種統計分析方法。
1.聚類分析的定義
所謂聚類就是按照事物的某些屬性,把事物聚集成類,使類間的相似性盡可能小,類內相似性盡可能大。聚類是一個無監督的學習過程,它與分類的根本區別在于,分類是需要事先知道所依據的數據特征,而聚類是要找到這個數據特征。因此,在很多應用中,聚類分析作為一種數據預處理過程,是進一步分析和處理數據的基礎。
2.聚類分析常用的算法
(1)劃分方法;(2)層次方法;(3)基于密度的方法;(4)基于網格的方法;(5)基于模型的方法;(6)高維數據的聚類法;(7)模糊聚類法。
對圖書館讀者借閱進行聚類算法挖掘,可以使圖書館對讀者借閱規律的分析和把握、館藏圖書質量的判斷等方面有著極積的意義。
三、圖書館應用數據挖掘技術的可行性分析
隨著各高校數字圖書館的逐漸成熟。圖書館用戶信息需求和形式變的更加的多樣化,用戶除了自身的專業理論知識的需求以外,還需要提高自己的文化素質修養和文化欣賞的品位。這樣他們對文獻需求的類型也越來越廣泛。因此,高校圖書館的個性化服務已成為一個新的發展趨勢。個性化的服務需求、用戶的利益已經成為書籍以及其他信息資源與圖書館讀者之間的關聯。而這些信息庫通過日常業務數據分析和數據挖掘技術是可以得到的。如:讀者庫中的數據記錄,館藏圖書的借還信息等。此外,對圖書館圖書館藏進行數據挖掘還可以為圖書館提供更加合理的館藏,把握用戶直接和間接需求并對其提供個性化的服務起到決策支持的作用。因此在高校圖書館中應用數據挖掘是可行的。
四、數據挖掘在圖書館中可以有哪些應用
1.對圖書館的用戶進行數據挖掘
從數字圖書館的大量訪問信息中挖掘用戶的訪問記錄中挖掘、預測讀者對圖書館中圖書資源的興趣趨向。采用關聯規則和聚類方法發現不同的用戶群體,然后對這些不同的群體提供信息定制服務,幫助讀者快速發現、合理應用館藏資源。
2.對圖書館藏書結構和讀者借還信息庫進行數據挖掘
在讀者使用圖書館資源的過程中將會留下很多有很大用處的讀者自身的基本信息,如讀者所在學院、所學專業信息,借還書的歷史信息和其他有價值的信息,圖書館的工作者可以通過獲取到的這些讀者信息,利用分類、聚類等方法挖掘有價值的數據,獲得這些信息可以提供個性化的信息服務,即根據讀者的借閱興趣或借閱大的方向,積極為讀者提供他們可能感興趣的寶貴的館藏資源。通過數據挖掘結果的分析,尋找各學科領域的一些相關知識,從而來優化圖書館的館藏布局。
3.對數字圖書館中的文獻流通情況進行數據挖掘
目前各大高校圖書館都開設了數字圖書館,這種方法可以給讀者更精確的服務。紙質圖書的借還信息工作人員只能跟蹤到書,可以知道哪一本書被借出,借出的頻率有多高,但是并不能知道這本被借出的書籍是否真正被充分利用了,這本書的哪一部分內容對讀者有很大的吸引力。這些問題在數字圖書館中都可以解決,數字圖書館把整本的書給拆開來。精確到每一篇內容,每一個段落甚至可以追蹤每一句話。這樣在當讀者在數字圖書館中留下的記錄中我們可以很輕松地看到該讀者曾看過哪一篇文章。可以查詢到某一篇文章的被引次數,這有利于管理人員把握讀者的興趣取向,為開展圖書館個性化服務提供有力的資料保障。同時管理者也可以根據館內資源的補利用頻次指導從而開發自建數據庫,把挖掘出來的那一部分“對讀者很有用處”的文章信息通過分門別類重新整合成不同的子庫。這樣讀者可以根據自己所需進入不同的子庫當中來挑選資料。比較起來在龐大的一個總庫里,在千萬條信息當中去篩選自己所需知識要快的多也更精確的多。
五、數據挖掘技術面臨的挑戰和局限性
雖然數據挖掘技術在圖書館中的應用是可行的,從理論上也是行之有效的,但是目前這項新的技術在圖書館中的應用還不完善,受到管理水平、硬件水平、自動化程度等客觀條件的制約,真正開發出一款適合圖書館應用的數據挖掘軟件還并不多見。數據挖掘技術在圖書館中仍然有著廣闊的應用前景,有待進一步深入研究和探討。