張 艷
(陜西省考古研究院,陜西西安710054)
圖書館作為信息集散地與知識傳播的主要渠道,其核心價值集中體現在服務質量的優劣及效率的高低。目前,隨著信息化程度的加深,圖書館傳播信息、分享知識的環境發生了巨大的變化,如信息渠道增多、信息量幾何倍數增長,讀者需求層次趨于多樣化,查找信息的速度要求更快等。顯然,傳統的數據統計分析和查詢檢索機制,已不能滿足讀者日益增長的需求。因此,圖書館迫切需要建立一個現代的資料管理與用戶信息分析系統,幫助管理者進行科學決策,以提升圖書館的服務質量。
基于基礎數據知識和信息挖掘,是一種“從現存的大量的、不完全的、模糊的、隨機的實際應用數據中,抽取或識別出隱含的、未知的、但又確實存在的信息,幫助決策者和管理者尋找數據潛在的關聯,發現對決策者有價值的關系和模式,用于預測未來的趨勢及決策行為”的思想方法與技術體系。因其所獲信息一般具有先前未知、有效和實用的特征,現已廣泛地應用于電信、電子商務及市場管理等領域。

圖1 數據與知識挖掘的處理過程
數據挖掘技術可以簡單而有效的分析集中數據。對圖書館而言,首要的目的是利用它從模糊的數據中,獲得對讀者有用的知識,對管理者決策有用的信息,如發掘用戶的興趣,為個性化服務提供數據支持;評估和預測館藏資源的建設,為采購項目的種類和數量提供有力地決策依據,從而提高圖書館和用戶之間的互動質量。
正確地使用數據挖掘,首先就得了解其一般的運作過程及相應的數據分析方法與技術。為了直觀地顯示數據挖掘應用的一般過程,我們基于對其功能與分析方法,構建了一個基于知識與數據挖掘的決策流程示意圖(如圖1)。
如圖1所示,知識挖掘的一般過程可以描述為相對獨立又相互關聯的六個步驟。
第一步,數據的選取。這是整個過程中最為重要的環節。數據選取應緊緊圍繞關注的問題和預期目標展開。如想了解讀者的需求、使用模式及最優的館藏資源配置,指導圖書館的建設,就要選擇與其相關的讀者借閱情況、書籍流通情況等數據。這些數據可以容易地從圖書館的基礎數據找到。
第二步,數據的清洗。通過建立挖掘數據庫,對選取的數據進行進一步甄別,剔除孤立的、不完整的和不具有任何含義的數據(如因操作員錯誤產生的不完整的數據等),以免導致挖掘過程錯誤的發生。
第三步,數據的濃縮。前一步進行的同時,利用圖書館以外的數據(如調查問卷等資源所得的數據),進一步補充、豐富數據庫內容,以彌補現有數據的不足,使知識挖掘過程更加高效,并產生更好的效果。
第四步,數據的編碼和轉化。挖掘數據建立完善后,要將對不同的來源與格式的數據轉換成數據挖掘算法的可用形式,以使所有的數據都適應計算機的處理要求(例如更改出生日期年齡,由“是/否”改為“1/0”,改變男/女到 M/F)。
第五步,知識挖掘的執行。選擇一種有效的知識挖掘算法與模型,對數據進行分析,得出對決策有用的信息。分析內容主要包括:①實體之間的關聯規則,如30%的學生沒有在規定的時間歸還借出的圖書等;②分類信息,如讀者群的分類、借閱圖書的主題的分類;③傾向與分歧分析,如用戶借閱資料興趣偏好、或某類材料讀者群傾向;④途徑信息分析,如圖書館的網站上訪問的最流行的路徑。
第六步,報表的生成。結果的有效性某種程度上取決于其表現形式。數據挖掘的結果一般應采取圖形圖像、計劃、圖表等直觀的形式來展現,以清楚地顯示數據之間的相關性。因為其目的在于幫助觀察者發現結果的意義,做出正確的決定。
需要說明的是,數據挖掘的過程是一個不斷反饋的過程,各步驟也不是一次完成的,部分或全部可能還要反復的進行,直到達到預期結果。
為了進一步理解如何利用數據技術提高圖書館管理,在此我們舉一個有關圖書館館藏建設與讀者個性化服務信息決策分析過程的案例進行詳細說明。
首先,根據設定的問題與目標,數據選取應重點選擇與館藏材料借閱及用戶組群信息相關的數據,尤其是兩者之間具有關聯性的數據。具體而言,其內容與來源可分為以下八類:
1)用戶查找與使用的館藏資源數據。包括資料的標題、專題類別、學科分類、材料形式等。這些數據可以很容易地在圖書館的在線目錄查詢日志文件中找到。
2)有關用戶身份、職業、供職部門的數據以及他們所借材料的類別,數量,時間長短,特定時期內借閱的頻度,歸還材料的及時與否等。這些數據可以從計算機管理日志系統中查找。
3)有關用戶訪問圖書館的網站路徑數據。假設我們已經命名了網站的網頁(例如,A,B,C,D等),在每個用戶訪問時,我們就可以查詢用戶登陸路徑(例如,如果從A頁轉到C頁,然后到D頁,最后到B頁,其訪問路徑就可描述為“ACDB”)。利用這些數據,可以找到最熱門的網址和瀏覽一個網站最流行的路徑。這些數據存儲在圖書館的Web服務器日志文件中。
4)有關圖書館的“期刊集”(印刷或電子)的數據。有價值的數據包括:期刊名稱,借閱人或部門、類型(印刷或電子式)、作者、供應商以及其它合集時期。另一重要的數據可能是期刊使用頻率與用戶數。這些數據,印刷材料可以從雜志的借閱登記表中獲得;電子材料可以從保存在電子期刊托管服務器web日志文件接收。
5)相關館際互借資料的數據。如用戶群體、資料來源、獲得資料時間及費用成本要求等。可用于分析的數據是用戶的類別、部門,材料供應商,獲得資料的時間及成本。
6)有關資料費用的數據。像書本、期刊(紙質的、電子版的),視聽材料、電子訂閱、電子書籍等。有價值的數據主要是資料題目,材質種類,收購的花費。
7)從研究機構獲取的各種參數。如每類學校成員總數與各類成員的數量、部門數量及部門內課程設置類型和數量,即為圖書館分配的預算。事實上,很多時候上述參數常被作為決策過程中的一個標準。
8)問卷調查數據。通常涉及到用戶對于圖書館所提供的服務的滿意程度。被選擇用于分析數據包括:每一個評級(滿意、非常滿意、一般)百分比和用戶數量(例如30%或120名本科生-回答他們非常滿意),用戶類別,用戶部門、用戶的出生日期,用戶的學歷等。
其次,對選取的數據進行預處理,建立知識挖掘數據庫。本研究案例中,主要希望發現兩個關系:一是用戶組和他們所借材料類型的關系;二是用戶組和材料借用時間之間的關系。同時,我們也希望有一個指標,或者定義一個有關“材料的使用和它的可用性”指標,并據此看是否有增加或減少某個特定的材料的需要。由此,該任務中數據庫內容至少應該包括用戶信息、館藏資源信息、借閱材料信息三大部分內容,各自信息數據可以作為數據庫的一個字段。這里我們簡單列出三部分內容所需數據字段表(表1,表2,表3)。

表1 用戶信息表

表2 資料信息

表3 借閱數據表
根據以上表格,可以通過空位填充來豐富完善分析所需數據。需要注意的是,填表前首先對原始數據信息進行轉化與編碼處理,以適應計算機處理的通用形式。譬如可以把一個部門的名稱轉變成用數字代表(如管理和生產工程用11;礦物資源工程用12,環境工程用13等),把用戶特征用大寫英文字母代替(如本科生用P;碩士研究生用M;博士生用D;教授用PR、員工用E等)。如此編碼,就可使數據量大大減少,從而提高數據處理的速度。對于材料的特征形式,一般可以分兩類:一類是自然科學,包括數學、計算機、物理等;另一類是人文學科,包括哲學、文學、藝術等。
第三,使用SPSS Clementine數據挖掘算法,對數據進行聚合與分類,建立上述數據之間的關聯,得出不同用戶和借閱的材料類型(即每組用戶群借閱不同類型材料比例),如圖2。用戶和歸還材料時間之間(即每組用戶歸還材料時間的對比)關聯性結論,如圖3。

圖2 不同讀者群借閱資料學科類別比例對比

圖3 不同讀者群歸還材料時間比例對比
要說明的是,本案例研究中并沒有使用所有最初插入的數據,但他們可以用于其它不同的相關性分析中。由于他們已經插入表中,要獲得其他相關性是非常容易的。導出類似的相關性的表也是非常簡單的,只要在分析項目中加入相關的參數。最重要的是,確定適當的要素關系,以及最想獲得的信息類型。
第四,分析統計表,對結果進行評估與解釋,進而做出決策。首先,從圖二中可以看出,64%研究生借的是關于科學方面的書,只有36%借閱文學書籍。不同讀者群的閱讀興趣取向由此得以清楚表現,再結合服務不同讀者的群數量比例參數,我們就可以館藏資源進行合理的優化配置。從圖3可以看出,83%教授還書的時間延遲,和其他人員形成了明顯反差,據此我們可以制定有針對性制度建。
另外,仔細觀察材料用途的數據,我們還可以通過關聯材料的“借出數量“和”預訂數量“,確定一個關于利用率指標公式.即:
材料的直接利用指標(IDAM)=預訂用戶數量/借出的數量
這個公式表示一種材料在一定時期內預定與借出數量之間的關系,并顯示借出這種材料一個直接的可利用率。只要該指標隨時間增加,對于這種材料的需求也隨之增加。例如,在一年的一段時期內材料A被借10次,并在同一期間被預定5次,這意味著這種材料有5次不滿足需要。它的IDAM指標是5∶10=0.5。及時增加這種資料的數量,這個指標將得到改善,也就不會有那么多的預定,且會被更多的使用。通過使用這些指標,我們可以確定一個界限,根據它可以很容易地確定是否有必要增加這種特定材料,以滿足用戶的需求。除此,認真觀察分析后的數據,我們可以發現更多指標,幫助獲得關于各種關系的有用結論。這些結論可以運用于圖書館的其他管理程序之中,幫助圖書館管理者看清楚圖書館發展趨勢與方向,以提升圖書館的整體服務質量。
本文以圖書館各區域的日常基礎數據為分析對象,旨在說明數據挖掘技術是如何選擇、使用和分析這些數據從而得出有用的結論和信息,提升圖書館的運作和服務。文中給出了圖書館所有數據資源的詳細列表,并一步一步的詳細描述了基于“知識發現和發掘”技術的分析方法和過程,介紹了一個應用該技術的基于真實數據的研究案例。另外,界定了一個提高館藏資料利用率與可用性的指標。這個分析方法最終目的,是利用最新的數據挖掘技術,通過對已選取數據的分類、統計、分析進而得出有益的信息,幫助決策者進行決策和戰略規劃,從而構建一個更有效的內部程序機制,提升圖書館的服務質量與效果。
[1]楊 輝.基于數據挖掘技術提高圖書館服務質量[J].信息與電腦,2012(7):173-174.
[2]邵峰晶,于忠清.數據挖掘原理與算法[M].北京:中國水利出版社,2003.
[3]李文闊,李永先.數據挖掘在數字圖書館中的應用研究綜述[J].新世紀圖書館,2012(2):30-32.
[4]葉新友,晁成春.數據挖掘技術在高效圖書館中的應用[J].新世紀圖書館,2005(1):50-51.
[5]陳京民.據倉庫與數據挖掘技術[M].北京:機械工業出版社,2001.
[6]張永生,劉苗苗.基于數據挖掘的圖書館管理模式分析[J].科技資訊,2010(3):245.
[7]元昌安.數據挖掘原理與SPSS Clementine應用寶典[M].北京:電子工業出版社,2009.
[8]Meletiou A,Katsirikou A.Qualitative indicators of services of libraries and management of resources:methodologies of analysis and strategic planning[C]//Paper presented at the 15th Congress of Academic Libraries,San Antonio,TX,May,2006.