〔摘 要〕用UML取代傳統方法,本文對高校圖書館的數據庫進行分析和建模,并探討如何利用館藏文獻籌建相應的通用型、標準化的圖書館的特色數據庫。
〔關鍵詞〕UML;自建數據庫;數字圖書館
〔中圖分類號〕G250.74 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)02-0112-02
Research of the Self-building Characterized Library Database Based on UMLLiu Yili
(Library,Jilin Architectural Engineering College,Changchun 130021,China)
〔Abstract〕Based on UML,this article made an analysis and modeling of the database of the higher educational libraries,and illustrated how to build the standard characterized database with the documents of the library.
〔Key words〕UML;self-building characterized library database;digital library
現代圖書館已進入數字圖書館階段,數字圖書館的第一基本特征就是信息的數字化,各個圖書館都在努力研究數字圖書館的技術,而特色化建設可以滿足讀者的專業需求,提高圖書館的競爭力和知名度。每個圖書館都有自己的特色藏書,這些極具針對性、專業性、特色性的文獻信息,由于時間跨度大、收藏范圍廣,所以具有一定的權威性。如果進行有效的開發利用,就可能成為某一學科、專業或專題的“資料庫”。因此積極開展特色數據庫的建設已成為各高校圖書館文獻資源建設的重要內容。
自建數據庫不是簡單的互聯網上的圖書館主頁,而是一整套面向對象的、分布式的、平臺無關的數字化資源的集合,其實質是形成有序的信息空間。主要有信息的獲取與創建、訪問與查詢、動態發布管理等幾個方面。
1 系統的建模分析
高校圖書館有必要將各館積累多年的成系統的特色館藏圖書進行數字化建庫工作。圖書館自建特色數據庫在實現的過程中,逐漸形成了如下工作流程:(1)數據提交:將搜集的稿件或學生提交的電子表單,簡要加工記錄。(2)審核:根據專題分類,對提交的數據進行審校。(3)標引:將審核后的文檔標準化,進行標引加工。(4)數據發布:把整理好的數據放到各個專題數據庫中進行發布。
分析評價本系統的需求,充分考慮圖書館的實用性,用統一建模語言UML來對圖書館的自建數據庫進行建模分析。UML(Unified Modeling Language)是一種定義良好、易于表達、功能強大且普遍的建模語言。它溶入了軟件工程領域的新思想和新技術,它是進行需求分析和概要設計的利器[1]。通過建模,可以使不同人員從不同層面了解一個復雜的軟件系統,并且隨著模型驅動構架的日漸成熟,將模型直接轉化為軟件產品。
在此基礎上,建立系統的用例圖,以便清楚、準確的表達系統的功能需求,對未來系統的行為建立模型。Visio提供了一個UML構造塊的圖形化模板元素的綜合建模平臺,可以幫助我們把各種UML元素組織成模型,并且還可以從模型出發,直接產生框架代碼[2]。目前,只有Visio和Together支持將UML模型直接轉換為代碼。
下面給出利用Visio 2002進行系統的UML可視化建模。系統的用例圖如圖1、2所示:

2 數據的存儲方案
圖書館的自建數據庫是一個龐大的數字資料庫,應該力求把傳統介質的資料數字化,以方便對信息資料的保存和網上發布。圖書館的資料一般有書刊、報刊、手搞、圖片和影像等,一些珍貴或專業的資料是紙質文獻,這就需要把這些資料回溯建庫,轉化為計算機讀取的數字化資料。
圖書館特色數據庫采用的數字信息資源系統,是具有高度組織的、超大規模的資源庫群,是經過加工整理后形成的增值的、有序的知識中心,對信息資源的組織是非常重要的。我們都很熟悉的例子是過去圖書館中的圖書分類卡片,每張分類卡片本身就是一個信息資源,它提供了相關書籍的信息。而尋找信息的有效方法,不是查找信息資源本身,而是查找小得多的、更集中的、能夠引導找到有用信息源的數據集,元數據就是實現了這樣的功能。元數據為各種形態的數字化信息單元和資源集合提供規范、普遍的描述方法和檢索工具。元數據為分布的、由多種數字化資源有機構成的信息體系(如數字圖書館)提供整合的工具與紐帶。
因此,在數據加工階段采用XML(Extensible Markup Language)技術對資源內容進行置標,是實現高效跨庫檢索的重要基礎,充分利用元數據,可以完善由多個異構系統構成的協同計算環境的管理[3]。RDF(Framework for Describing Resources)的含義就是描述資源的框架,它采用的是另外一種方法,即它允許任何人定義元數據來描述特定的資源,由于資源的屬性不止一種,因此實際上一般是定義一個元數據集,這在RDF中被稱為詞匯集,詞匯集也是一種資源,可以用URI來惟一標識,這樣,在用RDF描述資源的時候,可以使用各種詞匯集,只要用URI指明它們即可。當然,各種詞匯集的受歡迎程度可能不同,有的也許只是被定義它的人使用,有的卻由于其定義的科學性為許多人所接受,如以類似圖書館卡片目錄的方式來定義資源的詞匯集Dublin Core,定義教育內容IMS元數據,定義個人信息的V-card元數據等。
本系統參照了目前國際上廣泛認同的書目描述元數據標準Dublin Core[4],確定了數字圖書館自建數據庫系統元數據的XML格式,設計了多種對應于不同資源類型的元數據方法并存,并以XML的RDF資源描述體系框架將它們封裝在一起。這樣,既保證了針對不同資源類型描述的元數據要求,也充分利用了圖書館原有的元數據資源(主要為CNMARC記錄),使得元數據之間的轉換與整合更為容易實現,也為未來向新的體系與標準遷移提供了便利。
3 系統的開發與實現
本系統采用B/S(Browser/Server)和C/S(Client/Server)相結合的結構方式。本系統包含用戶數據提交和信息員數據采集裝載兩部分內容,其中用戶數據提交和檢索下載在Web環境下運行,采用B/S模式,圖書館的信息加工員對數據進行采集、裝載和管理員完成管理工作采用C/S模式。采用經過擴展的三層Web體系結構,建立三層客戶/服務器邏輯結構,保證了數據的完整性和安全性。在我們的三層結構中,圖書館服務器在系統的結構中處于核心位置,提供對數字對象的安全訪問并且與各對象服務器進行通信。索引信息位于圖書館服務器中,而原始的文獻資源存放于各個對象服務器中。數據庫管理在后臺進行,提交部分采用瀏覽器模式,文檔的加工及轉換由于和應用程序相關性很強,不便用瀏覽器模式,一般由管理員完成,采用專門的用戶管理界面。其它應用工具主要包括文檔格式轉換器、中圖分類法查詢模塊、數據庫查詢工具等等。
在我們的系統中,實現了一個統一的基于瀏覽器Web界面的元數據、檢索和發布界面,對分布在異地的多個數據源的數據進行不分來源的實現[5]。就是分布更新、統一索引,利用統一的元數據庫和統一的全文索引庫實現統一的檢索。在此,數字圖書館服務器承擔了主要任務,它統一管理和維護我們的元數據庫、全文索引庫,保證把每個后臺節點的數據變化都能及時的反映到統一的元數據庫和全文索引庫中。數據庫的信息和數據需要通過互聯網發布,這里的發布不僅僅是一些靜態網頁的發布,更重要的是能為各種用戶提供個性化的信息服務。如:快速、準確的返回動態的查詢結果;通過跟蹤用戶在頁面上的點擊規律,發現用戶對哪些信息感興趣。
開發數字圖書館這樣一個具有一定規模和復雜性的軟件系統是一項工程,必須按工程學的方法加以組織,并經過分析、設計、實現、測試、維護等一系列的軟件生命周期階段。提供基于元數據的數據提取與錄入、在線編輯與檢索、與關系數據庫的數據集成處理等功能,系統中所有資源的元數據都是基于XML來進行存儲和管理的,成功實現為進一步開發實現實用的數字圖書館系統積累了一定的經驗。
參考文獻
[1]Joseph Schmuller.UML基礎、案例與應用[M].北京:人民郵電出版社,2004.8.
[2]劉曉華.UML基礎及Visio建模[M].北京:電子工業出版社,2004.10.
[3]郭景峰,陳玲靈.基于XML的數字圖書館技術體系結構研究[J].計算機科學,2002:82-83.
[4]趙慧勤.網絡信息資源組織——DublinCore元數據[J].情報科學,2001.4:439-442.
[5]Jim Conallen.用UML構建Web應用[M].北京:中國電力出版社,2003.11.