李燕 劉道芳
(黃河水利委員會信息中心,河南鄭州 450004)
結合目錄學的理論來探討數據資源編目已經成為國內外信息化研究的主題。如國外的B.S loan在2000年11月提出了第一份數據資源建設目錄。近年來各國級政府和部門非常重視數據資源目錄服務體系研究,共同探討了數據目錄服務及技術支撐體系的理論研究與系統開發。隨著IT技術的進步,給數據目錄應用帶來了機遇,在智能化和便捷化方面得到了快速發展;同時,通過運用數據目錄管理技術體系,數據目錄為數據資源的共享發現與快速定位變得更加方便。
從整體上看,盡管國內外學者對數據資源的共享,對政府數據資源目錄體系建設探討政府數據資源目錄管理的基礎設施問題等,但專門從數據資源目錄角度研究數據資源信息的注冊、發布、組織、管理、服務等管理問題還比較少。近年來,數據資源目錄研究大多集中在數據目錄技術體系理論研究,而隨著數據目錄技術理論體系研究的深入,以及數據資源目錄服務應用的拓展,相關的理論體系研究逐步完善,應用成果日漸豐富,但在水利行業方面的數據資源目錄方面的研究及應用較少,尤其缺乏其在目錄體系方面的研究與應用。
隨著黃委信息化的快速發展,治黃數據資源不斷豐富,數據量呈指數級增長。產生于黃委各部門數據資源,包括由測繪、地質、水文、氣象、水環境、防汛抗旱、水資源管理與調度、水土保持、工程建設與管理、規劃設計、科學研究、政務管理等各相關單位和部門在黃河治理開發與管理的生產實踐和科學研究過程中所產生和積累的數據,分散存儲在黃委機關及委屬單位,且格式與標準不統一,致使大量現有的數據資料和數據成果無法被用戶及時準確地了解,從而造成了這些數據資料和數據成果未能得到充分利用。因此,如何改變這些現狀,適應治黃信息化建設的需求,滿足人們在大量信息資源中準確、全面、迅速、方便、經濟地獲取所需數據資源,已顯得十分迫切。這就需要實現數據資源的有序組織并提供一種支持網絡發布、快速檢索、定位、獲取黃河數據資源即黃河數據共享服務系統。
數據資源目錄是一種層次化可伸縮的樹狀結構,并具有可擴展性、科學性等特性,數據資源編目采用目錄控制和資源目錄元數據技術,遵循《數據資源目錄及元數據標準》(SZHH 36—2012)要求,以數據分類體系和關鍵詞表為編目控制值域,利用數據資源目錄元數據,對數據資源不同類別、不同層次的目錄進行重新組織和數據資源編目,滿足從資源分類、業務主題等多個維度實現對數據資源的管理、發現、定位、共享,為數據資源檢索和資源開發共享利用提供有效途徑,并為用戶提供數據資源導航、瀏覽等提供技術支撐。
系統建設采用JAVA EE三層架構,軟件開發中采用MVC框架,通過統一的WebService服務和基于角色的訪問控制方式,實現面向信息提供者的元數據發布服務、面向信息使用者的目錄查詢服務、面向目錄信息管理者的元數據及目錄管理服務和面向管理員的系統管理服務。如圖1所示。

圖1 黃委數據資源目錄體系總體技術框架Fig.1 Overall technical framework of data resource catalogue system
應用支撐平臺是支撐應用系統開發與運行的重要基礎設施,為系統提供統一標準的開發運行環境。應用服務為一個和多個具體應用直接提供支撐服務,每一個應用服務支撐一個或多個業務應用;數據服務通過封裝底層數據庫表形成邏輯業務訪問的接口,為上層應用提供數據訪問服務,其中,數據資源目錄是按照一定的規則對數據資源元數據的排列,以核心元數據為主要描述方式,對數據資源進行分類和格式標準化,形成數據資源目錄的控制管理與有序組織。通過數據目錄實現快捷、精確地了解數據資源情況,實現對數據資源的導航、檢索、定位和交換服務;元數據管理服務提供對黃委的全部元數據進行管理和服務功能,建立集中的元數據數據庫。核心元數據為目錄檢索服務,全文元數據為數據共享下載和數據共享交換服務;數據交換服務是在統一的數據傳遞機制、統一的數據接口標準和統一的數據格式的基礎上,實現應用系統間統一的數據交換與共享;目錄服務主要是以元數據為核心的目錄查詢服務,提供搜索引擎和目錄查詢功能。也提供核心元數據和數據目錄元數據的上傳和發布。服務資源的發布與管理采用集成開發平臺來實現。服務發布管理通過服務登記注冊,在應用支撐平臺進行發布;集成工具是遵循應用支撐平臺技術架構封裝各類開發生成的服務資源,通過集成服務登記注冊,在應用支撐平臺進行發布。
3.1.1 數據資源分類
數據資源分類是在參考國家和行業相關標準和遵循科學數據分類基本原則的基礎上,在數據集保證穩定性、惟一性、可擴展性等原則下,結合黃委數據資源的實際,采取以線分類法為主、面分類法為輔和結合數據資源來源的分類方式,對數據資源按照門類、大類、中類、小類進行劃分,以進一步確保分類體系的完整和正確。
黃委數據資源分類劃分為基礎地理、遙感、經濟社會、水利水電工程、水文氣象、水環境及水生態、水土保持、防汛抗旱、水量調度與水資源管理、規劃設計、科學研究、政務管理、圖書檔案和新聞媒體等14個門類,對每個門類,又進行大類、中類和小類劃分,其中,基礎地理數據和遙感數據采用混合分類法。基礎地理數據按線分類法劃分到中類,遙感數據按線分類法劃分到大類,中類按面分類法。其他12類用線分類法。該分類方案基本涵蓋了黃委數據資源生產、加工、使用和管理維護過程中的不同視角,能夠較好地滿足對黃委數據資源進行組織、管理和使用的需求,而且易于理解和接受。
3.1.2 數據資源編碼
數據資源編碼是在數據分類的基礎上將資源對象(編碼對象)賦予具有惟一的符號,從而確定數據資源的位置,參照國際上通行的做法,結合國內數據資源標識的發展趨勢,黃河數據資源編碼采用7 位混合碼,門類為1 位英文字母碼:A~Z;大類、中類和小類各2位數字碼:01~0 9,按采用線分類按門類、大類、中類、小類的從屬關系順序編碼。
結合黃河數據資源的實際情況和業務特點,對現有元數據標準進行了擴展,制定并頒布了《數據資源目錄及元數據標準》,包括資源的描述信息、內容信息和聯系信息,與現有元數據標準不同的是,內容信息隨數據資源類型的不同而變化,以便用戶對數據資源的了解和檢索。元數據的存儲采用邏輯集中、物理分散的模式。借助數據目錄數據,實現對數據資源的管理、定位、共享和交換,為使用者瀏覽數據資源的基本情況,發現和共享數據,實現方便快速地查詢、交換、管理數據資源。
在明確數據資源目錄使用對象基礎上,通過分析Web Services的基本協議及應用模式,針對黃河數據資源特點及滿足不同用戶差異化的數據資源共享的需求,對We b服務技術、角色訪問控制和資源目錄思想加以集成應用,使數據資源具有不同的角色屬性,構造出基于角色訪問控制的數據資源編目服務集成模型。該模型把數據資源信息通過SOAP封裝和元數據描述,包裝成Web服務,并對不同數據資源不同內容描述的元數據進行分類組織和編目,同時,與角色信息集成,開發完整的基于角色訪問控制的數據編目,為不同權限的用戶提供相對應的數據資源的元數據發布與共享的一套完整解決方案。其模型如圖2所示。

圖2 面向角色定義和基于Web 服務的數據資源編目服務集成模型Fig.2 Integrated model of role-oriented and web-based data resource catalogue services
3.3.1 面向資源目錄提供者的元數據注冊服務
該服務針對元數據注冊人員,它根據《數據資源目錄及元數據標準》(SZHH 36—2012)而開發的數據資源目錄元數據注冊發布模板,并通過目錄元數據的自動抽取和數據項復用技術,從不同的數據資源分類中,提取和復用相同元數據的描述信息和聯系信息,形成一個數據目錄特征值域,為建立數據目錄體系奠定基礎。具有元數據注冊、自動更新等功能。元數據注冊人員可以對基礎地理、遙感等數據資源,按門類、大類、中類和小類的目錄元數據進行注冊,目前,已完成基礎地理、遙感等數據資源目錄的各類目錄元數據及節點元數據的注冊。
3.3.2 面向資源目錄使用者的目錄檢索和數據下載服務
該服務針對數據資源目錄使用人員, 它是在遵循《數據資源目錄及元數據標準》(SZHH 36—2012)的基礎上開發的目錄服務,具有目錄瀏覽、檢索和導航服務功能,將數據資源以目錄樹的形式組織起來,以層次分類的形式展現給使用者。使用者可以對基礎地理、遙感等數據資源,按門類、大類、中類和小類進行逐層展開瀏覽和導航,目前,已實現對基礎地理、遙感等數據資源各門類目錄元數據及節點元數據的檢索和節點數據資源的下載。
3.3.3 面向資源目錄管理者的元數據及目錄管理服務
該服務元針對數據資源目錄管理人員,根據業務工作流程和數據資源管理現狀的基礎上開發的管理服務,包括元數據管理和目錄管理兩個方面的內容,其中,目錄元數據管理主要實現數據資源目錄元數據的增、刪、改、審核、發布等,目錄管理主要實現目錄生成、目錄注冊、目錄增加等功能。管理人員可以實現對基礎地理、遙感等數據資源各門類目錄元數據及節點元數據的審核、發布、修改、編輯等。
在分析國外數據目錄體系研究和實踐的基礎上,結合我國數據目錄管理與服務的現狀和需求,在黃河數據資源目錄研究及應用的基礎上,豐富發展了水利數據資源目錄體系,提出了面向角色定義和基于We b服務的數據資源編目服務集成模型,首次為黃委用戶提供數據資源目錄瀏覽與查詢。