袁 滿, 劉學博, 翟紅翠, 姚桂杰, 王 芳
( 1. 東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318; 2. 中國石油華北油田分公司 數據中心,河北 任丘 062552; 3. 中國石油大港油田石化分公司,天津 300280; 4. 東北石油大學 校機關,黑龍江 大慶 163318 )
?
基于MDR/MFI標準的語義數據統一注冊模型
袁滿1, 劉學博1, 翟紅翠2, 姚桂杰3, 王芳4
( 1. 東北石油大學 計算機與信息技術學院,黑龍江 大慶163318;2. 中國石油華北油田分公司 數據中心,河北 任丘062552;3. 中國石油大港油田石化分公司,天津300280;4. 東北石油大學 校機關,黑龍江 大慶163318 )
為解決國際標準化組織提出的互操作性元模型框架(MFI)系列標準中,映射注冊標準的映射度不能滿足實際應用需要的問題,在MFI-10和MFI-12標準基礎上,提出三層語義數據統一注冊模型,包括底層數據源層、中間注冊層和頂層全域共享數據模型層,對復雜映射類型進行抽取與定義,并擴充到映射注冊元模型;融入映射、注冊技術和MDR標準,并作為全域數據模型。石油領域分布式E&P數據庫與EPDM數據庫等的語義注冊的應用表明,語義數據統一注冊模型能夠靈活、規范地解決企業數據的共享問題。
MFI; 互操作性; 信息模型; 映射度; 映射注冊; 數據集成
隨著分布式系統及網絡環境的日益增多,出現大量相互獨立的異構信息源系統。為使其中數據能夠實現共享,需通過信息集成技術[1]建立公共的集成環境,為用戶提供統一的訪問界面。信息集成技術研究始于20世紀70年代中期,已成為數據領域的重要研究方向[2]。
互聯、互通和互操作是信息系統發展過程中必須具備的基本特征[3],其中互操作性成為研究重點,也是訪問信息資源的基本要求[4]。目前,致力于推動信息系統從“孤島性”向“互操作性”發展,如美國聯邦政府提出CORE.gov服務[5],為組件的開發、服務、注冊和共享提供協作環境;歐盟建立歐洲語義互操作中心及歐洲互操作性框架[6]等。信息集成方法有聯邦數據庫方法、Wrapper/Mediator中間件集成方法及數據復制方法,這些方法缺乏對語義互操作問題的解決能力,即解決信息系統互操作性和數據集成的能力。
互操作中包括很多基礎性的公共互操作性交互框架,如針對信息的統一表述方式的可擴展標記語言(XML),但是XML僅提供語法交互框架,沒有提供語義互操作性管理。針對語義互操作性管理,如存在于企業專業領域的分布式異構數據源間難以共享的問題,國際標準化組織提出互操作性元模型框架(Metamodel Framework for Interoperability,MFI)[7]系列標準,從信息模型注冊、模型映射注冊角度,為信息資源目錄實施注冊、管理及應用提供重要的參考指標與依據,并給出描述元信息的規范化“元數據模型”,能夠在一定程度上加強信息系統間的互操作性,通過建立注冊和映射注冊方法加強對語義的互操作性,解決傳統數據未提供語義互操作性管理的問題。
由于MFI系列標準過于簡單、籠統,與相關標準之間彼此孤立,所以它們難以在企業中直接應用。筆者對MFI系列標準進行分析和擴展,并結合ISO/IEC提出的ISO-11179 MDR(Metadata Registry)[8]標準,提出一個三層框架的、基于MDR/MFI標準的語義數據統一注冊模型,通過注冊解決語義集成問題。同時,針對MFI系列標準中MFI-10標準提供的映射度遠不能滿足企業復雜映射的應用需求,結合石油領域的映射需求,對映射度進行擴展。此外,為解決多異構數據源間互映射問題,提出各異構數據源統一向全域MDR標準模型的1∶1映射關系,有效降低映射的復雜度。
1.1信息模型注冊元模型
信息系統間的互操作包括兩方面內容:(1)對系統之間交互信息所遵循的語義、語法進行記錄,即注冊;(2)準確說明雙方交互信息在語義、語法方面的對應關系,即建立語義、語法方面的映射。其中注冊是解決互操作性問題的關鍵,它擁有一定使用歷史和較為成熟的技術,如服務注冊,即通用描述發現集成協議(UDDI)[9]、Web服務描述語言(WSDL)[10]及元數據注冊(MDR)標準等。
結合注冊技術,MFI-12標準制定信息模型注冊元模型(見圖1),對信息模型進行注冊。

圖1 MFI系列標準信息模型注冊元模型Fig.1 Metamodel for MFI information model registration
根據MFI系列標準信息模型注冊元模型進行注冊,可完整地記錄信息模型遵循的語法和語義。信息模型注冊元模型規范中術語定義及說明包括:(1)實體類型,是一個抽象元類中每一個代表特定實體類型的實例,實體類型元類可用于一個符合ISO/IEC 9075-2:2011[11]所描述的、SQL核心規范的、數據庫結構的注冊信息,即信息模型的實體。(2)屬性,一個抽象元類中每一個代表特定屬性的實例,即信息模型中實體的屬性。(3)描述域,約束信息模型中實體屬性的數據類型。(4)可枚舉域,當信息模型中實體屬性約束由其他實體類型構成時,該約束為可枚舉域。(5)有效值,構成某一可枚舉域的約束值。(6)實體專業化分層,實體類型根據不同分類方式分為不同子類,每個子類與其父類的關系即實體專業化分層。(7)關系,實體與實體之間的關系名稱與類別。(8)關系內容,描述關系的具體關系內容,包括實體與實體之間的鏈接詞和基數。(9)關系組,實體與它所擁有關系內容的對應關系。
文中提出三層模型框架,結合MDR與MFI標準注冊機制,對異構信息模型與其映射關系進行注冊;并參考UDDI web服務的注冊管理機制,構建異構信息模型與其映射信息注冊平臺。
1.2映射注冊元模型
隨著信息集成與互操作的發展,數據映射技術在數據集成中發揮重要作用。結合映射技術,MFI-10標準制定基本映射注冊元模型[12],提出異構模型之間建立映射的規范,并對映射與映射關系進行注冊。映射信息注冊元模型見圖2。

圖2 MFI系列標準映射注冊元模型Fig.2 Metamodel for MFI mapping registration
根據MFI系列標準映射注冊元模型進行注冊,可完整地記錄映射信息與映射規則,映射注冊元模型規范中術語定義及說明包括:(1)模型元素,構成該模型的任意元素,包括模型的名稱、屬性、關系及約束類型。(2)模型元素集,可以放在一起構建映射的模型元素的集合。(3)模型映射,注冊的模型與模型之間的映射,包含模型元素集映射。(4)模型元素集映射,模型元素集之間映射對應關系的注冊,映射的最小單位是元素集。(5)模型元素集映射類型,通過模型元素集映射度表示,映射度為元素集之間建立映射的映射類型。
1.3映射度擴展
根據MFI系列標準規范,映射注冊元模型可以對底層異構數據源抽取的信息模型進行注冊,包括對異構信息模型與全域信息模型之間的映射關系進行注冊,對于模型之間構建映射所需的映射規則函數,在MFI系列標準中采用模型元素集映射度表示。MFI系列標準提供的映射度不能滿足實際應用需求,在實際應用中映射規則變得很復雜,為了滿足不同映射度的需要,結合石油領域的模型映射對MFI系列標準映射度進行擴展:
(1)相同(same as),映射構建者認為源集和目標集在語法、語義上相同。應用時進行保值處理,即無需經過任何處理,源與目標數據一致。
(2)語義等價(semantically equivalent),映射構建者認為源集和目標集僅在語義上相同。應用時進行保值處理。
(3)派生(derived from),映射構建者認為源集在目標集中被使用,即目標集是由源集中的屬性經過處理并映射到目標集的屬性中。應用時可以根據具體情況繼續細化。
(4)屬性直接合并(DF-Attri-Merge Mapping),將源集中的屬性A1,A2,…An(n>1)直接拼接并映射到目標集的屬性中。
(5)屬性條件合并(DF-Attri-Condition Merge Mapping),結合符號等外來數據,將映射源集中的屬性合并至目標的屬性中。
(6)屬性條件拆分(DF-Attri-Condition Split Mapping),將源集中的屬性按照符號等外來數據進行拆分,拆分后的內容分散映射到目標集的屬性中(與合并映射相逆)。
(7)數值運算(DF-Attri-Calculate Mapping),對源集中的屬性進行數學運算,映射到目標集的屬性中。
(8)單位轉換(DF-Unit-Convert Mapping),當源集與目標集中的屬性單位不一致時,將源集中的屬性進行單位轉換,映射到目標集的屬性中。
(9)常量映射(Fixed Value Mapping),無需源集的屬性參與,將給定的常量值映射到目標集的屬性中[13]。
在建立映射關系時,MFI-10標準按照傳統1∶1的映射關系處理,當存在n個異構數據源時,需要建立n2/2個映射關系;當異構數據源的數量越多時,需要建立的映射關系越多。由于MFI-10標準提出的映射度對于實際應用過于稀少和語義化,為了實現異構數據源的信息集成、加強互操作性、減少映射次數,提出由頂層全域共享數據模型、中間注冊層,以及底層數據源構建的、基于MDR/MFI標準的、具有互操作性的三層技術架構體系。構建的語義數據統一注冊模型見圖3。
(1)底層數據源層:將底層異構數據源抽取為需要注冊的信息模型。
(2)中間注冊層:將由底層數據源及頂層全域共享數據模型抽取的信息模型,按照圖1描述的MFI系列標準信息注冊元模型進行注冊;根據映射規則與算法,將注冊后的信息模型按照MFI系列標準規定的映射度與全域信息模型建立映射關系,將構建的映射信息按照圖2描述的MFI系列標準映射注冊元模型進行注冊;根據MFI系列標準信息模型注冊元模型與映射注冊元模型進行統一注冊管理。
(3)頂層全域共享數據模型層:為了解決信息集成問題,ISO提出標準MDR元數據注冊系統。基于MDR標準規范,建立頂層全域共享數據模型,仿照數據共享模型[14],按照具體業務模型和MFI系列標準映射注冊元模型的映射規則,將底層異構數據源映射到全域共享數據模型;通過全域共享數據模型直接訪問應用,同時屏蔽底層異構數據源。該模型具有優點:對數據的描述、定義進行規范統一,內容語義的描述就越準確;擁有良好的語義基礎,可以更有效地實現數據共享;以它作為頂層模型,可以減少模型之間的映射次數,并通過屏蔽底層數據源對頂層統一訪問而實現信息集成。
由圖3可見,當構建的三層互操作性技術架構存在n個數據源時,只需建立n個映射關系,通過1∶1映射模式,可以大幅降低映射復雜度,節省大量映射信息的存儲空間。
在50多年信息化建設過程中,大慶油田形成勘探開發數據模型多版本并存的局面,且數據模型分布在不同地理位置的企業網上。典型勘探開發數據源包括20世紀90年代構建的勘探開發數據模型(E&P),2007年建成的、以油田生產為主的新版勘探開發統一數據模型(EPDM)[15],以及以采油和地面工程為主的A5數據模型三種數據模型。以現場實際需求為背景,將EPDM作為全域數據模型,設計并開發對三種數據模型進行注冊,將A5和E&P向全域數據模型EPDM進行映射信息注冊的系統,部分功能見圖4和圖5。系統能夠完成對大慶油田三種數據模型的注冊解析、映射構建及信息注冊,有效地解決數據模型之間的交互性。

圖3 基于MDR/MFI標準的語義數據統一注冊模型Fig.3 The unified registration model of semantic data base on MDR/MFI

圖4 模型元素注冊Fig.4 Model element registration

圖5 模型元素集映射注冊和映射度維護Fig.5 Model element set mapping registration and Model element set mapping deagree
系統主要完成三層技術框架體系的中間注冊層功能:分析A5和E&P數據模型的結構,按照信息模型方式抽取底層數據源層,將EPDM作為頂層全域數據模型層進行解析構建;結合注冊和映射元模型,解析油田三種數據模型結構,按照三層技術架構體系中間注冊層的功能進行注冊解析(見圖6)。根據注冊后的模型信息及映射信息,可以查詢頂層全域共享數據模型,進而屏蔽底層數據源。

圖6 石油模型根據中間注冊層的解析Fig.6 Analysis of oil model based on the middle register
傳統數據集成方法缺少語義互操作,同時采用本體方式解決語義問題的應用較為復雜。基于MDR/MFI標準的語義數據注冊模型框架體系可以將數據攜帶的語義進行注冊,通過加強語義記錄加強語義的互操作性,在石油領域中得到較好應用。
(1)分析MFI互操作系列標準,結合油田企業語義數據互操作性需求,提出一個三層語義數據統一注冊模型框架體系。該框架體系融入MDR標準,將它作為企業的全域共享數據模型,可以屏蔽底層異構數據源,使其他異構數據源信息模型可以直接向全域數據模型進行映射,即實現1∶1映射模式。這種映射模式明顯降低異構數據源間映射的復雜度,節省大量映射信息占用的存儲空間。
(2)該模型可實現對多源數據資源目錄的有效管理及數據的有效集成,結合油田的實際應用擴展部分映射度,滿足石油領域信息模型對復雜映射類型的需求。經大慶油田多源信息模型及映射信息注冊過程的驗證,具有可行性、靈活性及科學性。該模型技術原理適用于其他領域應用。
[1]Calvanese D, Giacomo G D, Lenzerini M. Description logics for information integration [C]//Computational logic logic programming and beyond. Springer, 2001,2408:41-60.
[2]袁滿,武峰林,于春生.基于混合本體和Mediator/Wrapper的語義數據集成模型[J].大慶石油學院學報,2010,34(1):84-88.
Yuan Man, Wu Fenglin, Yu Chunsheng. Semantic data integration model based on mixed ontology and mediator/wrapper [J]. Journal of Daqing Petroleum Institute, 2010,34(1):84-88.
[3]何克清,李兵.面向服務的語義互操作性技術及其標準[J].中興通訊技術,2010,16(4):9-12.
He Keqing, Li Bing. Semantic interoperability: Technologies and standards for service orientation [J]. ZTE Communications, 2010,16(4):9-12.
[4]曾誠.語義互操作性Web服務注冊管理的機制和方法[D].武漢:武漢大學,2010.
Zeng Cheng. Mechanism and methodology of web service registry and repository for semantic interoperability [D]. Wuhan: Wuhan University, 2010.
[5]Division of Public Administration and Development Management, Dept. of Economic and Social Affairs. United Nations E-Government Survey 2008 from E-Government to Connected Governance [R]. New York: Dept. of Economic and Social Affairs, United Nations, 2008.
[6]Reichling K. Semantic interoperability for public administrations in Europe-challenges and solutions [EB/OL]. iDABC European eGovernment Services. 2009. https://www.posccaesar.org/svn/pub/Semantic-Days/2009/Session—1—Klaus—Reichling.pdf.
[7]International Standard ISO/IEC. 19763-1, Information technology: Metamodel framework for interoperability (MFI): Part 1: Reference model [S]. 2015.
[8]Information technology ISO/IEC. 11179-1, Metadata registries (MDR): Part 1: Framework for the specification and standardization of data elements [S]. 2004.
[9]UDDI org. UDDI version 2.04 API specification UDDI published specification [EB/OL]. http://uddi.org/pubs/programmersAPI-V2.04published.pdf, 2002.07.19.
[10]W3C Group. Web services description language(WSDL) 1.1 W3C note [EB/OL]. http://www.w3.org/TR/wsdl.html, 2001.03.15.
[11]International Standard ISO/IEC. 9075-2, 2011 Information technology: Database languages: SQL: Part 2: Foundation (SQL/Foundation) [S]. 2011.
[12]International Standard ISO/IEC. 19763-10, Information technology: Metamodel framework for interoperability (MFI): Part 10: Core model and basic mapping [S]. 2014.
[13]袁滿,陳星童.基于元數據驅動的異構數據模型映射算法[J].東北林業大學學報,2011,39(12):128-131.
Yuan Man, Chen Xingtong. Data mapping algorithm between heterogeneous data sources based on Metadata-Driven [J]. Journal of Northeast Forestry University, 2011,39(12):128-131.
[14]袁滿,王丹丹,翟紅翠.基于自標準數據和數據港口架構的數據共享技術分析[J].東北石油大學學報,2015,39(4):103-108.
Yuan Man, Wang Dandan, Zhai Hongcui. Research on the key technologies of data sharing based on self-standard data and data ports architecture [J]. Journal of Northeast Petroleum University, 2015,39(4):103-108.
[15]朱正平,潘仁芳,馬杰,等.中國石油勘探開發信息化系統架構的優化方案及解決措施——以大港油田為例[J].東北石油大學學報,2013,37(5):109-117.
Zhu Zhengping, Pan Renfang, Ma Jie, et al. Optimization and countermeasures for PetroChina exploration and development informationization systems: Dagang oilfield as example [J]. Journal of Northeast Petroleum University, 2013,37(5):109-117.
2015-11-10;編輯:張兆虹
黑龍江省教育廳基金項目(12531059)
袁滿(1965-),男,博士,教授,主要從事信息標準化與信息集成、數據工程理論與技術、知識工程方面的研究。
10.3969/j.issn.2095-4107.2016.03.013
TP391
A
2095-4107(2016)03-0104-07