袁 滿, 王丹丹, 翟紅翠
?
基于自標準數據和數據港口架構的數據共享技術
袁 滿1, 王丹丹1, 翟紅翠2
(1.東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318;2.華北油田數據中心,河北 任丘 062552 )
為滿足復雜數據共享需求、減輕數據提供者負擔,分析自標準與數據港口架構理論機器實現技術.將數據模式的概念引入自標準數據模型,根據NIEM原理,構建由公共數據模型、業務領域數據模型及編碼表構成的自標準數據模型庫;基于MFI-13表單注冊標準,根據自標準數據模型對數據集進行注冊,為實現軟件之間的互操作對應生成元數據,并描述元數據遵循的語法及語義;為實現自標準數據的共享,提出基于數據港口架構的數據共享模型,并構建原型系統,證明其有效性和技術可行性.
數據港口架構; 自標準數據模型; 數據集注冊; 數據共享模型
數據集成技術研究始于20世紀70年代中期,之后應用范圍和作用不斷擴大[1].對數據進行有效的集成管理已成為增強企業商業競爭力的必然選擇.數據集成是數據組織的重要方法,是實現數據共享的重要途徑[2].無論企業應用系統多么復雜,其本質是進行數據處理,實現數據的共享,數據共享包括數據查詢和數據交換[3].在企業處理數據過程中,Martin J等認為企業產生數據的種類與數量是有限的,由于用戶對數據需求不同,造成數據共享的復雜與多變[4-5].雖然已制定諸多數據共享標準,但是企業標準的制訂速度遠遠不能滿足企業對數據共享標準的需求.袁滿等提出“自標準”思想[6],通過自標準與標準結合,滿足企業對數據共享的需求.夏艷波等受到集裝箱采用標準化體系后貨物的運輸效率提升4~5倍的啟發,將“自標準數據”視為信息世界的集裝箱及其內裝貨物,并將自標準與數據港口技術融合在一起解決企業的數據共享問題[7].2011年,Dan Woods提出“數據湖(Data Lake)”概念,主要目的是解決信息孤島和大數據分析問題,其重點是保存不同數據,忽略如何使用數據,以及為什么要使用數據、監管數據、定義數據和確保數據安全[8].與“數據湖”概念相比,基于自標準數據的數據港口技術架構不僅能夠實現對數據的存儲,而且還能夠實現對數據的管理與共享.
自標準數據和數據港口技術結合形成的數據標準,能夠較好地解決企業數據共享問題.文獻[6]給出自標準數據和數據港口技術架構,但是對于如何實現共享的自標準數據模型,以及數據集注冊等沒有給出解決辦法.筆者將NIEM(National Information Exchange Model)和MFI(Metamodel Framework for Interoperability)等技術融入到問題解決方案,并設計與實現原型系統,驗證研究內容的正確性與有效性.
用航行業務中港口概念類比數據港口,數據港口是用于建立獨立于各現有應用系統之外的數據服務機制,是一個邏輯概念.數據港口主要由數據碼頭、泊位、數據泵及港口航道等重要組件構成.
(1)數據碼頭.作為存放數據的場所,不同領域的自標準數據對應存儲于對應的數據碼頭,方便數據消費者查詢并獲取數據.
(2)泊位.即數據提供者和數據消費者為了向數據港口集裝或解封數據,臨時用于排隊停靠的地點,在這里對進港的數據進行解封、分類后,推送給指定的數據碼頭;出港的數據也在這里集裝打包后推送給數據消費者.
(3)數據泵.包括數據抽取泵和數據推送泵,是專門抽取數據的部件,它既可以是集中的,又可以是分散的,可以被看作是傳統數據適配器的改進.
(4)港口航道.可提供數據港口與數據港口間鏈路接口,實現港口與港口之間數據互聯和共享.
自標準數據由數據模式和數據部分組成.數據模式用于描述數據結構,是數據的概念、組成、結構和相互關系的總稱[9].對數據進行自標準時,將數據模式概念融入到自標準數據中定義自標準數據模型.
2.1 模型構建
數據模型是跨領域數據共享和共同遵循的標準,表現為系列的模式文件.自標準數據模式推薦采用XML Schema 模式語言,對各個業務領域共用的實體或領域內部實體及其關系進行抽象描述,根據領域不同對它進行主題分類.借鑒美國國土安全部和司法部提出的國家信息共享模型(NIEM)的原理和方法,實現中國跨領域信息共享.NIEM由核心數據模型、領域數據模型(各專業的業務模型)及各領域涉及到的屬性規范值三部分組成.基于NIEM實現原理,抽取自標準數據模型,構建由公用數據模型、業務領域數據模型及編碼表構成的自標準模型庫.
公用數據模型用于定義在所有領域內具有普遍意義,且具有高度一致性和穩定性的數據,如人員(Person)、機構(Organization)等.公用數據模型的提出可以大幅提高模型重用性,減少數據提供者工作量和系統緩存負擔.如定義的Person簡單數據類型見表1.

表1 定義的Person簡單數據類型Table 1 The definition of Person simple data types
業務領域數據模型定義該領域特有的數據模型,由各業務領域根據自身業務信息共享需求,在公用數據模型基礎上擴展而成.如在油田領域,需定義油田(OilfieldType)、警報事件(AlarmEventType)等數據模型.
編碼表是將各領域內已有的編碼標準引入,體現為一系列模式文件.
油田勘探開發自標準數據模型結構見圖1.圖1規定油田企業數據應遵守的規則.已有的模型文件稱為模板,數據文件與模型文件之間為一對多的關系,如果當前存儲的模板不能滿足數據提供者的需求,數據提供者可以申請建立新的模型文件,并在建立新的模型文件時將存儲時間作為版本標記,保證存放數據的正確性與有效性.
2.2 數據集注冊
數據提供者向管理員申請授權并向數據港口分類存放數據的過程即為數據集注冊.借鑒MFI-13表單注冊標準[10]及MFI-12信息模型注冊標準[11],提出數據集注冊方法,實現對數據集的有效管理,方便對數據的分類存儲和分類快速定位查詢等.數據集注冊過程包括數據注冊和元數據注冊.數據提供者得到授權后,下載所需模板得到一個表單,并對應生成元數據.元數據是關于數據的數據(Data About Data)[12],描述數據集內容的簡單說明,以及對數據元素所遵循的語法、語義的明確記錄,可以實現軟件系統之間的互操作.定義元數據元素包括屬性:數據中文名稱、數據英文名稱、定義(概念說明)、數據約束、數據條件、數據類型和備注(補充說明)等.元數據元素與屬性之間的關系見圖2;表1對應描述的元數據見表2.

圖1 油田勘探開發自標準數據模型結構

圖2 元數據元素與屬性之間的關系Fig.2 The properties of describing the metadata elements

表2 某人員元數據注冊流程Table 2 A person metadata registration processes
表單為一個規定約束的、為了細節插入帶有空格的文檔.通常情況下,表單以標準格式(如HTML、EXCEL或PDF等)呈現,數據提供者將數據填充到表單上.有效數據文件經過壓縮打包進行處理,在泊位處等候入港,進行解封并按照領域及業務范圍進行分類,經過數據泵將有效數據文件推送到相應數據港口,將模型文件及數據文件上傳到相應目錄結構,完成數據注冊.港口內的數據碼頭根據數據類型對數據完成封裝、存儲及管理.數據提供者不必考慮存放到數據港口的數據后期管理和調用,可以減少工作的繁復性與復雜性.數據集注冊流程見圖3.
數據提供者將數據存儲到數據碼頭后,須考慮如何實現數據共享問題.在數據港口技術架構中,數據提供者與數據消費者通過規范化流程實現數據共享.自標準數據共享過程分為兩個步驟:(1)建立數據共享模型.根據用戶需求,對所需數據與存儲在數據碼頭的數據建立映射關系,在引用自標準數據模型基礎上,通過裁剪、擴充等方法建立數據共享模型;(2)建立數據共享模式.利用企業服務總線接入WEB服務,實現數據共享.

圖3 數據集注冊流程示意Fig.3 The process of data set registration
3.1 模型
自標準數據共享時,數據共享模型建立[13]主要分為4個階段:(1)總體規劃.根據項目目標、業務需求等分析需要共享的信息,形成計劃.(2)需求分析.對涉及的單位、共享內容進行分析,形成數據共享模型,可以用UML表示.(3)根據數據共享模型,生成數據交換包并對它進行驗證,采用安全認證和加密處理等措施,防止數據丟失或被竊取.(4)將形成的所有文件壓縮并發布.
3.2 模式
數據共享模型的核心是數據共享模式,分為3個階段:(1)通過映射關系,將數據共享模型與自標準數據模型庫相符的元素抽取出來,形成子集模式.子集模式不僅可以降低信息共享的復雜性,而且可以提高模型的重用性[14].(2)由于在數據共享時并不是所有元素都能找到合適的描述或者不完全匹配,需要將在數據共享模型中出現的、在自標準數據中沒有描述的元素進行模型擴展定義,即為擴展模式.如需通過Location描述地點采油量,但是Location中并不包含采油相關信息,可以在Location的基礎上增加一個采油量模型,以形成擴展模式.(3)通過子集模式和擴展模式形成能夠描述數據共享模型中所有元素的全集.
3.3 實現
數據共享模型是共享雙方共同遵守的共享標準[15].數據提供者根據數據共享模型生成共享實例文檔,接入WEB服務,將共享實例文檔傳遞給數據消費者;數據消費者在接收到交換實例文檔后,根據數據共享模型對交換實例文檔進行解析,實現對數據的理解,達成數據共享目的.數據共享實現過程見圖4.

圖4 數據共享實現過程示意Fig.4 The process of data sharing
為驗證基于自標準數據和數據港口架構的數據共享技術的可行性,以大慶油田實際數據為背景,實現一個具有自標準數據入港、數據出港及港內數據管理基本功能的原型系統,并進行驗證.驗證所用數據源為大慶油田勘探開發A2數據庫,開發環境采用Microsoft Visual Studio 2010.在原型系統中,定義油田開發動態和測井數據碼頭,采用層級目錄方式存儲.數據提供者根據需求構建數據模型,并以數據模型為基礎將數據存儲至數據碼頭;數據消費者根據自身需求進行資源搜索,并將所需數據打包回傳.原型系統部分實現功能見圖5,現場應用結果表明原型系統實現設計功能、運行穩定可靠.

圖5 原型系統部分功能示意Fig.5 The functions implemented by the prototype system
基于自標準數據與數據港口技術架構的數據共享技術可以有效集成和管理數據,實現領域內部及領域之間的數據共享,滿足復雜的數據共享需求.構建基于自標準數據和數據港口技術架構的數據共享技術的原型系統,能夠實現數據入港過程中自標準數據模型的定義、數據集注冊、數據出港過程中的數據共享及港內數據管理,系統運行穩定、性能達標.
[1] 袁滿,武峰林,于春生.基于混合本體和Mediator/Wrapper的語義數據集成模型[J].大慶石油學院學報,2010,34(1):84-88.Yuan Man, Wu Fenglin, Yu Chunsheng.Semantic data integration model based on mixed ontology and mediator/wrapper [J].Journal of Daqing Petroleum Institute, 2010,34(1):84-88.
[2] 龔建華.數據集成技術研究[J].辦公自動化,2012,18(10):52-53.Gong Jianhua.Research on data integration technology [J].Office Informatization, 2012,18(10):52-53.
[3] ISO/IEC 11179-1: Information technology-Meta data registries (MDR)-Part 1: Framework for the specification and standardization of data elements: 2nd edition [S].
[4] Martin J, Finkelstein C.Information engineering [M].Prentice-Hall, 1981:10-40.
[5] Martin J.An information systems manifesto [M].Prentice-Hall, 1982:40-55.
[6] 袁滿,王權,夏艷波,等.自標準數據研究及其在數據共享中的應用[J/OL].吉林大學學報,(2014-11-18)[2015-05-05].http://www.cnki.net/kcms/detail/22.1341.T.20141118.1119.007.html.Yuan Man, Wang Quan, Xia Yanbo, et al.Research on self-standard data and its application in data exchange [J/OL].Journal of Jilin University, (2014-11-18)[2015-05-05].http://www.cnki.net/kcms/detail/22.1341.T.20141118.1119.007.html.
[7] 夏艷波,王權.信息孤島解決之道——數據港口架構理論初探[J].中國管理信息化,2015,18(1):70-72.Xia Yanbo, Wang Quan.The solution of information island: Data port structure theory [J].China Management Informationization, 2015,18(1):70-72.
[8] EMC.GE嘗試“數據湖”[J].上海國資,2014,16(10):79.EMC.GE try "data lake" [J].Capital Shanghai, 2014,16(10):79.
[9] 中華人民共和國科學技術部,科學數據共享工程技術標準——數據模型描述規則和方法:SDS/T 2133-2004 [S].Ministry of Science and Technology of the People's Republic of China, Scientific data sharing engineering technology standard: Rule and method for description of data schema: SDS/T 2133-2004 [S].
[10] ISO/IEC CD2 19763-13: Information technology-Metamodel framework for interoperability (MFI) Part 13: Metamodel for forms registration [S].
[11] ISO/IEC DIS 19763-12: Information technology-Metamodel framework for interoperability (MFI) Part 12: Metamodel for information model registration [S].
[12] 中華人民共和國科學技術部.科學數據共享工程技術標準——元數據的XML/XSD置標規則:SDS/T 2113-2004[S].Ministry of Science and Technology of the People's Republic of China.Scientific data sharing engineering technology standard: XML/XSD marking rules for metadata: SDS/T 2113-2004 [S].
[13] 戴劍偉,馮勤群.美國國家信息交換模型及其啟示[J].軍事運籌與系統工程,2013,27(3):15-19.Dai Jianwei, Feng Qinqun.National information exchange model and its enlightenment [J].Military Operations Research and Systems Engineering, 2013,27(3):15-19.
[14] NIEM Program Management Office.Introduction to the National Information Exchange Model [EB/OL].2007-02-12[2014-07-21].http://reference.niem.gov/niem/guidance/introduction/0.3/niem-introduction-0.3.pdf.
[15] NIEM Program Management Office.History about NIEM [EB/OL].[2014-07-21].https://www.niem.gov/aboutniem/Pages/history.aspx.
2015-06-17;編輯:張兆虹
黑龍江省教育廳基金項目(12531059)
袁 滿(1965-),男,博士,教授,主要從事信息標準化與信息集成、數據工程理論與技術方面的研究.
TP391
A
2095-4107(2015)04-0103-06
DOI 10.3969/j.issn.2095-4107.2015.04.013