劉金晶 曹文潔
摘要:大數據時代信息呈指數級爆炸式增長,不同的數據采集、處理和存儲方式使得這些海量數據具有來源復雜、結構異構的特點,難以共享和互操作。傳統的數據集成方式已經不能適應企業獲取信息、使用信息需求。為解決多源異構的數據集成效率和質量問題,基于本體論概念和語言,借鑒本體識別和表達方式,設計了一種領域內表達數據屬性與關系的元模型。基于該元模型,對領域內數據建立相應的模型并形成規則,規范和約束了多源異構數據集成過程和質量,提高了數據集成的效率和數據利用率。
關鍵詞:多源;異構;數據集成;本體
DOIDOI:10.11907/rjdk.172462
中圖分類號:TP391
文獻標識碼:A文章編號文章編號:16727800(2018)003019803
英文摘要Abstract:The arrival of large data age makes the information exponentially explosive, and different data collection, processing and storage methods make these massive data have the characteristics of complex source structure, it is difficult to share and interoperate. The traditional way of data integration has been unable to apply to the enterprise to obtain information, the use of information needs. In order to solve the efficiency and quality of multisource heterogeneous data integration, this paper designs a metamodel that expresses the attributes and relationships of data in the field based on the concept and language of ontology and the recognition and expression of ontology. Based on this metamodel, the corresponding models are established in the data infield, the rules are formed, and the process and quality of multisource heterogeneous data integration are constrained, and the efficiency of data integration and data utilization are improved.
英文關鍵詞Key Words:multisource;heterogeneous; data integration; ontology
0引言
信息技術革命與經濟社會活動的交融催生了大數據。大數據是以容量大、類型多、存取速度快、應用價值高、價值密度低為主要特征的數據集合,常規技術無法滿足對這些紛繁復雜的海量信息進行采集、處理、分析與使用的需求[1]。因此,大數據的采集、分析和存儲技術不斷更新,大數據處理平臺得到了廣泛應用。
通用的系統架構與數據流包括以下工作:由前端網絡分流設備將多個業務系統和渠道發過來的數據流量接入到處理系統,然后用軟硬件分流器對數據流進行分析、過濾、分發和推送,這是前端數據處理平臺;數據接入層接收前端的各類數據轉發到后端,由統一的數據抽取和轉換平臺對數據進行抽取、格式轉換并加載到大數據平臺,進行數據分析和數據挖掘,同時用戶還可根據挖掘需求,設計查詢任務流及更多的應用系統[2]。
1研究現狀
多數據來源的系統不僅需要接入前端數據,還包括大量的第三方數據、歷史數據、不同信息系統間的交換數據等。數據接入層面臨著數據量大、結構參差不齊、數據質量差等多方面的困難與挑戰。
以公安行業數據為例,分為以下幾類:①公安基礎工作數據信息。包括人員信息、案件信息、物品信息、線索信息、場所信息等;②公安內網共享數據信息。包括公安部及各省市公安內網中的在逃人員信息、盜搶汽車信息、違法犯罪人員信息、法輪功信息、通緝令、預警信息、研判指令等;③外部社會信息。包括互聯網刊載的違法犯罪信息、商業網站異常信息、保險理賠信息、個人資信信息、中介機構信息、檢察機關案件信息、審判機關案件信息、信用卡組織信息、公證機構信息等[3]。
在為綜合性數據平臺提供接入服務時,不僅要面對數據來源眾多、結構差異較大的問題,還會涉及到地域不同、警種不同、建設廠商不同等帶來的數據差異性。同是犯罪嫌疑人信息,交通管理部門、刑事偵查部門、經濟偵查部門等關注點完全不同,數據結構存在很大差異;即使是相同業務,不同地方的業務系統建設廠商不同,所設計的數據結構也完全不同;即使相同地方,早期上下級部門的業務系統也可能由不同廠商承建,存在同樣的問題;不同地域也會有不同的業務重點,可能有些地方的業務在另一些地方沒有,或者信息豐富程度差異很大。
傳統的數據集成方法在一定程度上可以解決各數據源結構上存在的異構問題,但忽略了數據的語義信息,在進行數據共享和互操作時存在很多不足,檢索得到的共享數據冗余多,無效信息多[4]。
一個好的多源異構數據集成平臺,需要對多個數據源進行統一處理,屏蔽數據之間的物理和邏輯差異,實現統一的表示、存儲和管理,將多源異構數據集成為互相理解、相互關聯的有機整體,以解決數據來源廣泛、結構異構問題[5],從而更好地發揮數據價值。
2異構數據集成
為實現上述需求,基于本體論的異構數據集成概念應運而生。
本體最早是一個哲學概念,關心的是客觀現實的抽象本質[6]。從20 世紀 90 年代開始,其引起了人工智能領域的廣泛關注,被應用在知識工程、知識表達、自然語言理解、 信息檢索、信息集成和知識管理等諸多領域,并隨著應用的范圍越來越廣而賦予了一些新的含義。
本體定義為共享概念模型的形式化規范說明,其有4層含義:①概念模型指通過抽象出客觀世界中一些現象的相關概念而得到的模型,所表現的含義獨立于具體的環境狀態;②使用的概念及使用這些概念的約束都有明確定義;③形式化指本體是計算機可讀的;④共享指本體中體現的是共同認可的知識,反映的是相關領域中公認的概念集。本體有良好的概念層次結構,能有效支持邏輯推理。本體的目標是捕獲相關領域知識[7],提供對該領域知識的共同理解,確定該領域內共同認可的詞匯,并從不同層次的形式化模式上給出這些詞匯與詞匯間相互關系的明確定義。因此,基于本體的異構數據集成系統,首先,需要領域專家參與創建領域本體,提供共享知識庫;其次,需要表達能力豐富并具有一定邏輯推理能力的本體描述語言;最后,通過選擇合理的映射方法,將不同數據源的語義異構數據轉換成集成系統能夠理解的統一語義信息。此外, 系統還應具有一定的普遍性和可擴展性[6]。
3實踐案例
為適應多地市、多系統、多來源、多結構的各式數據接入與匯聚,本文通過分析來源數據,利用本體概念,結合領域知識,設計了一套基于本體論的元模型,如圖1所示,圖中的類代表本體。
類具有以下屬性:
(1)類名:唯一定義一個類,類名遵循相應的表達規范,由“角色”、“修飾詞”、“本體”組成,角色、修飾詞為可選,但主體部分必須明確,即類的本體。如“手機號碼”、“完整的手機號碼”、“負責人完整的手機號碼”都是符合規范的類名。
(2)規范:定義了類的實例校驗方法,比如“手機號碼”規范可以是一個校驗手機號是否合法的正則表達式。不是所有的類都有明確的規范,比如“聯系方式”就不具備規范條件。
(3)值域:定語了類的實例范圍,比如“行政區劃”的值域是一個由區劃代碼組成的集合,年齡可以是一個[0,120]的閉區間,不是所有類都有明確的值域。
(4)說明:對該類的上下文、出現場景進行說明,便于工作人員進行知識庫維護。
根據實際的數據接入、匯聚和提取需求,定義類之間的關系:①等價:雙方除了類名和上下文不同,代表了不同的本體,但規范、值域完全相同,比如“固定電話”和“傳真號碼”之間的關系就是等價關系;②映射等價:雙方除了類名和上下文不同,代表了不同的本體,但雙方的值域存在映射關系,且進行映射運算后值域相等,如“行政區劃”和“郵政編碼”;③組成:一個類的實例由明確的規則組成,比如“完整的固化號碼”就是由“電話區號”、“固化號碼”、“分機號”組成;④推導:一個類的實例可以推導出其它類的實例,比如“身份證號碼”就可以推導出“戶籍地區劃”、“出生日期”、“性別”等;⑤包含:A類在特定情境下的實例集合組成了B類,則稱A類包含B類,也即A是B的父類,B是A的子類。B類完全繼承A類的規則和值域,但可以有自己獨特的規則和值域;⑥依賴:兩個類總是同時出現,單獨出現無法傳遞完整的信息,B類的規范和值域依賴于A類的取值,如“證件類型”和“證件號碼”。
根據以上元模型定義,對聯系電話相關的類建立模型如圖2所示。
圖2中“聯系電話”、“短信號碼”、“一般手機號”都是沒有確定的校驗規范和值域的類,但在業務領域中有些場景采集的數據就屬于這些類。
建立這樣的模型后,數據的接入匯聚問題就轉變成哪些類需要匯聚到父類、哪些類需要接入到子類、哪些類需要進行推導運算后接入到匹配的類的問題。通過將要集成的數據集屬性與這些類之間建立映射關系的規則,約束數據接入時的可選范圍,并根據類的規范校驗,規范來源數據,實現數據交換與共享[7]。同時這些規則經過最初的業務總結、試驗、沉淀之后,可以積累為規則庫,為后續數據接入匯聚的程序化實現奠定基礎。
基于需求和模型復雜度,結構化數據庫可以承載所有的模型數據、實例數據和規則數據。這些知識數據量不大,但很重要,對一致性、高可靠性要求很高,所以采用傳統的結構化數據庫存儲這些數據。
通過上述方案,再結合逐漸完善的行業數據標準,多源異構數據集成工作效率得到了顯著提升,全新的數據接入由原來的每人每天3~5個數據集提升到每人每天5~10個數據集,且通過這種集成方式接入的數據質量有了明顯改善,基本杜絕了完全不兼容的類的數據接入錯誤。
4結語
數據紛繁復雜、多樣與海量的特點,給大數據集成的效率、質量帶來了很大困難,最終造成數據接入效率低下、數據質量不高、數據整合率、利用率低等問題。本文提出一種基于本體論的多源異構數據接入和匯聚方法,通過建立領域內的本體類庫并定義它們之間的關系,使每個接入數據的屬性都有對應的本體類,通過類之間的關系約束規范數據接入過程和結果,提高了項目實施效率,提升了數據質量,為數據平臺更好地使用數據、分析數據、挖掘知識提供了很好的數據基礎。
參考文獻參考文獻:
[1]張春艷.大數據時代的公共安全治理[J].國家行政學院學報,2014(5):102103.
[2]公安情報大數據解決方案[EB/OL].http://www.sugon.com/solution/detail/id/936.html.
[3]馬新建,夏士雄.基于本體的多源異構數據集成方法研究[J].軟件天地,2008(6):291292.
[4]李亢,李新明,劉東.多源異構裝備數據集成研究綜述[J].中國電子科學研究院學報,2015(2):162163.
[5]蘇立悅,董明,楊東.大規模定制下基于本體的服務產品配置研究[J].計算機應用研究,2010(2):483484.
[6]馬新建,夏士雄.基于本體的多源異構數據集成方法研究[J].軟件天地,2008(9):291292.
[7]劉文韜,陳智宏,許炎,等.基于本體論的交通異構數據集成系統[J].計算機系統應用,2010,19(3):1011.
責任編輯(責任編輯:杜能鋼)