張曉冉 袁 滿
(東北石油大學計算機與信息技術學院 黑龍江大慶 163318) (xiaoran9217@163.com)
隨著信息技術的發展,數據作為企業的重要資產,對生產經營、科學研究以及管理和決策等起著重要的作用.即使有良好設計和規劃的信息系統也不能保證存放數據的質量都能滿足用戶的要求.用戶錄入錯誤、企業合并以及企業環境隨著時間的推移而改變,這些都會影響所存放數據的質量[1].數據質量對于企業戰略決策至關重要,因此數據質量的檢測與數據質量的評估顯得越來越重要,對數據質量評估模型的要求也更加迫切.
數據質量評估模型的研究由來已久,文獻[2]早期提出了基于屬性的數據質量評估模型,但缺少定量的系統方法.文獻[3]在文獻[2]的基礎之上提出了數據質量評估模型,并闡述了構造方法和計算方法.隨后,Parssian等人[4]于2004年提出了一套實用的數據質量評估方法,但其選擇性假設導致了后續推導出的數據質量評估公式存在問題,隨后Debabrata等人[5]建立了屬性值的概率分布,對評估方法進行了修正,盡管完善了數據質量評估模型,但仍然存在不同屬性正確率不同的問題.文獻[6]在文獻[4-5]的數據質量評估模型基礎上,根據“不正確、不完整、非成員”3種錯誤類型來研究數據質量評估,提出了基于單一屬性分布的數據質量評估模型.文獻[7]根據電網統計數據的基本特征,從正確性、完整性、唯一性等7個方面進行質量評估,在此基礎上構建了一個基于云模型的統計數據質量評估模型.文獻[8]建立了EM4ADOM評估模型,該模型從數據的可用性、安全性以及可用性和安全性的權衡3個方面綜合評估了匿名數據的質量.文獻[9]提出了數據庫數據質量評估模型,建立了一個數據質量可視化分析系統,但該模型是面向關系型數據的,對于非關系型數據沒有涉及.
以上文獻中的評估模型均存在不同程度的不足:文獻[2]提出的評估模型缺少定量的系統方法;文獻[3]雖然在此基礎上補充了構造方法和計算方法,并且在數據倉庫源數據的質量評估中得到成功應用,但是仍缺少一定的通用性和擴充性;文獻[6]雖然對文獻[4-5]進行了改進,但是僅僅局限于單一屬性分布的數據質量的評估,對于多屬性沒有涉及;文獻[7-8]都是針對某一領域的數據質量問題提出的評估模型,具有局限性;文獻[9]提出的數據質量評估模型對于數據集中的數據類型有限制.
總的來看,筆者認為當前這些數據質量評估模型在發展上呈現這樣一些特征:基本是從業務出發來構建這些質量模型,從不同的角度提出了多種多樣的數據質量評估指標,這些指標有相同之處,也有不同之處;它們的共性都是領域針對性強,不具有通用性和擴展性,除此之外,對評估的數據集來源多有限制.其實,在進行數據質量研究與系統研發的過程中,完全可以撇開不同行業的業務,即忽略行業特點,從數據質量的實質出發,構建一個通用的模型作為機構進行數據質量研發的規范或標準.這種通用的模型,不是指該模型對于不同的數據約束規則,數據集都適用,而是指任何數據約束規則,數據集都可以以此模型框架為基礎,遵循該模型進行擴充,即模型框架通用,內部的專業規則根據不同的專業需求進行添加定制,數據集是評估時選擇的,通用模型以數據集為單位進行評估,具體選取哪種數據集、依據什么規則評估,需要由企業依據通用模型進行定制.
目前,數據質量面臨的難題和挑戰也是如何構建這一通用的模型標準.本體是對某一領域中公認的概念知識的建模,本體模型和具體應用是分開的,因此本體適合解決數據質量系統通用性評估的問題,同時本體在語義上的表達能力,可以解決復雜約束規則的定義問題.目前本體技術已被引入用來解決數據質量問題,文獻[10]實現了基于本體的數據清洗系統框架,解決了現有數據清洗研究中缺乏語義約束和不能支持自動推理的問題.因此采用本體技術是可行的.
本文首先分析了數據質量評估中涉及的相關要素,抽取并定義了一個通用的數據質量評估數學模型,該模型是邏輯上的,具體的實現采用本體技術,定義了從該通用的數據質量評估數學模型到本體模型映射的轉換規則.考慮到目前,絕大多數機構的數據存儲在關系數據庫中,所以以關系數據模型為例,依據所提出的數學模型和轉換規則實現了對數據質量評估本體的抽取與構建.最后,結合中國石油油田開發數據進行了原型系統的實現,驗證所提出模型的正確性、科學性、合理性以及可擴充性等.
數據質量問題及其研究由來已久,伴隨著信息技術發展而逐漸成為被廣泛關注的研究熱點.目前對于數據質量沒有一個明確的定義.文獻[11]認為數據質量是數據適合使用的程度(fit for use),這一定義被業界廣泛認可.文獻[12]認為數據質量是數據滿足特定用戶期望的程度.國際標準化組織在ISO9000:2000《質量管理體系基礎和術語》中將質量定義成一組固有特性滿足要求的程度.
數據質量維度為數據質量的業務需求提供框架,對數據質量維度進行量化度量為數據質量水平提供了實證.為了保持維度的有效性,維度的定義過程不能在管理的最后階段進行,而是在數據質量規劃設計的階段就要開始[13].Wang等人[14]于1995年發表了一項關于數據質量的調查,調查中提出用維度集來描述數據質量.自此以后,其他學者也對質量維度深入研究.Wand等人[15]基于信息系統模型提出了5個數據質量維度:準確性、完整性、一致性、及時性和可靠性[15].Strong等人[16]通過對數據質量的179個特征進行了深入調查,針對數據用戶需求,確定了15個常用質量維度.Redeman[17]將數據質量維度分為3類,分別是對應的概念視圖數據、數據值和數據格式.文獻[18]提出了具體的數據質量維度用來指導數據倉庫的設計.Bovee等人[19]將數據質量定義成數據適合使用的程度,包括可訪問性、可解釋性、相關性和可信度這4個維度.Naumann[20]為集成Web信息系統定義了4類21個質量維度.通過上述研究,正確性、完整性、一致性是被公認的基本評價維度,定義如表1所示:

Table 1 Data Quality Dimensions表1 數據質量維度
為了進一步的數據需求分析,采用約束規則的方式,對于每個維度進行具體的量化分析,集中定義數據質量維度包含的約束規則來驗證數據來源系統質量,確定數據的適用程度以此滿足業務需求.企業可以根據不同的質量評估需求選取評估維度并制定相應的約束規則.
文獻[3]將數據質量問題分為模式層問題和實例層問題.模式層問題主要是設計缺陷導致的,例如完整性約束、唯一性約束;實例層問題主要是描述數據記錄方面的數據質量問題,例如數據缺失、數據重復.文獻[25]又將數據質量約束規則分為3類:數據項約束規則、跨列約束規則和交叉列約束規則.本文參照文獻[26],通過對數據質量相關成果的研究和實際的需求將部分數據質量規則進行定義并分類如下,數據質量維度與數據質量約束規則及數據質量問題關系的映射如圖1所示.
下面給出圖1中的8個約束規則的定義.

Fig.1 Mapping between data quality dimensions and constraint rules and problems’ relation圖1 數據質量維度與數據質量約束規則及問題關系映射圖
定義1. 非空約束規則.數據項取值不能為空的約束.
例如:在油田開發領域,數據表DAA01中的數據項井號jh,它的取值不能為空值,即DAA01.jh≠null.
定義2. 值域約束規則.數據項只能在規定的定義域內取值.
例如:在油田開發領域,數據表DAA02中的數據項含水率hs,其值只能在[0,1]內取,即hs∈[0,1].
定義3. 邏輯依賴約束規則.在同一數據集中,一個數據項的值與另一個數據項的值滿足某種邏輯關系的約束.
例如:在油田開發領域,數據表DAA091中的數據項井段頂深jdds2的值必須小于數據項井段底深jdds1的值,即DAA091.jdds2 定義4. 等值一致性約束規則.一個數據集中的數據項取值必須等于由另一個數據集中的一個或多個數據項的值按著指定算法計算得出值的約束. 例如:在油田開發領域,數據表DDA02中數據項四通高stg的值等于數據表DAA02中數據項套補距tbj的值減去DAA02中數據項油補距ybj值,即DAA02.stg=DAA02.tbj-DAA02.ybj. 定義5. 存在一致性約束規則.是對數據集之間數據項數據存在關系進行約束的規則,即一個數據集中的數據項必須在另一個數據集中的數據項上出現. 例如:在油田開發領域,數據表DAA05中的數據項井號jh的取值與數據表CD_WELL_SOURCE中數據項井描述well_desc的值必須保持取值的一致性,即DAA05.jh=CD_WELL_SOURCE.well_dec. 定義6. 邏輯一致性約束規則.是對數據集之間數據項數據滿足邏輯關系進行的約束,即一個數據集中的數據項與另一個數據集中的數據項滿足某種邏輯關系. 例如:在油田開發領域,數據表DAA01中的數據項注水zs的值小于數據表DBA04中的數據項投產tc的值,即DAA01.zs 定義7. 連續性約束規則.數據項的值必須保持取值連續性的約束. 例如:在油田開發領域,數據表DAA03中的數據項測點深度cdsd按主鍵分組,并且相鄰字段之間保持相同的間隔取值. 定義8. 等值函數依賴約束規則.是對數據集內部數據項上數據取值進行約束的規則.在同一數據集中,數據項上的數據取值必須由其他數據項上的數據取值計算得出. 例如:在油田開發領域,數據表DAA02中的數據項壓井液密度yjymd的取值等于該表中的數據項固井液密度gjymd的值加1,即DAA02.yjymd=DAA02.gjymd+1. 通過第1節研究表明,數據質量問題是多方面多角度的,通過多維度指標的共同作用反映數據質量情況.在評估維度體系中,正確性、完整性、一致性和冗余性是被公認的基本評價維度. 我們撇開領域業務自身的特點,數據質量模型是由被評估的數據集模式、維度集合、規則集合、評估實例集合、評估算法集合共同組成的復雜問題,據此給出形式化定義: 定義9. 數據質量評估Assess.任何Assess都可以形式化為一個五元組,表示為 Assess={S,D,R,I,A}, 其中,S為待評估的數據集模式;D為數據質量維度(dimension)的集合;R為度包含規則(rule)的集合;I為評估數據實例(instance)的集合;A為數據質量評估算法(algorithm)的集合. 定義10. 待評估的數據集模式S.待評估的數據集的模式,可以是關系數據庫模式中的表或視圖,也可以是XML模式等.每個模式可以用實體、聯系進行描述如下: S={entity,relation}. 定義11. 實體(entity).客觀存在并且相互區別的事物稱為實體.可以是具體事物,也可以是抽象概念.每個實體可以用名稱、屬性、碼、域進行描述如下: entity={ename,attribute,key,area}. 定義12. 屬性(attribute).實體的某一特性為屬性,由屬性名、類型、長度組成,描述如下: attribute={attname,type,size}. 定義13. 碼(key).唯一標識實體的屬性集稱為碼. 定義14. 域(area).域是一組相同數據類型的值的集合,屬性的取值范圍來自于域.這里的域可以通過設定屬性的類型來限定,也可以是可枚舉的,例如area={a1,a2,…,an}. 定義15. 聯系(relation).聯系包含實體內部的聯系和實體之間的聯系.描述如下: relation={〈entity1,entity2〉,rname,rkind}, 其中,rname是聯系的名稱;rkind指聯系的類型,即實體內部的聯系和實體之間的聯系. 定義16. 維度集合D.包含多個評估維度的集合,描述如下: D={dimi|define(dimi),1 其中,define(dimi)是對評估維度dimi的定義. 定義17. 規則集合R.每個評估維度所包含規則的集合,描述如下: R={〈dimi,rulej〉|define(rulej), 其中,define(rulej)是對某一評估維度包含的約束規則的定義.每個維度包含多個約束規則. 定義18. 評估數據實例集合I.由評估實例記錄構成的集合,描述如下: I={insi|define(insi),1≤i≤n}, 其中define(insi)是對評估實例的定義. 定義19. 評估算法集合A.由評估算法構成的集合,描述如下: A={algi|define(algi),1≤i≤n}, 其中,define(algi)是對評估算法的定義. 企業進行數據質量評估主要經過4個步驟:確定評估數據集模式S;遍歷維度集選定評估維度D;遍歷規則集R,在實例集I上對規則進行檢查;將違反這些規則的記錄存儲在errordata中.最后通過數據質量評估算法集A,計算各維度指標的質量.數據質量評估流程算法的偽代碼如算法1所示. 算法1. 數據質量評估流程算法. 輸入:D,R,I,A; 輸出:errordata. ① if (D=null‖R=null‖I=null) ② 返回空值; ③ end if ④ for 每一行D for 每一行R if (存在規則) ⑤ 在實例集I上對規則進行檢查,將違反規則的記錄存入errordata; ⑥ else ⑦ 返回空值; ⑧ end if ⑨ end for ⑩ end for 數據質量評估算法用于數據質量評估維度的計算,是數據質量評估的基本單位.本文以作者研發的《SYT7005-2014數據質量控制與評估原則》——石油天然氣行業標準,作為依據給出數據質量評估算法,本文以準確性評估算法為例,具體的數據質量評估指標概念如下: 1) 問題分類數.在對一個數據集進行質量評估時,出現違反數據質量元素中約束規則種類的數量,記作Sq. 2) 問題記錄數.在對一個數據集進行質量評估時,存在違反數據質量元素中約束規則的記錄個數,同一條記錄出現多個違反約束規則的不重復計算,記作Rq. 3) 問題數據數.在對一個數據集進行質量評估時,存在違反數據質量元素中約束規則的記錄個數,同一條記錄出現多個違反約束規則的重復計算,記作Dq. 4) 問題數據項個數.在對一個數據集進行質量評估時,出現違反數據質量元素中約束規則的數據項個數,一個屬性違反多個約束規則不重復計算,記作Cq. 5) 缺少數據項個數.一個數據集元數據定義數據項個數與實際數據項個數的差,記作Cs. 準確性的評估包括:問題分類數Sq、問題記錄數Rq、問題數據數Dq、問題數據項個數Cq、缺少數據項個數Cs. 設Cr為數據集的記錄數,Cqd為元數據定義數據項個數,數據準確性為 其他評估維度算法詳見文獻[27]. 本體最早源于哲學范疇,隨著信息技術的發展被賦予了新的意義.Gruber[27]給出了業界廣泛接受的本體定義,即“本體是概念模型的明確的規范化說明”.本體描述了實體之間概念的聯系,本體的目標是將某個具體領域的概念整合起來,確定該領域公認詞匯,對詞匯和詞匯之間的關系給出形式化、規范化的定義.目前對于本體構建沒有一個明確的規范和標準,1995年Gruber提出的5條準則被廣泛接受:明確性和客觀性、完全性、一致性、最大單調可擴展性、最小承諾和最小編碼偏好.國外幾種重要的本體構建方法有IDEF5、骨架法、企業建模法、METHONTOLOGY、循環獲取法、5步循環法等.2002年,文獻[28]中提到Stojanovic等人通過考察給出了一組從關系模型到本體的映射規則,基于這些規則能夠直接得到一個候選本體,然后可以進一步對該候選本體進行評價和精煉,生成最終的本體.本文依照映射規則思想,在對本體技術進行充分研究的基礎之上,從上述的質量評估數學模型出發,提出了從數學模型向本體模型轉換的映射規則,抽取概念及其關系構建數據質量評估的知識本體. 本文將通用數據質量模型形式化為五元組Assess=〈S,D,R,I,A〉,其中S為模式集,D為維度集,R為規則集,I為實例集,A為算法集.文獻[29]將本體形式化為五元組O=〈C,R,F,A,I〉,其中C為類,R為關系,F為函數,A為公理,I為實例.由此可見,從數據質量通用模型到本體模式的轉換主要包含:模式集到本體的映射;維度集到本體類的映射;規則集到本體屬性及公理函數的映射;實例集到本體類的實例及屬性的實例的映射;算法集到本體類的映射.映射規則定義如下: 1) 模式集S的映射 模式集是指需要進行評估的數據集的模式的集合.例如關系數庫模式,XMlSchema等.文獻[30]對已有的模式映射技術進行了比較全面的綜述.數據模式到本體的映射主要是模式和本體中對應元素的映射,通過人工參與及映射策略消除語法層次上的差異.模式集的映射包含實體映射和聯系映射. ① 實體(entity)的映射 定義20. 實體(entity)的映射.實體可以是具體事物,也可以是抽象概念,通常映射成以實體名命名的本體類,映射過程為 ?entityi∈S→Cename, 其中,Cename表示以實體名命名的本體類. ② 屬性(attribute)的映射 定義21. 屬性(attribute)的映射.實體屬性映射成以屬性名命名的本體類,映射過程為 ?attributei∈S→Cattname. ③ 碼(key)的映射 定義22. 碼(key)的映射.碼用來唯一標識屬性.映射成本體中的函數,映射過程為 ?keyi∈S→restriction((DataProperty, ④ 聯系(relation)的映射 定義23. 聯系(relation)的映射.聯系包含實體內部的聯系和實體之間的聯系.通常映射成一對互逆的對象屬性.映射過程為 ?relationi∈S→ObjectProperty 其中,Centity1表示以entity1名字命名的本體類,Centity2表示以entity2名字命名的本體類. 2) 維度集D的映射 定義24. 維度集D的映射.維度集是指評估維度的集合,通常映射成本體中的類,映射過程為 ?dimi∈D→Cdim, 其中,Cdim表示以維度名字命名的本體類. 3) 規則集R的映射 規則集中包含的是與評估維度相對應的規則.對于選定評估維度的數據集,制定評估維度對應的評估規則.在規則集中,規則分為數據項約束規則、同記錄跨列約束規則和交叉列約束規則.有些限定規則可直接用OWL約束來實現,映射成本體公理或函數. ① 數據項約束規則的映射 定義25. 數據項約束規則的映射.規則限定的是實體屬性本身,規則映射成數據屬性,映射過程為 ?rulei∈DataItem→DataProperty 其中,Ccol指的是規則限定的屬性映射成的本體類,typeof(col(rulei))指的是規則限定的屬性類型. ② 同記錄跨列約束規則的映射 定義26. 同記錄跨列約束規則的映射.規則限定的是同一實體的屬性,屬性間是關聯關系的,規則映射成一對互逆的對象屬性,映射過程為 ?rulei∈CrossColumn→ObjectProperty 其中,Ccol指的是規則限定的屬性映射成的本體類,Crelate指的是被規則限定的屬性的關聯屬性映射成的本體類.由于限定屬性和關聯屬性在同一實體中,因此Ccol和Crelate相等. ③ 交叉列約束規則的映射 定義27. 交叉列約束規則的映射.規則限定的是不同實體之間的屬性,屬性間是關聯關系的,規則映射成一對互逆的對象屬性,映射過程為 ?rulei∈CrossEntity→ObjectProperty 其中,Ccol指的是規則限定的屬性映射成的本體類,Crelate指的是被規則限定的屬性的關聯屬性映射成的本體類. 4) 實例集I的映射 定義28. 實例集I的映射.實例集是指數據集記錄實例的集合,映射成本體類的實例或本體屬性實例,映射過程為 ?insi∈I→(Class)∨(Property). 5) 評估算法集A 定義29. 算法集的映射.是數據質量評估算法的集合,映射成以算法名稱命名的本體類,映射過程為 ?algi∈A→Calg. 通過映射規則構建通用數據質量本體,1)遍歷數據集模式,將實體映射成以實體名為概念的本體類,實體屬性映射成以屬性名為概念的本體類,將實體的關系映射成本體中的對象屬性;2)遍歷評估維度集中的所有維度,創建以維度名為概念的本體類,遍歷維度集下對應的規則集合,判斷規則是數據項約束規則還是同記錄跨列約束規則或交叉列約束規則,按照Rule的映射規則創建本體的對象屬性或數據屬性;3)遍歷實例集合,創建相應的本體實例;4)遍歷算法集,創建以算法名為概念的本體類.數據模型映射成OWL本體有5個步驟: 步驟1. 遍歷數據集模式S.①確定是否存在實體,若存在,按照定義20映射成本體類;②確定是否存在聯系,若存在,按照定義23映射成對象屬性. 步驟2. 遍歷維度集D.確定是否存在維度,若存在,按照定義24映射成本體類. 步驟3. 遍歷規則集R.①確定是否存在數據項約束規則,若存在,按照定義25映射成本體類;②確定是否存在同記錄跨列約束規則,若存在,按照定義26映射成對象屬性;③確定是否存在交叉列約束規則,若存在,按照定義27映射成對象屬性. 步驟4. 遍歷實例集I.確定是否存在實例,若存在,按照定義28映射成本體類. 步驟5. 遍歷算法集A.確定是否存在算法,若存在,按照定義29映射成本體類. 本文基于數據質量模型及映射規則算法,考慮到多數數據存儲在關系數據庫中,因此以中國石油油田開發數據為背景進行數據質量評估本體的構建,以此驗證模型和映射算法是可行的、通用的,按著3.2節給出的轉換規則與算法,構建過程如下: 1) 模式集S的映射 ① 實體(entity)的映射.關系數據庫模式中的實體是多張關系表,按照定義20將其映射成本體中的AssessedTable類. ② 屬性(attribute)的映射.關系模式的屬性是字段,按照定義21將其映射成本體中的Assessed-Column類. ③ 碼(key)的映射.關系數據庫模式中的碼是關系表中的主鍵,按照定義22將其映射成本體函數. ④ 聯系(relation)的映射.關系模式中,表和字段之間存在聯系.按照定義23將其映射成本體中一對互逆的對象屬性hascolumn和iscolumnof. 2) 維度集D的映射 企業數據質量關系數據庫評估維度表中包含4類評估維度,分別是準確性、完整性、一致性和冗余性. ① 維度概念的映射.按照定義24,映射成4個維度的本體類. ② 維度關系的映射.每個維度包含多個約束規則,因此將維度與規則的關系映射成本體中的一對互逆的對象屬性,hasrule和isruleof. 3) 規則集R的映射 企業數據質量關系數據庫中包含8類數據質量約束規則,分別是非空約束、值域約束、邏輯依賴約束、等值一致性依賴約束、存在一致性依賴約束、邏輯一致性依賴約束、等值函數依賴約束、連續性約束規則.定義已在3.2節介紹,按照映射規則分別映射為 ① 非空約束.按照定義25的映規則,將非空約束規則通過必要屬性(RequiredProperty)數據屬性來表達.具體表達如表2所示: Table 2 Data Property for Not Null Rule表2 非空約束規則對應的數據屬性 ② 值域約束.按照定義25將值域約束映射成本體中的數據屬性Min_Value和Max_Value.具體表達如表3所示: Table 3 Data Property for Rang Domain Rule表3 值域約束規則 ③ 邏輯依賴約束.按照定義26將邏輯依賴約束映射成為對象屬性GreaterThan和LessThan,具體表達如表4所示: Table 4 Object Property for Logic Depend Rule表4 邏輯依賴約束規則對應的對象屬性 ④ 等值一致性約束.按照定義27將等值一致性依賴約束規則映射成為對象屬性ReferenceEquals,具體表達如表5所示: ⑤ 存在一致性約束.按照定義27將該規則映射成本體的對象屬性Exist,具體表達如表6所示: Table 6 Object Property for Exist Consistency表6 存在一致性約束規則對應的對象屬性 ⑥ 邏輯一致性約束.按照定義27將該規則映射成本體中的對象屬性ReferenceGreaterThan,ReferenceLessThan,具體表達如表7所示: Table 7 Object Property for Logic Consistency表7 邏輯一致性約束規則對應的對象屬性 ⑦ 等值函數依賴約束.與等值一致性約束規則不同的是,等值函數依賴規則限定的同一數據集字段間的等值關聯關系,因此按照定義27將規則映射成本體中的對象屬性Equals.具體表如表8所示: Table 8 Object Property for Equi-dependency表8 等值函數依賴約束規則對應的對象屬性 ⑧ 連續性約束.連續性約束規則限定的是字段本身在某一分組內的數據按一定步長連續,因此按照定義25將規則映射成本體中的數據屬性Step和Groupby,具體表達如表9所示: Table 9 Data Property for Continuity表9 連續性約束規則對應的數據屬性 4) 實例集I的映射 以評估單井小層數據表DAA05為例,DAA05包含字段SYDS,YLSYDS,YLSYHD.需將該表和字段以實例的方式添加到本體中. 5) 算法集A的映射 企業數據質量關系數據庫中包含4類評估算法,分別是準確性評估算法、完整性評估算法、一致性評估算法和冗余性評估算法,按照定義29映射成4個本體類,OWL本體描述語言定義如下: 根據上述的數據質量評估通用數學模型以及數學模型到本體的映射規則,對企業關系數據庫進行抽象和分析,構建了通用的數據質量評估本體模型.如圖2所示: Fig.2 Data quality assessment ontology concept diagram圖2 數據質量評估本體概念關系圖 按照3.2節介紹的不同規則在本體中的映射方法,使用本體建模工具Protégé構建了數據質量本體,并生成了數據質量本體的OWL文件.數據質量本體的概念層次結構如圖3所示.數據質量評估的實現需要利用Jena技術并借助eclipse對OWL文件進行解析.解析的主要內容是對數據質量本體類的解析、屬性的解析以及實例的解析.通過解析出規則的屬性,調用評估算法,實現對規則的評估. Fig.3 Data quality assessment ontology concept hierarchy diagram圖3 數據質量評估本體概念層次結構關系圖 通過Jena對本體進行解析后,可以通過選取規則對字段進行評估,本文主要以企業數據質量關系數據庫中包含的8類數據質量約束規則為例,分別是非空約束、值域約束、邏輯依賴約束、等值一致性依賴約束、存在一致性約束、邏輯一致性約束、等值函數依賴約束、連續性約束規則.具體的評估實現如下: 1) 非空約束.通過解析非空字段,發現存在RequiredProperty數據屬性,即在相應數據庫中查詢出對應的為空字段. 2) 值域約束.解析出本體中評估字段的數據屬性Min_Value和Max_Value的值,查詢數據不在Min_Value和Max_Value范圍內的記錄. 3) 邏輯依賴約束.解析出本體中評估字段是否存在LessThan和GreaterThan的關系,檢驗存在該關系的字段取值是否滿足邏輯關系. 4) 等值一致性依賴約束.解析出本體中評估字段是否存在ReferenceEquals關系,檢驗存在該關系的字段取值是否滿足等值關系. 5) 存在一致性約束.解析出本體中評估字段是否存在Exist關系,檢驗存在該關系的字段是否在另一個字段中出現. 6) 邏輯一致性約束.解析出本體中評估字段是否存在ReferenceGreaterThan或者ReferenceLessThan關系,檢驗存在該關系的字段取值是否滿足邏輯關系. 7) 等值函數依賴約束.解析出本體中評估字段是否存在Equals關系,檢驗存在該關系的字段取值是否滿足等值關系. 8) 連續性約束.解析出Step_length和Groupby屬性的值,檢驗評估字段屬性值是否滿足連續性. 企業可以根據不同的專業需求按照本體映射規則對規則進行添加定制,同時相應地對評估規則的算法進行同步擴充,以保障對該規則的評估. 20世紀90年代初期,隨著關系型數據庫技術的發展,石油工業開始了油田勘探開發數據庫的規劃設計工作,經過幾十年的建設已經初具規模.在各個油田數據中心數據庫建設不斷發展和完善的過程中,油田相關部門也逐漸建立起多種類型的數據庫來處理日漸增多的數據,如何保障進入油田數據庫數據的質量是石油工業需要解決的重要問題.A2(油田生產注入與產出數據)、A5(油田地面工程及采油數據)數據庫利用完整性約束來限制數據的插入等操作,依然不能保證進入數據庫的數據完全符合業務需求,因此目前油田開發數據庫中仍然有很多數據質量問題存在,如數據不正確、數據殘缺、數據重復等. 本文以石油領域的質量管控為應用背景,結合油田開發數據開發了基于數據質量本體的石油領域數據質量評估系統,對數據質量本體模型的有效性和技術可行性進行驗證.油田開發數據種類繁多,因此,本文以開發數據庫中存在質量問題較多的基礎信息表DDA02、鉆井地質信息表DAA02、井斜數據表DAA03和單井小層數據表DAA05為例,針對4個維度,選取其中具有代表性的約束規則進行評估,將評估結果與數據庫實際情況進行比對,驗證本文構建的數據質量評估正確性.表的字段約束規則如表10所示: Table 10 Constraint Rules表10 約束規則 首先將評估表以本體實例添加到數據質量評估本體中,再將字段約束規則以數據屬性或對象屬性方式添加到本體.通過解析數據質量本體的類以及規則字段屬性,分別進行值域約束、邏輯依賴約束、連續性約束和存在一致性約束的評估,Oracle數據庫系統的檢索與本體模型評估結果對比如表11和圖4所示. 上述的評估結果均與數據庫中存在的數據質量問題的實際情況相一致,由此可見,本文構建的評估本體能夠準確描述約束規則,且評估結果與實際數據庫相符合,該數據質量評估本體結構合理,有利于數據質量領域的知識共享,是可行有效的. Table 11 Query Contrast表11 評估結果對比表 Fig.4 Query contrast diagram圖4 查詢對比圖 本文提出了一個數據質量評估數學模型,設計了一個從數據質量評估數學模型到本體模型映射的轉換規則,以企業數據質量關系數據庫為例進行了實驗,參照模型和規則實現了數據質量評估本體抽取,構建了通用的數據質量評估本體模型.企業可以根據不同的專業需求按照通用模型對內部業務規則進行添加定制,擴充評估指標以及評估算法,選取不同來源、不同格式的數據集進行評估,這一模型已在油田開發領域數據的質量評估中得到了應用,評估結果與實際一致,驗證了該模型的有效性.下一步的工作重點是對規則和映射方法進行改進和優化,完善本體結構,實現本體的自動構建,并結合專業數據應用中出現的各種質量規則,利用本體的推理技術進一步實現對潛在數據質量相關問題的推理研究. [1]Guo Zhimao, Zhou Aoying. A survey of research on data quality and data cleaning[J]. Journal of Software, 2002, 13(11): 2076-2082 (in Chinese)(郭志懋, 周傲英. 數據質量和數據清洗研究綜述[J]. 軟件學報, 2002, 13(11): 2076-2082) [2]Wang R Y, Reddy M P, Kon H B. Toward quality data: An attribute-base approach[J]. Decision Support System, 1995, 13(34): 349-372 [3]Yang Qingyun, Zhao Peiying, Yang Dongqing, et al. Research on data quality assessment methodology[J]. Computer Engineering and Applications, 2004, 40(9): 3-4 (in Chinese)(楊青云, 趙培英, 楊冬青, 等. 數據質量評估方法研究[J]. 計算機工程與應用, 2004, 40(9): 3-4) [4]Parssian A, Sarkar S, Jacob V. Assessing data quality for information products: Impact of selection, projection, and cartesian product[J]. Management Science, 2004, 50(7): 967-982 [5]Debabrata D, Subodha K. Reassessing data quality for information products[J]. Management Science, 2010, 56(12): 2316-2322 [6]Xu Min, Xu Yong. A data quality assessment model based on single attribute[J]. Statistics and Decision, 2013, 33(11): 4-8 (in Chinese)(徐敏, 徐勇. 基于單一屬性分布的數據質量評估模型[J]. 統計與決策, 2013, 33(11): 4-8) [7]Yan Hongwen, Chen Peng. Research on quality asssessment of power grid statistical data based on cloud model[J]. Computer Applications and Software, 2014, 34(12): 100-103 (in Chinese)(顏宏文, 陳鵬. 基于云模型的電網統計數據質量評估方法研究[J]. 計算機應用與軟件, 2014, 34(12): 100-103) [8]Chen Jianming, Han Jianmin. Evaluation model for quality ofk-anonymity data oriented to microaggregation[J]. Application Research of Computers, 2010, 27(6): 2344-2347 (in Chinese)(陳建明, 韓建民. 面向微聚集技術的k-匿名數據質量評估模型[J]. 計算機應用研究, 2010, 27(6): 2344-2347) [9]Teng Dongxing, Zeng Zhirong, Yang Haiyan, et al. Visual quality analysis method for relational data[J]. Journal of Software, 2013, 24(4): 810-824 (in Chinese)(滕東興, 曾志榮, 楊海燕, 等. 一種面向關系型數據的可視質量分析方法[J]. 軟件學報, 2013, 24(4): 810-814) [10]Zhang Lianchao. Research on ontology-based data cleaning system framework[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2008 (in Chinese)(張聯超. 基于本體的數據清洗系統框架研究[D]. 南京: 南京航空航天大學, 2008) [11]Huang K T, Lee Y W, Wang R Y. Quality Information and Knowledge[M]. Upper Saddle River, NJ: Prentice Hall, 1998: 99-136 [12]Kahn B K, Strong D M. Product and service performance model for information quality: An update[C]Proc of the 3rd Int Conf on Information Quality. Cambridge, MA: MIT Press, 1998: 102-115 [13]DAMD. DAMA Data Management Knowledge System Guide[M]. Translated by Ma Huan. 1st ed. Beijing: Tsinghua University Press, 2012 (in Chinese)(DAMD. DAMA數據管理知識體系指南[M]. 馬歡, 譯. 1版. 北京: 清華大學出版社, 2012) [14]Wang R Y, Storey V C, Firth C P. A framework for analysis of data quality research[J]. IEEE Trans Knowledge and Data Engineering, 1995, 7(4): 623-640 [15]Wand Y, Wang R Y. Anchoring data quality dimensions in ontological foundations[J]. Communications of the ACM, 1996, 39(11): 86-95 [16]Wang R Y, Strong D M. Beyond accuracy: What data quality means to data consumers[J]. Journal of Management Information Systems, 1996, 12(4): 5-33 [17]Redeman T C. Data Quality for the Information Age[M]. London: Artech House, 1997: 130-137 [18]Jarke M, Jeusfeld M A, Quix C, et al. Architecture and quality in data warehouses: An extended repository Approach[J]. Informayion Systems, 1999, 24(3): 229-253 [19]Bovee M, Srivastava R P, Mak B. A conceptual framework and belief-function approach to assessing overall information quality[J]. International Journal of Intelligent System, 2010, 18(1): 51-74 [20]Naumann F. Quality-driven query answering for integrated information systems[G]LNCS 2262: Proc of the 7th Int Conf on Cooperative Information Systems. Berlin: Springer, 2002: 103-124 [21]Batini C, Cappiello C, Francalanci C, et al. Methodologies for data quality assessment and improvement[J]. ACM Computing Surveys, 2009, 41(3): 1-52 [22]McGilvray D. Executing Data Quality Projects: Ten Steps to Quality Data and Trusted Information[M]. San Francisco, CA: Morgan Kaufmann, 2008: 62-73 [23]Jarke M, Lenzerini M, Vassiliou Y, et al. Fundamentals of data warehouses[J]. IEEE Software, 2001, 18(5): 92-95 [24]Liu Liping, Chi L N. Evolutional data quality: A theory specific view[C]Proc of the 7th Int Conf on Information Quality. Cambridge, MA: MIT Press, 2002: 292-304 [25]Loshin D. The Practitioner’s Guide to Data Quality Improvement[M]. San Francisco, CA: Morgan Kaufmann, 2010 [26]Yuan Man, Zhang Xue. A data quality assessment model based on rules[J]. Computer Technology and Development, 2013, 23(3): 81-84 (in Chinese)(袁滿, 張雪. 一種基于規則的數據質量評價模型[J]. 計算機技術與發展, 2013, 23(3): 81-84 [27]Gruber T R. A translation approach to portable ontology specifications[J]. Knowledge Acquisition, 1993, 5(2): 199-220 [28]Du Xiaoyong, Li Man, Wang Shan. A survey on ontology learning research[J]. Journal of Software, 2006, 17(9): 1837-1847 (in Chinese)(杜小勇, 李曼, 王珊. 本體學習研究綜述[J]. 軟件學報, 2006, 17(9): 1837-1847) [29]Zhai Baorong. Study on extraction and storage of OWL ontology based on relational database[D]. Changsha: National University of Defense Technology, 2011(翟保榮. 基于關系數據庫的OWL本體的提取與存儲研究[D]. 長沙: 國防科學技術大學, 2011) [30]Rahm E, Bernstein P A. A survey of approaches to automatic schema matching[J]. VLDB Journal, 2001, 10(4): 334-350 ZhangXiaoran, born in 1992. Master candidate. Her main research interests include data quality and information integration. YuanMan, born in 1965. PhD. Professor. His main research interests include information and data science, data quality, knowledge organization and application, and integration technology.2 數據質量評估數學模型及評估算法
2.1 數據質量評估數學模型定義
1≤i≤p,1≤j≤q},2.2 數據質量評估流程算法
2.3 數據質量評估算法
3 通用數據質量評估本體構建
3.1 本體基本概念
3.2 數據模型向本體模型轉換的映射規則
minCardinary=1),FunctionalProperty).
(Domain:Centity1,Rang:Centity2).
(Domain:Ccol,Rang:xsd:typeof(col(rulei))),
(Domain:Ccol,Rang:Crelate),
(Domain:Ccol,Rang:Crelate),3.3 數據模型向本體模型轉換的映射算法
3.4 數據質量評估本體構建實現








3.5 數據質量本體評估實現

4 數據質量評估本體應用效果分析
4.1 數據質量評估本體應用背景

4.2 評估實驗結果比對


5 總 結

