宋俊典 劉豐源
(上海計算機軟件技術開發中心 上海 201112)
當前各行業企業越來越多依賴于數據進行決策和運轉,數據的信息提取能力和處理能力急需提升。然而許多數據已經超出了傳統技術能管控的范疇,存在大規模的低質量數據混在其中,進而影響了整體數據的清潔度。由于數據質量問題導致的計算偏差和決策失誤屢見不鮮,數據質量的低下造成嚴重經濟損失,并影響著各行業的發展。數據本身和數據質量都是一個多維度而模糊的概念,數據質量的評估難以用單一的指標來準確判斷,而且隨著業務流程的不同,數據質量的評價維度也是多種多樣。如何處理數據質量評價維度的模糊性,使得數據質量的評價具有可靠性和準確性,在數據質量的評估工作中一直是研究的重點和難點。本文面向數據質量評估提出了一種基于多維度的模糊綜合評價法,具有全面、可靠、準確等優點,為輔助企業進行數據質量的提升和改進提供了一套行之有效的方法。
數據質量評估是指針對數據的好壞優劣進行評判的方法或模型[1],國內外學者對此開展了大量的研究。Meyen[2]等最早定義數據質量評估是一種面向數據環境的屬性,旨在提高數據準確性的有效手段。Richard[3]在隨后一年首創數據質量評估先例,將質量評估定義、質量量化和質量分析以及提升納入質量評估體系中。Eppler[4]等基于之前的質量分析框架融合了新的原色,提出納入質量提升方案作為評估體系的內容之一。IMF 緊接著發布了更適用于定性度量的DQAF即《數據質量評估框架》[5],該框架成為后來的三大框架之一。相同時期Yang等[6]和Leo等[7](2002)都分別在質量評估方法上有所突破,分別提出了AIMQ方法和主客觀融合評估方法,大大改進了數據質量的評估方法的單一問題,其中AIMQ方法同樣成為了三大數據質量評估框架之一,廣為沿用。 Carlo[8]等在2008年擴展了原有的質量評估方法,提出一套更為全面、靈活的評估框架,被命名為CDQ,同屬三大框架之一。
而國內的學者在數據質量評估方法的研究和應用方面起步較晚,但是近年也做出了大量的研究和實踐。其中王淑貞[9]面向ERP系統,分析了數據精確度缺陷的根源和弊端,提出了面向準確性屬性的優化手段。王欣[10]對Benford分布律不能用于有界數據集準確性評估的局限性,提出了修正Benford分布律基礎上的準確性評估方法。然而上述方法都是將數據質量等同于數據準確性,存在一定的偏差,近年來越來越多的學者開始考慮多維評估問題,規避原始的單維度評估可能導致的不客觀性。吳騁[11]等關注數據質量評估工作的多維性,提出了量化的評估方法并應用在醫療領域。丁小歐[12]等歸納了一套數據質量評估指標,并深入研究了多維關系評估策略。劉偉濤[13]等結合互聯網數據,建立了面向WEB數據的評估模型和標準。
綜上所述,國外研究人員傾向于宏觀框架的構建,研究主體在于評估方法的組合和復用,而國內學者更傾向于應用在具體的場景中,構建不同的特色的質量指標評估體系并更關注準確性這個單一維度,但近年來國內學者也開始關注多維數據質量評估問題。然而結合國內外針對數據質量評價方法的研究現狀可以看出,國外的質量評估框架僅能對質量評估工作起到一定的指導作用,鮮有結合計算機系統落地實施的工具產生,而國內的指標體系并不完全,即便是考慮到了多維質量評估維度,仍然局限在準確性、完整性、規范性等少數維度,缺少與國際主流框架的結合,尚不夠全面,進而導致質量評估的結果會有一定偏差。基于以上問題,本文的研究試圖解決以下 3 個方面的問題: ① 綜合現有研究成果和國際主流評估框架,制定8大維度的多層級數據質量評估指標體系; ② 融合德爾菲法和層次分析法進行權重的計算,使權重集更為客觀準確,并融合模糊綜合評價法進行多維度模糊綜合評價法的構建; ③ 在實踐層面給出具體算例分析并結合計算機系統實現和驗證,并將方法成功應用在一個項目實例中。
2.1 關鍵技術
1) 德爾菲法(Delphi) 德爾菲法[13]是實現專家決策的重要手段,通過采用背對背的通信方式屏蔽專家之間的溝通渠道,再通過反復輪詢使結果趨同。德爾菲法具有鮮明的特點:綜合考慮到參與決策者的專業知識,是吸收融合知識進行預測的專業方法;只允許背靠背通信方式,即只允許參與決策者與調研人員單方面溝通,禁止專家之間的直接交流,可以有效避免主觀意識對結果的影響;反復迭代單次統計結果,直到結果逐漸趨于統一,可以通過統計次數的遞增降低決策的失誤率。
正是由于德爾菲法充分利用了決策者的資源,并具有一定的匿名性和獨立性,使得每次調研和決策結果都是真實可信的,且具有一定的可靠性,同時該方法又利用反復迭代的思想得到趨同的最終結果,使得反饋結果具有一致性和可信性。
2) 層次分析法(AHP) 層次分析法AHP[14]的提出是面向復雜關系的梳理和轉化,該方法通過層次分析結構模型實現各層級的比較,實現彼此重要程度的比對,建立判端矩陣并計算權重分配。層次分析法優點明確,通過將原始的定性問題轉化為定量處理,可以實現更好的效果。相比于其他定量方法,層次分析法更加注重模擬人腦思考的過程,關注于定性的分析和判斷。同時層次分析法具有簡單可實行的特點,通過把問題分層量化,實現了數學計算的簡化,有助于快速輔助決策。因此層次分析法常常應用于解決定性問題和簡化指標計算。
3) 模糊綜合評價法(FCEM) 模糊綜合評價法[15]是實現模糊概念轉化與評價的方法,基礎是模糊數學。模糊數學是用來描述、研究和處理事物所具有的模糊特征的數學,可以有效地解決表述對象的不確定性和模糊性,并且提供了相關處理不精確問題的工具。模糊綜合評價法的核心是隸屬度函數,可以把定性的問題轉化為定量的問題來處理,是實現模糊轉化的核心手段,最終可以實現將多維評價屬性轉化為定量的計算,得到科學的評價等級的目的。
模糊綜合評價法具有通用的流程可以參考,首先是構建符合特定業務場景的評估指標體系,且需要具有一定的客觀性,指標體系可分為多層級指標,用于后續模糊轉化以及權重制定;其次是進行權重向量的制定,權重的確定可根據需要變更權重確定方法,但需要遵循客觀準確的原則;接著是構建評價矩陣,在這個環節里需要對隸屬度函數進行確定并應用隸屬度函數進行模糊轉化和模糊計算;最后是矩陣和權重的合成,可以更好地綜合模糊概念的定性和定量特征,保證最終結果的準確可靠。
模糊綜合評價法在難以定量計算的評價問題上具有非常優秀的實用性,通過模糊概念的定量轉化,可以結合計算機實現精準的評價。
2.2 多維模糊評價法概述
本方法計算流程如圖1所示。

圖1 方法流程圖
1) 確定評價指標集:依據業務場景制定可以評價數據質量的評判對象因素構成集合。假設存在二級指標,則U(u1,u2,…,un)表示一級指標,Uk(uk1,uk2,…,uks)為二級指標,k=1,2,…,n。
2) 建立權重集,依照指標體系中各指標重要性比對結果制定相應的權重矩陣,本方法中一級指標的權重集A(a1,a2,…,an)可采用德爾菲法計算;二級指標采用層次分析法計算Ak(ak1,ak2,…,aks),通過對各因素相互比較形成判斷矩陣來確定的各因素的權重。
3) 確定評語集v(v1,v2,…,vm),比如4類評語等級{優,良,中,差}。
4) 確定隸屬度函數,即依據數據對于指標體系的貼合程度確定U對v的隸屬度rij,構造各評價指標的評價矩陣Rk=(rij)s×m。
5) 模糊變換及模糊綜合評價模型:
(1) 通過將uki的評價矩陣Rk與權重進行矩陣合成,得到一級指標uk對于評語集v的隸屬向量Bk=AkRk=[bk1,bk2,…,bkm]。
(2) 再對R進行模糊變換得到目標指標U對評語集v的隸屬向量B1×m=AR=[a1,a2,…,an][B1,B2,…,Bn]。
(3) 最后計算出隸屬向量。
6) 根據最大隸屬度原則,得到數據質量評價等級。
2.3 數據質量評估指標體系
數據質量評估系統除了需要滿足一般的系統管理、權限管理等基礎功能外[16],重要的需求點在于質量評估指標體系如何制定以及如何將指標落實到系統中。結合當前研究成果和實現數據質量評估檢查所需要的實際指標,制訂如下兩層指標體系,作為系統指標體系。
本指標體系分為8類一級指標和20類二級指標。各級指標如下所述:
1) 可靠性:包含原始數據、定期更新的權威數據、不定期更新的文獻數據或專著中的數據、基于文獻統計數據、無根據的假設數據等5類二級指標。其中原始數據是現場調查的一線數據;定時更新的權威數據和不定期更新的文獻專著數據主要指爬蟲獲取的互聯網數據。
2) 準確性:包含數值準確性、值域準確性和平衡規則檢查3類二級指標。其中數值準確性指指標數值與閾值上下限的比較;值域準確性指檢查特定字段的取值是否在預定的取值范圍之內;平衡規則檢查指多個指標間的約束關系檢查。
3) 完整性:包含數據量充足性、關鍵屬性空置率和外鍵引用檢查3類二級指標。其中數據量充足性指檢查樣本數據是否充足;關鍵屬性空置率指實體關鍵屬性中空置部分的占比;外鍵引用檢查是指檢查是否滿足引用完整性的規則。
4) 一致性:包含數據一致性、格式一致性和變更一致性3類二級指標。數據一致性指采集點、取數時間點、接口數據獲取是否失真;格式一致性指創建數據默認值與數據錄入的校驗規則是否不當;變更一致性指與基礎數據可庫一致性。
5) 及時性:包含數據更新及時率1個二級指標,指數據來源的范圍、數據量以及更新的時間。
6) 規范性:包含數據命名標準規范率檢查1個二級指標,該指標指根據數據的標準字典進行評判是否符合標準化的定義。
7) 唯一性:包含數值重復率和業務主鍵唯一性2個二級指標。數值重復率指檢查數據記錄與其所表示的真實實體或事件是否一一對應;業務主鍵唯一性指對具有業務唯一意義的字段進行唯一性檢查。
8) 有效性:包含實體主鍵取值有效性(業務主鍵唯一性占比)和屬性有效性2個二級指標。實體主鍵取值有效性指邏輯主鍵是表的唯一標識,主鍵上數據有效性;屬性有效性指實體屬性的取值在語法和語義上均應符合業務邏輯。
2.4 確定隸屬度函數
隸屬度是多維度模糊評判法的核心,因此在確定數據質量評估指標體系后需要依據其進行隸屬度函數的確定,具體方法如下所示:
給定監測對象Uk關于指標uks的一個質量評價值xks表示最底層質量指標的分值,其屬于模糊類p(p=1…m)的隸屬度計算如下,
1)p=1(偏大型,優級)

2) 1

3)p=m(偏小型,差級)



圖2 基本模糊等級的隸屬度函數
2.5 確定權重系數
而對于權重的計算,本方法采用一二級指標分開計算的策略,一級指標較為簡單,因此采用德爾菲法進行專家打分評定,考慮到細粒度指標較復雜,選擇采用層次分析法處理,并構建指標間對比矩陣如表1所示。

表1 指標間對比矩陣(9級標度)
按照二級數據質量評價指標構造比較矩陣,以dij表示評價指標aki與akj的重要程度。
Dk=[dij]s×s



本文提出的基于多維度的模糊綜合評價法應用在上海市某大型證券公司與上海軟件中心合作的數據治理項目中,以該證券公司部分數據為例進行驗證。本項目指標體系參照表1,本項目中評估結果采用優、良、中、差四級評語集,基于本方法進行模糊計算并得到數據等級評估結果。基于算理的整體計算分析過程如下:
1) 根據評價指標構建評估對象集U={u1,u2,u3,u4,u5,u6,u7,u8},其下指標集為u1={u11,u12,u13,u14,u15},u2={u21,u22,u23},u3={u31,u32,u33},u4={u41,u42,u43},u5={u51},u6={u61},u7={u71,u72},u8={u81,u82}。
2) 建立評語集v,v={v1=優,v2=良,v3=中,v4=差}。
3) 計算二級指標權重Ak,得到權重A1={a11,a12,a13,a14,a15},A2={a21,a22,a23},A3={a31,a32,a33},A4={a41,a42,a43},A5={a51},A6={a61},A7={a71,a72},A8={a81,a82}。
4) 構造評價矩陣Rk,本項目中x≥96為優,82≤x≤89為良,68≤x≤75為中,x≤61為差,其余分值則根據隸屬度函數計算求得:



5) 對二級評價矩陣進行模糊變換,即求模糊綜合評價Bk。本文模糊算子M(,⊕)為加權平均型,因此模糊子集Bk=AkRk=[bk1,bk2,bk3,bk4],一級指標評判矩陣R=[B1,B2,…,Bn]n×4。
6) 數據質量評價向量B,B1×4=AR=[a1,a2,…,an][B1,B2,…,Bn]。
7) 在各隸屬度中選擇最大的作為該對象隸屬度,構造結果矩陣。
8) 評價結果分析,通過系統實現本次數據質量的評估,評估結果如圖3所示。

圖3 數據質量評估結果
為了驗證本研究提出的基于多維度模糊綜合評價法的準確性,本文采用市面上某主流質量評估工具對同數據的評估結果做比對,該評估結果如表2所示。

表2 某工具評估結果
經過比對可見本文提出的基于多維度模糊綜合評價方法得出的結果,與市面上某工具的評估結果相比,在同樣的評估數據源中進行同等權重配置,在最終得到的結果上本文方法發現的問題率偏高1%~2%,綜合得分偏差較小,因此本文方法具備一定的有效性和準確性,并可成功應用在實際的數據治理項目中,為數據治理中的數據質量管理工作做出了一定程度的改進和優化。
本文提出了一種基于多維度的模糊綜合評價方法,將傳統的數據質量評估指標體系擴展到了8個維度,20個二級指標,優化了權重的制定方法,提高了本方法的準確性。同時采用基于隸屬度函數的模糊綜合評價法進行數據質量模糊概念的轉化,使定性轉變為定量,最終得到科學有效的數據等級。本研究方法在實際項目中的真實數據進行實驗,并與當前市面上主流的質量評估軟件的評估結果進行比對驗證,結果表明本方法與主流質量評估方法一致性達到90%以上,具有良好的可信性。同時本文也存在一些局限:一是本文權重的制定需要融合德爾菲法和層次分析法,此兩種方法需要大量的調研工作,且對于參與調研者的要求較高,需要被調研者熟知待檢測數據方能產生較為可靠的權重集;二是本文所制定的數據質量評估體系是較為全面的,但是實際評估工作過程中,需要根據數據實際情況和具體業務流程有所選擇。
參考文獻
[1] 李庭輝. 基于匹配性的GDP數據質量評估研究[D]. 湖南大學, 2012.
[2] Meyen D, Willshire M J. A Data Quality Engineering Framework[C]// Conference on Information Quality. DBLP, 1997:95-116.
[3] Wang R Y. A product perspective on total data quality management[J]. Communications of the Acm, 1998, 41(2):58-65.
[4] Eppler M J, Wittig D. Conceptualizing Information Quality: A Review of Information Quality Frameworks from the Last Ten Years[C]// Fifth Conference on Information Quality (IQ 2000). 2000:83-96.
[5] Kahn B K, Strong D M, Wang R Y. Information quality benchmarks: product and service performance[J]. Communication of the ACM,2002, 45(4): 184-192.
[6] Yang W L, Strong D M, Kahn B K, et al. AIMQ: a methodology for information quality assessment[J]. Information & Management, 2002, 40(2):133-146.
[7] Pipino L L, Lee Y W, Wang R Y. Data quality assessment[J]. Communications of the Acm, 2002, 45(4ve):211-218.
[8] Batini C, Cabitza F, Cappiello C, et al. A Comprehensive Data Quality Methodology for Web and Structured Data[J]. International Journal of Innovative Computing & Applications, 2007, 1(3):448-456.
[9] 王淑貞.數據準確性在企業信息化中的應用研究[J].中國管理信息化,2014,17(16):41.
[10] 王欣. 修正Benford分布律及其在數據準確性評估中的應用[D].天津財經大學,2016.
[11] 吳騁,秦嬰逸,肖翔,等.病案首頁數據質量的量化評估方法研究及應用[J].中國病案,2016,17(03):10-13.
[12] 丁小歐,王宏志,張笑影,等.數據質量多種性質的關聯關系研究[J].軟件學報,2016,27(07):1626-1644.
[13] 劉偉濤, 顧鴻, 李春洪. 基于德爾菲法的專家評估方法[J]. 計算機工程, 2011(s1):189-191.
[14] 單美靜. 基于AHP法的移動支付安全風險評估[J]. 計算機科學, 2015,42(11A):368-371.
[15] 王玨,喬建忠,林樹寬,等.基于綜合隸屬度函數的模糊支持向量回歸機[J].小型微型計算機系統,2016,37(3):551-554.
[16] 趙星,李石君,余偉,等.大數據環境下Web數據源質量評估方法研究[J].計算機工程,2017,43(2):48-56.