韓培強,胡而已,葉 蘭,馮智愚,張衛偉
(1.陜煤集團神木張家峁礦業有限公司,陜西省榆林市,719300;2.應急管理部信息研究院,北京市朝陽區,100029;3.應急管理部大數據中心,北京市東城區,100013)
數據是21世紀的重要生產要素,是基礎性和戰略性資源,也是重要的生產力[1]。以“數據驅動型決策”模式運營的企業,通過形成體系完整、質量可控的數據鏈,推動生產制造各環節高效協同,其生產力可以普遍提高5%~10%。數據質量是影響數據開發利用效率和數據要素價值轉化的關鍵因素之一[2],而多源數據質量參差不齊往往會給智能化礦山建設場景應用造成困難,同時也給礦山智能化建設“從數字化到智能化再到智慧化”的成效造成損失。數據質量對企業的直接影響主要包括經濟損失和運營風險等。數據質量不僅決定信息化建設的成敗,更是影響企業業務協同、管理創新、決策支持的核心要素。對于數據質量的管理,實行“事前預防、事中控制、事后補救”的數據質量管理策略,持續提升企業數據質量水平。隨著大數據的發展,企業數據使用需求與日俱增,數據質量問題亟需解決。
隨著煤礦智能化建設[3-5]的推進,制約數據融合、系統聯動、業務協同等發展的數據治理問題受到廣泛關注[6-7]。自智能化煤礦數據治理問題被提出以來,學者們在智能化煤礦數據治理的概念界定、技術架構及關鍵技術方面展開了理論研究和實踐探索[8-9]。智能化煤礦數據治理的概念內涵和技術架構正逐步形成共識,關鍵技術的突破方興未艾,但理論研究和實踐探索亟需完善的方法論加以指導。
通過對發展歷程和基礎理論的研究[10-16],界定了數據質量以及數據質量量化管理的概念,豐富本研究領域的理論基礎,在明確概念的基礎上,總結歸納智能化礦山建設過程中可能面對的問題以及面向數據質量管理全過程的策略和技術。以實際智能化礦山數據質量管理為例,從數據質量管理的頂層設計、數據質量管理活動的開展、數據質量管理評估度量等環節,介紹完整的智能化礦山數據質量管理流程,為礦山企業智能化轉型提供典型案例,具有一定的借鑒意義。
在DIKW金字塔模型中,數據源于底層,數據之上是數據經過加工之后形成的信息,如圖1所示。結合具體場景應用的系統化的信息產生知識,應用已知有實用價值的知識對未來進行預測表現為智慧。數據質量差將會直接或者間接的導致信息質量差、決策質量降低、業務結果不理想等結果。數據質量的高低程度在一定意義上是可評估、可測量的。

圖1 DIKW金字塔模型
過往很多學者對數據質量有定義。REDMAN T C[17]給出數據質量的定義為“如果數據符合其在操作、決策和規劃中的預期用途,則其具有高質量;如果數據沒有缺陷并且具有期望的特征,則適合使用。” OLSON J[18]也給出了一個關于數據質量的定義“如果數據滿足其預期用途的要求,那么數據具有質量”。ISO8000數據質量系列國際標準[19]指出數據質量是數據治理的重要組成部分,它可以確保組織的數據適用于目的。它指的是數據集的整體效用,以及它為其他用途輕松處理和分析的能力。
總而言之,數據質量是指數據滿足人們的隱性或顯性期望的程度。且高質量數據需要滿足以下3點:數據適合預期的使用目的;數據正確地表達所描述事物和現象的真實構造;數據符合某個標準或達到人們期望的水平。
數據質量維度是測量或評估數據質量的基礎,是量化數據質量的標準。數據質量的提高可以通過改進數據質量維度來實現。不同的數據集,數據質量維度可能不同,但一般都包含數據的一致性、完整性、唯一性、準確性、有效性和及時性,如圖2所示。為了確保數據質量,可以根據自身業務場景和需求制定相應的數據質量維度,對于特定的關鍵數據而言,并非所有的維度都適用,例如智能化設備出廠日期就只能評估有效性和完整性。

圖2 數據質量維度
數據質量測量是指為了達到某一預期,按照一定的標準從數據質量維度進行衡量,以確定數據達到預期的程度。通過測量,可以比較不同對象之間的時間、空間差距,從而做出決策。有效的測量是決定是否能夠達到預期程度的決定性因素,有效測量的特點包括:有目的、可重復、可解釋。
數據質量管理就是指對數據從計劃、獲取、存儲、共享、維護、應用到消亡等階段可能引發的各種數據質量問題,進行識別、測量、監控、預警等一系列管理活動,其終極目標是通過可靠的數據提升數據在使用中的價值,提升數據的完整性、準確性和真實性,并最終為企業贏得經濟效益提供堅實可靠的數據基礎。
本研究中簡單地將數據質量管理理解為一種業務原則,需要將合適的人員、流程和技術進行有機整合,改進數據質量各維度的數據問題,提高數據質量。但企業數據治理的實質在于如何提升各個關鍵領域和關鍵活動的數據質量,從而獲得更大的業務成果或經濟利益。
數據質量管理是數據治理的重要組成部分,通常用在數據模型設計、數據資產管理、主數據管理、數據倉庫等解決方案中。數據質量管理可以是反應性的被動管理,也可以是預防性的主動管理。目前很多公司將數據質量管理的技術與企業管理的流程相結合,從而提升數據質量管理的主動能力。
數據質量管理從技術上、業務上和管理上解決數據質量問題。數據質量問題及表現形式見表1。

表1 數據質量問題及表現形式
數據質量管理包含嚴格設置數據標準,采用正確的技術、投入合理的資源來管理數據質量。數據質量管理策略和技術的應用可以作用于數據質量管理的事前、事中、事后3個階段,如圖3所示。

圖3 數據質量管理
數據質量管理應秉持預防為主的理念,加強數據質量管理過程中事前預防、事中控制、事后補救的各種策略和措施,以實現企業數據質量的持續提升。
事前預防即防患于未然是數據質量管理的上上之策。數據質量管理的事前預防從組織機制建設、標準規范、制度流程3個方面入手。
2.1.1 加強組織建設
企業需要建立組織機制,提升數據質量在員工認知中的重要程度。組織在實施數據質量管理時,應考慮管理層面制度、技術層面評價體系、協同層面信息傳遞等多方面因素,在適應現有數據管理政策、現實約束的情況下開展工作,提前做好風險評估、制定應對措施。
2.1.2 落實數據標準
數據標準的有效執行和落地是數據質量管理的必要條件。數據標準包括數據模型標準、主數據和參考數據標準、指標數據標準等。
(1)數據模型標準對數據模型中的業務定義、業務規則、數據關系、數據質量規則等進行統一定義,通過元數據管理工具對這些標準和規則進行統一管理。在數據質量管理過程中,可以將這些標準映射到具體業務流程中,并將數據標準作為數據質量評估的依據,實現數據質量的稽查核驗,使得數據的質量校驗有據可依、有法可循。
(2)主數據和參考數據標準包含主數據和參考數據的分類標準、編碼標準、模型標準,它們是主數據和參考數據在各部門、各業務系統之間進行共享的保障。
(3)指標數據是在業務數據的基礎上按照一定業務規則加工匯總的數據。指標數據標準統一了分析指標的統計口徑、統計維度、計算方法的基礎,不僅是各業務部門共識的基礎,也是數據倉庫、BI項目的主要建設內容,為數據倉庫的數據質量稽查提供依據。
2.1.3 制度流程保障
數據質量管理是一個閉環管理流程,包括業務需求定義、數據質量測量、根本原因分析、實施改進方案、控制數據質量。
在數據質量管理制度流程保障方面,需要加大對數據質量團隊的賦權,并通過團隊承諾、制度流程、問責機制等方式形成數據質量管理共識。項目立項前,應當明確項目質量控制考核指標KPI,包括數據質量控制要求和技術手段。明確目標期望、達成數據質量管理共識后,可依據通用型數據質量控制框架,結合智能礦山建設需要、項目管理和團隊管理特點,設計相應數據質量管理框架和流程。在項目立項時制定數據質量管理計劃,參考質量管理經典方法中“定義-測量-分析-改進-控制”流程改善工具、PDCA“計劃-執行-檢查-處理”數據質量改進問題解決模型等,明確各步驟中工作開展方式、目的及產出。項目設計中也應制定數據質量評價規則、庫表設計規范、各環節數據質量檢查問題清單。
數據質量管理制度的作用在于約束各方加強數據質量意識,督促各方在日常工作中重視數據質量,在發現問題時能夠追根溯源、主動解決。
數據質量管理的事中控制是指在數據維護和使用過程中監控和管理數據質量。通過建立數據質量的流程化控制體系,對數據的創建、變更、采集、清洗、轉換、裝載、分析等各個環節的數據質量進行控制,如圖4所示。
智能化煤礦項目建設中要充分考慮各數據流轉環節和智能化煤礦建設場景共性需要后,針對數據采集,可通過數據采集系統替代人工收集及審核,并將審核經驗規則化,配置在數據采集系統中。數據開發利用采用數據自動審核與人工巡查加工結果和經驗判斷的方式相結合,在數據中臺配置數據質量自動化巡檢任務,并根據發現的問題影響分級提示數據清洗人員,針對敏感數據,也可考慮采用隱私計算場景下的數據質量治理框架等評估并督促數據質量提升。
2.2.1 加強數據源頭的控制
從數據的源頭控制好數據質量,讓數據“規范化輸入、標準化輸出”是解決企業數據質量問題的關鍵所在。企業可以考慮從數據自動化采集、維護好數據字典、自動化數據校驗、人工干預審核等幾個方面做好源頭數據質量的管理。
2.2.2 加強流轉過程的控制
數據質量問題不止發生在源頭,如果以最終用戶為終點,那么數據采集、存儲、傳輸、處理、分析中的每一個環節都有可能出現數據質量問題。所以,要對數據全生命周期中的各個過程都做好數據質量的全面預防。
2.2.3 事中控制的相關策略
事中控制的相關策略主要包括:質量規則的持續更新、數據質量的持續監控、先進技術使用、數據質量預警機制和數據質量報告。
只要是人為干預的過程,總會存在數據質量問題,即使拋開人為因素,數據質量問題也無法避免。為了盡可能減少數據質量問題,減輕數據質量問題對業務的影響,需要及時發現問題并采取相應的補救措施。
2.3.1 定期質量監控
定期質量監控也叫定期數據測量,是對某些非關鍵性數據和不適合持續測量的數據定期重新評估,為數據所處狀態符合預期提供一定程度的保證。定期監控數據的狀況,為數據在某種程度上符合預期提供保障,發現數據質量問題及問題的變化,從而制定有效的改進措施。
2.3.2 數據問題補救
質量控制無法做到100%的數據問題防治,企業需要定期進行主動的數據清理和補救措施,以糾正現有的數據問題。數據問題的補救措施主要有清理重復數據、清理派生數據、缺失值處理和異常值處理。
2.3.3 持續改進優化
數據質量管理是個持續的良性循環,不斷進行測量、分析、探查和改進可全面改善企業的信息質量。通過對數據質量管理策略的不斷優化和改進,從對數據問題甚至緊急的數據故障只能被動做出反應,過渡到主動預防和控制數據缺陷的發生。
經過數據質量測量、數據問題根因分析以及數據質量問題修復,可評估數據模型設計是否合理,是否還有優化和提升的空間,數據的新增、變更、采集、存儲、傳輸、處理、分析各個過程是否規范,預置的質量規則和閾值是否合理。如果模型和流程存在不合理的地方或可優化的空間,那么就實施數據質量管理優化。
3.1.1 數據質量框架
數據質量管理框架如圖5所示,以ISO8000質量標準體系為依據,某礦山公司設計了PDCA(計劃、執行、檢查、處理)持續改進的數據質量管理框架,形成以領導力、持續改進、能力保障的數據質量管理框架。

圖5 數據質量管理框架
數據質量管理應以數據清潔為目標,以業務需求為驅動,通過PDCA的持續改進循環,提升數據質量,達到數據質量結果滿意。領導力模塊應通過制定政策、規范來構建數據質量管理機制,對數據質量的工作起牽引作用。能力保障模塊應構建完整的數據組織、流程和工具,以起到支撐作用。
數據質量政策應有不同的層次,數據質量的管控應兼顧宏觀方面的指導原則以及微觀層面的具體操作要求,引導正確的業務行為,提升企業成員的數據質量意識。數據質量管理應是動態、持續的循環過程以滿足不斷變化的業務需求。通過技術工具將數據質量自動融入日常業務,不斷提升數據質量管理組織的管理水平、改善數據質量工具平臺,使企業數據質量持續提高。
3.1.2 數據質量基本要求
智能礦山數據質量包含智能礦山數據完整性、數據及時性、數據準確性、數據一致性、數據唯一性、數據有效性6個方面的基本要求。
3.1.3 數據質量管理開展原則
智能礦山數據質量管理工作應遵循以下原則開展:智能化業務過程受控、數據標準管理、領導員工共同參與、逐步推進、過程持續改善。
數據質量管理活動是需求驅動活動,智能化礦山數據質量建設過程中數據質量管理團隊通過業務調研、影響分析、模型敏感性分析等方式,對數據進行數據質量稽核控制、數據質量評估度量及數據質量持續改進3個方面進行數據全流程持續監控。
3.2.1 數據質量稽核控制
基于重要性和成本效應原則識別出需要進行質量控制的數據,分階段有序地將數據質量控制規則落地。依據數據在數據庫落地時的質量特性及數據質量規則類型,確定數據質量控制規則。
3.2.2 數據質量評估度量
數據質量評估度量旨在規范礦山各級單位的流程,確保度量結果可信。數據質量度量應從“設計質量”和“執行質量”兩個方面開展,評估數據質量綜合水平,揭示數據質量問題。執行質量度量宜考慮6個數據質量維度,從客戶關注重要性、法律財務風險性、業務流程戰略性三要素評估數據內容的清潔度,業務領域可根據階段性的管理重點和訴求調整評估的要素。數據質量度量過程包括:制定數據質量目標、確定數據質量度量范圍、設計數據質量度量指標、確定執行數據質量衡量標準、實施數據質量度量、發布數據質量度量報告。
3.2.3 數據質量改進
礦山企業數據質量改進專項工作包括信息系統改進和專項工作落實。礦山企業數據質量改進日常工作包括制定改進措施、跟蹤改進情況、刷新目標基線。
智能礦山數據質量管理是礦山管理的關鍵領域之一,其目的是提高煤礦數據的準確性、一致性和完整性,為管理決策提供可靠的數據支持。通過智能化技術和方法的應用,可以有效管理和優化礦山生產數據,提高生產效率、優化資源利用、提升安全管理水平,并為決策者提供科學準確的數據支持。未來,智能礦山數據質量管理將繼續發展和完善,呈現以下幾個發展趨勢。
(1)數據智能化管理。隨著人工智能和大數據技術的不斷發展,智能化礦山數據質量管理將更多地利用自動化和智能化的手段,實現煤礦數據的自動采集、處理和分析,提高數據質量管理的效率和準確性。
(2)多源數據融合。智能礦山數據質量管理將更多地關注多源數據的融合和管理,包括傳感器數據、人工采集數據、市場數據等,通過整合不同來源的數據,形成更全面、準確的數據基礎,增強決策支持能力。
(3)數據安全和隱私保護。隨著數據的大規模采集和使用,數據安全和隱私保護將成為智能礦山數據質量管理的重要問題。未來的研究將注重數據安全和隱私保護的技術與方法,確保煤礦數據的安全性和合規性。
(4)跨平臺、跨系統的數據管理。煤礦往往涉及多個系統和平臺,未來的智能礦山數據質量管理將致力于實現數據的無縫集成和流動,通過數據標準化和互操作性的提升,實現數據在不同系統和平臺間的共享和利用。
總體而言,智能礦山數據質量管理的發展將進一步推動煤礦行業向數字化、智能化轉型,提高煤礦的生產效率、安全管理水平和決策支持能力,為煤礦行業的可持續發展提供有力支撐。