文|金海峰 董菊香 李春香
隨著電子政務各領域應用不斷的深入,各地大數據中心的成立,電子政務數據資源開始聚集,數據作為基礎性戰略資源的地位日益凸顯。數據質量、數據安全、數據應用、跨機構資源管控、共享開放與互操作等問題日益成為各地電子政務領域中突顯的問題。這一問題的解決之道,在于數據治理。
近年來,圍繞大數據治理相關的實踐和研究探索。取得一些成功經驗,如華為將數據管理工作分為兩個階段:第一階段通過數據治理,實現數據清潔,提升財報準確與業務流打通;第二階段通過建設數據底座,數據服務化,支撐數字化轉型。而銀行業自2018年5月,銀保監會發布《銀行業金融機構數據治理指引》以來,各行從數據治理架構、數據管理、數據質量控制、數據價值實現、監督管理等方面規范銀行業金融機構的數據管理活動。將數據治理提高到銀行常規管理的戰略高度,明確要將銀行數據治理工作常態化、持久化,標志著我國銀行業數據治理新時代的正式啟幕。
然而,這些領域的數據治理與政府大數據中心的最大區別是:大數據中心面對的是各機構、各系統歸集的數據;同時,它既不是IT 公司,也無具體特定領域的行政業務的能力。對于這樣一個沒有具體業務驅動的機構,數據治理的概念是什么,邊界在哪里,開展的途徑與切入點在哪里,是全國大數據中心當下面臨的一道深刻而又緊迫的難題。
江陰市大數據中心聯合北京國脈互聯信息顧問有限公司,以數據質量測評入手,從跨系統數據整合,構建業務應用的角度出發,突破組織邊界,設計相應指標,摸清存量數據質量水平,探索出面對增量數據及全局性資源質量改進與進一步治理的方向,在全國范圍內做了一次較為領先的嘗試。
數據治理是對數據資產管理行使權利和控制活動的活動集合(規劃、監控和執行等),其職能是指導其他數據管理職能如何執行。其權威架構以國際數據管理協會發布的DMBOK1.0中“管理屋頂圖式架構”來描繪數據治理的內容與體系架構,如圖1 所示。

圖1 數據治理的一般架構
圖1 表明:數據治理包涵了從數據架構管理到數據操作管理、參考數據和主數據管理及文檔和內容管理等9 個領域,是個覆蓋領域廣泛、技術內涵深入且管理要求頗高的“資源+技術+管理”的綜合體系。這對于剛成立不久且履行完數據集聚的大數據中心而言,要想按此架構全面開展數據治理顯然是不實現的。于是,我們從實際出發,本著先易后難、先局部后全面、先單一再復合治理的原則,選擇從數據質量測評入手,先了解所聚集數據的實際質量,通過相關指標看其實用性、體量、重用性與資源貢獻率等,為后期的全面數據治理打下基礎。
1.數據質量的內涵
什么是質量?依據ISO 8402,質量是反映實體滿足明確或隱含需要能力的特性總和。而政務數據質量,一指其必須滿足規定或潛在的單一政府機構業務的需要,二指其要滿足“三融五跨”所需的數據共享、互操作與業務發展之進一步要求。所以,數據質量可以是技術標準中規定的要求,也可是其中未注明,在使用中存在或發掘出的需要。但質量首先應是對技術規范的滿足,再在其基礎上隨應用的拓展而變化。于是,對大數據中心而言,在研究數據資源的“適用性”之前,先要研究其對標準“符合性”的質量。
2.數據質量標準
中國標準化專家委員會委員錢七虎院士指出:“標準是質量的核心內涵”。高質量發展就是高標準發展,因為數據標準是數據質量的核心內涵。判斷低水平、落后水平需要有依據;改變低水平、落后水平,改到什么程度才算先進水平,均要有依據。這些依據可有多種,但最簡潔和權威的就是標準。
2017年,江陰作為江蘇省唯一的集成改革示范縣市,江陰市委、市政府提出構建“1 中心+3 平臺”的智慧城市總體框架。“1 中心”即“江陰市大數據中心建設項目”,并將數據共享和應用支撐列入集成改革重點項目。為此,2017年江陰市成立大數據管理專職機構。
為響應江陰市領導提出“共享全市大數據”的要求,江陰市大數據中心對納入江陰大數據中心平臺的數據開展質量測評,以摸清其現存政務數據資源的總體質量水平,分析典型機構的質量狀況及提升空間,指出全局性數據質量改進及進一步治理的方向。
本次測評指標的選取主要參考《GB/T 36344-2018 信息技術 數據質量評價指標》,其對數據質量的定義為:“在指定條件下使用時,數據的特性滿足明確的和隱含的要求的程度。”分別從數據的規范性、完整性、準確性、一致性、時效性、可訪問性六個方面對數據質量進行綜合評價,指標框架如圖2 所示。
此規范框架完全適用于政務數據。但其主要針對單位內部,而本次江陰市的政務數據質量測評主要針對跨單位、跨系統構建業務的應用環境,故對上述6 項指標略作調整:仍以其中規范性、完整性、時效性為核心指標,同時從跨系統數據整合,構建業務應用的角度,將準確性、一致性、可訪問性調整為實用性、冗余度、公共數據元采用度、空項率,以及各單位對全市政務資源支持性的貢獻度。這幾項指標的調整,體現了本次測評主要偏向對總體數據質量水平的測度。本次質量測評的指標框架如圖3。

圖2 GB/T 36344-2018 的數據質量測評框架
本次質量測評依標治理,按照先數量,后質量;先數據架構,后單項數據;先數據項,后實體數據的測評原則,采用定量與定性結合、專項與關聯分析結合、現場觀察與后臺對標相結合的方法,按提供數據的規范性、完整性和實用性為核心,綜合考慮其與外部資源的共享性與組合性作質量測評分級。
根據設計的8 項測評指標,通過對全市61 個單位、632 個數據集、12102 個數據項、10.78 億實體數據的實地調研和梳理,形成《全面數據質量測評等級評價表》。根據支撐全局數據共享的力度,將評價結果分為極欠缺、不充分、基本充分、充分、充分且規范。其中,充分且規范的單位有16 個,占比26%。此區域的數據可考慮作為試點,重點分析其質量。

圖3 江陰大數據中心的數據質量測評框架

圖4 數據治理框架
試點選取具有行業代表性的教育局,以及機構職能改革后變動較大的部門市場監督管理局做為試點治理單位。依標治理、形成元指標庫;實體數據比對、清洗、轉換形成試點治理數據庫。
通過全面質量測評和試點治理,達成以下成果:理清了各機構提供數據的數量和質量,為下一步對大數據中心掌握的政務數據資產怎樣進行評估,提供了定性和定量的指標框架;對深入數據治理提供了指導性的意見;依照國家和相關委辦局、行業的標準,比如:教育按照《GBT 35298-2017 信息技術 學習、教育和培訓教育管理基礎信息》、《GBT 33782-2017 信息技術 學習 教育和培訓教育管理基礎代碼》、《GBT36351.2-2018 信息技術 學習、教育和培訓教育管理數據元素 第2 部分:公共數據元素》對數據項和實體數據對標,比較容易獲得被測評機構對數據質量欠缺和不足的一致認可,為下一步更好的開展工作,提供一個良好的基礎。
本次測評已對各單位內部系統整合、提升數據內部共享交換、價值性與減少數據沖突等方面,提供初步評估結果。下一步應通過數據治理具體解決資源沖突、共享創新等問題。
具體建議為:大數據中心統一建立與維護公共數據元,依標準格式與數據段組合,對各單位的公用實體數據資源進行統一轉換映射,提升資源總體標準化水平。
治理將分戰略與治理保障、大數據管理和大數據應用與服務3 層級。具體框架如圖4。
建議數據治理的目標為:
1.融匯國際數據治理的先進理論與實踐,集成國際、國家、行業、地方等數據標準,形成標準公用數據元池。
2.動態跟蹤匯集各領域新資源、新理念,開展語義描述,構建管理、關聯、代碼等層級的標簽,實現數據標準化處理。
3.實現將各領域實體數據(主數據+參考數據)、元數據/數據元、職能數據、業務數據、管理數據等融合在一個標準資源平臺,開展跨機構資源標準化與質量管控。
4.針對具體業務需求,實現跨機構數據比對與抽取、適匹與組合,構建新資源、支持動態分析與服務創新。
數據治理項目不單單是搭建一個集團級數據治理管理平臺,而是一項長期而復雜的工程,涉及到數據管理體系、數據標準、數據治理管理平臺、數據質量和安全、相關系統升級改造、數據清洗等多個方面,項目建設依據快速見效、急用先建的思路,先整體規劃,以數據模型和數據標準為基礎,以數據治理管理平臺為載體,并開展數據治理專項工作,確保數據治理項目的成功,為實現有效的數據資源整合夯實基礎。