馮 楠,賈大江,高 杰
(1.國網山西省電力公司,山西 太原 030001;2.南京南瑞集團公司,江蘇 南京 211000)
數據在企業生產、經營管理過程中生成,直觀反映了公司運營的基本狀況,對數據資產進行深度挖掘對提升公司運營效率和效益,有效防范風險具有重要意義。國網公司開展全業務數據中心建設,為各級運監中心開展數據資產管理,挖掘數據資產價值創造了有利條件。2017年,為加快推動公司全業務數據中心建設,按照總部工作安排,山西公司負責開展電網調度管理系統OMS(power dispatching management system) 系統、營銷基礎數據平臺數據資源梳理工作,并對接入全業務數據中心的數據開展數據質量監測。應用技術手段,發現業務系統數據字典關鍵備注信息缺失、部分業務系統的數據表中包含垃圾數據、數據字段或記錄缺失、數據不符合標準等問題。針對發現的問題,通過完善數據字典關鍵信息,開展源端數據整治,督促業務系統提升數據質量,推動全業務數據中心分析域建設水平提升。
根據公司全業務統一數據中心建設方案,運監中心充分發揮數據管理和應用方面的優勢,開展厘清數據資源、開展數據核查、完善數據管理體系等工作,提升公司數據質量及自主維護能力,挖掘和發揮數據價值。
a)全面厘清業務系統數據資源,編制完整清晰的數據資源手冊,構建數據全景視圖。
b)建立數據核查規則庫,開展數據核查,發現問題并督促整改,大力提升數據質量。
c)建立健全數據管理制度,統一標準并落實到位,強化評價考核措施,構建數據管理體系[1]。
以產生結構化、一手業務數據為主的業務系統為對象,對公司業務系統逐個開展數據資源梳理、數據核查,基于現有數據構建公司業務數據體系。
收集各業務系統設計文檔,對照系統實際運行情況核對文檔的完整性、規范性和一致性,組織廠商補全信息并迭代整改。開展設計文檔與實際環境一致性比對,并完善數據字典設計文檔。標記一手數據,編制涵蓋數據存儲卷、應用場景卷的數據資源手冊。
根據下發的業務系統相關設計文檔,包括數據字典文檔等。協調業務系統運維單位,獲取業務系統生產環境數據字典信息,作為數據字典設計文檔核查的標準,主要通過兩種方式獲取:一是基于省公司部署的數據管理服務平臺實現,二是通過在生產庫中執行腳本導出數據字典。基于下發的數據字典設計文檔,與運行態數據字典比對,生成核查比對結果。
2.2.1 完善數據存儲卷
組織支撐人員完成對應系統數據字典[2](表、字段) 缺失信息補充完整和完善(包含表名、表備注、列名、列備注,是否主鍵,是否外鍵,數據類型、精度、長度、取值范圍,是否為空,取值范圍等)。
a)業務域描述信息。按照公司數據資源梳理和數據核查要求,提供完整的業務域信息,不僅要完成業務域的層級劃分,同時也要提供詳細業務描述信息。
b)表描述信息。按照公司數據資源梳理和數據核查要求,提供完整的表備注信息。
c)字段信息。按照公司數據資源梳理和數據核查要求,提供完整的字段信息(包括是否為標準編碼[3]和鍵值枚舉、業務信息描述、缺失單位、計算公式和主外鍵關系等)。
2.2.2 標記一手數據
一手數據指業務信息經過計算機人機界面后,在業務系統中形成的第一批數據。對一手數據進行復制、加工計算能進一步形成二手、三手數據(衍生數據)。一手數據是業務系統中最精煉的核心數據,承載了未經加工處理的原生態業務信息,并可依據計算模型推導出所有衍生數據。
一手數據包括用戶錄入(檔案、單據等信息)、系統自動采集(采集數據、日志數據) 以及批量導入的數據(采購的外部數據等)。
2.2.3 編寫業務場景
依據功能點清單,梳理典型應用場景及數據支撐關系,包括涉及的底層表、字段、編碼以及相應的計算邏輯。依照總部統一下發的應用場景卷樣例和模板,按系統編制應用場景卷。
編寫對應系統業務場景(包含場景名稱、業務操作、單據流程信息、服務對象、訪問路徑、設計業務領域、數據字典、系統輸入與輸出,數據層處理邏輯)。
2.2.4 編制數據資源手冊
按照公司要求將業務數據映射關系同源端系統設計文檔比對,修改完善映射關系;同時對比應有數據集,完善業務數據資源,據此編制數據資源手冊。手冊與系統實際運行情況能夠對應完整、規范、一致,數據資源手冊能夠體現關鍵的業務信息,構建數據全景視圖,指導數據的快速查詢、應用。
2.2.5 核查數據字典關鍵信息缺失情況
組織人員通過對OMS系統、營銷基礎數據平臺開展數據資源梳理,發現數據字典存在關鍵信息缺失,主要體現在以下幾個方面,即數據表備注信息不全或者沒有備注信息,數據表字段信息描述不清楚或者缺失,主外鍵關系表述不清楚或者缺失,涉及到標準編碼和鍵值枚舉在字段注釋沒有詳細描述等。其中營銷基礎數據平臺梳理數據字段關鍵信息缺失情況如表1所示,OMS系統梳理數據字段關鍵信息缺失情況如表2所示。

表2 OMS系統數據字典信息缺失情況表
2.2.6 數據字典關鍵信息完善及改進
組織相關部門收集OMS系統、營銷基礎數據平臺的數據字典和功能設計文檔,根據設計文檔業務描述將業務域、數據表、字段、主外鍵關系等相關信息補充完整。其中存在問題較大,嚴重缺失的信息,協調業務部門組織原系統廠商完善,OMS系統、營銷基礎數據平臺數據字典關鍵信息經過逐項補充完善后,數據字典質量得到顯著提升。
a)OMS系統梳理功能業務域850項,數據表3490張,字段90921個。其中梳理涉及標準編碼字段有503個,鍵值枚舉的字段有3406個,外鍵關聯的字段有14個,鍵值碼表24個。
b) 營銷基礎數據平臺梳理功能業務域276項,數據表3582張,字段53160個。其中梳理涉及標準編碼和鍵值枚舉的字段有733個,外鍵關聯的字段有540個。
重點從垃圾數據、缺項數據、不符合標準的數據等方面制定核查規則,編制核查腳本和核查操作手冊;結合業務監測工作擴充體現業務內涵和數據間關聯關系的核查規則,持續優化完善核查規則。核查垃圾數據、缺失數據、不符合標準的數據并反饋至業務系統源端。
主要針對垃圾數據、數據缺項、數據不符合標準等基礎問題。垃圾數據主要指垃圾表、字段以及垃圾記錄。數據缺項主要指數據字段缺失或為空、記錄缺失。數據不符合標準主要指不符合主數據規范。
編制數據質量核查腳本。針對不同類型的數據質量核查規則,同時結合總部下發數據核查腳本樣例,對涉及到的所有數據表逐表編制數據質量核查腳本,經過測試后,通過技術手段完成系統固化。定期開展數據質量核查。提升數據字典的規范性和數據質量的合規性。
根據公司統推業務系統部署實施情況,山西運監中心將業務系統分為經營管理、生產調度兩類,組織人員分別制定數據核查規則,并對全業務數據中心接入數據進行核查。對基礎數據進行核查后發現,業務系統數據庫中存在重復數據、數據項缺失、數據記錄缺失、數據不符合標準等問題。
在匯總核查問題結果經業務部門復核之后,協調業務系統運維人員對存在疑似問題的數據表在源端進行了整改。整改效果較好,平均達到99%,同時將數據核查納入常態監控問題處理。
根據公司數據資源梳理工作要求,對照相關部門提供的數據字典,組織源業務系統廠商扎實開展數據資源梳理,全面完善系統的業務域、表、字段、標準編碼,并部署開發數據資源手冊完整性核查工具。實現自動比對數據資源梳理成果,并對未滿足梳理要求的字段進行標記。山西公司數據資源梳理成果得到了總部的充分肯定和認可。
通過開展數據質量核查及治理工作,對接入數據中心的各業務系統質量有了準確的核查結果。在全面核查的基礎上,對各業務系統數據質量進行整改治理,從業務系統源端促進了數據質量的顯著提升,全業務數據中心接入數據質量達標率可到92%,為公司各專業基于全業務數據中心分析域開展數據挖掘工作奠定了堅實基礎。
按照公司“五位一體”的內在要求,從職責、流程、制度、標準、考核5個方面加強數據管理,明確職責界面,細化、固化并持續優化數據管理流程,建立健全全業務數據中心數據管理制度,統一標準并落實到位,強化評價考核措施,構建全業務數據中心數據質量管控體制。從數據標準、數據權限、數據生成、數據維護、數據應用、數據安全、支撐與保障、考核評價管理等方面規范數據管理工作,加強數據自主維護,提升數據質量,實現數據可控、增值。組建數據管理專家團隊,指導提出數據管理相關問題及解決措施,具備數據運維和數據分析的能力。