陳武
[摘 要] 針對信息系統產生信息孤島、運行維護工作困難、統一管控薄弱、長期積累的數據不能互用共享等問題,開展了統一數據資源整合平臺的構建研究,并從數據完整性、一致性、規范性、及時性、規范性等方面提出綜合的數據質量提升方案,為曲靖供電局局全業務管理應用提供數據支撐。
[關鍵詞] 數據資源整合平臺;數據完整性;一致性;規范性;及時性
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 23. 094
[中圖分類號] TP311 [文獻標識碼] A [文章編號] 1673 - 0194(2017)23- 0189- 03
1 引 言
云南電網曲靖供電局通過多年的項目建設,形成了各種各樣的信息化系統來支撐日常工作的開展。雖然建立了許多信息系統卻也產生了許多信息孤島、運行維護工作困難、統一管控薄弱、長期積累的數據不能互用共享等問題。
針對目前信息資源管理過程的困惑,曲靖供電局將借助云計算手段實現信息資源池化管理,有效提高本局的資源使用效率,降低資源管理難度。通過資源管理平臺實現與外部單位數據貫通,并通過資源管理平臺實現資源動態調度,實現曲靖供電局基礎設施及服務模式。同時將為未來云網分布式數據中心的建設進行預研與技術沉淀,延伸電力產業鏈,打造出全新高效優勢明顯的電力信息通信產業,推動電網由單一輸電載體向綜合性能源及信息供給平臺發展。
2 現狀分析
由于曲靖供電局在用的信息系統主要有南網推廣的CSGII各業務系統、云網統一組織自建的業務系統,以及曲靖局為支持輔助業務開展而自建的系統。目前曲靖局相關系統交互時信息不能很好的共享、數據不能互通、來回切換查找比較復雜、數據不能根據各自崗位的需要,直觀的呈現出來,處于被動式、運維不能統一管控,未能對曲靖局的全業務管理提供有效的支撐。本文將開展統一數據資源整合平臺的構建研究,并從數據完整性、一致性、規范性、及時性、規范性等方面提出綜合的數據質量提升方案,為曲靖供電局全業務管理應用提供數據支撐。
3 數據資源整合平臺構建
平臺構建將以數據為核心,運用平臺化的建設思路構建分布式數據中心,通過數據建模、數據集成、數據融合等技術手段,對現有系統數據進行整合,提高各業務系統之間的數據共享能力,提升曲靖局數據資產的應用水平,如下圖1所示。
其中,數據源主要包括南網通推的資產管理系統、GIS系統、營銷系統,云網自建的技術監督、所務系統、調度系統,曲靖供電局自建的訂餐管理系統、班組精益化支撐平臺,圖像及環境監控,門戶等系統,涉及信息系統較多,數據結構復雜。
數據接入將針對各系統實際情況,以ETL工具、文件解析器、JStorm流式處理、數據導入、MQ消息隊列等方式支撐。
數據中心則需構建統一的數據模型,基于hadoop架構體系上部署關系型、非關系型的數據統一存儲、模型管理及數據質量管理。提供離線計算、流式計算、內存計算、機器學習等的統一計算,以及服務管理、服務注冊、服務發布、服務訂閱、訪問控制、負載均衡的統一服務。
4 數據質量提升
針對來源于不同信息系統的數據范圍,如何解決數據的統一采集、統一存儲、統一應用需從數據完整性、數據一致性、數據規范性等方面開展數據質量提升工作。
4.1 數據完整性驗證及提升
數據完整性是指數據的精確性和可靠性,本模塊需實現相關數據的完整性驗證。
(1)驗證變電站信息的完整性,包括:變電站名稱、地址、變電站類型、變電站類別、變壓器臺數、主變壓器總容量、出線數、進線數、污區等級、控制方式、值守方式等信息是否完整。
(2)驗證設備臺賬信息的完整性,包括:設備名稱、設備類別、設備型號、電壓等級、生產廠家、供應商名稱、出廠編號、出廠日期、投運日期、是否虛擬、資產狀態、固定資產編碼、運行編號、經度、緯度、海拔高度、運維部門、所屬供電局等信息是否完整。
(3)驗證缺陷記錄信息的完整性,包括:缺陷設備、缺陷部件、缺陷時間、缺陷類型、缺陷等級、缺陷表象、缺陷原因、缺陷部位、缺陷描述、缺陷發現來源、缺陷處理措施、處理情況描述、遺留問題、消缺人、消缺時間、消缺結果、未消缺原因等信息是否完整。
(4)驗證監測裝置信息的完整性,包括:監測裝置名稱、監測裝置類型、監測裝置廠家、監測裝置安裝日期等是否完整。
4.2 數據一致性驗證及提升
數據一致性通常指關聯數據之間的邏輯關系是否正確和完整,本模塊需實現相關數據的一致性性驗證。
(1)驗證設備信息中所屬變電站編號是否和變電站信息中的編號一致。
(2)驗證設備缺陷記錄中的設備編碼是否和設備信息中的物理編碼一致。
(3)驗證設備試驗報告中設備編碼是否和設備信息中的物理編碼一致。
(4)驗證變電監測裝置中的被監測設備編碼是否和設備信息中的物理編碼一致。
(5)驗證輸電監測裝置中的線路編號是否和線路信息中的編號一致。
(6)驗證變電監測數據的中裝置編碼是否和變電監測裝置中的編碼一致。
(7)驗證輸電監測數據中終端編碼是否和輸電監測裝置中的終端編碼一致。
發現數據不一致時可協調數據源端進行處理并上傳,或采用人工核對的方式完成整改。
4.3 數據及時性驗證及提升
任何信息的價值都有其時間性,且在某種程度上信息越及時其價值越高。過時的信息只能作為歷史資料,對決策毫無用處。所以,及時性原則是相關性的重要保證,沒有及時性也就談不上相關性。本模塊需實現相關數據的及時性驗證。
(1)驗證設備缺陷數據是否每天及時上傳。
(2)驗證變電在線監測數據是否每天及時上傳。
(3)驗證輸電在線監測數據是否每天及時上傳。
(4)驗證配電在線監測數據是否每天及時上傳。
(5)驗證氣象環境數據是否每天及時上傳。
(6)驗證雷電監測數據是否每天及時上傳,包括以上數據每天上傳數據量、上傳時間的驗證。
發現有數據間斷或停止上傳時,可自動進行提醒,并通知運維人員補采或補錄。
4.4 數據準確性驗證及提升
數據準確性直接反應了設備運行的真實情況,需保障上傳數據的真實性、準確性。
(1)驗證變電站信息是否與實際情況一一對應。
(2)驗證設備信息是否與實際情況一一對應。
(3)驗證線路信息是否與實際情況一一對應。
(4)驗證變電監測裝置信息是否與實際情況一一對應。
(5)驗證輸電監測裝置信息是否與實際情況一一對應。
(6)驗證配變監測點信息是否與實際情況一一對應。
發現數據不準確時可協調數據源端進行處理并上傳,或采用人工核對的方式完成整改。
4.5 數據規范性驗證及提升
數據規范性主要體現在接入的數據需符合事先定義的數據類型、數據長度規范。
(1)驗證日期型數據的規范性,包括:“出廠日期”、“投產日期”、“退役日期”等數據類型為“日期型”的信息字段,應滿足“yyyymmdd”(yyyy-表示4位年份數字;mm-表示2位月份數字,不足2位長度用0填充;dd-表示2位日期數字,不足2位長度用0填充;)的數據格式要求,同時還應滿足[1960-01-01~當前日期)的區間范圍要求,并通過“出廠日期<投產日期<退役日期”(“退役日期”非空)的數據有效性邏輯校驗。
(2)驗證數值型數據的規范性,包括:“氫氣”、“一氧化碳”、“甲烷”、“乙烯”等數據類型為“數字型”的字段,應滿足“保留小數點后面2位”。
(3)驗證文字描述性數據的規范性,包括:“缺陷描述”、“災害信息”、“試驗結論”等“字符型”的信息字段,應滿足“中文漢字描述為主”。
發現數據不規范時可協調數據源端進行處理并上傳,或采用人工核對的方式完成整改。
5 結 論
本文主要分析了曲靖供電局信息系統建設及應用現狀,存在問題,并提出數據資源整合平臺建設構想,基于數據資源整合平臺工具,從數據完整性、數一致性、數據及時性、數據準確性、數據規范性等方面提出數據質量提升的示例方法,為曲靖供電局相關信息系統交互信息共享、數據互通、數據交互應用以及供電局層面全業務管理提供有效的支撐。
主要參考文獻
[1][美]Matt Casters,Roland Bouman.Pentaho Kettle 解決方案[M].初建軍,曹雪梅,譯.北京:電子工業出版社,2014.
[2][荷]Wil van der Aalst.工作流管理:模型、方法和系統[M].王建民,聞立杰,譯.北京:清華大學出版社,2004.
[3][美]米羅斯拉夫·庫巴特.機器學習導論[M].王勇,仲國強,孫鑫,譯.北京:機械工業出版社,2009.
[4][英]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代[M].周濤,等,譯.杭州:浙江人民出版社,2012.
[5][美]Jared Dean.大數據挖掘與機器學習[M].林清怡,譯.北京:人民郵電出版社,2015.