江疆,黃劍文,楊秋勇(廣東電網有限責任公司信息中心,廣州 510080)
基于廣東電網大數據的數據質量管理方法
江疆,黃劍文,楊秋勇
(廣東電網有限責任公司信息中心,廣州 510080)
隨著智能電網建設的規模逐年增大,電網所產生的數據越來越多,類型也越來越復雜。這些數據包含大量的半結構化和非結構化信息,并且規模每年都呈指數級增長。智能電網的發展要求對電網故障作出快速響應,短期負荷以及實時處理數據。為了有效解決這些問題,電網行業陸續引入了大數據技術來解決。
然而,面對日益復雜的業務邏輯和日益繁多的數據資源,沒有有效的數據質量管理機制是不行的。當前,電網系統的數據質量問題主要體現在“系統外部問題”,“系統內部問題”,“核對標準問題”等方面,這些問題的存在嚴重影響了系統的使用和推廣。電網需要引入數據質量管理方法,以此數據質量問題。
南方電網所采集的各類數據主要具有種類多、高速、容量大、價值高的特征,其價值密度低卻又商業價值高。要有效地處理這些數據需要運用大數據技術。
目前,大數據技術已經逐步走向成熟,也滲透到各個領域,然而在電力系統的應用依然存在一定的挑戰,尤其是如何將種類豐富的數據進行整合。電力系統數據不僅包含結構化數據,也包含系統日志等半結構化數據及視頻檢測這種非結構化數據[3]。非結構化數據存儲在本地系統中,不利于對這種類型數據進行檢索分析,而半結構化數據往往是以文件的形式進行存儲。隨著業務發展數據量的增加,應用復雜導致的數據量增加,這些數據量增加了數據存儲和處理壓力,造成了不少的數據質量隱患,這些問題的存在嚴重影響了系統的使用和推廣。
隨著電網運營朝著低成本、一體化、精細化、實時化以及智能化運營方向的發展,電網對大數據數據質量的管理也提出了一定要求,如要求將已出現及潛在的數據質量問題具體化,并落實到各環節的可檢查項中,實現流程化管理的要求;要求最大限度地修正目前存在的數據質量問題,并建立有效地監控機制,控制預防將來的錯誤范圍擴大的要求;要求在整個數據處理過程中,每個環節都建立數據質量保證機制,最終在各個環節都保證數據的正確性、一致性、完整性和可靠性等。簡而言之,利用全面的數據質量管理實現對電網大數據技術的支撐和完善。
數據質量的好壞是由用戶以及數據的使用價值所決定的,代表著數據在數據知識應用中、數據所存在的系統中以及數據使用的過程中被應用的程度,并且只有當數據被下游過程所接收并使用時討論數據質量問題才有意義。
2.1數據質量的影響因素
數據質量的影響因素有很多,可以根據產生的時間和節點劃分為數據導入過程、引起數據變壞的過程和內部過程。
(1)數據導入過程
數據導入過程是指通過手工/接口/集成技術等方式將數據導入數據倉庫的過程。該過程對數據質量造成影響表現在以下方面:轉換初始數據時,缺少可靠的源系統的元數據,源數據本身不完善等;系統整頓時,通常發生于舊系統淘汰與合并,數據整頓與初始數據轉換面臨相同的挑戰,但問題更加復雜;人工數據錄入時,由于人為因素無法預防,難以預測。
(2)引起數據變壞的過程
引起數據變壞的過程包括以下內容:變化未捕獲,系統之間往往有很多接口,但是在修改接口的時候往往沒有將其影響的接口一起修改;專業知識流失,人員流失后新人很難精確地理解數據意義;處理自動化,一些驗證界面可能在自動處理實施,但它們不能看到數據全部特性,或為了性能被關閉了,當大量數據暴露給更多用戶后,一旦出錯受到更多抱怨,數據質量感知變差。
(3)內部過程
系統內部的處理過程也在很大程度上對數據質量水平產生影響。包括數據處理、數據清洗、數據清除。數據處理,日常數據處理的程序改變會引起數據質量問題,新的數據采集程序也會引起的同樣的問題,更隱蔽的問題是數據處理在錯誤的時間意外發生,然后正確的程序可能產生錯誤的結果,因為數據并非處于它應有的狀態;數據清洗,數據清洗的危險在于數據質量問題的復雜性和內部相關性。解決一個問題可能引起許多相同或其他相關數據元素的問題。數據自動清洗由計算機程序實施,計算機程序會有bug并影響大量記錄;數據質量說明書未反映實際數據需求,結果數據可能符合理論模型但對實際使用仍是錯誤的;數據清除,數據清除存在意外清除其他相關數據的風險。
2.2數據質量保障體系
一個完善的、有效的數據質量保障體系具有如下基本特點:(1)數據質量全過程都是受控的;(2)活動必須是得到授權;(3)具備有效的數據質量文檔,從而保障整個過程的可檢查性的;(4)全面的數據質量管理;(5)持續的改進過程:從數據質量本身來講,出現數據質量問題是正常的,關鍵是進行糾正,并采取“預防再犯”的措施,所以質量保障過程是一個持續的改進過程;(6)特別重視數據質量問題數據的采集以及數據質量知識庫的建設。
3.1數據質量檢查
數據質量檢查是指檢查數據倉庫中數據質量是否存在問題,若存在問題,則識別數據質量問題的級別。數據質量檢查的目的是識別數據錯誤,衡量對各種業務過程的影響。具體包括以下內容:
(1)接口數據檢查
接口數據提供可以是以文件的形式提供也可以是以數據表的形式提供,因此檢查針對接口文件和接口數據表。通過對接口數據完整性和及時性等方面的檢查檢查及時發現問題,以保證在數據在進入數據倉庫之前不存在明顯的數據質量問題和隱患。
接口文件的檢查主要包括對文件格式、文件大小、記錄長度、傳送數量等方面的檢查;接口表的檢查主要包括對表的屬性、數據時間等方面的檢查;對于采取非上述接口方式的情況,可根據具體情況設計接口數據檢查的項目和內容。
(2)數據倉庫檢查
數據倉庫檢查是對進入數據倉庫的數據進行數據完整性、一致性、正確性和及時性方面的檢查,以保證數據倉庫內部的數據不存在數據質量問題。
(3)指標檢查
數據展現的檢查主要檢查數據的正確性方面存在的質量問題;以保證數據能夠真實反映業務實情。
3.2數據質量問題控制
數據質量控制是指采用一定的方法對已經出現數據質量問題的數據進行處理。如果發現某些數據質量問題是由于系統設計不合理等原因導致的,則還需要變更數據倉庫系統。
數據質量問題控制主要包括以下內容如下。
(1)數據質量問題處理流程
在本流程中,數據質量管理員先根據問題的實際情況判斷數據質量問題的歸屬節點,如果是數據倉庫系統內部問題,即轉入數據倉庫系統變更處理流程;如果判斷為不是數據倉庫系統內部問題,則提交數據質量事件報告并申請數據質量小組協調,數據質量小組檢查數據質量事件報告,確定責任歸屬。數據質量小組中業務系統接口員由各個業務系統的代表擔任,在檢查過程中,各業務系統的代表應該提供業務系統的實際情況,并結合自身的業務系統經驗,協助數據質量小組確定問題的根本原因。責任確定以后,確定的責任歸屬業務系統的代表應該推動相應的業務系統修改相應的系統,并在系統修改完畢以后,發業務系統變更通知到數據倉庫系統,數據倉庫系統根據業務系統變更通知進入系統變更處理流程。最后,對于已經發生錯誤的數據,則進入錯誤數據維護流程。
(2)錯誤數據維護流程
在系統中由于歷史原因導致了現有數據庫中數據存在錯誤,需要進行維護。錯誤數據的維護必須得到數據質量管理員的同意,并在在維護完成后提交數據維護報告,數據質量管理員可以采取適當的檢查以驗證數據維護操作的執行情況。
(3)數據倉庫系統變更處理流程
為了面對業務環境的挑戰,企業總是處在持續的變化過程中,數據倉庫系統必然處在不斷的變更中。系統變更處理流程從管理和技術兩個方面規范此類事件的處理流程,保證系統的任何更改可能對數據質量造成的影響都是受控制的。
3.3數據質量問題預防
數據質量問題預防是指建立一系列的影響因素的監控規則,以便及時發現可能影響數據質量的因素的變化,及時處理,防止數據質量問題的產生。數據質量問題的預防包括以下內容:
(1)數據質量測試過程
數據倉庫系統處理海量的輸入,并產生了大量的輸出結果(報表、OLAP分析),其中間存貯也是海量的,使得數據倉庫系統的測試壓力非常大。需要特別加強對測試過程的管理。測試過程是企業的標準IT過程,在此描述的數據測試過程不是一個完整的測試過程,只是測試過程的一個子過程,加強了對數據質量的預測和管理,同時在很大程度上起到預防數據質量問題的作用。
為了保障數據質量,數據管理員關注所有的測試過程,特別是數據倉庫系統中的所有測試方案和測試報告都必須要由數據質量管理員進行檢查。測試方案中要求涵蓋對數據質量的測試,數據質量管理員對所有的測試方案進行檢查,并向數據質量小組和數據倉庫系統開發組提交檢查報告,對于數據質量管理員檢查不能通過的測試方案,要求必須在規定的期限內重新設計并提交。數據質量管理員對所有的測試報告進行檢查,并向數據質量小組和開發小組提交檢查報告。對于數據質量管理員檢查不能通過的測試報告,測試不能視為通過。
(2)統計口徑差異控制流程
統計口徑是元數據管理的重要組成部分,對于數據倉庫系統具有重要的意義,由于系統之間的統計口徑的差異已經對數據倉庫系統的實施造成了一定影響,因此控制好統計口徑,使其保持一致性是預防數據質量問題的基礎。
在統計口徑差異控制過程中,數據質量管理員接受統計口徑差異問題報告,判斷是否已經確定的統計口徑(已經確定的/企業內有明確的文檔明確規定的),如果不是,則需要通過數據質量小組協調。數據質量小組中包含了各部門的代表,數據質量管理員要求相關的系統或者業務部門的代表提供本部門對該統計口徑的定義,理解,計算辦法,計算公式,并確定關注和使用該統計口徑的部門。統計口徑應該以該統計口徑的定義和使用部門的解釋為準。如果有多個部門對同一個統計口徑的給出了不同的定義,并且使用了該統計口徑,數據質量管理員應該申請更高層次的協調。
(3)管理流程檢查
管理流程檢查包括管理機構、管理流程及標準、質量管理運作的檢查。完善的管理機構、流程和標準以及完整的運作過程可以保障數據質量,使數據倉庫在任何情況下都按照一定規則標準來運行維護。
結合南方電網的數據特點和業務需求,使用全面的數據質量管理機制,通過業務系統和數據倉庫系統的全體部門及人員齊心協力,把管理層面、技術層面以及統計方法和思想教育結合起來,建立從系統設計、管理、運營等全過程的數據質量管理體系,進而有效地利用多方資源,提供符合期望的分析數據,從而提升南方電網的管理水平和工作效率,增加核心競爭力。
4.1數據質量管理流程化、規范化
南方電網引入“主數據”管理概念,搭建起“數據資源管理平臺”。所有的主數據由專人專系統統一維護,變更信息時統一推送至其他應用平臺。這樣確保了主要數據維護的唯一性、準確性,提升整體系統的數據質量。同時,南方電網制定出一套完整數據質量流程以及管理規范,從底層數據到上層應用數據,形成有效統一的管理機制,最大程度上保證整個系統的數據質量。
4.2數據質量管理的有效性,全面性
南方電網最大限度地修正目前存在的數據質量問題,建立了有效地監控機制,控制預防將來的錯誤范圍擴大;與源系統數據質量相互驗證,對源系統的部分數據起到一定的檢查作用,并相互促進在。同時,在整個數據處理過程中,每個環節都建立數據質量保證機制,最終在各個環節都保證數據的正確性、一致性、完整性和可靠性。
4.3系統/業務管理常態化、精細化
通過數據質量管理機制和技術規范促進信息通信運維作業水平提升,保障各類信息通信系統的穩定運行。通過加強組織管理,落實流程制定與實施,在現有的業務流程、管理流程的基礎上進行優化,將需求管理流程、數據質量管理流程等納入了常態化管理,進而明確、細化各種流程中職責分工,確保各種工作能夠落實到人、管理到人、認責到人。
隨著大數據技術的發展,未來電網將更加智能化、安全化,必定會向著低成本、高效率、高可靠性的方向轉變。而當前的數據分析處理要求一套數據質量管理機制,為了進一步提高廣東電網的核心競爭力,向客戶提高更好、更安全的服務,有必要積極研究數據質量管理方法。研究能夠實現對各種類型數據進行數據質量問題檢查、數據質量控制及數據質量問題預防可以為電力行業的發展提供基礎支持,促進企業發展。
[1]李翠平,王敏峰.大數據的挑戰與機遇[J].科研信息化技術與應用,2013,4(1):12-18.
[2]段軍紅,張奈丹,趙博等.電力大數據基礎體系架構與應用研究[J].中天科技,2015,13(2):92-94.
[3]岳陽,張曉佳,高一丹.基于Hadoop的電力大數據技術體系研究[J].電力與能源,2015,36(2):16-20.
Data Quality;Data Quality Management;Quality Control;Quality Prevention
Data Quality Management Based on Guangdong Power Grid
JIANG Jiang,HUANG Jian-wen,YANG Qiu-yong
(Information Centre of Guangdong Grid Co,Guangzhou510080)
1007-1423(2016)07-0088-04
10.3969/j.issn.1007-1423.2016.07.019
2015-12-07
2016-01-20
隨著廣東電網智能化建設和規模的擴大,電網系統業務邏輯越來越復雜,數據也越來越龐大,導致類似“系統外部問題”、“系統內部問題”、“核對標準問題”等的數據質量問題,嚴重影響系統的使用和推廣。根據電力大數據的特點和發展趨勢,結合廣東電網數據質量的現狀,從公司業務特點和實際需求出發,提出一種高效的數據質量管理方法,并分析該方法的數據質量檢查、數據質量問題控制和數據質量問題預防等方面的實施。
數據質量;數據質量管理;問題控制;問題預防
江疆(1982-),湖北人,博士,研究方向為電力計算應用系統開發與管理、機器學習黃劍文(1963-),廣東人,研究生,研究方向為數據分析、數據應用
楊秋勇(1986-),廣東人,碩士,研究方向為智能信息處理、數據挖掘
With the expansion of Guangdong Power Grid,the business logic is more and more complex and the database becomes larger and larger, which resulting in questions like"system of external problems","internal system problems","check the standard problems"and so on, that seriously affecting the use and promotion of the system.Considering the characteristics of big data and the business characteristics and the needs of Guangdong Power Grid,proposes an efficient method to manage data quality,and then analyses quality check,quality control and quality prevention during the practice of Guangdong Power Grid.