999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于廣東電網大數據的數據質量管理方法

2016-12-31 22:31:34江疆黃劍文楊秋勇廣東電網有限責任公司信息中心廣州510080
現代計算機 2016年7期
關鍵詞:質量系統管理

江疆,黃劍文,楊秋勇(廣東電網有限責任公司信息中心,廣州 510080)

基于廣東電網大數據的數據質量管理方法

江疆,黃劍文,楊秋勇
(廣東電網有限責任公司信息中心,廣州 510080)

0 引言

隨著智能電網建設的規模逐年增大,電網所產生的數據越來越多,類型也越來越復雜。這些數據包含大量的半結構化和非結構化信息,并且規模每年都呈指數級增長。智能電網的發展要求對電網故障作出快速響應,短期負荷以及實時處理數據。為了有效解決這些問題,電網行業陸續引入了大數據技術來解決。

然而,面對日益復雜的業務邏輯和日益繁多的數據資源,沒有有效的數據質量管理機制是不行的。當前,電網系統的數據質量問題主要體現在“系統外部問題”,“系統內部問題”,“核對標準問題”等方面,這些問題的存在嚴重影響了系統的使用和推廣。電網需要引入數據質量管理方法,以此數據質量問題。

1 南方電網數據特點及對數據質量的要求

南方電網所采集的各類數據主要具有種類多、高速、容量大、價值高的特征,其價值密度低卻又商業價值高。要有效地處理這些數據需要運用大數據技術。

目前,大數據技術已經逐步走向成熟,也滲透到各個領域,然而在電力系統的應用依然存在一定的挑戰,尤其是如何將種類豐富的數據進行整合。電力系統數據不僅包含結構化數據,也包含系統日志等半結構化數據及視頻檢測這種非結構化數據[3]。非結構化數據存儲在本地系統中,不利于對這種類型數據進行檢索分析,而半結構化數據往往是以文件的形式進行存儲。隨著業務發展數據量的增加,應用復雜導致的數據量增加,這些數據量增加了數據存儲和處理壓力,造成了不少的數據質量隱患,這些問題的存在嚴重影響了系統的使用和推廣。

隨著電網運營朝著低成本、一體化、精細化、實時化以及智能化運營方向的發展,電網對大數據數據質量的管理也提出了一定要求,如要求將已出現及潛在的數據質量問題具體化,并落實到各環節的可檢查項中,實現流程化管理的要求;要求最大限度地修正目前存在的數據質量問題,并建立有效地監控機制,控制預防將來的錯誤范圍擴大的要求;要求在整個數據處理過程中,每個環節都建立數據質量保證機制,最終在各個環節都保證數據的正確性、一致性、完整性和可靠性等。簡而言之,利用全面的數據質量管理實現對電網大數據技術的支撐和完善。

2 數據質量方法論

數據質量的好壞是由用戶以及數據的使用價值所決定的,代表著數據在數據知識應用中、數據所存在的系統中以及數據使用的過程中被應用的程度,并且只有當數據被下游過程所接收并使用時討論數據質量問題才有意義。

2.1數據質量的影響因素

數據質量的影響因素有很多,可以根據產生的時間和節點劃分為數據導入過程、引起數據變壞的過程和內部過程。

(1)數據導入過程

數據導入過程是指通過手工/接口/集成技術等方式將數據導入數據倉庫的過程。該過程對數據質量造成影響表現在以下方面:轉換初始數據時,缺少可靠的源系統的元數據,源數據本身不完善等;系統整頓時,通常發生于舊系統淘汰與合并,數據整頓與初始數據轉換面臨相同的挑戰,但問題更加復雜;人工數據錄入時,由于人為因素無法預防,難以預測。

(2)引起數據變壞的過程

引起數據變壞的過程包括以下內容:變化未捕獲,系統之間往往有很多接口,但是在修改接口的時候往往沒有將其影響的接口一起修改;專業知識流失,人員流失后新人很難精確地理解數據意義;處理自動化,一些驗證界面可能在自動處理實施,但它們不能看到數據全部特性,或為了性能被關閉了,當大量數據暴露給更多用戶后,一旦出錯受到更多抱怨,數據質量感知變差。

(3)內部過程

系統內部的處理過程也在很大程度上對數據質量水平產生影響。包括數據處理、數據清洗、數據清除。數據處理,日常數據處理的程序改變會引起數據質量問題,新的數據采集程序也會引起的同樣的問題,更隱蔽的問題是數據處理在錯誤的時間意外發生,然后正確的程序可能產生錯誤的結果,因為數據并非處于它應有的狀態;數據清洗,數據清洗的危險在于數據質量問題的復雜性和內部相關性。解決一個問題可能引起許多相同或其他相關數據元素的問題。數據自動清洗由計算機程序實施,計算機程序會有bug并影響大量記錄;數據質量說明書未反映實際數據需求,結果數據可能符合理論模型但對實際使用仍是錯誤的;數據清除,數據清除存在意外清除其他相關數據的風險。

2.2數據質量保障體系

一個完善的、有效的數據質量保障體系具有如下基本特點:(1)數據質量全過程都是受控的;(2)活動必須是得到授權;(3)具備有效的數據質量文檔,從而保障整個過程的可檢查性的;(4)全面的數據質量管理;(5)持續的改進過程:從數據質量本身來講,出現數據質量問題是正常的,關鍵是進行糾正,并采取“預防再犯”的措施,所以質量保障過程是一個持續的改進過程;(6)特別重視數據質量問題數據的采集以及數據質量知識庫的建設。

3 數據質量在南方電網大數據中的應用

3.1數據質量檢查

數據質量檢查是指檢查數據倉庫中數據質量是否存在問題,若存在問題,則識別數據質量問題的級別。數據質量檢查的目的是識別數據錯誤,衡量對各種業務過程的影響。具體包括以下內容:

(1)接口數據檢查

接口數據提供可以是以文件的形式提供也可以是以數據表的形式提供,因此檢查針對接口文件和接口數據表。通過對接口數據完整性和及時性等方面的檢查檢查及時發現問題,以保證在數據在進入數據倉庫之前不存在明顯的數據質量問題和隱患。

接口文件的檢查主要包括對文件格式、文件大小、記錄長度、傳送數量等方面的檢查;接口表的檢查主要包括對表的屬性、數據時間等方面的檢查;對于采取非上述接口方式的情況,可根據具體情況設計接口數據檢查的項目和內容。

(2)數據倉庫檢查

數據倉庫檢查是對進入數據倉庫的數據進行數據完整性、一致性、正確性和及時性方面的檢查,以保證數據倉庫內部的數據不存在數據質量問題。

(3)指標檢查

數據展現的檢查主要檢查數據的正確性方面存在的質量問題;以保證數據能夠真實反映業務實情。

3.2數據質量問題控制

數據質量控制是指采用一定的方法對已經出現數據質量問題的數據進行處理。如果發現某些數據質量問題是由于系統設計不合理等原因導致的,則還需要變更數據倉庫系統。

數據質量問題控制主要包括以下內容如下。

(1)數據質量問題處理流程

在本流程中,數據質量管理員先根據問題的實際情況判斷數據質量問題的歸屬節點,如果是數據倉庫系統內部問題,即轉入數據倉庫系統變更處理流程;如果判斷為不是數據倉庫系統內部問題,則提交數據質量事件報告并申請數據質量小組協調,數據質量小組檢查數據質量事件報告,確定責任歸屬。數據質量小組中業務系統接口員由各個業務系統的代表擔任,在檢查過程中,各業務系統的代表應該提供業務系統的實際情況,并結合自身的業務系統經驗,協助數據質量小組確定問題的根本原因。責任確定以后,確定的責任歸屬業務系統的代表應該推動相應的業務系統修改相應的系統,并在系統修改完畢以后,發業務系統變更通知到數據倉庫系統,數據倉庫系統根據業務系統變更通知進入系統變更處理流程。最后,對于已經發生錯誤的數據,則進入錯誤數據維護流程。

(2)錯誤數據維護流程

在系統中由于歷史原因導致了現有數據庫中數據存在錯誤,需要進行維護。錯誤數據的維護必須得到數據質量管理員的同意,并在在維護完成后提交數據維護報告,數據質量管理員可以采取適當的檢查以驗證數據維護操作的執行情況。

(3)數據倉庫系統變更處理流程

為了面對業務環境的挑戰,企業總是處在持續的變化過程中,數據倉庫系統必然處在不斷的變更中。系統變更處理流程從管理和技術兩個方面規范此類事件的處理流程,保證系統的任何更改可能對數據質量造成的影響都是受控制的。

3.3數據質量問題預防

數據質量問題預防是指建立一系列的影響因素的監控規則,以便及時發現可能影響數據質量的因素的變化,及時處理,防止數據質量問題的產生。數據質量問題的預防包括以下內容:

(1)數據質量測試過程

數據倉庫系統處理海量的輸入,并產生了大量的輸出結果(報表、OLAP分析),其中間存貯也是海量的,使得數據倉庫系統的測試壓力非常大。需要特別加強對測試過程的管理。測試過程是企業的標準IT過程,在此描述的數據測試過程不是一個完整的測試過程,只是測試過程的一個子過程,加強了對數據質量的預測和管理,同時在很大程度上起到預防數據質量問題的作用。

為了保障數據質量,數據管理員關注所有的測試過程,特別是數據倉庫系統中的所有測試方案和測試報告都必須要由數據質量管理員進行檢查。測試方案中要求涵蓋對數據質量的測試,數據質量管理員對所有的測試方案進行檢查,并向數據質量小組和數據倉庫系統開發組提交檢查報告,對于數據質量管理員檢查不能通過的測試方案,要求必須在規定的期限內重新設計并提交。數據質量管理員對所有的測試報告進行檢查,并向數據質量小組和開發小組提交檢查報告。對于數據質量管理員檢查不能通過的測試報告,測試不能視為通過。

(2)統計口徑差異控制流程

統計口徑是元數據管理的重要組成部分,對于數據倉庫系統具有重要的意義,由于系統之間的統計口徑的差異已經對數據倉庫系統的實施造成了一定影響,因此控制好統計口徑,使其保持一致性是預防數據質量問題的基礎。

在統計口徑差異控制過程中,數據質量管理員接受統計口徑差異問題報告,判斷是否已經確定的統計口徑(已經確定的/企業內有明確的文檔明確規定的),如果不是,則需要通過數據質量小組協調。數據質量小組中包含了各部門的代表,數據質量管理員要求相關的系統或者業務部門的代表提供本部門對該統計口徑的定義,理解,計算辦法,計算公式,并確定關注和使用該統計口徑的部門。統計口徑應該以該統計口徑的定義和使用部門的解釋為準。如果有多個部門對同一個統計口徑的給出了不同的定義,并且使用了該統計口徑,數據質量管理員應該申請更高層次的協調。

(3)管理流程檢查

管理流程檢查包括管理機構、管理流程及標準、質量管理運作的檢查。完善的管理機構、流程和標準以及完整的運作過程可以保障數據質量,使數據倉庫在任何情況下都按照一定規則標準來運行維護。

4 實施效果

結合南方電網的數據特點和業務需求,使用全面的數據質量管理機制,通過業務系統和數據倉庫系統的全體部門及人員齊心協力,把管理層面、技術層面以及統計方法和思想教育結合起來,建立從系統設計、管理、運營等全過程的數據質量管理體系,進而有效地利用多方資源,提供符合期望的分析數據,從而提升南方電網的管理水平和工作效率,增加核心競爭力。

4.1數據質量管理流程化、規范化

南方電網引入“主數據”管理概念,搭建起“數據資源管理平臺”。所有的主數據由專人專系統統一維護,變更信息時統一推送至其他應用平臺。這樣確保了主要數據維護的唯一性、準確性,提升整體系統的數據質量。同時,南方電網制定出一套完整數據質量流程以及管理規范,從底層數據到上層應用數據,形成有效統一的管理機制,最大程度上保證整個系統的數據質量。

4.2數據質量管理的有效性,全面性

南方電網最大限度地修正目前存在的數據質量問題,建立了有效地監控機制,控制預防將來的錯誤范圍擴大;與源系統數據質量相互驗證,對源系統的部分數據起到一定的檢查作用,并相互促進在。同時,在整個數據處理過程中,每個環節都建立數據質量保證機制,最終在各個環節都保證數據的正確性、一致性、完整性和可靠性。

4.3系統/業務管理常態化、精細化

通過數據質量管理機制和技術規范促進信息通信運維作業水平提升,保障各類信息通信系統的穩定運行。通過加強組織管理,落實流程制定與實施,在現有的業務流程、管理流程的基礎上進行優化,將需求管理流程、數據質量管理流程等納入了常態化管理,進而明確、細化各種流程中職責分工,確保各種工作能夠落實到人、管理到人、認責到人。

5 結語

隨著大數據技術的發展,未來電網將更加智能化、安全化,必定會向著低成本、高效率、高可靠性的方向轉變。而當前的數據分析處理要求一套數據質量管理機制,為了進一步提高廣東電網的核心競爭力,向客戶提高更好、更安全的服務,有必要積極研究數據質量管理方法。研究能夠實現對各種類型數據進行數據質量問題檢查、數據質量控制及數據質量問題預防可以為電力行業的發展提供基礎支持,促進企業發展。

[1]李翠平,王敏峰.大數據的挑戰與機遇[J].科研信息化技術與應用,2013,4(1):12-18.

[2]段軍紅,張奈丹,趙博等.電力大數據基礎體系架構與應用研究[J].中天科技,2015,13(2):92-94.

[3]岳陽,張曉佳,高一丹.基于Hadoop的電力大數據技術體系研究[J].電力與能源,2015,36(2):16-20.

Data Quality;Data Quality Management;Quality Control;Quality Prevention

Data Quality Management Based on Guangdong Power Grid

JIANG Jiang,HUANG Jian-wen,YANG Qiu-yong
(Information Centre of Guangdong Grid Co,Guangzhou510080)

1007-1423(2016)07-0088-04

10.3969/j.issn.1007-1423.2016.07.019

2015-12-07

2016-01-20

隨著廣東電網智能化建設和規模的擴大,電網系統業務邏輯越來越復雜,數據也越來越龐大,導致類似“系統外部問題”、“系統內部問題”、“核對標準問題”等的數據質量問題,嚴重影響系統的使用和推廣。根據電力大數據的特點和發展趨勢,結合廣東電網數據質量的現狀,從公司業務特點和實際需求出發,提出一種高效的數據質量管理方法,并分析該方法的數據質量檢查、數據質量問題控制和數據質量問題預防等方面的實施。

數據質量;數據質量管理;問題控制;問題預防

江疆(1982-),湖北人,博士,研究方向為電力計算應用系統開發與管理、機器學習黃劍文(1963-),廣東人,研究生,研究方向為數據分析、數據應用

楊秋勇(1986-),廣東人,碩士,研究方向為智能信息處理、數據挖掘

With the expansion of Guangdong Power Grid,the business logic is more and more complex and the database becomes larger and larger, which resulting in questions like"system of external problems","internal system problems","check the standard problems"and so on, that seriously affecting the use and promotion of the system.Considering the characteristics of big data and the business characteristics and the needs of Guangdong Power Grid,proposes an efficient method to manage data quality,and then analyses quality check,quality control and quality prevention during the practice of Guangdong Power Grid.

猜你喜歡
質量系統管理
棗前期管理再好,后期管不好,前功盡棄
今日農業(2022年15期)2022-09-20 06:56:20
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
“質量”知識鞏固
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
質量守恒定律考什么
做夢導致睡眠質量差嗎
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
質量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
“這下管理創新了!等7則
雜文月刊(2016年1期)2016-02-11 10:35:51
主站蜘蛛池模板: 女同国产精品一区二区| 久久久四虎成人永久免费网站| 免费在线视频a| 午夜国产大片免费观看| 亚洲第一成人在线| 波多野结衣中文字幕一区| 欧美亚洲香蕉| 色成人亚洲| 欧美国产日产一区二区| 亚洲天堂网在线播放| 日韩在线欧美在线| 国产成人禁片在线观看| 99精品伊人久久久大香线蕉| 大香网伊人久久综合网2020| 国产精品中文免费福利| 日本高清在线看免费观看| 久久精品国产999大香线焦| 国产精品白浆在线播放| 亚洲色图欧美激情| 黄色网站不卡无码| 国产精品亚洲五月天高清| yy6080理论大片一级久久| 午夜福利亚洲精品| 无码高清专区| 国产女人在线观看| 国产精品无码翘臀在线看纯欲| 一区二区日韩国产精久久| 日本成人福利视频| 中文字幕人成乱码熟女免费| 久久久久国产一级毛片高清板| 国产成人8x视频一区二区| 一级片一区| 亚洲一区二区三区麻豆| 久久天天躁夜夜躁狠狠| 亚洲嫩模喷白浆| 免费国产小视频在线观看| 国产成人欧美| 亚洲综合在线最大成人| 91久久国产综合精品| 成人看片欧美一区二区| 亚洲乱码在线视频| 18禁不卡免费网站| 四虎永久在线精品影院| 免费a级毛片视频| 五月婷婷中文字幕| 国产美女人喷水在线观看| 亚洲天堂免费在线视频| 国产在线八区| 操美女免费网站| 久久国产拍爱| 成人av专区精品无码国产| 亚洲免费黄色网| 人妻无码AⅤ中文字| 久久亚洲精少妇毛片午夜无码| 亚洲日产2021三区在线| 在线观看无码av免费不卡网站| 国产精品视频久| 国产成人a在线观看视频| 欧美福利在线| www中文字幕在线观看| 亚洲欧美不卡视频| 伊人狠狠丁香婷婷综合色| 亚洲最新地址| 女人毛片a级大学毛片免费 | 二级毛片免费观看全程| 欧美国产在线精品17p| 亚洲第一极品精品无码| 国产欧美日韩在线一区| 亚洲国产欧美目韩成人综合| 欧美日韩一区二区三| 极品私人尤物在线精品首页 | 国产自视频| 一区二区理伦视频| 国产大全韩国亚洲一区二区三区| 精品国产成人国产在线| 老司机午夜精品视频你懂的| a免费毛片在线播放| 尤物午夜福利视频| 国产在线98福利播放视频免费| 免费人成又黄又爽的视频网站| 亚洲a免费| 亚洲天堂自拍|