邵世暢 陳光
摘 要:電網調度運行業務建設信息化與運行電網的過程中,電力數據系統產生的大部分數據只能被刪減或更改,數據之下隱藏的更深層次的關系無法被察覺。本文根據數據挖掘與構建決策分析系統的幾個關鍵技術展開了分析,對基于數據挖掘的電力系統數據分析與決策系統具有參考意義。
關鍵詞:數據挖掘;電網系統數據;決策系統
引言
數據挖掘是發現數據庫知識的關鍵技術,現如今,在國際的研究領域被頻繁使用,因為數據挖掘可以將人工智能與數據庫技術相融合,在數據庫中挖掘出最有用的知識。由于數字化技術在電力系統中被大量使用,各個管理信息系統也隨之在電力系統中形成了大量的數據,基于此,我們要對以往的統計分析法進行改進,否則無法對越來越多數據的分析。
1.數據挖掘
1.1數據挖掘的基本原理
作為一種新型的信息處理技術,數據挖掘成為了發現數據庫中深層知識的關鍵技術,所謂數據挖掘,就是在數據庫中汲取出深層次的有利信息的過程。其挖掘的數據是多種多樣的,來,我國信息技術飛速發展,數據挖掘作為其中的一個產物,結合了多個學科的知識,包括計算機學、統計學、智能監控、數據庫與深度學習等,此外,數據挖掘技術還和可視化技術、信息科學與心理學有所關聯[1]。
1.2數據挖掘系統
數據庫、知識庫、數據庫服務器、數據挖掘引擎、挖掘算法及人機交互界面等模塊組成在數據挖掘系統中,數據挖掘系統才可以被稱為完整,此外,數據挖掘系統中還包括對中間數據的清理、集成與過濾。在事物的設計上,數據庫具有儲存運行實時數據的功能,在主題設計上,數據倉庫具有儲存歷史數據的功能。如果從數據量上來看,數據庫的數據量小于數據倉庫。無論是數據庫還是數據倉庫,二者的服務器都是由一臺會多臺計算機組成的,其目的是為了形成一個向上的數據接口,將這個接口提供給底層的數據庫或數據庫群,保證數據庫中的數據可以隨時被調用。數據挖掘過程中接觸到的專業知識與規則、技術人員的經驗常識等主要放置在知識庫中,在搜索數據的過程中具有輔助的作用。數據挖掘引擎是數據挖掘系統中的重要組成部分,能夠將知識庫與使用者聯系起來。數據挖掘引擎通常由不同的模塊組成,這些模塊具有不同的功能,可以用來聚類分析、特征化、偏差分析等。使用興趣程度作為模式評估的標準,能夠探索出真正有趣的代表知識的模式[2]。人工智能與計算機的結合能夠幫助使用者與數據挖掘系統進行互動,其可視化界面還可以幫助用戶查詢數據與制定計劃,此外,用戶還可以通過數據挖掘系統瀏覽數據系統的實時狀態。
2.構建決策電力數據分析系統的幾個關鍵技術
2.1數據的變換與清洗
在數據從業系統或數據來源被提取出來時,應該及時對其進行變換與清洗,然后再將其放置在數據庫中,這是數據倉庫要遵守的最基本的原則。關于如何將數據變換,可以使用兩種方法,分別為手工編程與使用專門的工具對數據進行變換。相比手工編程來說,使用專門的工作相對來說比較容易操作,對人力資源的要求也不高,但這種方法有使用不靈活等缺點。相比專門工具的不靈活性,手工編程較為靈活,但操作復雜,因此在現實的使用過程中,往往將這兩種方法相融合,在使用專門的工具轉換數據時,增加手工編程的方法。由于這兩種方法都是在數據傳送的過程中對數據進行變換與清洗,所以通??梢栽跇I務相對不擁擠、服務器使用較輕松的晚間使用。但相對于數據量龐大的OLTP 系統,就需要較長的業務處理時間,這時業余的空閑時間就不能夠滿足業務處理。業余的空閑時間非常少,我們很難在很短的時間內完成對數據進行匯總計算、備份、傳送等,由此可見,在數據傳送過程中進行清洗尤為重要,能夠大大的影響數據傳送的效率。
2.1.1計算列方法:此方法主要針對簡單變換
為了不影響數據傳送的效率,我們可以在數據傳送的過程中,將初始數據直接導入,在數據倉庫中構建計算列,對數據進行透明轉換。
2.1.2視圖法:此方法主要針對清潔和集成
與計算列方法相同,視圖法也是在傳送的過程中,直接將初始數據導入。在清潔方面,為了構建原始數據與清潔數據的相對關聯,我們可以構建一張新的表。在集成方面,可以通過試圖將原始數據集成,之后在視圖上構建數據立方體。
2.2存儲格式的選擇
多維 OLAP(MO-LAP)、關系 OLAP(ROLAP)與混合 OLAP(HOLAP)為數據立方體的三種存儲方式。現如今,根據相關參考文獻中不相同的存儲方式對性能的影響,并沒有定量的標準,通常只有相對定性的標準。文章中,我們通過實際操作的經驗,提供了在不同情況下不同存儲格式大致的性能指標[3]。
作為事先計算好的數據匯總,聚合能夠改善查詢響應時間,并需要其他的存儲空間。如果全部預先計算各個維度各個層次的單元值,將這時的聚合空間定義為100 %,此時的查詢時間最短,聚合空間最大。如果不對各維度各層次的單元之進行遇見計算,查詢時間則最長。聚合百分比=100 *(MAX-CUR)/(MAX-M IN),因此我們可以通過定義性能的提升來定義聚合百分比。
多維存儲模式能夠讓分區的聚合與其源數據的復本以多維結構在分析服務器計算機上被存儲。關系存儲模式能夠讓分區的聚合在關系數據庫的表中被存儲。關系存儲模式的查詢響應通常情況下要慢與其他兩種存儲模式。混合存儲模式將多維存儲模式與關系存儲模式進行了結合??偠灾嗑S存儲模式通過為了縮短查詢時間,犧牲了存儲空間,關系存儲模式為了減少空間,犧牲了查詢時間,混合存儲模式則折中與這兩種存儲模式,對二者性能在量化指標的差異不明確。根據實踐的經驗,文章可以提供一個相近的量化指標:選擇一個大約 2G的表,整體上看,多維存儲模式所需要的存儲空間大于關系存儲模式與混合存儲模式。當聚合數增高的時候,關系存儲模式就需要更大的存儲空間,這是因為關系存儲模式本身對查詢時間沒有較高的要求。當對性能要求比較高時,存儲額外信息所需要的空間大概接近多維存儲模式。同樣選擇一個大約 2G 的表進行測試,多維存儲模式將原始數據導入本地,處理時間就比較短,而在聚合小于 30 %的情況下,關系存儲模式的處理時間比多維存儲模式短,但處理時間也隨著聚合數的增加而不斷上升。
結語
構建穩定的電力數據分析系統,可以解決數據來源巨大的問題,電力數據分析系統能夠根據不同的數據主題構建不同的數據集合,方便搜索查詢,構建決策電力數據分析系統的幾個關鍵技術還將再實踐中進一步改善。
參考文獻
[1]胡政,柳進,胡林獻.電網高峰負荷分析決策平臺的設計與實現[J].電網技術,2005(06):58-62.
[2]劉涌,侯志儉,蔣傳文.數據倉庫技術在配網自動化中的應用[J].華東電力,2005(01):62-64.
[3]楊靜.基于數據倉庫決策分析的電力系統應用研究[J].微機發展,2002(05):31-33.