周廣++閆丹鳳++許光可++李筍



摘要:電網的高速發展帶來海量數據的存儲和分析問題,傳統的數據管理和分析工具不再適用。本文主要對大數據分析的相關技術在輸變電設備狀態評估中的應用進行了研究。本文首先分析了大數據以及數據挖掘技術的優點和應用,并介紹了輸變電設備狀態評估技術的相關內容,隨后討論了大數據和數據挖掘技術在輸變電設備狀態評估中的應用,并利用分布式存儲、時間序列分析、頻繁項挖掘以及專家系統等數據挖掘技術在輸變電設備評估進行研究,以此提高電網管理的效率和運營的安全性。
關鍵詞:計算機科學與技術;大數據;輸變電設備狀態評估
中圖分類號:TP399
文獻標識碼:A
DOI: 10.3969/j.issn.1003-6970.2016.01.003
0 引言
隨著我國經濟與社會的全面發展與進步,我國電力行業飛速發展,電網規模日益擴大,對于電能供應質量以及電網中輸變電設備的安全運行的要求也越來越高。由于輸變電設備具有種類繁多、參數復雜、監控數據量大、運行環境多樣等特點,對輸變電設備進行在線監測、帶電監測以及離線監測的設備全景狀態信息監測以及評估,有利于及時發現設備異常狀態,提前預警安全事件,減少由于設備故障造成的電網安全事故,在維護輸變電設備以及電網安全中,十分重要。然而,由于電網中擁有大量設備需要監控,監控將產生海量數據。因此,利用大數據分析技術對輸變電設備的狀態進行監測和評估,對于保護整個電力系統安全運營有著重要的意義。
目前,大數據技術在商業運營中已取得一定成果。微博中熱點微博的發現和淘寶平臺中商品的推薦,都是大數據技術的應用。而且,為了解決大數據的計算和存儲問題,包括AWS、Azure、阿里云、青云等云計算提供商,都已具備完善的大數據解決方案。但是,目前大數據技術與電力行業的結合剛剛開始,如何將大數據技術應用到輸變電設備狀態評估中,還需要進一步的研究。
1 大數據分析技術
伴隨著信息時代的到來,數據也呈現出爆發式增長的態勢。隨著數據從數量規模,到種類和結構都日益增長,大數據的概念也隨之到來。為了對大數據進行獲取、管理和處理,需要引入新的數據加工模式和技術,大數據分析技術應運而生。
1.1 大數據
1.1.1 大數據簡介
大數據(Big Data),指的是體量特別大,數據類別特別多,而且無法在可以承受的時間內,使用傳統數據庫管理工具對其進行抓取、管理、分析和處理的數據集合。IBM的科研小組認為,大數據具備SV特征:大量(Volume)、高速(Velocity)、多樣(Variety),價值(Value)、真實(Veracity)。
大數據由于其數據容量巨大,而且數據類型眾多,傳統的手工管理,甚至利用關系型數據庫都已經無法對其進行有效的管理和分析。因此,國內外對大數據進行了深入的研究,并且提出了各種有效的技術手段,例如大規模并行化處理、數據挖掘技術、分布式文件系統、分布式數據庫以及云計算等相關技術紛紛涌現,極大的提高了大數據分析的效率。
目前,大數據已經進入應用階段,許多基于大數據的項目已經取得了非常矚目的成果。大數據作為互聯網的產物,已經越來越體現出它的價值。
在國外,梅西百貨利用大數據技術實施監控商品銷售情況,并根據需求和庫存變化,對多打7300萬中商品進行實時價格調整。洛杉磯警方和研究人員應用預測算法,預測犯罪的發生,將盜竊罪和暴力犯罪的發生概率降低了33%和21%。T-Mobile應用IBM大數據分析解決方案,對每天數十億通話記錄和網絡設備進行監測和分析,從而迅速發現網絡平靜,并預測可能的網絡錯誤,提前進行干預。在國內,農夫山泉應用大數據分析技術,根據需求對供給物流網絡進行調整。
1.1.2 Hadoop平臺
Hadoop平臺是Apache開源分布式系統基礎架構,核心的設計主要包括一個分布式文件系統(Hadoop Distributed File System,簡稱HDFS)以及面向分布式數據的MapReduce計算框架。
Hadoop平臺是一個對大數據進行分布式處理的框架,解決了數據的存儲和計算的問題。Hadoop對數據的處理是可靠和高效的,它假設計算和存儲都可能發生失敗,并通過備份的方式,對數據維護多個副本,從而對于故障節點的存儲和計算數據進行重新處理,而且對于數據的處理是并行化的,在大多數情況下,不會受到單點的性能影響。
1.2 云計算
云計算是為了解決大數據的存儲和計算問題,而將計算任務分布到大量計算機組成的動態的可伸縮的資源池上,使得各種應用能夠按需獲取計算能力、存儲空間和信息服務的一種廉價計算服務。
按照服務類型區分,云計算可以分為三大類:將軟件作為服務(Software as a Service,簡稱SaaS),將平臺作為服務(Platform as a Service,簡稱Paas)以及將基礎設施作為服務(lnfrastructure as a Service,簡稱Iaas)。一般而言,SaaS針對性更強,將特定的軟件封裝為網絡服務;PaaS則是對資源的進一步抽象,為用戶的應用程序提供了運行環境;而IaaS則是將硬件設備也進行封裝,作為服務對用戶提供。
目前,Amazon的AWS,谷歌的AppEngine,以及微軟的Azure都是較為成熟的云計算服務。其中,谷歌在云計算的研究中,以學術論文的形式公布了其云計算的核心技術,包括GFS、MapReduce以及BigTable的相關內容,在學術界引發了新一輪的云計算研究的熱潮。
1.3 數據挖掘技術
對于大數據而言,很多傳統的數據分析和統計技術在分析時間和分析效果上表現并不理想,因此,針對大數據的數據挖掘技術,具有重要的使用價值。
數據挖掘技術一般指從大量數據中通過一定算法,搜索其中的信息,通常需要利用統計學中的抽樣、估計以及人工智能、模式識別、機器學習的算法。同時,對于大數據而言,并行化和分布式存儲是實施大數據挖掘的關鍵。
數據挖掘有一些常見的算法,主要解決分類、聚類、預測、關聯規則挖掘等幾大問題。其中,比較重要的、應用較為廣泛的算法有k-means、SVM支持向量機、Apriori關聯規則挖掘算法、EM最大期望值算法、PageRank算法、Adaboost迭代算法、Narve Bayes分類算法。
2 輸變電設備狀態評估技術簡介
截止到2014年,我國發電裝機總容量已達13.6億千瓦,全口徑發電量5.5萬億千萬時,已位居世界首位。此外,人均裝機容量達到1千瓦,人均年用電量4038千瓦時,也超過了世界的平均水平。而隨著電力系統的發展,電網規模的擴大,電網中輸變電設備的維護也日益重要。但由于輸電線路距離非常長、所處環境氣候變化非常大、跨越地形非常復雜、分布位置非常分散、日常巡查比較困難。因此,建立輸變電設備轉臺評估系統對輸變電設備狀態進行評估,具有重要的實用意義。
2.1 輸變電設備狀態參數
輸變電設備狀態參數是指輸變電設備在運行時的各種指標參數,以及運行環境的一些數字化信息,包括輸電線本身的一些物理特性、運行指標、檢修資料以及輸變電設備所處環境的溫度,適度、風俗、泄露電流、覆冰情況等信息。根據國家電網頒布的設備檢修導則,輸變電設備的狀態參數,分為重要狀態量和一般狀態量,其中,重要狀態量對設備健康影響較大。
在選擇狀態參數時,有一些參數需要特別注意,如生產廠家特性參數、故障歷史參數、環境參數、負載參數等。生產廠家參數決定了該輸變電設備平均故障率,設計壽命以及最低運行年限等參數。故障歷時參數能用來判斷該設備運行情況,以及本身是否有瑕疵等問題;境參數能輔助判斷其運行年限的期望值,以及可能會產生的問題負載參數能輔助判斷其運行狀態,以及老化程度。
2.2 輸變電設備狀態評價
在選取了合適的狀態量之后,即可根據狀態量,對輸變電設備進行狀態評價。對于不同階段的設備,應采用不同的策略。對于新投運的設備,在經過全面檢查后,如果狀態良好,按照運行良好處理;對于已運行一定年限,發生故障率明顯增加的設備,影根據運行和評價結果,給予一定的調整。根據國家電網設備評價導則,可以依據設備的損耗情況,將每個設備的狀態量化成為四個等級,并對每個等級賦予相應的權重。對于剛出廠的合格的新設備,記為100分,對于運行良好的設備,不扣分;對于一些狀態量異常的設備,按照等級扣除相應的分數;最后結合老化因子,得到輸變電設備的最終的狀態值。
其中,Score為最終得分;SO為運行得分;fi為負載因素,fe為環境因素。
2.3 輸變電設備狀態決策
2.3.1 檢修分類
按照國家電網的設備檢修導則,根據設備評估狀;兄,設備狀態檢修分為不同的等級,分別是A級檢修、B級檢修、C級檢修和D級檢修。其中,A、B、C類檢修為停電檢修,D類為不停電檢修。按照不同的要求,以變電站直流系統的檢修分類及檢修項目為例,如下表所示:
2.3.2 檢修決策
根據不同的設備狀態,應該采用不同的檢修策略。
對于“正常狀態”的直流系統,執行C類檢修,可以適當安排D類檢修,按照正常周期或者延長一年;
對于“注意狀態”的直流系統,執行C類檢修,應該加強D類檢修,不能大于正常周期;
對于“異常狀態”的直流系統,應根據評價結果安排檢修類型,并適時安排檢修;
對于“嚴重狀態”的直流系統,應根據評價結果安排檢修類型,并盡快安排檢修。
3 大數據在輸變電設備狀態評估中的應用
3.1 分布式存儲在設備狀態評估中的應用
一般認為,大數據一般要處理的數據遠遠超過傳統的關系型數據庫。因此,在存儲方面,一些突破了關系型數據庫的NoSQL數據庫涌現出來,例如MongoDB,Hbase等。由于分布式數據庫將數據存放于不同的機器上,因此,相較于關系型數據庫,會額外需要一些通信和管理的開銷。
分布式數據庫需要解決數據的一致性和性能的問題。在分布式數據庫中,一般面臨一致性、可用性和分區容錯性三者不能同時滿足的問題。因此,在面對不同的問題時,需要根據問題的重點選擇處理策略。一般來說,有如下三種:
1.為了避免單點故障,導致數據丟失,需要對數據進行多點備份;
2.如果備份數據較多,則需要更多的數據同步來保證數據的一致性;
3.如果數據一致性要求較高,則性能會降低,會增加額外的大量通信和管理開銷。
目前,在電力系統中,各種設備每天通過監控產生的狀態信息已超過PB級別,這些數據非常龐大,而且不同設備產生的類型各異,因此,使用分布式數據庫對設備狀態數據進行存儲,是十分必要的。
3.1.1 輸變電設備狀態數據存儲實驗
本研究課題以輸變電設備狀態數據為研究對象,對其存儲和查詢在不同數據庫之間的效果進行了對比實驗,驗證在大數據環境下,分布式存儲的效果與傳統關系型數據庫存儲效果的差異。
實驗環境:
MongoDB:3臺主機,每臺主機搭載2核CPU,4G內存,500GB硬盤,一個主節點,2個從節點;
Hbase:3臺主機,每臺主機搭載2核CPU,4G內存,500GB硬盤,一個主節點,2個從節點;
MySQL:1臺主機,搭載4核CPU,4G內存,ITB硬盤。
實驗數據:設備狀態評估狀態量,共130萬條
由表中數據可以發現,在數據量較小時,關系型數據庫MySQL在插入和查詢上速度較快,而分布式存儲中,MongoDB的插入和查詢效率都明顯較高,而Hbase的速度都比較慢。在數據量增大后,數據的插入和查詢耗時都增加,其中MongoDB的表現優于關系型數據庫MySQL,以及另外一種分布式數據庫Hbase。對于索引數據來說,MySQL的耗時更少,但對于非索引數據,MongoDB的耗時更少。由上述實驗可知,傳統的關系型數據庫在小規模數據時表現較好,但是當數據量快速上升時,其效率會大大降低。分布式數據庫則在大規模數據時表現較為穩定。但是分布式存儲面臨的問題更為復雜,在使用時,需要根據面對的數據規模,進行一定的性能優化。而輸變電狀態評估中,數據規模十分巨大,在一定程度上,已經超過了關系型數據庫的管理上限,因此,選擇分布式數據庫對輸變電狀態評估數據進行存儲更加高效和合理。
3.2 時間序列分析在設備狀態評估中的應用
時間序列是指一個現象或者變量,按照時間順序,產生的一組數列。對時間序列的分析基于隨機過程理論和數理統計方法,研究產生時間序列的現象或者變量所遵從的統計規律,以解決實際問題。經典的統計分析問題,都假設數據在具備獨立性的條件下,對數據序列進行分析,而時間序列的分析問題,更側重研究數據序列之間的依賴關系。
輸變電設備監控狀態量都是實時監控的,按照時間產生的狀態信息序列。因此對于這些序列進行分析,發現甚至預測異常狀態,對于健全設備狀態評估系統,具有實用價值。
對于時間序列的預測,一般有如下方法:
1.簡單平均法
2.移動平均法
3.指數平滑法
一般而言,在分析時間序列時,盡可能的增加一些影響該序列變化的因素,能提高預測準確度和效率。在分析設備狀態評估時,加入溫度和濕度時間序列,對設備狀態評價分值進行預測,能有效的提高預測準確度。
3.3 頻繁項挖掘技術在設備狀態評估中的應用
關聯規則是從大量數據中,挖掘出有價值的數據項之間的相互關系。在實踐中,通常用于在雜亂無章的數據中,發現靜態的規律。
常見的關聯規則算法有Apriori、FP-growth算法等。
Fp-growth算法思想如下:
首先,掃描所有數據,產生所有備選頻繁項集,并降序排列,剪除支持度地域閾值的元素;
其次,再次掃描全部數據,并按照第一步的結果集合,生成FP樹;
最后,從FP樹中,按照規則,發現有意義的頻繁項。
在設備狀態評估中,可以采用關聯規則,發現和設備狀態相關的因素。
將設備的狀態離散為不同的等級,并記錄一個設備等級及其對應離散的天氣因素、地理因素以及交通因素,人文因素等等因素,作為輸入,建立FP-growth樹,并從樹中發現“嚴重狀態”是否具有頻繁項,如果發現頻繁項,則可以從頻繁項中找出“嚴重狀態”所對應的因素,從外進行排除,維護電網運行安全。
3.4 專家系統在設備狀態評估中的應用
專家系統是一個智能系統,包含了大量的領域內專家的知識和經驗,并通過這些人類專家的知識和經驗,解決領域內的各種問題。專家系統有領域經驗知識集以及推理機兩部分組成。經驗知識集包含了大量的領域內的專家的知識和經驗,并通過推理機,模擬人類專家,利用這些知識和經驗,來解決該領域內的問題。
在設備狀態評估中,大量的問題都可以由領域內的專家進行解決。尤其是在設備狀態出現異常的情況下,可以利用領域知識和經驗,判斷合理的維修決策。因此,建立一個完善的專家系統來解決設備狀態評估和維修的問題,具有很大的使用價值。
4 結論
隨著中國電力實業的飛快發展,以及電網的高速擴張,需要越來越多的新技術來支持和維護電網的運行安全。電網中的大量輸變電設備每天都產生了大量數據,如何對這些數據進行分析,從而維護設備和電網的安全運營,已經成為當前環境下迫切需要解決的問題。作為互聯網發展的熱點和重點,大數據已經證明了它強大的處理和解決問題的性能。因此,將大數據技術引入輸變電設備的狀態評估,具備重大的研究和實用價值。
本文重點介紹了大數據技術在輸變電設備狀態評估中的一些應用和處理方法,并通過一些實驗驗證了大數據技術的效果。當然,文章還存在很多不足,希望在以后的研究中,對大數據實時分析的方法進行深入的研究和應用。