胡楠 胡畔 劉鵬宇 吳赫 夏雨

摘 要:在科學技術的推動下,智能電網已經建成,這樣就可通過先進的信息技術對電網進行控制,但同時也會產生內容極其繁雜且數量較多的電力數據,因此需要通過挖掘技術從中提煉出有意義的數據,并進行分類處理,以此作為衡量設備是否可靠的重要指標。本文就以文本缺陷數據為例,對如何應用挖掘技術進行了詳細探討。
關鍵詞:電網企業;文本數據挖掘技術;可靠性
引言
在電力系統運行的各個階段均會產生大量的數據信息,并且數據更新速度極快,通過這些數據能夠反映設備的狀態及可靠性,但為了達到這一目的,必須充分挖掘有價值的數據,并且需要將文本類型的數據作為挖掘的重點。此外,以往在搜索時主要運用的是引擎及查詢技術,但這種方法已經無法滿足當前的數據處理要求,因此必須應用文本挖掘技術,并構建語義框架。本文就對此問題進行了具體分析。
一、電網內文本類型
智能電網在運行過程中會產生數量極其龐大的數據信息,并儲存于數據庫中。具體來說,電網內的文本類型主要包括以下幾種。第一是資產配置信息,主要與電力設備有關,其中涉及設備參數、名稱、購置廠家等。第二是票據,可分為工作和操作兩種類型的票據,但兩者具有許多類似之處,因此通常情況下可劃分為同一類別。工作票指的是在檢修設備的過程中上級所下發的指令及具體的操作步驟,檢修人員在操作過程中必須將此作為基本依據。同時,運行人員也必須遵守該票據中的基本規則。操作票歸運行人員所有,其主要指的是在調整設備的運行方式時所應遵循的基本依據,并且可發揮許可證的作用[1]。第三是日志,其主要指的是在巡視與檢修設備后必須進行記錄,并且還需要對故障的特點及維修過程詳細記錄。日志通常以文本的形式存在,主要包括時間、設備狀態、故障原因等多個方面的信息。第四是語音記錄,目的在于提高調度效率,主要是通過人機接口實現的。第五是長文檔報告,主要指的是工程師在設計與運維期間需要對設備的狀態進行評價,并以長文檔的形式記錄,同時還要需要分析故障原因并給出建議。長文檔中所記錄的公式通常較為復雜,如果要進行深層次文本理解具有較大的難度,因此還需要在分類與檢索的基礎上持續進行研究。第六是權威標準,其主要指的是企業及權威機構所制定的標準,通常情況下文本篇幅較長,并且包括表格、圖像等多種類型的數據信息[2]。
二、可靠性應用
(一)概述
電網企業中的設備所處的運行環境較為復雜,進而導致設備在運行過程中故障較為常見,因此需要對運維管理的整個過程進行記錄,信息記錄包括多種形式,其中設備故障、及缺陷主要是采用中文形式進行記錄的,這樣就可了解每個設備以往在運行過程中的狀態。而要想從繁雜的數據信息中挖掘出能夠體現設備可靠性的數據,還需要應用相關的信息挖掘技術。結合企業當前的情況來看,在統計數據時以人工處理為主,需要花費大量的時間及人力資源,并且難以保障統計結果的準確性,因此當前最重要的是針對缺陷文本研究出相應的挖掘技術。另外,中文文本數據的挖掘難度較高,原因在于其在應用過程中需要與相關領域內的專業知識進行匹配,并且由于中文與英文的差異性,導致國外的研究成果無法應用于中文文本的處理中[3],因此目前國內有許多學者就針對不同的文本類型進行了優化,在處理過程中工作票和操作票較為簡單,但缺陷類型的文本極其復雜,因此需要重點針對此種類型的文本研究出相關的挖掘技術。
(二)電力語義框架
一個文本并不僅針對一種缺陷,而是對設備多個部件的缺陷進行描述,因此首先需要進行分類處理,否則就會嚴重影響統計結果的精確性,在具體操作的過程中可將設備的可靠性作為任務,并通過語義框架進行處理,其作用在于能夠使語義的呈現更加完整,主要以數據結構的形式存在。此外,還可運用語義槽,其構成部分是彼此之間具有一定關聯性的信息,通常情況下四個槽體可組成一個框架,并且可根據槽體的類型對電力詞性進行準確定義[4]。在這樣的狀況下,多個不同的缺陷就可分別以相應的語義框架的形式呈現,進而對不同類型的缺陷加以區分。
(三)文本挖掘模型
為了促使缺陷信息的挖掘更加充分,需要構建挖掘模型,模型結構如圖1所示,該模型共分為三個層次,第一是預處理層,其作用在于處理缺陷和構建字典。在構建字典的過程中以人工處理為主,其與缺陷處理的結果及效率密切相關。此外,該層級還可完成中文分詞任務并順利提取不同詞匯的特征。第二是處理層,其具有三項功能。首先是槽填充,該處理環節處于詞匯的提取之后,主要指的是將文本與數字兩種類型的符號準確填入相對應的槽中。其次是構建語義框架,在此之前首先需要明確不同語義之間的關聯性,進而與相應類型的槽進行匹配。為了避免出現槽缺失的問題,必須確保每個框架至少包含兩個槽,但同時也不能多于四個。最后是詞串合并,其指的是同一框架中的不同槽可以合并,最后統一錄入字典中。第三是統計應用層,其主要發揮的是統計可靠性的功能,可將某地區特定時間段內某種設備的缺陷類型進行匯總與分析,并計算出相應的統計結果,該結果可作為衡量設備性能的可靠性指標,之后在設計與制造設備的過程中就可以此為依據,并且在對設備進行運行及維護時也可參考這些指標。
三、結語
總而言之,電網數據庫中的信息類型較多,導致在提煉有效信息時具有一定的難度,尤其是文本數據,因此當前需要加大研究力度,明確不同文本的類型及特征,促使語義分析更加深入,同時還需要通過構建挖掘模型加以處理。此外,字典的構建盡管需要花費大量的時間,但是一旦建成,則可長期使用,并且通過字典提取數據的方式在使用過程中較為簡便,因此本文所提出的方法具有較強的可行性。
參考文獻:
[1]邱健,王慧芳,應高亮.文本信息挖掘技術及其在斷路器全壽命狀態評價中的應用[J].電力系統自動化,2015,40(6):112-117.
[2]蔡榮言.數據挖掘技術在電力企業中的應用研究[J].管理方略,2015,12(18):128-129.
[3]饒友平.數據挖掘技術在電力行業的應用[J].電工研究,2014,(15):137-140.
[4]梁宇.數據挖掘技術及其在電力決策支持系統中的應用[J].上海電力學院學報,2014,31(17):151-155.