王衛斌,陸嘉銘,周韡燁,屈志堅,姚嶸,瞿海妮
(1.國網上海公司電力公司,上海 200120;2.上海欣能信息科技發展有限公司,上海 200025)
“十三五”期間,電網企業信息化建設取得了長足發展,隨著企業級數據中臺的建成上線,電力檔案、量測、拓撲、業務等各類型數據在同一個信息系統內實現了匯聚,為應用大數據技術開展面向設備質量提升的電力設備缺陷大數據分析提供了有利條件。依靠傳統的數據庫查詢檢索機制提取數據信息,運算效率低、專業性要求高、呈現形式單調,無法滿足交互查詢、下鉆分析、趨勢預測、重點呈現等生產管理的實際需求。目前,迫切地需要研究一種有效、可行的方法,實現自動、智能、高效、準確地將海量的電力大數據轉化為有價值的信息[1-9]。
近年來,大數據技術在國內外電力研究領域也得到了許多關注與成果。文獻[10]通過密度峰值聚類算法研究了電力大數據異常值檢,分析了密度峰值聚類算法聚類過程。文獻[11]基于改進增廣節點方程,提出了柔性互聯配電網統一潮流的計算方法。文獻[12]對現有流數據聚類算法CluStream提出改進,提出流式K-means聚類算法,并將改進的算法應用于用戶用電異常檢測。文獻[13]基于鄰域關系矩陣,實現電力大數據增量式屬性約簡模式分析。文獻[14]提出了一種考慮本位元胞接受能力和相鄰元胞負荷影響的空間負荷預測方法。文獻[15]基于穩態波形分解與神經網絡,提出了負荷識別方法。
本文在綜合調研了生產管理需求與數據中臺軟硬件支撐條件后,創新地提出了綜合應用多維數據透視、時間序列模型、自然語言識別等方法開展面向設備質量提升的電力設備缺陷大數據分析,并結合實際項目從數據準備、數據挖掘、場景可視化、信息解讀等多個方面驗證了該方法的可行性與有效性。
設備缺陷數據融合,涉及不同信息系統的不能功能模塊,不但數據源頭眾多、數據類型眾多,更需要業務專家參與梳理并制定融合規則,高質量的數據是確保分析準確性的關鍵和前提。具體步驟:業務模型構建,應用設備主數據和業務流程數據反應設備狀態和業務流程;數據溯源,深入分析業務模型所需數據的源系統、源表和相關字段等;數據采集,根據業務需求按一定頻度,自動抽取或查詢相關數據;數據匹配,將分散在不同系統不同功能模塊中的設備主數據和業務流程數據貫通;統一數據格式,將不同系統內的同類數據轉化為統一的格式;業務判據制定,對設備主數據和業務流程數據設定合理性判斷標準,以校驗數據融合的準確性。
設備缺陷數據清洗,在實際生產過程中,采集到的設備主數據和業務流程數據往往是不完整、有噪聲和不一致的。因此,首先查找主數據中設備檔案參數為空、為異常的值,業務流程數據中缺陷性質為空、為異常的值、時間字段不在查詢范圍內等各類問題的數據項,進一步對缺失、異常數據項進行插值補充替代、擬合替代等清洗轉換,為后續工作夯實基礎。
設備缺陷數據預處理,設備缺陷數據經過清洗轉換后,在數據中臺分析域內進一步生成各類數據中間表,用以描述或分析設備主數據和業務流程數據,經過數據預處理可以滿足業務監測、狀態評估、預測分析和場景可視化展示等應用的需要。
本文選取某地市公司100臺35kV及以上主變壓器、1000臺10kV及以上斷路器在2016年-2020年的設備主數據和缺陷管理業務流程數據。樣本數據主要來源于市公司數據中臺中集成的ERP系統、PMS系統、OMS系統、EMS系統、GIS系統和用電采集系統中的共享數據。首先,通過規定統一的數據格式和業務判據,實現多源異構數的初步融合。其次,通過缺失數據插值補充替代、異常數據擬合替代等操作后,基本消除數據的不完整和噪聲毛刺。最后,根據設備質量提升應用場景的需求,生成設備基礎檔案、設備運行數據、設備空間拓撲、設備缺陷記錄、檢修運維成本等數據中間表。為下一步的數據分析挖掘做好充分的準備工作。
在企業級數據中臺,應用開源可視化組件庫和數據透視設計器METABASE,將篩選、排序和分類匯總等操作依次完成,實現可自定義地搭建多維數據透視業務場景。多維數據透視功能既能對數值數據進行分類匯總、按分類和子分類對數據進行匯總,又可以快速、交互式地匯總大量數據。
本文對某地市公司的主變壓器和斷路器開展了多維數據透視分析,實現了橫向分析、縱向分析、成分分析、穿透查詢等功能,可以滿足不同層級、不同崗位人員在進行決策、管理、生產、支撐保障等工作時的需要。多維數據透視還可以深入關聯分析數值數據,收獲一些預先未曾設想到的成果。
時間序列分析的特點在于:可以逐次地觀測不獨立的觀測對象,并且分析觀測對象發生的時間順序,通過曲線擬合和參數估計來建立數學模型[16-17]。當被觀測對象相關時,未來的數值可以由過去觀測資料來實現預測,同時,也可利用觀測數據之間的自相關性建立相應的數學模型來描述客觀現象的動態特征[18-20]。正因為時間序列分析的特點比較符合設備缺陷具有趨勢性發生、季節性波動、受隨機事件波動的規律,所以利用時間序列模型來分析設備缺陷具有較好的分析和預測效果。
本文根據設備缺陷記錄信息帶有時間戳的特點,生成設備缺陷時間序列表,并采用時間序列算法進行模型訓練,以獲取設備缺陷在近幾年的發生趨勢,各個季節的季節性趨勢以及受隨機事件影響的波動性趨勢,并對未來幾個月的發生趨勢進行擬合預測分析。
自然語言識別處理(NLP)中有一塊很重要的部分就是文本挖掘,是文本自然語言的一種展現形式,也是目前海量數據的主流展現方式。現在Google和百度也會采用主流的分詞算法TF-IDF進行文本關鍵信息提取[21-23]。
TF-IDF算法的表達式為:

其中,wdt為特征項t在文本d中所占的權重,tfdt為特征項t在文本d中出現的頻率,lg是以10為底的對數,N為全量文本信息中的總數,nt為文本語料庫中包含特征項t的文本數[24-25]。
本文對于設備缺陷文本類信息的提取,主要步驟包括對原始填寫記錄的文字切分、關鍵信息提取和詞云展示。首先,應用Python軟件Jieba分詞包進行文本分詞,將缺陷描述的文本信息按詞性切割成名詞、介詞、形容詞、動詞等常見詞組,根據導入的電力專業常用詞庫進行關鍵詞切分。然后,再使用TF-IDF算法對主變壓器,斷路器的缺陷文本關鍵詞進行權重計算,并提取出設備類型、故障原因、故障部位、設備型號、介質材質、所屬電站、生產廠家等關鍵字。最后,應用Python軟件詞云功能包wordcloud對TF-IDF算法提取出的關鍵字進行自適應的可視化處理,實現設備缺陷文本關鍵信息的快捷可視化展示[26-28]。
3.1.1 主變壓器缺陷多維分析
以某市公司2016年-2020年35kV以上主變壓器缺陷數據分析為例,通過對設備缺陷數據按設備生產廠家進行分類匯總,可以發現缺陷數量排前5的生產廠家分別是A公司(17.82%),B公司(14.60%),C公司(11.79%),D公司(11.67%),E公司(9.63%),五者合計占比達65.51%,如圖1所示。

圖1 主變壓器缺陷廠家分布Fig.1 Distribution of main transformer defect manufacturers
再以A、B兩家生產廠家為研究對象,對缺陷原因子類進行分類匯總,進一步下鉆分析缺陷現象及相關原因,如圖2所示。通過充分挖掘電力數據中蘊含的信息,可以針對性地指導生產廠家做好工藝質量、設計選材等方面的提升。

圖2 A公司主變壓器缺陷情況Fig.2 Defects of main transformer of Company A
關聯分析兩家廠家的主變缺陷數據,發現在2016年-2020年,A公司主變缺陷與設備比為1.46∶1,其中漏油和銹蝕相關缺陷達到60%,B公司主變缺陷與設備比為1.008∶1,主要缺陷為漏油滲油、銹蝕、污穢等缺陷,比例達66%,總體上看B公司設備表現優于A公司。
3.1.2 斷路器缺陷多維分析
以某市公司2016年-2020年10kV及以上斷路器為例,通過對設備缺陷數據按設備生產廠家進行分類匯總,可以發現缺陷數量排前5的分別為A公司(17.58%),B公司(15.1%),C公司(9.68%),D公司(7.41%),E公司(4.11%),五者合計(53.88%),如圖3所示。

圖3 斷路器廠家缺陷情況Fig.3 Defects of circuit breaker manufacturers
再以A、B兩家生產廠家為研究對象,對缺陷原因子類進行分類匯總,進一步下鉆分析缺陷現象及相關原因,如圖4所示,應用大數據技術有效發現設備零件短板,促進設備質量提升。

圖4 A公司斷路器缺陷情況Fig.4 Defects of circuit breaker in company A
關聯分析2016年-2020年兩家廠家的斷路器缺陷數據,可以發現:A公司發生斷路器危急嚴重缺陷66次,主要缺陷為各種原因導致開關無法合閘(開關變形、傾斜、卡死、拒分拒合等,占比28%)、指示器計數器異常(失靈、不正確、偏位或不清等,占比22%);B公司發生斷路器危急嚴重缺陷52次,其中指示器計數器異常占比超過30%,無法合閘與機構箱老化進水問題分別占比為15%與10%,老化進水問題占比相較其他公司占比較高。以上問題均已反饋廠家,要求其做好產品質量的提升整改。
本文對2016年-2020年某市公司主變、斷路器缺陷數據應用時間序列模型開展了分析挖,及時掌握設備缺陷數據的變化規律,并對設備缺陷發生開展預測分析,為有針對性地制定設備檢修計劃、提供設備質量提供參考依據。主要處理步驟包括:平穩性檢驗、自相關-偏相關系檢查、歷史數據分解分析、模型參數調整和模型預測。
(1)平穩性檢驗
應用Python軟件statsmodels分析包,對主變、斷路器缺陷數量按時間序列開展平穩性檢驗,關系如圖5所示,從樣本數據時序圖可以明顯地看出,它具有長期趨勢成分和年周期變化成分,所以可認為是非平穩的序列。

圖5 缺陷時序數據示意圖Fig.5 Schematic diagram of defect timing data
(2)自相關-偏相關系檢查
基于statsmodels分析包,對樣本數據建立自相關-偏相關系數圖,通過觀察圖6可以發現,樣本數據缺陷數量的自相關-偏相關系序列具有快速衰減的特性,顯示該序列為非純隨機序列,即是該序列包含著相關信息,序列的歷史信息對未來趨勢有影響,因此具有非常高的研究價值。

圖6 自相關-偏相關系數示意圖Fig.6 Schematic diagram of autocorrelation-partial correlation coefficient
(3)歷史數據分解分析
所謂歷史數據分解分析就是將時序數據分離成不同的成分。使用python軟件,調用statsmodels分析包,應用seasonal_decompose模型算法,將一組連續的時間序列數據分解成長期趨勢、季節趨勢和隨機成分,三者關系為:時序數據=長期趨勢+季節趨勢+隨機成分,圖7為樣本數據的周期性分解情況。

圖7 周期性分解示意圖Fig.7 Schematic diagram of periodic decomposition
(4)模型參數調整
為進一步提高時間序列模型對歷史數據的擬合準確度、對未來預測的準確,依據BIC準則,校驗該模型的p,q值,通常認為BIC值越小的模型相對更優。BIC準則,它綜合考慮了殘差大小和自變量的個數,殘差越小BIC值越小,自變量個數越多BIC值越大。本課題在實踐過程中,經比較選擇p=0,q=1為最理想階數。
(5)模型預測
對分解出來的趨勢部分單獨調用statsmodels分析包內的Arima模型做訓練,預測出趨勢數據后,加上周期數據即作為最終的預測結果,誤差高低區間的設定來自剛剛分解出來的殘差residual數據,然后對2020年后續數據進行預測,圖8所示。經實際驗證,2021年1月某市公司的設備缺陷預測值為57,實際值為59,偏差率3.39%,在合理范圍內。

圖8 時序數據預測示意圖Fig.8 Schematic diagram of time series data prediction
在實際生產活動過程中,輸變電設備缺陷描述信息通常是由現場人員根據實地觀察、經驗判斷后用通俗易懂的文字對各種現象進行描述記錄的,由于用詞習慣、句子組織結構的差異,傳統數據計算方式無法快速提取重點信息。同時,在文本信息數量持續不斷增長的情況下,人工閱讀文字獲取信息的效率低,還會發生信息提取不夠精準、信息遺漏等問題。
本文應用了NLP自然語言識別技術,對2016年-2020年某地市公司主變、斷路器缺陷記錄內的文本描述信息開展挖掘分析,結合文本信息提取與可視化技術將大量文本中的復雜文字內容和規律用視覺符號表達出來,使人們能夠快速獲取到文本中蘊含的關鍵信息。
自然語言識別主要步驟包括:構建設備缺陷信息字典、創建中文停詞詞典、創建詞模型矩陣、提取關鍵詞信息、詞云可視化展示,如圖9所示。

圖9 設備缺陷文本分析示意圖Fig.9 Schematic diagram of text analysis of device defects
(1)構建設備缺陷信息字典
根據設備主數據信息,構建設備缺陷信息詞典,包括電站名稱、設備回路名稱、缺陷分類、零部件、廠家名稱、型號等專業詞匯,使軟件可以自動識別并提取。
(2)創建中文停詞詞典
根據實踐情況,在Jieba分詞包中,補充創建設備缺陷描述中文停用詞詞典,去除各地區的常用停用詞(虛擬詞,語氣助詞,副詞,符號,一個字的詞……)。
(3)創建詞模型矩陣
使用Python軟件,調用sklearn中tf-idf算法將文本中的詞語轉換為詞頻矩陣,計算詞頻大于2的詞語相似度,相似度高的詞語可以在上下文中替換并合并統計結果,替換原始矩陣后文本預處理完成。
(4)提取關鍵詞信息
通過TfidfTransformer類中fit_transform()方法統計每個詞語的tf-idf權值,進行關鍵詞提取。
(5)詞云可視化展示
對設備缺陷關鍵詞按頻度統計分析,并通過詞云可視化技術進行展示。
圖10是通過對主變故障文本記錄進行分詞處理、詞頻統計、布局設計和實現后得到的關鍵詞云,反映主變故障主要圍繞“儲油柜”,“冷卻器”,“呼吸器”這些關鍵詞,應對相關的設備零件加強監測。采用這種手段在信息獲取效率和準確度方面具有明顯優勢,是一種十分簡潔、直觀又有效的非結構性文本數據的挖掘方法。

圖10 設備缺陷信息詞云展示圖Fig.10 Display diagram of word cloud of device defect information
通過對電力設備缺陷進行大數據分析研究,本文研究的數據分析方法在實際應用中具有以下實際意義:
(1)電網公司基于設備缺陷數據融合與挖掘技術,對各類設備檔案數據、業務數據、非結構化數據進行整合并提取有價值的信息,助力設備缺陷的精準高效管理,促進設備質量提升,夯實電網本質安全基礎。
(2)應用METABASE數據開源透視圖工具,從多個維度綜合分析電網內主變、斷路器等主設備的運行狀況,對開關拒動、主變漏油等危急嚴重缺陷的有效跟蹤監測,客觀提示主要設備的問題短板,反饋給設備廠家,精準指導設備質量持續改進,有效消除各類電網安全隱患。
(3)創新應用時間序列算法,從長趨勢、周期趨勢、隨機因素三個維度分析了設備缺陷發生的規律,初步實現了對設備缺陷情況的預測,有針對性地加強了設備質量管理。
(4)基于自然語言識別技術,從海量非結構化數據中提取出與設備缺陷高度相關的文本信息,大幅度提升了文本數據的利用效率。
本文詳細介紹了基于多維數據透視、時間序列模型、自然語言識別分析等3種大數據分析方法,并結合工作實踐開展了面向設備質量提升的電力設備缺陷大數據分析研究,為廣大讀者在實際生產中處理相關問題提供了參考。