999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

變電站設備缺陷文本數據挖掘及其應用

2022-01-18 06:24:04胡東林陳偉楊鑫張鵬桑江艷
云南電力技術 2021年6期
關鍵詞:數據挖掘分類文本

胡東林,陳偉,楊鑫,張鵬,桑江艷

(云南電網有限責任公司昆明供電局,云南 昆明 650011)

0 前言

數據挖掘(DataMining,DM)是當前人工智能、機器學習領域研究的熱點,是指從大量數據中發現隱含的具有潛在價值信息的過程,旨在讓計算機根據已有數據進行歸納推理,做出正確的決策。隨著計算機及通信網絡的不斷發展,智能電網建設的不斷推進以及新能源的接入,電力企業在生產、營銷等領域的各個環節積累了海量的數據。充分利用數據資源,開展數據挖掘是電力企業實現精益化管理,提升綜合競爭力的重要手段。

在大數據處理中,規模和復雜性之間往往會有一個平衡點,Python語言便是一種折中方案。Python是一種通用型編程語言,具有優雅、簡潔、高效的特點,且簡單易學,有著豐富的第三方庫。從數據采集、分析一直到應用開發層面都有比較成熟的庫,使用Python語言進行開發,無需關注過多語言細節,可以將主要精力放到業務本身[1],適用于Linux、Mac、Windows系統,可移植性極強。

1 變電站設備缺陷數據及特點

變電站的正常運行是保證電網安全穩定的基礎,與國計民生息息相關,變電運行人員通過信號監測、倒閘操作、定期巡視、特殊巡視等工作來保障變電站設備的正常運行,在工作過程中積累了大量的設備缺陷數據。這些缺陷數據是設備狀態的“晴雨表”,對變電站設備運行狀態分析以及設備全生命周期管理有著至關重要的意義。

設備缺陷是指生產設備在制造運輸、施工安裝、運行維護等階段發生的設備質量異?,F象,按照嚴重程度分為緊急缺陷、重大缺陷、一般缺陷和其他缺陷[2]。

南方電網公司資產管理系統中保存的缺陷文本信息包含“發現時間”、“缺陷設備”、“缺陷等級”、“缺陷表象”、“缺陷描述”等47個類目,涵蓋了從發現缺陷到處理閉環的整個流程,除了“缺陷描述”、“遺留問題”、“處理情況描述”、“備注”等四個類目,其余類目均可以從系統中進行模塊化選擇,便于下一步的缺陷信息統計和分析。由于現場設備種類繁多,缺陷情況各不一樣,僅通過模塊化選擇無法完全涵蓋缺陷信息,故“缺陷描述”、“遺留問題”、“處理情況描述”需要手工輸入。這些信息以中文短文本為主,包含英文字詞、希臘字母、數字、符號等多種樣式,不能直接按常規的結構化數據挖掘技術進行分析。國外有學者運用機器學習的方法,對紐約電網海量歷史缺陷數據進行挖掘,進而為電力設備故障預測和維修提供相關依據[3]。相較于英文單詞組成的文本,中文文本的詞與詞之間并無明顯分界,存在著多歧義、分詞難等特點,使得缺陷數據內容沒有充分挖掘。

為實現更深層次的信息挖掘,本文以變電站設備缺陷描述文本為研究對象,充分挖掘設備缺陷信息。首先,人工建立自定義詞典,對缺陷文本進行分詞,進行TF-IDF值統計,生成詞云;其次,通過對大量缺陷文本進行機器學習,采用SVM聚類算法,建立缺陷等級預測模型,實現對缺陷的定級預測,為缺陷數據的信息挖掘提供了另一種思路,基本流程如圖1所示。

圖1 缺陷文本數據挖掘流程圖

2 設備缺陷數據處理及分析

2.1 數據采集

本文抽取2020年期間已歸檔的1017條缺陷進行分析。

2.2 數據預處理

針對收集的缺陷數據進行初步處理,使其能夠被計算機識別,是數據挖掘的基礎,內容如下。

1)分詞

本文采用隱馬爾可夫模型(hiddenMarkov model,HMM)進行分詞,隱馬爾可夫模型是可用于標注問題的統計學習模型,在語音識別、自然語言處理、模式識別等領域有著廣泛的應用[4]。jieba分詞庫是Python的一個第三方庫,采用了基于漢字成詞能力的隱馬爾可夫模型,并使用Viterbi算法。本文使用jieba分詞庫將“缺陷描述”類目中詞與詞之間用空格分開,便于后期數據分析。

2)構建自定義詞典

結果初步分詞后發現,雖然jieba分詞庫對一般常見詞匯分詞效果較好,且具有一定的新詞識別能力,但對電力領域特有名詞以及相關故障涉及詞匯分詞能力不足。通過參考中國南方電網有限責任公司缺陷管理辦法、設備缺陷定級標準及相關規程,對常見電力設備、部件、缺陷涉及詞匯以及線路名稱進行錄入,提升分詞準確率。編制Python程序對每一條缺陷描述進行分詞處理,根據缺陷定級分類保存至“緊急”、“重大”、“一般”、“其他”缺陷文件夾,作為語料庫。其中抽取11月20日前919條數據作為訓練集,剩余98條數據作為測試集。

表1 是對單條缺陷描述的分詞效果示例,為使顯示更加直觀,采用符號“/”作為示例中的分詞間隔符??梢钥闯?,在導入自定義詞典后,分詞效果有明顯提升,電流互感器、二次接線盒等專業名詞已經能夠被區分出來,有利于后期統計分析。

表1 分詞效果示例

3)關鍵詞及TF-IDF統計

采用TF-IDF算法對每個詞進行詞頻統計,從而得出關鍵詞進行研究分析。TF-IDF算法是一種統計方法,其主要思想是:詞語的重要性隨著它在文檔中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。詞頻(TermFrequency,TF)是指某個詞或短語在文檔中出現的頻率,逆文檔頻率(InverseDocumentFrequency,IDF)是詞語普遍重要性的度量,如果包含詞語的文檔數量越少,則IDF值越大,則說明該詞具有很好的類別區分能力。某一特定文件內的高詞語頻率,以及該詞語在整個語料庫中的低文件頻率,可以產生出高權重的TF-IDF。

計算公式為:

其中,

式(1)中,tfij為詞頻,ni,j為詞語ti在文檔dj中出現的次數,Σknk,j為文檔dj的所有詞語數量之和,式(2)中,idfi為逆文檔頻率,|D|為語料庫中的文檔總數,|{j:ti∈dj}|為包含詞語ti的文件數量。

抽取前5名關鍵詞如表2所示:

表2 前5名關鍵詞匯及TF-IDF值

2.3 生成詞云

詞云是指對文本中出現頻率較高的關鍵詞予以視覺上的突出,并過濾掉大量無關的文本信息,使瀏覽者第一眼就能抓取關鍵詞。根據得到的關鍵詞及TF-IDF值,利用Python的第三方庫wordcloud,對語料庫中的關鍵詞進行渲染,予以視覺上的突出,選取前200個關鍵詞,生成詞云,如圖2所示。

圖2 缺陷文本詞云效果

3 設備缺陷定級預測模型

3.1 模型建立

本文采用支持向量機(supportvectormachine,SVM)進行缺陷定級預測。SVM建立在計算學習理論的結構風險最小化原則之上。其主要思想是在兩類分類問題方面,從高維空間中尋找一個超平面,以作為兩類的分割面,從而保證最小的分類錯誤率。而且支持向量機一個重要的優點是可以處理線性不可分的情況。支持向量機是一種功能強大的分類器,一旦得到了正確的參數,與貝葉斯分類器、決策樹分類器、神經網絡、k-最近鄰算法相比,有可能會不相上下或更勝一籌[6]。在運算速度方面,接受訓練后,SVM只需判斷坐標點位于分界線的哪一側即可,從而對新的觀測數據進行分類時速度極快。采用SVM定級預測流程如圖3所示。

圖3 SVM預測定級流程圖

編制缺陷定級預測程序,對選取測試集中某一條文本進行缺陷定級預測,效果如表3所示:

表3 設備缺陷定級預測示例

現場人員只需要將設備缺陷描述輸入,計算機程序便能夠根據訓練集進行特征提取,并將輸入文本與之進行比對,迅速輸出缺陷等級,用作現場參考,從而提高現場缺陷定級的速度,提升工作效率。

3.2 模型評估

本文研究了分詞前后的模型分類性能參數,生成SVM分類器性能指標(表4、表5)以及SVM分類結果的混淆矩陣(表6、表7)。

表4 SVM分類性能指標(分詞前)

表5 SVM分類性能指標(分詞后)

在性能指標參數中,precision表示準確率,計算公式為:

式中,TP表示被識別為該分類的正確記錄數,TP+FP表示實際被識別為該分類的記錄數。

recall表示召回率,計算公式為:

式中,TP+FN表示應被識別為該分類的記錄數f1-score是準確率和召回率的調和均值,計算公式為:

Support表示測試集中該分類的記錄總數。

從表4、表5對比可分析出,通過分詞后,SVM分類器性能(準確率、召回率、f1-score)總體得分均有提升。

表6 、表7中是SVM分類結果的混淆矩陣表示(其中橫縱名稱相同的單元格為分類正確數量),因為用于測試的缺陷有“緊急”“重大”“一般”“其他”個4類別,所以是一個44的矩陣,每一行的所有數字之和表示測試集中該分類的記錄總數,等于表4、表5中的support值。進行分詞后,SVM分類器對測試數據在一般、其他、緊急缺陷的分類上均有提升,但在重大缺陷分類上正確分類數量有所下降。

表6 SVM分類混淆矩陣(分詞前)

表7 SVM分類混淆矩陣(分詞后)

結合SVM分類性能指標和混淆矩陣可看出,除了重大缺陷正確分類數量下降了3條,其他指標均得到了明顯優化。隨著語料庫的豐富和自定義詞典的不斷完善,預測效果將會得到進一步提升。

4 結束語

1)研究了一種從歷史設備缺陷文本中獲取關鍵詞的方法,并根據TF-IDF值大小以詞云的方式進行可視化展現。

2)建立了基于Python的變電站設備缺陷文本數據挖掘模型,有利于現場人員根據缺陷描述快速對缺陷定級。

3)分析了模型指標參數,為下一步優化缺陷文本分類模型、提升分類準確率提供了思路。

4)自定義詞典的錄入不完善,導致還有部分電力領域專業詞匯被錯誤切分,需要不斷增加電力領域特別是變電站設備缺陷的專業詞匯,完善自定義詞庫,提升分詞準確率。

5)研究重點放在設備缺陷信息中非結構化數據的分析,與結構化數據相結合的數據挖掘能力需要進一步提升。

猜你喜歡
數據挖掘分類文本
分類算一算
探討人工智能與數據挖掘發展趨勢
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 亚洲毛片在线看| 亚洲国产日韩欧美在线| 久久人体视频| 亚洲美女一级毛片| 免费a级毛片视频| 国产成人91精品| 99久久国产综合精品2020| 国产精品七七在线播放| 国产午夜一级毛片| 日韩毛片免费观看| 国产v欧美v日韩v综合精品| 成人午夜视频免费看欧美| 午夜无码一区二区三区| 日日噜噜夜夜狠狠视频| 日本高清在线看免费观看| 亚洲欧美精品在线| 久久国产高潮流白浆免费观看| 国产视频a| 久久综合丝袜长腿丝袜| 欧美人与牲动交a欧美精品| 欧美高清国产| 波多野结衣在线一区二区| 日韩无码黄色| 国产亚洲精品无码专| 国产成人综合在线视频| 国产日韩欧美中文| 91福利片| 亚洲国产日韩视频观看| h视频在线观看网站| 中文字幕欧美日韩| 天天躁夜夜躁狠狠躁躁88| 波多野结衣视频网站| 亚洲国产成人精品无码区性色| 中国国产高清免费AV片| 欧美成人二区| 欧美A级V片在线观看| 亚洲婷婷在线视频| 99在线观看国产| 中文字幕首页系列人妻| 97色伦色在线综合视频| 91色国产在线| 国产一级做美女做受视频| 国产国模一区二区三区四区| 日韩毛片免费视频| 中文字幕伦视频| 国产无码性爱一区二区三区| 亚洲成a人片在线观看88| 亚洲一级无毛片无码在线免费视频| 乱系列中文字幕在线视频| 亚洲成A人V欧美综合| 久精品色妇丰满人妻| 国产日韩欧美成人| 亚洲综合香蕉| 免费国产高清视频| 国产欧美中文字幕| 国产在线高清一级毛片| 国产精品第一区| 日韩欧美视频第一区在线观看| 国产第一色| 亚洲第一色视频| 欧美无遮挡国产欧美另类| 幺女国产一级毛片| 欧美日韩午夜| 精品视频一区在线观看| 伊人久久影视| av在线人妻熟妇| 亚洲精品国偷自产在线91正片| 免费看黄片一区二区三区| 超碰色了色| 国产自在线播放| 亚洲一区二区三区麻豆| 国产微拍精品| 色综合热无码热国产| 九九久久精品免费观看| 91精品视频在线播放| 国产爽妇精品| 国产国语一级毛片| 成人久久18免费网站| 欧美成人区| 在线观看网站国产| 成人毛片免费观看| 国产成人一区在线播放|