999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本數據特征識別的電力運營信息模型設計

2023-01-08 16:48:56俞陽鄒云峰康雨萌孫少辰
電子設計工程 2023年1期
關鍵詞:分類特征文本

俞陽,鄒云峰,康雨萌,孫少辰

(國網江蘇省電力有限公司營銷服務中心,江蘇南京 210000)

在電力服務運營過程中,各電網公司積累了海量、多樣化的電力運營數據。這些數據中非結構化數據占80%以上[1-3],如錄音、文本數據等。非結構化數據主要來自于電網公司的客戶服務系統,其文本數據蘊含客戶故障報修、信息查詢、業務辦理等業務需求[4-5]。如何充分利用該文本數據,深入了解客戶的真實需求,對進一步提高供用電服務水平、改善用戶用電體驗均具有重要意義。

基于傳統數據挖掘技術無法實現文本數據的特征分析,因此文本挖掘技術應運而生。文本挖掘技術結合計算機技術、人工智能算法等,實現文本中有價值信息的提取[6-7]。目前,文本挖掘在電力領域的應用主要有電力設備的狀態感知、故障診斷和系統可靠性評估等[8-10],但其在電力運營領域應用較少。

針對此,該文將文本挖掘技術應用于電力運營文本數據的信息處理,以實現電力運營文本分類。同時深入了解電力客戶需求,進而提高電網公司服務水平。

1 電力運營文本數據預處理

電力運營文本數據特征識別的流程框架,如圖1所示。將輸入的文本數據經預處理得到文本數據的中間形式,然后通過文本特征識別模型挖掘文本數據的內在聯系,最終輸出文本特征識別結果。若原始運營文本數據質量差,則將大幅降低對特征識別結果的準確率。因此,文本預處理是進行文本數據挖掘與特征提取的關鍵前置步驟。

圖1 文本數據特征識別流程

1.1 電力運營文本數據特征分析

典型的電力運營文本數據具有以下明顯的特征[11]:文本長度短、專業性強、規范性差、價值密度低。

因此,文本數據的預處理對于剔除電力運營文本信息中的異常數據,過濾無實際意義的文本信息,并最終實現對地點、故障等關鍵特征的提取具有重要意義。該文采用的電力運營文本數據預處理步驟包括:文本清洗和文本分詞。

1.2 電力運營文本數據清洗

電力運營文本數據清洗流程如圖2 所示[12],主要包括以下步驟:剔除空白文本數據、剔除過短文本數據、規則過濾文本數據。

1.3 基于Dijkstra的文本分詞算法

基于迪杰斯特拉(Dijkstra)的文本分詞算法步驟,如圖3 所示[13]。

由圖3 可知,其主要包含以下步驟:

1)構建文本數據的有向無環圖,假設A=a1a2…ai-1ai…aj…an為文本數據,其中ai為單個文字,文本數據共包含n個文字。如圖4 所示,構建的有向無環圖G方法如下:

圖4 文本數據對應的有向無環圖

1)G包含n+1 個節點V0,…,Vn,任意相鄰節點Vi和Vi+1通過有向邊連接,方向從Vi指向Vi+1,該邊對應詞ai,邊的權重值為wi;

2)對于詞典中的詞Bk=aiai+1…aj,則在節點Vi-1與Vj之間增加一條有向邊,方向從Vi-1指向Vj,該邊對應詞Bk,邊的權重值為wk。

2)將文本數據對應的有向無環圖G中的節點劃分為兩類:已知最短路徑的節點與未知最短路徑的節點,分別對應節點集合S和U。將中間向量L={lk},lk表示節點Vk到初始節點V0的最短路徑長度值。

3)初始狀態下,S只包含初始節點V0,U包含節點V1,…,Vn共n個節點。然后從U中篩選到初始節點V0長度值最短的節點Vk,并將節點Vk從U轉移到S,且有:

4)將節點Vk當作中繼節點,繼續在U中搜索到初始節點V0的最短路徑。假設搜索的下一個節點為Vu,則有:

5)判斷是否搜索至目標節點Vg,若為否,則循環步驟3)和步驟4);若是,則退出循環,輸出結果。

2 電力運營信息模型設計

2.1 TF-IDF模型

經過上述電力運營文本分詞,將得到包含文本數據含義的特征項。該文采用詞頻-逆向文檔頻率算法(Term Frequency-Inverse Document Frequency,TF-IDF)來提取這些特征項。TF-IDF 是文本挖掘中常用的基于文本相似的特征提取技術,采用權重來評估單詞、句子甚至文檔的重要性[14]。

TF-IDF 的核心思想是對于一個單詞,其高頻率地出現于某個文本數據中,且該單詞又較少出現在總文本樣本中的其他文本數據中。則可以認為該單詞對于該文本樣本具有較強的區分能力,能夠用作為該文本數據的分類標簽。因此,TF-IDF 算法采用詞頻與逆向文檔頻率之乘積作為權重,其計算方法如下:

式中,TFi,j是單詞i在文本j中的出現頻率,計算方法如下:

IDFi描述的是單詞i在其他文本中出現頻率的倒數,計算方法如下:

式中,D為文本樣本總數,{j:i∈j} 為包含單詞i的文本數量。為了避免所有文本樣本不包含單詞i導致分母為零的情況,通常在{j:i∈j} 的基礎上加1。

2.2 數據處理模型

1)深度學習模型

典型深度學習網絡的結構如圖5 所示,其由輸入層、輸出層和多層隱藏層構成。

圖5 深度學習網絡結構

深度學習網絡通過層層迭代實現信息傳播與特征的學習。層與層之間的關系如下:

式中,zl表示l層的輸入信息;fl-1()表示l-1 層的激活函數;Wl與bl分別為從l-1 層到l層的權重值和偏置值。

2)LSTM 模型

對于處理具有時間序列特征的數據樣本,傳統的深度學習模型適應性較差,因此長短期記憶(Long Short-Term Memory,LSTM)模型由此發展而來,其屬于循環神經網絡(Recurrent Neural Network,RNN)的一種。RNN 的典型網絡結構模型如圖6 所示。其與傳統神經網絡的區別在于隱藏層的輸入由當前時刻的輸入信息和上一時刻隱藏層的輸出信息構成,從而使得網絡具備了記憶功能。

圖6 RNN結構

LSTM 相對RNN 的區別在于LSTM 采用了特殊結構的記憶單元作為循環單元[15-16]。典型記憶單元的結構如圖7 所示。

圖7 LSTM結構

由圖7 可知,LSTM 引入了一個內部狀態ct,計算方式如下:

式中,ft∈[0,1]D、it∈[0,1]D、ot∈[0,1]D分別為遺忘門、輸入門和輸出門的狀態,其實現信息傳輸路徑的控制。為中間狀態,計算方式如下:

上述三個門實現的功能如下:遺忘門實現上一時刻內部狀態遺忘信息的控制;輸入門實現當前時刻中間狀態保留信息的控制;輸出門實現當前時刻內部狀態輸出信息的控制。其計算方式如下:

2.3 信息處理算法

基于上述算法模型,設計了基于TF-IDF-LSTM的電力運營信息處理算法流程,如圖8 所示。將電力運營原始文本作為輸入,然后進行文本清洗、文本分詞等數據預處理操作;進一步基于TF-IDF 算法實現文本數據特征的提取;最終,通過LSTM 模型實現電力運營文本的分類識別。

圖8 電力運營信息處理算法流程

3 算例分析

為驗證該文所提算法的準確性和有效性,文中選取某電網公司在2020 年的10 000 條真實電力運營文本數據作為實驗樣本,并將其以4∶1 的比例隨機劃分為訓練集和測試集。分類結果包括業務辦理、信息查詢、停送電查詢、法律法規、服務質量、停電、電能質量和供電安全共八類。

3.1 電力運營信息處理算法性能對比

選取LSTM、TF-IDF-SVM 兩種算法與該文所提TF-IDF-LSTM 算法進行對比。選取2 000 條測試文本數據,一級分類結果的準確率如表1 所示;二級分類結果的準確率如表2 所示。

表1 一級分類不同算法的性能對比

表2 二級分類不同算法的性能對比

對于一級分類,所提TF-IDF-LSTM 算法的準確率為92.6%,LSTM 與TF-IDF-SVM 算法的準確率分別為84.1%和84.8%;對于二級分類,所提TF-IDFLSTM 算法的分類準確率均大于90%,LSTM 和TFIDF-SVM 算法分類準確率均小于90%。

由此可見,該文所提TF-IDF-LSTM 算法具有更高的分類準確率。這是因為文中所提算法相比于LSTM 算法,通過TF-IDF 算法提取特征信息,實現了分類學習模型的預訓練。相比于TF-IDF-SVM 算法,LSTM 算法通過記憶單元的特殊結構提高了模型的學習能力,從而提升電力運營文本分類結果的準確性。

3.2 電力運營信息處理算法應用效果

將該文所提算法模型應用于該電網公司2018-2020 年中的全部電力運營信息文本,得到的文本分類結果如圖9 所示,縱坐標代表數據量。可以看到在客戶的反饋中,業務辦理、信息查詢和停送電查詢這三類比重較大,占全部業務訴求的91%。對于這三類業務的處理,電網公司可以進一步加大網上業務辦理以及微信查詢等功能的應用推廣。以滿足客戶的業務需求,并減少客服人工資源的投入,提高運營服務水平。

圖9 電力運營文本分類結果

4 結束語

該文開展了文本挖掘技術在電力運營信息中的應用研究,提出了基于TF-IDF-LSTM 的電力運營文本分類方法。通過算例分析表明:文中所提算法相比于僅采用LSTM 算法,能夠通過TF-IDF 算法實現文本特征單詞的預提取,且提高模型的泛化能力;相比于TF-IDF-SVM 模型,采用LSTM 算法具有更高的學習能力,且分類結果更加準確。然而該文僅實現了對電力運營文本的分類,如何結合電力生產的文本數據實現電網故障的精準定位,輔助電力運維業務的智能化,將在未來的研究中展開。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 亚洲国产黄色| 91在线一9|永久视频在线| 免费黄色国产视频| 久草视频中文| 国内丰满少妇猛烈精品播| 99国产在线视频| 日韩在线播放欧美字幕| 亚洲综合第一区| 久久精品亚洲中文字幕乱码| 伊人精品成人久久综合| 国内毛片视频| 国产网站免费看| 久久综合九色综合97婷婷| 精品国产Ⅴ无码大片在线观看81| 狠狠久久综合伊人不卡| 一级毛片不卡片免费观看| 青草视频免费在线观看| 98超碰在线观看| 亚洲精品中文字幕午夜| 精品天海翼一区二区| 日本日韩欧美| 自拍偷拍一区| 国产成人综合久久| 成年片色大黄全免费网站久久| 3p叠罗汉国产精品久久| 免费jjzz在在线播放国产| 无码网站免费观看| 国产va在线观看免费| 日韩福利在线视频| 亚洲无码视频图片| 亚洲欧美在线看片AI| 亚洲国产AV无码综合原创| 草草线在成年免费视频2| 国产亚洲视频中文字幕视频| 自拍欧美亚洲| 麻豆国产在线不卡一区二区| 久久网欧美| 国产精品亚洲va在线观看 | 国产免费好大好硬视频| 亚洲成a人片| www.91在线播放| 91小视频在线观看| 亚洲综合极品香蕉久久网| 亚洲清纯自偷自拍另类专区| 国产小视频在线高清播放| 亚洲欧美在线综合一区二区三区| 国产精品一区二区不卡的视频| 1769国产精品免费视频| 婷婷综合在线观看丁香| 国产精品女熟高潮视频| 亚洲欧美另类中文字幕| 亚洲色欲色欲www在线观看| 亚洲aaa视频| 波多野结衣中文字幕一区二区| 无码在线激情片| 99热这里都是国产精品| 欧美中文字幕一区二区三区| 日韩A∨精品日韩精品无码| 国产成人精品一区二区| 日本在线亚洲| 青青热久麻豆精品视频在线观看| 香蕉视频国产精品人| 色欲综合久久中文字幕网| 欧美国产精品不卡在线观看 | 四虎国产永久在线观看| 99热这里只有精品在线播放| 亚洲美女高潮久久久久久久| 国产成+人+综合+亚洲欧美| 亚洲第一色网站| 99一级毛片| 午夜啪啪福利| 青青操国产视频| 欧美人在线一区二区三区| 成人综合网址| 这里只有精品免费视频| 国产毛片网站| 国产99视频免费精品是看6| 精品日韩亚洲欧美高清a| 欧美一级大片在线观看| 国产精品视频白浆免费视频| a毛片在线| 日韩天堂视频|