999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ResNet-BiLSTM 模型的電力客服工單分類研究

2022-11-18 14:01:46黃秀彬許世輝何學東
電子設計工程 2022年22期
關鍵詞:語義單詞分類

黃秀彬,許世輝,趙 陽,居 強,何學東

(1.國家電網有限公司客戶服務中心,天津 300306;2.北京中電普華信息技術有限公司,北京 100031)

電力系統客服是供電企業和電力客戶間的溝通橋梁,可為電力客戶提供高效便利的服務。電力客服工單數據能夠記錄電力客戶在用電過程中的需求、建議和意見,分析工單數據能夠有效地定位用戶類別,并且有利于提升用戶體驗。目前的工單數據分類方法,主要由專業的調查人員對工單數據進行數據分析,從而判別工單數據對應的服務類別。但是這種方法在分析大量的工單數據時存在效率偏低的問題,這會影響到電力系統的高效運轉和快速發展。因此,找到一種智能,高效和準確的工單分析方法對于電力客服系統十分關鍵。

近年來,電力客服工單分析任務得到了許多研究人員的關注,并取得了一些成果。湯寧[1]通過提取詞頻特征并建立了基于K 最近鄰(K-Nearest Neighbor,KNN)及支持向量機(Support Vector Machine,SVM)的工單分類模型。林溪橋及其團隊[2]提出一種基于主成分分析的工單分類方法。楊柳林及其團隊[3]使用TF-IDF(Term Frequency-Inverse Document Frequency)算法得到詞頻特征,再通過K-means 聚類算法得到工單分類的結果。武光華等[4]提出一種改進 的TF-IDF 算 法SI-TFIDF(Semantic Influence-Term Frequency Inverse Document Frequency),通過構建LDA(Latent Dirichlet Allocation)模型獲得詞向量的權重。以上基于淺層機器學習的工單分類方法雖然具有易于實現和訓練快速的優點,但這些模型的特征學習能力和泛化能力往往欠缺。

為解決淺層機器學習模型存在的問題,研究者采用了基于深度學習的神經網絡模型對分類任務進行研究。目前卷積神經網絡(Convolutional Neural Networks,CNN)[5]和雙向長短時記憶網絡(Bilateral Long-Short-Term Memory network,BiLSTM)[6]被廣泛應用于文本識別[7]、語音識別[8]和情感識別[9]。CNN 的優勢在于強大的局部信息提取與學習能力,但其在全局信息學習上存在缺陷[10]。深層的CNN 能夠更好地挖掘樣本包含的信息,但深層卷積網絡較難獲得有效的訓練[11]。殘差網絡(Residual Convolutional Network,ResNet)可以在提升網絡模型深度的同時保證訓練效率。BiLSTM 的優勢在于能夠對特征間的上下文關聯信息進行學習,能夠挖掘文本信息中的深層語義信息,提升識別性能[12]。因此,該文提出了一種基于ResNet-BiLSTM 的電力客服工單分類模型,該模型利用殘差網絡學習句內的細節特征,再通過BiLSTM 學習句間的上下文關聯信息,最終得到工單的類別預測結果。

1 算法概述

1.1 Word2Vec詞嵌入算法

文本的稀疏編碼可將眾多的單詞映射到一個共享空間,但是當詞庫中的單詞類別很多時,會導致“維數災難”。為此,Mikolov 及其團隊[13]提出了Word2Vec 框架來對單詞進行編碼,如圖1 所示。假設當前單詞的上下文表示為V=[v1,v2,…,vc]∈R^(c×D),其中D表示詞向量的稀疏表示的維度,c表示上下文單詞的數量。Word2Vec 利用共享的線性映射得到低維的隱含表示Vh∈R^(c×V),其中V表示降維后的詞向量維度。最終在Vh的數量維度上進行平均得到Vo∈R^V,即降維后的當前單詞的詞向量表示。Word2Vec 不僅是一種有效的降維方法,而且考慮了單詞間的上下文關聯,因此Word2Vec 不僅能夠避免“維數災難”問題而且還可以減輕語義鴻溝帶來的問題。

1.2 殘差卷積網絡(ResNet)

何凱明及其團隊在2016 年機器視覺頂會CVPR上提出ResNet[14],用以解決網絡層數增加帶來的梯度爆炸、梯度消失以及隨網絡層數增加正確率退化的問題[15]。ResNet 的殘差連接形式如圖2 所示,輸出的期望映射H(x)被表示為殘差F(x)與恒等映射x的和。模型學習殘差的收斂速率要比傳統網絡結構更快且訓練誤差更小。因此,選擇ResNet結構能夠使模型更高效地學習到魯棒性強的深層語義特征。ResNet-18 是ResNet 的經典架構之一,其網絡結構如圖3 所示。ResNet-18 網絡中的第一個卷積層采用了64 個7×7 卷積核的結構,階段1 至階段4 采用了3×3 卷積核的結構,并且階段1 至階段4 的卷積核數量分別為64、128、256 和512,每經歷一個階段后會經過一個2×2 的池化層來縮小特征圖的大小。ResNet-18 網絡中的激活函數全部采用Relu 函數,并且Batch Normalization 應用于每個卷積層之后。

1.3 雙向長短時記憶網絡(BiLSTM)

長短時記憶網絡(Long-Short-Term Memory network,LSTM)的門控制和記憶細胞有效改善了循環神經網絡(Recurrent Neural Network,RNN)的梯度消失和梯度爆炸問題[16]。但是LSTM 只能利用過去和當前的信息來對此時間進行預測,無法利用后續的信息進行預測。對于文本分類任務,文本的上下文關聯對于分類結果至關重要。因而,可以學習雙向語義相關信息的BiLSTM 被廣泛應用于文本語義識別[13]。BiLSTM 的輸入門、遺忘門、輸出門和記憶細胞的更新公式可表示為:

其中,式(1)、(2)和(3)對應于輸入門、遺忘門和輸出門的公式,σ(·)表示sigmoid 激活函數,tanh(·)表示tanh激活函數,Wi、Wf、Wo對應于每個門的權重,bi、bf、bo為每個門的偏置項,Yt-1表示(t-1)時間步的輸出,Xt表示t時間步的輸入,C'表示狀態變量,Ct-1表示(t-1)時間步的記憶細胞,Ct表示t時間步的記憶細胞。

其中,Yt表示t時間步的輸出。BiLSTM 將雙向的最后一個時間步的輸出Yleft和Yright進行拼接,并進行最后的輸出預測。

其中,Y為對Yleft和Yright拼接后的輸出,表示經過激活層后BiLSTM 的最終輸出結果。

2 模型框架與算法設計

該文針對電力客服工單分類設計的ResNet-BiLST 模型主要包括三個部分:Word2Vec 詞嵌入、ResNet 語義學習網絡和BiLSTM 上下文關聯學習網絡,如圖4 所示。每個工單中的N個語句,分別經過Word2Vec 對句內的每個單詞進行詞嵌入處理,并將句中每個單詞的詞向量拼接成語義矩陣X=[X1,X2,…,XN]。每個句子對應的語義矩陣分別輸入至ResNet來學習深層次的語義特征。然后將每句提取的深層語義特征輸入至BiLSTM 的不同時間步,通過BiLSTM 學習句間的上下文關聯信息。最后,將BiLSTM 的兩個方向特征[Xleft,Xright]進行拼接,得到最終預測結果。

3 模型框架與算法設計

3.1 實驗環境

網絡的實現是通過pytorch 深度學習框架實現,運行環境為CPU Intel Core i7-9700F、GPU NIVIDA GTX1060 以及Windows10 64 位操作系統。

3.2 數據預處理

實驗數據全部來源于電網客服中心記錄的數據,該數據記錄了客戶對電網的需求、建議和意見。并且每條工單以文本的形式記錄,共分為咨詢(C1)、故障報修(C2)、服務申請(C3)、舉報(C4)、表揚(C5)和意見與建議(C6)六類。所有的數據進行了句停頓劃分和數據清洗等預處理操作。最終將全部數據按比例9∶1 劃分為訓練集和測試集,并進行十折交叉驗證。

3.3 網絡的超參數設置

Word2Vec 詞嵌入算法的隱含層神經元個數設置為100,詞向量的維度設置為200。ResNet 網絡的架構選取為ResNet-18,BiLSTM 隱含層為2,每層的神經元個數分別為64 和32。另外訓練參數設置如表1 所示,正確率和宏-F1 分數將用來評價客服工單多分類任務的性能。

表1 訓練超參數設置

3.4 實驗結果與分析

所提出的ResNet-BiLSTM 在測試集上六類工單分類的正確率和宏-F1 分數如表2 所示。根據表2的實驗結果ResNet-BiLSTM 取得了90.8%的平均正確率和0.889 的宏-F1 分數,證明了所提出的模型能夠準確地對工單數據進行分類,并且對于表揚(C5)類別的識別正確率最高,達到96.5%,但是對于舉報(C4)識別正確率最低,只有84.0%。這可能是由于舉報(C4)容易被誤分類至咨詢(C1)或故障報修(C2)等反饋中。

表2 ResNet-BiLSTM的工單分類結果

在對比實驗中,將所提出的模型與TextCNN,BiLSTM 和ResNet 模型在分類性能上進行對比,其結果如表3 所示。通過表3 的結果可知,所提出的ResNet-BiLSTM 取得最高的分類性能,相較于其他三種模型分別提升了1.6%,6.2%和10.6%。這是由于所提出的模型,不僅使用ResNet 學習句內的語義信息,還使用了BiLSTM 對句間的上下文關聯信息進行了有效地學習,進而提升了模型對工單分類性能。

表3 不同網絡模型的性能比較

最終,對上述四種模型的訓練及測試的時間復雜度進行對比,結果如表4 所示。所提出的模型雖然在訓練時間上速度慢,但是其在測試階段仍要優于主流的文本分類模型TextCNN,說明所提出的模型在實時性能方面存在一定的優勢。

表4 所有網絡模型的時間復雜度對比

4 結束語

該文對電力客服工單數據的分類進行了研究,所提出的ResNet-BiLSTM 對工單數據的句內語義和句間上下文關聯信息進行了有效地建模。通過Word2Vec 得到詞向量并將每一句中的詞向量拼接成語義矩陣,再通過ResNet 對句內的語義特征進行學習,并將得到的深層次語義特征輸入至BiLSTM 來進行句間上下文關聯的表征。所提出的模型在真實電力客服工單數據上的分類準確度達到90.8%,高于對比模型。且ResNet-BiLSTM 相較于對比模型在分類性能和時間復雜度方面都具有一定的優勢,能夠保證其在線性能的穩定。在下一階段的研究中,將重點關注模型的輕量化,提升工單分類模型的在線性能。

猜你喜歡
語義單詞分類
分類算一算
語言與語義
單詞連一連
分類討論求坐標
數據分析中的分類討論
看圖填單詞
教你一招:數的分類
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
最難的單詞
主站蜘蛛池模板: 在线视频亚洲色图| a毛片在线播放| 欲色天天综合网| 日韩一级毛一欧美一国产| 欧类av怡春院| 国产区精品高清在线观看| 亚洲天天更新| 91av成人日本不卡三区| 久久久精品久久久久三级| 亚洲成A人V欧美综合天堂| 老司机久久精品视频| 国产真实自在自线免费精品| 中文字幕无码电影| 精品国产乱码久久久久久一区二区| 97久久精品人人做人人爽| 最新国产网站| 露脸国产精品自产在线播| 亚洲v日韩v欧美在线观看| 日本AⅤ精品一区二区三区日| 久草视频一区| 国产女人18毛片水真多1| 又粗又大又爽又紧免费视频| 欧美午夜小视频| 精品国产网| 欧美精品v欧洲精品| 日本成人一区| 免费观看精品视频999| 九色综合伊人久久富二代| 免费A∨中文乱码专区| 一级黄色网站在线免费看| 国产欧美日本在线观看| 亚洲狼网站狼狼鲁亚洲下载| 中文字幕永久在线看| 日韩欧美国产中文| 亚洲熟女中文字幕男人总站| 亚洲国产欧美目韩成人综合| 四虎永久在线视频| 国产网友愉拍精品视频| a欧美在线| 毛片久久网站小视频| 日本黄色a视频| 午夜视频免费试看| 99这里精品| 在线免费看片a| 日韩欧美在线观看| 9999在线视频| 青青草原偷拍视频| 综合色亚洲| 日韩高清成人| 丰满人妻中出白浆| 玖玖精品在线| 国产在线自乱拍播放| 国产精品网址你懂的| 亚洲第一中文字幕| 精品视频一区在线观看| 欧美日韩福利| 亚洲欧美另类久久久精品播放的| 欧美三级视频在线播放| 欧美成人手机在线观看网址| 国产精品免费入口视频| 国产精品深爱在线| 综合亚洲网| 国产一区二区免费播放| 免费在线看黄网址| 国产自在线播放| 亚洲视频影院| 欧美成人国产| 精品一区二区三区水蜜桃| 无码中文字幕精品推荐| 一本一道波多野结衣一区二区 | 亚洲成a人片在线观看88| …亚洲 欧洲 另类 春色| 欧美日韩激情| 97狠狠操| 亚洲欧美一区二区三区麻豆| 国产91蝌蚪窝| 亚洲国产中文在线二区三区免| 最新日本中文字幕| 日韩乱码免费一区二区三区| 被公侵犯人妻少妇一区二区三区 | 国产精品一区在线观看你懂的| 国产小视频在线高清播放|