999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混沌映射與飛行策略的短文本分類算法

2022-05-10 09:22:14苑津莎張衛華班雙雙
電力科學與工程 2022年4期
關鍵詞:語義分類文本

苑津莎,張 瑾,張衛華,班雙雙

(華北電力大學 電子與通信工程系,河北 保定 071003)

0 引言

隨著信息時代的到來,大數據分析已經應用到了許多生產生活領域。電力系統在運行過程中所產生的歷史數據經過不斷積累,數據規模逐漸擴大。電力客服系統作為電力企業與客戶溝通的橋梁,其工作效率的提高意義重大??头危ㄏ挛暮喎Q,工單)記錄了電力系統在運行中所產生的諸如故障檢修、調度運行、客戶咨詢及投訴、運維記錄等大量數據信息。對工單進行數據分析,對于發現企業內服務系統存在的漏洞具有重要意義。應用文本分類技術將工單數據進行處理,快速準確地分析客戶需求,有助于提升企業工作效率。

傳統的數據分析方法存在信息讀取效率問題。近年來,基于機器學習與深度學習的自然語言處理方法發展快速,且在工單文本分類處理方面得到了大量應用。文獻[1]提出基于循環神經網絡(RNN)的多任務學習框架,設置了3個不同信息共享機制,針對特定任務和共享層的文本建模,并在文本分類任務上驗證了模型的性能。文獻[2]針對電力投訴文本長度差異較大以及強專業性的特點,采用長短期記憶(LSTM)方法提取了電力文本語義特征,再通過卷積神經網絡模型對其進行二次特征提取,有效提高了分類的準確性。文獻[3]利用Word2Vec模型將詞語映射到高維特征空間,通過基于雙向 LSTM 的注意力機制(BiLSTM-attention)對電力設備缺陷文本進行分類。文獻[4]為了提取更具代表性的特征向量,融合文本循環神經網絡(TextRNN)模型和文本卷積神經網絡(TextCNN)模型,并引入注意力機制,解決了TextRNN模型、TextCNN模型的局限性,提高了文本分類的效果。文獻[5]提出了層次語義理解的方法,將工單中的字符、詞建模轉化為描述再進行分類,實現了工單隱藏語義的準確表示。文獻[6]通過使用BERT模型對工單中具有設備缺陷的文本進行預訓練,將生成詞嵌入向量,再利用BiLSTM網絡對該向量進行雙向編碼以提取語義表征,使用注意力機制增強設備缺陷領域的語義權重,提高了該領域文本分類的正確率。

為進一步深入對工單文本進行分析研究,提高工單文本分類的準確性與效率,本文采用BERT模型提取特征向量,盡可能覆蓋輸入文本信息,并利用ELM[7]進行分類。由于ELM的初始權重和偏置隨機產生,故采用收斂速度較快、局部搜索能力較強的麻雀搜索算法[8](SSA)尋找最優初始權重和偏置以提高模型精度。針對SSA算法存在的全局搜索能力較弱、易陷入局部最優的缺點,通過引入Lévy-CSSA算法來克服。

1 短文本分類算法

文本分類的關鍵,在于特征提取以及特征向量的表示。本文采用的BERT模型在表示詞向量時能夠加入上下文的語義信息,還可以減少字詞因無法通過語義區分而出現歧義的情況發生。該模型首先對大量未標記語料進行訓練以獲取包含大量語義信息的文本表示,然后對文本的語義表示進行微調,最終將其用于特定的自然語言處理任務。

1.1 RoBERTa-全詞Mask模型

RoBERTa-WWM[9]模型的輸入量E(E1,E2,···,EN)為工單文本內容;輸入量經過Trm模塊實現文本向量化后,輸出為向量T(T1,T2,···,)。Trm模塊是核心模塊,有多層結構。

RoBERTa-WWM 模型的優點在于其結合了中文全詞掩碼技術以及RoBERTa模型的優勢。全詞掩碼技術的優勢在于其更改了預訓練階段的樣本生成策略,用[Mask]標簽將組成同一個詞的漢字全部進行掩碼,示例如表1所示。

表1 WWM處理樣本示例Tab. 1 Example of sample processing with WWM

RoBERTa模型主要在3個方面進行了優化:(1)優化了 Adam算法的參數。(2)對訓練策略進行了優化。增加了每次訓練所抓取的樣本數量;同時也將靜態掩碼改成了動態掩碼。(3)采用了更大的訓練數據集,并使用了簡單高效的雙字母組合編碼壓縮了自然語言語料庫中的數據。

1.2 極限學習機

在神經網絡算法中,反向傳播(BP)神經網絡[10]的應用非常廣泛。BP學習算法存在學習過程時間消耗過長,在處理經BERT模型提取出的高維特征向量時速度較慢。

ELM是一種具有求解快速特點的新型單隱層前饋神經網絡模型,具有輸入層、隱含層和輸出層3層結構。ELM在計算過程中,首先對輸入層權重和隱藏層偏置進行隨機選取,對于輸出層權重則通過廣義逆矩陣理論計算得到。ELM模型結構如圖1所示。

圖1 ELM結構Fig. 1 ELM structure

在訓練過程中,ELM無需如BP算法那樣不斷反向調整權重和偏置,所以學習速度較快;但其輸入層—隱藏層權重與偏置的隨機取值會影響模型精度,因此最優權重與偏置選取對模型的建立有重要意義。

1.3 結合BERT和改進ELM模型的分類方法

本文提出的模型結構如圖2所示,具體步驟如下。

城市的發展靠大量資本、勞力等外力因素推動,而鄉村的發展必須依靠內生動力。星光村人才輩出,雖然創業在外,但他們依然眷念故土,為家鄉的建設投資投勞。但鄉村的發展更要投智,人才對于鄉村而言非常重要。星光村鄉村旅游的進一步發展需要他們的支持、回歸與帶動。建議實施星光村精英反哺計劃,鼓勵部分在外發展的干部、專家、文學作家、設計師、企業老板等回鄉創業,為家鄉發展獻計納策,以本土化的力量增強自我造血功能,實現真正意義上的鄉村振興。

圖2 分類建模流程Fig. 2 Classification modeling flow

步驟1:對訓練集M進行預處理,累加位置編碼后,得到M′。

步驟2:將M′輸入BERT模型,根據訓練集M′對預訓練語言模型進行微調,最終獲取對應訓練集的特征向量 T。T=(T1,T2,···,TN),i=1,2,···,N。

步驟3:將步驟2中的特征向量T輸入到ELM進行訓練,得到文本分類結果,并與數據集標簽進行比較,得到尋優算法適應度函數如式(1)所示。

式中:F1,train是指訓練集的 F1值;F1,test是指測試集的F1值

步驟4:通過ELM實現工單文本分類。

2 Lévy-CSSA算法

由于對 ELM 輸入層權重和隱藏層偏置進行隨機選取會影響模型性能,所以本文提出 Lévy-CSSA算法,通過改進SSA算法優化了種群初始值,并使用Lévy飛行搜索策略提高算法的全局尋優能力。該算法對ELM中輸入層—隱藏層權重與偏置的初始值尋優,得到最優值使適應度函數值達到最大,進而提升模型的分類性能。

2.1 改進SSA算法

SSA算法是由文獻[8]根據麻雀種群的覓食和反捕食行為提出的一種新型智能優化算法。在SSA算法中,將D維空間中的n只麻雀區分為發現者、跟隨者和警戒者。發現者負責尋找食物并提供尋找的方向,適應度較好的發現者會優先獲取食物;跟隨者依靠發現者獲取食物,且跟隨者要比發現者的搜索范圍小;警戒者則在危險降臨時做出反捕食行為。

SSA算法局部搜索能力極強,但全局搜索能力較弱且不易跳出局部最優,從而導致其收斂精度較低。為了克服SSA算法全局搜索能力較弱的缺陷,本文利用logistic混沌映射[11]對SSA算法進行初始化,初始化產生的混沌麻雀具有隨機性、遍歷性等特點,提高初始種群的多樣性。

2.2 Lévy飛行

2.3 Lévy-CSSA算法流程

本文定義Lévy-CSSA算法為:在麻雀種群位置信息初始化過程中加入logistic混沌映射,以增加初始種群的多樣性;在麻雀位置信息更新時引入Lévy飛行策略,以提升全局搜索能力,避免陷入局部最優。具體流程如圖4所示。

圖3 Lévy-CSSA算法流程圖Fig. 3 Flow chart of Lévy-CSSA algorithm

2.4 Lévy-CSSA極限學習機

針對 ELM 隨機賦予輸入層—隱藏層的權重與偏置的初始值會影響模型精度的問題,對ELM進行改進,具體流程如圖4所示。

圖4 Lévy-CSSA極限學習機Fig. 4 The Lévy-CSSA extreme learning machine

3 實驗及分析

3.1 Lévy-CSSA算法性能測試

選取如表2所示的固定維度函數、高維單峰函數以及高維多峰函數進行仿真實驗,并與GA、DE和SSA群體智能算法進行對比來驗證Lévy-CSSA算法的可行性和優越性。通用條件設置為:種群規模設為30,迭代總數設為300。分別對各算法單獨進行100次仿真實驗并記錄最優值Tb、平均值Tav和方差V。計算結果如表3所示,收斂曲線如圖5所示。

圖5 收斂曲線Fig. 5 Convergence curve

表2 測試函數Tab. 2 Test functions

表3 測試函數尋優結果Tab. 3 Results of test function optimization

由表3可以看出:Lévy-CSSA算法在不同類型的測試函數中均可搜索至非常接近理論最優值;且相比于其他2種算法與原算法,其求解精度更高,表現更加穩定,尤其是在高維函數中凸顯了算法優勢。從圖5可以看出:Lévy-CSSA能夠清楚地顯示出算法跳出局部尋優的能力,在收斂速度以及收斂精度上均優于其他算法。

工單經BERT模型提取到的特征向量具有高維度、高耦合特點,導致其在ELM中輸入層—隱藏層權重與偏置維度較高,因此尋優時應使用適用于高維度的算法。本文算法對其具有適用性。

3.2 分類實驗過程

實驗所用數據來源于國家電網全國供電服務呼叫中心提供的文本分類數據集,其內容為某省客戶向國家電網客服反映情況工單,包括電量異常、接觸不良、電能表異常、安全隱患等8個類別[15],共計23 289條?,F選取其中75%作為訓練集,25%作為測試集進行實驗,具體如表4所示。

表4 實驗數據Tab. 4 Experimental data 條

采用中文RoBERTa-WWM模型:有24層網絡結構,其中隱含層有1 024維,共有3.3×108個參數。將訓練集文本與測試集文本作為輸入,通過預訓練模型進行編碼;每條文本數據均編碼為 1 024維向量,并將訓練集標簽與測試集標簽編碼為8維向量。將1 024維文本向量作為輸入,8維標簽向量作為輸出,對ELM進行訓練;其中ELM輸入層—隱藏層的權重與偏置的初始值通過本文提出的Lévy-CSSA算法進行優化。

3.3 分類評價指標

本文所研究的問題為分類問題,常用的評價指標為查準率(P)、查全率(R)與F1值[16]:

式中:TP表示預測為正,實際為正;FP表示預測為正,實際為負;FN表示預測為負,實際為正。

F1值是模型查準率和查差率的一種調和平均,可以更加全面地反映分類性能。

3.4 實驗結果

結合BERT和改進ELM模型所獲取的訓練結果,分別與TextRNN、TextCNN以及結合BERT與隨機森林模型的文本分類結果進行對比,實驗結果如表5、圖6所示。評價指標主要采用F1值。

圖6 分類結果對比圖Fig. 6 Comparison of classification results

表5 不同模型的實驗結果Tab. 5 Experimental results of different models %

由表5可以看出,對于工單,在模型的查準率、查全率和F1值評價指標方面,結合BERT和改進ELM模型的分類效果相比于其他模型均有明顯提升。本文所提出模型的F1值達到了95.16%,相比于原始的TextRNN、TextCNN模型分別提高了3.08%、1.04%,可見本文模型綜合性能更好。結合BERT和ELM模型相比于TextRNN、TextCNN模型效果較差,其原因是:即使通過BERT模型提取出更加全局的特征向量,但ELM模型的輸入層—隱藏層權重與偏置的隨機取值影響了模型精度,這更加體現出對模型進行優化的重要性。

由圖6可以看出:本文提出的模型在8個類別上的分類性能均優于其他4種模型。結合BERT與隨機森林模型表現不穩定,對于不同的類別,分類性能相差較大。結合BERT和 ELM模型相比于TextRNN在電量異常、接觸不良、電能表異常、停電、缺相、欠費停復電這些類別分類表現均較差,且在各個類別中均比TextCNN分類效果差。通過Lévy-CSSA算法對模型尋優后,本文算法對每個類別的分類能力均有明顯提升,在“安全隱患”類別的分類水平提升效果最為明顯。

4 結論

為提高工單分類模型的分類效果,本文提出結合BERT和改進ELM模型的分類方法,并通過具體的工單分類實驗驗證了方法的有效性。

(1)本文提出的 Lévy-CSSA 算法提高了結合BERT和改進ELM模型的分類精度。3類經典測試函數優化對比實驗的結果表明了Lévy-CSSA算法具有明顯優越性。

(2)建立了BERT和改進ELM模型。使用Lévy-CSSA算法對ELM進行優化,并通過工單分類實驗驗證了模型效果。與TextRNN、TextCNN等模型的對比結果表明:模型在查準率、查全率以及F1值等分類指標上均有所提高;該模型可以更好地表達工單語義信息,能夠有效地進行工單分類。

以上結論表明了本文結合BERT和改進ELM模型的工單分類方法的可行性。

猜你喜歡
語義分類文本
分類算一算
語言與語義
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 在线另类稀缺国产呦| 欧美一级夜夜爽www| 夜夜拍夜夜爽| 欧美专区日韩专区| 亚洲色中色| 欧美www在线观看| 免费在线视频a| 亚洲伊人电影| 欧美亚洲另类在线观看| 亚洲码在线中文在线观看| 国产一级裸网站| 日韩视频免费| 亚洲日本中文字幕乱码中文| 久久久久久久久久国产精品| 九九线精品视频在线观看| 国产又色又刺激高潮免费看| 国产精品视频第一专区| 成人国产免费| 免费观看国产小粉嫩喷水| 久久性妇女精品免费| 日韩二区三区| 欧美成人一级| 日本黄色a视频| 狠狠v日韩v欧美v| 99精品视频在线观看免费播放| 国产亚洲精品91| 一边摸一边做爽的视频17国产| 成人国产精品视频频| 亚洲啪啪网| 国产国产人在线成免费视频狼人色| 国产99视频精品免费视频7| 日韩精品无码免费专网站| 国产无套粉嫩白浆| 欧美在线国产| 91日本在线观看亚洲精品| 在线看片免费人成视久网下载 | 亚洲成av人无码综合在线观看| 97狠狠操| 亚洲黄色成人| 伊人久久久久久久久久| 99视频只有精品| 日韩欧美国产中文| 99福利视频导航| 国产产在线精品亚洲aavv| 一级高清毛片免费a级高清毛片| 爆乳熟妇一区二区三区| 亚洲人成人伊人成综合网无码| av一区二区三区高清久久| 中文字幕永久视频| 国产毛片高清一级国语 | 精品三级网站| 在线观看网站国产| 中文字幕调教一区二区视频| 国产精品入口麻豆| 无码网站免费观看| 朝桐光一区二区| 亚洲综合经典在线一区二区| 久久久久久久久18禁秘| 久久无码高潮喷水| 激情六月丁香婷婷四房播| 午夜福利无码一区二区| 九九热精品视频在线| 成人亚洲天堂| 国产高颜值露脸在线观看| 88av在线| 亚洲va在线∨a天堂va欧美va| 三级视频中文字幕| 国产精品分类视频分类一区| 国产视频a| 亚洲永久视频| 久久久久88色偷偷| 中国一级特黄视频| 欧美有码在线观看| 欧美一区日韩一区中文字幕页| 国产午夜精品鲁丝片| 成人免费网站久久久| 99re热精品视频中文字幕不卡| 国产一区二区三区精品欧美日韩| 欧美专区日韩专区| 在线无码九区| 青青青国产精品国产精品美女| 中文国产成人久久精品小说|