999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于電話內容文本的數據增強模型研究

2025-03-05 00:00:00曾孟佳陽子聰黃旭
電腦知識與技術 2025年3期

關鍵詞:來電文本;數據增強;文本分類;ERNIE

中圖分類號:TP3 文獻標識碼:A

文章編號:1009-3044(2025)03-0009-03 開放科學(資源服務) 標識碼(OSID) :

0引言

公共群眾熱線的發展有利于提高工作人員的服務效率,便于培養部門咨詢中心的專業性;來電服務的專業化有利于分門別類地梳理群眾問題,細化各個流程服務標準,經過部門的匯總,最終成為政府公共監督部門的重點追蹤對象[1]。當前,群眾來電內容一般由人工記錄并分類至相應部門,此種分類方式,一方面分類速度跟不上數據量增加速度,另一方面受處理人員業務熟悉程度、認知差異等因素影響,導致錯分概率較大。此外,由于文本內容長短不一、語言邏輯復雜和群眾訪問部門過度集中而造成的數據分布不均等問題,導致目前流行的中文文本分類模型分類效果普遍較差。基于上述問題,本文利用數據增強模型,從不同角度和層次進行變換,從而構造出更多能滿足電話文本分類場景的數據,以提高分類模型效率。本文將ERNIE文本分類模型[2]與RoFormer-Sim[3]數據增強模型相結合,用于來電文本分類任務,主要貢獻在于:針對群眾來電文本數據集的樣本分布不均問題,采用基于UniLM[4]思想的RoFormer-Sim技術,通過改進訓練,使其能夠生成與輸入語義相似的句子得到增強樣本,并驗證對比得出最佳的樣本增強比例,解決因數據集種類分布不平衡造成分類器效果差的問題。

1模型設計與整體框架

文本增強技術分別采用基于規則數據增強的EDA簡單數據增強模型[5],SimBERT文本增強模型和RoFormer-Sim文本增強模型,文本分類器選取近年來適用于文本分類任務的BERT-base模型[6],ERINE模型和BERT的網絡模型作為集成對比實驗,通過字符集粒度嵌入文本特征向量完成文本分類任務。文本分類模型設計如圖1所示。

1.2文本分類器

在文本分類任務中,BERT通過使用雙向Trans?former架構來動態調整詞向量,從而將詞語的上下文信息融入其中,進而更好地理解語義信息。和獨熱編碼、word2vec不同的是,BERT可以較好地解決一詞多義問題[9]。ERNIE是百度提出的一種基于知識增強的持續學習語義理解框架,它通過結合大數據預訓練和多源知識,不斷吸收海量文本數據中詞匯、結構、語義等方面的知識,提升模型效果。與BERT相比,ERNIE在預訓練過程中使用了不同的MASK策略、語料庫和知識圖譜信息,并在預訓練階段增加了外部的知識,且由三種等級的MASK組成。

2實驗過程與結果分析

2.1數據來源與預處理

數據集包含12685條由政府部門人工記錄的群眾來電文本。本文在預處理階段,刪除了重復和錯誤數據,并對敏感詞匯進行了脫敏處理。部分數據如表1所示。

2.2實驗設置

實驗按7:1:2比例劃分數據集為訓練集、測試集和驗證集。本文選取BERT_base,ERNIE_chinese,BERT_RNN和BERT-CNN文本分類模型作為對比實驗,其中BERT_base,BERT_RNN和BERT-CNN的學習率設為5e-5,輸入句子長度為128,批量訓練大小為128,隱藏層為768層。數據增強算法采用EDA,句中每個單詞被替換的概率alpha為0.3,生成數據條數根據每個類別條數而定。SimBERT和RoFormer-Sim參數相同,生成總樣本數量n為100,k值與EDA生成數相同,用于生成n條數據并返回最相似的k條數據。

2.3實驗結果分析與討論

本文采用分類任務常用的評估指標精確率(P)、召回率(R)以及F1值進行結果的有效性驗證。在本文設計的來電文本分類對比模型上,通過比較不同文本增強技術和預訓練語言模型來驗證其在群眾來電文本分類任務上的效果。首先在訓練集上進行訓練,然后通過驗證集優化,最終在測試集上評估模型效果。由于樣本數據本身不平衡,原始樣本在模型上實驗結果較差。所以,本實驗選擇數據條數在500條以下的22個小樣本類作為增強類進行數據增強,實驗結果如表2所示。

如表2所示,ERNIE模型在原始樣本群眾來電文本分類任務上表現最佳,F1值為92.21%,比BERTbase模型高0.64%。這是因為ERNIE使用了細粒度的MASK策略,能更好地處理中文文本的復雜結構和語義信息。

采用EDA、SimBERT和RoFormer-Sim增強模型進行了文本增強后,擴充了訓練集數據量。與未增強前進行比較,結果如表3所示。

各數據增強技術特點可歸納為:EDA基于規則,可對詞語進行調序和替換。SimBERT和RoFormer-Sim在生成疑問句上相似,但RoFormer-Sim在陳述句方面效果更優。RoFormer-Sim和SimBERT的F1值均大于EDA,原因在于它們能在文本的句級別操作,保留更多語義信息和上下文關系,且利用預訓練語言模型能生成豐富的相似句。

3結束語

傳統網絡模型主要依賴于詞袋或詞嵌入方法,只能捕捉到局部語義信息。而BERT模型通過多頭自注意力機制和預訓練任務,能夠學習到更深層次的語法和語義知識,從而提高對復雜邏輯關系的理解能力。為解決樣本不平衡問題,本文采用了RoFormer-Sim數據增強模型,其生成的樣本質量優于EDA和Sim?BERT技術。在實驗中,使用了BERT預訓練語言模型及其改進版本結合數據增強模型,以探究不同模型的優缺點和適用場景,并對各模型效果差異的原因進行了解釋。

主站蜘蛛池模板: 91精品网站| 亚洲高清在线播放| 天堂在线视频精品| 午夜影院a级片| 漂亮人妻被中出中文字幕久久| 永久天堂网Av| AV片亚洲国产男人的天堂| 中文字幕日韩丝袜一区| 亚洲一区精品视频在线| 国产福利免费视频| 国产精品亚洲а∨天堂免下载| 亚洲av日韩综合一区尤物| 亚洲天堂视频网| 欧美专区在线观看| 91久久天天躁狠狠躁夜夜| 丁香婷婷综合激情| 扒开粉嫩的小缝隙喷白浆视频| 久久这里只精品国产99热8| 蜜桃视频一区二区三区| 久久香蕉国产线看精品| 高清码无在线看| 青青网在线国产| 在线播放国产一区| 精品亚洲国产成人AV| 国产人成网线在线播放va| 国产福利在线观看精品| 国产高清在线丝袜精品一区| 狠狠干综合| 日本黄色不卡视频| 亚洲色图综合在线| 欧美亚洲网| 在线一级毛片| 456亚洲人成高清在线| 国产网站在线看| 久操线在视频在线观看| 在线视频一区二区三区不卡| 99精品高清在线播放| 久久免费视频6| 亚洲精品第1页| 在线观看国产小视频| 国产精品成人不卡在线观看| 四虎国产精品永久一区| 亚洲AⅤ无码国产精品| 欧美激情视频在线观看一区| 污网站在线观看视频| 久久一色本道亚洲| 日韩欧美国产综合| 青草视频网站在线观看| 亚洲免费成人网| www.狠狠| 国产成人精品综合| 精品国产一区91在线| 黄色在线网| 亚洲一级毛片免费看| 国产精品99一区不卡| 国产经典免费播放视频| 国产一区二区三区免费观看| 极品尤物av美乳在线观看| 成人国产精品网站在线看| 美女扒开下面流白浆在线试听| 精品撒尿视频一区二区三区| 少妇精品在线| 亚洲91在线精品| 免费视频在线2021入口| 国产香蕉在线视频| 国产成人精品2021欧美日韩| 91视频区| 国产成人乱无码视频| 日韩AV手机在线观看蜜芽| 性视频一区| 欧美笫一页| 激情视频综合网| 国产极品美女在线观看| 一级在线毛片| 宅男噜噜噜66国产在线观看 | 国产精品久久久免费视频| 日韩精品欧美国产在线| 亚洲v日韩v欧美在线观看| 日本欧美中文字幕精品亚洲| 亚洲午夜天堂| 欧美国产日韩另类| 欧美日韩免费|