999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進Focal Loss和EDA技術的UT分類算法

2023-06-01 13:43:38王雯慧靳大尉
計算機仿真 2023年4期
關鍵詞:分類文本模型

王雯慧,靳大尉

(陸軍工程大學指揮控制工程學院,江蘇 南京 210000)

1 引言

分類任務是數據挖掘領域中一個重要的研究任務,普通的分類模型通常是在數據集中各類別的樣本數量差距很小且對于每個類別的誤分代價相等的假設上訓練的,當使用不平衡數據集訓練傳統的分類器時經常會出現模型對于少數類的預測精度很低的問題,因此如何對不平衡數據進行有效的分類一直是機器學習領域的研究熱點[1,2]。

文本分類任務是對文本依據文本的主題內容等進行的分類。在文本分類領域文本數據經常處于不平衡狀態,熱度較高的解決不平衡分類導致的誤分率較高問題的方法包括降采樣、過采樣、集成學習以及代價敏感函數。Cieslak等[3]提出的降采樣技術,Chawla 等[4]提出的經典過采樣技術SMOTE(Synthetic M-inority Oversampling Technique),雖然兩者在一定程度上緩解了數據集不平衡的問題,但是前者可能會打破樣本分布規律,甚至導致重要特征信息的缺失,后者由于生成的小類樣本是在原本的小類樣本數據連線上,可能會造成樣本因密度增加導致模型過擬合。Galarm等人[5]利用集成學習技術雖然的到了一個泛化能力更好的分類器,但該方法對于子分類器的質量過度依賴,無法保證集成效果。代價函數通過給小樣本類賦予更高的誤分代價使得模型訓練更關注小樣本,但其的參數確定大多依賴經驗,使得損失代價的估計并不能客觀設置。

本文結合過采樣和代價敏感方法的思想,提出了一種基于EDA[6]文本增強技術以及改進Focal Loss 損失函數的不平衡文本分類模型訓練算法。該算法利用文本增強技術從數據層面緩解不平衡度,創新自動化的代價敏感函數參數設定方法進行研究,同時避免了過采樣樣本密度增加導致的過擬合和代價敏感函數參數設定不客觀的問題。實驗結果表明,本文提出的基于EDA文本增強技術以及改進的Focal Loss 損失函數的不平衡文本分類模型對于不平衡文本的分類有較好的效果提升。

2 相關技術簡介

2.1 EDA技術

依據文本增強的原理不同,文本增強的技術可以分為面向原始文本的增強方法[6-10]和面向文本表示的增強方法[11-13]兩種。Jason Wei等人提出了一套簡單的用于自然語言處理的通用數據擴充技術EDA[6],并針對其在英文文本上的應用效果進行了研究。

在小樣本中文文本數據上,假設一個小類樣本集為S={s1,s2,s3,……,sn},那么小類樣本集中某個樣本si可以表示為si={w1,w2,w3,……,wn}。增強句子數N代表進行相應操作的次數,EDA技術對文本數據樣本進行如下操作:

● 以概率p1對文本中的某個詞語wj進行刪除操作,形成新的樣本,記為操作O1;

● 以概率p2對文本中的某個詞語wj進行替換操作,替換詞為其同義詞,最終形成新的樣本,記為操作O2;

● 以概率p3在文本中的某個詞語wj后插入詞表中任意非停止詞的隨機單詞w,最終形成新的樣本,記為操作O3;

● 以概率p4對文本中的某個詞語wj與其后面的詞語wj+1進行位置交換,最終形成新的樣本,記為操作O4;

EDA方法具有“多、快、好、省”的特點,本文引入該技術進行中文文本數據增強。

2.2 DCNN模型

Nal Kalchbrenner等人提出了DCNN模型[14]實現了對任意長度的文本的語義建模。

DCNN模型主要包括Embedding層、動態卷積k-max池化層和Concat層:Embedding層是完成訓練數據的基本語義表示,然后經由三個動態卷積k-max采樣操作提取不同層次的語義表示。在動態卷積k-max采樣中,采用補0操作確保對輸入序列邊緣詞語語義信息的捕捉;動態k-max池化將矩陣向量最大的前k個特征進行保留,使得輸出中保留更多的高級語義信息。Concat層則是將這三種不同層次的語義表示進行拼接,最后利用softmax函數完成對樣本類別的預測。

該模型可以針對不同長度的文本進行建模同時保留語序信息,適用于實驗需求。此外,從模型的復雜度來說,DCNN模型較為簡單,對算法更敏感,有助于驗證算法的優越性。

2.3 Focal Loss 損失函數

2018年Facebook人工智能實驗室提出Focal Loss函數[15],該函數通過降低不平衡樣本中模型簡單樣本的權重達到提高對困難分類的效果。

二分類問題中,常用的交叉熵損失函數設定如下

(1)

Focal Loss對交叉熵損失函數加入γ因子,將其改進為

(2)

γ因子使模型更關注困難分類樣本,同時將易分類樣本的損失降低。在此基礎上,還加入平衡因子α,以針對樣本本身不平衡性進行調節

(3)

通過調節α對大類樣本以及易分類樣本的損失函數值降低,使得模型在訓練過程中更加關注小類樣本和困難分類樣本。

3 基于改進的Focal Loss和EDA技術的不平衡文本分類算法

3.1 改進的Focal Loss 損失函數

如上文所述,Focal Loss 損失函數是在通用交叉熵損失函數的基礎上,引入γ因子和平衡因子α,增強模型對于難分類小樣本的關注度。然而難分類樣本與易分類樣本其實是一個動態概念,也就是說α會隨著訓練過程而變化。原先易分類樣本即α大的樣本,可能隨著訓練過程變化為難訓練樣本即α小的樣本。當這種情況發生時,如果α參數保持不變可能會造成模型收斂速度慢的問題。

針對Focal loss無法其支持連續數值的監督的問題,李翔等人提出了Generalized Focal loss[16],但是并未解決平衡因子α動態變化的問題。通常情況下平衡因子α需要通過繁瑣的調參過程確定為一個最優的固定值,這不僅需要消耗大量的算力與時間,還忽略了難易訓練樣本之間相互轉換的動態性。所以本文基于動態的分類模型訓練過程,借鑒梯度下降的思想來遞歸性地逼近最佳的平衡因子α,提出平衡因子α的動態計算方法如下

(4)

同時必須滿足0<αt<1。

其中t代表訓練輪次,n為訓練中用以測試的小樣本數量,n′為模型預測結果中小樣本數量,β為隨機變化參數,為(0,1)之內的隨機值。

當預測結果中小樣本分類數量多于真實小樣本數量,則說明模型對小樣本數據的傾向度相較于所需的對于小樣本的傾向度偏大,此時的變化步長為負值,則會一定程度減小下次訓練中的平衡因子α,即減小對于小樣本數據的關注度。

根據何愷明等人實驗結果[15],初始輪次中的平衡因子α設定為0.25,設定γ因子值為2。最終動態Focal Loss 函數可表示為

(5)

3.2 一種不平衡文本分類算法

本文利用EDA文本增強技術,在數據層面緩解數據不平衡的基礎上,利用上文所述動態Focal loss損失函數,結合DCNN模型,提出一種不平衡文本分類算法用以訓練不平衡文本分類器。算法結構如圖1。

圖1 一種不平衡文本分類算法結構

本文所提出的算法具體步驟如下:

算法1 基于改進Focal Loss和EDA技術的不平衡文本分類算法

輸入:訓練數據集:小樣本數據集S={s1,s2,s3,……,sn},大樣本數據集S′={s1,s2,s3,……,sm},T為迭代次數;

輸 出:不平衡文本分類模型G,模型損失函數值。

1)統計少數類樣本數量n;

2)初始化EDA技術增強參數:p1=0.1,p2=0.1,p3=0.1,p4=0.1,N=6;

3)For i=1 to n:

For k=1 to N:

對si依次進行操作O1(p1),O2(p2),O3(p3),O4(p4);

5)初始化改進的Focal Loss 函數參數:γ=2,α=0.25;

6)初始化模型G

7)For t=1 to T:

A)利用分類模型Gt-1進行預測;

B)統計分類器在數據集SS上分類的小樣本數 量n′;

C)計算現有模型準確率,損失函數LFLt

D)ift

a)隨機產生β變化參數;

c)if0<αt<1:

更新平衡因子αt;

else

回到a)再次計算;

E)更新模型Gt;

8)返回最終文本分類模型GT,最終損失LFLT。

Jason Wei等提出EDA技術的增強參數pi=0.1,(i=1,2,3,4)時增強效果最好[6],所以算法將這四項參數的值設定為0.1,但是增強句子數的推薦參數仍不確定,本文首先在修改該參數的情況下執行算法訓練模型,在確定輪次為800時比較準確性探究最佳的參數值,實驗結果證明時N=6模型效果最佳。

4 實驗結果與分析

4.1 數據集描述

為了衡量本文提出的基于該進的Focal loss和EDA技術的文本分類算法,利用搜狗實驗室提供的全網新聞數據進行不平衡文本數據分類器的訓練,探究其準確率提升效果。

提取全網新聞數據正文并利用新聞網頁鏈接進行分類標注得到軍事類文本820篇占比約為3.8%,非軍事類20583篇包括傳媒、互聯網、教育等類型。訓練集與測試集按照7:3的比例劃分,詳見表1:

表1 基于搜狗新聞數據的不平衡文本分類實驗數據

4.2 評價標準

為了更好衡量模型效果,本實驗關注于小類樣本的分類效果。模型預測結果共四種:真陽實例(TP):測試樣本數據屬于小類,且被模型預測正確;真陰實例(TN):測試樣本數據屬于大類,且被模型預測正確;假陽實例(FP):測試樣本數據屬于大類,但被模型預測錯誤;假陰實例(FN):測試樣本數據屬于小類,但被模型預測錯誤。

評價指標精準率(Presicion)、召回率(Recall)、調和平均值(F1-Score)定義如下

(6)

(7)

(8)

為解決不平衡數據分類模型的效果評價問題,除上述指標之外本實驗還選取經典的AUC[17]值作為實驗的評估指標。AUC值是ROC 曲線下方所覆蓋的面積,ROC曲線是以假正率FP/(TN+FP)為橫軸,真正率TP/(TP+FN)為縱軸所繪制的曲線。當AUC值越大,證明模型的分類效果越好。

4.3 實驗設計與結果分析

為了驗證本文提出的分類模型算法的有效性,進行六組對比實驗,第六組即為本文提出的算法。

第一組:利用原始數據集(Or)直接結合交叉熵損失函數(CrossEntropy Loss,記為CL)進行訓練,記為Or+CL;

第二組:利用原始數據集直接結合Focal loss函數(記為FL)進行訓練,記為Or+FL;

第三組:利用原始數據集直接結合改進后的Focal loss函數(記為FL*)進行訓練,記為Or+FL*;

第四組:利用EDA增強技術增強數據(記為EDA)后結合交叉熵損失函數進行訓練,記為EDA+CL;

第五組:利用EDA增強技術增強數據后結合Focal loss函數進行訓練,記為EDA+FL;

第六組:利用EDA增強技術增強數據后結合改進后Focal loss函數進行訓練,記為EDA+FL*。

實驗分析了六組訓練方法的精準率、召回率、調和平均值以及AUC值;設定迭代次數為500,進行多次實驗取平均后結果如表2。

表2 六組實驗結果對比表

從實驗對比結果可以看出,不同的訓練方法下模型的準確率和精準率都保持在較高的水平,召回率、調和平均值、AUC值在采用了EDA技術、Focal loss損失函數以及改進的Focal loss損失函數之后都有不同程度的提升,說明這些技術方法均能夠環節不平衡數據的問題。同時單獨各項技術而言,EDA技術對于模型的提升度最高,是解決不平衡問題較好的一個方法;改進的Focal loss較原始的Focal loss有一定的改進效果。在六組對比實驗中,本文提出的不平衡文本分類模型的訓練算法效果最好。

5 結語

針對傳統文本分類算法不能很好的解決不平衡文本類別的問題,本文提出從數據以及敏感函數兩個層面解決文本二分類不平衡問題的一種新的算法。六組對比試驗結果證明,本文的改進方法是可行的,單獨使用各方法進行訓練,模型訓練結果都有一定的提升效果,但本文所提出的結合算法效果最好。但是該方法僅針對二分類文本數據,存在一定的局限。將該算法與其它不平衡文本分類算法進行實驗比較,針對文本多分類不平衡問題的進一步研究,將是未來的重點研究方向。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久综合一个色综合网| 欧美日韩中文字幕在线| 国产一级毛片yw| 精品一区二区三区无码视频无码| 国产在线97| 伊人五月丁香综合AⅤ| 国产成人精品三级| 日韩在线第三页| 免费看一级毛片波多结衣| 午夜视频www| 午夜免费视频网站| 在线欧美日韩国产| 亚洲综合中文字幕国产精品欧美| 欧美日韩精品在线播放| 免费无遮挡AV| 999国内精品视频免费| 国产精品亚洲αv天堂无码| 亚洲午夜福利精品无码| 免费无码又爽又刺激高| 亚洲中字无码AV电影在线观看| 国产视频自拍一区| 国产九九精品视频| 国产乱人伦精品一区二区| 亚洲日韩AV无码精品| 在线观看免费AV网| 国产精品自在自线免费观看| 中文字幕久久波多野结衣| 干中文字幕| 亚洲精品国产日韩无码AV永久免费网 | 欧类av怡春院| 喷潮白浆直流在线播放| 久久久无码人妻精品无码| 国产免费久久精品44| 亚洲av成人无码网站在线观看| 欧美精品高清| 国产精品黑色丝袜的老师| 久久黄色小视频| 欧美国产日韩在线播放| 亚洲综合九九| 国产日韩精品欧美一区灰| aⅴ免费在线观看| 国产精品蜜芽在线观看| 亚洲天堂视频在线播放| 刘亦菲一区二区在线观看| 亚洲欧洲国产成人综合不卡| 国产午夜精品一区二区三区软件| 久久综合九色综合97婷婷| 亚洲色图另类| 免费99精品国产自在现线| 国产欧美另类| 中文字幕免费播放| 日本成人不卡视频| 成人精品视频一区二区在线| 91色老久久精品偷偷蜜臀| 欧美专区在线观看| 天堂网国产| 欧美区日韩区| 成人精品亚洲| 国产在线视频自拍| 中文字幕1区2区| 欧美特黄一级大黄录像| 欧美一级高清视频在线播放| 中文字幕66页| 国产精选小视频在线观看| 亚洲综合色婷婷| 九九久久精品国产av片囯产区| 大香网伊人久久综合网2020| 天天干天天色综合网| 国产毛片高清一级国语| 综合五月天网| 真人高潮娇喘嗯啊在线观看 | 久久久久国色AV免费观看性色| 福利国产在线| 欧美午夜在线视频| 久久精品无码国产一区二区三区| 中国一级特黄大片在线观看| 成人免费一区二区三区| 国产网站免费看| 国产免费精彩视频| 亚洲无码高清视频在线观看| 欧美性爱精品一区二区三区| 精品自窥自偷在线看|