999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于GAT 的小樣本均衡補償文本主題分類模型

2023-02-08 12:54:30王琦菲張大為
智能計算機與應用 2023年1期
關鍵詞:分類文本作業

王琦菲,張大為

(遼寧師范大學 計算機與信息技術學院,遼寧 大連 116000)

0 引言

隨著深度學習和大數據技術的發展,文本分類取得了巨大的成功,但在實際應用中,常常存在小樣本和類別不均衡現象。小樣本學習(Few-shot Learning)指的是通過有限的數據樣本使模型獲得較為穩定分類效果的機器學習方法[1]。最早在計算機視覺領域被提出,在圖像領域也取得了許多較好的研究成果,受限于文本特征提取比圖像更加困難,在自然語言處理領域發展較為緩慢。近年來在文本領域的小樣本學習研究工作主要集中在基于微調、基于數據增強和基于遷移學習等領域。遷移學習是目前最為前沿的方法,主要包括基于度量學習、基于元學習和基于圖神經網絡等方法。

基于圖神經網絡的方法由于性能較好、易于解釋,已經成為一種廣泛應用的方法。Yao L[2]認為傳統的深度學習文本分類方法,例如RNN(Recurrent Neural Networks,簡稱RNN)、LSTM(Long Short Term Memory,簡稱LSTM)等存在忽略詞共現和需要大數量訓練樣本的問題,只優先考慮文本的局部信息和遠距離文本信息,而不考慮全局的詞共現信息,可能導致詞共現中包含的長距離和不連續的語義信息缺失,需要大量的數據樣本進行訓練,致使小樣本文本分類難以達到理想效果。考慮到上述不足,Yao 提出TextGCN(Text Graph Convolutional Networks,簡稱TextGCN)模型,通過構建一個大型的異構文本圖,將單詞和文檔作為圖的點,邊由詞節點和詞節點的權重、詞節點和文檔節點的權重兩部分構成,使用兩層圖卷積網絡實現文本分類,該模型首次將圖神經網絡從圖像領域遷移到文本領域,并取得良好的分類效果;Huang[3]針對TextGCN 在整個語料庫中建圖需要消耗大量存儲空間的問題進行改進,對每個輸入的文本數據單獨構圖,并引入滑動窗口記作p,將文本中的單詞只與左右p個單詞相連,而非全部單詞節點相連,該方法減少了單個文本與整個語料庫之間的依賴,降低了存儲空間的消耗;Zhang[4]為了引入文本之間非連續和長距離的單詞交互,提出TextING 分類模型,通過圖神經網絡模型來學習局部結構的單詞表示;針對GCN(Graph Convolutional Networks,簡稱GCN)模型采用對稱的拉普拉斯矩陣,不能直接用于有向圖,無法為每個鄰居分配不同的權重問題,Velikovi[5]提出圖注意力網絡GAT,為不同的節點分配不同的權重,同時訓練時不依賴具體的網絡結構,該結構只依賴成對的相鄰節點,可以很好地解決GCN 的缺陷。

通過觀察GAT 模型在真實和公開數據集的分類效果,可以看出對數據樣本的均衡性有很高的要求。在實際應用中小樣本和不均衡的文本數據分類的需求隨處可見,導致GAT 的分類效果難以體現。本文以主觀作業的主題分類為例,針對作業規模較小、負主題樣本較小的情況,提出采用均衡補償方法進行少樣本補償的BC-GAT 主題分類方法。通過公開和真實數據集的實驗表明,主題分類效果得到了顯著改善。

1 相關技術

本文采用基本GAT 模型作為小樣本文本數據主題分類器,通過前饋神經網絡計算注意力系數,eij表示j節點對i節點的注意力系數,計算公式(1):

其中,Ni表示i節點的鄰居節點;∝表示圖注意力計算函數;hi表示輸入層的節點特征;W表示矩陣。

為了使系數在不同節點之間的相互比較,使用softmax 函數將所有鄰居節點的注意力系數歸一化作為特征權重,通過將鄰居節點加權求和的方式得到新的特征。節點j到i的注意力系數αij計算方式為

其中,LeakyReLU為激活函數,“‖”為向量拼接操作。

本文對數據增強采用EDA 算法和網絡爬蟲兩種方式,其中EDA 算法主要采用同義詞替換、隨機插入、隨機交換、隨機刪除4 種方式[6];而網絡爬蟲方法則利用Requests 庫中的GET 方式向瀏覽器發出關鍵詞搜索請求,獲取相應的網頁信息并對其進行過濾,利用Lxml 網頁解析器對網頁信息進行解析從而實現文本擴充。

補償樣本關鍵詞的提取方法采用TextRank 算法,將文本抽象為詞圖模型記作G =(E,V),V是由候選關鍵詞矩陣組成的節點集,E是利用共現窗口構建圖中兩節點之間的邊,迭代計算每個頂點的權值,收斂時權值排名在前的點即為文本關鍵詞。每個頂點權值的計算公式為

其中,d為阻尼系數;vi和vj均為詞語節點;ln(vi) 是指向詞語節點vi的詞語節點集合;Out(vj)是詞語節點vj指向的詞語節點集合。

2 BC-GAT 方法

本文提出一種基于GAT 的小樣本均衡補償文本主題分類模型BC-GAT(Balanced compensation-Graph Attention Network,簡稱BC-GAT),旨在解決GAT 模型針對數據傾斜樣本分類結果傾向大比例樣本集的問題。基本思想是對輸入GAT 模型中具有數據傾斜特征原始數據進行均衡補償,在不引入干擾數據的前提下,有效提高小樣本不均衡樣本的分類正確率。

分析小樣本數據集分類問題中存在的情況,給出如下解決方案:

(1)針對樣本中特定類別極少現象,可以對小比例樣本進行同源擴充或非同源擴充;

(2)針對樣本中特定類別缺失現象,無法對類別缺失的樣本進行同源擴充,只能非同源擴充。

BC 包含兩種:同源擴充方法可以采用EDA 算法直接進行數據增強,非同源擴充方法可以通過TextRank 算法提取全部樣本中靠后的關鍵詞,通過關鍵詞爬取相關文本內容并進行過濾,然后投入到欠均衡樣本集,使其達到數據均衡的效果。

均衡補償(BC)樣本的具體方法描述如下:

算法1BC 算法

輸入不均衡的訓練集和測試集

輸出均衡的訓練集和測試集

(1)利用TextRank 算法提取全部樣本中排名靠后的關鍵詞;

(2)針對樣本特征選擇同源擴充或非同源擴充方式,從而實現小比例樣本的數據增強;

(3)將擴充后的樣本并寫入文本數據庫。

對均衡補償后的樣本進行分詞、去停用詞等一系列預處理。把整個語料庫轉換為一個有向圖G =(V,E)。V表示點的集合,即由單詞與文檔構成;E為邊,由詞節點和詞節點的權重,詞節和文檔節點的權重兩部分構成。通過圖注意力網絡賦予節點相應的權重來獲取節點之間的依賴信息,利用公式(1)計算節點的注意力系數;使用softmax 函數將所有鄰居節點的注意力系數歸一化,利用公式(2)鄰居節點的注意力系數,將所有鄰居節點的注意力系數加權求和,得到新的特征;通過Softmax 層獲得文本類別的概率分布,并輸出文檔節點的類別標簽。

3 實驗與結果分析

3.1 數據集

本文實驗使用以下兩個數據集。

(1)MR 數據集。用于二元情感分類的電影評論數據集,每個評論只包含一句話,且每條評論都有情感正負標記,且正負樣本數量絕對均衡;

(2)文本主觀類型作業。選取遼寧師范大學2015 級至2019 級軟件工程和軟件工程設計兩門課中的文本類型作業作為實驗數據,包括隨筆寫作、需求描述、實驗報告1、實驗報告2 和綜合型實驗報告,其中每組作業在40-60 份之間,合計1 240 份作業。為了方便主題分類結果的實驗對比,由5 位評閱人對每份作業的主題貼合度進行評價,取平均值作為作業的實際主題標注結果,作業詳情見表1。

表1 文本主觀作業Tab.1 Text subjective assignment

3.2 結果分析

本文實驗采用Pytorch 深度學習框架,Python編程語言實現,分詞工具采用jieba,并使用GPU 環境加速模型訓練。其中GAT 模型的學習率0.02,dropout 率為0.5,迭代次數為100 次。評價指標采用準確率(Percision)、召回率(Recall)和F值。

3.2.1 MR 數據集實驗結果與分析

為了驗證GAT 模型對小樣本不均衡數據集的分類效果,選取MR 數據集中400 個正樣本和400個負樣本作為訓練集,100 個正樣本和100 個負樣本作為測試集;取400 個正樣本、40 個負樣本作為訓練集,100 個正樣本、10 個負樣本為測試集,并將上述兩個樣本集投入GAT 模型進行分類,結果見表2。

表2 應用于MR 數據集的GAT 模型實驗結果Tab.2 Experimental results of GAT model applied to MR data set

由表2 可知,當正負樣本分布比例為1 ∶1 時,正樣本、負樣本和總樣本的準確率、召回率和F值均在60%以上。但當正負樣本分布比例為10 ∶1時,負樣本的召回率和精準率過低,即沒有被正確識別。通過GAT 在公開數據集的實驗效果可以證明,GAT 模型雖然可以適用于小樣本數據集的分類,但是無法解決由于樣本數據不均衡導致的過擬合問題。這種不均衡現象主要體現在不同類別的樣本數量上存在極大的差距,不均衡的數據集使模型難以達到對數據的最佳擬合,即少數量類別樣本被誤分到多數量類別樣本中,即少數量類別樣本沒有辦法被正確識別。

采用EDA 算法對表2 中實驗二的小比例樣本進行擴充,即將原始正負樣本比例為10 ∶1 的數據均衡成1 ∶1,實驗結果見表3。

表3 應用于MR 數據集的BC-GAT 方法實驗結果Tab.3 Experimental results of BC-GAT model applied to MR data set

由表2 和表3 可知,使用GAT 模型訓練正負樣本分布比例為10 ∶1 的數據集時,盡管正樣本和總樣本的準確率、召回率和F值均在0.8 以上,但是負樣本的準確率、召回率和F值為0.5,0.1 和0.16,顯然此時的實驗結果并不可靠。因為數據集中最為關注的負樣本并沒有被正確識別,總樣本識別準確率較高也是由于數據集中正樣本被有效識別導致的。而使用BC-GAT 方法進行訓練之后,負樣本的準確率、召回率、F值分別為0.82、0.88 和0.85,負樣本的準確率提升了0.3,此時絕大多數的負樣本被有效識別,證明BC-GAT 方法中通過對負樣本進行數據增強,使正負樣本的數量達到平衡這一思想是有效的,可以解決小樣本不均衡文本分類問題。

3.2.2 文本主觀類型作業實驗結果與分析

在實際應用中經常存在數據集類別分布極度不均衡的情況,以高校課堂中被廣泛使用的文本主觀作業為例,符合主題的作業一般占據大部分,不符合主題的作業往往占據小部分。本文對文本主觀類型作業進行實驗,以此證明模型的有效性。分別抽取某一年級的全部作業作為測試集,其他年級的作業作為訓練集,并將其分別投入GAT 模型和BC-GAT模型中進行實驗,結果見表4 和表5。

表4 隨筆、實驗報告2 和綜合型實驗報告的識別準確率Tab.4 The identification accuracy rate of essay,experimental report 2 and comprehensive report

表5 需求描述和實驗報告1 的識別準確率Tab.5 The recognition accuracy of requirement description and experimental report 1

由表4 可知,當樣本中存在特定類別極少現象時,無論是采用EDA 算法還是網絡爬蟲算法對小比例類別樣本進行均衡補償,其負樣本識別的準確率、召回率、F值比采用GAT 模型有著明顯的提升。同時,BC-GAT 方法得出的正樣本、負樣本和總樣本的準確率均在0.9 以上,證明BC-GAT 方法可以有效規避GAT 模型在迭代過程中由于類別不均衡所導致的過擬合問題,可以作為小樣本不均衡的文本主題分類方法。

兩種均衡補償的方法均有各自的優勢和適用范圍,EDA 算法簡單有效,但是針對樣本中存在特定類別缺失現象時,難以采用EDA 算法將進行均衡補償,可以采用網絡爬蟲算法。由表5 可知,正樣本、負樣本和總樣本的識別準確率均在0.9 以上,該設定使模型即使在沒有負樣本的情況下也可以有效實現主題分類,更具有靈活性。

4 結束語

本文提出一種不均衡樣本分類的優化模型BC-GAT,通過對數據集中小比例類別樣本進行均衡補償的方式對GAT 模型進行優化。通過公開和真實數據集的實驗表明,BC-GAT 模型中正負樣本識別準確率均在0.9 以上,可以有效解決實際應用中存在的小樣本且數據傾斜問題。后續的研究工作對GAT 模型進行改進,從而提高BC-GAT 模型的準確率。

猜你喜歡
分類文本作業
分類算一算
快來寫作業
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
作業
故事大王(2016年7期)2016-09-22 17:30:08
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲欧美日韩动漫| 国产三级成人| 午夜日韩久久影院| 毛片手机在线看| 亚洲啪啪网| 国产二级毛片| 国产精品第5页| AV无码一区二区三区四区| 成人免费视频一区二区三区| 亚洲国产成人久久精品软件| 亚洲成人网在线播放| 色天天综合| 国产日韩欧美成人| 亚洲人成网站色7777| 精品无码国产自产野外拍在线| 麻豆精品国产自产在线| 国产一二三区视频| 在线观看亚洲成人| av在线无码浏览| 国产午夜福利在线小视频| 国产在线观看精品| 欧美在线国产| 人妻中文字幕无码久久一区| 国产成人午夜福利免费无码r| 超级碰免费视频91| 亚洲性视频网站| 91精品国产无线乱码在线| 久久久受www免费人成| 特级精品毛片免费观看| 国产h视频免费观看| 国产精品页| 国产成人禁片在线观看| 凹凸精品免费精品视频| 人人妻人人澡人人爽欧美一区 | 久久久久夜色精品波多野结衣| 一本无码在线观看| 国产丝袜精品| 亚洲中文字幕av无码区| 亚洲天堂视频在线播放| a级毛片毛片免费观看久潮| 91小视频在线观看| 国产欧美日韩在线在线不卡视频| 久久综合色88| 国产免费a级片| 欧美亚洲中文精品三区| 国产色偷丝袜婷婷无码麻豆制服| 欧美狠狠干| 久久亚洲国产最新网站| 亚洲成a人在线播放www| 97国产在线观看| 日本国产精品一区久久久| 在线观看免费AV网| 青草免费在线观看| 福利一区三区| 四虎国产精品永久一区| 婷婷丁香在线观看| 99精品热视频这里只有精品7| 亚洲色大成网站www国产| 丁香婷婷综合激情| 青草91视频免费观看| 乱系列中文字幕在线视频| 亚洲一级毛片| 91无码人妻精品一区| 亚洲swag精品自拍一区| 欧美亚洲一区二区三区导航| 老司机aⅴ在线精品导航| 国产欧美高清| 久久熟女AV| 国产精品尤物在线| 亚洲伊人天堂| 精品1区2区3区| 久草视频中文| 国产精品一区二区久久精品无码| 欧美日本在线一区二区三区| 久久99蜜桃精品久久久久小说| 毛片免费视频| 一本综合久久| 99ri国产在线| 国产va欧美va在线观看| 亚洲精品成人7777在线观看| 欧美在线三级| 亚洲无码A视频在线|