999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖對比學習的長文本分類模型

2023-10-25 10:35:44劉宇昊嚴靈毓葉志偉
湖北工業大學學報 2023年5期
關鍵詞:文本實驗模型

劉宇昊, 高 榕, 嚴靈毓, 葉志偉

(湖北工業大學計算機學院, 湖北 武漢 430068)

自然語言處理(natural language processing,NLP)一直是人工智能領域最重要的方向之一,文本分類[1]則是NLP領域最基本的任務,其是指通過一定的計算,得出當前文本屬于某一類別的概率的過程,其運用于情感分析[2]、信息檢索[3]、問答系統[4]、機器翻譯[5]等非常具有實際意義的應用。例如日常生活中的內容推薦、搜索引擎、自動客服、翻譯軟件等就是以上應用的具體體現。可以說NLP技術正潛移默化地方便我們的生活。

文本的嵌入表示是文本分類任務的基礎,嵌入表示的好壞決定了文本分類任務的質量。傳統上的嵌入表示有針對目標數據集計算的詞袋模型和n-gram模型[6],但由于其數據稀疏性需要大量計算資源,同時忽視文本的順序和結構信息,所以在大多數情況下對文本的語義表達并不準確。后來谷歌推出了word2vec[7],word2vec考慮了詞在上下文的關系,效果[8]與通用性有顯著提升。然而word2vec是靜態的方法,單詞與向量是一對一的關系,無法解決一詞多義問題,但此時word2vec已初具預訓練模型的雛形。之后因計算機硬件的發展,研究人員著手使用大語料庫訓練出通用模型。2018年,谷歌使用雙向的Transformer[9]在33億字的無標注語料庫上訓練出BERT[10],不僅解決了一詞多義的問題,同時使自監督模型的預訓練加微調模式成了各個領域的熱點。后來,對比學習[11]的出現,讓自監督學習發展到新的高度,由于其“輕便”的結構擁有很好的泛化性,在計算機視覺、NLP、多模態中都有應用。在NLP的背景下,對比學習可以讓模型針對特定領域進行自監督訓練。例如金融、法律等專業領域有標注的數據集非常少,如果使用人工標注則需要付出高昂的經濟代價。應用對比學習不僅可以降低經濟成本,還能緩解針對特定領域準確度不高的問題。

上述工作取得了一定的成果,然而當前工作還存在以下挑戰。問題1:以往大多基于字符序列的工作忽略了文本的高級結構,并且受制于文本長度。如BERT模型,由于自注意力機制需要n×n的計算矩陣(n為文本長度),所以默認只能處理512個字符內的文本。對于過長的文本會將不同句子化作同一句子并且截斷[12],但這顯然會導致文本的語義丟失甚至改變。問題2:對比學習在正負對選取上存在采樣偏差問題。文本背景下,數據增廣操作可能會改變文本的語義標簽,因此增廣策略需要先驗知識。在負對采樣[13]上,由于自監督學習沒有標簽信息,來自不同實例的增廣對有一定概率具有相同的標簽,這時將其視為負對就會導致負采樣偏差。

當前基于圖對比學習的長文本分類模型[14],通常把文本隨機分為兩部分,將來自同一文本的子文本視作正對,來自不同文本的子文本視為負對,再以句子或段落為節點,將它們的順序關系作為邊來構建圖模型,接著進行對比學習后再分類。然而,文本分割的比例與分割方式需要大量的實驗來確定,同時由于數據增強的方式單一,以及負采樣偏差的問題,對比學習的提升效果有限。本文提出一種基于自適應視圖生成器和負采樣優化的圖對比學習長文本分類模型(Graph Contrast Learning model based on Adaptive View Generator and Negative Sampling Optimization,GCL-AVGNSO),可以讓段落節點自適應的選擇數據增強方式,不僅增加了數據增強的手段,優化了不同文本的不同分割比例,同時也緩解了負采樣偏差對圖對比學習的影響。首先基于圖模型構建文本,不僅可以捕捉句子的上下文關系,也能擴展到長文本。接著利用自適應視圖生成器進行數據增廣,能讓文本自適應地選擇劃分比例。然后引入PU Learning[15]的知識,在僅訪問全樣本分布和正樣本分布的情況下,用超參數π對負采樣偏差進行修正。最后本文在兩個公開中文數據集上證明了有效性,效果優于主流先進模型。

1 GCL-AVGNSO模型

GCL-AVGNSO流程見圖1。

圖1 GCL-AVGNSO模型流程

1.1 問題定義

將長文本D映射為圖G,再將圖G映射到低維空間得到G。設D={p1,p2,…,pn,p|D|},pi為文章中的段落,每個段落對應圖的節點,上下文的順序關系對應頂點間的邊,所有的段落節點都與文本節點p|D|有邊。設圖G=(V,E),其中V={v1,v2,…,vN},E?V×V分別表示節點集和邊集。V∈RN×F,A∈{0,1}N×N分別為特征矩陣和鄰接矩陣。vi∈RF是vi的特征向量,如果(vi,vj)∈E則令鄰接矩陣中的Aij=1。本文的目標是學習一個GNN編碼器f(V,A)∈RN×F′,其中F>F′,N×F′≥G,將一組文本D映射成G={G1,G2,…,GM}后,在沒有標簽信息的情況下利用GNN編碼器將G嵌入到低維空間中得到圖級別表示G={G1,G2,…,GM},這些圖級別表示可以用線性分類器進行分類。

1.2 文本圖構建

給定一個文本D={p1,p2,…,pn,p|D|},定義一個無向圖G=(V,E),其中V由n+1個節點(vpD,vp1,…,vpn)組成,圖的邊集E根據文本結構分別從段落節點和文本節點展開構造。

其中B(pi)為Bert-WWM。

1.2.2文本節點初始化在獲得所有節點表示后,使用所有段落節點的平均值作為文本節點的初始表示:

1.3 GNN層

在獲得所有節點的最終表示后,通過READOUT函數得到文本的圖級別表示Gi。

1.4 自適應視圖生成器和負采樣偏差修正

在圖對比學習中,會通過數據增廣(Data Augment)來擴充數據樣本,對于每個圖G,有:

(1)

1.4.1自適應視圖生成器自適應視圖生成器流程見圖2。

G′=(V′,E′)

simview(x,y)=mse_loss(x,y)

Lossview=1-simview(Amat,Amat′)

則對于所有樣本f的損失期望為:

由于現實情況下,自監督的圖對比學習只能獲得不帶標簽的數據,以及由錨點樣本增廣而產生的增廣樣本,后者可視為正樣本空間而前者并不能完全視為負樣本空間,所以這里需要引入PU learning的知識。在無偏PU learning(uPU learning)[19]中,可訪問一個正的樣本空間χ+,和無標注的樣本空間χ,即:

(2)

則可以將本文中(2)的分布重寫為(3),并得到負采樣的表達式(4):

(3)

(4)

此時的全樣本空間可以是整個內存庫也可以是一個批次內的樣本,正樣本空間只有增廣后的一對樣本,如果將其中一個視為錨點樣點,那么正樣本空間只有一個樣本。由此可以計算對應的損失期望:

其中u為無標注的樣本。由于對比學習損失函數的負對項的理論最小值為e-1,所以本文要求當上式的值小于e-1時,取e-1。出于簡單考慮,設W=1,則Q=N,則最終加入溫度系數T[20]后的修正損失函數為:

(5)

其中π為超參數,N為全樣本空間的樣本數量。則最終模型的損失函數為:

Loss=λLossview+LossCL

其中λ為損失系數,默認取1。

1.5 分類層

理想情況下,對比學習可以將樣本的嵌入表示按照相似度大小,均勻地分布在一個超球面上[21],所以使用線性分類器就可以很容易地把某類與其他類分開。本文使用兩層線性層來實現分類。

y1=Relu(Fullyconnected(Gi))

y2=Softmax(Fullyconnected(y1))

2 實驗

2.1 數據集和數據預處理

本文在2個不同的中文數據集THUCnews[22]、SogouCS[23]上進行了實驗,驗證了在長文本分類上的有效性,各數據集的相關信息見表1。

表1 數據集統計詳情

THUCnews是清華大學根據新浪新聞RSS訂閱頻道2005到2011間的歷史數據篩選而成,有14個類別共74萬多條數據組成。SogouCS是來自搜狐新聞2012年6月到7月間共18個頻道的新聞數據,本文以頻道類別作為數據標簽,對其中足夠數量的類目進行篩選。選取好數據后進行數據清洗,首先依照哈工大中文停詞表刪除文本中大量無意義的詞,再刪除如網址、郵箱、電話號碼等無意義但形式固定的內容。

實驗里,在THUCNews中抽取65 000條長文本數據。為了兼顧一定的泛化性,本文選取文本最短長度可在400,但總平均長度大于600的數據,并在對65 000條數據進行預訓練后,以5∶1∶0.5的比例劃分訓練集、測試集與驗證集。在SogouCS中抽取65 000條長文本數據,由于部分標簽數據數量不足,本文僅抽取長度大于300且平均長度大于600的數據,并在對65 000條數據進行預訓練后,以5∶1∶0.5的比例劃分訓練集、測試集與驗證集。

2.2 評估指標與參數設置

本文基于三個評估指標精確率(Precision)、召回率(Recall)和F1值(F1_Score)進行性能評估,有:

其中,FP表示被預測為正的負樣本數量,FN表示被預測為負的正樣本數量,TN表示被預測正確的負樣本數量,TP表示被預測正確的正樣本數量,P為精準率,R為召回率。

參數設置:在對比學習階段使用兩層的GAT和0.0001的學習率,32的batch和10的epoch,并且設置了多組關于溫度系數T和修正系數π的實驗,最終效果最好的溫度系數T和修正系數π分別為0.5和0.12。在分類階段,使用0.0001的學習率,32的batch和100的epoch。

2.3 實驗設計及參數分析

本文設計了對比實驗、消融實驗和參數分析實驗。對比實驗顯示本文模型優于當前主流先進模型;消融實驗分析了各個模塊的作用;參數分析實驗得出了溫度系數T和修正系數π的最優值。

2.3.1對比實驗TextRCNN[24]:結合CNN與RNN的算法,通過雙向的RNN獲取上下文信息來學習包含語境信息的字符表示,再通過最大池化獲取值最大的字符來代表整個文本的嵌入表示。

BiLSTM-Attention[25]:通過雙向的LSTM獲得每個字符的向量表示,再通過Attention機制對所有向量進行加權求和從而得到文本的嵌入表示。

Capsule Network[26]:將CNN中的神經元合并成一個模塊記為膠囊。與傳統神經網絡將隱藏層數據當作標量計算不同,膠囊網絡的每一步計算都是向量計算。當某個低層膠囊的輸出與高層膠囊的輸出方向較小甚至相反時,算法會減小這個低層膠囊對該高層膠囊的影響,在膠囊網絡中這一過程被稱作動態路由。輸出的向量可以代表文本的特征,彌補了CNN不能理解語義關系的缺陷。

Longformer[27]:針對BERT模型僅能支持512個字符的問題而提出的可支持4096個字符的預訓練模型。

BERT+NEBi-LSTM+HAN[28]:基于[29]提出的一種特征增強的非平衡Bi-LSTM模型(NEBi-LSTM)加上BERT對文本進行初步特征提取,最后用HAN從單詞和句子兩個方面對文本進行加權。

實驗結果見圖3、4。

圖3 THUCnews對比實驗結果

圖4 SogouCS對比實驗結果

實驗分析:根據結果可以得出,本文提出的GCL-AVGNSO在兩個數據集上均優于當前主流先進模型。原因如下:首先,文本非常適合利用高級結構來構建圖模型。其次,不同的段落對于文本的貢獻度不同,基于注意力機制的圖模型能非常好的學習哪些段落對語義的貢獻度更高。

TextRCNN:雙向的RNN可以捕捉較長的語義信息,然而其存在越遠的字符越會被重視的缺點,所以獲得的上下文語境信息可能不準確。并且其是通過最大池化選取文本中最重要的含有語境信息的字符來表示整個文本,可以認為是通過字符來表示主題,再進行主題分類。關鍵在于文本中是否有可以代表文本主題的字符,并且通過最大池化的方法得到的字符是否就是目標字符,如果有一點不成立就會影響分類效果。

BiLSTM-Attention:BiLSTM已經可以較好地獲取上下文的信息,并且通過注意力機制增強了文本的表示能力,實驗結果也顯示其好于膠囊網絡。然而對于過長的文本,仍然不能很好的捕捉長距離依賴,并且通過拼接來融合前后向特征的方式不夠好。對于長文本的分類任務,增加了文本結構信息的工作。

CapsNet:膠囊網絡的核心路由算法與BERT的自注意力機制類似。自注意力機制通過Q、K、V三個矩陣計算出序列中其他字對當前字的權重以及加權后的向量表示,而膠囊網絡通過路由權重矩陣計算所有的字符權重。相比之下,BERT的自注意力機制比膠囊網絡擁有更多的權重矩陣和更深的網絡結構,并且BERT經過龐大的語料庫進行預訓練,因此基于BERT的分段文本工作會得到比膠囊網絡更好的結果。

Longformer:Longformer在長文本的語義表示上較傳統模型已有很好提升,實驗顯示其效果差于基于BERT的分段文本工作,說明Longformer在遠距離的語義表示上并不準確。

2.3.2消融實驗BERT:將文本截取為510個字符再通過BERT獲取文本表示。

BERT+GraphCL[30]:通過GraphCL的對比學習框架訓練出一個GAT,將其作為文本的特征表示器。

BERT+view+GCL:用自適應視圖生成器view代替GraphCL中的數據增強模塊,訓練出一個GAT作為文本的特征表示器。

BERT+Debias+GCL:優化GraphCL中負采樣模塊,訓練出一個GAT作為文本的特征表示器。

實驗結果見圖5、6(中間三項省略BERT名稱)。

圖5 THUCnews對比實驗結果

圖6 SogouCS對比實驗結果

根據結果可知,用GraphCL也可以得到很好的效果,但是需要大量的實驗篩選出增廣策略的超參數,本文并沒有對其做大量的實驗,所以得出中等偏上的結果是非常符合直覺的。同時用自適應視圖生成器后效果略好于GraphCL,在未做大規模實驗來選擇數據增廣策略時,用自適應視圖生成器就可以得到不錯的效果。接著修正負采樣偏差后,效果好于GraphCL,可以認為負采樣偏差確實會影響對比學習的效果。最后GCL-AVGNSO的效果達到最優,說明本文提出的兩項工作在文本分類的背景下,對圖對比學習有加強作用。

2.3.3參數分析實驗固定溫度系數T=0.5,再設置不同的修正系數π,來選擇對當前數據集修正負采樣偏差最好的π。固定修正系數π=0.1,再設置不同的溫度系數T來選擇最好的溫度系數。THUCnews數據集結果見圖7、9,SogouCS數據集結果見圖7-10。

圖7 THUCnewsπ實驗結果

圖8 SogouCSπ實驗結果

從式(5)的推導顯示,當所有類目中的實例數量相等時,π的理論取值為某類目的實例總數除以總數據數。對于當前THUCnews和SogouCS數據集,理論最優值均為0.1,但實驗結果顯示0.12為最優值,說明數據集中某些類在相似度上較為靠近。

T的取值不是越小越好,當T=0.5時能最優地區分正負樣本。

圖9 THUCnewsT實驗結果

圖10 SogouCST實驗結果

3 結束語與展望

本文利用文本的高級結構構建圖模型,通過對比學習的方法學習一個圖神經網絡來獲得文本的嵌入表示,并在細粒度上適配任何基于Transformer的文本預訓練模型。在對比學習的數據增廣階段,基于傳統NLP領域數據增廣中將一篇文本隨機劃分為兩個文本的方法,引入一個自適應視圖生成器,利用段落本身的屬性,能在微觀上讓每個段落都自發地選擇增廣方式,同時在宏觀上也實現了文本可以自發的選擇劃分比例。在負采樣階段,通過引入修正系數π,實現在僅訪問正樣本分布和全樣本分布下對負采樣進行修正。在兩個數據集上進行實驗對比,結果顯示本文方法好于主流先進模型。

本文是通過引入圖節點的屬性來實現自適應視圖生成器,相比于GraphCL而言少了對邊的利用。由此在構造圖的時候,如何利用段落間的關系來對邊進行賦值便成了很直觀的問題。如果有很好的對邊賦值的方法,那么就可以讓文本的圖結構更加多樣化,數據增廣的策略也會相應變多,或許可以得到更好的效果。同時,對比學習如果訓練過多會導致數據間的距離被拉得過開,如何設置停止機制也將是未來研究的重點。

猜你喜歡
文本實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 青青青草国产| 成人福利在线看| 自拍偷拍一区| 中国精品自拍| 久久精品丝袜| 亚洲国产天堂久久九九九| 中文字幕1区2区| 亚洲精品无码成人片在线观看| 中文字幕 欧美日韩| 亚洲AV一二三区无码AV蜜桃| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 欧美激情视频二区三区| 国产成人综合在线视频| 国产精品一区二区久久精品无码| 嫩草影院在线观看精品视频| 国产亚洲第一页| 国产最新无码专区在线| 成人一级免费视频| 欧美不卡视频一区发布| 欧美 国产 人人视频| 五月婷婷综合网| 成人免费一级片| 91精品小视频| 伊人五月丁香综合AⅤ| 夜精品a一区二区三区| 精品小视频在线观看| 欧美国产日本高清不卡| 国产午夜一级毛片| 天天综合网亚洲网站| 伊在人亚洲香蕉精品播放| 亚洲第一香蕉视频| 人人看人人鲁狠狠高清| 日本少妇又色又爽又高潮| 亚洲中文字幕久久无码精品A| 亚洲成人一区在线| 国产在线自乱拍播放| 永久免费AⅤ无码网站在线观看| 精品视频免费在线| 十八禁美女裸体网站| 久久久久青草线综合超碰| 精品国产香蕉伊思人在线| 91精品视频播放| 特级aaaaaaaaa毛片免费视频| 欧美a级在线| 国产精品林美惠子在线播放| 国产欧美日韩专区发布| 99精品福利视频| 夜夜拍夜夜爽| 国内精品久久久久鸭| 国产又黄又硬又粗| 中国国产高清免费AV片| 色噜噜综合网| 中国黄色一级视频| 亚洲精品在线影院| 欧美成人日韩| 亚洲天堂色色人体| 国产av无码日韩av无码网站| 亚洲第一黄片大全| 中文字幕欧美成人免费| 午夜视频日本| 五月婷婷激情四射| 91精品国产一区| 国产人成午夜免费看| 无码电影在线观看| 国产第一页亚洲| 亚洲成年网站在线观看| 亚洲国产亚洲综合在线尤物| 91网址在线播放| 亚洲综合极品香蕉久久网| 欧美一级高清片欧美国产欧美| 91精品国产情侣高潮露脸| 国产91丝袜在线播放动漫 | 性视频久久| 日韩中文字幕亚洲无线码| 亚洲第一在线播放| 国产探花在线视频| 中文字幕久久波多野结衣| 精品国产成人三级在线观看| 又大又硬又爽免费视频| 国产亚洲精久久久久久无码AV| 日韩黄色在线| 久青草免费在线视频|