999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

標簽語義增強的弱監督文本分類模型

2023-02-24 05:00:44林呈宇
計算機應用 2023年2期
關鍵詞:語義分類監督

林呈宇,王 雷,薛 聰*

(1.中國科學院 信息工程研究所,北京 100093;2.中國科學院大學 網絡空間安全學院,北京 100049)

0 引言

弱監督文本分類是利用弱監督源(專家知識)來標注數據樣本,在這些弱標注樣本中訓練文本分類模型,最后能夠盡量準確地對文本進行分類的任務。不同于半監督任務,弱監督文本分類任務中沒有用到任何人工標注的類別信息,因此常用于商品評論分類、情感分析、新聞主題分類等實際應用中。例如在情感分類[1]中,可以利用“差評”→消極(用戶提供的種子詞)這樣的弱監督信息來生成大量的弱標簽,最終依據生成的弱標簽對文本分類。常見的弱監督源包括用戶提供的類別詞[2-4]、專家語義規則[5]或外部知識庫[6-7]。作為自然語言處理領域中的一個重要子任務,與完全監督的文本分類任務相比,弱監督文本分類已經被證明在緩解精確標注數據依賴、跨域數據融合、數據補全等方面具有優越性。

以用戶提供的類別詞為弱監督源的文本分類任務為例,其學習框架可以概括為3 個階段[1-4,8-9],如圖1 所示。

1)詞表構建。通常用戶提供的類別詞是不完備的,因此需要詞表生成器對其進行擴充來構建類別詞表。常用的擴充方法有主題詞發現方法[8]和詞向量方法[2-4]。前者主要根據詞共現原理生成類別關鍵詞;后者通常使用word2vec 訓練詞向量,然后基于相似度選取類別詞。

2)樣本標注。在步驟1)所構建的類別詞表基礎上,為文本生成標簽。通常采用顯式匹配方法[2,10-11]和隱式匹配方法[4,12]。顯式匹配方法[2]通常直接統計類別詞在樣本中的出現頻率,選擇最大類別生成弱標簽;隱式匹配[12]則是計算類別詞向量和文本語義向量之間的相似度,選擇最相似的類別賦予樣本。

3)樣本分類。基于步驟2)得到的樣本及其對應的弱標簽(數據),利用監督學習技術訓練樣本分類器。然而由于弱監督文本分類中的低覆蓋率問題導致大量樣本未被識別,如圖1 所示。為了解決該問題,通常采用自訓練技術[10]。首先利用之前訓練的模型預測未匹配語料的高可信標簽,并得到擴充樣本;然后利用擴充樣本重新訓練模型,迭代執行上述步驟,直到模型性能穩定。

圖1 弱監督文本分類的學習框架Fig.1 Learning framework of weakly-supervised text classification

通過對圖1 的弱監督文本分類方法基本框架進行分析可以得知,詞表構建和樣本標注階段會產生大量噪聲,影響分類效果。詞表構建時會引入大量的無關詞,不精確的類別詞表會導致樣本生成錯誤的標注,例如,類別為體育:體育,文體,體檢,體重,足球,總體,字體,…。此外,由于文本語義較之單詞語義更為復雜,根據單詞為文本生成數據標注,通常會導致標注錯誤,即標簽噪聲問題。例如不同語境文本通常存在語義歧義和語義覆蓋問題,例如表1 中以“科技”作為類別詞進行標注,但是句子3 并未出現該詞,而句子2 出現了,盡管前者不包含該詞,但是屬于該類別,存在未識別現象,而后者則屬于誤識別。

表1 弱監督文本分類中的噪聲示例Tab.1 Noise instances in weakly-supervised text classification

為了降低上述噪聲問題,國內外學者展開一系列相關研究。Mekala 等[2]提出了一種基于上下文語義的詞義去噪方法ConWea,該方法采用最近鄰節點(K-Nearest Neighbors,KNN)方法對詞的上下文語義進行區分,從而構建高準確的類別詞表,但是該方法忽視了標簽噪聲問題。為了克服標簽噪聲帶來的不良影響,COSINE(COntrastive Self-training framework)[1]設計了一種基于對比學習的正則化損失函數,該方法通過學習更好的樣本表示來對抗標簽噪聲的影響。Jindal 等[13]從模型結構的角度,設計了專門的標簽適應層來學習標簽噪聲分布,并計算真實標簽分布來克服標簽噪聲的影響。為了解決類別詞表引發的低覆蓋率問題,文獻[1-3,12]中引入自訓練技術,使用模型預測的標簽擴充訓練集以提高數據覆蓋率。Meng 等[3]使用模型預測的高置信度標簽來優化模型參數,在提高數據覆蓋率的同時提高了模型的性能。但是這些方法通常忽視了標簽噪聲在該階段對模型性能的影響,在訓練的后期,模型會過擬合標簽噪聲而性能退化。

綜上,要想提高弱監督文本分類的性能,核心要解決的關鍵問題是:詞表的有效擴充與樣本標注過程的標簽噪聲問題。準確的類別詞表可以減少生成的錯誤標簽;而降低標簽生成過程的噪聲,則可以得到更精確的標注數據。針對這兩個問題,本文歸納了基于 BERT(Bidirectional Encoder Representations from Transformers)的弱監督文本分類的一般化方法,并提出了一種標簽語義增強的弱監督文本分類模型(Label Semantics Enhanced weakly-supervised Text Classification,LSETClass),值得強調的是該模型還具備多語種泛化能力。在詞表構建階段,本文提出了基于Zipf 定律[14]的加權類別表示的類別詞去噪算法,巧妙利用了語義相似度遞減特性去除類別詞表中的無關詞。在樣本標注階段,本文提出了一種基于MASK 機制的詞類別預測方法,能夠結合自訓練模塊解決“句-詞”跨層級語義單元的匹配誤差問題和低覆蓋率問題。在THUCNews 中文數據集(20 萬條)、AG News英文數據集(12 萬條)和IMDB 英文影評數據集的分類準確率(Acc)與目前最先進的弱監督文本分類模型LOTClass(Labelname-Only Text Classification)[12]相比,分類準確率分別取得了5.29個百分點、1.41個百分點和1.86個百分點的提升。

本文的主要工作如下:

1)提出了基于上下文表示的類別詞去噪方法。該方法在充分利用詞上下文語義的基礎上,基于Zipf 定律可以構建更準確的類別表示,最后采用距離監督對類別詞表進行去噪,降低了類別詞表的噪聲率。另外,超參數的設置,也使得該方法的應用更靈活。

2)構造了標簽語義的自訓練方法。引入標簽語義因素聯合句向量表示,達到具有對抗標簽噪聲的效果,提高了模型的穩定性和魯棒性。

3)本文所提模型LSETClass 在不同語種環境中都具有效果,本文在中文和英文兩類語言測試環境下與對比模型相比均有性能提升。

4)總結了基于BERT 的弱監督文本分類模型,并概括出了該類模型的一般化方法。

1 相關研究

弱監督文本分類旨在基于類別的詞級描述對文檔進行分類,而不需要任何人為標注的數據。對于這類任務,目前的方法按照所采用的技術可以分為三種,分別為無數據分類方法、基于主題模型的方法和基于神經網絡的方法。

無數據分類[15]這類方法純粹地從一般知識中學習,而不需要任何標注信息。它通常依賴于Wikipedia 來解釋標簽名的語義,并且通過顯式的語義分析來推導文檔的概念相關性。

基于主題模型的方法[8,16]主題模型能夠很好地捕獲文檔中的詞共現特性,可以挖掘更精準的類別詞。因此,Li等[8]提出了一種類別詞引導的主題模型方法(Seed-guided Topic Model,STM),使用用戶提供的類別詞來引導主題模型生成相同主題的關鍵詞,然后基于距離監督來生成帶偽標簽的偽文檔,最后使用偽文檔訓練分類器。但是這類方法挖掘的主題詞通常是上下文無關的或者詞共現頻率較高的相關詞,并非同義詞或者真正與主題相關的詞,因此這類方法的準確性并不高。

基于神經網絡的方法 由于基于深度學習的神經網絡方法在有監督任務下的出色表現,一些研究者[3,9]也將神經網絡方法應用到弱監督文本分類中。WeSTClass(Weakly-Supervised neural Text Classification)[3]構建了一個統一的弱監督文本分類框架,通過類別詞生成偽文檔來訓練神經網絡分類器,擴充了訓練語料庫。該方法在隨后被拓展為WeSHClass(Weakly-Supervised Hierarchical text Classification)[9]用于多標簽的弱監督文本分類任務。最近由于預訓練語言模型BERT等[17]強大的上下文表示能力有助于減輕噪聲問題,一些學者也嘗試開發一種基于預訓練語言模型的弱監督文本分類方 法。ConWea(Contextualized Weak supervision for text classification)方法[2]針對之前的方法中的類別詞噪聲問題,使用BERT 獲取詞的上下文表示來挖掘更準確的類別詞,然后采用相同的方法來訓練分類器。LOTClass 模型[12]基于MASK 機制以預測的形式擴充擴充類別詞表,然后將句級的監督轉換為詞級監督來緩減標簽噪聲問題,最后為了充分利用完整語料庫中的信息,引入自訓練模塊進行微調,獲得了接近監督學習方法的性能。

2 基于BERT 的弱監督文本分類的一般化方法

BERT 模型[17]是當前應用最廣泛的一種預訓練語言模型,通過自動隨機的MASK 機制來預測文本中的缺失詞,同時利用下一句預測任務來聯合表達文本的語句序列表示,然后通過無監督的最大化MASK 詞項的似然函數[18]在海量文本下進行預訓練。基于BERT 預訓練語言模型在文本語義特征抽取的良好表現,弱監督文本分類可以顯著提升效果[1-3,9,12,18-21]。本文綜合國內外相關文獻總結了BERT 的一般化方法,并針對類別詞表噪聲問題和標簽噪聲問題提出了相應的改進。

現有的基于BERT 的弱監督文本分類方法通常是在原有方法的基礎上,利用BERT 強大的上下文表示能力進行改進,其一般化的模型結構如圖2 所示。

圖2 基于BERT的弱監督文本分類模型框架Fig.2 Framework of weakly-supervised text classification model based on BERT

1)BERT 模塊用于獲取詞的上下文表示。

2)在詞表生成器模塊,基于BERT 的弱監督文本分類方法通常采取判別式方法[1-2,4]或生成式方法[12]。前者通常基于BERT 的上下文表示,使用無監督聚類KNN 或者基于距離監督查找類別相關性單詞;后者通常基于BERT 的MLM(Masked Language Model)頭來預測類別詞,取top-k個詞中出現頻次最高的top-p個單詞作為最終的類別詞表。

3)在樣本標注器模塊中,大部分基于BERT 的弱監督文本分類算法[1,10]通常采用關鍵詞匹配機制賦予文本偽標簽,這種方法來自以下實驗觀察,即給定一段文本,包含某個類別的關鍵詞越多,則屬于對應類別的概率也就越大。

4)在樣本分類階段,模型采用BERT 等預訓練語言模型作為骨干模型,并應用于分類器訓練和自訓練優化階段。自訓練的主要思想是迭代地使用當前模型的預測分布P來計算目標分布Q,其常見目標函數為KL(Kullback-Leibler)散度函數,如式(1)所示:

其中:N是預測分布的樣本數目,K是目標分布的樣本數目。對于目標分布Q的計算,主要包括硬標簽和軟標簽兩種方法。硬標簽方法[22]將模型的高置信度預測轉換為one-hot 標簽,例如qij=1(pij>ρ),其中1(·)表示指示函數。軟標簽方法[23]則通過平方標準化來增強高置信度預測并降低低置信度預測,其具體的計算方法如式(2)所示:

3 標簽語義增強的弱監督文本分類模型

本章將詳細介紹本文提出的標簽語義增強的弱監督文本分類模型(LSETClass)。該模型由以下3 個流程組成:基于上下文表示的類別詞構建、基于MASK 機制的類別詞預測任務和基于標簽語義的自訓練模塊,模型如圖3 所示。受MASK 機制和表示學習的啟發,本文設計了一種基于上下文的類別詞構建技術,以構建更準確的類別詞;然后對每個詞執行基于MASK 機制的詞類別預測任務;另外,由于標簽語義包含更豐富的類別語義信息[24],本文設計了一種基于標簽語義的自訓練模塊(self-training)在[CLS]詞項上進行微調,以將詞級類別預測擴展到句子級的類別預測任務。

圖3 LSETClass模型的學習框架Fig.3 Learning framework of LSETClass model

3.1 基于上下文表示的類別詞構建

基于上下文表示的類別詞構建主要解決現有方法存在的類別詞表噪聲問題。該模塊在詞表構建的過程中比較類別詞與類別表示之間的相關度,從而實現對類別詞表的去噪。直覺上,類別詞應該是語義上的近義詞,即在對應類別的上下文下,具有較近的表示距離。具體而言,先用生成式方法構造候選詞列表,對于候選詞列表中的每個單詞,通過對輸入語料庫中該單詞出現的所有語境化表征進行平均作為其上下文表示,如式(4)所示:

其中:hw表示單詞w的上下文表示,Di,j表示第i個文檔的第j個詞,ti,j表示單詞w為Di,j時的上下文表示。

然后計算每個單詞與類別表示之間的相關性,初始時類別表示為類別名的上下文表示,考慮到類別名與類別的相關度最高,其余詞的相關性逐漸遞減,因此本文引入Zipf 定律計算類別表示,其計算如式(5)所示:

其中:Kc表示類別c對應的詞表大小表示該詞表中的第i個詞,hc表示類別的上下文表示。接著每次選取相關性最高的詞作為候選詞加入新的類別詞表中,并重新計算類別表示和相關性,重復上述步驟,直到剩下單詞與類別表示之間的語義相似性低于閾值σ。該過程的具體流程如圖4 所示。

圖4 基于上下文表示的類別詞構建過程Fig.4 Process of constructing category words based on contextual representation

3.2 基于MASK機制的詞類別預測任務

基于MASK 機制的詞類別預測任務主要解決現有方法的匹配機制在訓練數據中的標簽噪聲問題。該模塊在生成弱標注過程中比較當前詞的近義詞表與類別詞表之間的匹配程度來生成詞類別標注,并使用MASK 機制來利用上下文語義以預測詞的類別,從而實現了詞級監督下對模型參數的訓練。

該任務分為兩個階段:查找類別指示性單詞[9]和詞類別預測。在查找類別指示性單詞階段,針對句子中的每個單詞,使用BERT 模型找到top-k個最相關單詞,然后將這top-k個單詞與每個類別的類別詞表進行比較,選擇交集超過m(m

在詞類別預測階段,對于每個類別指示性單詞w,一般都采用“[MASK]”詞項掩蔽掉原詞,然后通過交叉熵損失訓練分類器,使得模型可以借助上下文表示hw來預測該單詞的類別,該計算過程如式(5)(6)所示:

其中:L1表示損失函數,p(cw|hw)表示給定單詞w的上下文表示hw下,單詞w屬于類別cw的概率,W∈RK×h和b∈RK分別是線性層的模型參數和偏置。采用掩碼機制的好處是可以讓模型通過上下文表示去預測類別指示性單詞的類別,而不是簡單地記憶類別關鍵詞。通過這種方式,BERT 可以學習到更好的詞嵌入,從而有助于預測詞類別。

3.3 基于標簽語義的自訓練模塊

基于標簽語義的自訓練模塊主要解決MASK 機制詞類別預測結果向句子級別類別轉換和標簽噪聲問題。該模塊在自訓練過程中使用“[CLS]”詞項作為句向量表示,并預測其類別,另外通過比較句向量表示與標簽表示之間的相似度來增強自訓練模塊,從而在實現詞級類別預測任務到句子級類別預測任務的轉換的同時,具有對抗標簽噪聲的功能。本文設計的自訓練模塊結構如圖5 所示。

圖5 自訓練階段的學習框架Fig.5 Learning framework of self-training phase

該模塊通過引入標簽嵌入來學習標簽語義,然后結合BERT 生成的句向量表示來計算二者的語義相似度,以計算真實的標簽分布Q,計算如式(7)所示:

其中:為句子表示的轉置,V為標簽嵌入表示,W為語義相似度模塊的全連接網絡參數,b為偏置,q1為模型計算的標簽分布,yone_hot為標簽的one-hot 向量,α為超參數,Q為計算的真實標簽分布。采用本文的標簽分布方式相比硬標簽方式,可以讓模型具備更好的穩定性,如圖6 所示。以交叉熵損失為例,其計算如式(8)所示:

圖6 硬標簽分布圖和本文標簽分布圖Fig.6 Distribution of hard-labels and labels in this paper

其中:pic為第i個訓練樣本屬于第c個類別的概率,yic為第i個訓練樣本對應第c個類別的標簽,N為訓練樣本總數,M為訓練類別總數,Li為第個樣本的交叉熵損失值。因此當預測概率非常小,會導致損失值很高,反之則損失值很小。

可以看到,硬標簽不但損失了正確標簽的語義分布,還會導致更大的損失計算值(錯誤標簽在訓練初始階段的預測概率較小),從而使得模型更容易過擬合錯誤標簽。而本文提出的標簽分布方式不但保留了正確標簽的語義分布,還降低了損失計算值,從而減輕了誤差傳播,降低了模型對標簽噪聲的過擬合;同時,實驗也發現本文所提方法比硬標簽具有更好的泛化性能。

因此,本文采用KL 散度來計算目標分布Q,如式(9)所示:

其中:p(x)為訓練樣本x對應的真實分布,q(x)為訓練樣本對應的預測分布。因此當預測分布和真實標簽分布完全匹配時,KL 散度值為0,并且每50 個batch 更新一次。完整的算法流程如下算法1 所示。

算法1 LSETClass算法流程。

輸入 未標注語料庫D;標簽名集合C;預訓練語言模型M。

輸出 經過訓練后的具備K類別分類能力的模型M。

4 實驗結果與分析

4.1 數據集介紹

THUCNews 數據集 該數據集是由清華大學自然語言處理實驗室提供的公開中文文本分類數據集。數據集主要包括從新浪新聞RSS 訂閱頻道2005—2011 年間的歷史數據中收集的74 萬篇新聞文檔(2.19 GB),每篇文檔對應一個類別,總共涉及14 個候選分類類別:財經、彩票、房產、股票、家居、教育、科技、社會、時尚、時政、體育、星座、游戲、娛樂。在本文中并未使用完整的THUCNews 數據集,而是從中剔除了樣本數較少的星座、彩票、家居和時尚四類數據,并把時政改為政治以更好地擴充類別詞。

AG News 數據集 該數據集是由ComeToMyHead 在一年多的活動中,從2 000 多個新聞來源中收集的新聞文章數據集。本文遵循LOTClass[12]的方式構造數據集,從語料庫中選擇了最大的4 個類別,保留了文章的標題和描述字段,最終訓練集的大小為120 000 篇文檔,測試集的大小為7 600 篇文檔,訓練集和測試集中每個類別分別有30 000 篇文檔和1 900 篇文檔。

IMDB 數據集 該數據集是由Andrew Maas 收集的,用于二元情感分類的數據集,包含比以前的基準數據集更多的數據,提供了25 000 條IMDB 電影評論用于訓練,以及25 000 條用于測試。

另外,為了保證類別均衡,本文還分別從上述3 個數據集中抽取了一定數目的數據,以保證每個類別下的文檔數相同,并在表2 中記錄了數據集的統計信息,其中對THUCNews數據劃分為:70%的訓練集、15%的驗證集和15%的測試集。同時對每條文本數據長度進行截斷,閾值為512 個詞;詞庫以外的詞(Out-of-Vocabulary,OOV)將被“UNK”替換。

表2 數據集簡介Tab.2 Dataset introduction

4.2 評估方法

與其他弱監督文本分類模型的方法相同,本文使用分類準確率(Accuracy,Acc)來評估模型的準確性。通過所有預測正確的標簽數據TP和所有預測樣本數N之比計算得到,反映了模型的預測準確度,其表示如式(10)所示:

4.3 實驗分析

4.3.1 對比實驗

為了充分驗證本文方法的有效性,分別與完全監督、半監督和弱監督下的文本分類算法進行了對比實驗。

1)完全監督算法。

TextCNN:由Kim[25]2014 年提出,使用卷積神經網絡(Convolutional Neural Network,CNN)獲取文本的局部語法語義信息,并且利用多個卷積核提取多維特征,最后對分類的損失函數進行軟邊界優化。此外本文還使用SouGou 預訓練詞向量作為Embedding 層的初始化參數。

長短期記憶(Long Short-Term Memory,LSTM)網絡:2016年由Liu 等[26]提出,使用循環神經網絡(Recurrent Neural Network,RNN)捕獲長短期依賴關系,并使用LSTM 的最后一層作為文本的編碼表示。本文采用了雙向LSTM 作為編碼器層,使用一個全連接層作為分類器層。此外還使用SouGou 預訓練詞向量作為Embedding 層的初始化參數。

BERT:由Devlin 等[17]2018 年提出,利用了Transformer 的encoder 部分,具有卓越的上下文表征能力,在多項下游任務中取得了SOTA(State-Of-The-Art)的結果。本文采用預訓練BERT 作為編碼器,使用一個全連接層作為分類器層。

2)半監督算法。

UDA(Unsupervised Data Augmentation):由Xie 等[27]2019年提出,采用最先進的無監督數據增強技術來實現數據樣本的擴充,僅使用少量標注數據進行監督訓練。該方法還使用反向翻譯[28]和TF-IDF(Term Frequency-Inverse Document Frequency)單詞替換進行擴展,并采用一致性預測方法提升模型性能。

3)弱監督算法。

LOTClass:由Meng 等[3]2020 年提出,使用預訓練的BERT 作為骨干模型,分三個階段類別詞表構建、掩蔽類別詞預測任務和自訓練微調來實現弱監督文本分類,該方法只需要類別名,而不需要任何標注數據,在英文數據集上的性能與基于監督學習的文本分類方法接近。為了讓LOTClass 能夠適用于中文數據集,本文使用追一科技的WoBERT[29]替換了原論文中的BERT,然后將其中的分詞算法修改為適用于中文的分詞算法進行實驗。

本文實驗在以下環境下進行:NVIDIA TESLA V100-32G顯卡,Pytorch1.9.0,Python3.7。在訓練過程中,本文方法采用追一科技的基于詞細粒度的WoBERT 預訓練語言模型,其中BERT 模型結構包含12 層Transformers,隱藏層維度為768,Head 數量為12。對于UDA,本文僅使用EDA(Easy Data Augmentation)算法[30]進行數據擴充,并使用BERT 模型作為骨干模型訓練分類器。

對比實驗結果如表3 所示。實驗結果表明,本文方法在主要評價指標中取得了最好的結果。在THUCNews 數據集上,LSETClass 的準確率相比較于目前最優的弱監督文本分類模型LOTClass 有一定的提升,Acc 值提升了5.29 個百分點;在AG News 數據集上,LSETClass 的ACC 值相比最優模型提升了1.41 個百分點;在IMDB 數據集上,LSETClass 的ACC值提升了1.86 個百分點。在所有模型中,本文提出的LSETClass 模型在兩個數據集上都取得了總體最好的準確率值。Meng 等[3]的LOTClass 模型具有接近監督學習模型的性能,究其原因在于其模型基于MASK 掩碼機制,構造了掩蔽詞類別預測任務,以此挖掘了文本與詞之間的深度關聯,一定程度上提高了模型的準確率,緩解了標簽噪聲問題。

4.3.2 消融實驗分析

為了驗證本文提出的詞表去噪方法的有效性,將詞表去噪模塊作為實驗的消融變量。“LSETClass-WD”表示在不使用詞表去噪模塊的條件下,模型在不同數據集上的性能表現。實驗結果如表3 所示,對比LSETClass 方法,在使用類別詞表去噪方法后,模型的性能在3 個數據集上的提升均有所下降,分別提高了2.55 個百分點、0.63 個百分點和1 個百分點。

為了進一步驗證該方法的有效性,表4 還給出了詞表去噪模塊下的類別詞(LSETClass)和不使用該模塊的類別詞(LOTClass)的部分結果,表中加粗的為噪聲詞,可以看到本文提出的類別詞擴展方法得到的類別詞表,相比不使用該方法得到的類別詞表,具有更少的無關詞,降低了詞表噪聲,同時結合表3 的對比實驗結果,證明了降低類別詞表噪聲可以提高弱監督文本分類模型的性能。

表4 類別詞表在THUCNews數據集上的對比結果Tab.4 Comparison results of category vocabularies on THUCNews dataset

另外,本文還探究了自訓練模塊中是否引入標簽語義對模型性能的影響,實驗結果如表3 所示,“LSETClass-LE”表示不使用自訓練模塊的結果,對比“LSETClass”的結果,可以看到引入標簽語義后,模型在3 個數據集上的性能分別提升了2.76 個百分點、0.77 個百分點和0.95 個百分點,說明在自訓練階段,引入標簽語義可以降低該階段標簽噪聲對模型性能的影響,另外,自訓練模塊的引入可以更充分地利用未匹配數據的信息,從而提升了模型的泛化性能。

表3 不同文本數據集上的準確率實驗結果對比 單位:%Tab.3 Accuracy comparison of experimental results on different text datasets unit:%

5 結語

本文提出了一種標簽語義增強的弱監督文本分類模型。通過預訓練語言模型BERT 獲取上下文表示來去噪類別詞表,有效地去除了類別詞表中的無關詞;利用基于MASK 機制的詞預測任務學習詞與類別之間的關系,減少了詞級-句級語義跨越所帶來的標簽噪聲問題,從而提升模型在弱監督文本分類任務上的性能;通過引入標簽語義,進一步地緩解了自訓練階段的噪聲累積。實驗結果表明,本文方法在3 個公開基準數據集上取得了較好結果,然而本文方法雖然證明了通過融合標簽和文本的內在關系可以提升模型的效果,但是并沒有完全解決標簽噪聲問題。在未來的工作中,將在帶標簽噪聲的文本分類任務上考慮引入不同粒度的外部知識,期望通過引入不同的外部知識,以對抵抗標簽噪聲的影響,從而在盡量少的標注數據條件下,高效準確地預測標簽序列。

猜你喜歡
語義分類監督
分類算一算
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
語言與語義
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 日韩一二三区视频精品| 久久国产乱子| 四虎AV麻豆| 亚洲欧洲日韩综合色天使| 小说区 亚洲 自拍 另类| 18黑白丝水手服自慰喷水网站| 亚洲国产中文在线二区三区免| 四虎综合网| 国产国拍精品视频免费看| 日本不卡视频在线| 免费看久久精品99| 免费大黄网站在线观看| 欧美无专区| 国产亚洲欧美在线人成aaaa| 国产精品成| 久久国产成人精品国产成人亚洲| 伊人查蕉在线观看国产精品| 亚洲黄色片免费看| 亚洲国产精品一区二区高清无码久久| 99999久久久久久亚洲| 久久国产成人精品国产成人亚洲 | 日韩午夜福利在线观看| 人妻无码AⅤ中文字| 最新国产高清在线| 九九热精品视频在线| 狠狠亚洲婷婷综合色香| 黄色片中文字幕| 啪啪免费视频一区二区| 亚洲精品视频免费| 色婷婷丁香| 欧美a级完整在线观看| 91久久国产成人免费观看| 亚洲三级色| 亚洲日本中文综合在线| 在线视频亚洲欧美| 国产偷倩视频| 欧美人在线一区二区三区| 激情無極限的亚洲一区免费| 精品三级网站| 亚洲视频色图| 成人国产精品视频频| 爆操波多野结衣| 亚洲人成网站在线观看播放不卡| 国产成人免费手机在线观看视频| 国产精品大白天新婚身材| 国产精品久久久久久搜索 | 婷婷综合缴情亚洲五月伊| 国产97区一区二区三区无码| 亚洲一区二区精品无码久久久| 亚洲精品欧美日本中文字幕| 亚洲无线一二三四区男男| 国产91丝袜在线播放动漫| 欧美精品成人一区二区在线观看| 国产欧美高清| 国产欧美精品专区一区二区| 91在线播放免费不卡无毒| 欧美日本视频在线观看| 91精品国产91久久久久久三级| 日韩精品欧美国产在线| 在线精品欧美日韩| 欧美成人亚洲综合精品欧美激情 | 亚洲欧美日韩成人高清在线一区| 露脸国产精品自产在线播| 亚洲一区二区三区麻豆| 精品视频第一页| 欧美成人二区| 久久国产高清视频| 亚洲永久色| 精品国产一区91在线| 91啦中文字幕| 中文字幕无线码一区| 精品国产aⅴ一区二区三区| 精品国产自在现线看久久| 婷婷99视频精品全部在线观看 | 亚洲Aⅴ无码专区在线观看q| 91精品国产一区| 好紧太爽了视频免费无码| 一级全黄毛片| 色婷婷色丁香| 97狠狠操| 欧美69视频在线| 高清视频一区|