999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于類名引導(dǎo)的弱監(jiān)督文本分類

2023-09-13 03:06:58周悅堯奚雪峰崔志明盛勝利仇亞進(jìn)
關(guān)鍵詞:語(yǔ)義單詞分類

周悅堯,奚雪峰,3+,崔志明,盛勝利,仇亞進(jìn)

(1.蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215000;2.蘇州市科技局 蘇州市虛擬現(xiàn)實(shí)智能交互及應(yīng)用重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215000;3.蘇州科技大學(xué) 蘇州智慧城市研究院,江蘇 蘇州 215000;4.德州理工大學(xué) 計(jì)算機(jī)學(xué)院,得克薩斯州 拉伯克市 79401)

0 引 言

文本分類是自然語(yǔ)言處理中的核心基礎(chǔ),廣泛應(yīng)用于情感分析[1]、意圖識(shí)別[2]等典型任務(wù)。近年來(lái),循環(huán)神經(jīng)網(wǎng)絡(luò)[3](recurrent neural network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)[4](convolutional neural network,CNN)、層次注意力網(wǎng)絡(luò)[5](hierarchical attention network,HAN)以及BERT[6]預(yù)訓(xùn)練模型都在文本分類任務(wù)上取得了十分優(yōu)異的成績(jī),受到學(xué)界及工業(yè)界的重點(diǎn)關(guān)注。要訓(xùn)練一個(gè)性能良好的有監(jiān)督分類模型,至少需要消耗數(shù)十萬(wàn)的高質(zhì)量標(biāo)注文檔。然而這樣的標(biāo)注文檔常常需要大量標(biāo)注人員和文檔專家的協(xié)同配合標(biāo)注,時(shí)間和人力成本巨大。由此造成高質(zhì)量標(biāo)注數(shù)據(jù)的缺乏,是有監(jiān)督分類模型難以大規(guī)模落地的重要原因。

為解決上述問(wèn)題,研究者提出了弱監(jiān)督文本分類方法。當(dāng)用戶無(wú)法提供大量標(biāo)注文檔時(shí),也可以通過(guò)為分類模型提供少量種子詞的方式訓(xùn)練模型達(dá)到應(yīng)用要求。例如類別名稱為Sports,用戶給這個(gè)類別提供高度相關(guān)的種子詞可以是basketball、football、athletes,從而模型基于這些種子詞對(duì)屬于Sports的文檔進(jìn)行分類。然而這種方法的局限性在于,相關(guān)種子詞需要依賴對(duì)語(yǔ)料庫(kù)非常熟悉的專家才能準(zhǔn)確提供。

受此啟發(fā),為進(jìn)一步解決標(biāo)注數(shù)據(jù)稀缺問(wèn)題,本文提出一種基于類名引導(dǎo)的弱監(jiān)督文本分類(weakly supervised text classification based on class name guidance,CNG)方法。該方法使用類名作為監(jiān)督源,無(wú)需標(biāo)注數(shù)據(jù),可以根據(jù)用戶提供的類別名稱生成種子詞,為文檔生成偽標(biāo)簽并訓(xùn)練文檔分類器。同時(shí),根據(jù)排名分?jǐn)?shù)對(duì)種子詞集進(jìn)行擴(kuò)展,模型使用迭代的方法不斷改進(jìn)性能。本文工作的主要貢獻(xiàn)有:①設(shè)計(jì)了一種基于類名生成高質(zhì)量種子詞的方法;②提出了一種迭代的弱監(jiān)督文本分類框架;③在公開數(shù)據(jù)集NYT和20 Newsgroups上取得了出色的成績(jī)。

1 相關(guān)工作

1.1 詞向量模型

無(wú)論是英文還是中文,詞語(yǔ)都是自然語(yǔ)言處理中最基本的單元。詞向量技術(shù)可以將文本表示為表達(dá)文本語(yǔ)義的向量。典型的詞向量技術(shù)有Word2Vec[7]、GloVe[8]、ELMo[9]、BERT等。Word2Vec借助詞的上下文得到詞的向量表示,但是它只考慮詞的局部信息;GloVe利用共現(xiàn)矩陣并考慮詞的整體信息來(lái)得到詞的向量表示,但是無(wú)法適用于詞的不同語(yǔ)境;ELMo能夠?qū)W習(xí)到單詞在不同語(yǔ)境中的變化,但是它使用的語(yǔ)言模型是LSTM(long short-term menory),無(wú)法做雙向推理,且并行計(jì)算能力較差。在ELMo的基礎(chǔ)上,BERT具有更強(qiáng)的雙向推理和并行計(jì)算能力,但是它得到的單詞向量表示存在各向異性,即詞向量會(huì)不均勻分布,導(dǎo)致詞向量之間的距離不能很好地表示語(yǔ)義相似性。

1.2 文檔分類器

文本分類是自然語(yǔ)言處理中一個(gè)長(zhǎng)期研究的問(wèn)題。主流的深度神經(jīng)網(wǎng)絡(luò)文本分類TextRNN[3]模型通過(guò)對(duì)文本的逐字分析,將語(yǔ)義存儲(chǔ)于隱藏層中,可以很好地捕捉文本的上下文語(yǔ)義,但是模型存在偏差,后面的詞會(huì)比前面的更占優(yōu)。TextCNN[4]模型通過(guò)一維卷積來(lái)提取句子的特征表示,具備強(qiáng)大的淺層文本抽取能力,但是受限于固定filter,針對(duì)長(zhǎng)文本效果不佳。CRNN[10]模型丟棄了傳統(tǒng) CNN中使用的池化層并用LSTM進(jìn)行替代,以捕捉文本間的長(zhǎng)距離依賴關(guān)系。文本分類的層次注意力網(wǎng)絡(luò)模型[5],首先將注意力機(jī)制[11](Attention Mechanism)應(yīng)用到文檔中的句子,然后拓展應(yīng)用到句子中的單詞,從而找到文檔中最重要的句子和單詞。

1.3 弱監(jiān)督文本分類方法

弱監(jiān)督文本分類方法的提出,是為解決標(biāo)注數(shù)據(jù)稀缺的問(wèn)題。弱監(jiān)督文本分類方法的監(jiān)督源是各種形式的種子信息,其中Cai等[12],Miyato等[13]和Xu等[14]的方法使用一些已標(biāo)注的訓(xùn)練文檔;Wang等[15],Meng等[16],Chu等[17]和Tao等[18]的方法使用類別名稱;Meng等[19]和Dheeraj等[20]的方法使用專家提供的種子詞。Cai等提出的PTE將標(biāo)注文檔作為種子信息,使用標(biāo)注和未標(biāo)注的數(shù)據(jù)學(xué)習(xí)文本向量,利用邏輯回歸模型進(jìn)行分類;Chu等提出的Dataless將類名作為種子信息,通過(guò)將標(biāo)簽和文檔嵌入語(yǔ)義空間,計(jì)算文檔和潛在標(biāo)簽之間的語(yǔ)義相似度,對(duì)文檔進(jìn)行分類;Tao等提出的Doc2Cube將類名作為種子信息,并通過(guò)學(xué)習(xí)維度感知嵌入來(lái)執(zhí)行多維文檔分類;Dheeraj等提出的ConWea將種子詞作為種子信息,利用語(yǔ)境化表示技術(shù)進(jìn)行語(yǔ)境化文本分類。

2 基于類名引導(dǎo)的弱監(jiān)督文本分類

本文提出一種弱監(jiān)督文本分類方法CNG http://github.com/orabB/CNG,從類名出發(fā)并結(jié)合種子詞,使用無(wú)監(jiān)督詞向量模型Word2Vec學(xué)習(xí)向量表示,對(duì)類名和語(yǔ)料庫(kù)之間的關(guān)系進(jìn)行建模;通過(guò)語(yǔ)義相關(guān)性和語(yǔ)義特異性來(lái)設(shè)計(jì)排名分?jǐn)?shù)并生成種子詞,采用迭代方式為未標(biāo)注文檔生成偽標(biāo)簽,訓(xùn)練文本分類器HAN,并結(jié)合訓(xùn)練結(jié)果擴(kuò)展種子詞。CNG方法能夠基于語(yǔ)義相似性和語(yǔ)義特異性生成高質(zhì)量的種子詞,進(jìn)一步解決標(biāo)注數(shù)據(jù)稀缺問(wèn)題;同時(shí),迭代的訓(xùn)練框架能夠提升模型的泛化能力。

如圖1所示,本文所提CNG方法一共分為種子詞生成,生成偽標(biāo)簽和文檔分類器以及種子詞擴(kuò)展3個(gè)主要模塊。

圖1 方法架構(gòu)

2.1 種子詞生成

本節(jié)詳細(xì)描述候選詞集的生成,以及通過(guò)排名機(jī)制挑選出高質(zhì)量的種子詞。關(guān)于如何界定高質(zhì)量的種子詞,本方法聯(lián)合考慮單詞的語(yǔ)義相關(guān)性和語(yǔ)義特異性。種子詞w對(duì)于類的標(biāo)簽名l來(lái)說(shuō),首先要滿足w和l語(yǔ)義相關(guān),其次w較l而言更加具體且排他。例如football和ball,football屬于ball一類,但是football更具體,football是一種具體的ball,它也只能屬于ball一類。下面分析如何對(duì)單詞和文檔進(jìn)行建模,以及如何設(shè)計(jì)種子詞排名機(jī)制。

2.1.1 候選詞集的生成

本文提供的監(jiān)督源是類名,在弱監(jiān)督文本分類任務(wù)中極具挑戰(zhàn)。CNG使用Skip-Gram[21]模型學(xué)習(xí)語(yǔ)料庫(kù)中所有單詞的m維向量表示。同時(shí)為了能夠更加高效地捕捉其中的語(yǔ)義關(guān)聯(lián),CNG將所有的m維向量都進(jìn)行單位化操作,并通過(guò)vMF分布[22]建模語(yǔ)料庫(kù)中單詞m維向量和標(biāo)簽l的關(guān)聯(lián)。分布表達(dá)式如下

f(xw,ul,kl)=exp(kluTlxw)km/2-1l(2π)m/2Im/2-1(kl)

(1)

其中,xw是語(yǔ)料庫(kù)中單詞的m維向量,Im/2-1(kl) 是m/2-1階的第一類修正貝塞爾函數(shù)。vMF分布有平均方向和集中參數(shù)兩個(gè)參數(shù),在這里標(biāo)簽名向量ul被作為平均方向,其它單詞在標(biāo)簽名附近的集中程度kl被作為集中參數(shù)。所有單位向量都會(huì)分布在單位超球體上,與標(biāo)簽名語(yǔ)義相關(guān)的單詞都會(huì)聚集在標(biāo)簽名周圍,如圖2所示。

圖2 vMF分布

通過(guò)向量余弦相似度獲取一組與標(biāo)簽名l高度語(yǔ)義相關(guān)的單詞Wk。計(jì)算公式如下

Wk=argmaxWksim(w,l)

(2)

sim(w,l)=cos(w,l)=w·l|w|·|l|

(3)

其中,單詞Wk的獲取并不是無(wú)止盡的,界定值ts被用來(lái)作為不同類別之間不能共享單詞的最大數(shù)字,單詞Wk的數(shù)量不能超過(guò)這個(gè)數(shù)值。

Word2Vec中有CBOW和Skip-Gram兩種模型,CBOW模型的主要工作是根據(jù)給定的上下文去預(yù)測(cè)輸入的單詞,其核心功能與本節(jié)工作相悖,故不采用。CNG采用的Skip-Gram模型的主要工作是根據(jù)輸入給定的中心詞,首先通過(guò)隱藏層權(quán)重矩陣的計(jì)算,最后通過(guò)softmax輸出預(yù)測(cè)的上下文,Skip-Gram的模型結(jié)構(gòu)如圖3所示。

圖3 Skip-Gram模型結(jié)構(gòu)

2.1.2 種子詞的挑選

至此生成的候選詞集已經(jīng)滿足語(yǔ)義相關(guān)性的要求,但要生成高質(zhì)量的種子詞還需聯(lián)合考慮語(yǔ)義特異性。詞集樣例見表1。

表1 詞集樣例

如果單詞v的含義包含了另一個(gè)單詞w含義,那么單詞v的所有上下文特征也會(huì)在單詞w中出現(xiàn)。使用標(biāo)量SCw,l將單詞w與標(biāo)簽名l關(guān)聯(lián),SCw,l越大時(shí),表明單詞w的語(yǔ)義較標(biāo)簽名l而言更具體且排他。標(biāo)量SCw,l計(jì)算公式如下

SCw,l=∑f∈F(w)∩F(l)RFF(w,f)+RFF(l,f)∑f∈F(w)RFF(w,f)+∑f∈F(l)RFF(l,f)

(4)

其中,F(xiàn)(w),F(xiàn)(l) 是活動(dòng)特征,RFF是著眼于最突出特征的權(quán)重函數(shù)。為方便下一步計(jì)算,CNG將單詞的SCw,l值進(jìn)行歸一化操作,以此得到語(yǔ)義特異性分?jǐn)?shù),計(jì)算公式如下

SSw,l=SCw,l∑SCwi,l

(5)

其中,SSw,l是詞集中的單詞的語(yǔ)義特異性分?jǐn)?shù),取值范圍為[0,1]。

利用學(xué)習(xí)到的語(yǔ)義相關(guān)性和語(yǔ)義特異性來(lái)進(jìn)行綜合考慮,特定類的理想種子詞應(yīng)該與該類語(yǔ)義高度相關(guān)并且排他。因此,高質(zhì)量的種子詞被確定為與標(biāo)簽l具有較高的語(yǔ)義相關(guān)性和語(yǔ)義特異性的詞,最終種子詞排名分?jǐn)?shù)計(jì)算如下

Rw,l=sim(w,l)×SSw,l

(6)

2.2 生成偽標(biāo)簽和文檔分類器

首先為部分未標(biāo)注文檔生成偽標(biāo)簽以此來(lái)預(yù)訓(xùn)練文檔分類器,之后在未標(biāo)記的文檔上精煉文檔分類器。

2.2.1 生成偽標(biāo)簽

對(duì)于給定的文檔Di,它屬于標(biāo)簽名l的概率和它的種子詞的排名分?jǐn)?shù)成正比。計(jì)算公式如下

P(l|Di)∝∑w∈Di∩SwlfDi,w×Rw,l

(7)

其中,fDi,w是單詞w在文檔Di中的詞條頻率,Swl是詞集,Rw,l是種子詞的排名分?jǐn)?shù)。在首次迭代中,CNG使用第一次的生成排名分?jǐn)?shù),而在接下來(lái)的迭代中則使用擴(kuò)展分?jǐn)?shù)。因此,對(duì)于文檔Di的偽標(biāo)簽分配將按照如下公式

l(Di)=argmaxlP(l|Di)

(8)

2.2.2 文檔分類器

CNG方法的重點(diǎn)在于對(duì)弱監(jiān)督種子信息的處理和應(yīng)用,使用層次注意力網(wǎng)絡(luò)模型(HAN)作為文檔分類器。整個(gè)網(wǎng)絡(luò)可以被看作兩部分,詞注意力部分以及句子注意力部分。HAN可以先關(guān)注文檔中的句子,找到文檔中的重要句子;然后關(guān)注句子中的單詞,識(shí)別句子中的重要單詞;接著使用生成的偽標(biāo)簽在未標(biāo)記的文檔數(shù)據(jù)上訓(xùn)練一個(gè)HAN模型。對(duì)于文檔Di,它估計(jì)的每個(gè)標(biāo)簽名l的預(yù)測(cè)概率將被用于后續(xù)種子詞的擴(kuò)展。分類器模型如圖4所示。

圖4 文檔分類器模型

2.3 種子詞擴(kuò)展

傳統(tǒng)的種子驅(qū)動(dòng)方法都遵循迭代框架,它們使用啟發(fā)式方法生成偽標(biāo)簽,學(xué)習(xí)文檔和類之間的映射,并擴(kuò)展種子集。CNG結(jié)合文檔及其預(yù)測(cè)的標(biāo)簽名概率,從每個(gè)標(biāo)簽名候選詞的排名分?jǐn)?shù)出發(fā),使用排名前幾位的候選詞來(lái)擴(kuò)展種子詞。擴(kuò)展的種子詞也應(yīng)當(dāng)具有高度的語(yǔ)義相關(guān)性,同時(shí)不會(huì)屬于多個(gè)標(biāo)簽的種子詞集。除此以外,擴(kuò)展的種子詞在預(yù)測(cè)的文檔中應(yīng)該有較高的出現(xiàn)頻率。

2.3.1 出現(xiàn)頻率

要想成為標(biāo)簽名l的擴(kuò)展種子詞,它必須在標(biāo)簽名l的文檔中大量出現(xiàn)。這里需要計(jì)算單詞w在所有標(biāo)簽l的文檔中出現(xiàn)的平均頻率,平均頻率的衡量標(biāo)準(zhǔn)如下

AF(l,w)=fl,wNuml

(9)

其中,Numl是被預(yù)測(cè)為標(biāo)簽名l的文檔總數(shù),fl,w是單詞w在被預(yù)測(cè)為標(biāo)簽名l的文檔中的出現(xiàn)頻率。

2.3.2 擴(kuò)展分?jǐn)?shù)

將出現(xiàn)頻率與上文的排名分?jǐn)?shù)相結(jié)合,得到單詞w關(guān)于標(biāo)簽名l的排名分?jǐn)?shù)。基于這個(gè)排名分?jǐn)?shù),就可以為標(biāo)簽名l擴(kuò)展新的高質(zhì)量的種子詞。擴(kuò)展分?jǐn)?shù)如下

R(l,w)=Rw,l×AF(l,w)

(10)

其中,Rw,l,AF(l,w) 分別是上文提到的排名分?jǐn)?shù)和平均頻率。

種子詞擴(kuò)展具有適應(yīng)性,每個(gè)標(biāo)簽有不同數(shù)量的擴(kuò)展種子詞。在第一次迭代中,只使用詞集里排名前幾位的單詞作為種子詞,其它單詞則將作為下一步迭代的候選擴(kuò)展種子詞。

在擴(kuò)展各個(gè)標(biāo)簽的種子詞之后,生成偽標(biāo)簽并訓(xùn)練分類器。這個(gè)過(guò)程在T次迭代中反復(fù)進(jìn)行。

3 實(shí) 驗(yàn)

在兩個(gè)公開數(shù)據(jù)集NYT數(shù)據(jù)集和20 Newsgroups數(shù)據(jù)集上,對(duì)提出的方法CNG與現(xiàn)有的方法進(jìn)行對(duì)比評(píng)估,數(shù)據(jù)集都進(jìn)行弱監(jiān)督分類設(shè)置。

3.1 環(huán)境設(shè)置

實(shí)驗(yàn)使用的環(huán)境與配置見表2。

表2 實(shí)驗(yàn)環(huán)境與配置

3.2 數(shù)據(jù)集

3.2.1 NYT數(shù)據(jù)集

NYT數(shù)據(jù)集抓取了紐約時(shí)報(bào)從2009年11月到2010年1月的所有商業(yè)文章,其文本分類數(shù)據(jù)集分為5個(gè)類,共計(jì)13 081個(gè)文檔,平均長(zhǎng)度778,具體如圖5(a)所示。

圖5 數(shù)據(jù)集數(shù)量分布

3.2.2 20Newsgroups數(shù)據(jù)集

20Newsgroups數(shù)據(jù)集是用于文本分類、文本挖據(jù)和信息檢索研究的國(guó)際標(biāo)準(zhǔn)數(shù)據(jù)集之一,其文本分類數(shù)據(jù)集分為7個(gè)大類,共計(jì)18 828個(gè)文檔,平均長(zhǎng)度303,具體如圖5(b)所示。

3.3 評(píng)價(jià)指標(biāo)

考慮到兩個(gè)數(shù)據(jù)集不平衡的標(biāo)簽分布,采用F1-score作為評(píng)估指標(biāo)(micro-F1和macro-F1),它是統(tǒng)計(jì)學(xué)中用來(lái)衡量分類模型精確度的一種指標(biāo),用于測(cè)量不均衡數(shù)據(jù)的精度,可以同時(shí)兼顧分類模型的精確率和召回率。在實(shí)驗(yàn)中使用sklearn.metrics包的f1_score()方法進(jìn)行統(tǒng)計(jì)。

3.4 實(shí)驗(yàn)設(shè)置

所有的對(duì)比方法都嚴(yán)格按照原始論文中描述的參數(shù)來(lái)進(jìn)行復(fù)現(xiàn)。對(duì)于CNG,鑒于它是迭代的訓(xùn)練過(guò)程,參數(shù)僅僅是迭代次數(shù)T,因此將迭代次數(shù)T設(shè)置為8。

3.5 迭代次數(shù)

圖6是迭代次數(shù)和方法效果的關(guān)系圖,其中圖6(a)是NYT數(shù)據(jù)集的結(jié)果,圖6(b)是20Newsgroups數(shù)據(jù)集的結(jié)果。

圖6 迭代次數(shù)和方法效果關(guān)系

在本文的方法中,迭代次數(shù)T是唯一的超參數(shù)。從圖中可以觀察到,雖然第一次迭代的訓(xùn)練表現(xiàn)處于較低的水平(第一次迭代是未使用擴(kuò)展種子詞的訓(xùn)練),但是在接下來(lái)的迭代中訓(xùn)練表現(xiàn)攀升,實(shí)驗(yàn)結(jié)果驗(yàn)證了種子詞擴(kuò)展的有效性。從全局來(lái)看,在第五次迭代左右,F(xiàn)1-score逐漸平緩,表明在5次迭代后,擴(kuò)展的種子詞無(wú)法對(duì)模型產(chǎn)生進(jìn)一步的影響,模型效果收斂。

3.6 詞向量模型對(duì)比

本文使用的Word2Vec與以下兩種詞向量模型進(jìn)行比較:采用BERT與GloVe代替Word2Vec作為CNG方法的詞向量模型。

Word2Vec:本文使用的是其中的Skip-Gram模型,通過(guò)最大化使用中心詞預(yù)測(cè)其上下文單詞的概率。

GloVe:通過(guò)分解全局單詞共現(xiàn)矩陣來(lái)學(xué)習(xí)單詞向量,其中共現(xiàn)定義在固定大小的上下文窗口上。

BERT:BERT是一種先進(jìn)的預(yù)訓(xùn)練語(yǔ)言模型,提供上下文化的單詞向量。它可以預(yù)測(cè)隨機(jī)隱藏的單詞和連續(xù)的句子關(guān)系。

圖7是在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比圖,其中圖7(a)為NYT數(shù)據(jù)集的結(jié)果,圖7(b)為20Newsgroups數(shù)據(jù)集的結(jié)果。

圖7 詞向量實(shí)驗(yàn)對(duì)比

如圖7所示,Word2Vec表現(xiàn)最佳,GloVe表現(xiàn)稍次之。無(wú)監(jiān)督詞向量模型在標(biāo)注數(shù)據(jù)稀缺的情況下表現(xiàn)出色。盡管BERT在有監(jiān)督任務(wù)中性能出色,但在弱監(jiān)督條件下,它的表現(xiàn)明顯較差。原因在于BERT向量存在各向異性,向量不均勻地分布,這使語(yǔ)義相似度的計(jì)算存在偏差,從而導(dǎo)致性能不佳。

3.7 文檔分類器對(duì)比

本文使用HAN分類器與CNN分類器進(jìn)行比較:采用CNN代替HAN作為CNG方法的文檔分類器。

HAN:基于詞匯層級(jí)和句子層級(jí)來(lái)考慮文本的特征,同時(shí)采用注意力機(jī)制將選擇模型分類的重點(diǎn)。

CNN:通過(guò)一維卷積來(lái)提取句子的特征表示。

圖8是在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比圖,其中圖8(a)為NYT數(shù)據(jù)集的結(jié)果,圖8(b)為20Newsgroups數(shù)據(jù)集的結(jié)果。

圖8 分類器實(shí)驗(yàn)對(duì)比

實(shí)驗(yàn)驗(yàn)證了CNG方法的通用性,可以兼容不同的文檔分類器。從圖中可以得知,HAN模型在兩個(gè)數(shù)據(jù)集上的表現(xiàn)更佳,CNN模型在20Newsgroups數(shù)據(jù)集上的差距較小。而20Newsgroups數(shù)據(jù)集的長(zhǎng)度稍短,沒(méi)有放大CNN在長(zhǎng)距離依賴關(guān)系的不足。

3.8 對(duì)比方法

本節(jié)將提出的CNG方法與近年來(lái)最先進(jìn)的弱監(jiān)督方法進(jìn)行對(duì)比。

LOTClass[16]:該方法提出一種基于預(yù)訓(xùn)練語(yǔ)言模型BERT的弱監(jiān)督文本分類模型,把類別名稱作為監(jiān)督源,查找類別指示詞并訓(xùn)練模型預(yù)測(cè)其隱含類別,最后經(jīng)過(guò)自訓(xùn)練達(dá)到分類目的。

Dataless:該方法僅僅使用類別名稱作為監(jiān)督源,它利用維基百科并使用顯式語(yǔ)義分析來(lái)派生標(biāo)簽和文檔的向量表示。最后每個(gè)文檔都基于文檔-標(biāo)簽的相似性進(jìn)行標(biāo)記。

Doc2Cube:該方法也使用類別名稱作為監(jiān)督源,迭代地執(zhí)行標(biāo)簽、術(shù)語(yǔ)和文檔的聯(lián)合嵌入,通過(guò)學(xué)習(xí)感知維度的嵌入,從而進(jìn)行多維文檔的分類。

WeSTClass[19]:該方法可以使用多種種子信息作為監(jiān)督源,它利用種子信息生成偽文檔,先通過(guò)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)訓(xùn)練,然后在未標(biāo)注文檔上對(duì)模型進(jìn)行精煉,從而達(dá)到分類目的。

PV-DM[23]:該方法首先學(xué)習(xí)語(yǔ)料庫(kù)中所有的句向量表示(句向量繼承了Word2Vec詞向量的特點(diǎn),而且更具優(yōu)勢(shì)),并通過(guò)聚合句向量,得出標(biāo)簽表示。最后每個(gè)文檔都會(huì)被分配與該文檔最相關(guān)的標(biāo)簽。

WeSHClass[24]:該方法提出一種反映類別分類的分層神經(jīng)網(wǎng)絡(luò)模型,把種子詞作為監(jiān)督源,通過(guò)局部分類器預(yù)訓(xùn)練和全局分類器自訓(xùn)練來(lái)完成分類。

CNG-NoGen:該方法是CNG方法的消融版本,采用基于距離度量的種子詞生成方式代替聯(lián)合考慮語(yǔ)義特異性和語(yǔ)義相關(guān)性生成種子詞的方式,其它模塊不變。

3.9 結(jié)果分析

由表3的實(shí)驗(yàn)結(jié)果表明,提出的方法CNG在所有對(duì)比的弱監(jiān)督方法中取得了更高的F1值。在NYT數(shù)據(jù)集上的Macro-F1值為84.2%,Micro-F1值為93.3%,在20Newsgrops數(shù)據(jù)集上的Macro-F1值為65.7%,Micro-F1值為74.0%。所有弱監(jiān)督分類方法在兩個(gè)數(shù)據(jù)集上的Micro-F1都明顯大于Macro-F1,表明在兩個(gè)數(shù)據(jù)集中,它們?cè)谛颖玖康念悇e上分類效果更差。以CNG方法為例,在分配偽標(biāo)簽以及預(yù)訓(xùn)練之后,沒(méi)有足夠的數(shù)據(jù)讓分類模型泛化,從而無(wú)法取得更好的效果。

表3 實(shí)驗(yàn)結(jié)果/%

(1)從表中可以得知,Dataless、Doc2Cube等未使用深度神經(jīng)網(wǎng)絡(luò)模型的傳統(tǒng)方法分類效果不佳。它們?nèi)鄙偕疃壬窠?jīng)網(wǎng)絡(luò)模型的多層計(jì)算能力,對(duì)分類文本中的特征信息、上下文語(yǔ)義環(huán)境等重要因素考慮不足,實(shí)驗(yàn)結(jié)果表明深度神經(jīng)網(wǎng)絡(luò)模型在弱監(jiān)督文本分類任務(wù)上的有效性。然而PV-DM與使用深度神經(jīng)網(wǎng)絡(luò)的WESTClass等方法相比,其實(shí)驗(yàn)結(jié)果在部分指標(biāo)上更具優(yōu)勢(shì)。在標(biāo)注數(shù)據(jù)不足的弱監(jiān)督環(huán)境下,句向量對(duì)于文本的語(yǔ)義表示有積極的作用。

(2)與僅以類別名稱作為監(jiān)督源的方法相比,實(shí)驗(yàn)驗(yàn)證了從類名出發(fā),結(jié)合生成的高質(zhì)量種子詞方法的有效性。以單一種子信息作為監(jiān)督源的方法在性能上已經(jīng)接近瓶頸。CNG在NYT數(shù)據(jù)集上的表現(xiàn)最佳,Macro-F1值為84.2%,Micro-F1值為93.3%;但是在20news數(shù)據(jù)集上的Macro-F1值僅次于LOTClass方法,差距為6.8%。

(3)與把種子詞作為監(jiān)督源的方法相比,實(shí)驗(yàn)結(jié)果表明了CNG中高質(zhì)量種子詞生成及擴(kuò)展方法的有效性。在迭代訓(xùn)練過(guò)程中,CNG學(xué)習(xí)上次迭代過(guò)程中成功預(yù)測(cè)的經(jīng)驗(yàn),以此來(lái)修正分類器并擴(kuò)展種子詞,從而不斷地對(duì)方法進(jìn)行精煉,最終達(dá)到更佳效果。

(4)WESHClass提出的分層標(biāo)簽分類結(jié)構(gòu),針對(duì)種子信息進(jìn)一步細(xì)分,將種子信息組織成分層結(jié)構(gòu),對(duì)種子信息處理方面提供了非常好的思路。但是因?yàn)樵摻Y(jié)構(gòu)采用的LSTM在隱藏狀態(tài)會(huì)丟失一些重要特征,它使用LSTM生成的偽文檔會(huì)對(duì)分類結(jié)果造成負(fù)面影響,所以在數(shù)據(jù)集上表現(xiàn)不是特別好。

(5)CNG-NoGen與CNG相比,性能存在差距。在弱監(jiān)督文本分類任務(wù)中,方法能否對(duì)種子信息進(jìn)行最大程度的利用是決定性能的關(guān)鍵點(diǎn)之一。距離度量的方式能夠捕捉與類名語(yǔ)義相關(guān)的單詞,但是單純的語(yǔ)義相關(guān)無(wú)法處理部分單詞一詞多義的現(xiàn)象。例如,space的單詞釋義有空間、空格和太空等,這使得模型的輸入存在誤差,從而影響分類效果。而聯(lián)合考慮語(yǔ)義相關(guān)性和語(yǔ)義特異性的方式不僅要求單詞與標(biāo)簽名高度的語(yǔ)義相關(guān)性,還要求語(yǔ)義高度排他(單詞沒(méi)有歧義)。

(6)可以從表中觀察到,弱監(jiān)督文本分類方法在20 Newsgroups數(shù)據(jù)集上的表現(xiàn)不佳。原因在于NYT數(shù)據(jù)集上文檔平均長(zhǎng)度是20 Newsgroups數(shù)據(jù)集上文檔平均長(zhǎng)度的2倍多;由于20 Newsgroups數(shù)據(jù)集中多為較短的新聞?wù)Z料,文本內(nèi)部的依賴關(guān)系不突出,CNG方法無(wú)法凸顯HAN分類器在長(zhǎng)文本語(yǔ)料中處理復(fù)雜語(yǔ)料的能力,因此無(wú)法取得良好的表現(xiàn)。然而使用預(yù)訓(xùn)練語(yǔ)言模型BERT的LOTClass方法在Macro-F1和Micro-F1上取得了大于70%的成績(jī),它在文本平均長(zhǎng)度303的20Newsgroups數(shù)據(jù)集上憑借BERT的多層Transformer更好地提取特征,從而取得更出色的分類效果。

4 結(jié)束語(yǔ)

本文提出一種基于類名引導(dǎo)的弱監(jiān)督文本分類方法CNG,其核心策略在于從類名出發(fā)并結(jié)合種子詞生成。CNG方法首先學(xué)習(xí)語(yǔ)料庫(kù)中單詞的向量表示,利用類別名稱生成種子詞,然后生成偽標(biāo)簽,迭代地使用文檔分類器和種子詞擴(kuò)展來(lái)進(jìn)行文本分類。在兩個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了CNG方法的有效性,有望緩解標(biāo)注數(shù)據(jù)稀缺的問(wèn)題。在未來(lái)的研究中,計(jì)劃探索更為有效的監(jiān)督信息,同時(shí)也考慮如何融合不同來(lái)源的監(jiān)督信息,以此來(lái)提高方法的性能,進(jìn)一步降低標(biāo)注數(shù)據(jù)缺乏所帶來(lái)的影響。

猜你喜歡
語(yǔ)義單詞分類
分類算一算
語(yǔ)言與語(yǔ)義
單詞連一連
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
看圖填單詞
教你一招:數(shù)的分類
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語(yǔ)義模糊
最難的單詞
主站蜘蛛池模板: 99国产精品免费观看视频| 国产一级片网址| 98超碰在线观看| 亚洲日韩精品无码专区97| 成人精品免费视频| 国产在线专区| 亚洲午夜国产精品无卡| 亚洲无线国产观看| 又粗又大又爽又紧免费视频| 欧美一级在线| 亚洲人成影视在线观看| 欧美日韩国产成人高清视频| 精品伊人久久久大香线蕉欧美| 欧美a在线看| 久久www视频| 免费三A级毛片视频| 在线观看视频99| 婷婷色在线视频| 亚洲国产精品无码AV| 91破解版在线亚洲| 精品乱码久久久久久久| 国产精品爽爽va在线无码观看| 久久性妇女精品免费| 欧美一道本| 免费无遮挡AV| 日韩毛片免费| 狠狠躁天天躁夜夜躁婷婷| 免费在线成人网| 国产精品一区在线观看你懂的| 亚洲三级成人| 国产浮力第一页永久地址| 日日拍夜夜操| 国产亚洲精品精品精品| 精品国产中文一级毛片在线看 | 六月婷婷激情综合| 9久久伊人精品综合| 乱色熟女综合一区二区| 成人免费午间影院在线观看| 国产精品无码在线看| 国产欧美精品一区二区| 波多野结衣在线se| 人人澡人人爽欧美一区| 天天摸天天操免费播放小视频| 国产精品成人一区二区| 亚洲人成人无码www| 91毛片网| 中文字幕精品一区二区三区视频| v天堂中文在线| 国产精品手机视频一区二区| 日本少妇又色又爽又高潮| 欧美在线伊人| 亚洲成人www| 精品国产一二三区| 国产精品女主播| 亚洲国产精品无码AV| 亚洲制服丝袜第一页| 国产91线观看| 亚洲成人黄色在线| 国产精品永久久久久| 亚洲熟女中文字幕男人总站| 日韩av无码DVD| 2020亚洲精品无码| 国产精品福利社| 欧美国产视频| 国产网友愉拍精品视频| 久热re国产手机在线观看| 四虎在线观看视频高清无码| 欧美日韩v| 国产精品综合久久久| 国产精品欧美日本韩免费一区二区三区不卡| 欧美成人手机在线观看网址| 国产永久无码观看在线| 国产日韩欧美精品区性色| 亚洲AV人人澡人人双人| 激情无码视频在线看| 欧美成人日韩| 国产不卡在线看| 亚洲女同欧美在线| 欧美成人日韩| 免费Aⅴ片在线观看蜜芽Tⅴ| 亚洲 日韩 激情 无码 中出| 亚洲男人天堂久久|