基于類名引導(dǎo)的弱監(jiān)督文本分類

2023-09-13 03:06:58周悅堯奚雪峰崔志明盛勝利仇亞進(jìn)

計(jì)算機(jī)工程與設(shè)計(jì) 2023年8期

周悅堯，奚雪峰，3+，崔志明，盛勝利，仇亞進(jìn)

(1.蘇州科技大學(xué) 電子與信息工程學(xué)院，江蘇蘇州 215000；2.蘇州市科技局蘇州市虛擬現(xiàn)實(shí)智能交互及應(yīng)用重點(diǎn)實(shí)驗(yàn)室，江蘇蘇州 215000；3.蘇州科技大學(xué) 蘇州智慧城市研究院，江蘇蘇州 215000；4.德州理工大學(xué) 計(jì)算機(jī)學(xué)院，得克薩斯州拉伯克市 79401)

0 引言

文本分類是自然語(yǔ)言處理中的核心基礎(chǔ)，廣泛應(yīng)用于情感分析[1]、意圖識(shí)別[2]等典型任務(wù)。近年來(lái)，循環(huán)神經(jīng)網(wǎng)絡(luò)[3](recurrent neural network，RNN)、卷積神經(jīng)網(wǎng)絡(luò)[4](convolutional neural network，CNN)、層次注意力網(wǎng)絡(luò)[5](hierarchical attention network，HAN)以及BERT[6]預(yù)訓(xùn)練模型都在文本分類任務(wù)上取得了十分優(yōu)異的成績(jī)，受到學(xué)界及工業(yè)界的重點(diǎn)關(guān)注。要訓(xùn)練一個(gè)性能良好的有監(jiān)督分類模型，至少需要消耗數(shù)十萬(wàn)的高質(zhì)量標(biāo)注文檔。然而這樣的標(biāo)注文檔常常需要大量標(biāo)注人員和文檔專家的協(xié)同配合標(biāo)注，時(shí)間和人力成本巨大。由此造成高質(zhì)量標(biāo)注數(shù)據(jù)的缺乏，是有監(jiān)督分類模型難以大規(guī)模落地的重要原因。

為解決上述問(wèn)題，研究者提出了弱監(jiān)督文本分類方法。當(dāng)用戶無(wú)法提供大量標(biāo)注文檔時(shí)，也可以通過(guò)為分類模型提供少量種子詞的方式訓(xùn)練模型達(dá)到應(yīng)用要求。例如類別名稱為Sports，用戶給這個(gè)類別提供高度相關(guān)的種子詞可以是basketball、football、athletes，從而模型基于這些種子詞對(duì)屬于Sports的文檔進(jìn)行分類。然而這種方法的局限性在于，相關(guān)種子詞需要依賴對(duì)語(yǔ)料庫(kù)非常熟悉的專家才能準(zhǔn)確提供。

受此啟發(fā)，為進(jìn)一步解決標(biāo)注數(shù)據(jù)稀缺問(wèn)題，本文提出一種基于類名引導(dǎo)的弱監(jiān)督文本分類(weakly supervised text classification based on class name guidance，CNG)方法。該方法使用類名作為監(jiān)督源，無(wú)需標(biāo)注數(shù)據(jù)，可以根據(jù)用戶提供的類別名稱生成種子詞，為文檔生成偽標(biāo)簽并訓(xùn)練文檔分類器。同時(shí)，根據(jù)排名分?jǐn)?shù)對(duì)種子詞集進(jìn)行擴(kuò)展，模型使用迭代的方法不斷改進(jìn)性能。本文工作的主要貢獻(xiàn)有：①設(shè)計(jì)了一種基于類名生成高質(zhì)量種子詞的方法；②提出了一種迭代的弱監(jiān)督文本分類框架；③在公開數(shù)據(jù)集NYT和20 Newsgroups上取得了出色的成績(jī)。

1 相關(guān)工作

1.1 詞向量模型

無(wú)論是英文還是中文，詞語(yǔ)都是自然語(yǔ)言處理中最基本的單元。詞向量技術(shù)可以將文本表示為表達(dá)文本語(yǔ)義的向量。典型的詞向量技術(shù)有Word2Vec[7]、GloVe[8]、ELMo[9]、BERT等。Word2Vec借助詞的上下文得到詞的向量表示，但是它只考慮詞的局部信息；GloVe利用共現(xiàn)矩陣并考慮詞的整體信息來(lái)得到詞的向量表示，但是無(wú)法適用于詞的不同語(yǔ)境；ELMo能夠?qū)W習(xí)到單詞在不同語(yǔ)境中的變化，但是它使用的語(yǔ)言模型是LSTM(long short-term menory)，無(wú)法做雙向推理，且并行計(jì)算能力較差。在ELMo的基礎(chǔ)上，BERT具有更強(qiáng)的雙向推理和并行計(jì)算能力，但是它得到的單詞向量表示存在各向異性，即詞向量會(huì)不均勻分布，導(dǎo)致詞向量之間的距離不能很好地表示語(yǔ)義相似性。

1.2 文檔分類器

文本分類是自然語(yǔ)言處理中一個(gè)長(zhǎng)期研究的問(wèn)題。主流的深度神經(jīng)網(wǎng)絡(luò)文本分類TextRNN[3]模型通過(guò)對(duì)文本的逐字分析，將語(yǔ)義存儲(chǔ)于隱藏層中，可以很好地捕捉文本的上下文語(yǔ)義，但是模型存在偏差，后面的詞會(huì)比前面的更占優(yōu)。TextCNN[4]模型通過(guò)一維卷積來(lái)提取句子的特征表示，具備強(qiáng)大的淺層文本抽取能力，但是受限于固定filter，針對(duì)長(zhǎng)文本效果不佳。CRNN[10]模型丟棄了傳統(tǒng) CNN中使用的池化層并用LSTM進(jìn)行替代，以捕捉文本間的長(zhǎng)距離依賴關(guān)系。文本分類的層次注意力網(wǎng)絡(luò)模型[5]，首先將注意力機(jī)制[11](Attention Mechanism)應(yīng)用到文檔中的句子，然后拓展應(yīng)用到句子中的單詞，從而找到文檔中最重要的句子和單詞。

1.3 弱監(jiān)督文本分類方法

弱監(jiān)督文本分類方法的提出，是為解決標(biāo)注數(shù)據(jù)稀缺的問(wèn)題。弱監(jiān)督文本分類方法的監(jiān)督源是各種形式的種子信息，其中Cai等[12]，Miyato等[13]和Xu等[14]的方法使用一些已標(biāo)注的訓(xùn)練文檔；Wang等[15]，Meng等[16]，Chu等[17]和Tao等[18]的方法使用類別名稱；Meng等[19]和Dheeraj等[20]的方法使用專家提供的種子詞。Cai等提出的PTE將標(biāo)注文檔作為種子信息，使用標(biāo)注和未標(biāo)注的數(shù)據(jù)學(xué)習(xí)文本向量，利用邏輯回歸模型進(jìn)行分類；Chu等提出的Dataless將類名作為種子信息，通過(guò)將標(biāo)簽和文檔嵌入語(yǔ)義空間，計(jì)算文檔和潛在標(biāo)簽之間的語(yǔ)義相似度，對(duì)文檔進(jìn)行分類；Tao等提出的Doc2Cube將類名作為種子信息，并通過(guò)學(xué)習(xí)維度感知嵌入來(lái)執(zhí)行多維文檔分類；Dheeraj等提出的ConWea將種子詞作為種子信息，利用語(yǔ)境化表示技術(shù)進(jìn)行語(yǔ)境化文本分類。

2 基于類名引導(dǎo)的弱監(jiān)督文本分類

本文提出一種弱監(jiān)督文本分類方法CNG http：//github.com/orabB/CNG，從類名出發(fā)并結(jié)合種子詞，使用無(wú)監(jiān)督詞向量模型Word2Vec學(xué)習(xí)向量表示，對(duì)類名和語(yǔ)料庫(kù)之間的關(guān)系進(jìn)行建模；通過(guò)語(yǔ)義相關(guān)性和語(yǔ)義特異性來(lái)設(shè)計(jì)排名分?jǐn)?shù)并生成種子詞，采用迭代方式為未標(biāo)注文檔生成偽標(biāo)簽，訓(xùn)練文本分類器HAN，并結(jié)合訓(xùn)練結(jié)果擴(kuò)展種子詞。CNG方法能夠基于語(yǔ)義相似性和語(yǔ)義特異性生成高質(zhì)量的種子詞，進(jìn)一步解決標(biāo)注數(shù)據(jù)稀缺問(wèn)題；同時(shí)，迭代的訓(xùn)練框架能夠提升模型的泛化能力。

如圖1所示，本文所提CNG方法一共分為種子詞生成，生成偽標(biāo)簽和文檔分類器以及種子詞擴(kuò)展3個(gè)主要模塊。

圖1 方法架構(gòu)

2.1 種子詞生成

本節(jié)詳細(xì)描述候選詞集的生成，以及通過(guò)排名機(jī)制挑選出高質(zhì)量的種子詞。關(guān)于如何界定高質(zhì)量的種子詞，本方法聯(lián)合考慮單詞的語(yǔ)義相關(guān)性和語(yǔ)義特異性。種子詞w對(duì)于類的標(biāo)簽名l來(lái)說(shuō)，首先要滿足w和l語(yǔ)義相關(guān)，其次w較l而言更加具體且排他。例如football和ball，football屬于ball一類，但是football更具體，football是一種具體的ball，它也只能屬于ball一類。下面分析如何對(duì)單詞和文檔進(jìn)行建模，以及如何設(shè)計(jì)種子詞排名機(jī)制。

2.1.1 候選詞集的生成

本文提供的監(jiān)督源是類名，在弱監(jiān)督文本分類任務(wù)中極具挑戰(zhàn)。CNG使用Skip-Gram[21]模型學(xué)習(xí)語(yǔ)料庫(kù)中所有單詞的m維向量表示。同時(shí)為了能夠更加高效地捕捉其中的語(yǔ)義關(guān)聯(lián)，CNG將所有的m維向量都進(jìn)行單位化操作，并通過(guò)vMF分布[22]建模語(yǔ)料庫(kù)中單詞m維向量和標(biāo)簽l的關(guān)聯(lián)。分布表達(dá)式如下

f(xw，ul，kl)=exp(kluTlxw)km/2-1l(2π)m/2Im/2-1(kl)

(1)

其中，xw是語(yǔ)料庫(kù)中單詞的m維向量，Im/2-1(kl) 是m/2-1階的第一類修正貝塞爾函數(shù)。vMF分布有平均方向和集中參數(shù)兩個(gè)參數(shù)，在這里標(biāo)簽名向量ul被作為平均方向，其它單詞在標(biāo)簽名附近的集中程度kl被作為集中參數(shù)。所有單位向量都會(huì)分布在單位超球體上，與標(biāo)簽名語(yǔ)義相關(guān)的單詞都會(huì)聚集在標(biāo)簽名周圍，如圖2所示。

圖2 vMF分布

通過(guò)向量余弦相似度獲取一組與標(biāo)簽名l高度語(yǔ)義相關(guān)的單詞Wk。計(jì)算公式如下

Wk=argmaxWksim(w，l)

(2)

sim(w，l)=cos(w，l)=w·l|w|·|l|

(3)

其中，單詞Wk的獲取并不是無(wú)止盡的，界定值ts被用來(lái)作為不同類別之間不能共享單詞的最大數(shù)字，單詞Wk的數(shù)量不能超過(guò)這個(gè)數(shù)值。

Word2Vec中有CBOW和Skip-Gram兩種模型，CBOW模型的主要工作是根據(jù)給定的上下文去預(yù)測(cè)輸入的單詞，其核心功能與本節(jié)工作相悖，故不采用。CNG采用的Skip-Gram模型的主要工作是根據(jù)輸入給定的中心詞，首先通過(guò)隱藏層權(quán)重矩陣的計(jì)算，最后通過(guò)softmax輸出預(yù)測(cè)的上下文，Skip-Gram的模型結(jié)構(gòu)如圖3所示。

圖3 Skip-Gram模型結(jié)構(gòu)

2.1.2 種子詞的挑選

至此生成的候選詞集已經(jīng)滿足語(yǔ)義相關(guān)性的要求，但要生成高質(zhì)量的種子詞還需聯(lián)合考慮語(yǔ)義特異性。詞集樣例見表1。

表1 詞集樣例

如果單詞v的含義包含了另一個(gè)單詞w含義，那么單詞v的所有上下文特征也會(huì)在單詞w中出現(xiàn)。使用標(biāo)量SCw，l將單詞w與標(biāo)簽名l關(guān)聯(lián)，SCw，l越大時(shí)，表明單詞w的語(yǔ)義較標(biāo)簽名l而言更具體且排他。標(biāo)量SCw，l計(jì)算公式如下

SCw，l=∑f∈F(w)∩F(l)RFF(w，f)+RFF(l，f)∑f∈F(w)RFF(w，f)+∑f∈F(l)RFF(l，f)

(4)

其中，F(xiàn)(w)，F(xiàn)(l) 是活動(dòng)特征，RFF是著眼于最突出特征的權(quán)重函數(shù)。為方便下一步計(jì)算，CNG將單詞的SCw，l值進(jìn)行歸一化操作，以此得到語(yǔ)義特異性分?jǐn)?shù)，計(jì)算公式如下

SSw，l=SCw，l∑SCwi，l

(5)

其中，SSw，l是詞集中的單詞的語(yǔ)義特異性分?jǐn)?shù)，取值范圍為[0，1]。

利用學(xué)習(xí)到的語(yǔ)義相關(guān)性和語(yǔ)義特異性來(lái)進(jìn)行綜合考慮，特定類的理想種子詞應(yīng)該與該類語(yǔ)義高度相關(guān)并且排他。因此，高質(zhì)量的種子詞被確定為與標(biāo)簽l具有較高的語(yǔ)義相關(guān)性和語(yǔ)義特異性的詞，最終種子詞排名分?jǐn)?shù)計(jì)算如下

Rw，l=sim(w，l)×SSw，l

(6)

2.2 生成偽標(biāo)簽和文檔分類器

首先為部分未標(biāo)注文檔生成偽標(biāo)簽以此來(lái)預(yù)訓(xùn)練文檔分類器，之后在未標(biāo)記的文檔上精煉文檔分類器。

2.2.1 生成偽標(biāo)簽

對(duì)于給定的文檔Di，它屬于標(biāo)簽名l的概率和它的種子詞的排名分?jǐn)?shù)成正比。計(jì)算公式如下

P(l|Di)∝∑w∈Di∩SwlfDi，w×Rw，l

(7)

其中，fDi，w是單詞w在文檔Di中的詞條頻率，Swl是詞集，Rw，l是種子詞的排名分?jǐn)?shù)。在首次迭代中，CNG使用第一次的生成排名分?jǐn)?shù)，而在接下來(lái)的迭代中則使用擴(kuò)展分?jǐn)?shù)。因此，對(duì)于文檔Di的偽標(biāo)簽分配將按照如下公式

l(Di)=argmaxlP(l|Di)

(8)

2.2.2 文檔分類器

CNG方法的重點(diǎn)在于對(duì)弱監(jiān)督種子信息的處理和應(yīng)用，使用層次注意力網(wǎng)絡(luò)模型(HAN)作為文檔分類器。整個(gè)網(wǎng)絡(luò)可以被看作兩部分，詞注意力部分以及句子注意力部分。HAN可以先關(guān)注文檔中的句子，找到文檔中的重要句子；然后關(guān)注句子中的單詞，識(shí)別句子中的重要單詞；接著使用生成的偽標(biāo)簽在未標(biāo)記的文檔數(shù)據(jù)上訓(xùn)練一個(gè)HAN模型。對(duì)于文檔Di，它估計(jì)的每個(gè)標(biāo)簽名l的預(yù)測(cè)概率將被用于后續(xù)種子詞的擴(kuò)展。分類器模型如圖4所示。

圖4 文檔分類器模型

2.3 種子詞擴(kuò)展

傳統(tǒng)的種子驅(qū)動(dòng)方法都遵循迭代框架，它們使用啟發(fā)式方法生成偽標(biāo)簽，學(xué)習(xí)文檔和類之間的映射，并擴(kuò)展種子集。CNG結(jié)合文檔及其預(yù)測(cè)的標(biāo)簽名概率，從每個(gè)標(biāo)簽名候選詞的排名分?jǐn)?shù)出發(fā)，使用排名前幾位的候選詞來(lái)擴(kuò)展種子詞。擴(kuò)展的種子詞也應(yīng)當(dāng)具有高度的語(yǔ)義相關(guān)性，同時(shí)不會(huì)屬于多個(gè)標(biāo)簽的種子詞集。除此以外，擴(kuò)展的種子詞在預(yù)測(cè)的文檔中應(yīng)該有較高的出現(xiàn)頻率。

2.3.1 出現(xiàn)頻率

要想成為標(biāo)簽名l的擴(kuò)展種子詞，它必須在標(biāo)簽名l的文檔中大量出現(xiàn)。這里需要計(jì)算單詞w在所有標(biāo)簽l的文檔中出現(xiàn)的平均頻率，平均頻率的衡量標(biāo)準(zhǔn)如下

AF(l，w)=fl，wNuml

(9)

其中，Numl是被預(yù)測(cè)為標(biāo)簽名l的文檔總數(shù)，fl，w是單詞w在被預(yù)測(cè)為標(biāo)簽名l的文檔中的出現(xiàn)頻率。

2.3.2 擴(kuò)展分?jǐn)?shù)

將出現(xiàn)頻率與上文的排名分?jǐn)?shù)相結(jié)合，得到單詞w關(guān)于標(biāo)簽名l的排名分?jǐn)?shù)。基于這個(gè)排名分?jǐn)?shù)，就可以為標(biāo)簽名l擴(kuò)展新的高質(zhì)量的種子詞。擴(kuò)展分?jǐn)?shù)如下

R(l，w)=Rw，l×AF(l，w)

(10)

其中，Rw，l，AF(l，w) 分別是上文提到的排名分?jǐn)?shù)和平均頻率。

種子詞擴(kuò)展具有適應(yīng)性，每個(gè)標(biāo)簽有不同數(shù)量的擴(kuò)展種子詞。在第一次迭代中，只使用詞集里排名前幾位的單詞作為種子詞，其它單詞則將作為下一步迭代的候選擴(kuò)展種子詞。

在擴(kuò)展各個(gè)標(biāo)簽的種子詞之后，生成偽標(biāo)簽并訓(xùn)練分類器。這個(gè)過(guò)程在T次迭代中反復(fù)進(jìn)行。

3 實(shí) 驗(yàn)

在兩個(gè)公開數(shù)據(jù)集NYT數(shù)據(jù)集和20 Newsgroups數(shù)據(jù)集上，對(duì)提出的方法CNG與現(xiàn)有的方法進(jìn)行對(duì)比評(píng)估，數(shù)據(jù)集都進(jìn)行弱監(jiān)督分類設(shè)置。

3.1 環(huán)境設(shè)置

實(shí)驗(yàn)使用的環(huán)境與配置見表2。

表2 實(shí)驗(yàn)環(huán)境與配置

3.2 數(shù)據(jù)集

3.2.1 NYT數(shù)據(jù)集

NYT數(shù)據(jù)集抓取了紐約時(shí)報(bào)從2009年11月到2010年1月的所有商業(yè)文章，其文本分類數(shù)據(jù)集分為5個(gè)類，共計(jì)13 081個(gè)文檔，平均長(zhǎng)度778，具體如圖5(a)所示。

圖5 數(shù)據(jù)集數(shù)量分布

3.2.2 20Newsgroups數(shù)據(jù)集

20Newsgroups數(shù)據(jù)集是用于文本分類、文本挖據(jù)和信息檢索研究的國(guó)際標(biāo)準(zhǔn)數(shù)據(jù)集之一，其文本分類數(shù)據(jù)集分為7個(gè)大類，共計(jì)18 828個(gè)文檔，平均長(zhǎng)度303，具體如圖5(b)所示。

3.3 評(píng)價(jià)指標(biāo)

考慮到兩個(gè)數(shù)據(jù)集不平衡的標(biāo)簽分布，采用F1-score作為評(píng)估指標(biāo)(micro-F1和macro-F1)，它是統(tǒng)計(jì)學(xué)中用來(lái)衡量分類模型精確度的一種指標(biāo)，用于測(cè)量不均衡數(shù)據(jù)的精度，可以同時(shí)兼顧分類模型的精確率和召回率。在實(shí)驗(yàn)中使用sklearn.metrics包的f1_score()方法進(jìn)行統(tǒng)計(jì)。

3.4 實(shí)驗(yàn)設(shè)置

所有的對(duì)比方法都嚴(yán)格按照原始論文中描述的參數(shù)來(lái)進(jìn)行復(fù)現(xiàn)。對(duì)于CNG，鑒于它是迭代的訓(xùn)練過(guò)程，參數(shù)僅僅是迭代次數(shù)T，因此將迭代次數(shù)T設(shè)置為8。

3.5 迭代次數(shù)

圖6是迭代次數(shù)和方法效果的關(guān)系圖，其中圖6(a)是NYT數(shù)據(jù)集的結(jié)果，圖6(b)是20Newsgroups數(shù)據(jù)集的結(jié)果。

圖6 迭代次數(shù)和方法效果關(guān)系

在本文的方法中，迭代次數(shù)T是唯一的超參數(shù)。從圖中可以觀察到，雖然第一次迭代的訓(xùn)練表現(xiàn)處于較低的水平(第一次迭代是未使用擴(kuò)展種子詞的訓(xùn)練)，但是在接下來(lái)的迭代中訓(xùn)練表現(xiàn)攀升，實(shí)驗(yàn)結(jié)果驗(yàn)證了種子詞擴(kuò)展的有效性。從全局來(lái)看，在第五次迭代左右，F(xiàn)1-score逐漸平緩，表明在5次迭代后，擴(kuò)展的種子詞無(wú)法對(duì)模型產(chǎn)生進(jìn)一步的影響，模型效果收斂。

3.6 詞向量模型對(duì)比

本文使用的Word2Vec與以下兩種詞向量模型進(jìn)行比較：采用BERT與GloVe代替Word2Vec作為CNG方法的詞向量模型。

Word2Vec：本文使用的是其中的Skip-Gram模型，通過(guò)最大化使用中心詞預(yù)測(cè)其上下文單詞的概率。

GloVe：通過(guò)分解全局單詞共現(xiàn)矩陣來(lái)學(xué)習(xí)單詞向量，其中共現(xiàn)定義在固定大小的上下文窗口上。

BERT：BERT是一種先進(jìn)的預(yù)訓(xùn)練語(yǔ)言模型，提供上下文化的單詞向量。它可以預(yù)測(cè)隨機(jī)隱藏的單詞和連續(xù)的句子關(guān)系。

圖7是在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比圖，其中圖7(a)為NYT數(shù)據(jù)集的結(jié)果，圖7(b)為20Newsgroups數(shù)據(jù)集的結(jié)果。

圖7 詞向量實(shí)驗(yàn)對(duì)比

如圖7所示，Word2Vec表現(xiàn)最佳，GloVe表現(xiàn)稍次之。無(wú)監(jiān)督詞向量模型在標(biāo)注數(shù)據(jù)稀缺的情況下表現(xiàn)出色。盡管BERT在有監(jiān)督任務(wù)中性能出色，但在弱監(jiān)督條件下，它的表現(xiàn)明顯較差。原因在于BERT向量存在各向異性，向量不均勻地分布，這使語(yǔ)義相似度的計(jì)算存在偏差，從而導(dǎo)致性能不佳。

3.7 文檔分類器對(duì)比

本文使用HAN分類器與CNN分類器進(jìn)行比較：采用CNN代替HAN作為CNG方法的文檔分類器。

HAN：基于詞匯層級(jí)和句子層級(jí)來(lái)考慮文本的特征，同時(shí)采用注意力機(jī)制將選擇模型分類的重點(diǎn)。

CNN：通過(guò)一維卷積來(lái)提取句子的特征表示。

圖8是在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比圖，其中圖8(a)為NYT數(shù)據(jù)集的結(jié)果，圖8(b)為20Newsgroups數(shù)據(jù)集的結(jié)果。

圖8 分類器實(shí)驗(yàn)對(duì)比

實(shí)驗(yàn)驗(yàn)證了CNG方法的通用性，可以兼容不同的文檔分類器。從圖中可以得知，HAN模型在兩個(gè)數(shù)據(jù)集上的表現(xiàn)更佳，CNN模型在20Newsgroups數(shù)據(jù)集上的差距較小。而20Newsgroups數(shù)據(jù)集的長(zhǎng)度稍短，沒(méi)有放大CNN在長(zhǎng)距離依賴關(guān)系的不足。

3.8 對(duì)比方法

本節(jié)將提出的CNG方法與近年來(lái)最先進(jìn)的弱監(jiān)督方法進(jìn)行對(duì)比。

LOTClass[16]：該方法提出一種基于預(yù)訓(xùn)練語(yǔ)言模型BERT的弱監(jiān)督文本分類模型，把類別名稱作為監(jiān)督源，查找類別指示詞并訓(xùn)練模型預(yù)測(cè)其隱含類別，最后經(jīng)過(guò)自訓(xùn)練達(dá)到分類目的。

Dataless：該方法僅僅使用類別名稱作為監(jiān)督源，它利用維基百科并使用顯式語(yǔ)義分析來(lái)派生標(biāo)簽和文檔的向量表示。最后每個(gè)文檔都基于文檔-標(biāo)簽的相似性進(jìn)行標(biāo)記。

Doc2Cube：該方法也使用類別名稱作為監(jiān)督源，迭代地執(zhí)行標(biāo)簽、術(shù)語(yǔ)和文檔的聯(lián)合嵌入，通過(guò)學(xué)習(xí)感知維度的嵌入，從而進(jìn)行多維文檔的分類。

WeSTClass[19]：該方法可以使用多種種子信息作為監(jiān)督源，它利用種子信息生成偽文檔，先通過(guò)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)訓(xùn)練，然后在未標(biāo)注文檔上對(duì)模型進(jìn)行精煉，從而達(dá)到分類目的。

PV-DM[23]：該方法首先學(xué)習(xí)語(yǔ)料庫(kù)中所有的句向量表示(句向量繼承了Word2Vec詞向量的特點(diǎn)，而且更具優(yōu)勢(shì))，并通過(guò)聚合句向量，得出標(biāo)簽表示。最后每個(gè)文檔都會(huì)被分配與該文檔最相關(guān)的標(biāo)簽。

WeSHClass[24]：該方法提出一種反映類別分類的分層神經(jīng)網(wǎng)絡(luò)模型，把種子詞作為監(jiān)督源，通過(guò)局部分類器預(yù)訓(xùn)練和全局分類器自訓(xùn)練來(lái)完成分類。

CNG-NoGen：該方法是CNG方法的消融版本，采用基于距離度量的種子詞生成方式代替聯(lián)合考慮語(yǔ)義特異性和語(yǔ)義相關(guān)性生成種子詞的方式，其它模塊不變。

3.9 結(jié)果分析

由表3的實(shí)驗(yàn)結(jié)果表明，提出的方法CNG在所有對(duì)比的弱監(jiān)督方法中取得了更高的F1值。在NYT數(shù)據(jù)集上的Macro-F1值為84.2%，Micro-F1值為93.3%，在20Newsgrops數(shù)據(jù)集上的Macro-F1值為65.7%，Micro-F1值為74.0%。所有弱監(jiān)督分類方法在兩個(gè)數(shù)據(jù)集上的Micro-F1都明顯大于Macro-F1，表明在兩個(gè)數(shù)據(jù)集中，它們?cè)谛颖玖康念悇e上分類效果更差。以CNG方法為例，在分配偽標(biāo)簽以及預(yù)訓(xùn)練之后，沒(méi)有足夠的數(shù)據(jù)讓分類模型泛化，從而無(wú)法取得更好的效果。

表3 實(shí)驗(yàn)結(jié)果/%

(1)從表中可以得知，Dataless、Doc2Cube等未使用深度神經(jīng)網(wǎng)絡(luò)模型的傳統(tǒng)方法分類效果不佳。它們?nèi)鄙偕疃壬窠?jīng)網(wǎng)絡(luò)模型的多層計(jì)算能力，對(duì)分類文本中的特征信息、上下文語(yǔ)義環(huán)境等重要因素考慮不足，實(shí)驗(yàn)結(jié)果表明深度神經(jīng)網(wǎng)絡(luò)模型在弱監(jiān)督文本分類任務(wù)上的有效性。然而PV-DM與使用深度神經(jīng)網(wǎng)絡(luò)的WESTClass等方法相比，其實(shí)驗(yàn)結(jié)果在部分指標(biāo)上更具優(yōu)勢(shì)。在標(biāo)注數(shù)據(jù)不足的弱監(jiān)督環(huán)境下，句向量對(duì)于文本的語(yǔ)義表示有積極的作用。

(2)與僅以類別名稱作為監(jiān)督源的方法相比，實(shí)驗(yàn)驗(yàn)證了從類名出發(fā)，結(jié)合生成的高質(zhì)量種子詞方法的有效性。以單一種子信息作為監(jiān)督源的方法在性能上已經(jīng)接近瓶頸。CNG在NYT數(shù)據(jù)集上的表現(xiàn)最佳，Macro-F1值為84.2%，Micro-F1值為93.3%；但是在20news數(shù)據(jù)集上的Macro-F1值僅次于LOTClass方法，差距為6.8%。

(3)與把種子詞作為監(jiān)督源的方法相比，實(shí)驗(yàn)結(jié)果表明了CNG中高質(zhì)量種子詞生成及擴(kuò)展方法的有效性。在迭代訓(xùn)練過(guò)程中，CNG學(xué)習(xí)上次迭代過(guò)程中成功預(yù)測(cè)的經(jīng)驗(yàn)，以此來(lái)修正分類器并擴(kuò)展種子詞，從而不斷地對(duì)方法進(jìn)行精煉，最終達(dá)到更佳效果。

(4)WESHClass提出的分層標(biāo)簽分類結(jié)構(gòu)，針對(duì)種子信息進(jìn)一步細(xì)分，將種子信息組織成分層結(jié)構(gòu)，對(duì)種子信息處理方面提供了非常好的思路。但是因?yàn)樵摻Y(jié)構(gòu)采用的LSTM在隱藏狀態(tài)會(huì)丟失一些重要特征，它使用LSTM生成的偽文檔會(huì)對(duì)分類結(jié)果造成負(fù)面影響，所以在數(shù)據(jù)集上表現(xiàn)不是特別好。

(5)CNG-NoGen與CNG相比，性能存在差距。在弱監(jiān)督文本分類任務(wù)中，方法能否對(duì)種子信息進(jìn)行最大程度的利用是決定性能的關(guān)鍵點(diǎn)之一。距離度量的方式能夠捕捉與類名語(yǔ)義相關(guān)的單詞，但是單純的語(yǔ)義相關(guān)無(wú)法處理部分單詞一詞多義的現(xiàn)象。例如，space的單詞釋義有空間、空格和太空等，這使得模型的輸入存在誤差，從而影響分類效果。而聯(lián)合考慮語(yǔ)義相關(guān)性和語(yǔ)義特異性的方式不僅要求單詞與標(biāo)簽名高度的語(yǔ)義相關(guān)性，還要求語(yǔ)義高度排他(單詞沒(méi)有歧義)。

(6)可以從表中觀察到，弱監(jiān)督文本分類方法在20 Newsgroups數(shù)據(jù)集上的表現(xiàn)不佳。原因在于NYT數(shù)據(jù)集上文檔平均長(zhǎng)度是20 Newsgroups數(shù)據(jù)集上文檔平均長(zhǎng)度的2倍多；由于20 Newsgroups數(shù)據(jù)集中多為較短的新聞?wù)Z料，文本內(nèi)部的依賴關(guān)系不突出，CNG方法無(wú)法凸顯HAN分類器在長(zhǎng)文本語(yǔ)料中處理復(fù)雜語(yǔ)料的能力，因此無(wú)法取得良好的表現(xiàn)。然而使用預(yù)訓(xùn)練語(yǔ)言模型BERT的LOTClass方法在Macro-F1和Micro-F1上取得了大于70%的成績(jī)，它在文本平均長(zhǎng)度303的20Newsgroups數(shù)據(jù)集上憑借BERT的多層Transformer更好地提取特征，從而取得更出色的分類效果。

4 結(jié)束語(yǔ)

本文提出一種基于類名引導(dǎo)的弱監(jiān)督文本分類方法CNG，其核心策略在于從類名出發(fā)并結(jié)合種子詞生成。CNG方法首先學(xué)習(xí)語(yǔ)料庫(kù)中單詞的向量表示，利用類別名稱生成種子詞，然后生成偽標(biāo)簽，迭代地使用文檔分類器和種子詞擴(kuò)展來(lái)進(jìn)行文本分類。在兩個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了CNG方法的有效性，有望緩解標(biāo)注數(shù)據(jù)稀缺的問(wèn)題。在未來(lái)的研究中，計(jì)劃探索更為有效的監(jiān)督信息，同時(shí)也考慮如何融合不同來(lái)源的監(jiān)督信息，以此來(lái)提高方法的性能，進(jìn)一步降低標(biāo)注數(shù)據(jù)缺乏所帶來(lái)的影響。