湯英杰 劉媛華



摘要:為解決傳統(tǒng)模型表示出的詞向量存在序列、上下文、語法、語義以及深層次的信息表示不明的情況,提出一種基于預(yù)訓(xùn)練模型( Roberta)融合深層特征詞向量的深度神經(jīng)網(wǎng)絡(luò)模型,處理中文文本分類的問題。通過Roberta模型生成含有上下文語義、語法信息的句子向量和含有句子結(jié)構(gòu)特征的詞向量,使用DPCNN模型和改進門控模型(RGRU)對詞向量進行特征提取和融合,得到含有深層結(jié)構(gòu)和局部信息的特征詞向量,將句子向量與特征詞向量融合在一起得到新向量。最后,新向量經(jīng)過softmax激活層后,輸出結(jié)果。在實驗結(jié)果中,以F1值、準(zhǔn)確率、召回率為評價標(biāo)準(zhǔn),在THUCNews長文本中,這些指標(biāo)分別達到了98.41%,98.44%,98.41%。同時,該模型在短文本分類中也取得了很好的成績。
關(guān)鍵詞:預(yù)訓(xùn)練模型;Roberta模型;DPCNN模型;特征詞向量;中文文本分類
中圖分類號:TP 391.1
文獻標(biāo)志碼:A
隨著移動互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,以及社交平臺、購物平臺的不斷涌現(xiàn),人們暢游在網(wǎng)絡(luò)世界中,在享受高度便利和快捷生活的同時,海量信息也隨之充斥網(wǎng)絡(luò),讓人們難辨真?zhèn)魏蜕茞骸W(wǎng)絡(luò)信息進行正確的文本分類,可以有效降低互聯(lián)網(wǎng)輿論中負(fù)面的影響,如:造謠、詆毀、惡意中傷等事件。同時,正確的文本分類,可以建立起智能信息推薦系統(tǒng),根據(jù)用戶的個人興趣來定位并推薦相關(guān)的新聞資料、商品信息等;也可以建立垃圾信息過濾系統(tǒng),減少生活中瑣碎、煩心事件,極大地簡便公眾的生活。
文本分類的方法包括使用傳統(tǒng)的機器學(xué)習(xí)方法和深度神經(jīng)網(wǎng)絡(luò)構(gòu)建模型的方法。使用機器學(xué)習(xí)進行文本分類時經(jīng)常會提取TF-IDF(term frequency-inverse document frequency)或者詞袋結(jié)構(gòu),然后對模型進行訓(xùn)練,如支持向量機[1]、邏輯回歸、XGBoost[2]等。利用傳統(tǒng)機器學(xué)習(xí)方法進行文本分類的基本流程是獲取數(shù)據(jù)、數(shù)據(jù)預(yù)處理、特征提取、模型訓(xùn)練、預(yù)測。TF-IDF和詞袋模型都需要手動去構(gòu)建詞典,統(tǒng)計詞匯,進而計算出相關(guān)順序(使用歐式距離或夾角余弦相似度)。這兩種方法都存在較大的缺陷,如計算繁瑣、可解釋性差、語義不明等。
軟件、硬件技術(shù)的快速發(fā)展,使得文本分類問題開始從傳統(tǒng)的機器學(xué)習(xí)轉(zhuǎn)移到深度學(xué)習(xí),詞向量Word2vec[3]的發(fā)展,推動了深度學(xué)習(xí)模型在自然語言處理中的應(yīng)用。深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)、圖神經(jīng)網(wǎng)絡(luò)(graph convolution network,GCN)等方法。
針對當(dāng)前使用神經(jīng)網(wǎng)絡(luò)處理文本分類的問題,本文提出了預(yù)訓(xùn)練Roberta[4]模型,對輸人數(shù)據(jù)的隨機掩碼和雙向動態(tài)的向量表示方法進行訓(xùn)練,加強了向量表示的靈活性,實現(xiàn)了數(shù)據(jù)增強。利用DPCNN( deep pyramid convolutional neuralnetworks for text categorization)和改進門控網(wǎng)絡(luò)提取深層詞向量的特征,強化了有效信息,降低了無效信息和梯度消失的影響。運用注意力機制的方法融合句向量與深層詞向量,增強了文本向量的語義豐富性,捕捉重要詞與句之間的潛在語義關(guān)系,有效豐富了特征向量中的結(jié)構(gòu)、語義和語法信息。
1 相關(guān)工作
目前的文本分類深度學(xué)方法主要包括兩種,分別為基于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)進行改進的神經(jīng)網(wǎng)絡(luò),以及基于預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。
1.1 基于CNN、RNN和GNN進行改進的神經(jīng)
網(wǎng)絡(luò)
文本分類模型使用較多的是TextCNN( textconvolutional neural network),該模型由Kim等[5]提出,第一次將卷積神經(jīng)網(wǎng)絡(luò)用于自然語言處理的任務(wù)中。TextCNN通過一維卷積來獲取句子中n- gram的特征表示,對文本抽取淺層特征的能力很強。在長文本領(lǐng)域,TextCNN主要靠filter窗口抽取特征,但信息抽取能力較差,且對語序不敏感。文獻[6]通過采用多個濾波器構(gòu)建多通道的TextCNN網(wǎng)絡(luò)結(jié)構(gòu),從多方面提取數(shù)據(jù)的特征,捕捉到了更多隱藏的文本信息。文獻[7]提出圖卷積神經(jīng)網(wǎng)絡(luò)對文本內(nèi)容進行編碼,文獻[8]使用了異構(gòu)圖注意網(wǎng)絡(luò)進一步提升了模型的編碼能力。
文獻[9]提出了循環(huán)神經(jīng)網(wǎng)絡(luò)的文本分類模型,但RNN結(jié)構(gòu)是一個串行結(jié)構(gòu),對長距離單詞之間的語義學(xué)習(xí)能力差,同時可能伴隨有梯度消失和梯度爆炸的問題。隨后,LSTM( long shorttermmemory, LSTM)和GRU(gate recurrentunit, GRU)模型被應(yīng)用在自然語言處理任務(wù)中,LSTM由輸入門、輸出門和遺忘門控制每個時間點的輸入、輸出和遺忘的概率,有效緩解了梯度消失和爆炸問題。文獻[10]中,提出了ONLSTM( ordered neuronslong-short memory)結(jié)構(gòu),在LSTM結(jié)構(gòu)中引入層級結(jié)構(gòu),可以提取出文本的層級信息。GRU通過將輸入門和遺忘門組合在一起,命名為更新門,減少了門的數(shù)量,在保證記憶的同時,提升了網(wǎng)絡(luò)的訓(xùn)練效率。文獻[II]用BiGRU模型進行文本情感分類任務(wù),提出了使用BiGRU模型對文本進行情感分析。
1.2預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)
2018年,谷歌團隊提出了transformer模型[12],并采用了self-attention機制[13]。相比于循環(huán)神經(jīng)網(wǎng)絡(luò)模型,transformer模型是并行結(jié)構(gòu),其運算速度得到了大大的提高。Transformer模型由encoder模塊和decoder模塊兩部分組成,decoder模塊與encoder類似,只是在encoder中self-attention的query,key,value都對應(yīng)了源端序列,decoder中self-attention的query,key,value都對應(yīng)了目標(biāo)端序列。注意力機制開始被應(yīng)用于圖像處理上,Bahdanau等[14]首次將其應(yīng)用在了NLP(自然語言處理)任務(wù)中,NLP領(lǐng)域也迎來了巨大的飛躍。文獻[15]針對文本分類任務(wù)提出了基于詞性的自注意力機制網(wǎng)絡(luò)模型,使用自注意力機制學(xué)習(xí)出特征向量表示,并融合詞性信息完成分類任務(wù)。
在Transformer模型和注意力機制的基礎(chǔ)上,Devlin等[16]提出了預(yù)訓(xùn)練Bert模型(bidirectionalencoder representation from transformers),開啟了預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時代。Bert的新語言表示模型代表了Transformer的雙向編碼器,從而生成了文本的雙向動態(tài)句子向量。孫紅等[17]基于Bert+GRU的網(wǎng)絡(luò)結(jié)構(gòu)對新聞文本進行分類,運用Bert得到特征詞向量,利用GRU網(wǎng)絡(luò)作為主題網(wǎng)絡(luò)提取上下文的文本特征。文獻[18]提出了一種基于Bert的構(gòu)建雙通道網(wǎng)絡(luò)模型的文本分類任務(wù),提升了混合語言文本分類模型的性能。
盡管上述研究證明了對文本進行特征提取和融合之后,可以為分類器提供足夠的信息,提高了文本分類問題的準(zhǔn)確率。但是,如何對句與詞之間的結(jié)構(gòu)、語義和語法等信息進行提取,未作出明確的說明和研究,這也是本文所關(guān)注的重點。簡而言之,在提取文本信息時,既要提取出文本主要信息,同時也需要注重詞與句之間內(nèi)容關(guān)系的提取。
在此基礎(chǔ)上,本文利用Roberta模型的強大功能,訓(xùn)練出含有上下文語義、語法信息的句子向量和含有句子結(jié)構(gòu)特征的詞向量。并分別利用DPCNN網(wǎng)絡(luò)和改進門控網(wǎng)絡(luò)(RGRU),對詞向量進行特征提取,使用注意力機制將兩部分輸出的詞向量進行融合,得到深層特征詞向量。其中,DPCNN的主要作用是負(fù)責(zé)強化局部上下文的關(guān)系,RGRU負(fù)責(zé)詞與詞之間的時序關(guān)系,注意力機制對局部上下文關(guān)系和時序關(guān)系進行通盤考慮,使用注意力機制也能夠更好地將特征中的重點表現(xiàn)出來。最后,將詞向量與句向量相融合來提升模型的性能。
2 模型設(shè)計
2.1 模型結(jié)構(gòu)
本文提出的模型應(yīng)用于中文文本分類任務(wù),模型結(jié)構(gòu)圖1主要由3個部分組成:a.Roberta模型對輸入的中文文本進行預(yù)訓(xùn)練,得到含有上下文語義、語法信息的句子向量和詞向量;b.將詞向量分別輸入至DPCNN特征提取層和改進門控神經(jīng)網(wǎng)絡(luò)中,然后使用注意力機制將兩部分的特征詞向量相融合,得到含有深層結(jié)構(gòu)和局部信息的特征詞向量;c.將句子向量與詞向量進行融合,得到最終的文本向量表示,最后經(jīng)過softmax激活層后,輸出結(jié)果。
2.2 預(yù)訓(xùn)練模型Roberta
Bert預(yù)訓(xùn)練模型具有以下3方面優(yōu)勢:參數(shù)規(guī)模大、通用能力強、綜合性能好。預(yù)訓(xùn)練模型中包含著豐富的文本信息知識,因此,近些年的文本分類任務(wù)中通常會使用Bert行文本特征提取。但是,Bert的預(yù)訓(xùn)練階段并沒有使用全詞覆蓋的方式,mask(掩碼)字符不利于文本信息的提取,且使用NSP任務(wù)也會損害Bert的特征提取能力。為避免這些問題,本文使用了Roberta模型。同時,由于Roberta相較于Bert使用了更大規(guī)模的數(shù)據(jù)集,使得模型消耗的資源增加,訓(xùn)練時間增長。
Roberta模型結(jié)構(gòu)不僅繼承了Bert的雙向編碼器表示,而且將輸入的句子表示為字向量、句向量、位置向量三者之和,經(jīng)過多層雙向Transformer編碼器(見圖2)得到文本的向量化表示。圖中:Add表示殘差連接;Norm表示層標(biāo)準(zhǔn)化;FeedForward表示前向傳播;Nx表示Ⅳ個堆疊的相同x。
多頭注意力機制:假設(shè)輸入句子為X,X=[X1 X2 -xn],n表示樣本句子中字的個數(shù),對字使用one-hot編碼表示,其維度為k,則X所對應(yīng)的字嵌入矩陣為Y= [y1y2 - Ynl,xi所對應(yīng)的向量表示為Yi。通過訓(xùn)練模型可得出Q(Query)、K(Key)、V (Value)矩陣,dk表示K中列向量的維度大小,從而計算得到注意力值為
Bert模型中掩碼mask是靜態(tài)的,即Bert在準(zhǔn)備訓(xùn)練數(shù)據(jù)時,只會對每個樣本進行一次隨機的mask(在后續(xù)訓(xùn)練中,每個epoch(訓(xùn)練數(shù)據(jù))是相同的),后續(xù)的每個訓(xùn)練步都采用同樣的mask。Roberta模型相比于Bert,建立在Bert的語言掩蔽策略的基礎(chǔ)上,將靜態(tài)mask修改為動態(tài)mask,對數(shù)據(jù)進行預(yù)處理時會對原始數(shù)據(jù)拷貝10份,每一份都隨機選擇15%的Tokens(字符)進行mask,圖3為Roberta掩碼方式。
同時,Roberta取消了Bert的NSP(next sentenceprediction)任務(wù),采用了更大規(guī)模的數(shù)據(jù)集進行訓(xùn)練,更好地表現(xiàn)出了詞的語義和語法信息,文本向量表示更加完善。Roberta也修改了Bert中的關(guān)鍵超參數(shù),使用更大的batch方式和學(xué)習(xí)率進行訓(xùn)練,增長了訓(xùn)練序列,使得Roberta表示能夠比Bert更好地推廣到下游任務(wù)中。
2.3 DPCNN特征提取層
DPCNN[19]模型相比于TextCNN模型是更為有效廣泛的深層卷積模型,如圖4所示。圖中:σ(.)為逐分量非線性激活函數(shù);權(quán)重W和偏差6(每層唯一)為所要訓(xùn)練的參數(shù)。
DPCNN的底層為Region embedding層,該層由多個不同大小的卷積核組成,經(jīng)卷積操作后生成embedding,作為模型的嵌入層。本文使用兩層等長卷積層來捕獲長距離模式,提高對詞位embedding表示的豐富度。
下采樣的操作采用固定數(shù)量的濾波器,通過最大池化的方法,將原詞向量的長度減少一半,計算復(fù)雜度也相對減少,但其中包含的文本內(nèi)容卻得到了加長。然后進行兩層等長卷積,這兩部分組合成block模塊,重復(fù)block模塊的操作,直至滿足任務(wù)。隨著模型深度的變化,詞向量中的深層結(jié)構(gòu)信息和全局語義信息會不斷得到加強。
為了解決卷積過程中的梯度消失和爆炸問題,模型在block模塊進行前與region embedding使用pre-actlvation策略進行殘差連接,或者直接連接到最后的輸出層,有效緩解了梯度問題。模型隨著序列長度的加深呈現(xiàn)出深層次的金字塔結(jié)構(gòu)。
2.4 改進門控網(wǎng)絡(luò)
改進門控模型結(jié)構(gòu)見圖5,對于t時刻而言,輸人為qt,隱藏層輸人為nt-l,隱藏層輸出為nt,計算過程如式(4)~(7)所示。
傳統(tǒng)的門控神經(jīng)網(wǎng)絡(luò)中重置門和更新門都是使用的σ(σ=1/1+e-g)激活函數(shù),σ函數(shù)存在以下兩個缺點:a.容易出現(xiàn)梯度消失的現(xiàn)象,當(dāng)激活函數(shù)接近飽和區(qū)時,變化太緩慢,導(dǎo)數(shù)接近0,從而無法完成深層網(wǎng)絡(luò)的訓(xùn)練;b.σ的輸出不是0均值,這會導(dǎo)致后層的神經(jīng)元的輸入是非0均值的信號,會對梯度產(chǎn)生影響,導(dǎo)致收斂變慢。本文的φ(φ= eg - e-g/eg+ e-g)激活函數(shù)具有以下3個優(yōu)點:a.解決了上述σ函數(shù)輸出不是0均值的問題;b.φ函數(shù)的導(dǎo)數(shù)取值范圍在0~1之間,優(yōu)于σ函數(shù)的0~0.25,一定程度上緩解了梯度消失的問題;c.φ函數(shù)在原點附近與y=x函數(shù)形式相近,當(dāng)輸入的激活值較低時,可以直接進行矩陣運算,訓(xùn)練相對容易。
3 實驗
3.1 實驗環(huán)境
CPU 6x Xeon E5-2678 v3,內(nèi)存62 G,顯存ll G,NVIDIA GeForce RTX 2080 Ti,操作系統(tǒng)為Windowsl0 64位,python版本為3.8,深度學(xué)習(xí)框架為PyTorch。
3.2 實驗數(shù)據(jù)集
本實驗采用網(wǎng)上公開的清華THUCNews文本分類數(shù)據(jù)集中的短、長文本數(shù)據(jù)集,用于預(yù)測模型的性能。選取THUCNews數(shù)據(jù)集中的10個類別進行測試,短文本的類別包括:體育、娛樂、房產(chǎn)、教育、時政、游戲、社會、科技、股票、金融;長文本的類別包括:體育、娛樂、家居、房產(chǎn)、教育、時尚、時政、游戲、科學(xué)、金融。實驗數(shù)據(jù)集信息如表1所示。
3.3參數(shù)設(shè)置
文獻[20]在使用Bert作文本分類時給出了fine-tune建議。多相關(guān)任務(wù)的前提下,選擇多任務(wù)學(xué)習(xí)進行Bert frne-tune,目標(biāo)任務(wù)的實現(xiàn)需要考慮文本的預(yù)處理、圖層選擇和學(xué)習(xí)率。
進行學(xué)習(xí)率衰減,β= 0.95時模型效果最佳。Roberta模型只需要一個較小的學(xué)習(xí)率,同時使用warm-up策略,有助于緩解mini-batch的提前過擬合現(xiàn)象,保持分布的平穩(wěn),同時也有助于保證模型深層的穩(wěn)定性。以Adam算法為基礎(chǔ),采用手動階梯式衰減、lambda自定義衰減、三段式衰減和余弦式調(diào)整的4種方法(見圖6),調(diào)整學(xué)習(xí)率。
宋明等[21]在Bert作文本分類時,運用FocalLoss[22]作為損失函數(shù),提高了模型對困難文本分類的準(zhǔn)確率,本文采取Focal Loss作為損失函數(shù)。
本文中Roberta模型的學(xué)習(xí)率為1.0×10-5,但是在DPCNN的結(jié)構(gòu)中需要一個較大的學(xué)習(xí)率,取0.001。THUCNews長文本中句子長度取150,batch size取32;THUCNews短文本中句子長度取38,batch size為128。DPCNN結(jié)構(gòu)中,等長卷積kernel size為3。
3.4評價標(biāo)準(zhǔn)
將準(zhǔn)確率(accuracy)、精確率(precision)、召回率( recall)和Fl值作為實驗的評價標(biāo)準(zhǔn),相關(guān)的混淆矩陣結(jié)構(gòu)如表2所示。式中,H表示混淆矩陣各值。
3.5 實驗結(jié)果
為驗證本文所提模型的合理性和有效性,采用了8種模型在兩個數(shù)據(jù)集上進行測試,最后的結(jié)果也表現(xiàn)出本文所提出的模型效果優(yōu)于其他7種模型。
a.FastText[23]。Facebook在2016年發(fā)布了這種簡單快速實現(xiàn)文本分類的方法。FastText會自己訓(xùn)練詞向量,同時采用層次化softmax和n-gram讓模型學(xué)習(xí)到局部單詞順序的部分信息。
b.TextCNN。采用多通道CNN結(jié)構(gòu),經(jīng)過嵌入層后詞向量維度為300,經(jīng)過卷積核尺寸分別為2,3,4,通道數(shù)為256的卷積層后,將輸出的3個詞向量拼接在一起,經(jīng)過全連接層和softmax激活函數(shù)后輸出結(jié)果。
c.LSTM。LSTM的結(jié)構(gòu)為2層全連接層,隱藏層中神經(jīng)元的個數(shù)為128,方向為雙向;LSTM輸出的詞向量經(jīng)過全連接層和softmax激活函數(shù)后輸出結(jié)果。
d.DPCNN。深層金字塔卷積結(jié)構(gòu),采用圖4中的結(jié)構(gòu)設(shè)置。
e.Bert+DPCNN。采用谷歌提供的Bert模型作為預(yù)訓(xùn)練模型,下游任務(wù)連接DPCNN網(wǎng)絡(luò)結(jié)構(gòu),參數(shù)設(shè)置與Roberta+DPCNN網(wǎng)絡(luò)結(jié)構(gòu)一樣。
f.Roberta+LSTM。將Roberta模型中encoder層的輸出作為LSTM模型的輸入,得到輸出,將此輸出與Roberta模型中最后一層的輸出拼接在一起,經(jīng)過全連接層和softmax激活函數(shù)后輸出最后的結(jié)果。
g.Roberta+TextCNN。將Roberta模型中encoder層的輸出作為TextCNN模型的輸入,得到輸出,將此輸出與Roberta模型中最后一層的輸出拼接在一起,經(jīng)過全連接層和softmax激活函數(shù)后輸出最后的結(jié)果。
所有模型的實驗結(jié)果對比見表3和表4,其中本文所提出的模型為基于余弦式調(diào)整學(xué)習(xí)率的方法。
THUCNews短文本分類中,無遷移學(xué)習(xí)的模型中FastText模型的效果最優(yōu)。而在遷移學(xué)習(xí)的模型中,本文所采用的模型結(jié)合余弦式調(diào)整學(xué)習(xí)率的方法,所得出的結(jié)果在所有模型中最優(yōu),F(xiàn)l值可以達到96.98%,比FastText模型高出了2.gg%,比使用Roberta+TextCNN高出了1.02%。在THUCNews長文本分類中,本文模型相比于無遷移學(xué)習(xí)的DPCNN模型,準(zhǔn)確率高出了5.23%,比Roberta+LSTM模型高出了1.56%。在其他3項評價標(biāo)準(zhǔn)上,效果也明顯優(yōu)于其他模型。
THUCNews短文本分類中,無遷移學(xué)習(xí)的模型中效果最好的是FastText。這是因為FastText將短文本中的所有詞向量進行平均,句子中的序列、語義和結(jié)構(gòu)信息保存都較為完整。
在無遷移學(xué)習(xí)的模型結(jié)構(gòu)中,長文本分類使用FastText模型,效果不如卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。其原因是n-gram結(jié)構(gòu)所能獲取的上下文語義信息不如神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)完整。
使用預(yù)訓(xùn)練模型Roberta連接下游任務(wù),模型的整體性能優(yōu)于傳統(tǒng)模型。這是因為預(yù)訓(xùn)練模型中的參數(shù)從海量數(shù)據(jù)中訓(xùn)練得來,相較于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的自己從頭開始訓(xùn)練,預(yù)訓(xùn)練模型的收斂速度更快,泛化效果更好。
學(xué)習(xí)率作為監(jiān)督學(xué)習(xí)以及深度學(xué)習(xí)中重要的超參,決定著目標(biāo)函數(shù)能否收斂到局部最小以及何時收斂到最小。合適的學(xué)習(xí)率能使目標(biāo)函數(shù)在合適的時間內(nèi)收斂到局部最小。表5為學(xué)習(xí)率衰減實驗結(jié)果,從中可以發(fā)現(xiàn),以Fl值為評價標(biāo)準(zhǔn),Roberta模型使用余弦調(diào)整的方式分層調(diào)整其學(xué)習(xí)率,模型效果可以得到小幅度的提升。
從實驗結(jié)果還可以看出,Roberta模型在放棄NSP任務(wù)后,得到的句向量和詞向量的內(nèi)容更為豐富。使用DPCNN和RGRU模型作為模型的深層特征提取層,能再次提取句子中的有效信息,模型的泛化能力得到了進一步增強。
從圖7和圖8各個類別的F1值中可以看到,短文本分類模型中股票和金融類別的F1值較低,而長文本分類中只有金融這一個類別的F1值較高。從短文本中選取一部分相關(guān)性較高的數(shù)據(jù)(表6),結(jié)合圖9,短文本分類里金融類被識別為股票類的有40個,股票類被識別為金融類的有21個,說明這兩個分類在短文本分類模型里相互干擾較為嚴(yán)重。
針對THUCNews數(shù)據(jù)集出現(xiàn)的這種情況,在擴大數(shù)據(jù)集的同時,需要對數(shù)據(jù)進行進一步的預(yù)處理,同時也需要調(diào)整模型,使模型能更好地將不同的數(shù)據(jù)區(qū)分開來。如在序號為1的內(nèi)容中,需要給予毆打、調(diào)查等動詞更多權(quán)重,同時減少小學(xué)生、老師、區(qū)教委等名詞的權(quán)重。
4 結(jié)束語
以預(yù)訓(xùn)練模型結(jié)構(gòu)為基礎(chǔ),連接下游任務(wù)的模型結(jié)構(gòu),其性能優(yōu)于無遷移學(xué)習(xí)的網(wǎng)絡(luò)模型。本文使用了Roberta預(yù)訓(xùn)練模型連接下游任務(wù)的深層特征提取模型,同時針對Roberta模型、卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的特點,給予不同的學(xué)習(xí)率,分層調(diào)試其參數(shù),最后得到的文本特征向量信息十分豐富。利用Roberta模型中掩碼mask的策略,使得同一樣本在每輪訓(xùn)練的時候,mask位置不同,提高了模型輸入數(shù)據(jù)的隨機性,得到更加符合語義環(huán)境的動態(tài)詞向量,最終提升了模型的學(xué)習(xí)能力。
通過分析混淆矩陣,得出了當(dāng)前模型中所存在的不足,下一步將會針對不同類別的數(shù)據(jù)權(quán)重進行研究,嘗試將每個詞的語義和類型融入到輸入層中,進一步增強文本向量的表示信息。同時需要對模型的整體結(jié)構(gòu)進行調(diào)整,找出能夠提升模型效果的參數(shù),使模型可以更加優(yōu)秀地處理自然語言處理中的文本分類任務(wù)。
參考文獻:
[1]CHEN P H, LIN C J, SCHLKOPF B. A tutorial on v support vector machines[J]. Applied Stochastic Models inBusinessandIndustry,2005,21(2):111–136.
[2]CHEN T Q, GUESTRIN C. XGBoost: a scalable treeboosting system[C]//Proceedings of the 22nd ACMSIGKDD International Conference on KnowledgeDiscovery and Data Mining. San Francisco: ACM, 2016:785–794.
[3]PENNINGTONJ,SOCHERR,MANNINGCD.GloVe:global vectors for word representation[C]//Proceedings ofthe 2014 Conference on Empirical Methods in NaturalLanguage Processing (EMNLP). Doha: Association forComputationalLinguistics,2014:1532–1543.
[4]JOSHI M, CHEN D Q, LIU Y H, et al. SpanBERT:improving pre-training by representing and predictingspans[J]. Transactions of the Association forComputationalLinguistics,2020,8:64–77.
[5]KIM Y. Convolutional neural networks for sentenceclassification[C]//Proceedings of the 2014 Conference onEmpiricalMethodsinNaturalLanguageProcessing.Doha,Qatar: Association for Computational Linguistics, 2014:1746–1751.
[6]陳珂,梁斌,柯文德,等.基于多通道卷積神經(jīng)網(wǎng)絡(luò)的中文微博情感分析 [J]. 計算機研究與發(fā)展,2018,55(5):945–957.
[7]YAOL,MAOCS,LUOY.Graphconvolutionalnetworksfor text classification[C]//Proceedings of the 33rd AAAIConference on Artificial Intelligence. Honolulu: AAAI,2019:7370–7377.
[8]HULM,YANGTC,SHIC,etal.Heterogeneousgraphattention networks for semi-supervised short textclassification[C]//EMNLP-IJCNLP 2019: Proceedings ofthe 2019 Conference on Empirical Methods in NaturalLanguage Processing and the 9th International JointConference on Natural Language. Hong Kong, China:Association for Computational Linguistics, 2019:4821–4830.
[9] LIUPF,QIUXP,HUANGXJ.Recurrentneuralnetworkfor text classification with multi-task learning[C]//Proceedings of the Twenty-Fifth International JointConference on Artificial Intelligence. New York: AAAI,2016:2873–2879.
[10]SHENYK,TANS,SORDONIA,etal.Orderedneurons:integrating tree structures into recurrent neuralnetworks[C]//7th International Conference on LearningRepresentations.NewOrleans:OpenReview.net,2019.
[11]王偉,孫玉霞,齊慶杰,等.基于 BiGRU-attention 神經(jīng)網(wǎng)絡(luò)的文本情感分類模型 [J]. 計算機應(yīng)用研究, 2019,36(12):3558–3564.
[12]VASWANIA,SHAZEERN,PARMARN,etal.Attentionis all you need[C]//Proceedings of the 31st InternationalConference on Neural Information Processing Systems.Long Beach, California, USA: Curran Associates Inc. ,2017:6000–6010.
[13]FENIGSTEIN A. Self-consciousness, self-attention, andsocial interaction[J]. Journal of Personality and SocialPsychology,1979,37(1):75–86.
[14]BAHDANAU D, CHO K, BENGIO Y. Neural machinetranslationbyJointlylearningtoalignandtranslate[C]//3rdInternationalConferenceonLearningRepresentations.SanDiego,2015.
[15]CHENG K F, YUE Y N, SONG Z W. Sentimentclassification based on part-of-speech and self-attentionmechanism[J].IEEEAccess,2020,8:16387–16396.
[16]DEVLIN J, CHANG M W, LEE K, et al. BERT: pre training of deep bidirectional transformers for languageunderstanding[C]//Proceedings of the 2019 Conference ofthe North American Chapter of the Association forComputational Linguistics: Human LanguageTechnologies, Volume 1 (Long and Short Papers).Minneapolis: Association for Computational Linguistics,2019:4171–4186.
[17]孫紅,陳強越.融合 BERT 詞嵌入和注意力機制的中文文本分類 [J]. 小型微型計算機系統(tǒng),2022,43(1):22–26.
[18]張洋,胡燕.基于多通道深度學(xué)習(xí)網(wǎng)絡(luò)的混合語言短文本情感分類方法 [J]. 計算機應(yīng)用研究, 2021, 38(1):69–74.
[19]JOHNSON R, ZHANG T. Deep pyramid convolutionalneuralnetworksfortextcategorization[C]//Proceedingsofthe 55th Annual Meeting of the Association forComputational Linguistics. Vancouver, Canada:AssociationforComputationalLinguistics,2017:562–570.
[20]SUNC,QIUXP,XUYG,etal.Howtofine-tuneBERTfortextclassification[C]//18thChinaNationalConferenceonChineseComputationalLinguistics.Kunming:Springer,2019:194–206.
[21]宋明,劉彥隆.Bert在微博短文本情感分類中的應(yīng)用與優(yōu)化[J].小型微型計算機系統(tǒng),2021, 42(4): 714-718.
[22] LIN T Y,GOYAL P,GIRSHICK R,et al.Focal loss fordense object detection[J]. IEEE Transactions on PatternAnalysis and Machine Intelligence, 2020, 42(2):3 18-3 27.
[23] JOULIN A,GRAVE E,BOJANOWSKI P,et al.Bag oftricks for efficient text classification[C]//Proceedings of the15th Conference of the European Chapter of theAssociation for Computational Linguistics: Volume 2,Short Papers. Valencia: Association for ComputationalLinguistics, 2017: 427-43 1.
(編輯: 丁紅藝)