999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于預(yù)訓(xùn)練模型融合深層特征詞向量的中文文本分類

2023-05-30 02:49:37湯英杰劉媛華
上海理工大學(xué)學(xué)報 2023年2期

湯英杰 劉媛華

摘要:為解決傳統(tǒng)模型表示出的詞向量存在序列、上下文、語法、語義以及深層次的信息表示不明的情況,提出一種基于預(yù)訓(xùn)練模型( Roberta)融合深層特征詞向量的深度神經(jīng)網(wǎng)絡(luò)模型,處理中文文本分類的問題。通過Roberta模型生成含有上下文語義、語法信息的句子向量和含有句子結(jié)構(gòu)特征的詞向量,使用DPCNN模型和改進門控模型(RGRU)對詞向量進行特征提取和融合,得到含有深層結(jié)構(gòu)和局部信息的特征詞向量,將句子向量與特征詞向量融合在一起得到新向量。最后,新向量經(jīng)過softmax激活層后,輸出結(jié)果。在實驗結(jié)果中,以F1值、準(zhǔn)確率、召回率為評價標(biāo)準(zhǔn),在THUCNews長文本中,這些指標(biāo)分別達到了98.41%,98.44%,98.41%。同時,該模型在短文本分類中也取得了很好的成績。

關(guān)鍵詞:預(yù)訓(xùn)練模型;Roberta模型;DPCNN模型;特征詞向量;中文文本分類

中圖分類號:TP 391.1

文獻標(biāo)志碼:A

隨著移動互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,以及社交平臺、購物平臺的不斷涌現(xiàn),人們暢游在網(wǎng)絡(luò)世界中,在享受高度便利和快捷生活的同時,海量信息也隨之充斥網(wǎng)絡(luò),讓人們難辨真?zhèn)魏蜕茞骸W(wǎng)絡(luò)信息進行正確的文本分類,可以有效降低互聯(lián)網(wǎng)輿論中負(fù)面的影響,如:造謠、詆毀、惡意中傷等事件。同時,正確的文本分類,可以建立起智能信息推薦系統(tǒng),根據(jù)用戶的個人興趣來定位并推薦相關(guān)的新聞資料、商品信息等;也可以建立垃圾信息過濾系統(tǒng),減少生活中瑣碎、煩心事件,極大地簡便公眾的生活。

文本分類的方法包括使用傳統(tǒng)的機器學(xué)習(xí)方法和深度神經(jīng)網(wǎng)絡(luò)構(gòu)建模型的方法。使用機器學(xué)習(xí)進行文本分類時經(jīng)常會提取TF-IDF(term frequency-inverse document frequency)或者詞袋結(jié)構(gòu),然后對模型進行訓(xùn)練,如支持向量機[1]、邏輯回歸、XGBoost[2]等。利用傳統(tǒng)機器學(xué)習(xí)方法進行文本分類的基本流程是獲取數(shù)據(jù)、數(shù)據(jù)預(yù)處理、特征提取、模型訓(xùn)練、預(yù)測。TF-IDF和詞袋模型都需要手動去構(gòu)建詞典,統(tǒng)計詞匯,進而計算出相關(guān)順序(使用歐式距離或夾角余弦相似度)。這兩種方法都存在較大的缺陷,如計算繁瑣、可解釋性差、語義不明等。

軟件、硬件技術(shù)的快速發(fā)展,使得文本分類問題開始從傳統(tǒng)的機器學(xué)習(xí)轉(zhuǎn)移到深度學(xué)習(xí),詞向量Word2vec[3]的發(fā)展,推動了深度學(xué)習(xí)模型在自然語言處理中的應(yīng)用。深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)、圖神經(jīng)網(wǎng)絡(luò)(graph convolution network,GCN)等方法。

針對當(dāng)前使用神經(jīng)網(wǎng)絡(luò)處理文本分類的問題,本文提出了預(yù)訓(xùn)練Roberta[4]模型,對輸人數(shù)據(jù)的隨機掩碼和雙向動態(tài)的向量表示方法進行訓(xùn)練,加強了向量表示的靈活性,實現(xiàn)了數(shù)據(jù)增強。利用DPCNN( deep pyramid convolutional neuralnetworks for text categorization)和改進門控網(wǎng)絡(luò)提取深層詞向量的特征,強化了有效信息,降低了無效信息和梯度消失的影響。運用注意力機制的方法融合句向量與深層詞向量,增強了文本向量的語義豐富性,捕捉重要詞與句之間的潛在語義關(guān)系,有效豐富了特征向量中的結(jié)構(gòu)、語義和語法信息。

1 相關(guān)工作

目前的文本分類深度學(xué)方法主要包括兩種,分別為基于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)進行改進的神經(jīng)網(wǎng)絡(luò),以及基于預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。

1.1 基于CNN、RNN和GNN進行改進的神經(jīng)

網(wǎng)絡(luò)

文本分類模型使用較多的是TextCNN( textconvolutional neural network),該模型由Kim等[5]提出,第一次將卷積神經(jīng)網(wǎng)絡(luò)用于自然語言處理的任務(wù)中。TextCNN通過一維卷積來獲取句子中n- gram的特征表示,對文本抽取淺層特征的能力很強。在長文本領(lǐng)域,TextCNN主要靠filter窗口抽取特征,但信息抽取能力較差,且對語序不敏感。文獻[6]通過采用多個濾波器構(gòu)建多通道的TextCNN網(wǎng)絡(luò)結(jié)構(gòu),從多方面提取數(shù)據(jù)的特征,捕捉到了更多隱藏的文本信息。文獻[7]提出圖卷積神經(jīng)網(wǎng)絡(luò)對文本內(nèi)容進行編碼,文獻[8]使用了異構(gòu)圖注意網(wǎng)絡(luò)進一步提升了模型的編碼能力。

文獻[9]提出了循環(huán)神經(jīng)網(wǎng)絡(luò)的文本分類模型,但RNN結(jié)構(gòu)是一個串行結(jié)構(gòu),對長距離單詞之間的語義學(xué)習(xí)能力差,同時可能伴隨有梯度消失和梯度爆炸的問題。隨后,LSTM( long shorttermmemory, LSTM)和GRU(gate recurrentunit, GRU)模型被應(yīng)用在自然語言處理任務(wù)中,LSTM由輸入門、輸出門和遺忘門控制每個時間點的輸入、輸出和遺忘的概率,有效緩解了梯度消失和爆炸問題。文獻[10]中,提出了ONLSTM( ordered neuronslong-short memory)結(jié)構(gòu),在LSTM結(jié)構(gòu)中引入層級結(jié)構(gòu),可以提取出文本的層級信息。GRU通過將輸入門和遺忘門組合在一起,命名為更新門,減少了門的數(shù)量,在保證記憶的同時,提升了網(wǎng)絡(luò)的訓(xùn)練效率。文獻[II]用BiGRU模型進行文本情感分類任務(wù),提出了使用BiGRU模型對文本進行情感分析。

1.2預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)

2018年,谷歌團隊提出了transformer模型[12],并采用了self-attention機制[13]。相比于循環(huán)神經(jīng)網(wǎng)絡(luò)模型,transformer模型是并行結(jié)構(gòu),其運算速度得到了大大的提高。Transformer模型由encoder模塊和decoder模塊兩部分組成,decoder模塊與encoder類似,只是在encoder中self-attention的query,key,value都對應(yīng)了源端序列,decoder中self-attention的query,key,value都對應(yīng)了目標(biāo)端序列。注意力機制開始被應(yīng)用于圖像處理上,Bahdanau等[14]首次將其應(yīng)用在了NLP(自然語言處理)任務(wù)中,NLP領(lǐng)域也迎來了巨大的飛躍。文獻[15]針對文本分類任務(wù)提出了基于詞性的自注意力機制網(wǎng)絡(luò)模型,使用自注意力機制學(xué)習(xí)出特征向量表示,并融合詞性信息完成分類任務(wù)。

在Transformer模型和注意力機制的基礎(chǔ)上,Devlin等[16]提出了預(yù)訓(xùn)練Bert模型(bidirectionalencoder representation from transformers),開啟了預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時代。Bert的新語言表示模型代表了Transformer的雙向編碼器,從而生成了文本的雙向動態(tài)句子向量。孫紅等[17]基于Bert+GRU的網(wǎng)絡(luò)結(jié)構(gòu)對新聞文本進行分類,運用Bert得到特征詞向量,利用GRU網(wǎng)絡(luò)作為主題網(wǎng)絡(luò)提取上下文的文本特征。文獻[18]提出了一種基于Bert的構(gòu)建雙通道網(wǎng)絡(luò)模型的文本分類任務(wù),提升了混合語言文本分類模型的性能。

盡管上述研究證明了對文本進行特征提取和融合之后,可以為分類器提供足夠的信息,提高了文本分類問題的準(zhǔn)確率。但是,如何對句與詞之間的結(jié)構(gòu)、語義和語法等信息進行提取,未作出明確的說明和研究,這也是本文所關(guān)注的重點。簡而言之,在提取文本信息時,既要提取出文本主要信息,同時也需要注重詞與句之間內(nèi)容關(guān)系的提取。

在此基礎(chǔ)上,本文利用Roberta模型的強大功能,訓(xùn)練出含有上下文語義、語法信息的句子向量和含有句子結(jié)構(gòu)特征的詞向量。并分別利用DPCNN網(wǎng)絡(luò)和改進門控網(wǎng)絡(luò)(RGRU),對詞向量進行特征提取,使用注意力機制將兩部分輸出的詞向量進行融合,得到深層特征詞向量。其中,DPCNN的主要作用是負(fù)責(zé)強化局部上下文的關(guān)系,RGRU負(fù)責(zé)詞與詞之間的時序關(guān)系,注意力機制對局部上下文關(guān)系和時序關(guān)系進行通盤考慮,使用注意力機制也能夠更好地將特征中的重點表現(xiàn)出來。最后,將詞向量與句向量相融合來提升模型的性能。

2 模型設(shè)計

2.1 模型結(jié)構(gòu)

本文提出的模型應(yīng)用于中文文本分類任務(wù),模型結(jié)構(gòu)圖1主要由3個部分組成:a.Roberta模型對輸入的中文文本進行預(yù)訓(xùn)練,得到含有上下文語義、語法信息的句子向量和詞向量;b.將詞向量分別輸入至DPCNN特征提取層和改進門控神經(jīng)網(wǎng)絡(luò)中,然后使用注意力機制將兩部分的特征詞向量相融合,得到含有深層結(jié)構(gòu)和局部信息的特征詞向量;c.將句子向量與詞向量進行融合,得到最終的文本向量表示,最后經(jīng)過softmax激活層后,輸出結(jié)果。

2.2 預(yù)訓(xùn)練模型Roberta

Bert預(yù)訓(xùn)練模型具有以下3方面優(yōu)勢:參數(shù)規(guī)模大、通用能力強、綜合性能好。預(yù)訓(xùn)練模型中包含著豐富的文本信息知識,因此,近些年的文本分類任務(wù)中通常會使用Bert行文本特征提取。但是,Bert的預(yù)訓(xùn)練階段并沒有使用全詞覆蓋的方式,mask(掩碼)字符不利于文本信息的提取,且使用NSP任務(wù)也會損害Bert的特征提取能力。為避免這些問題,本文使用了Roberta模型。同時,由于Roberta相較于Bert使用了更大規(guī)模的數(shù)據(jù)集,使得模型消耗的資源增加,訓(xùn)練時間增長。

Roberta模型結(jié)構(gòu)不僅繼承了Bert的雙向編碼器表示,而且將輸入的句子表示為字向量、句向量、位置向量三者之和,經(jīng)過多層雙向Transformer編碼器(見圖2)得到文本的向量化表示。圖中:Add表示殘差連接;Norm表示層標(biāo)準(zhǔn)化;FeedForward表示前向傳播;Nx表示Ⅳ個堆疊的相同x。

多頭注意力機制:假設(shè)輸入句子為X,X=[X1 X2 -xn],n表示樣本句子中字的個數(shù),對字使用one-hot編碼表示,其維度為k,則X所對應(yīng)的字嵌入矩陣為Y= [y1y2 - Ynl,xi所對應(yīng)的向量表示為Yi。通過訓(xùn)練模型可得出Q(Query)、K(Key)、V (Value)矩陣,dk表示K中列向量的維度大小,從而計算得到注意力值為

Bert模型中掩碼mask是靜態(tài)的,即Bert在準(zhǔn)備訓(xùn)練數(shù)據(jù)時,只會對每個樣本進行一次隨機的mask(在后續(xù)訓(xùn)練中,每個epoch(訓(xùn)練數(shù)據(jù))是相同的),后續(xù)的每個訓(xùn)練步都采用同樣的mask。Roberta模型相比于Bert,建立在Bert的語言掩蔽策略的基礎(chǔ)上,將靜態(tài)mask修改為動態(tài)mask,對數(shù)據(jù)進行預(yù)處理時會對原始數(shù)據(jù)拷貝10份,每一份都隨機選擇15%的Tokens(字符)進行mask,圖3為Roberta掩碼方式。

同時,Roberta取消了Bert的NSP(next sentenceprediction)任務(wù),采用了更大規(guī)模的數(shù)據(jù)集進行訓(xùn)練,更好地表現(xiàn)出了詞的語義和語法信息,文本向量表示更加完善。Roberta也修改了Bert中的關(guān)鍵超參數(shù),使用更大的batch方式和學(xué)習(xí)率進行訓(xùn)練,增長了訓(xùn)練序列,使得Roberta表示能夠比Bert更好地推廣到下游任務(wù)中。

2.3 DPCNN特征提取層

DPCNN[19]模型相比于TextCNN模型是更為有效廣泛的深層卷積模型,如圖4所示。圖中:σ(.)為逐分量非線性激活函數(shù);權(quán)重W和偏差6(每層唯一)為所要訓(xùn)練的參數(shù)。

DPCNN的底層為Region embedding層,該層由多個不同大小的卷積核組成,經(jīng)卷積操作后生成embedding,作為模型的嵌入層。本文使用兩層等長卷積層來捕獲長距離模式,提高對詞位embedding表示的豐富度。

下采樣的操作采用固定數(shù)量的濾波器,通過最大池化的方法,將原詞向量的長度減少一半,計算復(fù)雜度也相對減少,但其中包含的文本內(nèi)容卻得到了加長。然后進行兩層等長卷積,這兩部分組合成block模塊,重復(fù)block模塊的操作,直至滿足任務(wù)。隨著模型深度的變化,詞向量中的深層結(jié)構(gòu)信息和全局語義信息會不斷得到加強。

為了解決卷積過程中的梯度消失和爆炸問題,模型在block模塊進行前與region embedding使用pre-actlvation策略進行殘差連接,或者直接連接到最后的輸出層,有效緩解了梯度問題。模型隨著序列長度的加深呈現(xiàn)出深層次的金字塔結(jié)構(gòu)。

2.4 改進門控網(wǎng)絡(luò)

改進門控模型結(jié)構(gòu)見圖5,對于t時刻而言,輸人為qt,隱藏層輸人為nt-l,隱藏層輸出為nt,計算過程如式(4)~(7)所示。

傳統(tǒng)的門控神經(jīng)網(wǎng)絡(luò)中重置門和更新門都是使用的σ(σ=1/1+e-g)激活函數(shù),σ函數(shù)存在以下兩個缺點:a.容易出現(xiàn)梯度消失的現(xiàn)象,當(dāng)激活函數(shù)接近飽和區(qū)時,變化太緩慢,導(dǎo)數(shù)接近0,從而無法完成深層網(wǎng)絡(luò)的訓(xùn)練;b.σ的輸出不是0均值,這會導(dǎo)致后層的神經(jīng)元的輸入是非0均值的信號,會對梯度產(chǎn)生影響,導(dǎo)致收斂變慢。本文的φ(φ= eg - e-g/eg+ e-g)激活函數(shù)具有以下3個優(yōu)點:a.解決了上述σ函數(shù)輸出不是0均值的問題;b.φ函數(shù)的導(dǎo)數(shù)取值范圍在0~1之間,優(yōu)于σ函數(shù)的0~0.25,一定程度上緩解了梯度消失的問題;c.φ函數(shù)在原點附近與y=x函數(shù)形式相近,當(dāng)輸入的激活值較低時,可以直接進行矩陣運算,訓(xùn)練相對容易。

3 實驗

3.1 實驗環(huán)境

CPU 6x Xeon E5-2678 v3,內(nèi)存62 G,顯存ll G,NVIDIA GeForce RTX 2080 Ti,操作系統(tǒng)為Windowsl0 64位,python版本為3.8,深度學(xué)習(xí)框架為PyTorch。

3.2 實驗數(shù)據(jù)集

本實驗采用網(wǎng)上公開的清華THUCNews文本分類數(shù)據(jù)集中的短、長文本數(shù)據(jù)集,用于預(yù)測模型的性能。選取THUCNews數(shù)據(jù)集中的10個類別進行測試,短文本的類別包括:體育、娛樂、房產(chǎn)、教育、時政、游戲、社會、科技、股票、金融;長文本的類別包括:體育、娛樂、家居、房產(chǎn)、教育、時尚、時政、游戲、科學(xué)、金融。實驗數(shù)據(jù)集信息如表1所示。

3.3參數(shù)設(shè)置

文獻[20]在使用Bert作文本分類時給出了fine-tune建議。多相關(guān)任務(wù)的前提下,選擇多任務(wù)學(xué)習(xí)進行Bert frne-tune,目標(biāo)任務(wù)的實現(xiàn)需要考慮文本的預(yù)處理、圖層選擇和學(xué)習(xí)率。

進行學(xué)習(xí)率衰減,β= 0.95時模型效果最佳。Roberta模型只需要一個較小的學(xué)習(xí)率,同時使用warm-up策略,有助于緩解mini-batch的提前過擬合現(xiàn)象,保持分布的平穩(wěn),同時也有助于保證模型深層的穩(wěn)定性。以Adam算法為基礎(chǔ),采用手動階梯式衰減、lambda自定義衰減、三段式衰減和余弦式調(diào)整的4種方法(見圖6),調(diào)整學(xué)習(xí)率。

宋明等[21]在Bert作文本分類時,運用FocalLoss[22]作為損失函數(shù),提高了模型對困難文本分類的準(zhǔn)確率,本文采取Focal Loss作為損失函數(shù)。

本文中Roberta模型的學(xué)習(xí)率為1.0×10-5,但是在DPCNN的結(jié)構(gòu)中需要一個較大的學(xué)習(xí)率,取0.001。THUCNews長文本中句子長度取150,batch size取32;THUCNews短文本中句子長度取38,batch size為128。DPCNN結(jié)構(gòu)中,等長卷積kernel size為3。

3.4評價標(biāo)準(zhǔn)

將準(zhǔn)確率(accuracy)、精確率(precision)、召回率( recall)和Fl值作為實驗的評價標(biāo)準(zhǔn),相關(guān)的混淆矩陣結(jié)構(gòu)如表2所示。式中,H表示混淆矩陣各值。

3.5 實驗結(jié)果

為驗證本文所提模型的合理性和有效性,采用了8種模型在兩個數(shù)據(jù)集上進行測試,最后的結(jié)果也表現(xiàn)出本文所提出的模型效果優(yōu)于其他7種模型。

a.FastText[23]。Facebook在2016年發(fā)布了這種簡單快速實現(xiàn)文本分類的方法。FastText會自己訓(xùn)練詞向量,同時采用層次化softmax和n-gram讓模型學(xué)習(xí)到局部單詞順序的部分信息。

b.TextCNN。采用多通道CNN結(jié)構(gòu),經(jīng)過嵌入層后詞向量維度為300,經(jīng)過卷積核尺寸分別為2,3,4,通道數(shù)為256的卷積層后,將輸出的3個詞向量拼接在一起,經(jīng)過全連接層和softmax激活函數(shù)后輸出結(jié)果。

c.LSTM。LSTM的結(jié)構(gòu)為2層全連接層,隱藏層中神經(jīng)元的個數(shù)為128,方向為雙向;LSTM輸出的詞向量經(jīng)過全連接層和softmax激活函數(shù)后輸出結(jié)果。

d.DPCNN。深層金字塔卷積結(jié)構(gòu),采用圖4中的結(jié)構(gòu)設(shè)置。

e.Bert+DPCNN。采用谷歌提供的Bert模型作為預(yù)訓(xùn)練模型,下游任務(wù)連接DPCNN網(wǎng)絡(luò)結(jié)構(gòu),參數(shù)設(shè)置與Roberta+DPCNN網(wǎng)絡(luò)結(jié)構(gòu)一樣。

f.Roberta+LSTM。將Roberta模型中encoder層的輸出作為LSTM模型的輸入,得到輸出,將此輸出與Roberta模型中最后一層的輸出拼接在一起,經(jīng)過全連接層和softmax激活函數(shù)后輸出最后的結(jié)果。

g.Roberta+TextCNN。將Roberta模型中encoder層的輸出作為TextCNN模型的輸入,得到輸出,將此輸出與Roberta模型中最后一層的輸出拼接在一起,經(jīng)過全連接層和softmax激活函數(shù)后輸出最后的結(jié)果。

所有模型的實驗結(jié)果對比見表3和表4,其中本文所提出的模型為基于余弦式調(diào)整學(xué)習(xí)率的方法。

THUCNews短文本分類中,無遷移學(xué)習(xí)的模型中FastText模型的效果最優(yōu)。而在遷移學(xué)習(xí)的模型中,本文所采用的模型結(jié)合余弦式調(diào)整學(xué)習(xí)率的方法,所得出的結(jié)果在所有模型中最優(yōu),F(xiàn)l值可以達到96.98%,比FastText模型高出了2.gg%,比使用Roberta+TextCNN高出了1.02%。在THUCNews長文本分類中,本文模型相比于無遷移學(xué)習(xí)的DPCNN模型,準(zhǔn)確率高出了5.23%,比Roberta+LSTM模型高出了1.56%。在其他3項評價標(biāo)準(zhǔn)上,效果也明顯優(yōu)于其他模型。

THUCNews短文本分類中,無遷移學(xué)習(xí)的模型中效果最好的是FastText。這是因為FastText將短文本中的所有詞向量進行平均,句子中的序列、語義和結(jié)構(gòu)信息保存都較為完整。

在無遷移學(xué)習(xí)的模型結(jié)構(gòu)中,長文本分類使用FastText模型,效果不如卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。其原因是n-gram結(jié)構(gòu)所能獲取的上下文語義信息不如神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)完整。

使用預(yù)訓(xùn)練模型Roberta連接下游任務(wù),模型的整體性能優(yōu)于傳統(tǒng)模型。這是因為預(yù)訓(xùn)練模型中的參數(shù)從海量數(shù)據(jù)中訓(xùn)練得來,相較于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的自己從頭開始訓(xùn)練,預(yù)訓(xùn)練模型的收斂速度更快,泛化效果更好。

學(xué)習(xí)率作為監(jiān)督學(xué)習(xí)以及深度學(xué)習(xí)中重要的超參,決定著目標(biāo)函數(shù)能否收斂到局部最小以及何時收斂到最小。合適的學(xué)習(xí)率能使目標(biāo)函數(shù)在合適的時間內(nèi)收斂到局部最小。表5為學(xué)習(xí)率衰減實驗結(jié)果,從中可以發(fā)現(xiàn),以Fl值為評價標(biāo)準(zhǔn),Roberta模型使用余弦調(diào)整的方式分層調(diào)整其學(xué)習(xí)率,模型效果可以得到小幅度的提升。

從實驗結(jié)果還可以看出,Roberta模型在放棄NSP任務(wù)后,得到的句向量和詞向量的內(nèi)容更為豐富。使用DPCNN和RGRU模型作為模型的深層特征提取層,能再次提取句子中的有效信息,模型的泛化能力得到了進一步增強。

從圖7和圖8各個類別的F1值中可以看到,短文本分類模型中股票和金融類別的F1值較低,而長文本分類中只有金融這一個類別的F1值較高。從短文本中選取一部分相關(guān)性較高的數(shù)據(jù)(表6),結(jié)合圖9,短文本分類里金融類被識別為股票類的有40個,股票類被識別為金融類的有21個,說明這兩個分類在短文本分類模型里相互干擾較為嚴(yán)重。

針對THUCNews數(shù)據(jù)集出現(xiàn)的這種情況,在擴大數(shù)據(jù)集的同時,需要對數(shù)據(jù)進行進一步的預(yù)處理,同時也需要調(diào)整模型,使模型能更好地將不同的數(shù)據(jù)區(qū)分開來。如在序號為1的內(nèi)容中,需要給予毆打、調(diào)查等動詞更多權(quán)重,同時減少小學(xué)生、老師、區(qū)教委等名詞的權(quán)重。

4 結(jié)束語

以預(yù)訓(xùn)練模型結(jié)構(gòu)為基礎(chǔ),連接下游任務(wù)的模型結(jié)構(gòu),其性能優(yōu)于無遷移學(xué)習(xí)的網(wǎng)絡(luò)模型。本文使用了Roberta預(yù)訓(xùn)練模型連接下游任務(wù)的深層特征提取模型,同時針對Roberta模型、卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的特點,給予不同的學(xué)習(xí)率,分層調(diào)試其參數(shù),最后得到的文本特征向量信息十分豐富。利用Roberta模型中掩碼mask的策略,使得同一樣本在每輪訓(xùn)練的時候,mask位置不同,提高了模型輸入數(shù)據(jù)的隨機性,得到更加符合語義環(huán)境的動態(tài)詞向量,最終提升了模型的學(xué)習(xí)能力。

通過分析混淆矩陣,得出了當(dāng)前模型中所存在的不足,下一步將會針對不同類別的數(shù)據(jù)權(quán)重進行研究,嘗試將每個詞的語義和類型融入到輸入層中,進一步增強文本向量的表示信息。同時需要對模型的整體結(jié)構(gòu)進行調(diào)整,找出能夠提升模型效果的參數(shù),使模型可以更加優(yōu)秀地處理自然語言處理中的文本分類任務(wù)。

參考文獻:

[1]CHEN P H, LIN C J, SCHLKOPF B. A tutorial on v support vector machines[J]. Applied Stochastic Models inBusinessandIndustry,2005,21(2):111–136.

[2]CHEN T Q, GUESTRIN C. XGBoost: a scalable treeboosting system[C]//Proceedings of the 22nd ACMSIGKDD International Conference on KnowledgeDiscovery and Data Mining. San Francisco: ACM, 2016:785–794.

[3]PENNINGTONJ,SOCHERR,MANNINGCD.GloVe:global vectors for word representation[C]//Proceedings ofthe 2014 Conference on Empirical Methods in NaturalLanguage Processing (EMNLP). Doha: Association forComputationalLinguistics,2014:1532–1543.

[4]JOSHI M, CHEN D Q, LIU Y H, et al. SpanBERT:improving pre-training by representing and predictingspans[J]. Transactions of the Association forComputationalLinguistics,2020,8:64–77.

[5]KIM Y. Convolutional neural networks for sentenceclassification[C]//Proceedings of the 2014 Conference onEmpiricalMethodsinNaturalLanguageProcessing.Doha,Qatar: Association for Computational Linguistics, 2014:1746–1751.

[6]陳珂,梁斌,柯文德,等.基于多通道卷積神經(jīng)網(wǎng)絡(luò)的中文微博情感分析 [J]. 計算機研究與發(fā)展,2018,55(5):945–957.

[7]YAOL,MAOCS,LUOY.Graphconvolutionalnetworksfor text classification[C]//Proceedings of the 33rd AAAIConference on Artificial Intelligence. Honolulu: AAAI,2019:7370–7377.

[8]HULM,YANGTC,SHIC,etal.Heterogeneousgraphattention networks for semi-supervised short textclassification[C]//EMNLP-IJCNLP 2019: Proceedings ofthe 2019 Conference on Empirical Methods in NaturalLanguage Processing and the 9th International JointConference on Natural Language. Hong Kong, China:Association for Computational Linguistics, 2019:4821–4830.

[9] LIUPF,QIUXP,HUANGXJ.Recurrentneuralnetworkfor text classification with multi-task learning[C]//Proceedings of the Twenty-Fifth International JointConference on Artificial Intelligence. New York: AAAI,2016:2873–2879.

[10]SHENYK,TANS,SORDONIA,etal.Orderedneurons:integrating tree structures into recurrent neuralnetworks[C]//7th International Conference on LearningRepresentations.NewOrleans:OpenReview.net,2019.

[11]王偉,孫玉霞,齊慶杰,等.基于 BiGRU-attention 神經(jīng)網(wǎng)絡(luò)的文本情感分類模型 [J]. 計算機應(yīng)用研究, 2019,36(12):3558–3564.

[12]VASWANIA,SHAZEERN,PARMARN,etal.Attentionis all you need[C]//Proceedings of the 31st InternationalConference on Neural Information Processing Systems.Long Beach, California, USA: Curran Associates Inc. ,2017:6000–6010.

[13]FENIGSTEIN A. Self-consciousness, self-attention, andsocial interaction[J]. Journal of Personality and SocialPsychology,1979,37(1):75–86.

[14]BAHDANAU D, CHO K, BENGIO Y. Neural machinetranslationbyJointlylearningtoalignandtranslate[C]//3rdInternationalConferenceonLearningRepresentations.SanDiego,2015.

[15]CHENG K F, YUE Y N, SONG Z W. Sentimentclassification based on part-of-speech and self-attentionmechanism[J].IEEEAccess,2020,8:16387–16396.

[16]DEVLIN J, CHANG M W, LEE K, et al. BERT: pre training of deep bidirectional transformers for languageunderstanding[C]//Proceedings of the 2019 Conference ofthe North American Chapter of the Association forComputational Linguistics: Human LanguageTechnologies, Volume 1 (Long and Short Papers).Minneapolis: Association for Computational Linguistics,2019:4171–4186.

[17]孫紅,陳強越.融合 BERT 詞嵌入和注意力機制的中文文本分類 [J]. 小型微型計算機系統(tǒng),2022,43(1):22–26.

[18]張洋,胡燕.基于多通道深度學(xué)習(xí)網(wǎng)絡(luò)的混合語言短文本情感分類方法 [J]. 計算機應(yīng)用研究, 2021, 38(1):69–74.

[19]JOHNSON R, ZHANG T. Deep pyramid convolutionalneuralnetworksfortextcategorization[C]//Proceedingsofthe 55th Annual Meeting of the Association forComputational Linguistics. Vancouver, Canada:AssociationforComputationalLinguistics,2017:562–570.

[20]SUNC,QIUXP,XUYG,etal.Howtofine-tuneBERTfortextclassification[C]//18thChinaNationalConferenceonChineseComputationalLinguistics.Kunming:Springer,2019:194–206.

[21]宋明,劉彥隆.Bert在微博短文本情感分類中的應(yīng)用與優(yōu)化[J].小型微型計算機系統(tǒng),2021, 42(4): 714-718.

[22] LIN T Y,GOYAL P,GIRSHICK R,et al.Focal loss fordense object detection[J]. IEEE Transactions on PatternAnalysis and Machine Intelligence, 2020, 42(2):3 18-3 27.

[23] JOULIN A,GRAVE E,BOJANOWSKI P,et al.Bag oftricks for efficient text classification[C]//Proceedings of the15th Conference of the European Chapter of theAssociation for Computational Linguistics: Volume 2,Short Papers. Valencia: Association for ComputationalLinguistics, 2017: 427-43 1.

(編輯: 丁紅藝)

主站蜘蛛池模板: 欧美色视频网站| 国产正在播放| 爱爱影院18禁免费| 国产成人精品一区二区不卡| 亚洲成a人片7777| 亚洲欧美成人| 欧美精品一区在线看| 久久a级片| 婷婷色丁香综合激情| 日本人又色又爽的视频| 久久美女精品| 极品国产在线| 无码高潮喷水专区久久| 欧美成人精品在线| 欧美成人在线免费| 99久久精品久久久久久婷婷| 国产成人1024精品| 成年看免费观看视频拍拍| 免费国产在线精品一区| 精品1区2区3区| 欧美日韩午夜| 国产97公开成人免费视频| 色综合激情网| 欧美色香蕉| 在线免费观看a视频| 色噜噜狠狠狠综合曰曰曰| 国产精品无码制服丝袜| 专干老肥熟女视频网站| 免费xxxxx在线观看网站| 高清乱码精品福利在线视频| 成人福利免费在线观看| 青青操视频免费观看| 狠狠做深爱婷婷久久一区| 日韩A级毛片一区二区三区| 国产专区综合另类日韩一区| 成人在线亚洲| 亚洲bt欧美bt精品| 精品国产网站| 精品视频第一页| 国产精品亚洲日韩AⅤ在线观看| 91精品专区国产盗摄| 国产成人亚洲精品蜜芽影院| 一级片免费网站| 精品伊人久久久久7777人| 黄色网页在线观看| 亚洲精品爱草草视频在线| 高清无码不卡视频| 操国产美女| 久久久黄色片| 在线欧美a| 国产精品白浆无码流出在线看| 亚洲人成亚洲精品| 女人18一级毛片免费观看| 中文字幕日韩久久综合影院| www中文字幕在线观看| 97se亚洲综合在线天天| 成人精品在线观看| 久久人人妻人人爽人人卡片av| 国产成人精品18| 99久久这里只精品麻豆| 久久中文字幕不卡一二区| 一本无码在线观看| 国产免费福利网站| 欧美国产综合色视频| 亚洲看片网| 婷婷激情亚洲| 国产成人精品视频一区视频二区| 91在线精品麻豆欧美在线| 91亚瑟视频| 91偷拍一区| 精品国产福利在线| 香蕉久人久人青草青草| 国产成人综合欧美精品久久| 毛片久久网站小视频| 亚洲免费三区| 在线免费亚洲无码视频| 欧美区一区二区三| 日本精品中文字幕在线不卡| 久久国产精品娇妻素人| 内射人妻无码色AV天堂| 四虎亚洲精品| 女人18毛片水真多国产|