基于預(yù)訓(xùn)練模型融合深層特征詞向量的中文文本分類

2023-05-30 02:49:37湯英杰劉媛華

上海理工大學(xué)學(xué)報 2023年2期

湯英杰劉媛華

摘要：為解決傳統(tǒng)模型表示出的詞向量存在序列、上下文、語法、語義以及深層次的信息表示不明的情況，提出一種基于預(yù)訓(xùn)練模型（ Roberta）融合深層特征詞向量的深度神經(jīng)網(wǎng)絡(luò)模型，處理中文文本分類的問題。通過Roberta模型生成含有上下文語義、語法信息的句子向量和含有句子結(jié)構(gòu)特征的詞向量，使用DPCNN模型和改進門控模型（RGRU）對詞向量進行特征提取和融合，得到含有深層結(jié)構(gòu)和局部信息的特征詞向量，將句子向量與特征詞向量融合在一起得到新向量。最后，新向量經(jīng)過softmax激活層后，輸出結(jié)果。在實驗結(jié)果中，以F1值、準(zhǔn)確率、召回率為評價標(biāo)準(zhǔn)，在THUCNews長文本中，這些指標(biāo)分別達到了98.41%，98.44%，98.41%。同時，該模型在短文本分類中也取得了很好的成績。

關(guān)鍵詞：預(yù)訓(xùn)練模型；Roberta模型；DPCNN模型；特征詞向量；中文文本分類

中圖分類號：TP 391.1

文獻標(biāo)志碼：A

隨著移動互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，以及社交平臺、購物平臺的不斷涌現(xiàn)，人們暢游在網(wǎng)絡(luò)世界中，在享受高度便利和快捷生活的同時，海量信息也隨之充斥網(wǎng)絡(luò)，讓人們難辨真?zhèn)魏蜕茞骸W(wǎng)絡(luò)信息進行正確的文本分類，可以有效降低互聯(lián)網(wǎng)輿論中負(fù)面的影響，如：造謠、詆毀、惡意中傷等事件。同時，正確的文本分類，可以建立起智能信息推薦系統(tǒng)，根據(jù)用戶的個人興趣來定位并推薦相關(guān)的新聞資料、商品信息等；也可以建立垃圾信息過濾系統(tǒng)，減少生活中瑣碎、煩心事件，極大地簡便公眾的生活。

文本分類的方法包括使用傳統(tǒng)的機器學(xué)習(xí)方法和深度神經(jīng)網(wǎng)絡(luò)構(gòu)建模型的方法。使用機器學(xué)習(xí)進行文本分類時經(jīng)常會提取TF-IDF（term frequency-inverse document frequency）或者詞袋結(jié)構(gòu)，然后對模型進行訓(xùn)練，如支持向量機[1]、邏輯回歸、XGBoost[2]等。利用傳統(tǒng)機器學(xué)習(xí)方法進行文本分類的基本流程是獲取數(shù)據(jù)、數(shù)據(jù)預(yù)處理、特征提取、模型訓(xùn)練、預(yù)測。TF-IDF和詞袋模型都需要手動去構(gòu)建詞典，統(tǒng)計詞匯，進而計算出相關(guān)順序（使用歐式距離或夾角余弦相似度）。這兩種方法都存在較大的缺陷，如計算繁瑣、可解釋性差、語義不明等。

軟件、硬件技術(shù)的快速發(fā)展，使得文本分類問題開始從傳統(tǒng)的機器學(xué)習(xí)轉(zhuǎn)移到深度學(xué)習(xí)，詞向量Word2vec[3]的發(fā)展，推動了深度學(xué)習(xí)模型在自然語言處理中的應(yīng)用。深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)（convolution neural network，CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural networks，RNN）、圖神經(jīng)網(wǎng)絡(luò)（graph convolution network，GCN）等方法。

針對當(dāng)前使用神經(jīng)網(wǎng)絡(luò)處理文本分類的問題，本文提出了預(yù)訓(xùn)練Roberta[4]模型，對輸人數(shù)據(jù)的隨機掩碼和雙向動態(tài)的向量表示方法進行訓(xùn)練，加強了向量表示的靈活性，實現(xiàn)了數(shù)據(jù)增強。利用DPCNN（ deep pyramid convolutional neuralnetworks for text categorization）和改進門控網(wǎng)絡(luò)提取深層詞向量的特征，強化了有效信息，降低了無效信息和梯度消失的影響。運用注意力機制的方法融合句向量與深層詞向量，增強了文本向量的語義豐富性，捕捉重要詞與句之間的潛在語義關(guān)系，有效豐富了特征向量中的結(jié)構(gòu)、語義和語法信息。

1 相關(guān)工作

目前的文本分類深度學(xué)方法主要包括兩種，分別為基于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)進行改進的神經(jīng)網(wǎng)絡(luò)，以及基于預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。

1.1 基于CNN、RNN和GNN進行改進的神經(jīng)

網(wǎng)絡(luò)

文本分類模型使用較多的是TextCNN（ textconvolutional neural network），該模型由Kim等[5]提出，第一次將卷積神經(jīng)網(wǎng)絡(luò)用于自然語言處理的任務(wù)中。TextCNN通過一維卷積來獲取句子中n- gram的特征表示，對文本抽取淺層特征的能力很強。在長文本領(lǐng)域，TextCNN主要靠filter窗口抽取特征，但信息抽取能力較差，且對語序不敏感。文獻[6]通過采用多個濾波器構(gòu)建多通道的TextCNN網(wǎng)絡(luò)結(jié)構(gòu)，從多方面提取數(shù)據(jù)的特征，捕捉到了更多隱藏的文本信息。文獻[7]提出圖卷積神經(jīng)網(wǎng)絡(luò)對文本內(nèi)容進行編碼，文獻[8]使用了異構(gòu)圖注意網(wǎng)絡(luò)進一步提升了模型的編碼能力。

文獻[9]提出了循環(huán)神經(jīng)網(wǎng)絡(luò)的文本分類模型，但RNN結(jié)構(gòu)是一個串行結(jié)構(gòu)，對長距離單詞之間的語義學(xué)習(xí)能力差，同時可能伴隨有梯度消失和梯度爆炸的問題。隨后，LSTM（ long shorttermmemory， LSTM）和GRU（gate recurrentunit， GRU）模型被應(yīng)用在自然語言處理任務(wù)中，LSTM由輸入門、輸出門和遺忘門控制每個時間點的輸入、輸出和遺忘的概率，有效緩解了梯度消失和爆炸問題。文獻[10]中，提出了ONLSTM（ ordered neuronslong-short memory）結(jié)構(gòu)，在LSTM結(jié)構(gòu)中引入層級結(jié)構(gòu)，可以提取出文本的層級信息。GRU通過將輸入門和遺忘門組合在一起，命名為更新門，減少了門的數(shù)量，在保證記憶的同時，提升了網(wǎng)絡(luò)的訓(xùn)練效率。文獻[II]用BiGRU模型進行文本情感分類任務(wù)，提出了使用BiGRU模型對文本進行情感分析。

1.2預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)

2018年，谷歌團隊提出了transformer模型[12]，并采用了self-attention機制[13]。相比于循環(huán)神經(jīng)網(wǎng)絡(luò)模型，transformer模型是并行結(jié)構(gòu)，其運算速度得到了大大的提高。Transformer模型由encoder模塊和decoder模塊兩部分組成，decoder模塊與encoder類似，只是在encoder中self-attention的query，key，value都對應(yīng)了源端序列，decoder中self-attention的query，key，value都對應(yīng)了目標(biāo)端序列。注意力機制開始被應(yīng)用于圖像處理上，Bahdanau等[14]首次將其應(yīng)用在了NLP（自然語言處理）任務(wù)中，NLP領(lǐng)域也迎來了巨大的飛躍。文獻[15]針對文本分類任務(wù)提出了基于詞性的自注意力機制網(wǎng)絡(luò)模型，使用自注意力機制學(xué)習(xí)出特征向量表示，并融合詞性信息完成分類任務(wù)。

在Transformer模型和注意力機制的基礎(chǔ)上，Devlin等[16]提出了預(yù)訓(xùn)練Bert模型（bidirectionalencoder representation from transformers），開啟了預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時代。Bert的新語言表示模型代表了Transformer的雙向編碼器，從而生成了文本的雙向動態(tài)句子向量。孫紅等[17]基于Bert+GRU的網(wǎng)絡(luò)結(jié)構(gòu)對新聞文本進行分類，運用Bert得到特征詞向量，利用GRU網(wǎng)絡(luò)作為主題網(wǎng)絡(luò)提取上下文的文本特征。文獻[18]提出了一種基于Bert的構(gòu)建雙通道網(wǎng)絡(luò)模型的文本分類任務(wù)，提升了混合語言文本分類模型的性能。

盡管上述研究證明了對文本進行特征提取和融合之后，可以為分類器提供足夠的信息，提高了文本分類問題的準(zhǔn)確率。但是，如何對句與詞之間的結(jié)構(gòu)、語義和語法等信息進行提取，未作出明確的說明和研究，這也是本文所關(guān)注的重點。簡而言之，在提取文本信息時，既要提取出文本主要信息，同時也需要注重詞與句之間內(nèi)容關(guān)系的提取。

在此基礎(chǔ)上，本文利用Roberta模型的強大功能，訓(xùn)練出含有上下文語義、語法信息的句子向量和含有句子結(jié)構(gòu)特征的詞向量。并分別利用DPCNN網(wǎng)絡(luò)和改進門控網(wǎng)絡(luò)（RGRU），對詞向量進行特征提取，使用注意力機制將兩部分輸出的詞向量進行融合，得到深層特征詞向量。其中，DPCNN的主要作用是負(fù)責(zé)強化局部上下文的關(guān)系，RGRU負(fù)責(zé)詞與詞之間的時序關(guān)系，注意力機制對局部上下文關(guān)系和時序關(guān)系進行通盤考慮，使用注意力機制也能夠更好地將特征中的重點表現(xiàn)出來。最后，將詞向量與句向量相融合來提升模型的性能。

2 模型設(shè)計

2.1 模型結(jié)構(gòu)

本文提出的模型應(yīng)用于中文文本分類任務(wù)，模型結(jié)構(gòu)圖1主要由3個部分組成：a．Roberta模型對輸入的中文文本進行預(yù)訓(xùn)練，得到含有上下文語義、語法信息的句子向量和詞向量；b．將詞向量分別輸入至DPCNN特征提取層和改進門控神經(jīng)網(wǎng)絡(luò)中，然后使用注意力機制將兩部分的特征詞向量相融合，得到含有深層結(jié)構(gòu)和局部信息的特征詞向量；c．將句子向量與詞向量進行融合，得到最終的文本向量表示，最后經(jīng)過softmax激活層后，輸出結(jié)果。

2.2 預(yù)訓(xùn)練模型Roberta

Bert預(yù)訓(xùn)練模型具有以下3方面優(yōu)勢：參數(shù)規(guī)模大、通用能力強、綜合性能好。預(yù)訓(xùn)練模型中包含著豐富的文本信息知識，因此，近些年的文本分類任務(wù)中通常會使用Bert行文本特征提取。但是，Bert的預(yù)訓(xùn)練階段并沒有使用全詞覆蓋的方式，mask（掩碼）字符不利于文本信息的提取，且使用NSP任務(wù)也會損害Bert的特征提取能力。為避免這些問題，本文使用了Roberta模型。同時，由于Roberta相較于Bert使用了更大規(guī)模的數(shù)據(jù)集，使得模型消耗的資源增加，訓(xùn)練時間增長。

Roberta模型結(jié)構(gòu)不僅繼承了Bert的雙向編碼器表示，而且將輸入的句子表示為字向量、句向量、位置向量三者之和，經(jīng)過多層雙向Transformer編碼器（見圖2）得到文本的向量化表示。圖中：Add表示殘差連接；Norm表示層標(biāo)準(zhǔn)化；FeedForward表示前向傳播；Nx表示Ⅳ個堆疊的相同x。

多頭注意力機制：假設(shè)輸入句子為X，X=[X1 X2 -xn]，n表示樣本句子中字的個數(shù)，對字使用one-hot編碼表示，其維度為k，則X所對應(yīng)的字嵌入矩陣為Y= [y1y2 - Ynl，xi所對應(yīng)的向量表示為Yi。通過訓(xùn)練模型可得出Q（Query）、K（Key）、V （Value）矩陣，dk表示K中列向量的維度大小，從而計算得到注意力值為

Bert模型中掩碼mask是靜態(tài)的，即Bert在準(zhǔn)備訓(xùn)練數(shù)據(jù)時，只會對每個樣本進行一次隨機的mask（在后續(xù)訓(xùn)練中，每個epoch（訓(xùn)練數(shù)據(jù)）是相同的），后續(xù)的每個訓(xùn)練步都采用同樣的mask。Roberta模型相比于Bert，建立在Bert的語言掩蔽策略的基礎(chǔ)上，將靜態(tài)mask修改為動態(tài)mask，對數(shù)據(jù)進行預(yù)處理時會對原始數(shù)據(jù)拷貝10份，每一份都隨機選擇15%的Tokens（字符）進行mask，圖3為Roberta掩碼方式。

同時，Roberta取消了Bert的NSP（next sentenceprediction）任務(wù)，采用了更大規(guī)模的數(shù)據(jù)集進行訓(xùn)練，更好地表現(xiàn)出了詞的語義和語法信息，文本向量表示更加完善。Roberta也修改了Bert中的關(guān)鍵超參數(shù)，使用更大的batch方式和學(xué)習(xí)率進行訓(xùn)練，增長了訓(xùn)練序列，使得Roberta表示能夠比Bert更好地推廣到下游任務(wù)中。

2.3 DPCNN特征提取層

DPCNN[19]模型相比于TextCNN模型是更為有效廣泛的深層卷積模型，如圖4所示。圖中：σ（．）為逐分量非線性激活函數(shù)；權(quán)重W和偏差6（每層唯一）為所要訓(xùn)練的參數(shù)。

DPCNN的底層為Region embedding層，該層由多個不同大小的卷積核組成，經(jīng)卷積操作后生成embedding，作為模型的嵌入層。本文使用兩層等長卷積層來捕獲長距離模式，提高對詞位embedding表示的豐富度。

下采樣的操作采用固定數(shù)量的濾波器，通過最大池化的方法，將原詞向量的長度減少一半，計算復(fù)雜度也相對減少，但其中包含的文本內(nèi)容卻得到了加長。然后進行兩層等長卷積，這兩部分組合成block模塊，重復(fù)block模塊的操作，直至滿足任務(wù)。隨著模型深度的變化，詞向量中的深層結(jié)構(gòu)信息和全局語義信息會不斷得到加強。

為了解決卷積過程中的梯度消失和爆炸問題，模型在block模塊進行前與region embedding使用pre-actlvation策略進行殘差連接，或者直接連接到最后的輸出層，有效緩解了梯度問題。模型隨著序列長度的加深呈現(xiàn)出深層次的金字塔結(jié)構(gòu)。

2.4 改進門控網(wǎng)絡(luò)

改進門控模型結(jié)構(gòu)見圖5，對于t時刻而言，輸人為qt，隱藏層輸人為nt-l，隱藏層輸出為nt，計算過程如式（4）～（7）所示。

傳統(tǒng)的門控神經(jīng)網(wǎng)絡(luò)中重置門和更新門都是使用的σ（σ=1／1+e-g）激活函數(shù)，σ函數(shù)存在以下兩個缺點：a．容易出現(xiàn)梯度消失的現(xiàn)象，當(dāng)激活函數(shù)接近飽和區(qū)時，變化太緩慢，導(dǎo)數(shù)接近0，從而無法完成深層網(wǎng)絡(luò)的訓(xùn)練；b．σ的輸出不是0均值，這會導(dǎo)致后層的神經(jīng)元的輸入是非0均值的信號，會對梯度產(chǎn)生影響，導(dǎo)致收斂變慢。本文的φ（φ= eg - e-g/eg+ e-g）激活函數(shù)具有以下3個優(yōu)點：a．解決了上述σ函數(shù)輸出不是0均值的問題；b．φ函數(shù)的導(dǎo)數(shù)取值范圍在0～1之間，優(yōu)于σ函數(shù)的0～0.25，一定程度上緩解了梯度消失的問題；c．φ函數(shù)在原點附近與y=x函數(shù)形式相近，當(dāng)輸入的激活值較低時，可以直接進行矩陣運算，訓(xùn)練相對容易。

3 實驗

3.1 實驗環(huán)境

CPU 6x Xeon E5-2678 v3，內(nèi)存62 G，顯存ll G，NVIDIA GeForce RTX 2080 Ti，操作系統(tǒng)為Windowsl0 64位，python版本為3.8，深度學(xué)習(xí)框架為PyTorch。

3.2 實驗數(shù)據(jù)集

本實驗采用網(wǎng)上公開的清華THUCNews文本分類數(shù)據(jù)集中的短、長文本數(shù)據(jù)集，用于預(yù)測模型的性能。選取THUCNews數(shù)據(jù)集中的10個類別進行測試，短文本的類別包括：體育、娛樂、房產(chǎn)、教育、時政、游戲、社會、科技、股票、金融；長文本的類別包括：體育、娛樂、家居、房產(chǎn)、教育、時尚、時政、游戲、科學(xué)、金融。實驗數(shù)據(jù)集信息如表1所示。

3.3參數(shù)設(shè)置

文獻[20]在使用Bert作文本分類時給出了fine-tune建議。多相關(guān)任務(wù)的前提下，選擇多任務(wù)學(xué)習(xí)進行Bert frne-tune，目標(biāo)任務(wù)的實現(xiàn)需要考慮文本的預(yù)處理、圖層選擇和學(xué)習(xí)率。

進行學(xué)習(xí)率衰減，β= 0.95時模型效果最佳。Roberta模型只需要一個較小的學(xué)習(xí)率，同時使用warm-up策略，有助于緩解mini-batch的提前過擬合現(xiàn)象，保持分布的平穩(wěn)，同時也有助于保證模型深層的穩(wěn)定性。以Adam算法為基礎(chǔ)，采用手動階梯式衰減、lambda自定義衰減、三段式衰減和余弦式調(diào)整的4種方法（見圖6），調(diào)整學(xué)習(xí)率。

宋明等[21]在Bert作文本分類時，運用FocalLoss[22]作為損失函數(shù)，提高了模型對困難文本分類的準(zhǔn)確率，本文采取Focal Loss作為損失函數(shù)。

本文中Roberta模型的學(xué)習(xí)率為1.0×10-5，但是在DPCNN的結(jié)構(gòu)中需要一個較大的學(xué)習(xí)率，取0.001。THUCNews長文本中句子長度取150，batch size取32；THUCNews短文本中句子長度取38，batch size為128。DPCNN結(jié)構(gòu)中，等長卷積kernel size為3。

3.4評價標(biāo)準(zhǔn)

將準(zhǔn)確率（accuracy）、精確率（precision）、召回率（ recall）和Fl值作為實驗的評價標(biāo)準(zhǔn)，相關(guān)的混淆矩陣結(jié)構(gòu)如表2所示。式中，H表示混淆矩陣各值。

3.5 實驗結(jié)果

為驗證本文所提模型的合理性和有效性，采用了8種模型在兩個數(shù)據(jù)集上進行測試，最后的結(jié)果也表現(xiàn)出本文所提出的模型效果優(yōu)于其他7種模型。

a．FastText[23]。Facebook在2016年發(fā)布了這種簡單快速實現(xiàn)文本分類的方法。FastText會自己訓(xùn)練詞向量，同時采用層次化softmax和n-gram讓模型學(xué)習(xí)到局部單詞順序的部分信息。

b．TextCNN。采用多通道CNN結(jié)構(gòu)，經(jīng)過嵌入層后詞向量維度為300，經(jīng)過卷積核尺寸分別為2，3，4，通道數(shù)為256的卷積層后，將輸出的3個詞向量拼接在一起，經(jīng)過全連接層和softmax激活函數(shù)后輸出結(jié)果。

c．LSTM。LSTM的結(jié)構(gòu)為2層全連接層，隱藏層中神經(jīng)元的個數(shù)為128，方向為雙向；LSTM輸出的詞向量經(jīng)過全連接層和softmax激活函數(shù)后輸出結(jié)果。

d．DPCNN。深層金字塔卷積結(jié)構(gòu)，采用圖4中的結(jié)構(gòu)設(shè)置。

e．Bert+DPCNN。采用谷歌提供的Bert模型作為預(yù)訓(xùn)練模型，下游任務(wù)連接DPCNN網(wǎng)絡(luò)結(jié)構(gòu)，參數(shù)設(shè)置與Roberta+DPCNN網(wǎng)絡(luò)結(jié)構(gòu)一樣。

f．Roberta+LSTM。將Roberta模型中encoder層的輸出作為LSTM模型的輸入，得到輸出，將此輸出與Roberta模型中最后一層的輸出拼接在一起，經(jīng)過全連接層和softmax激活函數(shù)后輸出最后的結(jié)果。

g．Roberta+TextCNN。將Roberta模型中encoder層的輸出作為TextCNN模型的輸入，得到輸出，將此輸出與Roberta模型中最后一層的輸出拼接在一起，經(jīng)過全連接層和softmax激活函數(shù)后輸出最后的結(jié)果。

所有模型的實驗結(jié)果對比見表3和表4，其中本文所提出的模型為基于余弦式調(diào)整學(xué)習(xí)率的方法。

THUCNews短文本分類中，無遷移學(xué)習(xí)的模型中FastText模型的效果最優(yōu)。而在遷移學(xué)習(xí)的模型中，本文所采用的模型結(jié)合余弦式調(diào)整學(xué)習(xí)率的方法，所得出的結(jié)果在所有模型中最優(yōu)，F(xiàn)l值可以達到96.98%，比FastText模型高出了2.gg%，比使用Roberta+TextCNN高出了1.02%。在THUCNews長文本分類中，本文模型相比于無遷移學(xué)習(xí)的DPCNN模型，準(zhǔn)確率高出了5.23%，比Roberta+LSTM模型高出了1.56%。在其他3項評價標(biāo)準(zhǔn)上，效果也明顯優(yōu)于其他模型。

THUCNews短文本分類中，無遷移學(xué)習(xí)的模型中效果最好的是FastText。這是因為FastText將短文本中的所有詞向量進行平均，句子中的序列、語義和結(jié)構(gòu)信息保存都較為完整。

在無遷移學(xué)習(xí)的模型結(jié)構(gòu)中，長文本分類使用FastText模型，效果不如卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。其原因是n-gram結(jié)構(gòu)所能獲取的上下文語義信息不如神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)完整。

使用預(yù)訓(xùn)練模型Roberta連接下游任務(wù)，模型的整體性能優(yōu)于傳統(tǒng)模型。這是因為預(yù)訓(xùn)練模型中的參數(shù)從海量數(shù)據(jù)中訓(xùn)練得來，相較于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的自己從頭開始訓(xùn)練，預(yù)訓(xùn)練模型的收斂速度更快，泛化效果更好。

學(xué)習(xí)率作為監(jiān)督學(xué)習(xí)以及深度學(xué)習(xí)中重要的超參，決定著目標(biāo)函數(shù)能否收斂到局部最小以及何時收斂到最小。合適的學(xué)習(xí)率能使目標(biāo)函數(shù)在合適的時間內(nèi)收斂到局部最小。表5為學(xué)習(xí)率衰減實驗結(jié)果，從中可以發(fā)現(xiàn)，以Fl值為評價標(biāo)準(zhǔn)，Roberta模型使用余弦調(diào)整的方式分層調(diào)整其學(xué)習(xí)率，模型效果可以得到小幅度的提升。

從實驗結(jié)果還可以看出，Roberta模型在放棄NSP任務(wù)后，得到的句向量和詞向量的內(nèi)容更為豐富。使用DPCNN和RGRU模型作為模型的深層特征提取層，能再次提取句子中的有效信息，模型的泛化能力得到了進一步增強。

從圖7和圖8各個類別的F1值中可以看到，短文本分類模型中股票和金融類別的F1值較低，而長文本分類中只有金融這一個類別的F1值較高。從短文本中選取一部分相關(guān)性較高的數(shù)據(jù)（表6），結(jié)合圖9，短文本分類里金融類被識別為股票類的有40個，股票類被識別為金融類的有21個，說明這兩個分類在短文本分類模型里相互干擾較為嚴(yán)重。

針對THUCNews數(shù)據(jù)集出現(xiàn)的這種情況，在擴大數(shù)據(jù)集的同時，需要對數(shù)據(jù)進行進一步的預(yù)處理，同時也需要調(diào)整模型，使模型能更好地將不同的數(shù)據(jù)區(qū)分開來。如在序號為1的內(nèi)容中，需要給予毆打、調(diào)查等動詞更多權(quán)重，同時減少小學(xué)生、老師、區(qū)教委等名詞的權(quán)重。

4 結(jié)束語

以預(yù)訓(xùn)練模型結(jié)構(gòu)為基礎(chǔ)，連接下游任務(wù)的模型結(jié)構(gòu)，其性能優(yōu)于無遷移學(xué)習(xí)的網(wǎng)絡(luò)模型。本文使用了Roberta預(yù)訓(xùn)練模型連接下游任務(wù)的深層特征提取模型，同時針對Roberta模型、卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的特點，給予不同的學(xué)習(xí)率，分層調(diào)試其參數(shù)，最后得到的文本特征向量信息十分豐富。利用Roberta模型中掩碼mask的策略，使得同一樣本在每輪訓(xùn)練的時候，mask位置不同，提高了模型輸入數(shù)據(jù)的隨機性，得到更加符合語義環(huán)境的動態(tài)詞向量，最終提升了模型的學(xué)習(xí)能力。

通過分析混淆矩陣，得出了當(dāng)前模型中所存在的不足，下一步將會針對不同類別的數(shù)據(jù)權(quán)重進行研究，嘗試將每個詞的語義和類型融入到輸入層中，進一步增強文本向量的表示信息。同時需要對模型的整體結(jié)構(gòu)進行調(diào)整，找出能夠提升模型效果的參數(shù)，使模型可以更加優(yōu)秀地處理自然語言處理中的文本分類任務(wù)。

參考文獻：

[1]CHEN P H， LIN C J， SCHLKOPF B. A tutorial on v support vector machines[J]. Applied Stochastic Models inBusinessandIndustry，2005，21（2）：111–136.

[2]CHEN T Q， GUESTRIN C. XGBoost： a scalable treeboosting system[C]//Proceedings of the 22nd ACMSIGKDD International Conference on KnowledgeDiscovery and Data Mining. San Francisco： ACM， 2016：785–794.

[3]PENNINGTONJ，SOCHERR，MANNINGCD.GloVe：global vectors for word representation[C]//Proceedings ofthe 2014 Conference on Empirical Methods in NaturalLanguage Processing （EMNLP）. Doha： Association forComputationalLinguistics，2014：1532–1543.

[4]JOSHI M， CHEN D Q， LIU Y H， et al. SpanBERT：improving pre-training by representing and predictingspans[J]. Transactions of the Association forComputationalLinguistics，2020，8：64–77.

[5]KIM Y. Convolutional neural networks for sentenceclassification[C]//Proceedings of the 2014 Conference onEmpiricalMethodsinNaturalLanguageProcessing.Doha，Qatar： Association for Computational Linguistics， 2014：1746–1751.

[6]陳珂，梁斌，柯文德，等.基于多通道卷積神經(jīng)網(wǎng)絡(luò)的中文微博情感分析 [J]. 計算機研究與發(fā)展，2018，55（5）：945–957.

[7]YAOL，MAOCS，LUOY.Graphconvolutionalnetworksfor text classification[C]//Proceedings of the 33rd AAAIConference on Artificial Intelligence. Honolulu： AAAI，2019：7370–7377.

[8]HULM，YANGTC，SHIC，etal.Heterogeneousgraphattention networks for semi-supervised short textclassification[C]//EMNLP-IJCNLP 2019： Proceedings ofthe 2019 Conference on Empirical Methods in NaturalLanguage Processing and the 9th International JointConference on Natural Language. Hong Kong， China：Association for Computational Linguistics， 2019：4821–4830.

[9] LIUPF，QIUXP，HUANGXJ.Recurrentneuralnetworkfor text classification with multi-task learning[C]//Proceedings of the Twenty-Fifth International JointConference on Artificial Intelligence. New York： AAAI，2016：2873–2879.

[10]SHENYK，TANS，SORDONIA，etal.Orderedneurons：integrating tree structures into recurrent neuralnetworks[C]//7th International Conference on LearningRepresentations.NewOrleans：OpenReview.net，2019.

[11]王偉，孫玉霞，齊慶杰，等.基于 BiGRU-attention 神經(jīng)網(wǎng)絡(luò)的文本情感分類模型 [J]. 計算機應(yīng)用研究， 2019，36（12）：3558–3564.

[12]VASWANIA，SHAZEERN，PARMARN，etal.Attentionis all you need[C]//Proceedings of the 31st InternationalConference on Neural Information Processing Systems.Long Beach， California， USA： Curran Associates Inc. ，2017：6000–6010.

[13]FENIGSTEIN A. Self-consciousness， self-attention， andsocial interaction[J]. Journal of Personality and SocialPsychology，1979，37（1）：75–86.

[14]BAHDANAU D， CHO K， BENGIO Y. Neural machinetranslationbyJointlylearningtoalignandtranslate[C]//3rdInternationalConferenceonLearningRepresentations.SanDiego，2015.

[15]CHENG K F， YUE Y N， SONG Z W. Sentimentclassification based on part-of-speech and self-attentionmechanism[J].IEEEAccess，2020，8：16387–16396.

[16]DEVLIN J， CHANG M W， LEE K， et al. BERT： pre training of deep bidirectional transformers for languageunderstanding[C]//Proceedings of the 2019 Conference ofthe North American Chapter of the Association forComputational Linguistics： Human LanguageTechnologies， Volume 1 （Long and Short Papers）.Minneapolis： Association for Computational Linguistics，2019：4171–4186.

[17]孫紅，陳強越.融合 BERT 詞嵌入和注意力機制的中文文本分類 [J]. 小型微型計算機系統(tǒng)，2022，43（1）：22–26.

[18]張洋，胡燕.基于多通道深度學(xué)習(xí)網(wǎng)絡(luò)的混合語言短文本情感分類方法 [J]. 計算機應(yīng)用研究， 2021， 38（1）：69–74.

[19]JOHNSON R， ZHANG T. Deep pyramid convolutionalneuralnetworksfortextcategorization[C]//Proceedingsofthe 55th Annual Meeting of the Association forComputational Linguistics. Vancouver， Canada：AssociationforComputationalLinguistics，2017：562–570.

[20]SUNC，QIUXP，XUYG，etal.Howtofine-tuneBERTfortextclassification[C]//18thChinaNationalConferenceonChineseComputationalLinguistics.Kunming：Springer，2019：194–206.

[21]宋明，劉彥隆．Bert在微博短文本情感分類中的應(yīng)用與優(yōu)化[J].小型微型計算機系統(tǒng)，2021， 42（4）： 714-718.

[22] LIN T Y，GOYAL P，GIRSHICK R，et al.Focal loss fordense object detection[J]. IEEE Transactions on PatternAnalysis and Machine Intelligence， 2020， 42（2）：3 18-3 27.

[23] JOULIN A，GRAVE E，BOJANOWSKI P，et al.Bag oftricks for efficient text classification[C]//Proceedings of the15th Conference of the European Chapter of theAssociation for Computational Linguistics： Volume 2，Short Papers. Valencia： Association for ComputationalLinguistics， 2017： 427-43 1.

（編輯：丁紅藝）

上海理工大學(xué)學(xué)報2023年2期

上海理工大學(xué)學(xué)報的其它文章: 基于潛在因子多樣性的非負(fù)矩陣分解協(xié)同過濾模型; 摻硅羥基磷灰石微球的微流控制備及其體外生物活性研究; 亞麻籽粕對小麥面團特性的影響; 一種適用于質(zhì)量交換網(wǎng)絡(luò)優(yōu)化的節(jié)點非結(jié)構(gòu)模型; 基于肌電信號的人體下肢運動意圖映射研究進展; 基于數(shù)據(jù)編解碼的時空交通流預(yù)測方法