融合語義增強(qiáng)的中文短文本分類方法研究*

2022-04-07 03:43:00潘袁湘牛新征

計算機(jī)與數(shù)字工程 2022年3期

潘袁湘黃林牛新征

（1.電子科技大學(xué)信息與軟件工程學(xué)院成都 610000）（2.國網(wǎng)四川省電力公司信息通信公司成都 610015）（3.電子科技大學(xué)計算機(jī)科學(xué)與工程學(xué)院成都 610000）

1 引言

網(wǎng)絡(luò)上的微博等短文本具有內(nèi)容短，語義依賴性強(qiáng)的特點(diǎn)，如何對短文本進(jìn)行高效準(zhǔn)確的分類是自然語言處理領(lǐng)域的學(xué)者們探索的熱點(diǎn)。

中文短文本分類的本質(zhì)是提取已知類型標(biāo)簽的短文本特征，預(yù)測未知的待分類文本的歸屬類型。目前，短文本分類的主要方法有樸素貝葉斯［1］、支持向量機(jī)［2~3］以及神經(jīng)網(wǎng)絡(luò)［4~5］等。本文采用前沿的深度神經(jīng)網(wǎng)絡(luò)來研究中文短文本分類。

相較于傳統(tǒng)的語言模型，基于神經(jīng)網(wǎng)絡(luò)的語言模型具有有效共享上下文語義信息的特點(diǎn)，模型泛化能力強(qiáng)。例如word2vec［6］、glove［7］等模型可以學(xué)習(xí)到良好的向量表示作為特征，以便用于后續(xù)的分類任務(wù)。但word2vec 無法使一詞多義的問題得以解決。基于該現(xiàn)狀，Peters［8］等提出了一種高級新型語言模型（Embeddings from Language Models，ELMo），該模型生成的詞向量既可以對詞匯語法與語義進(jìn)行表征，又可以隨語境進(jìn)行多義詞動態(tài)變換。2018 年12 月，Google［9］提出的Bert（Bidirectional Encoder Representations from Transformers）語言模型可以捕捉更深層次的語義信息，其突破了多項自然語言處理任務(wù)，有力地推動了自然語言模型的發(fā)展。

人工神經(jīng)網(wǎng)絡(luò)分類法因其學(xué)習(xí)能力強(qiáng)的優(yōu)點(diǎn)，在實(shí)際分類任務(wù)中得以廣泛應(yīng)用。針對循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）存在“梯度消失”或“梯度爆炸”［10］的問題，Hochreiter［11］等認(rèn)為長短期記憶網(wǎng)絡(luò)（Long Short-Term Memory，LSTM），通過引入“門控”機(jī)制改善了上述問題。Cho K［12］等改進(jìn)了LSTM 的結(jié)構(gòu)，形成“雙門控”的門控循環(huán)單元（Gated Recurrent Unit,GRU）。Wang［13］等提出構(gòu)建雙向LSTM 網(wǎng)絡(luò)模型提取文本序列化的上下文信息，并引入注意力機(jī)制強(qiáng)化重要的文本特征表達(dá)，使短文本分類性能得到進(jìn)一步提升。

論文從改善傳統(tǒng)詞向量語義表達(dá)問題和從特征稀疏的短文本中提取重要特征的問題著手，提出融合語義增強(qiáng)的短文本分類方法。該方法使用預(yù)訓(xùn)練語言模型Bert進(jìn)行語義向量增強(qiáng)，同時在雙向GRU 的基礎(chǔ)上引入多頭注意力機(jī)制獲取短文本內(nèi)部依賴關(guān)系。經(jīng)驗證，本文提出的方法改善了短文本語義表達(dá)的問題，使短文本的分類精確率得到提升。

2 相關(guān)工作

2.1 語言模型Bert

Bert 語言模型是由多個Transformer 的Encoder部分進(jìn)行疊加組合而成的高級新型網(wǎng)絡(luò)。Transformer 的Encoder 能夠一次性雙向讀取完整的文本序列信息。這個特征使得模型能夠基于單詞的粒度進(jìn)行上下文語義學(xué)習(xí)。在訓(xùn)練語言模型時，Bert為了克服一種固有地限制語境學(xué)習(xí)的方向性的挑戰(zhàn)，創(chuàng)新性提出Masked LM［9］和Next Sentence Prediction［9］的無監(jiān)督預(yù)測任務(wù)來預(yù)訓(xùn)練Bert。

2.2 雙向門控循環(huán)單元Bi-GRU

雙向門控循環(huán)單元網(wǎng)絡(luò)（Bidirectional Gated Recurrent Unit，Bi-GRU）［14］是GRU 的一種雙向結(jié)構(gòu)，相較于GRU，Bi-GRU 結(jié)構(gòu)能更好地捕捉雙向語義依賴。它當(dāng)前時間步的隱狀態(tài)信息由前后兩個時間步共同決定。隱狀態(tài)輸出的公式如式（1）所示：

其中，表示前向傳播隱狀態(tài)，表示后向傳播隱狀態(tài)。

2.3 多頭注意力機(jī)制

不同于普通注意力機(jī)制，Google 團(tuán)隊提出了多頭注意力機(jī)制［15］（MultiHead Attention）。

多頭注意力機(jī)制通過“復(fù)制”和“拆分”自注意力機(jī)制的權(quán)重矩陣，形成新的加權(quán)計算模式，以便學(xué)習(xí)到多個不同子空間的語義信息。公式如下所示：

3 融合語義增強(qiáng)的中文短文本分類方法

為解決中文短文本特征稀疏和上下文依賴性強(qiáng)的問題，以有效提高短文本分類準(zhǔn)確率，論文提出了融合語義增強(qiáng)的中文短文本分類模型。模型結(jié)構(gòu)由語義向量表示層、特征抽取層和輸出層組成。首先將預(yù)處理后的短文本通過Bert 預(yù)訓(xùn)練語言模型生成的語義向量。然后輸入到Bi-GRU 神經(jīng)網(wǎng)絡(luò)中并結(jié)合多頭注意力機(jī)制提取文本全局特征。最后進(jìn)行多分類輸出。

3.1 語義向量表示層

語義向量表示層是文本輸入的第一層，采用預(yù)訓(xùn)練語言模型Bert進(jìn)行短文本語義向量表示。

以“股票的突破形態(tài)股票”為例。輸入表示流程圖如圖1 所示。首先按照“［CLS］股票的突破股票”的格式作為原始輸入。“CLS”標(biāo)記于首個句子開頭位置。“SEP”標(biāo)記于每個句子的末尾位置。然后進(jìn)行索引映射，包括對內(nèi)容切分為字的索引映射和標(biāo)簽的索引映射。然后把字進(jìn)行詞嵌入轉(zhuǎn)換為一維向量輸入Bert 結(jié)構(gòu)中。Transformer 一次性完整讀取所有序列并進(jìn)行雙向語義特征學(xué)習(xí)。通過Bert網(wǎng)絡(luò)模型得到各個字對應(yīng)的融合字、位置以及文本的全局語義信息的向量表示。

圖1 輸入表示層流程圖

3.2 融合語義增強(qiáng)的特征抽取層

特征抽取層將Bert 預(yù)訓(xùn)練語言模型生成的語義向量輸送到Bi-GRU 網(wǎng)絡(luò)中，同時結(jié)合多頭注意力機(jī)制提取文本全局特征。特征抽取層的結(jié)構(gòu)示意圖如圖2所示。

圖2 特征提取結(jié)構(gòu)示意圖

Bi-GRU網(wǎng)絡(luò)結(jié)構(gòu)的“雙門”可以控制時序信息的記憶程度，不但使其保留全局時序的最優(yōu)特征，而且又可以充分提取當(dāng)前時間步的前后時間步的隱狀態(tài)信息。因此本文構(gòu)建了Bi-GRU 網(wǎng)絡(luò)以充分提取短文本上下文語義信息。

輸入單元為Bert 預(yù)訓(xùn)練語言模型生成的語義向量集合，即X=｛x1，x2，…xi，…，xt｝，其中，xi（i=1，2，…，t）表示字向量。隱藏層包含前后兩個方向的傳播層。本文使用h→t表示前向傳播隱狀態(tài)，h←t表示后向傳播隱狀態(tài)。

論文采用數(shù)量大小為h 的隱藏單元構(gòu)建網(wǎng)絡(luò)。在進(jìn)行網(wǎng)絡(luò)前向推斷過程中，已知小批量輸入為xt，上一個時間步隱狀態(tài)為ht-1。Bi-GRU 網(wǎng)絡(luò)的內(nèi)部子結(jié)構(gòu)GRU 在時間步t時，通過式（4）和式（5）計算重置門和更新門的狀態(tài)。

其中，wr和wt為權(quán)重參數(shù)，σ為激活函數(shù)，其取值范圍在0~1之間。

候選隱狀態(tài)的作用是輔助控制當(dāng)前時間步t的隱狀態(tài)的計算，計算公式如式（6）所示：

其中，wh為權(quán)重參數(shù)，tanh 為激活函數(shù)，其取值范圍在-1~1之間。

至此，通過式（7）可計算出前向單元的隱狀態(tài)輸出。

通過式（8）可計算出后向單元的隱狀態(tài)輸出。

綜上，當(dāng)前時間步t 的前后隱狀態(tài)輸出拼接組成了綜合隱狀態(tài)輸出，其公式如式（9）所示：

由Bi-GRU 網(wǎng)絡(luò)中進(jìn)一步得到融合語義的向量集合O=｛o1，o2，…，oi，…，ot｝，其中，oi（i=1，2，…，t）表示語義特征向量。此時，論文采用多頭注意力機(jī)制在獲取強(qiáng)化語義的同時并進(jìn)行權(quán)重調(diào)整。

多頭注意力機(jī)制是由N 個自注意力機(jī)制堆疊而成，如圖3 所示。通過“復(fù)制”和“拆分”自注意力機(jī)制的權(quán)重矩陣，構(gòu)成了多頭注意力機(jī)制的計算模式，如式（10）所示，這使得學(xué)習(xí)到多個不同子空間的語義信息。

圖3 MultiHead-Attention更新權(quán)重計算

自注意力機(jī)制堆疊復(fù)制了8 次，形成了8 頭自注意力機(jī)制。通過平分這8 個Attention 形成了詞向量，然后通過矩陣交互計算，從而得到了多頭注意力的權(quán)值。

3.3 輸出層

輸出層對每個樣本所屬的標(biāo)簽進(jìn)行概率統(tǒng)計預(yù)測。在分類問題中，輸出層常用Softmax 層映射為條件概率。將輸入的樣本劃分為類別j的概率公式如式（11）所示：

x(i)表示訓(xùn)練樣本，y(i)∈{1，2，…，k}表示標(biāo)簽，y?則表示其預(yù)測值。

4 實(shí)驗

4.1 數(shù)據(jù)集

實(shí)驗數(shù)據(jù)來自今日頭條公開新聞數(shù)據(jù)集。數(shù)據(jù)集由38 萬余篇中文新聞文本標(biāo)題組成，其中包含房產(chǎn)、軍事、股票等總共15 個主題類別。本文選取其中的子集進(jìn)行實(shí)驗，每個類別選取5000 條數(shù)據(jù)，按照8∶1∶1 的比例進(jìn)行訓(xùn)練集、測試集和驗證集的劃分。

4.2 實(shí)驗結(jié)果與分析

實(shí)驗采用精確率（Precision，P）、召回率（Recall，R）和F1 值（F1-Measure，F(xiàn)）作為標(biāo)準(zhǔn)的評價指標(biāo)［16］。實(shí)驗環(huán)境為Linux Ubuntu16.04系統(tǒng)，顯卡型號GTX1070，實(shí)驗中涉及到的算法均采用Python3.6 編寫以及Tensorflow1.12 深度學(xué)習(xí)框架實(shí)現(xiàn)。

本實(shí)驗將目前在短文本分類任務(wù)中優(yōu)秀的算法［9，14］作為基準(zhǔn)算法，與本論文算法在相同數(shù)據(jù)集上進(jìn)行兩組對比實(shí)驗。

1）第一組實(shí)驗

為驗證Bert 預(yù)訓(xùn)練語言模型生成的語義向量比Word2Vec 的表征能力強(qiáng)，以使得分類準(zhǔn)確率更高。將Word2Vec-GRU 及其改進(jìn)模型與Bert-BiGRU模型進(jìn)行第一組分類實(shí)驗。

本組實(shí)驗相關(guān)參數(shù)設(shè)置如下。

模型訓(xùn)練的超參數(shù)包括：學(xué)習(xí)率lr 為0.001，隱層單元數(shù)hidden_units 為128，批處理量batch_size為32，網(wǎng)絡(luò)節(jié)點(diǎn)丟棄率dropout 為0.25。具體實(shí)驗結(jié)果記錄表如表1所示。

表1 實(shí)驗結(jié)果記錄表

2）第二組實(shí)驗

為驗證本論文提出的模型比主流的引入傳統(tǒng)向量表示或者引入注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)分類模型的準(zhǔn)確率高，本論文進(jìn)行第二組分類實(shí)驗。

本組實(shí)驗的模型超參數(shù)設(shè)置為學(xué)習(xí)率lr 為0.0005，隱層單元數(shù)hidden_units 為128，批處理量batch_size為32，網(wǎng)絡(luò)節(jié)點(diǎn)丟棄率dropout為0.1。具體實(shí)驗結(jié)果記錄表如表2所示。

表2 實(shí)驗結(jié)果記錄表

圖4 實(shí)驗二分類效果對比圖

本論文進(jìn)行了兩組對比實(shí)驗，具體分析如下。

由實(shí)驗一的結(jié)果記錄表可知，通過對比引入Word2Vec 的S1、S2 兩個方法和引入Bert 的S3 方法的實(shí)驗結(jié)果，發(fā)現(xiàn)S3方法相較S2方法的精確率、召回率和F1 值分別提升了5.78%、5.96%、4.37%。說明了加入Bert 生成的向量表示法能表達(dá)豐富的上下文語義信息，有利于后續(xù)分類準(zhǔn)確率的提高。

由實(shí)驗二的結(jié)果記錄表可知，通過對比M1、M2 和M3 方法，發(fā)現(xiàn)Bert無論在語義向量表征能力上還是分類準(zhǔn)確率上均表現(xiàn)優(yōu)越。通過對比M3和M5 方法的結(jié)果，發(fā)現(xiàn)引入多頭注意力機(jī)制比自注意力機(jī)制的分類效果更顯著。

通過對比實(shí)驗一分類準(zhǔn)確率最高的S3（M4）與本論文提出M5方法的實(shí)驗結(jié)果發(fā)現(xiàn)，模型精確率、召回率和F1 值分別提升了1.96%、2.7%、2.54%，證明本論文提出的方法在Bert-BiGRU 的基礎(chǔ)上，利用多頭注意力機(jī)制能充分捕捉到局部關(guān)鍵特征，進(jìn)一步增強(qiáng)短文本上下文語境。綜上兩組實(shí)驗可以證明本論文提出的融合語義增強(qiáng)的短文本分類方法的優(yōu)越性。

5 結(jié)語

針對中文短文本具有內(nèi)容特征稀疏，上下文依賴程度強(qiáng)的問題，結(jié)合目前主流的基于詞向量的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)，提出融合語義增強(qiáng)的中文短文本分類方法進(jìn)一步改善分類效果。該方法引入Bert生成融合字、文本以及位置向量的語義向量作為訓(xùn)練文本的詞表征。采用Bi-GRU 網(wǎng)絡(luò)提取上下文關(guān)系特征，并通過多頭注意力機(jī)制調(diào)整權(quán)值強(qiáng)化重要特征表達(dá)。實(shí)驗結(jié)果表明該方法應(yīng)用于短文本分類問題的準(zhǔn)確性和優(yōu)越性。