基于Stacking-Bert集成學習的中文短文本分類算法

2022-04-25 05:35:32鄭承宇王新王婷尹甜甜鄧亞萍

科學技術與工程 2022年10期

鄭承宇，王新，王婷，尹甜甜，鄧亞萍

(云南民族大學數學與計算機科學學院，昆明 650500)

文本分類一直是自然語言處理領域的重要研究課題，傳統機器學習算法文本特征表達能力較弱，需要進行特征工程提取，基于海量大數據支撐的深度學習算法面臨著對具體問題的強依賴性。而中文短文本具有特征詞匯較少，詞意復雜和特征稀疏等特點，現有文本分類算法的預測效果往往依賴于具體問題，不同場景狀態下算法適應能力較弱，引起了中外學者的廣泛關注[1-3]。

徐清越等[4]提出一種融合雙維度卷積神經網絡(two-dimensional convolutional neural networks, TD-CNN)和位置自注意力機制(positional attention mechanism, PO-ATT)的文本分類模型，提取文本向量的豐富語義特征，根據詞語和字符兩種不同嵌入級別的特征向量表達進行語義分類研判。隨后，陳可嘉等[5]提出一種基于全局詞向量表示(global vectors for word representation, Glove)和隱含狄利克雷分布(latent dirichlet allocation, LDA)主題模型的文本表示改進方法，訓練隱含主題信息和相應概率信息分布的主題向量，計算兩者相似性作為輸入。相比傳統語義分類模型，上述方法在一定程度上提升了文本分類器的性能。沈雅婷等[6]提出一種基于自舉匯聚法的文本分類多基模型框架(bagging fastText, B_f)，以fastText為基礎框架，運用集成學習思想，設置最優超參數組成多基模型，再通過投票機制確定文本最終類別，在大規模有監督文本分類任務中表現出了較好的普遍適用性。上述研究工作基于word2vec或Glove等靜態詞向量展開，在解決短文本分類問題時仍存在一定的局限性。近期，隨著預訓練語言模型的廣泛應用，越來越多的學者開始將其用于文本的深層語義抽取，段丹丹等[7]提出一種基于預訓練語言模型(bidirectional encoder representations from transformer, BERT)的中文短文本分類模型，利用Transformer雙向編碼器在句子層面進行特征向量表示，在中文短文本分類任務中表現出了更好的模型性能。在此基礎上，崔文武等[8]提出一種基于BERT模型的訴訟案件違法事實要素自動抽取方法，并引入循環神經網絡對文本進行編碼，提取上下文相關的語義信息。張翼翔等[9]提出一種基于BERT-BIGRU-ATT模型的短文本分類方法，利用BERT預訓練語言模型提取文本字向量，并引入雙向門控神經單元(bidirectional gated recurrent unit, Bi-GRU)和注意力機制(attention, ATT)，強化學習短文本的上下文語義特征。

綜合上述分析，現提出一種用于中文短文本分類的多基模型框架Stacking-Bert，通過集成多個異質基分類器實現文本向量的訓練和預測。該模型采用BERT預訓練語言模型對大量中文語料庫進行預訓練，得到融合詞語本身和上下文語義信息的動態詞向量表示，并將獲得的短文本字向量與TextCNN、DPCNN、TextRNN、TextRCNN等神經網絡模塊相結合，運用Stacking集成學習思想，對多個異質基分類器設計一個元分類器模型進行訓練和分類，以期解決現有文本分類算法適應各場景能力較弱，分類準確率較低的問題。

1 相關模型介紹

1.1 Stacking集成學習模型

Stacking集成學習算法是一種通過構建一個元分類器模型來整合多個基分類模型的集成學習技術，通過將若干個具有學習能力較強和差異性較大的基分類器模型組合成一個強分類器，以此提升模型的泛化能力。Stacking集成通常包含多個不同的基模型和一個元模型。基分類器模型利用整個訓練集進行訓練，元分類器模型將多個異質基分類器模型的輸出特征作為輸入特征進行訓練，模型框架結構如圖1所示。

圖1 Stacking集成學習算法框架

Stacking集成學習將訓練好的基模型對整個訓練集進行預測，將樣本預測結果作為新訓練集的特征值進行訓練。在集成學習中，每個基分類器模型的學習能力和算法差異性是影響Stacking集成學習算法性能的關鍵因素，為了能夠最大程度地發揮集成模型性能，基分類器模型在保持強學習能力的同時需要具備一定的異質性，從而提取不同的特征信息表達。最終得到的集成學習模型將具有兼顧基分類器和元分類器的算法學習能力，使得集成模型的預測準確率得到進一步提升。

1.2 BERT預訓練語言模型

BERT預訓練語言模型是Devlin等[10]提出的一種動態詞向量表示方法，采用多層雙向的Transformer編碼器對大量中文語料庫進行預訓練，在文本句子層面可以得到融合詞語本身和上下文語義信息的動態詞向量表示，模型結構如圖2所示。

E1,E2,…,EN為文本序列輸入向量；Trm為Transformer編碼器結構組件；T1,T2,…,TN為BERT模型輸出的動態詞向量

BERT模型采用多層Transformer編碼器設計，Transformer編碼器是一個采用了多頭自注意力機制(multi-head attention)的Seq2Seq序列模型，模型結構為Encoder-Decoder。BERT模型利用多層Transformer結構和多頭自注意力機制對大量文語料庫預訓練，將中文文本輸入映射為動態詞向量表示，相比基于傳統的靜態詞向量表示方法，能夠更好地解決中文短文本中存在的同義詞、近義詞以及一詞多義現象，從而實現更為完整的語義特征表達。

1.3 基分類器模型

由于中文短文本具有特征稀疏、維度不足等特征，在使用BERT模型進行文本字向量表示的基礎上，采用當前主流的4種神經網絡分類模型來構造Stacking集成學習的基分類器，主要包括TextCNN經典卷積神經網絡模型、DPCNN新型卷積神經網絡、RNN循環神經網絡以及RCNN混合神經網絡模型。

(1)TextCNN文本卷積神經網絡[11]是一種經典的文本分類算法，Kim等[12]首次將卷積神經網絡應用到文本分類領域，采用多個不同大小的卷積核在句子層面對文本詞匯進行卷積操作，能夠有效提取短文本的詞級特征信息。

(2)DPCNN新型卷積神經網絡[13]針對TextCNN模型不能學習文本的長距離依賴關系的不足，通過不斷增加網絡深度，從而有效地抽取文本的長距離依賴關系。

(3)RNN循環神經網絡[14]在每一個時間步長上輸入文本序列中的一個詞向量表示，計算當前時間步長上的隱藏狀態，然后當前時間步長下的輸出傳遞給下一個時間步長，結合下一個時間步長的詞向量一起作為RNN網絡單元的輸入，再計算下一個時間步長上的RNN隱藏狀態，從而學習文本序列的上下文依賴關系。

(4)RCNN混合神經網絡模型[15]結合了RNN和CNN兩個網絡模塊用于文本分類，同時考慮每個詞的詞向量和上下文的依賴關系，共同構成詞向量的最終嵌入表示。

TextCNN、DPCNN、RNN和RCNN神經網絡采用具有不同的網絡結構設計進行文本向量的特征提取，TextCNN注重于文本詞匯特征信息捕捉，DPCNN注重于文本的長距離關系抽取，RNN注重于學習文本序列的上下文依賴關系，RCNN結合RNN和CNN兩個模塊設計，充分考慮每個詞的詞向量和上下文的向量表示。針對不同的目標任務的關注點，該4種神經網絡模塊有著自身獨特的算法優勢，且具有不同的場景適應能力，在多項自然語言處理(natural language processing, NLP)任務中均有著良好的表現。

2 基于Stacking-Bert的短文本分類

2.1 Stacking-Bert多基模型框架

深度學習算法在文本分類領域得到了廣泛應用，但其分類效果往往依賴于具體問題。集成學習通過綜合多個異質基分類器來預測結果，具有更強的場景適應能力和更高的分類準確率。基于Stacking集成學習思想，提出一種Stacking-Bert多基模型框架的中文短文本分類算法，充分考慮多個基分類器模型之間的差異性和學習能力，對BERT模型進行網絡結構微調，在BERT模型內部的Transfomer編碼器后面嵌入TextCNN、DPCNN、RNN和RCNN神經網絡模塊實現網絡層的融合，最終形成5種基模型分類器，分別為：BERT-Base、BERT-TextCNN、BERT-DPCNN、BERT-RNN和BERT-RCNN，其中，“-”表示把BERT預訓練語言模型的最后一層Transformer結構的輸出分別輸入到對應的下游任務神經網絡層中，BERT-Base表示BERT模型本身的原始輸出，模型結構如圖3所示。

圖3 Stacking-Bert多基模型框架

其中，BERT模型采用多層雙向Transformer編碼器對大量中文預料庫進行訓練，可以得到融合詞語本身和上下文語義信息的動態詞向量表示，在一定程度上可以解決短文本的特征稀疏和一詞多義問題。卷積神經網絡(CNN)可以有效捕獲文本的詞級結構信息，循環神經網絡(RNN)可以學習文本的上下文依賴關系，是文本特征提取的經典神經網絡結構。本文研究設計Stacking-Bert多基模型框架第一層基分類器選擇BERT-Base、BERT-TextCNN、BERT-DPCNN、BERT-RNN和BERT-RCNN神經網絡模塊進行訓練得到模型預測結果，第二層元分類器采用支持向量機實現輸入向量從低維空間到高維空間的映射，用于對第1層基分類器模型學習結果的集成分類，充分考慮性能較好模型具有的優勢和性能較差模型帶來的偏差，從而提高模型的泛化能力和場景適應能力。

2.2 算法描述

基于Stacking-Bert多基模型框架的集成學習算法偽代碼如下。

算法1Stacking-Bert集成學習算法輸入:訓練集D={(x1,y1),(x2,y2),…,(xm,ym)};基分類器模型ζ1,ζ2,…,ζT;元分類器模型ζ。過程:1:fort=1,2,…,Tdo2: ht=ζt(D);3:endfor4:D'=?;5:fori=1,2,…,mdo6: fort=1,2,…,Tdo7: zit=ht(xi);8: endfor9: D'=D'∪((zi1,zi2,…,ziT),yi);10:endfor11:h'=ζ(D');輸出:集成模型H(x)=h'(h1(x),h2(x),…,hT(x))。

3 實驗結果與分析

3.1 數據集介紹

為測試各模型的短文本分類效果，采用網絡公開的三個中文數據集，分別包括搜狗新聞THUCNews_data，新浪微博simplifyweibo_moods，京東評論Jingdong_data。其中搜狗新聞數據集包含10種新聞類別，共計200 000條。新浪微博數據集包含喜悅、憤怒、厭惡和低落4種情感類別，共計361 744條。京東評論數據集為網上手機購物的正負評論，包含好評、中評、差評3種類別，共計3 000條。選取的3類數據集可以測試模型分別在大規模數據樣本下和小樣本數據集下的性能表現。隨機選取其中80%的數據樣本作為訓練集，10%作為驗證集，剩余10%作為測試集。為了測試模型的泛化能力，各標簽類別數據保持一定程度的不平衡性，三個中文數據集的概況如表1所示。

表1 數據集統計表

3.2 對比實驗

采用當前主流的深度學習文本分類算法作為對比實驗，包括word2vec-CNN、word2vec-BiLSTM、BERT-texCNN、BERT-DPCNN、BERT-RNN、BERT-RCNN等文本分類算法。

(1)word2vec-CNN和word2vec-BiLSTM文本分類算法采用word2vec詞向量表示方法，然后把詞向量分別輸入到CNN模型和BiLSTM模型中再次進行特征信息提取，最后通過softmax進行分類，是目前常用的文本分類算法。

(2)BERT-TexCNN、BERT-DPCNN、BERT-RNN和BERT-RCNN文本分類算法采用BERT預訓練語言模型進行字向量表示，分別以TexCNN、DPCNN、RNN和RCNN作為下游任務進行特征提取，相比word2vec詞向量表示方法，提升了模型性能。

3.3 評價指標

為了衡量本文所提模型的有效性，采用精確率(Precision)、召回率(Recall)和Micro-F1衡量模型的分類性能，其定義為

(1)

(2)

(3)

式中：Precision代表預測結果為正例的情況中預測正確的比例；Recall代表實際結果為正例的情況中預測正確的比例。Micro-F1同時考慮標簽預測精確率和召回率，是兩者的調和平均值，也是衡量不平衡數據集的重要指標。

3.4 參數設置

基于Stacking-Bert集成學習的中文短文本分類方法，將中文短文本的長度處理為32，采用BERT模型進行動態詞向量表示，并運用Stacking集成學習思想，利用TextCNN、DPCNN、RNN和RCNN等算法構造多個基分類器，模型訓練過程中設置最大迭代次數epochs為20，一個批次訓練樣本為128，學習率為0.001。此外，為了保證模型的正常迭代，設置若連續輸入超過1 000個訓練樣本，模型效果還沒有提升，則提前結束訓練。模型參數詳細設置如表2和表3所示。

表2 Stacking集成學習的特征參數

表3 BERT模型參數設置

使用Google提供的BERT-Base預訓練語言模型，采用12層網絡結構設計，隱藏層維數設置為768，采用Multi-Head Self-attention(head=12)。BERT模型訓練參數設置如表3所示。

3.5 模型對比

為了有效評估本文所提基于Stacking-Bert集成學習模型在中文短文本數據集上的分類性能，對比了當前主流的基于深度學習的文本分類算法，所有對比模型采用相同的模型參數設置和評價指標進行模型性能的衡量。為了防止實驗結果的偶然性，對模型運行10次計算均值，得出的對比實驗結果如表4所示。

如表4所示，采用word2vec詞向量表示方法的文本分類模型在三個數據集上的分類準確率最低，分別為0.87、0.68和0.64，這是由于word2vec靜態詞向量模型在解釋文本一詞多義、上下文依賴關系、序列結構特征等信息方面存在不足，而基于BERT模型的文本分類準確率整體得到了大幅度的提升，達到了0.94、0.88和0.85，說明BERT模型能有效地捕捉文本的深層信息特征。本文所提Stacking-Bert集成學習在BERT模型下游任務采用了不同的神經網絡結構提取文本不同的信息特征表達，然后基于一個元學習器實現文本的分類預測，在搜狗新聞、新浪微博和京東評論三個數據集上都達到了最好的F1，分別為0.96、0.91和0.89，驗證了Stacking-Bert集成學習對中文短文本分類的有效性。

表4 模型分類精確率

此外，實驗結果表明，基于深度學習的文本分類效果在大規模搜狗新聞數據集上明顯優于小樣本京東評論數據集，表現出了深度學習算法對具體問題的強依賴性，而Stacking-bert集成模型在一定程度上減少了上述差距。

4 結論

研究了一種基于Stacking-Bert集成學習的中文短文本分類方法。采用BERT預訓練語言模型進行文本字向量表示，并將獲得的短文本字向量與TextCNN、DPCNN、TextRNN、TextRCNN等神經網絡模塊相結合，提取不同的特征信息表達。然后運用Stacking集成學習思想，通過集成多個基分類器實現短文本的訓練和預測，與word2vec-CNN、word2vec-BiLSTM、BERT-texCNN、BERT-DPCNN、BERT-RNN、BERT-RCNN等算法進行對比實驗，該模型在精確率、召回率和整體F1等評價指標上均優于其他模型，對中文短文本的分類研究提供了一定的參考價值。

BERT模型采用多層雙向Transformer編碼器對大量中文預料庫進行訓練，可以得到融合詞語本身和上下文語義信息的動態詞向量表示，在一定程度上可以解決短文本的特征稀疏和一次多義問題。TextCNN、DPCNN、TextRNN、TextRCNN基分類模型在保持算法強學習能力的同時具備一定的異質性，Stacking集成學習基于所有訓練好的基模型的預測構造新的測試集，再對測試集進行預測，具有更好的泛化能力，能有效提升文本的分類精度，在特定領域的文本分類任務中具有非常高的應用價值。在下一步工作中，將針對大規模數據集探討集成算法的復雜度問題，并針對大型數據集訓練過程中造成的時間消耗和計算資源消耗，嘗試使用分布式訓練方法完成對基分類器模型的訓練，在保證模型精度的同時提高模型訓練效率。