王郅翔,劉 淵
1.江南大學人工智能與計算機學院,江蘇無錫214122
2.江南大學江蘇省媒體設計與軟件技術重點實驗室,江蘇無錫214122
隨著互聯網行業的快速發展,網絡強國的建設取得了歷史性成就,根據2021 年第48 次中國互聯網絡發展狀況統計報告[1]指出,我國網絡購物用戶規模達8.12億,占整體網民用戶的80.3%。在此基礎上,更加人性化、智能化的篩選和推送服務成為當下軟件的主流,文本情感分類的研究因此變得火熱。文本情感分析是指利用自然語言處理和文本挖掘技術,對帶有情感色彩的主觀性文本進行分析、處理和抽取的過程[2]。情感傾向分析是文本情感分析的核心工作,是指對包含主觀信息的文本進行情感傾向判斷[3]。在傳統的情感文本分類任務中,主要采取基于機器學習方法,同時在文本預處理階段,預處理方法如:One-hot、TF-IDF和N-gram等,主要存在著嵌入矩陣稀疏的問題,并且隨著詞匯量的增多而變得冗長,其特征表達的能力不夠精確,不利于后續研究工作的開展。隨著詞嵌入(word embedding)概念的提出,文本的表達迎來了新的階段,Mikolov等[4]在2013年提出的Word2vec詞向量訓練工具,Penmington等[5]在2014年提出了Glove詞向量,兩者都解決了詞向量表達的稀疏性的問題,使得文本的表達能力上升了一個臺階。伴隨著計算機視覺領域的發展,各種在圖形圖像領域中的經典模型被嘗試應用到自然語言處理領域,以卷積神經網絡(convolutional neural network,CNN)、循環神經網絡(recurrent neural network,RNN)為代表的神經網絡及其各種網絡變體在文本領域的應用變得廣泛起來。Kim[6]在2014 年首次將CNN 融入到文本分類任務中,通過不同大小的卷積核提取特征并進行融合,取得了較好的效果。2017年,谷歌的研究人員提出以自注意力機制為核心的Transformer[7],在此基礎上,研究人員開始將注意力機制應用到CNN 和RNN 等神經網絡框架中,并在各個研究層面中取得了較好的效果。例如:Wang 等[8]將長短期記憶網絡(long short-term memory,LSTM)與注意力機制相結合,顯著提升了模型在方面級情感分析領域的效果,趙宏等[9]將BERT 與層次化Attention 相結合,通過雙向GRU 網絡得到句子和文章的表示,并結合注意力機制探究模型在微博情感分析領域內的應用,趙亞南等[10]將CNN 與多頭注意力機制相結合,探究了金融領域內的情感傾向。總的來看,以神經網絡為核心的模型和框架不斷推陳出新,為自然語言處理發展提供新的動力。
當下,主流的情感分析模型想要提升分類效果,往往把目光聚焦在提升神經網絡模型性能上,卻忽略了原始文本的重要性。因此,本文提出了一種基于文本摘要提取的雙路情感分析模型BLAT(Bi-LSTM-Attention-TextCNN),該模型主要包括以下幾個特點:
(1)對原始文本進行凝練,減少預處理過程中信息的流失,將其作為基本輸入,可以起到數據增強的作用。
(2)采用加性注意力機制代替Transformer 的自注意力機制,提高模型的并行計算效率和泛化能力。
(3)采用雙路網絡并行的方式提取特征,最終提高分類準確率。
文本摘要提取的目標是將整個長文本,通過歸納的方式,將原文凝練成可以概括主要內容的一段文字。文本摘要技術最早應用于金融數據分析和法律判決文書領域,起到輔助決策和提取關鍵信息的作用,例如,齊甜方等[11]將文本摘要技術和情感挖掘技術相融合對股票價格趨勢進行預測。文本摘要生成方法主要分為抽取式摘要生成和生成式摘要兩種,抽取式主要是對原文信息進行提煉,這種方法產生的摘要通常會保留源文章的顯著信息,有著正確的語法[12],而生成式方法能夠在建立完整語義時,避免信息的冗余,兩種文本摘要方法各有千秋。但是BLAT 模型面對不同長度的文本時需要對原文進行較大程度的還原,并不需要提取額外的語義,故引入抽取式摘要生成方法,對長度過長和較為冗余的文本進行摘要提取的工作,并將其作為一路特征輸入到模型中。
Transformer 已經在多個任務中證明了其在自然語言處理領域內的成功,由于Self-Attention 獨特的機制,能夠讓文本信息之間建立直接的聯系,因而相較于循環神經網絡,學習特征能力較強。但是,Transformer 的主要問題是對于長文本的訓練速度會發生指數級增長,為緩解這一問題,2019年,Yang等提出基于Transformer架構的Transformer-XL[13]和XLNet[14],其核心架構便是經典的注意力機制。其中,Transformer-XL主要采用了相對位置編碼器的方式,解決了輸入文本長度受限的問題,而XLNet 主要采取集成Transformer-XL 的方式,引入片循環機制,解決了長依賴的關系問題,大幅度提升了計算速度。2021 年Wu 等提出Fastformer[15],屬于Transformer的一種變體,通過采用加性注意力(additiveattention)機制的方式,對全局特征進行提取,相較于主流的Transformer 結構達到了當下最好的性能,其每層使用的參數量也更少,計算的復雜度更是達到了線性量級,能夠顯著縮短訓練時間。其中,注意力機制內部采用了權值共享的方式,能夠有效地避免模型過擬合。因此,根據情感文本結構句式多變,文本長度不一的特點,引入Fastformer中的加性注意力機制代替Transformer中的自注意機制,以達到提升模型性能和泛化能力的目的。
基于深度學習的單路特征提取分類模型已經有了很多研究進展,并且在廣泛的數據實驗中證明了其有效性。例如:Xiao等[16]利用雙向長短期記憶網絡(Bi-LSTM)與詞嵌入相結合的方法,對中文文本情感進行研究。隨著單路模型應用場景的不斷豐富,模型提升的效果瓶頸也隨之展露,需要性能更加優秀的模型才能滿足對于指標的需求。然而在雙路模型領域,田喬鑫等[17]使用Word2vec和Glove詞向量作為文本輸入的區別,提出了CNN+Attention 和BiGRU+Attention 雙路并行的模型對情感分析領域進行研究。萬俊杰等[18]采用BERT詞嵌入作為文本特征輸入,提出了雙通道的BCBLA 模型。兩者都取得了較好的效果,目前雙路模型雖然都是采取不同詞嵌入方式作為文本特征輸入的區別,并沒有重視對于原始文本信息的提取,但是也都印證了雙路模型在情感分析領域內的有效性。
在此背景下,本文提出將Bi-LSTM與Fastformer的加性注意力機制融合作為其模型的單路特征提取網絡,并選取TextCNN作為二路特征提取網絡,利用三種不同的特征提取方法提取文本特征并做融合,從而達到進一步提升模型對文本情感識別的效果。
BLAT模型由以下幾個部分組成:
(1)詞嵌入層:將文本信息進行預處理的工作,對原文進行摘要提取,使用Word2vec 詞向量工具得到雙路文本向量。
(2)特征提取層:將詞嵌入層得到的兩個文本向量輸入到雙路模型中,同時利用不同的網絡進行特征提取。
(3)輸出預測層:將提取到的兩個文本特征進行融合,使用Softmax分類器得到最終分類結果。
模型的具體結構如圖1所示。

圖1 BLAT結構圖Fig.1 Structure diagram of BLAT
當下主流的、可選擇的預訓練詞向量有Word2vec、Glove 和BERT。Word2vec 和Glove 的主要差別在于訓練過程中使用了不同的目標函數和權重函數,在文獻[17]的實驗結果中表現差別不大,同一模型使用這兩者詞向量在準確率上的誤差保持在0.1%左右。而BERT 模型是按字劃分的,輸入到BERT中的詞組依舊會轉化成以字符為基本單位,由于模型在詞嵌入層增加了分詞的操作,為提取到更多文本序列內容,故選擇Word2vec作為詞嵌入工具。
在得到文本向量過程中,首要的就是預處理工作,由于文本噪聲干擾較大,需剔除不符合邏輯的符號。對于抽取式摘要生成,本文引入Liu 等[19]在微博摘要生成中提到的方法,首先計算出單個詞語在文章中的TF-IDF(詞頻-逆文檔頻率),通過對文本中單個詞語的TF-IDF進行累加初步得到句子的權重,并對整體句子權重歸一化,可以定義單個句子的權重。接著選取第一個句子作為主旨句,通過余弦相似度計算,得到單個句子的相似度權重,并且通過位置信息,得到位置權重。最后通過三個權重進行加權計算,并進行降序排序,最終按照自己劃分的比例作為其摘要提取的內容。如果原文本長度過小,無法抽取,則采用原文本作為句向量的表達。
對于單路預處理完成的文本則可以表示為L={x1,x2,…,xn},通過分詞操作后,超過定義長度的部分進行截斷處理,長度不足的部分則進行補零操作,最終得到文本矩陣。本詞嵌入層權重使用Word2vec知乎中文詞向量包,詞向量維度為d,那么最終單路詞嵌入層矩陣可以表示為[w1,w2,…,wn],w∈R1×d。
通過上述操作,雙路模型的輸入分別定義為input1和input2,最終輸入到雙路特征提取層中。
2.2.1 Bi-LSTM+Attention層
由于文本脈絡承上啟下,結構上具有順序性的特點,循環神經網絡非常適合作為其主要的特征提取模塊。其中,LSTM 作為最經典的循環神經網絡,極大地緩解了RNN 存在的梯度消失和梯度爆炸的問題。在LSTM模型中,主要有輸入門it、遺忘門ft、記憶單元Ct和輸出門Ot,對于上一時間步長t-1,其細胞狀態表示為Ct-1,隱藏狀態可以表示為ht-1,其各個參數之間的狀態關系可以表示為:
其中,Wf、Wi、WO為權重矩陣,bf、bi、bO為偏置項,Sigmoid為激活函數,LSTM內部結構如圖2所示。

圖2 LSTM結構圖Fig.2 Structureof LSTM
Bi-LSTM 網絡由前向和后向的LSTM 神經網絡構成,兩者都同時連接輸出層,通過不同順序的文本交互,可以有效地捕捉文本語義信息的關聯,其輸出是蘊含著不同順序的文本特征。
為了進一步得到關鍵文本的語義關聯,將Bi-LSTM層輸出后的內容輸入到加性注意力機制中,加性注意力機制的內部結構圖如圖3所示。

圖3 加性注意力結構圖Fig.3 Structureof additive attention
加性注意力機制具體的操作是生成的Q,K,V∈RN×d矩陣,其分別包含了不同的qi,ki,vi,i∈N,對于全局查詢向量q的生成,引入計算權重αi,并與qi相乘進行匯總,具體的權重和全局查詢向量的生成方法如下:
使用element-wise相乘的方法可以有效反映出兩個向量之間的線性關系[20],因此將全局查詢向量q與ki進行交互,定義為pi,同時引入權重βi,通過與矩陣q相同的方法生成全局矩陣k,公式如下所示:
此時,已經得到蘊含上下文信息的k矩陣,同樣使用element-wise相乘的方法得到最終的關系矩陣ui,并將ui輸入到線性變換層進而與查詢向量qi相加得到其最終輸出特征Oi,將其得到的全局特征定義為Of=[o1,o2,…,oN]∈RN×d,公式如下:
本路特征提取工作已經結束,最終的輸出是混合著文本信息的特征向量Of。
2.2.2 TextCNN特征提取層
卷積神經網絡主要通過卷積核實現對局部關鍵信息的提取,由于使用的卷積核大小不同,其提取到的特征也具有多樣化的特點。TextCNN作為CNN網絡的一種,主要應用在文本領域,與CNN的主要區別是使用了與詞嵌入維度相同大小的卷積核。完整的TextCNN 內部結構主要分為卷積層、池化層、全連接層和輸出層,由于需要進行特征融合的操作,此路特征提取模型需要舍棄輸出層,其主要的結構描述如下:
(1)卷積層有三個不同的過濾器,用來提取不同的文本特征,其計算公式如下:
其中,f為激活函數,wi(x,y)為對應的第i個節點過濾器輸入的權重,cx,y為輸入節點()x,y的取值,bi為偏置項,最終的hi是卷積層的輸出。
(2)池化層主要起到降維的效果,減少計算量,防止過擬合,采用的是最大池化操作。
(3)全連接層主要是對三個不同的過濾器提取到的特征進行拼接得到特征向量,本文將輸出文本特征向量定義為Tf。
輸出層主要是對Bi-LSTM-Attention層中的特征向量Of和TextCNN 層中的特征向量Tf進行融合并使用Softmax函數得到最終的情感結果,其公式如下:
其中,Wf和bf為權重和偏置項,結果P為情感傾向。
本實驗在Windows10環境下運行,采用的編程語言是Python3.8,IDE 為Pycharm2020,CPU 為Intel?CoreTMi7-8750H 2.20 GHz,內存24 GB,采用的深度學習框架為Tensorflow 2.7.0。
實驗使用的數據集是中文電商評論數據集,其中包含了6 000條中科院譚松波博士所提供的中文酒店評論數據集(Tan Songbo Hotel Review),以及由在電商平臺搜集的各類商品評價。正負樣本各15 000條,數據集詳細信息如表1所示。

表1 數據集信息統計Table 1 Information of dataset
(1)摘要提取能夠提煉出原文關鍵信息,對于文本較長的評論,可以避免由于截斷操作從而影響語義的丟失。值得注意的是,文本的摘要提取是以句號為分界的,因此面對數據數據集中不一定正確的標點格式,如果一個句子只有一個句號結尾,摘要的提取并不會成功。因此采取的方式是將所有的逗號替換成句號,確保方法最大限度地融入到模型中。
摘要提取樣例如表2所示。

表2 摘要提取樣例表Table 2 Abstract extraction example table
(2)正負樣本中包含了大量的無用信息,為了避免影響模型效果,需要進行對文本進行數據清洗。本實驗采用jieba 中文分詞工具包進行操作,在分詞完成之后則進行去除停用詞的操作,以減少無用信息對于文本的影響。本實驗采用哈工大中文停用詞,對數據進行操作,處理樣例表如表3所示。

表3 文本處理樣例表Tbale 3 Text processing sample table
根據文本分類的常用指標,本文決定采取準確率(accuracy)、精確率(precision)、召回率(recall)和F1(F1-score)。
本文的實驗結果除了受到網絡模型結構的影響之外,實驗參數的設置也會對模型結果產生影響,因此參數設置也需要規范化處理,整體設置如表4所示。

表4 實驗參數表Table 4 Experimental parameter table
為了證明其模型的有效性,并且考慮到文本結構的特點,以及情感分析任務的一些特點,選取以下幾個模型作為BLAT模型的對比實驗,主要對比的方向為:(1)驗證BLAT 模型相較于當下主流模型的分類效果;(2)與目前的雙路情感分析模型進行對比,選取BCBLA 模型和GCDA模型中的主要結構進行驗證分析。
對比的模型分別為:
(1)Bi-LSTM[16]:采用雙向的LSTM 網絡提取前后文之間的信息特征。
(2)單層Fastformer[15]:采用單層加性注意力機制做分類,觀察其分類效果。
(3)單層Transformer[7]:采用單層注意力機制做分類,用來與加性注意力做對比效果。
(4)LSTM+Attention[8]:將LSTM網絡獲取的文本特征輸入到注意力機制中捕捉關鍵信息。
(5)TextCNN[6]:采用三個不同大小的特征提取器,提取文本局部特征并作融合。
(6)DPCNN:采用深層次的,不同的固定位置卷積核提取文本中鄰接詞信息。
(7)CNN+Attention[10]:采用卷積神經網絡和自注意力機制的方法提取網絡特征。
(8)BCBLA[18]:雙通道的模型,為保證模型效率的一致性,使用原有結構,但用Word2vec詞向量代替BERT詞向量做對比。
(9)GCDA[17]:雙路特征提取模型,該模型主要使用Glove 詞向量和Word2vec 詞向量作為文本雙路輸入的區別,在對比實驗中延續其模型思想。
對比模型和本文所提出的BLAT 模型的實驗結果如表5所示。

表5 實驗結果Table 5 Experimental results單位:%
從表5 的實驗結果可以看到,BLAT 模型在準確率和F1 上分別達到了92.26%和92.37%,相較于單路模型,能夠有較為出色的效果,相較于雙路特征提取模型也有了一些提升。對比經典的循環神經網絡Bi-LSTM,在準確率上提升了3.66 個百分點,相較于TextCNN 和DPCNN在準確率上分別提升2.36和3.9個百分點,相較于融入了注意力機制的CNN 網絡在準確率和F1 指標上分別提升1.43 和1.61 個百分點。由于BLAT 模型由三種不同的特征提取方式組成,能夠提取到較為豐富的文本信息,因而導致準確率的大幅提升。
在雙路網絡模型的表現方面,由于BCBLA 模型與GCDA模型都是雙路特征提取模型,相較于單路模型也有著較好的效果,同時從側面也印證了雙路特征提取模型的有效性。由于兩者對原始文本主要采用不同的詞嵌入作為文本輸入的區別,沒用重視對于原始文本的凝練,從而忽視了長文本在輸入時,由于截斷操作而導致潛在的關鍵語義流失,因而在準確率上BLAT模型相較于BCBLA 模型在和GCDA 模型在準確率上分別提升了1.06和0.93個百分點。其中F1指標相較于雙路模型均達到較為出色的效果,分別提升了0.81和1.01個百分點,能夠說明BLAT模型在雙路模型方面具有一定的優越性。
3.5.1 雙路并行方式對模型的影響
由于雙路網絡模型都是由單路網絡模型組網形成,故主要選取提取特征效果更好的單路模型進行驗證對比,主要是以注意力機制為核心的模型,一些模型的實驗結果已在表5中體現,故選擇的模型如下:
(1)Bi-GRU+Attention:GCDA 的單路特征提取模型,采用雙向GRU 網絡提取特征并利用注意力機制提取上下文關聯。
(2)Bi-Attention:使用雙層注意力機制進行特征提取。
(3)TextCNN+Attention:采用卷積核寬度同詞向量維度一致的卷積網絡和注意力機制提取特征。
(4)Bi-LSTM+Fastformer:BLAT模型中的單路提取網絡。
(5)BLAT(無摘要):使用雙路網絡并行的方式,不使用摘要提取的方法。
對比模型的實驗結果如表6所示。

表6 對比實驗結果Table 6 Comparison of experimental results單位:%
從表6 中可以看出,單路模型通過增加注意力機制的方式,能夠使得原模型在準確率上有一些提升,例如:Bi-LSTM+Fastformer相較于表5中的Bi-LSTM和Fastformer在準確率上分別提升了1.96和1.20個百分點,融合了注意力機制的TextCNN 相較于單一的TextCNN模型在準確率和F1指標上分別提升0.86和0.51個百分點。
盡管增加注意力機制和更換網絡的方法能夠使得模型識別能力有所上升,但是依然出現了瓶頸,如Bi-GRU和Bi-LSTM同屬于循環神經網絡,并且Trasnformer和Fastformer 都為注意力機制,其分別組網的模型Bi-GRU+Attention 和BiLSTM+Fastformer 在表6 中準確率上的表現相差0.05 個百分點,F1 指標相差0.25 個百分點,相對能夠說明其在提升效果上受到一定限制。而BLAT 模型通過雙路并行的方式,其結果能夠相較于BiLSTM+Fastformer和表5中的TextCNN在準確率上分別提升0.77和1.43個百分點,相較于表6中的Bi-GRU+Attention、Bi-Attention 模型能夠在準確率上分別提升0.82、0.59個百分點。由于BLAT模型二路特征提取中,使用的是面向文本領域的卷積網絡,提取到的特征能夠有效地區別于循環神經網絡和注意力機制所提取的內容,模型融合后的特征也更加得精確和豐富,其結果也能夠相對說明雙路并行的方法能夠有效提升模型識別效果。
3.5.2 文本摘要對模型識別效果的影響
關于雙路模型的效果,BCBLA 和GCDA 模型中在其各自的文章中已經驗證說明,故本文著重對比關于摘要提取方法的有效性,本實驗采取使用相同的詞向量嵌入方法并選取BCBLA 模型和GCDA 模型進行驗證,并使用本文提出的摘要提取方法做雙路特征輸入進行對比實驗。實驗結果如表7所示。

表7 摘要提取對比結果Table 7 Abstract extract comparison results單位:%
從表7 中可以看出,在雙路模型整體表現方面,BLAT模型達到了比較好的效果,BCBLA和BLAT模型在準確率上的表現類似,是否使用摘要提取方法在準確率上分別相差0.06和0.13個百分點,而GCDA模型是否使用摘要提取方法在準確率上和BCBLA模型相差0.47和0.34個百分點,相較于BLAT模型在準確率方面分別相差0.53和0.47個百分點,但從總體上來說,相較于表5、表6中的單路模型依舊達到了較好效果。
得益于摘要提取方法的融入,不同的雙路模型在其各項評判指標在中的表現均有所提升,其中:使用了摘要提取的GCDA 模型相較于無摘要的方法在準確率和F1指標上分別提升了0.87和1.19個百分點,相較于表5中GCDA 模型中所使用Glove 和Word2vec 的詞向量做區別雙路特征的方法在準確率上提升了0.4 個百分點。而有摘要提取的BCBLA模型相較于無摘要的方法在準確率和F1指標上分別提升了1和0.68個百分點,使用了摘要提取方法的BLAT 在準確率和F1 指標上分別提升0.93 和0.77 個百分點。三個模型效果的提升能夠反映出文本摘要方法的融入使得模型在單句情感傾向的判別上更為準確,同時也證明了通過凝練文本原始特征的方式可以有效提升模型分類效果。
3.5.3 加性注意力機制對模型訓練時間的影響
為了驗證Fastformer中的加性注意力機制對訓練效果的影響,選取當下情感分類模型中主流的自注意力機制Transformer與Fastformer進行對比,實驗設計采用兩者的注意力機制對數據集進行單獨做分類,實驗數據共計30 000 條,在設定Batch_size為256,注意力頭參數設置為8 的情況下,實驗選取Word2vec 中的key_to_index組成一維向量做句子的輸入。觀察每批次下,不同輸入長度時,Transformer 與Fastformer 對訓練時間的影響,其實驗記錄如表8所示。

表8 每批次訓練時間Table 8 Training time of each batch
從表8 中可以看出,Fastformer 相較于Transformer有一定的優越性,兩者雖然都是隨著輸入長的增長而變化,在運算時間方面,加性注意力機制始終比自注意力機制能夠達到較好的效果。其中,當輸入長度為512時,Fastformer 的計算速度僅為Transformer 的1/3,能夠大幅度減少訓練時間,兩者整體的運行時間實驗結果如圖4所示。

圖4 總訓練時間Fig.4 Total training time
從圖4 中可以看出,在輸入長度為64 的情況下,兩者訓練時間不會有太大差距。然而隨著文本輸入長度的增長,Transformer 訓練時間的曲線斜率開始逐漸增加,并增長到一個較大的范圍。相反,Fastformer的曲線斜率處于相對平緩的狀態,緩解了由于文本長度增長而出現的訓練時間倍增的問題,將此模塊融入到BLAT模型中,對于訓練效果的提升也是有幫助的,由于模型對于不同的輸入長度在實際訓練中為提取到更豐富的特征,需要更改網絡參數,故本實驗將LSTM 網絡單元數跟隨文本輸入長度進行同步變換,并設置為相同個數。觀察BLAT模型使用不同的注意力機制在每Batch下的訓練時間變化,如表9所示。

表9 BLAT模型每批次訓練時間Table 9 Training time of eachbatch of BLAT model
從表9 中可以看出,當輸入長度為64、128 時,由于文本長度較短的緣故,整體的計算效率差距不大且較為迅速,但使用加性注意力機制在運算時間上的運算效率相較于Transformer為基礎的自注意力機制模型能夠分別減少15.1、18.3 個百分點,而當文本長度增長到256時,使用加性注意力機制的模型能夠在每一批次計算上減少632 ms,相較于Transformer為基礎的BLAT模型能夠在運算時間上減少24.2 個百分點。將此模塊替換到模型之中,結合本文提出的所提出的摘要提取方法,BLAT 模型能夠在面對中長度文本數據時,能夠留意到一些關鍵信息并且提取到較為豐富的文本內容,其訓練時間相較于Transformer 為基礎的模型能夠在大epoch上的訓練時間有一定程度上的縮減,因而本文提出的BLAT模型具有較強的泛化能力和一定的優越性。
由于模型使用了不同的注意力機制和方法,除模型參數設置和注意力機制外,模型的訓練效果主要受到摘要提取比例、分詞和詞向量維度這三點的影響。三者都對模型的訓練產生了至關重要的影響,對于模型的最終準確率的影響也較大,下文將進行詳細說明。
3.6.1 摘要提取比例的影響
摘要提取工作主要分為兩部分,一是選擇摘要提取權重,二是確定摘要提取比例。由于文本具有順序性的特點并且詞語中生僻詞TF-IDF 值會比較高,這些因素對于文本的提取效果都會產生影響,故本模型給予相同的權重。摘要提取的比例不宜過少或過多,過少會只提取到一兩句信息,導致后續真正主旨句的缺失,過多則會引入額外的語義特征,導致歧義,給模型驗證增加干擾。故本實驗設置在相同的摘要提取權重下,驗證不同的摘要提取比例對于實驗結果的影響,考慮到文本提取比例不宜過低,因此選擇的提取比例分別為0.2、0.3、0.4、0.5,這樣可以避免提取到的句子過于冗長,并為真正主旨句的提取留有空間。其實驗結果如圖5所示。

圖5 摘要提取比例的影響Fig.5 Effect of abstract extraction ratio
從圖5中可以看出,摘要提取的比例對模型訓練產生了不可忽視的影響,當提取比例在0.2時,模型的準確率相較于無摘要的方法下降了,這是由于過少的摘要提取比例會喪失真正的主旨句,提取到一些無關緊要的句子,并給模型增加了干擾特征。而隨著提取比例的增加到0.4,模型的準確率都是上升的趨勢,并達到極大值,伴隨著句子提取比例的增加,其提取凝煉出來的文本也變得全面從而引發準確率的上升。而當摘要提取比例為0.5 時,模型的準確率略有下降,過多地提取會使得額外語義信息的引入,因此摘要提取的比例設置0.4 為最佳。
3.6.2 分詞和詞向量維度的影響
文本的處理方式,可以選擇單個字符成句也可以選擇詞組成句。如果選擇詞組,則需要對文本進行分詞處理,最常用的工具是jieba分詞中的精確模式,將文本切分為由名詞,動詞、形容詞等組成的單個詞語。此方法相較于單個字符能夠提取更加豐富的語義,缺點是比較依賴給定好的的語義,不能解決一詞多義的問題。但由于單個字符成句過程中,在實際理解可以通過不同方式的斷句,產生不一樣的語義,對于動名詞的判斷常常也難以識別,因而選擇分詞的方法相較于單個字符成句能夠在一定程度上緩解語義缺失的問題。
對于分詞完成的句子,則要轉化成整體的文本向量,詞向量的維度選擇也會對模型訓練效果產生至關重要的影響,維度過大的詞向量在現實應用中對于模型的時間和空間復雜度影響都過高。故本實驗選取的維度分別為100、200、300,且為了避免由于自身樣本不夠全面從而訓練產生的誤差,選擇騰訊AI Lab 中文詞嵌入語料庫中所訓練完備的詞向量做對比實驗分析,提供的詞向量維度分別為100和200。通過驗證分詞和不同維度的詞向量對于模型最終訓練效果的影響,實驗的結果如圖6所示。

圖6 BLAT模型的準確率變化Fig.6 Accuracy change of BLAT model
從圖6可以看出,預處理方式和詞向量維度的選擇都會對模型效果產生不可忽略的影響。在分詞選擇的角度,選擇分詞的方法在100維、200維、300維的詞向量最終的準確率上相較于不分詞的方式分別提升了0.86、1.13、1.17 個百分點,通過此方法,能夠將句中的大部分動詞、名詞等關鍵信息截取出來,形成一個單獨的詞向量進而組成文本矩陣,相較字符成句既能提取到一些語義的關鍵信息,又可以通過將字符變為詞組的方式縮短整體的輸入的長度,從而側面減少由于截斷操作的帶來的影響。
在詞向量維度方面,模型的訓練結果都是隨著維度的增加而呈現出遞增的趨勢,其中在300 維的時候,模型的整體效果達到最好,選擇分詞和不分詞的方法相較于100 維的詞嵌入在準確率上分別提升了1.20 和0.89個百分點,相較于200 維的詞嵌入分別提升0.7 和0.66個百分點。由此可以推斷出,更長的詞向量維度,其訓練時形成的特征也更加精確,能夠幫助提升文本向量在計算機中的表達效果,進而改進模型最終的訓練精度。
3.6.3 不同注意力機制對模型訓練結果的影響
Fastformer 和Transformer 對文本單獨做分類的效果已經在表5中有所顯示,加性注意力機制顯示的效果較好,在準確率上相較于Transformer 能夠提升0.54 個百分點,為了驗證兩者對BLAT 模型訓練效果的影響,實驗設置BLAT模型使用不同的注意力機制,其實驗結果如表10所示。

表10 不同注意力的訓練效果Table 10 Training effect of different attention
從表10中可以看出,BLAT模型使用不同注意力的表現相差不大,在準確率上相差0.13個百分點。由此可以推斷出,在準確率的提升方面,Fastformer具有一定程度上的優勢,但經過神經網絡后的特征注入注意力機制后,對于訓練結果的影響會被縮小,在網絡模型中的作用會回歸注意力機制本身,但從整體上來說,使用Fastformer的效果更佳。
本文提出了一種基于文本摘要提取的雙路情感分析模型,通過對文本信息進行抽取,與原始的文本形成兩路特征作為輸入,同時融合了卷積神經網絡、循環神經網絡與Fastformer三種不同的特征提取方法對情感傾向進行預測。實驗結果表明,BLAT 模型具有一定的優越性。
文本的摘要提取有助于提高文本分類的準確率,接下來的主要工作思路是加強對于方面級情感分析領域的研究,通過對文本信息的進一步凝練,總結出更加切合方面級領域的特征摘要,并更換較為前沿的網絡模型和詞向量模型,驗證本文提出思路的有效性。