999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進BERT 的中文評論情感分類模型

2022-03-07 06:57:48范安民李春輝
軟件導刊 2022年2期
關鍵詞:分類機制文本

范安民,李春輝

(河南財經政法大學計算機與信息工程學院,河南鄭州 450046)

0 引言

近年來,深度學習在圖像和語音處理領域取得顯著進展,然而在自然語言處理領域的研究中尚未取得較大突破。情感分類是自然語言處理任務中的一個子任務,其本質上是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程,例如對電影和電視劇的評論、網購產品評價、微博微信等社交平臺在某一熱點事件上的評論等。情感分析有助于使用者獲得產品的客觀評價并合理地進行輿情監測,結合本國互聯網電商和社交平臺的迅速發展以及廣大網民熱衷于發表網絡評論的國情,中文評論情感分類研究具有重要意義。如何以深度學習網絡為基礎,構建高效的中文評論情感分類模型已經成為中文評論情感分類研究的熱點問題。

深度學習網絡在情感分析方面常用到卷積神經網絡(Convolutional Neural Network,CNN)和循環神經網絡(Recurrent Neural Networks,RNN),其中RNN 是主流網絡,因為RNN 在當前節點的輸出值由當前時刻的輸入和上一時刻的輸出共同決定,這樣使得RNN 能夠充分學習文本前后文信息。在循環神經網絡應用方面常見的是其變體LSTM(Long Short Term Memory),這種變體可以學習長期依賴信息。GRU(Gated Recurrent Unity)是LSTM 的一個變體,它進一步減少了LSTM 網絡內部的門結構,提高了網絡模型的學習效率。雙向循環神經網絡BiLSTM(Bidirectional Recurrent Neural Networks)和BiGRU(Bidirectional Gated Recurrent Unity)通過建立雙向網絡連接,將文本從兩個方向同時輸入,使模型可以更充分地獲取句子間的語義信息,以這兩種網絡為基礎的情感分類模型都取得了較好效果。

隨著計算機硬件的發展,一些網絡結構更深、更復雜的深度學習模型也應運而生,BERT(Bidirectional Encoder Representation from Transformers)就是其中的代表。它是一種基于Transformer 中的Encoder 部分,通過在Encoder 中引入Masked Language Model 的預訓練方法,隨機MASK 句子中的部分Token,然后訓練模型從MASK 的兩個方向預測被去掉的Token,同時借助Encoder 中的多頭注意力機制使模型能動態且并行地獲取詞向量,最后通過殘差連接和多個Encoder 結構的堆疊,使模型能充分學習到文本的語義,從而產生較好的實驗結果。本文所用的RoBERTa(A Robustly Optimized BERT Pretraining Approach)模型是一種魯棒性更強的BERT 模型,它主要優化了MASK 策略,同時使用更大規模的數據訓練模型,使模型適應性更強,任務完成效果更好。

1 相關工作

基于傳統深度學習網絡的情感分類模型在處理文本時不能直接處理文本信息,因為模型內部都是用來處理數值的函數,其實驗所用文本需要轉化成詞向量的形式,即先將文本轉化成數值的形式再將其交給所用網絡作進一步任務處理,該過程也稱為詞嵌入。目前最流行的詞嵌入模型就是Word2Vec,它是一種有效創建詞向量的方法,自2013 年以來就一直存在。其原理的通俗解釋就是將一個詞放到不同的維度標準中進行評分,每種評分代表其在這個維度的一個相似度,所用維度越多,詞本身的特點也就被挖掘得越充分。

在Word2Vec 得到詞向量的基礎上,下游連接循環神經網絡和Softmax 層進行文本的情感分類是常見的處理步驟。梁軍等在情感分析中引入LSTM 網絡,實現了比傳統RNN 更好的效果;任勉等提出一種基于雙向長短時記憶循環神經網絡模型(BiLSTM),通過雙向傳播機制獲取文本中完整的上下文信息,比傳統循環神經網絡LSTM 模型分類效果更好,能達到更高的召回率和準確率;吳小華等提出結合Self-Attention自注意力機制可以減少外部參數依賴,使模型能學到更多的文本自身關鍵特征,解決了雙向循環神經網絡分類效果依賴分詞正確率的問題,提高了分類效果;曹宇等將BiGRU 應用于中文情感分類,模型訓練速度比BiLSTM 快1.36 倍,并且取得了較高的F1 值;王偉等提出自注意力機制與雙向GRU 結合的BiGRUattention 的文本情感分類模型,實現了相較于BiLSTM-attention 更高的正確率,同時模型訓練時間也有效縮短;胡朝舉等提出一種基于深層注意力機制的LSTM 模型,該方法在特定主題情感分析任務中將主題特征與文本特征融合,較之前基于注意力的情感分析模型在準確率和穩定性上有了進一步提高;譚皓等提出一種基于表情符注意力機制的微博情感分類模型,使用雙向循環神經網絡(BiLSTM)學習文本的特征表示,利用表情符注意力機制,得到文本結合表情符號的整體特征表示,與輸入純文本和表情符的BiLSTM 模型相比,基于表情符注意力機制的模型正確率有了明顯提高;張仰森等提出一種基于雙重注意力機制的微博情感分析方法,將情感短語和表情符號提取出來作為情感符號,與原來的文本一起輸入到BiLSTM 中,相比于其之前提出的模型,正確率和F1 值都有提高。同時,也有很多學者將在圖像識別領域應用較好的卷積神經網絡應用于自然語言處理的情感分析領域。何炎祥等提出一種有效利用表情符號的EMCNN(Emotion-semantics enhanced Multi-channel Convolutional Neural Network)模型,為常用表情符號構造情感特征表示矩陣,將基于表情符號的情感空間與深度學習模型MCNN(Multi-channel Convolutional Neural Network)結合,顯著提高了MCNN 捕捉情感語義的能力,并在所有性能指標上都超過當時文獻中的最好效果。

雖然這些研究取得的成果很多,但很難改變用Word2Vec 得到靜態詞向量聯系的缺點:在很多語境中并不能給出合適的對應的語義表示。如:“我去市場買了一個蘋果”和“我去手機店買了一個蘋果”,這兩句話都含有“蘋果”,但是Word2Vec 卻很難表示出這樣的區別。而BERT所用的Transformer 中Encoder 網絡結構卻可以輕松解決這樣一詞多義問題,因為Encoder 中采用了自注意力機制,這可以讓句子學習自身的詞與詞之間的關系,根據句子的不同,動態地賦予每個詞不同的權重,由此可以更準確地在每個語境下更好地提取句子的語義。同時,BERT 采用了Masked Language Model,可以從被MASK 的詞的兩邊預測被MASK 的詞,解決了LSTM 及其變體只能從前向后或者從后向前的預測方法,提高了語義獲取效率。王子牛等利用大規模語料訓練BERT 模型,將BERT 應用于命名實體識別中,提出一種基于BERT 的中文命名實體識別方法;楊飄等提出一種基于BERT 嵌入的中文命名實體識別方法,在獲取句子語義時,使用BERT 的預訓練模型,有效地提高了實驗效果;王月等提出一種基于BERT 的警情文本命名實體識別方法,用BERT 預訓練的詞向量代替傳統用Word2Vec 得到的詞向量,使實驗效果同比有了較大提高。而本文所用的RoBERTa 主要是在BERT 的基礎上改進了mask 的策略,RoBERTa 在預處理時并沒有執行MASK,它是在每次向模型提供輸入時動態地生成mask,因此,MASK 是動態的,在此基礎上預測也更高效。同時,Ro-BERTa 是在更大的數據集上經過更長時間訓練得來,刪減了BERT 在訓練中的NSP(Next Sentence Prediction)任務,整體效果比BERT 更好,模型魯棒性更強。

2 模型結構

2.1 Word2Vec

Google 團隊在2013 年發表了Word2Vec 工具,其主要是使用無監督的方法從大型語料庫中自主地進行訓練,主要方法為:使用目標詞左右窗口內的詞進行目標詞預測,或者使用目標詞預測窗口內的詞。這兩種方法分別是依靠Word2Vec 工具中包含的兩個模型:連續詞袋模型(Continuous Bag of Words,CBOW)和跳字模型(Skip-gram)。其中,CBOW 模型利用詞w(t)前后各c(這里c=2)個詞,去預測當前詞,結構如圖1 所示;而Skip-gram 模型跟CBOW 模型相反,它利用詞w(t)去預測它前后各c(c=2)個詞,其結構如圖2 所示。

Fig.1 CBOW model structure圖1 CBOW 模型結構

Fig.2 Skip-gram model structure圖2 Skip-gram 模型結構

如上所述,Skip-gram 模型與CBOW 模型過程相反,本文以CBOW 模型訓練過程為例對其進行介紹。其中,輸入層是詞w(t)的上下文中的2c個詞向量,而投影層向量X是這2c個詞向量的累加和。輸出層是以訓練語料庫中已出現過的詞作為葉子節點,以各詞在語料庫中出現的次數作為權值,進而構造出一顆Huffman 樹。在這棵Huffman 樹中,葉子節點一共有N(=|D|)個,分別對應詞典D 中的詞,非葉子節點有N-1個。通過隨機梯度上升算法對X的結果進行預測,最終使得p(w|context(w))值最大化,context(w)為詞的上下文中2c個范圍內的詞。當模型中的神經網絡訓練完成時,句子中所有詞的詞向量w 也隨之求出。

2.2 卷積神經網絡

在自然語言處理任務中,卷積神經網絡(CNN)主要由輸入層、卷積層、池化層和全連接層組成。輸入層主要負責輸入數據的向量表示,對于一個長度為n 的句子,輸入層矩陣可表示為如式(1)所示。

其中,k 代表詞向量維度。卷積層使用不同的卷積核對輸入矩陣進行卷積操作,提取輸入的局部特征從而得到卷積核特征向量,如式(2)所示。

其中,

x

表示卷積核窗口的詞向量矩陣,

W

代表權重矩陣,

b

為偏置量,

f

為激活函數。池化層是CNN 中較為重要的網絡組成部分,對于卷積層得到的特征向量,一般通過池化層對特征向量進行下采樣操作,對重要的特征信息進行提取,之后池化層可以輸出一個固定大小的矩陣。不同長度句子的輸入和大小不同的卷積核通過池化層最終得到一個相同維度的輸出,最后將輸出傳送到全連接層進行分類。CNN 模型結構如圖3 所示。

Fig.3 CNN model structure圖3 CNN 模型結構

2.3 循環神經網絡

2.3.1 RNN

RNN 的主要用途是處理和預測序列數據,在全連接神經網絡或卷積神經網絡中,信息在網絡中的流向都是從輸入層到隱含層再到輸出層,層與層之間是全連接或部分連接,但是每層之間的結點沒有連接。RNN 的產生就是為了描述一個序列的當前輸出與之前信息的關系。從網絡結構上而言,RNN 會記憶之前的信息,并利用之前的信息影響后面的輸出,即RNN 的隱藏層之間的結點是有連接的,隱藏層的輸入不僅包括輸入層的輸出,還包含上一時刻隱藏層的輸出。傳統的RNN 結構如圖4 所示,對于RNN 而言,一個關鍵的概念就是時刻,RNN 會將每一個時刻的輸入結合當前模型的狀態得出一個輸出。可以看出,RNN 的主體結構A 的輸入除來自輸入層的X外,還有一個循環路徑以提供當前時刻的狀態。同時,A 的狀態也會由當前步傳遞到下一步。

Fig.4 RNN model structure圖4 RNN 模型結構

由圖4 可以看出,簡單的神經網絡中包含3個參數矩陣:U、W、V。其中,U 用于處理t 時刻的輸入,W 用于計算網絡下一個時刻的狀態,這樣的結構可以讓網絡實現“記憶”功能,從而得到記憶序列中的某些關鍵信息,V 則實現了將當前網絡狀態轉為當前時刻的輸出。具體過程可由式(3)和式(4)進行具體描述。

其中,X表示網絡在t 時刻的輸入,O表示t 時刻的網絡輸出值,A表示t 時刻的網絡狀態信息,g 和

f

表示激活函數。RNN 的這種結構使得網絡t 時刻的編碼結果受到0~t時刻序列輸入的影響,一般將網絡最后一個時刻的輸出(相當于所有時刻輸出之和)作為序列編碼的最終結果,也就是整個序列的表示。

2.3.2 LSTM

RNN 雖然是一種擅長處理序列的網絡結構,但它有一較為重大的弊端:信息強度會隨迭代次數的增多而降低,基本無法處理具有長時依賴特點的序列。長時依賴的序列指在序列長度較長時,其真實含義可能會和序列初始部分有強相關性。這種情況也常出現在自然語言中,比如介紹某個物品時,它的具體名字可能只出現在開頭,后面再提到它時就用代詞代替。RNN 作為一種傳統的循環神經網絡,由于其本身的結構原因,早期的序列信息會隨著編碼的進行而逐漸丟失,這樣不利于長序列編碼的處理。

LSTM 是一種改進的RNN 類型,它有不同于單一循環的特殊循環結構,通過自身獨特的設計,解決了RNN 不能獲取較長序列信息的缺點。它的特殊結構由3個特別的“門”構成,具體結構如圖5 所示,LSTM 單元與LSTM 單元之間的連接方式如圖6 所示。

Fig.5 LSTM model structure圖5 LSTM 模型結構

LSTM 的核心思想是使用存在于整個編碼過程的細胞狀態將重要信息進行更長時間的保留。細胞狀態可以想象成傳送帶,放在整個鏈上運行,僅有一些重要的線性交互,從而可以使信息得以更持久的保持。網絡的3個“門”結構分別是遺忘門、輸入門、輸出門。遺忘門負責決定細胞狀態在當前時刻要遺忘掉哪些信息,它由上一刻的細胞輸出

h

和當前的輸入

X

計算出一個包含由0 到1 的實數向量,該向量的長度與代表細胞狀態的向量長度相等。根據計算結果決定細胞狀態中信息對應的保留程度,其中0 表示完全不保留,1 表示完全保留。可用式(5)表示該過程。

其中,[]表示拼接操作,

σ

為Sigmoid 激活函數,

b

為偏置。

Fig.6 LSTM connection model圖6 LSTM 連接模型

輸入門負責決定什么信息能更新細胞狀態,由上一刻的細胞輸出h和當前輸入X計算出兩個實數向量,一個向量決定了備選的更新信息,另一個決定了如何從備選信息中選取。該過程由式(6)、式(7)表示。

最終單元確定當前時刻要輸出什么值,然后由細胞狀態變換得到該輸出。首先通過一個Sigmoid 函數決定輸出哪些部分的細胞狀態,然后細胞狀態通過Tanh 進行處理,得到一個-1~1 的值,再將它和前者的結果對位相乘,最終得到當前時刻的輸出值。具體過程由式(9)、式(10)表示。

以上就是經典LSTM 的全部過程,這種能有效解決長期依賴問題的網絡結構現已被廣泛地應用于多種序列表示問題,幾乎已經取代了傳統的RNN。

2.3.3 GRU

GRU 可以看成是LSTM 的變體,它運算更快,同時也能取得不比LSTM 差的效果,原因是它精簡了LSTM 的“門結構”,將LSTM 中的遺忘門和輸入門用更新門代替,其結構由更新門和重置門兩個“門”結構構成。更新門負責控制前一時刻隱層的輸出對當前隱層的影響程度,更新門的值越大,說明前一時刻隱層的輸出對當前隱層的影響就越大;重置門負責控制前一時刻隱層信息被忽略的程度,重置門的值越小,說明信息被忽略得越多。具體結構如圖7所示。

Fig.7 GRU model structure圖7 GRU 模型結構

GRU 的更新方式如式(11)—式(14)所示。

2.4 RoBERTa

BERT 文本表示模型使用Transformer 模型的編碼器作為網絡的基本模型,其不同于上文介紹的RNN 或者CNN,是一種只用多頭注意力機制構建而成的模型。這種機制可以更為直接地獲取詞與詞之間的關系,進而使序列的編碼整體性更強,更能夠表示整個序列的含義。而RoBERTa作為BERT 的一種改進型變體,整體效果會更好。

2.4.1 多頭注意力機制

多頭自注意力機制其實是從自注意力機制(Self-Attention)中衍生而來,而自注意力機制本身又屬于宏觀的注意力機制(Attention)概念中的一種,在已知的很多深度學習領域中都可以看到它們的參與對效果提升的貢獻。關于注意力機制的原理,可以將其作用過程當成是一個查詢操作Query 和一系列鍵值對進行依次的交互作用從而使Query 得到附加注意力值的過程。其具體計算過程包括計算Query 與key的相似度a(注意力值),以及與Value進行加權求和的求解。Attention 機制可以抽象為式(15)。

所謂的自注意力機制是指使序列自身和自己進行注意力處理,即Q=K=V。經過自注意力機制處理后,序列N的每個記號都是序列中其他記號的線性變換,經過這種處理后,序列的整體性將變得更強,從而更能代表語句的含義。

而所謂的多頭注意力機制(Multihead Self-Attention)指首先對Query、Key、Value 進行不同的線性變換,然后計算其相似度,并且將該過程反復做

h

次,此過程稱為“多頭”。該過程中每次線性變換所用的參數矩陣W 都不相同,通常將這

h

次的結果進行拼接并作線性變換后得到最終多頭注意力機制結果。具體過程可用式(16)和式(17)表示。

該機制可以學習序列內部元素之間的依賴關系,能抽取到序列內部的結構特征。它通過將序列中的元素進行兩兩比較,進而能夠一步到位地捕捉到全局聯系,以此解決了長距離依賴問題。同時,這種機制可以進行并行計算,而RNN 需要一步一步地遞推才能捕捉到全局聯系,且對于長距離依賴很難捕捉。相比之下,在接收信息上CNN也需要通過堆疊多個卷積層擴大信息接受視野。

2.4.2 BERT

BERT 語言模型在輸入前不僅需要詞本身的語義向量,還要加入對應詞的位置向量,再將輸入傳給語義獲取部分。該部分由多個Transformer 模型的編碼器(

Encoder

)部分連接而成,由于每一個編碼器內部都有兩次殘差連接,故保證了每經過一個編碼器的作用,模型效果不會變差,最終在多個編碼器作用下可以充分獲取句子的語義信息,最后傳給下游的任務進行目標任務操作,在情感分類上,一般最后會傳給分類層進行分類,具體結構如圖8 所示。

Fig.8 BERT model structure圖8 BERT 模型結構

上文提到過BERT 模型在預訓練方面的遮蔽詞預測方法,這也是BERT 的一大創新之處。在以往語言模型預訓練過程中,研究者一般都會使用單向的預測方法,要么是從左往右地預測下一個詞,要么是從右往左地預測上一個詞,或者采用雙層雙向網絡,簡單地將兩者結合起來。但因為BERT 使用的是雙向編碼器,在考慮前文詞的同時也考慮了后文詞,并且在多層注意力機制的作用下可以使模型從其第二層開始,每一個詞的編碼都可以獲取所有詞的信息,并且該雙向過程還是并行的,之前的模型只能沿著從前向后或者從后向前的方向預測,這種方式只能在前詞被預測后才能接著預測后面的詞,效率很低。

為了對語言模型進行嚴謹訓練,獨創了新的預訓練方法,稱這種方法為遮蔽詞語言模型(Masked LM)訓練。在遮蔽詞的預測訓練過程中,模型輸入序列中的元素會被隨機的特殊記號[MASK]代替,從而完全屏蔽某一個詞在層次編碼過程中的全部信息。經過該模型的編碼后,記號[MASK]最終的輸出結果將被用來預測被遮蔽的詞,一般情況下,默認在一句話中,設定將15%的詞進行遮蔽并預測,具體結構如圖9 所示。

雖然這種預訓練的任務設定可以有效地訓練模型,但是也存在缺點:特殊記號[MASK]僅僅出現在預訓練階段,而并沒有在微調階段出現,這會給微調效果帶來不可預見的影響。為了解決該問題,實際操作中,在隨機選取被遮蔽詞時,最終輸入將遵循以下流程:①選句子中15%的詞作為候選遮蔽詞;②80%的時間是采用[MASK],如:誰知盤中餐→誰知盤中[MASK];③10%的時間是隨機取一個詞代替被MASK 的詞,如:誰知盤中餐→誰知盤中湯;④10%的時間保持不變,如:誰知盤中餐→誰知盤中餐。

最后,BERT 還可以完成下一句預測任務。很多常見模型的下游任務是以理解句子對之間的對應關系為基礎,比如語義相似度計算、機器翻譯效果評估等任務。單純地使用遮蔽詞訓練的語言模型不能使模型捕捉到句子與句子之間的關系。下一句預測任務(Next Sentence Prediction,NSP),即預測一個句子是不是另一個句子的下一句任務,對于BERT 而言相對簡單。BERT 將隨機從語料庫中選取語句A,然后獲取它的下一句B,用50%的概率將語料庫中與A 無關的句子C 換成B,如圖10 所示。

Fig.9 Contrast before and after masking圖9 遮蔽處理前后對比

Fig.10 Next sentence task prediction圖10 下一句預測任務

該任務在訓練時,特殊標記[CLS]對應的最終輸入將會被作為兩個句子的表征,用以判斷兩個句子是否有關系。

2.4.3 RoBERTa

RoBERTa 全稱是A Robustly Optimized BERT Pretraining Approach,即一種魯棒性更強的BERT 模型。它的整體結構與BERT 相同,是在一些細節方面對BERT 進行了改進,從而達到了更好的效果。具體改進如下:

(1)采用動態MASK 機制。BERT 中在準備訓練數據時,每個樣本都僅僅會進行一次隨機MASK(因此每個epoch 都是重復),接下來的每個訓練步驟都將采用相同的MASK,這就是原始靜態MASK,即單個的靜態MASK,這是原始BERT 的做法。RoBERTa 采用全詞遮罩(Whole Word Masking)技術,原始BERT 是基于WordPiece 詞級別的分詞方式,會將一個完整的詞切分成若干個子詞,在生成訓練樣本時,這些被分開的子詞會隨機被MASK。在全詞MASK中,如果一個完整詞的部分子詞被MASK,則同屬該詞的其他部分也會被MASK,即全詞MASK;RoBERTa 在預處理時并沒有執行MASK,它是在每次向模型提供輸入時動態地生成MASK,這樣每個epoch 的MASK 是時刻變化的,在此基礎上的預測效果也更好。

(2)刪減BERT 的下一句預測任務。刪減了NSP 任務,BERT 的整個模型變得更為高效,在多個實驗中的效果并沒有下降,處理多文檔的性能也未受到影響,同時單文檔任務效果有明顯提升。可以看出,RoBERTa 更適合處理情感分類這種文檔任務。

(3)增加數據,提高算力和訓練時長。BERT 訓練時使用了13G 的訓練數據,RoBERTa 訓練時使用了160G 的訓練數據;BERT 訓練時使用了64個TPU,RoBERTa 訓練時用了1 024個V100 GPUs。因為算力提升,RoBERTa 采用的batch_size 為512,而BERT 只有256。

(4)使用更大的編碼表。原始BERT 模型編碼方式是通過對輸入文本進行啟發式的詞干化處理后而得到,本質上是基于char 級別,而RoBERTa 模型運用的編碼方式則是基于bytes 級別。bytes 級別與char 級別的根本區別在于bytes 級別使用byte 作為字詞的基本編碼單位而不是將BERT 模型所用的unicode 字符作為編碼基本單位。這樣的編碼方式能夠對采用任何形式編碼的文本進行識別而不會引入UNKOWN 標記。當采用bytes 級別的BPE 后,其所用的詞表大小將從原來的30k 增加到現在的50k,這極大提升了RoBERTa 模型對復雜任務和較差語料的適應性。

3 應用實驗

本文實驗主要使用RoBERTa 模型進行中文情感分類,也在同樣的條件下使用BERT 模型的中文版本作比較實驗,并將以往表現較好的循環神經網絡模型及其變體加入到實驗中,進行綜合結果分析。實驗環境如表1 所示。

Table 1 Lab environment表1 實驗環境

3.1 實驗數據

本文數據集采用Nlpcc2013 和Nlpcc2014 公開的微博評論數據集為實驗數據,經過降噪和數據清洗后,2013 年的數據集大概有5 000 條,2014 年的數據集大概有18 000條,具體情況如表2 所示。

Table 2 Experimental data表2 實驗數據

3.2 評價標準

本文采用通用評價標準,正確率(Accuracy,A)、準確率(Precision,P)、召回率(Recall,R)、F值對實驗結果進行評價。正確率表示預測正確的樣本與所有樣本的比例;準確率表示正確被檢索到的數量與實際被檢索到的數量比值;召回率表示正確被檢索到的數目與應被檢索到的數目比值;P 和R 互斥,F值綜合考慮二者的指標。具體內容見表3,公式見式(18)—式(21)。

Table 3 Confusion matrix表3 混淆矩陣

3.3 實驗設置

本文所使用的RoBERTa 模型參數比原始的BERT 有所提高,具體對比如表4 所示。

Table 4 RoBERTa model parameters表4 RoBERTa 模型參數

兩個模型的學習率都采用1e-5,測試集和訓練集按照1∶4 的比例分配,其他對比實驗按相關參數進行,具體模型如下:

(1)BiLSTM。任勉等提出一種基于雙向長短時記憶循環神經網絡模型,主要用雙向的LSTM 提取上下文語義。

(2)BiGRU。曹宇等采用LSTM 的變體雙向的GRU網絡模型提取語義并分類,效果較之前的模型更好。

(3)BiGRU-attention。王偉等提出自注意力機制和雙向GRU 結合的BiGRU-attention 文本情感分類模型,實現了比BiLSTM-attention 更高的正確率,同時模型訓練時間也得以有效縮短。

加上上述BERT 模型與RoBERTa 模型,一共5 組模型,分別在Nlpcc2013 和Nlpcc2014 數據集上進行實驗對比。

3.4 實驗結果

本文所用的RoBERTa 模型和其他4個模型在Nlpcc2013 和Nlpcc2014 數據集上的情感二分類具體實驗結果對比如表5 和表6 所示。

Table 5 Nlpcc2013 data set experimental results表5 Nlpcc2013 數據集實驗結果

Table 6 Nlpcc2014 data set experimental results表6 Nlpcc2014 數據集實驗結果

根據上述實驗結果可以看出,在循環神經網絡應用上,BiGRU_attention 模型效果較好,正確率、召回率、F值較前兩個模型在兩個數據集上都有提高。但是BERT 模型與前3個模型相比,在所有評價指標上都有明顯提高。而Ro-BERTa 模型是BERT 模型的改進型,在兩個數據集的各項指標上都有小幅度提升。并且,其優于以上所有參照模型,證明本模型在中文情感二分類上有較好的效果,也證明了本模型在中文評論情感二分類任務上的有效性。

4 結語

由上可知,BERT 模型及RoBERTa 模型的結構全然沒有傳統深度學習的網絡模型影子,是一種全新結構,這種結構解決了傳統循環神經網絡不能解決的文本信息長時依賴問題,同時在模型預訓練階段通過創新的詞罩技術,實現了高效的并行預測技術,極大縮短了模型訓練時間,提高了模型整體效果,并且通過其自身內嵌的多頭注意力機制,較好解決了傳統詞嵌入模型不能很好解決的一詞多義問題,并在最終實驗結果上取得了優異效果,驗證了模型在中文情感評論二分類上的高效性。

但是從實驗結果看,nlpcc2014 數據集上的整體實驗指標比nlpcc2013 數據集要好,原因可能是nlpcc2014 總的數據量比nlpcc2013 總的數據量要多很多,因此考慮可能是數據集本身的數據量對模型分類效果產生了影響。后續將針對這一問題做系統研究,并進行論證。如果證實數據量的增加確實可以提高模型分類效果,則可以針對實際場景中數據集較少的情況,研究可行的數據量增加方法以提高模型整體效果。

猜你喜歡
分類機制文本
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 国产在线精品99一区不卡| 欧美日韩成人在线观看| 18禁黄无遮挡网站| 日本91在线| 伊人五月丁香综合AⅤ| 亚洲男人天堂2020| 丰满少妇αⅴ无码区| 白丝美女办公室高潮喷水视频| 欧美在线网| av在线无码浏览| 亚洲欧美综合在线观看| 国产精品一线天| 国产视频入口| 久久久受www免费人成| 国产亚洲精品97AA片在线播放| 亚洲日本一本dvd高清| 五月天福利视频| 女人18一级毛片免费观看| 97在线国产视频| 欧美精品导航| 日本久久网站| 国外欧美一区另类中文字幕| 免费a在线观看播放| 亚洲伊人天堂| 欧美伦理一区| 都市激情亚洲综合久久| 91黄视频在线观看| 国语少妇高潮| 亚洲第一色网站| 日本欧美午夜| 国产xxxxx免费视频| 免费国产高清精品一区在线| 久久亚洲天堂| 999国内精品久久免费视频| 国产精品第一区在线观看| 亚洲精品国产首次亮相| 日a本亚洲中文在线观看| 国产永久在线观看| 欧美性色综合网| 欧美一区福利| 国产精品久久久久久搜索| 国产极品嫩模在线观看91| 欧美日韩一区二区在线播放 | 国产在线视频导航| 久久99国产综合精品1| 久久无码高潮喷水| 中文字幕第4页| 波多野结衣第一页| 77777亚洲午夜久久多人| 亚洲人在线| 国产高潮流白浆视频| 高清无码手机在线观看| 亚洲成人一区在线| 亚洲欧美国产视频| 免费无码在线观看| 亚洲欧美在线看片AI| 在线观看国产精美视频| 在线不卡免费视频| 国产欧美综合在线观看第七页| 台湾AV国片精品女同性| 欧美在线视频a| 国产亚洲视频播放9000| 香蕉eeww99国产精选播放| 色综合成人| 老司机久久99久久精品播放| 91精品网站| 欧美午夜在线视频| 一级香蕉视频在线观看| 亚洲国产成人综合精品2020 | 亚洲永久精品ww47国产| 92午夜福利影院一区二区三区| 伊大人香蕉久久网欧美| 人人爱天天做夜夜爽| 成人精品免费视频| 国产第三区| 免费高清a毛片| 色综合日本| 亚洲性影院| 亚洲中文字幕手机在线第一页| 拍国产真实乱人偷精品| 久久99久久无码毛片一区二区| 色成人亚洲|