999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于預訓練語言模型詞向量融合的情感分析研究

2021-05-14 03:57:44魏上斐喬保軍于俊洋姚相宇
計算機應用與軟件 2021年5期
關鍵詞:分類文本情感

魏上斐 喬保軍 于俊洋 姚相宇

1(河南大學軟件學院 河南 開封 475000) 2(河南大學計算機信息與工程學院 河南 開封 475000)

0 引 言

隨著網(wǎng)絡的盛行與網(wǎng)絡技術的發(fā)展,用戶可在網(wǎng)絡中發(fā)表自己對事物的觀點,這些觀點中含有用戶想要表達的情感因素。更加準確地發(fā)掘評論中的情感因素已成為當前工業(yè)界和學術界的迫切要求。

情感分析又稱為意見挖掘、主觀因素挖掘等,是通過計算機分析并整理互聯(lián)網(wǎng)上大量的評論信息,對帶有情感因素的主觀性文本進行分析、處理的過程[1]。情感分析的主要工作是將文本所含有的情感因素(如積極、消極、中立等)進行分類。目前,國內(nèi)外學者提出基于傳統(tǒng)的機器學習方法,在語法層面上進行語義分析。周楓等[2]提出了一種雙向GRU與CNN相結合的文本分類模型,通過增大重要信息的權重,提高分類精度?,F(xiàn)在流行的深度學習采用淺層神經(jīng)網(wǎng)絡的方法也可以進行情感分類。一些研究學者在文本的詞向量表達上進行了改進,得到了更好的分類效果。Biswas等[3]利用特有領域的信息訓練詞向量,使情感分類模型有了更好的提升。Cotterell等[4]提出了一種新的形態(tài)學詞向量,在詞相似方面得到了很大的提升效果。Abdedda?m等[5]提出了一種新的MeSH-gram模型,通過句向量捕捉語義聯(lián)系,性能高于傳統(tǒng)skip-gram模型。Yao等[6]提出了一種新方法LSI,通過將外部知識轉化為語義空間以增強詞向量表達方式。文獻[7-8]通過結合主題模型來訓練詞向量進行文本分類。文獻[9-11]均使用深層次模型訓練詞向量,并應用在詞表征任務上。

綜上所述,現(xiàn)階段的情感分類問題在于無法更好地抓取情感因素。詞向量表示方法能夠更好地對文本特征進行描述,在分類時的效果更好。本文提出GE-BiLSTM情感分析模型。通過預訓練語言模型構建文本的特征詞向量,然后將文本的特征詞向量作為BiLSTM神經(jīng)網(wǎng)絡的輸入,通過訓練神經(jīng)網(wǎng)絡獲取深度詞向量特征,最后使用softmax層對文本進行情感分類。

1 相關介紹

1.1 Glove模型

Glove(Global Vectors for Word Representation)模型由斯坦福大學的Pennington等[12]提出,Glove模型是基于共現(xiàn)矩陣分解生成詞向量的模型。假設共現(xiàn)矩陣為X,Xi表示詞i,Xij表示詞j在目標詞i的上下文中出現(xiàn)的次數(shù)。模型在訓練時用到了全局信息,利用了詞共現(xiàn)的信息狀態(tài),使用上下文信息建模,如果兩個詞在語料庫中出現(xiàn)的上下文位置類似,這兩個詞的詞向量就相似,對詞語具有更好的描述。Glove模型的損失函數(shù)為:

(1)

式中:|V|是詞典的大?。籛i為詞i的詞向量;Wj為詞j的詞向量;bi和bj分別為矩陣X行、列的偏移值。J的計算復雜度和共現(xiàn)矩陣矩陣X的非零元素的數(shù)目呈線性關系。設共現(xiàn)矩陣X中,Xij代表詞j在詞i上下文出現(xiàn)的次數(shù)。詞i和詞j的上下文是k時,k與i、j存在共現(xiàn)關系。

(2)

式中:P(k|i)為單詞i、k共現(xiàn)概率。

(3)

式中:P(k|j)為單詞j、k共現(xiàn)概率。

(4)

如果F(wi,wj,wk)的值較大,說明k和i的相關性強;反之,則說明k與j相關性比較大。Glove模型的不足是上下文單詞之間的聯(lián)系不強,同一個詞出現(xiàn)在不同場景的文本中,詞匯的向量表征矩陣變化不大。

1.2 LSTM網(wǎng)絡結構

LSTM網(wǎng)絡結構是基于循環(huán)神經(jīng)網(wǎng)絡(RNN)改進而來的。循環(huán)神經(jīng)網(wǎng)絡最早由Schuster等[14]提出,該網(wǎng)絡結構更適合對序列化數(shù)據(jù)進行處理和預測,在處理文本信息時,可以使之前的信息對后面的輸入信息產(chǎn)生影響,輸入信息為{x1,x2,…,xt},xi的輸入都會經(jīng)過激活函數(shù)轉化為輸出值oi和上一個狀態(tài)的記憶值hi,所以當前時刻t的輸入除了來自當前輸入層的xt,還有上一個狀態(tài)的ht。LSTM具體單元結構公式如下:

zt=tanh(Wz[ht-1,xt]+bz)

(5)

it=σ(Wi[ht-1,xt]+bi)

(6)

ft=σ(Wf[ht-1,xt]+bf)

(7)

ot=σ[Wo(ht-1,xt)+bo]

(8)

ct=ft·ct-1+it·zt

(9)

ht=ot·tanhct

(10)

式中:z為輸入值;i為輸入門;f為遺忘門;o為輸出門;ct為結合遺忘門選擇的信息后輸出的新狀態(tài);ht為結合ct、輸入和上一個狀態(tài)所生成的進入下一層隱藏層的狀態(tài);σ為sigmoid激活函數(shù);b是訓練時的偏置項。“門”機制可以更好地篩選有用的信息,雖然在訓練時會產(chǎn)生更多的參數(shù),但在數(shù)據(jù)量不大的數(shù)據(jù)集上具有更好的效果,所以本文選擇了LSTM作為提取情感因素的網(wǎng)絡結構。

2 GE-BiLSTM情感分析模型

本文提出一種GE-BiLSTM情感分析模型,引入了預訓練語言模型,針對于當前傳統(tǒng)情感分類模型無法更好地抓取情感因素導致文本向量矩陣稀疏的問題進行了改進及處理。通過訓練語言模型,以BiLSTM作為語言模型訓練的網(wǎng)絡結構在訓練結束后可以得到輸入文本中每個詞匯的m層向量矩陣,由于兩個模型的訓練機制不同,最終生成向量矩陣需進行運算重組,運算函數(shù)如下:

(11)

式中:e′為新的ELMO模型詞向量;e為原始詞向量;n為詞向量維度;h為每個詞匯的詞向量層數(shù)。將預訓練語言模型ELMO訓練結果與Glove詞向量通過運算融合為新的詞向量矩陣。最終放入BiLSTM模型訓練,進行情感分析。

2.1 預訓練語言模型

本文引用了Peters等[13]提出的ELMO模型(Embeddings from Language Models),以語言模型為目標在雙向LSTM上訓練模型,利用LSTM網(wǎng)絡結構生成詞語的表征。Word2Vec等傳統(tǒng)模型生成詞向量時,不同句子中的相同詞匯的詞向量是一樣的;而本文預訓練雙向語言模型的輸入度量是字符而不是詞匯,從而可以增強單詞的聯(lián)系,以語言模型為目的,更好地預測下一個單詞的出現(xiàn)概率。該語言模型的前后網(wǎng)絡結構如下。

前向LSTM結構:

(12)

反向LSTM結構:

(13)

聯(lián)合前向和后向語言模型,并最大化前后向語言模型,得到該語言模型的聯(lián)合似然函數(shù)如下:

(14)

式中:θx為輸入的初始詞向量參數(shù);θs為輸出的softmax層參數(shù)。本文利用預訓練語言模型的概念,使用雙向LSTM訓練語言模型,對該模型加以應用,每個詞語經(jīng)過語言模型的預訓練后,情感詞的權重通過最大條件概率隨之增大,更加突出情感關鍵詞的重要性,結合特定數(shù)據(jù)語境的情感詞的條件概率可通過極大似然估計求得:

(15)

通過結合全局信息和局部上下文信息,可以充分彌補傳統(tǒng)情感分類模型中,只能通過前后句子判斷關鍵情感詞重要性的缺陷,情感詞條件概率的增大,可以通過不同場景,產(chǎn)生不同意義的詞語表征。情感信息在融合新機制下得到了更好的保留,效果優(yōu)于傳統(tǒng)主題模型。

2.2 詞向量的運算重組

本文所選擇的傳統(tǒng)詞向量模型為Glove模型,該模型在Word2Vec模型的基礎上加以改進,結合了全局信息,彌補了Word2Vec只能結合局部語義信息的缺點,在詞表征任務上具有更好的效果。本文模型首先通過預訓練語言模型訓練詞向量,在得到局部上下文信息后,再結合Glove模型訓練得到的全局信息重組運算成新的矩陣。傳統(tǒng)詞向量模型Glove訓練出來的詞向量矩陣設為G,文本分詞之后每個詞的tokens設為g,詞向量矩陣維度過大容易造成訓練參數(shù)增加、時間復雜度提升。經(jīng)過實驗證明,詞向量維度在200~300維之間時詞向量差別很??;當維度超過300維,會造成維度過長,訓練時參數(shù)過多,提高時間復雜度。本文Glove模型詞向量維度選擇為256維,矩陣為文本詞向量的集合G。

(16)

通過預訓練語言模型訓練出來的詞向量矩陣設為E,文本分詞之后每個詞的tokens設為e,維度與Glove模型輸出保持一致,矩陣為文本詞向量的集合{e1,1,e1,2,…,e229902,256},訓練出的每個詞的詞向量有m層,將ELMO模型每個詞的詞向量求平均值,轉為新的詞向量矩陣E′。

(17)

將兩個模型訓練的詞向量通過運算融合,即W=concat(G,E′),運算后的具體矩陣為:

(18)

融合后的詞向量維度為512維。

2.3 GE-BiLSTM模型結構

本文提出的GE-BiLSTM模型的關鍵部分在于通過預先訓練語言模型,得到包含上下文信息的詞向量,再結合傳統(tǒng)的Glove所生成的全局詞向量,提高了詞語之間的聯(lián)系,以語言模型為目的訓練詞向量可以更好地抓取情感因素,雙向LSTM網(wǎng)絡進一步提取文本特征,以提高分類精度。LSTM網(wǎng)絡結構是在RNN(Recurrent Neural Network)基礎上改進得到的網(wǎng)絡結構,其克服了RNN無法存儲更多信息的缺點。但是在訓練時,文本中每個詞匯的理解不僅依賴于前面所存儲的信息,也與后面輸入的信息有關。LSTM是單向的網(wǎng)絡結構,如果要同時考慮上下文的信息,就需要同時考慮文本句子前后方向的信息。在經(jīng)過對模型性能和訓練復雜性之間進行權衡之后,本文選擇雙向的LSTM結構作為詞向量融合之后訓練的網(wǎng)絡結構,以此可以充分地理解詞匯的上下文信息。GE-BiLSTM情感分析模型的流程如圖1所示。

圖1 GE-BiLSTM情感分析模型流程

在訓練之前,先通過停用詞表去除無用詞并處理原數(shù)據(jù),通過兩個模型分別訓練出詞向量,經(jīng)過維度調整和矩陣處理后,將預訓練語言模型與Glove模型最終訓練得到的矩陣運算融合成新的詞向量矩陣。融合后分類交叉熵得到的目標函數(shù)為:

(19)

圖2 融合細節(jié)圖

將融合之后的結果作為網(wǎng)絡結構的輸入放到輸入層中,再次通過BiLSTM網(wǎng)絡結構進一步抓取情感因素,將輸出結果作為softmax層的輸入,最終得到分類結果。

2.4 情感分析

最終生成的詞向量矩陣通過BiLSTM網(wǎng)絡訓練,在得到情感特征向量后,利用向量矩陣做分類,softmax函數(shù)是歸一化的指數(shù)函數(shù),其定義如下:

(20)

式中:X是經(jīng)過網(wǎng)絡結構訓練后的矩陣;d是輸入數(shù)據(jù)的向量維度,W是輸入層的向量矩陣。設softmax函數(shù)的輸入數(shù)據(jù)為d維的向量W,最終softmax函數(shù)結果也是一個d維的向量,每個維度的值在0到1之間。利用softmax輸出兩個取值在0到1之間的數(shù)值,通過數(shù)值判斷最終輸出的概率,選擇輸出概率最大的作為文本分類的結果。GE-BiLSTM算法流程如算法1所示。

算法1GE-BiLSTM

1. 通過對數(shù)據(jù)集處理成句子與標簽對應形式

2. 通過式(4)和式(14)得到融合后的情感詞向量矩陣

3. foriin [1,N]

4. 使用預訓練語言模型與傳統(tǒng)詞向量模型訓練詞語表示

5. 使用式(15)的最大條件概率再次定義情感詞權重

6. 運算重組訓練后的詞向量矩陣

7. end

8. 將BiLSTM再次訓練之后的向量矩陣,通過式(19)更新權重參數(shù)

9. 將最終的詞語表征矩陣輸入到softmax 分類器中,輸出最終的分類結果

3 實 驗

本文實驗數(shù)據(jù)集采用了IMDB大型電影評論集。該評論集具有良好的特征情感詞,評論集中共有50 000條含有標簽的評論,其中積極的文本為25 000條,消極文本為25 000條。在訓練時,采用5 ∶1的比例劃分訓練集與測試集。訓練集文本為40 000條,測試集文本為10 000條。通過統(tǒng)計數(shù)據(jù)集文本,每條文本評論在500詞左右,本次實驗對訓練詞匯設定統(tǒng)一長度,最大詞匯數(shù)設定為500,超過部分進行截斷,不足的補0。

3.1 實驗數(shù)據(jù)集

本文所選數(shù)據(jù)集為IMDB大型電影評論集,該評論語料集中主要為積極評論與消極評論兩種,表1所示為數(shù)據(jù)集中部分積極與消極評論。

表1 實驗數(shù)據(jù)集

3.2 實驗參數(shù)

本文所提出的GE-BiLSTM模型訓練參數(shù)如表2所示。該模型訓練時使用的激活函數(shù)是tanh,可以有效地降低在訓練時梯度爆炸的概率。常用的SGD優(yōu)化函數(shù)在優(yōu)化過程中,容易陷入局部次優(yōu)解,相比較下Adam優(yōu)化函數(shù)可以直接并入梯度一階矩估計中,其魯棒性更強。

表2 實驗參數(shù)

續(xù)表2

3.3 評價標準

本文選取查準率P(precision)、召回率R(recall)和F1值(F1-score)作為情感分析的評價標準。查準率與召回率是一對矛盾量,為了達到一個較為平衡的評價標準,需要用到F1值來衡量。F1公式如下:

(21)

3.4 對比實驗

為了驗證GE-BiLSTM情感分析模型的有效性,本文將分別與Glove-LSTM、ELMO-LSTM、Glove-BiLSTM、ELMO-BiLSTM模型進行對比實驗。

圖3為Glove模型與雙向LSTM訓練后得到的acc/loss圖,圖4為ELMO預訓練語言模型與雙向LSTM訓練后得到的acc/loss圖,圖5為本文模型的acc/loss圖。可以看出,GE-BiLSTM具有更好效果,訓練集在第6輪左右,數(shù)據(jù)收斂趨于平緩。具體實驗結果數(shù)據(jù)對比如表3所示。

圖3 Glove-BiLSTM acc/loss圖

圖4 ELMO-BiLSTM acc/loss圖

圖5 GE-BiLSTM acc/loss圖

表3 實驗結果對比

本文還與文獻[16]方法做比較,通過結合LDA主題模型來捕捉單詞之間的語義和情感相似性,分析語義成分,再結合上下文語義結構,通過無監(jiān)督概率模型學習單詞向量,最終將生成語義向量通過SVM(支持向量機)進行情感分類。實驗證明,本文提出的GE-BiLSTM情感分析模型具有更好的分類效果,F1值比ELMO-BiLSTM方法提升0.045,比Glove-BiLSTM方法提高0.025。

4 結 語

本文提出了一種基于預訓練語言模型ELMO與傳統(tǒng)詞向量模型融合的GE-BiLSTM情感分析模型。通過模型輸出向量矩陣調整后,進行詞向量矩陣運算融合,在文本向量化表示部分增加了文本的特征描述及上下文詞匯之間的聯(lián)系,減少了向量矩陣的稀疏度,再通過雙向LSTM的訓練可以更好地抓取情感因素。實驗表明,GE-BiLSTM情感分析模型具有更好的分類效果。下一步將對文本的特征描述做進一步研究。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 国产精品一区二区国产主播| 国产精品自在线拍国产电影| 国产91熟女高潮一区二区| 伊人国产无码高清视频| 在线播放精品一区二区啪视频| 国产高清在线精品一区二区三区| 国产制服丝袜91在线| 国产素人在线| 久草中文网| 日韩色图区| 五月激情婷婷综合| 精品五夜婷香蕉国产线看观看| 热久久国产| 狠狠亚洲婷婷综合色香| 少妇精品在线| 波多野结衣一区二区三视频| 国产全黄a一级毛片| 国产乱子伦精品视频| 成年人国产网站| 自拍亚洲欧美精品| 成年av福利永久免费观看| 日韩欧美国产另类| 国产成人一级| 中文无码精品a∨在线观看| 免费女人18毛片a级毛片视频| 美美女高清毛片视频免费观看| AⅤ色综合久久天堂AV色综合| 小13箩利洗澡无码视频免费网站| 久热中文字幕在线| 91久久国产综合精品| 中国美女**毛片录像在线 | 色综合网址| 久久99精品久久久大学生| 国产成人精品免费视频大全五级| 伊人成人在线视频| av手机版在线播放| 亚洲成人精品久久| 亚洲精品日产AⅤ| 中国一级毛片免费观看| 国产成人成人一区二区| 成人在线不卡| 青青极品在线| 第一页亚洲| 国内精品小视频福利网址| 免费毛片全部不收费的| 伊人久热这里只有精品视频99| 天天干天天色综合网| 久久性视频| 日韩欧美国产中文| 国产成a人片在线播放| 国产女人在线观看| 最新亚洲人成无码网站欣赏网| 91九色视频网| 成人国产三级在线播放| 久草国产在线观看| 久久这里只有精品国产99| 色吊丝av中文字幕| 国产国语一级毛片在线视频| 成年午夜精品久久精品| 手机成人午夜在线视频| 波多野结衣视频一区二区 | aa级毛片毛片免费观看久| a色毛片免费视频| 欧美啪啪一区| 亚洲激情区| av尤物免费在线观看| 午夜国产大片免费观看| 亚洲最新在线| 亚洲伊人久久精品影院| 青草视频免费在线观看| 天天色综合4| 亚洲三级电影在线播放| 久久无码高潮喷水| аv天堂最新中文在线| 无码内射中文字幕岛国片 | 亚洲高清无码精品| 午夜视频在线观看免费网站| 国产美女在线观看| 97se亚洲综合在线韩国专区福利| 色婷婷在线影院| 伊人久综合| 国产乱人免费视频|