999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

雙向GRU 和自注意力機制下微博情感傾向性分析

2020-08-31 06:14:20薛佳奇
智能計算機與應用 2020年4期
關鍵詞:情感實驗模型

楊 凡, 薛佳奇

(1 西安建筑科技大學 理學院, 西安710000 ;2 北京搜狗科技發展有限公司, 北京100000)

0 引 言

由于微博平臺具有便捷性、傳播性、原創性等特點,已然成為大眾交流信息、表達情感及觀點的平臺。 目前,對微博文本的分析主要有微博主題分析[1]、輿情分析[2]、情感分析[3],其中微博情感分析是微博文本分析的基礎。 當前微博文本情感分析采用支持向量機[4]、卷積神經網絡[5]、長短時記憶神經網絡[6]等模型進行情感分析,并取得了較好的結果。 但在使用支持向量機模型進行情感分析時,發現存在訓練耗時、對大數據量樣本難以實施、需謹慎選擇核函數的缺點,并不適用于大數據量的微博情感分析;在采用卷積神經網絡和長短時記憶神經網絡模型進行情感分析時,也存在訓練時間長、參數多、內部結構復雜[7],以及不能準確定位情感詞的缺點。

近年來,網絡新詞每天都在不斷涌現,微博作為大眾網絡交流信息的重要工具,文本中也含有大量的網絡熱詞,如:“香菇藍瘦”、“正能量”、“瘋狂打call”、“雨女無瓜”、 “大豬蹄子”等。 在社交媒體中,這些詞對文本的情感表達、情感傾向性,產生著重要的影響。 而現有模型在處理微博文本分詞時,采用傳統的分詞方法,極大地影響了微博情感分詞的準確率。

為解決現有微博情感模型的不足,以及網絡新詞影響情感極性的問題。 本文提出在準確分詞的基礎上,采用訓練時間短、參數少、內部結構相對簡單的GRU 模型進行微博情感學習,用Self-Attention模型進行情感詞定位,最后分類。 通過在微博數據集上的實驗,與現有模型對比,證明本文所構建的模型更有利于微博情感傾向性分析。

1 相關工作

1.1 數據處理

本實驗采用python 編寫程序代碼,爬取微博數據集。 該數據集隨機獲取了2019 年幾個時間段的數據集,總計100 萬條。 實驗所用微博內容包括以下幾個方面:文字、表情、參與話題、鏈接、標點符號、特殊符號等。

(1)清洗數據。 本文微博數據由python 爬蟲爬取,因此難免出現數據缺失、無效數據,對該類型數據進行排查和修改;因本文對微博文本情感傾向性進行研究,故對微博內容中特殊符號、標點符號、參與話題及微博話題,用正則表達式的方法進行去除。

(2)異常值與重復數據監測。 只含有微博鏈接、標點符號、特殊字符的微博,經過數據清洗會出現異常值,將這些異常值去除;獲取的數據有重復數據存在,將這些重復的微博進行去除。

(3)微博表情替換。 微博表情是一種“攜帶意義感知”的符號,是一種視覺化語言,更加具體、生動和形象地表達微博情感,是人真實表情的延伸。獲取的微博內容中含有大量的表情符,將這些表情符替換成對應的情感詞,有利于后續研究的推進。微博表情庫如圖1 所示。

圖1 微博表情庫Fig.1 Weibo expression library

1.2 分詞處理

結巴分詞[8]是國內程序員用Python 開發的一種中文分詞模塊,該模塊可以準確的識別出分詞,將連續的字序列按照一定的規范重新組合成詞序列。該模塊支持4 種分詞模式:精確模式、全模式、搜索引擎模式、自定義字典模式。 在分詞時,針對含有大量網絡新詞的微博文本,如果僅僅依靠精確模式的結巴分詞法,并不能正確分詞。 故使用自定義字典模式將近年來微博表情詞、搜狗網絡新詞、網絡流行詞、QQ 輸入法網絡流行語、搜狐網絡新詞加入結巴分詞詞庫。 分詞結果見表1。

表1 分詞結果Tab.1 Segmentation results

分詞后用哈工大停用詞表,對微博文本集進行去停用詞。

2 模型

2.1 word2vec 模型

Word2vec 是Google 公司在2013 開放的訓練詞向量軟件工具,其可以根據給定的語料庫訓練合適的詞模型。 該詞模型可以快速有效地將一個詞語表達成向量形式,是自然語言處理領域的新工具。Word2vec 有2 種模型:CBOW 模型和Skip-gram 模型。 CBOW 模型采用根據前后詞預測中間詞,如根據“這只____實在太萌了”預測“小貓”,適合較大的數據集。 而Skip-gram 模型則是根據中間詞預測前后詞,如:根據“小貓”預測“這只____實在太萌了”。 Skip-gram 把每個詞作為中心詞對其它詞進行預測,適合數據量適中的文本集。 本文實驗中有100 萬條微博數據,屬于數據量適中的文本集,故采用Skip-gram 模型訓練詞向量模型。

2.2 GRU 模型

針對中文微博文本上下文語義關聯的特征,本文選用LSTM(Long Short-Term Memory)的一個變種模型GRU(Gated Recurrent Unit),用此模型進行微博情感學習。 該模型由重置門(rt)、更新門(zt)、隱藏層(ht)3 部分組成。 雖然每條中文微博的篇幅在240 字之內,屬于短文本,但決定文本的情感極性與該文本的上下文都有關。 而GRU 模型可以通過重置門(rt)、更新門(zt)、隱藏層(ht)3 部分, 記憶和更新每個詞之前的情感信息;同時該模型比LSTM參數少、內部結構簡單、訓練時間短,更適用于本文數據集。 GRU 模型的小單元結構如圖2 所示。

圖2 GRU 單元Fig.2 GRU unit

首先,GRU 的重置門(rt) 決定了如何將新的輸入詞信息與前面的情感記憶相結合。

更新門(zt) 決定當前時刻輸入信息,被附加到上一時刻狀態中的量,以及上一時刻的情感信息有多少保留在時間步t 中,更新門的具體表達式為:

更新門將這2 部分信息相加并作為sigmoid 函數的輸入。

最后,計算隱藏層。 隱藏層由rt控制保留之前的情感記憶。

進而得到最后的隱藏層情感信息(ht)。

其中,Wr、Wz、Wh分別為重置門、更新門、隱藏層的權重矩陣,tanh、σ 為激活函數。

2.3 Self-Attention 機制

注意力機制(Attention Mechanism)源于對人類的視覺研究。 在認知科學中,由于信息處理的瓶頸,人類會選擇性地關注所有信息中的一部分,同時忽略其它可見信息。 這種機制通常被稱為注意力機制。 Bahdanau 等[10]將注意力機制用于機器翻譯模型中,提出了Soft Attention Model,并將其應用到了機器翻譯領域。 2017 年Google 機器翻譯團隊發現,使用自注意力機制可以學習文本與訓練集,以及文本自身的關鍵特征表示[11]。 而后,Self-attention 機制因既可以學習到文本與總文本集的關系,又可以學習到自身的關鍵特征,成為近期在自然語言處理中研究的熱點模型。 微博文本的情感極性與微博文本集、微博文本自身都有極大關系,故本文采用Self-Attention 模型對微博文本情感學習。

Self-Attention 的核心與Attention 一樣。 設X =(x1,x2,...,xn) 為Self-Attention 的輸入,則Self-Attention 可被描述為一個查詢q, 得到一系列(kv)對的映射,Q =X × WQ、K =X × WK、V =X × WVQ=(q1,q2,...,qi) 、 K =(k1,k2,...,kj) ,V =(v1,v2,...,vj)。 其中,WQ、WK、WV是模型訓練過程中學習到的合適參數。 主要步驟如下:

(1)計算Q 和K 的相似度。 常用計算相似度的方法有計算余弦相似度、點積。

(3)使用Softmax 函數,進行歸一化為概率分布函數。

然后,再乘以矩陣V, 得到權重求和的表示如下:

3 基于Self-attention 的BiGRU 模型

通過清洗數據、訓練Word2vec 詞模型后,在Word2vec 模型中尋找微博的詞向量,作為該模型的輸入層,并將這些詞向量輸入到隱藏層中。 用BiGRU 學習微博的上下文關系,將學習到的上下文關系信息輸入到Self-attention 模型中,用權重確定該微博的情感詞。 最后用Softmax 函數進行分類作為該模型的輸出層。 其中隱藏層包括:BiGRU 層、Self-Attention 層、Dense 層。 模型分層如圖3 所示。

3.1 輸入層

為了對微博情感進行準確分析,本文使用結巴分詞的自定義字典模式,將微博表情詞、搜狗網絡流行、加入結巴分詞的詞庫中,對微博文本進行準確分詞,然后訓練出Word2vec 模型。

在訓練詞向量時,分別采用精確模式結巴分詞和加入網絡新詞的結巴分詞2 種模式,訓練得到Model1 和Model2 這2 個詞向量模型。 如:表2 中“這是正能量沒錯啦”的詞向量。 精確模式下,結巴分詞并去停用詞后,訓練詞向量模型和加入網絡新詞的結巴分詞并去停用詞后,訓練的詞向量模型在微博句向量的表示中相差甚多。 加入網絡新詞并去停用詞后訓練的詞向量模型比精確模式下訓練的模型更準確。 可以得到即時性、含有網絡新詞的詞模型。

圖3 模型分層圖Fig.3 Model layering diagram

表2 詞向量Tab.2 Word vectors

3.2 隱藏層

3.2.1 BiGRU 模型

在單向的神經網絡GRU 模型中,是從前往后輸出狀態,這樣GRU 模型記憶單元中只記得該詞之前的微博的特征。 如果僅僅從前往后輸入就忽略了下文。 基于此問題,本文采用BiGRU 神經網絡模型,BiGRU 含前向GRU 模型、后向GRU 模型。 前向GRU 層學習該條微博的上文信息(Hl), 后向GRU層學習該條微博的下文信息(Hr)。 將每條微博中每個詞的上文信息(Hl) 和下文信息(Hr) 拼接,得到每個詞的上下文信息[Hr,Hl]。

3.2.2 Self-Attention 機制層

為了定位情感詞,引入Self-Attention 模型。 該機制可以計算每條微博中每個詞的情感概率權重和自身情感關系。 在訓練模型過程中,將BiGRU 層學習到微博上下文信息輸入到Self-Attention 模型中,學習得到適合微博情感文本集的WQ、WK、WV3 個權重矩陣。 將測試集中BiGRU 模型學習到的微博深層特征(X =[Hr,Hl]),輸入Self-Attention 機制。即可得到Q =X × WQ、K =X × WK,V =X × WV。 那么微博句子中每個詞的權重值為:

其中,dk為Q 和K 的行數。 本文對微博數據進行情感分類,通過Self-Attention 機制學習到概率權重中,情感詞的概率權重較大,地點詞、名詞、量詞等與情感無關的詞概率權重較小。

3.2.3 Dense 層

Dense 層[12],也稱全連接層。 該層是將每一個單元和Self-Attention 層中每一個單元相連接,得到每個詞屬于哪個分類的概率權重。

3.3 輸出層

最后用Softmax 函數對每條微博的概率權重進行歸一分類得到情感類別。

4 實驗

4.1 實驗設置

為了證明該模型的有效性,使用獲取的100 萬微博情感集訓練Word2vec 詞向量,將數據中10 000條進行手工標記。 其中,正向情感5 320條,負向情感4 680條。 訓練集和測試集按照8:2 進行劃分。

本實驗采用keras 深度學習框架[13],后端環境為TensorFlow[14],使用Python 語言編程實現;實驗運行環境為Anaconda3 軟件、Win7 系統、內存8 GB。實驗參數設置見表3。

表3 實驗參數設置Tab.3 Experimental parameter settings

4.2 模型性能

對微博數據集分類時會出現以下4 種情況:

(1)真正類(True Positive,TP):被判定為正向情感,事實上也是正向情感;

(2)假正類(False Positive,FP):被判定為正向情感,但事實上是負向情感;

(3)假負類(False Negative,FN):被判定為負向情感,但事實上是正向情感;

(4)真負類(True Negative,TN):被判定為負向情感,事實上也是負向情感。

本實驗采用準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F 值[15]以及運行時間對試驗結果進行評價。 準確率是指分類正確的樣本數占總樣本的比例;精確率是指該模型預測的正向情感微博數據集中正向情感的比例;召回率體現該模型對正向情感微博數據集的識別能力;F 值為精確率和召回率的調和值,更接近于兩個數較小的那個,所以精確率和召回率越接近F 值越大,說明該模型越穩健。

4.3 對比試驗設置

為了證明該模型對微博文本分類的有效性,本文實驗與當下較為流行的微博文本分類模型進行了比對。

實驗一Word2vec+BiLSTM 微博情感分析

通過Skip-gram 模式對結巴分詞后的微博文本進行訓練,得到詞向量模型,將詞向量輸入BiLSTM神經網絡模型中,捕捉微博情感后進行分類。

實驗二Word2vec+BiGRU 微博情感分析

在實驗一的實現過程中,可以發現LSTM 神經網絡的訓練參數較多、內部結構復雜、訓練時間過長且收斂速度較慢。 而GRU 神經網絡模型是LSTM的簡化模型,具有訓練參數少、內部結構簡單、訓練時間短且收斂速度快的特點。 因此,實驗二中將BiLSTM 模型替換為BiGRU 模型。

實驗三網絡新詞+Word2vec+BiGRU

在處理微博數據集時發現,用傳統的分詞模式對其分詞,會導致大量微博數據集失去情感特征,甚至會歪曲情感傾向。 故本文將網絡新詞、微博表情詞加入結巴新詞庫中,利用結巴分詞對微博文本集進行準確分詞,將詞向量輸入到BiGRU 神經網絡中捕捉微博深層特征,并對其進行分類。

實驗四網絡新詞+Word2vec+雙向GRU+Attention

為能準確定位情感詞,以達到更好的分類效果,實驗三在采用BiGRU 學習微博深層特征的基礎上,用Attention 機制來確定微博中每個詞的權重。 情感詞的權重較大。

實驗五網絡新詞+word2vec +BiGRU +Self-Attention

Self-Attention 機制比Attention 機制的性能更好,更注重微博中詞與詞之間的位置關系、結構關系、情感關系。 本文使用基于網絡新詞、網絡流行語的Word2vec 模型,結合BiGRU 和Self-Attention 的神經網絡模型,對微博情感傾向性進行分析。

4.4 實驗結果比較

在微博文本集上運用以上模型,結果對比見表4。

表4 結果對比Tab.4 Comparison of results

由實驗一與實驗二對比發現:BiLSTM 和BiGRU 在性能上不分伯仲,BiGRU 比BiLSTM 在本文的微博情感數據集上分類性能略好。 BiGRU 比BiLSTM 參數少、容易收斂,分類時間短200 s。

對比實驗二和實驗三發現:由于微博的時效性、隨意性、碎片性,加入網絡新詞、網絡流行語及微博表情詞,對微博數據集進行訓練的Word2vec 模型比傳統分詞后訓練的Word2vec 模型,對微博的詞向量化更加準確。 實驗三比實驗二模型的準確率、召回率、精確率、F值分別有3.62%、3.35%、3.48%、3.41%的提升。

對比實驗三和實驗四發現:加入Attention 層對微博情感詞定位后分類,可以提高模型性能。 因為,Attention 模型通過模型訓練可以計算每個詞的概率權重,減少處理高維數據的計算復雜度,從而降低了數據的維度,使得模型更快、更容易學習到輸入微博數據與輸出信息的關聯信息,進而達到定位情感詞的效果。

對比實驗四和實驗五發現:加入Self-Attention機制比Attention 機制模型準確率性能有1.14%提升。 Self-Attention 機制是Attention 機制的一種改進。 從參數角度上,Self-Attention 機制對外部參數依賴較少;從性能角度來看,Self-Attention 可以學習每條微博不同位置的詞之間特征,以捕捉長距離的依賴關系。 結合加入微博表情詞庫、網絡新詞庫、網絡流行詞庫訓練的Word2vec 模型,對微博準確的詞向量化,比實驗一、實驗二、實驗三、實驗四有非常顯著地提高,故本模型可以更加準確地關聯情感詞,更適合研究微博情感傾向性。

5 結束語

針對微博文本的特征,該文提出將網絡流行詞、微博表情詞、網絡流行語加入到結巴分詞的詞庫中,以至于Word2vec 模型對微博文本進行準確的詞向量化。 進而采用BiGRU 和Self-Attention 機制對微博文本進行情感特征學習、微博內部關鍵特征學習和情感詞定位,最終使用Softmax 函數分類。 通過在同一數據集上的對比實驗,以及模型性能分析,發現本模型更適合微博傾向性分析。

猜你喜歡
情感實驗模型
一半模型
記一次有趣的實驗
如何在情感中自我成長,保持獨立
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
做個怪怪長實驗
如何在情感中自我成長,保持獨立
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产福利拍拍拍| 91视频日本| 91成人免费观看| 2021国产v亚洲v天堂无码| 青青草一区| 91小视频在线| 91成人精品视频| 亚洲天堂网站在线| 国产凹凸一区在线观看视频| 亚洲性视频网站| 久996视频精品免费观看| 日韩不卡免费视频| 99精品热视频这里只有精品7 | 久久这里只精品国产99热8| 亚洲狼网站狼狼鲁亚洲下载| 22sihu国产精品视频影视资讯| 国产美女一级毛片| 久夜色精品国产噜噜| 99热这里只有精品在线观看| 国产情侣一区二区三区| 91小视频在线观看| 久热re国产手机在线观看| 免费无遮挡AV| 欧美成一级| 全裸无码专区| 亚洲乱码精品久久久久..| 天堂va亚洲va欧美va国产| 国产高清又黄又嫩的免费视频网站| 日韩国产亚洲一区二区在线观看| 国内精品久久九九国产精品| 久久国产高清视频| 免费人成在线观看视频色| 欧美国产日本高清不卡| 全部免费特黄特色大片视频| julia中文字幕久久亚洲| 国产一二三区视频| 国产激情无码一区二区三区免费| 狠狠色婷婷丁香综合久久韩国| 久久精品视频亚洲| 亚洲AⅤ综合在线欧美一区| 国产精品自在在线午夜| 国产精品理论片| 国精品91人妻无码一区二区三区| 亚洲天堂首页| 五月婷婷丁香色| 美女内射视频WWW网站午夜| 秘书高跟黑色丝袜国产91在线| 欧美日韩福利| 免费大黄网站在线观看| 午夜免费小视频| 一级毛片基地| 亚洲精品成人福利在线电影| 高清色本在线www| 日韩国产精品无码一区二区三区| 国产女人综合久久精品视| 福利国产微拍广场一区视频在线| 精品无码人妻一区二区| 亚洲永久色| 一级毛片在线播放免费观看| 亚洲三级a| 黄片在线永久| 最新国产成人剧情在线播放| 九九久久99精品| 日韩不卡免费视频| 手机永久AV在线播放| 国产主播福利在线观看| 欧美亚洲日韩不卡在线在线观看| 欧美日韩激情在线| 日韩少妇激情一区二区| 香蕉视频国产精品人| 国产白浆在线| 在线观看热码亚洲av每日更新| 成年看免费观看视频拍拍| 久久综合丝袜长腿丝袜| 亚洲视频欧美不卡| 高清不卡一区二区三区香蕉| 在线免费看黄的网站| 国产免费一级精品视频| 亚洲丝袜第一页| 亚洲国产成熟视频在线多多| 999国内精品视频免费| 青青草91视频|