999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于PMI 的遞歸自編碼器的情感分析方法

2021-06-25 14:18:02梁永全
軟件導刊 2021年6期
關鍵詞:情感模型

孫 琦,梁永全

(山東科技大學計算機科學與工程學院,山東青島 266590)

0 引言

由于社交網絡具有開放性,公眾往往借助社交媒體表達個人觀點、態度和情感,針對社交評論的研究成為自然語言處理熱點。情感分析的目的確定產品、服務、事件主題及其屬性的主觀性極性和極性強度,可通過粒度級別(文檔級別、句子級別、短語級別)分析實現情感分析。本文聚焦于句子級別的情感分析研究。現有相關研究方法主要分為兩種:

(1)基于情感詞典的分析[1]。該方法通過構建情感詞典或利用已有的詞典,抽取文本中的情感特征詞,進而計算社交評論情感傾向;Turney[2]使用基于PMI 的無監督學習方法,通過計算詞匯與種子詞之間的互信息判斷詞匯情感極性,并提取詞匯平均極性辨別整個文檔情感極性;另外,Kamps 等[3]沿用點互信息的方法,通過計算WordNet 中形容詞與種子詞之間的關聯度識別評價詞語,該類方法不考慮句子語義結構,句義理解相對粗糙。

(2)基于機器學習的情感分析一般采用傳統文本分類技術,將情感詞匯作為分類特征關鍵詞,并聯合其他特征訓練分類器完成文本情感分類,傳統機器學習方法有支持向量機(Support Vector Machine,SVM)、樸素貝葉斯(Naive Bayes,NB)、條件隨機場(conditional random field,CRF)等。Pang 等[4]分別使用SVM、最大熵及樸素貝葉斯方法對電影評論進行分類,并研究了不同特征選擇方式對分類的影響,盡管在情感分析方面取得了一定效果,但該方法缺乏捕捉句子結構的能力。隨著深度學習的發展,越來越多的深度學習方法被應用于自然語言處理任務。在情感分析方面,Tang 等[5]使用循環神經網絡(Recurrent Neural Network,RNN),引入自底向上的基于向量的表示法判斷情感極性,RNN 以序列數據作為輸入,適用于多種自然語言處理任務,但忽略了單詞特征表示和句法結構;Socher 等[6-7]于2011 年將遞歸神經網絡成功應用于句法分析,提出基于遞歸自編碼器(Recursive AutoEncoder,RAE)的樹形回歸模型,利用樹形模型層次結構合成語義理解情感,在句子級別的情感分析中取得了很好的效果,但該模型也存在一些問題,如在傳統RAE 模型中,模型缺少用于計算損失函數的內部情感標簽,這直接影響分類準確性,若采用人工標注的方法對每個結點進行標記,人工工作量過于龐大且人為主觀的定向誤差難以避免。

為解決上述問題,本文提出一種遞歸自編碼器模型,利用點互信息的方法標記內部結點,與半監督遞歸自編碼器相比,本文模型無需手動注釋非終端結點的情感標簽,而是結合點互信息并按照給定規則計算每個結點情感極性,將其作為交叉熵函數的目標標簽,該標簽用于定義損失函數訓練Softmax 分類器,可減少手動標注工作量。

1 相關工作

1.1 遞歸自編碼器

利用遞歸神經網絡處理自然語言問題的一個原因是該模型可應用于任意長度的輸入序列,并且短語與句子的語法結構也能夠被解析為二叉樹結構[8],根據這種結構,將樹的每片葉子指定為固定長度的向量,并將相同長度的中間向量遞歸組合為單詞合并的短語,最終合并為一個向量用于表示整個句子,如圖1 所示。

Fig.1 Recursive autoencoder圖1 遞歸自編碼器

編碼器的目標是學習句子或短語輸入表示,Socher等[7]利用遞歸自編碼器(Recursive AutoEncoder,RAE)進行語句特征提取,從而預測句子情感傾向,并在常用數據集上達到了預期效果;Irsoy 等[9]通過將反向傳播擴展到遞歸神經網絡中,其與樹有關的信息從根流回到葉結點中,使結點捕獲周圍結構全局信息;Wang 等[10]利用遞歸神經網絡與條件隨機場對句子進行情感判斷;Rifai 等[11]利用卷積自編碼器對特征進行提取;梁軍等[12-13]將情感極性轉移模型融入到遞歸自編碼器中,取得了不錯的效果,之后將LSTM 與該模型融合,進一步優化模型表征能力;Fu 等[14]提出短語級遞歸神經網絡,減小了解析樹復雜度,并利用HowNet 詞典訓練雙向遞歸神經網絡,在準確性和效率方面均有提升。這些方法通過遞歸神經網絡對文本進行建模,可以有效捕獲文本語義信息,從而提高機器學習方法處理情感分類任務的性能。

1.2 情感分析

情感分析是在自然語言處理中對指定文本或語料庫中的觀點和情感進行分類的一項重要任務[15]。隨著在線評論網站和個人博客等網絡資源的普及,為使用信息技術理解他人觀點,眾多研究者嘗試對不同粒度的文本進行情感分析,并取得了良好效果[16-19]。本文致力于句子級情感分析,通過改進RAE 以獲得更佳性能,采用遞歸自編碼器的組合方式學習句子向量表示并對其情感傾向進行分析。

2 基于PMI 的遞歸自編碼器訓練

為構建情感分析深度學習模型,本文將PMI 引入到情感極性值計算中,分別計算句中單詞情感傾向值,并整理出程度副詞和否定詞表調整短語情感強度及傾向性。

2.1 無監督遞歸自編碼器模型

標準RAE 的目標是學習回歸模型的輸入表示,使用RAE 獲得句子低維向量的遞歸自編碼結構,如圖2 所示。

Fig.2 Recursive autoencoder structure and reconstruction node(unfilled)圖2 遞歸自編碼結構與重構結點(未填充)

假設給定一個包含m 個單詞的句子,每個單詞均用N 維向量表示,首先將單詞投影到一個向量列表x=(x1,x2,…,xm),合并相鄰兩個單詞c1=x1和c2=x2,并根據子節點(c1,c2)計算其父節點向量p,如式(1)所示。

其中,[c1,c2]∈R2N由向量c1,c2連接得到,W∈R2N是一個連接兩個子向量的參數矩陣,添加偏置項后,對所得向量應用激活函數,例如tanh。編碼后通過在重構層重構子節點驗證父節點p對子節點(c1,c2)的表示,如式(2)所示。

利用式(3)計算輸入與其父向量p之間的重構誤差。

利用RAE 模型的目標是最小化二叉樹中每個結點的重構誤差總和。

其中,x為句子的向量列表,而A(x)表示根據輸入x構建的所有可能的二叉樹集合,此外,T(y)是一個函數,該函數返回由樹中所有非終端結點s索引的樹的三元組。

對于半監督遞歸自編碼器,無需為輸入向量提供樹形結構,可利用貪心策略遞歸構建短語樹,在計算第一對(c1,c2)=(x1,x2)重構誤差分數后,調整輸入向量對(c1,c2)=(x2,x3),計算其隱藏父節點和誤差分數,保存每個節點對父節點和誤差分數,再選擇誤差分數最低的對以及其父節點表示p代表的短語,替代子節點在句子中的表示。例如:假設句子(x1,x2,x3,x4)且(x3,x4)的誤差分數最低,第一次組合后產生新序列(x1,x2,p(3,4)),該組合過程會重復,并把p(3,4)作為新向量輸入,接下來依次計算新序列中各節點誤差分數,按照誤差分數大小產生新序列(p(1,2),p(3,4))或(x1,p(2,3,4)),最終合并為一個節點作為句子表示。

2.2 結合PMI 的遞歸自編碼器訓練

對于遞歸自編碼器,樹中每一個內部結點均有一個Softmax 分類器預測該結點類分布,通常通過最小化交叉熵函數訓練Softmax 分類器,該損失函數可衡量預測輸出與目標之間的差異相似性,本部分介紹如何獲取樹中每個結點的目標分布。每個結點目標分布獲取的準確性對最終模型訓練的準確性影響很大,采用人工標注的方式對每個結點進行標注,不僅需付出高額代價,而且會產生人為的定向誤差。為了解決該問題,本文提出一種基于點互信息的方法計算該結點情感極性。

2.2.1 單個單詞情感極性計算

互信息是一種計算兩個隨機變量間相似信息的度量,本文選取具有較強情感的種子詞建立褒義詞和貶義詞表,分別計算句中單詞與褒義詞表和貶義詞表中詞語PMI 值,并將其相減,得到該目標詞情感傾向值,如式(5)所示。

其中,P(xi xj)表示兩個詞語在文本中出現的概率,P(xi)和P(xj)分別為xi和xj在文本中單獨出現的概率。

px和nx分別表示褒義詞表Pxs和貶義詞表Nxs中的單詞,當SO-PMI(xi)大于0 時,xi為褒義詞;當其等于0 時,xi為中性詞;當其小于0 時,xi為貶義詞。

2.2.2 計算短語的情感傾向

獲得情感極性后,使用以下規則基于單詞情感值為樹中的每個節點計算情感標簽。

(1)程度副詞。程度副詞能夠極大增強情感詞情感程度,根據程度副詞表,若短語中包含程度副詞,該短語情感強度將被修改(見表1)。例如:在”I am very happy today”中副詞”very”修飾”happy”,原本情感傾向經過修飾后得到明顯加強。其中情感值計算公式為:

其中,d表示修飾該情感詞匯的程度詞情感權重,p為單詞”very”與”happy”組合后的短語。另外,本文將短語情感強度限制在-1~1,即如果label(p) >1,label(p)=1。

(2)否定詞。否定詞在文本分析中有反轉情感傾向的作用,所以在文本情感分析中否定詞也應作為重要的分析對象。本文構建否定詞詞表,并規定若短語中包含否定詞,則反轉短語情感傾向,例如:連接單詞”not”與”happy”的短語,則label(pnot happy)=-label(xhappy)。

Table 1 Examples of adverbs of degree表1 程度副詞示例

除上述情況外,還根據單詞情感值通過線性運算計算短語情感傾向,其中xleft和xright分別是短語左孩子節點和右孩子節點。

根據上述規則,為每個內部節點定義一個初始標簽,對目標分布t∈RK,假設每個目標分布均遵循0-1 編碼,即如果有K個類別,則其長度為K且正確的標簽為1,其他為0,節點預測分布為:

為了驗證準確性,將交叉熵函數用作代價函數,并假定tk為標簽真實概率。

每個內部節點總誤差由交叉熵誤差與重構誤差組成。

其中,α是可調參數,用于調整交叉熵誤差和重構誤差之間的平衡,根據交叉熵誤差與重構誤差函數,可以得到最終代價函數。

其中θ為參數集合,θ=Wl′}。

3 實驗

實驗采用IMDB 電影評論數據,該數據被分為用于訓練的25 000 條評論和用于測試的25 000 條評論,訓練集和測試集均包含50%的正面評價和50%的負面評價。本文共設計2 個實驗驗證遞歸自編碼器模型。

實驗一:可調參數選擇,以確定可調參數對算法本身的影響,并最終選擇一組最優參數;實驗二:比較本文模型與傳統RAE 及其他模型優劣。

3.1 可調參數選擇

實驗主要從4 類參數進行調整:詞向量維度、重構誤差權重α、正則系數λ以及算法迭代次數。針對重構誤差權重α,實驗選擇從0.1 增長至0.5,間隔為0.1,對于正則系數λ的取值依次從{1e-07,1e-06,1e-05,1e-04,1e-03,1e-02}中進行測試。詞向量維度選擇從{50,100,150,200,300}中對模型進行驗證,算法迭代次數則從{50,70,100,120,150}進行測試,具體效果如圖3、圖4 所示。

Fig.3 The influence of α on the IMDB dataset圖3 重構誤差權重選擇

Fig.4 The influence of iteration number on the IMDB dataset圖4 迭代次數選擇

通過實驗發現重構權重參數α=0.2 時效果最佳,隨著實驗次數的增加,模型數據擬合度也隨之增加,但當迭代次數超過120 之后,過擬合問題隨之出現,導致泛化能力下降,因此最終參數選擇為迭代次數120,重構權重α=0.2,詞向量維度為100,正則化系數λL=1e-04,λW=1e-05,λcat=1e-07。

3.2 對比實驗

為了分析模型情感分類效果,將本文模型與其他模型進行比較,包括SVM、LSTM、MLP、NB 以及傳統RAE,在傳統RAE 中,采用與文獻[7]中相同的參數配置。從表2 可以看出,本文算法在電影評論數據集上的性能優于其他方法,這也驗證了節點包含的情感信息對算法分類的影響,同時定義程度副詞以及否定詞等語義規則能夠有效改善句子上下文情感信息。

Table 2 Model comparison results表2 模型對比結果

4 結語

本文提出一種新的半監督方法進行情感分類。該方法利用點互信息訓練RAE 模型,對IMDB 電影評論數據集進行分析,實驗表明本文模型在情感分類任務上優于其他算法。

盡管該方法在句子級的情感分析中取得了較好效果,但仍需進一步改進,例如利用點互信息的方法訓練深度神經網絡,最終結果很大程度上取決于種子詞表質量,因此該方法具有一定的局限性。另外程度副詞與否定詞對句子影響采用的規則需進一步完善。下一步將從這兩個方面對模型進行改進,并將模型應用于其它粒度級別的情感分析,以驗證模型適用性。

猜你喜歡
情感模型
一半模型
如何在情感中自我成長,保持獨立
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
被情感操縱的人有多可悲
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
如何在情感中自我成長,保持獨立
3D打印中的模型分割與打包
情感移植
發明與創新(2016年6期)2016-08-21 13:49:38
主站蜘蛛池模板: 黄色网站不卡无码| 2022精品国偷自产免费观看| 真实国产乱子伦视频| 呦女亚洲一区精品| 国产精品亚洲αv天堂无码| 亚洲精品无码抽插日韩| 成年人国产网站| 婷婷色狠狠干| 成人福利免费在线观看| 免费在线播放毛片| 亚洲视频色图| 嫩草在线视频| 在线国产欧美| 欧美日韩中文字幕在线| 在线色综合| 久久窝窝国产精品午夜看片| 国产自在线拍| 91小视频在线播放| 国产色网站| 另类重口100页在线播放| 亚洲欧洲日韩综合色天使| 国产高颜值露脸在线观看| 成人永久免费A∨一级在线播放| 成人在线视频一区| 精品撒尿视频一区二区三区| 国产麻豆精品久久一二三| 在线不卡免费视频| 永久免费无码日韩视频| 亚洲天堂免费| 午夜综合网| 欧美色丁香| 中国精品久久| 91青草视频| 日韩精品亚洲一区中文字幕| 亚洲免费三区| 久久综合九九亚洲一区| 亚洲人精品亚洲人成在线| 狠狠操夜夜爽| 久久久久亚洲AV成人人电影软件| 亚洲人成网7777777国产| 在线毛片免费| 青青草原偷拍视频| 一级毛片在线免费看| 国产精品毛片一区| 亚洲三级视频在线观看| 国产69精品久久久久妇女| 人与鲁专区| 特级毛片免费视频| 26uuu国产精品视频| 天天综合网色中文字幕| 国产精品久久久久鬼色| 欧美一级视频免费| 高清欧美性猛交XXXX黑人猛交| 国产凹凸视频在线观看| 国产亚洲精品91| 国产欧美日韩专区发布| 亚洲三级色| 91久草视频| 日韩精品成人在线| 激情综合网址| 激情综合网激情综合| 久久综合一个色综合网| 在线无码av一区二区三区| 一级毛片在线播放| 97人人做人人爽香蕉精品| 99在线视频网站| 精品视频第一页| 在线观看视频一区二区| 国产精品久久久久婷婷五月| 黄色免费在线网址| 视频二区中文无码| 免费看a级毛片| 2020极品精品国产| www.av男人.com| 香蕉网久久| 波多野结衣第一页| 欧美成人a∨视频免费观看| 国产福利小视频在线播放观看| 欧美午夜理伦三级在线观看| 亚洲福利网址| 狠狠亚洲婷婷综合色香| 午夜国产小视频|