999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于情感評分的分層文本表示情感分類方法

2020-03-19 12:24:48胡均毅李金龍
計算機工程 2020年3期
關鍵詞:單詞分類文本

胡均毅,李金龍

(中國科學技術大學 計算機科學與技術學院,合肥 230027)

0 概述

文本分類作為自然語言處理(Natural Language Processing,NLP)中的一項基礎性工作,被廣泛應用于文本檢索[1]、文本排序[2]和情感分類[3]等任務中。文本的情感分類要求按照文本整體情感傾向對文檔進行分類。其中,識別文檔中的積極、消極、中立情感及其表達強度,是取得良好分類效果的關鍵。

文本由單詞等符號信息構成,因此,在進行情感分類前首先需要對這些符號信息進行向量化表示。為了生成更富有情感信息的文本表示并獲得較高的分類準確率,本文提出一種基于情感評分的分層注意力網絡框架,該框架對文本中的單詞、句子進行分層編碼,并利用注意力機制加權求和獲得文檔的最終表示。評估每個單詞表現的情感信息,促使注意力機制更加關注文本中的情感內容。在此基礎上,提出一種輔助的情感評分網絡(SAN)來評估每個單詞的情感得分,設計分階段的聯合損失函數來訓練框架中的分類器和輔助網絡SAN。SAN利用文檔標簽信息結合當前的單詞表示和注意力權重來評估每個單詞的情感信息,并將其作為監督信號以進一步調整注意力權重分布。

1 相關工作

自然語言處理任務中一種常見的文本表示方式是由文本中的單詞或短語來組成句子/文檔[4-5]。由于單詞是語義的基本單位,經過學習后的詞表示(如預先訓練的詞向量)可以作為捕捉單詞語義信息的特征。較多學者關注上下文共現信息,提出了捕捉句法和語義信息的單詞嵌入方法,如word2vec[6]、GloVe[7]。這些詞嵌入方法通常將上下文相似但情感相反的單詞,如good和bad,映射到向量空間中的相鄰位置上,這對于詞性標注等任務而言已經包含足夠的語義信息,但對于情感分類來說,可能影響對其情感傾向的判斷。為了更好地嵌入情感信息,文獻[5,8]提出學習情感專用詞嵌入(SSWE)方法。SSWE對C&W[9]模型進行了擴展,利用文檔的類別標簽設計了一個新的損失函數來同時對文本的語義和情感信息進行編碼。然而,由于SSWE是將文檔全局情感直接分配給每個詞,因此當文檔內詞的情感傾向與文檔整體情感傾向相反時,學習和表示其情感信息會比較困難。SSPE[10]在短語表示方面也做了類似的工作,通過將SkipGram[6]進行擴展,把句子情感信息納入其中。然而,上述工作都致力于改進詞或短語本身的泛化表示,忽略了其所在的特定上下文。因此,在特定的上下文語境中學習更富有語義的單詞表示,并結合上下文來評估每個單詞所含的情感信息仍然是一個挑戰。

情感分類任務中的另一個挑戰是將單詞表示更好地編碼為文檔表示。根據compositionality[11]的原則,一個較長的表達(一個句子或文本)的語義來源于它所含單詞的語義信息。因此,分類任務中通常使用基于神經網絡的模型將單詞表示結合成文檔表示,然后再進行分類。FastText[12]使用單隱層集成所有的單詞表示,并取得了較好的效果。但是,FastText只關注單詞向量的平均值,而忽略了單詞順序的信息。循環神經網絡(Recurrent Neural Network,RNN)[13-14]在文本序列建模方面更有優勢,可以更好地捕捉上下文信息,適合對依賴長距離的信息進行建模。卷積神經網絡(Convolutional Neural Network,CNN)[15-16]通過類似n-gram的方式逐層提取局部信息構成文本表示,但卷積窗口的大小較難確定[17]。文獻[18]提出了一種應用于全局最大池化層的GMP-CNN,以快速提取不同窗口的語義特征。

與RNN和CNN相比,注意力機制[19-20]能夠根據不同詞的重要程度決定其在構建文本表示時的貢獻度。在此基礎上,文獻[21]提出了分層注意力網絡(HAN)模擬文本的構成方式,對單詞和句子進行分層編碼,并根據注意力權重將其融合成文本表示。文獻[22]將用戶和產品信息與單詞/句子的注意力機制相結合,進一步改進了層次注意力機制。文獻[23]提出了一種基于層次結構的文檔表示通用框架。為了引入針對不同層次中注意力機制的監督信息以減少模型過擬合現象,文獻[24]提出了一種基于情感詞典監督的注意力模型(LBSA),其將情感詞典和注意力機制通過軟約束方法[25]相結合。實驗結果表明,當情感詞典引導神經網絡模型中的注意力機制關注富有情感信息的詞匯時,情感分類性能會得到改善。然而,基于情感詞典的方法難以找到具有領域和上下文特定關系的意見詞[26]。為此,本文提出了基于情感評分的分層注意力網絡框架HSAN,其在上下文語境中評價詞的情感信息,以生成更富有情感信息的文本表示。

2 基于情感評分的分層注意力網絡框架

基于情感評分的分層注意力網絡框架HSAN如圖1所示,其主要由分層注意力機制分類器H-BiGRU和情感評分網絡SAN組成。H-BiGRU分類器是指基于分層注意力機制的雙向GRU編碼分類器,它包含詞表示層、句表示層和注意力機制模塊。SAN包含詞表示層、注意力機制模塊以及情感分析模塊,其中,分類器與SAN共享詞表示層和注意力機制模塊。分類器首先計算單詞表示和注意力權重分布,然后在句表示層最后生成文檔表示并進行分類。SAN中的情感評分機制評估每個單詞的情感信息得分以及強度,并將其作為注意力權重的監督信息。本文假設一個文檔有L個句子si,i∈[1,L],每個句子都包含Ti個單詞xit,t∈[1,Ti]。

圖1 HSAN框架結構

2.1 基于分層的文本表示及分類方法

2.1.1 基于雙向GRU的單詞表示層

在本文模型中,使用雙向GRU來編碼單詞及其上下文以生成單詞的表示。GRU[19]使用門控機制跟蹤序列狀態update gatezt和reset gatert。其中,zt決定保留多少過去的信息以及添加多少新的信息,rt控制過去狀態對候選狀態的貢獻大小。如果rt等于0,其就會忘記之前的狀態。zt和rt更新如式(1)所示:

zt=σ(Wzxt+Uzht-1+bz)

rt=σ(Wrxt+Urht-1+br)

(1)

zt和rt一起控制t時刻的狀態信息如何更新,xt是序列在t時刻的輸入向量,ht-1是GRU在前一時刻的狀態。GRU按照式(2)計算新狀態ht:

(2)

(3)

為了權衡每個單詞的貢獻,詞表示hit將通過tanh激活的單層全連接網絡得到其隱狀態表示uit,并與單詞上下文向量uw相乘,以計算它們與uw的相似度。單詞上下文向量uw可以看作是單詞級別的固定查詢(Question)——“什么是富含信息量的詞”的高級表示[27]。uw隨機初始化,并在訓練過程中隨其他參數共同訓練。通過softmax函數對相似度進行歸一化后,計算出單詞的注意力權重αit以衡量單詞對句子的重要性。以上過程可以總結為式(4):

uit=tanh(Wwhit+bw)

(4)

根據注意力權重αit,通過單詞表示的加權和形式計算句子向量si,如式(5)所示:

(5)

2.1.2 基于雙向GRU的句子表示層

給定句子向量si,可以用2.1.1節類似的方法得到文檔向量表示。如式(6)所示,首先仍使用雙向GRU對句子進行上下文編碼,得到句子表示hi:

(6)

為了提高關鍵句對文檔編碼的貢獻度,再次使用注意力機制,引入一個語句上下文向量us來衡量句子的重要性。同樣,根據句子注意力權重αi對句子表示hi進行加權求和,得到文檔的向量表示。以上過程可以總結為式(7):

ui=tanh(Wshi+bs)

(7)

(8)

設數據集共有J個類別,使用正確分類標簽的負對數似然作為訓練損失,如式(9)所示,其中,j∈[1,J]是文檔d的類標。

(9)

2.2 情感評分及注意力權重調整

2.2.1 單詞/句子的情感評價

情感分析模塊是SAN的一個核心組件,用于評價每個詞、句所含的情感信息,并生成相關監督信息以引導注意力機制更多地關注情感詞匯。如前文所述,每個單詞級別的最終表示hit都捕獲了上下文語義,因此,可以用式(10)來計算情感得分向量pit:

qit=tanh(Wqhit+bq)

(10)

其中,Wq、Wpolar是2個可訓練參數,bq和bpolar是它們的偏差。

(11)

如式(12)所示,情感得分p也可以用來預測文檔的類別,因此,本文同樣使用負對數似然來訓練情感評分模型,即將文檔標簽所含的情感信息根據當前的注意力權重分配給每個單詞,用于獲得當前詞表示hit的情感得分。

(12)

為了評價每個單詞和句子所體現的情感強度,本文定義了式(13):

(13)

2.2.2 注意力權重調整

為了使注意力機制更多地關注情感強烈的詞,本文引入了軟約束方法[25],以情感強度占比引導注意力權重分布,使它們的分布盡可能相似。如式(14)所示,Δ(Ppolar,α)表示2個向量之間的交叉熵。

Δ(Ppolar,α)=-∑Ppolar·ln(α)

(14)

其中,λ1、λ2為交叉熵損失的系數,可以用來平衡模型在分類與注意力約束之間的側重。考慮到HSAN的有效泛化性,本文加入了L1正則使得pit盡可能稀疏,減輕輔助模型SAN的過擬合現象。HSAN分階段進行訓練,E1、E2是控制訓練階段的2個超參數。最終損失函數如式(15)所示,其中,λ3用于調整分類器和評分模型占最終損失的比例。

(15)

3 實驗結果與分析

3.1 實驗數據集

本文在Yelp 2013、Yelp 2014、Yelp 2015和IMDB 4個大型情感分類數據集上進行實驗評估。數據集的統計信息如表1所示,本文將80%的數據用于訓練,10%用于驗證,其余10%用于測試。Yelp點評來自2013年—2015年的Yelp數據集挑戰賽,評分范圍為1~5。IMDB點評來自互聯網電影數據庫,評分范圍為1~10。所有數據集均可在http://ir.hit.edu.cn/~dytang/上獲取[3]。

表1 實驗數據集信息Table 1 Information of experiment datasets

3.2 實驗參數設置

對于實驗數據集,本文只保留在該數據集中出現5次以上的單詞并添加到詞匯表中,通過word2vec[6]獲得它們預先訓練的詞向量。對于詞匯表之外的單詞(Out-Of-Vocabulary,OOV),本文使用(-0.1,0.1)之間的均勻分布來進行隨機初始化。在實驗過程中,模型的超參數在驗證集上進行調優,詞向量維數和GRU維度分別為200和50,batch_size設置為64,并盡可能地保證同一batch中的文本長度相似。另外,使用SGD優化器與Cyclical Learning Rate(CLR)[28]、Cyclical Learning Momentum(CLM)[29]取代逐步衰減初始學習速率的方法,CLR中的超參數base_lr和max_lr根據SMITH論文中所述的LR_Range_Test進行調整[28]。實驗中的所有訓練和測試都在GTX-1080Ti上完成。

3.3 結果分析

3.3.1 性能對比

本文將HSAN與以下2組基準方法進行情感分類準確率比較:

1)基于支持向量機的方法,包括SVM+AverageSG[3]、SVM+SSWE[3]。

2)基于神經網絡的方法,包括CNN-word[3]、CNN-char[16]、LSTM[16]、Conv-GRNN[3]、LSTM-GRNN[3]和LBSA[24]。

所有數據集的實驗結果如表2所示。其中,H-LSTM代表基于分層注意力的LSTM網絡,H-BiLSTM和H-BiGRU分別代表基于分層注意力的雙向LSTM和GRU網絡。從表2可以看出,HSAN在所有數據集上都有較好的表現,在4個數據集上都達到了最優的準確率,其中,有3個數據集均超過了最優對比模型,另一個數據集與最優對比模型持平。對于較小的數據集,如Yelp 2013和IMDB,本文模型的分類準確率分別達到了68.7%和49.4%,在Yelp 2013上超過最優的LSTM-GRNN模型3.6個百分點,并在IMDB上達到了與最優H-BiLSTM + LBSA相同的準確率。對于較大的數據集,本文模型在Yelp 2014和Yelp 2015上的準確率分別達到了70.5%和71.1%,分別超過最優LSTM-GRNN模型3.4個和3.5個百分點。另外,從對基準分層網絡的分類準確率提升效果上來看,LBSA在原本H-BiLSTM的基礎上通過情感詞典對注意力機制添加了監督信息,減輕了模型的過擬合現象,使得模型的準確率在Yelp 2013、Yelp 2014和IMDB上分別提高了0.3%、0.3%和0.2%[24]。文獻[30]通過遷移學習技術,利用基于類噪聲估計的樣例遷移算法對不同數據集進行篩選和合并,例如,在Yelp 2013上遷移了部分IMDB數據集的數據,使得準確率提高了0.3%[30]。本文在H-BiGRU的基礎上添加了輔助情感評分網絡SAN,通過讓模型自動評價所有詞、句的情感信息,并得到它們的情感強度占比來監督注意力機制。在Yelp 2013、Yelp 2014、Yelp 2015和IMDB上,HSAN均優于H-BiGRU模型,而且HSAN不依賴于外部的情感詞典,也無需擴增、合并數據集。

表2 各模型的分類準確率對比Table 2 Comparison of classification accuracy of each model %

3.3.2 輔助網絡參數分析

控制輔助情感評分網絡SAN占最終損失函數比例的參數λ3和pit中的L1正則化系數對模型性能的影響如圖2所示。從圖2可以看出,在Yelp 2013數據集上,隨著參數λ3的增大,模型在性能表現最優時SAN的L1正則化系數也需要隨之增大,這說明隨著SAN的變化,要得到更好的訓練,需要更大的正則化系數來防止SAN快速過擬合。同時也可以看到,模型的最優準確率隨著λ3∈[0.45,0.60]先增大后減小,這說明輔助模型損失占比不能過大,否則會影響分類器的訓練效果。當模型準確率達到最優(68.7%)時,λ3的取值為0.50。L1正則化系數的取值為0.000 05。

圖2 情感評分網絡SAN參數分析結果

Fig.2 Parameter analysis results of sentiment evaluation network SAN

3.3.3 情感評價網絡評分分析

表3 情感評分統計結果Table 3 Statistics results of sentiment evaluation

由表3可以看出,excellent和awful這類情感傾向明顯的詞平均情感占比最高,good和bad次之,pet最低。而在具體的情感傾向方面,因為Yelp數據集中1分代表最消極,5分代表最積極,而excellent和awful分別在第5維和第1維情感得分最高,證明excellent所表達的情感最為積極,而awful最為消極。類似地,可以發現在Yelp中good的平均情感傾向整體偏向積極,而bad偏向消極,而pet在每個維度的情感得分都較低,且相對平均,證明pet這個詞并沒有明顯的情感傾向。

3.3.4 注意力可視化分析

本文從Yelp 2013中隨機抽取4個樣例,并對其注意力權重進行可視化,結果如圖3所示,其中,GT表示該文檔的正確類標,H-BiGRU和HSAN分別表示 2個模型的分類結果。本文用句子的注意力權重來規范單詞的權重,以確保只強調重要句子中的重要單詞。

圖3 注意力可視化結果

為了便于可視化,在圖3中,為每個單詞顯示正比于αit的背景灰度,為每個句子顯示正比于αi的背景灰度。其中,αit和αi分別是注意力機制中的單詞注意力權重和句子注意力權重。從圖3可以看出,利用注意力機制,H-BiGRU選取了good、great、delicious等情感色彩較強的詞對文檔表示做出較大的貢獻。然而,在H-BiGRU出現分類錯誤的第2個~第4個文檔,一些不太具有情感信息的單詞(如第2個文檔中的pets、第3個文檔中的knowledge以及第4個文檔中的three)也被賦予了較大權重,但是這些內容對于情感分類結果并沒有很大的幫助。而與情感分類密切相關的單詞(如第3個文檔中最后一句fresh、第4個文檔中的solid和fun)卻被忽視。本文HSAN情感評分模型對每個單詞和句子進行評價,識別出了knowledge、pets、three這類單詞與類別相關度較低,因此,HSAN在最終注意力分布上忽略了這些單詞,識別出了fresh、solid、fun這類單詞,并對not、high、great、good、friendly這類單詞給予了更多的關注。

4 結束語

本文提出一種基于情感評分的分層注意力網絡框架HSAN,以進行文本情感分類。H-BiGRU按照文本結構先后對文本進行詞編碼與句編碼,情感評分網絡SAN利用文檔標簽以及每個詞對文檔表示的貢獻度對每個單詞的情感強度進行評分,并將其作為監督信息返回給分類網絡以調整注意力權重分布。實驗結果表明,HSAN的分類準確率較高,能夠有效地檢測出帶有強烈情感色彩的詞和句子,并生成文檔的語義表示以用于情感分類。下一步將探究一種更普適的方法來評估每個詞的情感強度,使得SAN盡可能少地遺漏或誤判一些情感詞匯,進一步提升情感分類的準確率。

猜你喜歡
單詞分類文本
分類算一算
單詞連一連
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
看圖填單詞
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲综合片| 无码日韩视频| 日韩精品毛片人妻AV不卡| 91久久夜色精品国产网站| 亚洲日韩精品综合在线一区二区| 国产主播福利在线观看| 老汉色老汉首页a亚洲| 亚洲区视频在线观看| 国内99精品激情视频精品| 青草精品视频| 国产美女在线观看| 欧美成在线视频| 综合五月天网| 免费啪啪网址| 国产免费观看av大片的网站| 日本国产精品| 中文国产成人精品久久| a级毛片网| 日韩第一页在线| 亚洲天堂在线视频| 一本大道AV人久久综合| 国产成人精品一区二区免费看京| 久久99蜜桃精品久久久久小说| 亚洲色欲色欲www在线观看| 国产91九色在线播放| 国产女人18水真多毛片18精品 | 欧洲成人免费视频| 国产精品三级av及在线观看| 国产黄色免费看| 亚洲精品无码久久毛片波多野吉| 狠狠色香婷婷久久亚洲精品| 精品视频一区二区观看| 中文字幕欧美日韩高清| 狠狠综合久久| 国产精品自在在线午夜| 国产簧片免费在线播放| 成人午夜视频免费看欧美| 亚洲午夜国产片在线观看| 五月婷婷丁香综合| 无码精品福利一区二区三区| 亚洲swag精品自拍一区| 71pao成人国产永久免费视频| 国产精品第页| 精品偷拍一区二区| 日韩a级毛片| 国产美女精品在线| 久久一本日韩精品中文字幕屁孩| 亚洲综合婷婷激情| 久久网欧美| AV熟女乱| 国产欧美日韩专区发布| 国产精品2| 亚洲中文久久精品无玛| 一级毛片免费高清视频| 成人免费一区二区三区| 亚洲国产清纯| 精品国产黑色丝袜高跟鞋| 亚洲一区精品视频在线| 国产毛片网站| 99久久精彩视频| 亚洲欧美激情另类| 日韩无码黄色网站| 日本精品视频一区二区| 一区二区三区四区精品视频| 亚洲一级毛片| 国产手机在线小视频免费观看| 2021天堂在线亚洲精品专区| 毛片基地美国正在播放亚洲 | 黄色一及毛片| 免费a在线观看播放| 国产欧美日韩综合在线第一| 91 九色视频丝袜| 国产全黄a一级毛片| 成人小视频网| 综1合AV在线播放| 国产大片喷水在线在线视频| 91精品情国产情侣高潮对白蜜| 亚洲天堂久久| 久久精品aⅴ无码中文字幕| 91小视频在线观看| 欧美第九页| 女人天堂av免费|