曾碧卿 曾 鋒 韓旭麗 商 齊
1(華南師范大學軟件學院 廣東佛山 528225)
2(華南師范大學計算機學院 廣州 510631)(zengbiqing0528@163.com)
對象級情感分析是一種細粒度的情感分析,主要關注點是確定人們對評論文本中特定對象(方面、屬性)的情感態度和情感極性[1],近年來引起較多研究人員的廣泛關注.對象級情感分析的關鍵任務是:意見詞抽取、評價對象抽取和對象級情感分類.評價對象抽取在一些文獻上稱為目標抽取或者方面詞抽取.例如在評論文本“這臺手機的屏幕質量很好,但是電池壽命比較短.”中,“屏幕質量”和“電池壽命”是對象,“很好”和“比較短”是意見詞.意見詞抽取的目的是識別“很好”和“比較短”2個意見詞;評價對象抽取的目的是識別評論文本中的“屏幕質量”和“電池壽命”2個對象;對象級情感分類的目的是判斷“屏幕質量”和“電池壽命”的情感極性.本文主要關注點是評價對象抽取,評價對象抽取是對象級情感分類的基礎,評價對象抽取質量的好壞直接影響對象級情感分類的效果.
評價對象抽取任務劃分為分類問題和序列標記問題,本文將評價對象抽取當作是一個序列標記問題.評價對象抽取任務采用的模型如條件隨機場(conditional random field, CRF)、長短期記憶神經網絡[2](long short-term memory network, LSTM)、卷積神經網絡[3](convolutional neural network, CNN)等,這些模型結合手工特征組成復雜的模型,性能上會有較大的提升.Jebbara等人[4]指出在評價對象抽取任務中,一個特別的挑戰是評論文本質量低,文本中包含了拼寫錯誤的單詞、新詞以及罕見的單詞等,對評價對象抽取任務帶來不利的影響.為了克服評論文本質量低的問題,Jebbara采用字符級嵌入來捕獲常規詞嵌入不具備的與對象提取相關的字符級信息.另外,CRF,LSTM,CNN在不借助手工特征的情況下,模型特征學習能力是有限的,不能學習深層次的特征,因此難于取得具有競爭力的性能.手工特征的獲取需要耗費大量的人力和時間.因此,本文提出基于交互特征表示的評價對象抽取模型(aspect extraction model based on interactive feature representation, AEMIFR).
為了解決評論文本低質量的問題,AEMIFR模型借鑒Jebbara在評價對象抽取任務中的做法,采用字符級嵌入來捕獲常規詞嵌入所缺乏的字符形態特征,并尋找字符與詞語之間的內在聯系.字符級嵌入通過捕獲字符相關的信息輔助評論文本中的評價對象抽取,以及能較好地處理錯詞、新詞和罕見的詞.為了在不借助手工特征的情況下,提高模型學習特征表示的能力,AEMIFR模型利用卷積神經網絡和雙向循環神經網絡分別學習詞嵌入信息和字符級嵌入信息,得到2種不同的特征表示.在不借助手工特征的情況下,提高了模型的性能并學習到更多的特征表示.卷積神經網絡通過控制卷積核的大小來控制信息流的大小,獲取評論文本的局部特征表示.雙向循環神經網絡通過記憶功能獲取評論文本的上下文依賴特征表示.本文將局部特征表示和上下文依賴特征表示進行交互結合,探究交互機制對實驗效果的影響.
本文主要貢獻總結為3個方面:
1) 采用單詞級嵌入和字符級嵌入作為模型的輸入,模型可以學習單詞層面的語義特征、字符形態特征以及字符與詞語之間的內在聯系,并增強模型的特征輸入.
2) 利用卷積神經網絡學習局部特征表示與雙向循環神經網絡學習上下文特征表示,將局部特征表示和上下文特征表示進行結合.在不借助手工特征的情況下,通過2種特征表示之間的交互關系,增強模型特征表示的學習能力.
3) 與借助手工特征的模型以及多任務模型相比,AEMIFR模型學習深層次特征表示的能力更強,在多個數據集上進行驗證,實驗效果具有不同程度的提升.
評價對象抽取可以分為無監督學習的方法和有監督學習的方法,有監督學習的方法總體上比無監督學習的方法的效果好.無監督學習的方法包括規則匹配[5-6]、句法關系提取[7]等.這些無監督學習的方法需要進行手工特征的提取,特征提取耗費大量的時間和人力,實驗效果并非理想.
有監督學習的方法將評價對象抽取任務當作序列標記問題,常采用隱馬爾可夫模型[8](hidden Markov model, HMM)和條件隨機場[9](CRF),這2種方法是基于統計學習的序列標記問題的經典方法.近年來,隨著深度學習在自然語言處理領域的發展,深度學習也被成功應用在評價對象抽取任務中.Xu等人[10]提出基于雙嵌入的卷積神經網絡模型,將通用的詞嵌入和領域詞嵌入輸入卷積神經網絡中進行對象提取,并取得了較好的效果.Luo等人[11]和Guo等人[12]將雙向的循環神經網絡與CRF結合,借助句法依賴信息進行評價對象抽取.Li等人[13]結合詞性信息和字典,提出基于字符級的雙向循環神經網絡條件隨機場模型,該模型利用字符的相關信息增強模型的性能.此外,注意力機制廣泛應用在評價對象抽取任務中,Giannakopoulos等人[14]在評論文本中利用注意力機制選擇具有實際觀點的句子,從而提取無噪音的句子構造新的數據集,并證明在評價對象抽取任務中構建新的數據集時,句子選擇的重要性.Li等人[15]認為循環神經網絡雖然具有記憶功能,但是還沒有機制來學習不同時刻預測之間的關系,因此他提出一種歷史注意力機制去捕獲歷史預測的評價對象與當前預測評價對象之間的關系,進行評價對象抽取任務的研究.

Fig. 2 AEMIFR model
上述研究只關注評價對象抽取任務,而多任務學習還關注評價對象抽取以外的任務.因此,多任務學習模型也被用于評價對象抽取任務.Wang等人[16]提出了耦合多層注意力多任務學習模型,同時進行評價對象和意見詞的抽取,模型的一個注意力層用來抽取評價對象,另外一個注意力層用來抽取意見詞.通過交互式地學習評價對象和意見詞之間的雙向傳播信息,模型可以進一步挖掘評價對象和意見詞之間的相互關系.Li等人[17]提出一種結合情感分類和意見詞抽取的多任務評價對象抽取模型,該模型利用2個LSTM神經網絡學習評價對象和意見詞之間的交互作用以及關系,為了確保評價對象來自帶有情感極性的句子,模型使用另外一個LSTM對具有情感的句子進行分類,以更準確地提取評價對象.Yu等人[18]提出一個多任務學習框架模型,隱式地捕獲評價對象抽取和意見詞抽取之間的關系,然后提出一種全局推理的方法,該方法顯式地建模評價對象抽取和意見詞抽取2個任務之間的語法約束,并揭示它們之間的內外關系,尋求2個任務之間最有效的方法.Nguyen等人[19]將評價對象抽取和對象級情感分類2個問題進行結合,重新定義為信息抽取的任務,并仔細設計了標簽集合,使評價對象抽取和對象情感分類的標簽能夠包含在同一個標簽序列中,從而使一個模型可以同時進行2個任務.
本文將評價對象抽取任務視為序列標記的問題,采用IOB[20]的方法進行標簽標注.根據IOB方法,評價對象抽取任務中評論文本包含B-A,I-A,O這3個標簽,分別代表對象的首詞、對象的非首詞、其他單詞或者符號,如圖1所示:

Fig. 1 Label example
圖2為本文提出的AEMIFR模型,該模型包含嵌入層(embedding)、表示編碼層(representation encoder)和條件隨機場層(CRF).詞嵌入將單詞嵌入和字符級嵌入進行結合,捕獲單詞的語義特征、字符的形態特征以及字符與詞語之間的內在聯系.表示編碼層由卷積神經網絡和雙向循環神經網絡學習不同的特征表示,卷積神經網絡通過卷積層學習評論文本的局部特征表示;雙向循環神經網絡具有記憶功能學習評論文本的上下文依賴特征表示.將局部特征表示和上下文依賴特征表示結合,然后輸入到條件隨機場層,進行標簽序列的預測.
假設單詞序列為(w1,w2,…,wn),單詞的字符序列為(c1,c2,…,cm),標簽序列為[B-A,I-A,O].單詞序列映射成詞嵌入矩陣Ew∈Rdw×|Vw|,字符序列映射成字符嵌入矩陣Ec∈Rdc×|Vc|,其中dw和dc分別為詞嵌入矩陣和字符級嵌入矩陣的維度,Vw和Vc分別為單詞詞典的大小和字符詞典的大小.
嵌入層將單詞嵌入和字符表示進行拼接,字符表示是由字符級嵌入輸入雙向循環神經網絡中學習得到的,通過雙向循環神經網絡的記憶功能,捕獲字符的形態特征以及字符與詞語之間的內在聯系.這個過程的網絡結構如圖3所示.首先將字符級嵌入輸入到雙向長短期記憶網絡(BiLSTM)中,計算過程為
xm=Eccm,
(1)

(2)

(3)

(4)

xn=Ewwn,
(5)
ecw=Cr⊕xn.
(6)
ecw是嵌入層最終的輸出,嵌入層將詞向量和字符表示進行拼接,能夠獲取單詞的語義特征、字符的形態特征以及字符與詞語之間的內在聯系,使輸入模型的特征更加充足.

Fig. 3 Network structure of character representation
表示編碼層由3個不同卷積核的卷積神經網絡和雙向循環神經網絡組成,不同卷積核的卷積神經網絡獲取評論文本的不同局部特征表示,經過卷積操作后輸入最大池化層進行池化操作,將3個卷積操作得到的輸出結果進行拼接,計算為
xf=cnnf(ecw),
(7)
poolf=max(xf),
(8)
xcw=pool3+pool4+pool5.
(9)
cnnf代表卷積操作,其中f代表卷積核的大小,卷積核的大小分別為3,4,5;xcw表示3個卷積操作結果的拼接.將嵌入層輸出的結果輸入雙向循環神經網絡中,獲取評論文本的上下文依賴特征,計算過程為

(10)

(11)

(12)

Zt=Relu(xcw⊙hcw),
(13)
其中,⊙是點乘(dot product)操作符號,Relu為激活函數.交互機制捕獲局部特征表示和上下文依賴特征表示之間的交互關系,得到2種特征表示之間的重要聯系.經過表示編碼層編碼,在不需要手工特征的情況下獲取重要的特征表示.
CRF相對于傳統的交叉熵損失模型,在序列標記問題中具有較好的表現.將表示編碼層的結果輸入到CRF層進行預測,得到預測的序列標簽.假設輸入的序列為x=(x1,x2,…,xT),標簽序列為y=(y1,y2,…,yT),則標簽預測得分計算為
(14)
其中,A是轉移分數矩陣,Ai,j表示從標簽i轉移到標簽j的得分,Z表示編碼層的輸出,Zt,i代表第i個標簽的分數.在訓練過程中,最小化標簽序列的負對數似然函數,計算為

(15)

(16)
其中,Yx是包含所有序列標簽的集合,p(y|x)表示在給定x的條件下y標簽的概率,最后通過維特比算法(Viterbi algorithm)預測最佳標簽序列.
模型使用SemEval數據集驗證模型的性能,數據集統計如表1所示.L-14和R-14是SemEval 2014①的數據集,R-15和R-16分別是SemEval 2015②和SemEval 2016③的數據集.L-14數據集是關于電子產品的評論文本,R-14,R-15,R-16數據集是關于餐廳的評論文本.#Sentences表示評論文本的數量,#Aspects表示評論文本中對象的數量.

Table 1 Data Set Statistics
模型訓練采用Adam[21]優化器進行優化,采用Glove訓練好的詞向量初始化詞嵌入,采用Dropout防止過擬合,其值設置為0.5.隨機初始化字符級嵌入,詞嵌入和字符級嵌入的維度大小分別設置為300和100.卷積神經網絡的卷積核設置為[3,4,5],嵌入層的LSTM隱藏單元數設置為100,表示編碼層的LSTM隱藏單元數設置為300,學習率設置為0.001.
對比模型有9組:
1) ITOE[4]
將單詞的字符結構信息整合到模型上,探究字符級詞嵌入對實驗性能的影響.
2) WDEmb[22]
利用上下文信息和句法依賴信息訓練詞嵌入和句法依賴嵌入,將詞嵌入和句法嵌入輸入CRF中進行評價對象抽取.
3) RNCRF-O,RNCRF-F[23]
將循環神經網絡與條件隨機場結合作為統一的框架進行評價對象抽取和意見詞抽取,RNCRF可以添加手工特征增強模型.RNCRF-O使用意見詞標簽來訓練模型,RNCRF-F在RNCRF-O的基礎上添加了其他的手工特征.
4) DTBCSNN+F[24]
利用基于依賴樹的堆疊卷積神經網絡捕獲句法特征,不需要其他的手工特征.另外,也可以靈活地結合其他的語言學特征增強模型.
5) MIN[17]
一種基于LSTM的多任務學習模型,通過2個LSTM學習對象和意見詞抽取任務之間的關系,同時解決評價對象抽取和意見詞抽取2個任務.
6) CMLA[16],MTCA[25]
CMLA是多層注意力模型,在不需要任何其他語言資源預處理的情況下,通過多層注意力進一步挖掘對象和意見詞之間的間接關系,從而更準確地提取特征信息.MTCA是一種端到端的多任務注意力模型,針對在特定的類別條件下的評價對象抽取和意見詞抽取,探索不同任務之間的共性和關系,以解決數據稀疏性問題.
7) LSTM+CRF,BiLSTM+CRF[26]
該模型用于解決詞性標注、命名體識別等序列標注問題,本文將此模型作為對比的基線模型.
8) BiLSTM+CNN[27]
與LSTM+CRF,BiLSTM+CRF相同,都是解決序列標注問題,該模型將字符嵌入輸入卷積神經網絡中,提升了詞性標注和命名體識別的效果.本文將該模型作為對比的基線模型.
9) BiDTreeCRF[11]
BiDTreeCRF模型的關鍵思想是在句法依賴樹中通過雙向傳播來增強樹結構表示,將句法依賴信息和序列信息輸入雙向循環神經網絡中進行學習,最終輸入CRF中進行評價對象抽取.BiDTreeCRF#1表示在神經網絡共享全部權值,BiDTreeCRF#2表示共享部分權值,BiDTreeCRF#3表示不共享任何權值.
本文使用F1值作為評判標準,實驗結果如表2所示.模型IOTE只將字符嵌入和詞嵌入融合輸入到模型中,沒有借助手工特征,效果比較差.模型WDEmb,RNCRF-O,RNCRF-F,DTBCSNN+F都添加手工特征進行增強模型,F1值都比模型AEMIFR小.模型LSTM+CRF,BiLSTM+CRF,BiLSTM+CNN在解決詞性標注、命名體識別等序列問題上具有競爭優勢,但在評價對象抽取任務中效果卻比模型AEMIFR差.模型MIN,CMLA,MTCA是多任務學習模型,模型使用更多的標簽信息和任務之間的關聯信息,作為單任務學習模型AEMIFR的效果仍優于多任務學習模型MIN,CMLA,MTCA.說明本文提出的模型在不需要任何手工特征的情況下,學習到更重要的特征,以及學習的特征質量更高.
除在R-14數據集上的效果比模型BiDTreeCRF#2和模型CMLA略差,模型AEMIFR在L-14,R-15,R-16數據集上的效果最好.在數據集L-14,R-14,R-15,R-16上,模型AEMIFR的F1值比模型BiDTreeCRF#1分別提升了0.41%,0.13%,4.3%,1.03%.在數據集L-14,R-15,R-16上,模型AEMIFR的F1值比模型BiDTreeCRF#2分別提升了0.55%,5.13%,0.76%.在數據集L-14,R-14,R-15,R-16上,模型AEMIFR的F1值比模型BiDTreeCRF#3分別提升了0.20%,0.38%,2.61%,0.28%.因此,在不借助手工特征的情況下,模型AEMIFR在不同的數據集上都比其他的基線模型具有競爭優勢.

Table 2 The Experimental Result F1
綜上分析,本文提出的模型在不借助任何手工特征的情況下,通過卷積神經網絡學習局部特征表示和雙向循環神經網絡學習上下文依賴特征表示,將特征表示進行結合,增強了模型的特征學習表示,并通過交互機制學習局部特征和上下文依賴特征之間的交互關系,從而提高模型的性能.
為了探究交互機制對模型的影響,本文設計了3組實驗.
1) AEMIFR-CNN
只有AEMIFR模型的左側部分,即將嵌入層的輸出只輸入不同卷積核的卷積神經網絡中.
2) AEMIFR-BiLSTM
只有AEMIFR模型的右側部分,即將嵌入層的輸出只輸入雙向循環神經網絡中.
3) AEMIFR-C
將不同卷積核的卷積神經網絡學習的局部特征和雙向循環神經網絡學習的上下文依賴特征進行直接拼接.
交互機制對模型影響的實驗結果如表3所示.模型AEMIFR-C在L-14,R-14,R-15,R-16數據集上的實驗效果比AEMIFR-CNN,AEMIFR-BiLSTM的好,說明將不同卷積核的卷積神經網絡學習的局部特征表示和雙向循環神經網絡學習的上下文依賴特征表示進行直接拼接,可以增強模型學習特征的能力.

Table 3 Experimental Results of Interaction Mechanisms on Models
模型AEMIFR在L-14,R-14,R-15,R-16數據集上的F1值比模型AEMIFR-C分別提升了1.21%,0.71%,1.73%,1.01%,表明本文的交互機制比直接拼接能夠學習更準確和更高質量的特征信息,通過交互機制將卷積神經網絡學習的局部特征表示與雙向循環神經網絡學習的上下文依賴特征表示進行結合,能夠學習局部特征表示和上下文依賴特征表示之間的交互關系,捕獲特征之間的重要聯系.
為了驗證字符級嵌入對模型的影響,本文設計了2組實驗,分別為是否具有字符級嵌入作為模型輸入的對比實驗,以及字符級嵌入維度的對比實驗.是否具有字符級嵌入作為模型輸入的實驗結果如表4所示.
如表4所示,以字符級嵌入和詞嵌入作為輸入的AEMIFR-CNN,AEMIFR-BiLSTM,AEMIFR-C,AEMIFR模型分別比只有以詞嵌入作為輸入的AEMIFR-CNN-N,AEMIFR-BiLSTM-N,AEMIFR-C-N,AEMIFR-N模型的F1值大.模型AEMIFR-C在數據集L-14,R-14,R-15,R-16上的效果分別比模型AEMIFR-C-N提升了1.92%,1.10%,5.05%,0.30%,模型AEMIFR在數據集L-14,R-14,R-15,R-16上的效果分別比模型AEMIFR-N提升了1.51%,1.34%,5.01%,2.11%.通過實驗對比,說明字符級嵌入提供了詞嵌入不具備的字符級形態特征以及字符與詞語之間的內在聯系,而這些信息對模型抽取評價對象的能力具有積極的影響.

Table 4 Experimental Results of Interaction Mechanisms on Models

Fig. 4 Effect of character dimension on AEMIFR-C model
選取了50,100,150,200維度的字符進行字符維度對模型影響的實驗,圖4是字符維度對模型AEMIFR-C的F1值的影響折線圖,圖5是字符維度對模型AEMIFR的F1值的影響折線圖.從圖4中看出,L-14, R-14和R-15數據集在字符維度150時F1值達到最大值,R-16數據集在字符維度為150時達到次最大值,說明字符維度為150是模型AEMIFR-C最適合的字符維度.從圖5可知,4個數據集在字符維度為100時,F1值基本是最大的.在圖4和圖5中,數據集L-14和R-14的折線圖變化波動較小,數據集R-15和R-16的折線圖變化波動較大,可能的原因是數據集R-15和R-16的數據相對小.由于數據的稀疏性,模型在學習特征過程中學習不穩定,難以學習更重要的特征表示.

Fig. 5 Effect of character dimension on AEMIFR model
針對數據規模較小、特征信息不充分等問題,本文提出了基于交互特征表示的評價對象抽取模型,模型利用卷積神經網絡獲取局部特征表示和利用雙向循環神經網絡獲取上下文特征表示,結合局部特征表示和上下文特征表示之間的交互關系,以獲取2種特征表示的重要聯系,增強2種特征之間的相似特征的重要性,減少無用特征對模型的消極影響.利用詞嵌入和字符級嵌入分別捕獲單詞的語義特征、字符的形態特征以及字符與詞語之間的內在聯系,對模型性能的提升具有積極的影響.實驗結果表明,在不借助任何手工特征的情況下,AEMIFR模型能夠借助交互機制學習特征之間的重要交互關系,以及學習更高質量的特征表示,因此本文的AEMIFR模型更具有競爭力.
雖然本文提出的AEMIFR模型在4個數據集上的實驗結果具有提升,但仍可以借助手工特征進一步提升模型的性能.另外,由于考慮到評價對象抽取是對象級情感分析的關鍵任務,評價對象抽取的質量會直接影響到對象級情感分類的準確性,因此,下一步考慮將評價對象抽取和對象級情感分類設計為多任務學習,針對評價對象抽取任務和對象級情感分類任務進行統一建模,減少評價對象抽取過程中的錯誤傳播給對象級情感分類任務.