胡朝暉 潘偉民 張海軍 韓連金
(新疆師范大學(xué)計算機科學(xué)技術(shù)學(xué)院 烏魯木齊 830054)
隨著商品評論信息的增多,大量的評論信息參雜一起,在這些雜亂的評論中提取好評和差評有利于商家對商品更加全面的把握,挖掘出差評情感的原因,幫助賣家完善產(chǎn)品也具有重要意義。提取出差評和差評的原因就是情感-原因?qū)μ崛。碋CPE(Emotion-Cause Pair Extraction)[1]。
但是在情感-原因?qū)μ崛∪蝿?wù)中因其數(shù)據(jù)集存在標簽不平衡問題,故引入代價敏感的損失函數(shù)來減小標簽不平衡問題帶來的困擾。在前人的研究中,加入BERT在預(yù)訓(xùn)練模型中取得了較好的表現(xiàn),本文采用哈工大訊飛聯(lián)合發(fā)布中文BERT-wwm[2]。采用中文BERT-wwm是因為中文BERT-wwm選用的是中文語料庫而且模型是基于中文分詞訓(xùn)練,而谷歌發(fā)布的全詞覆蓋的BERT[3]模型的研究測試集中于國外公開數(shù)據(jù)集,缺乏一種中文語言的相關(guān)模型,且基于全詞覆蓋的BERT預(yù)訓(xùn)練模型,可能忽略了中文分詞的作用[4]。
綜上所述,本文提出代價敏感情感-原因?qū)δP停‥motion-Cause Pair Extraction-BERT-wwm,ECPE-BW)。該模型運用基于代價敏感的損失函數(shù)和加入中文BERT-wwm的方法,通過實驗得出在F1結(jié)果上有接近1%的提升。
在前人的研究中有研究者通過一個模型直接提取出情感-原因?qū)Γ灿醒芯空卟捎孟忍崛〕銮楦泻驮蚓洌賹⑶楦泻驮蚓渑鋵Φ姆椒ǎ员疚膶⒀芯恐饕譃閮深悾活愂情g接提取,另一類是直接提取。
在間接提取研究中,Xia等[1]提出ECPE模型,運用了ECPE模型和句子對過濾算法兩步得到情感-原因?qū)Αang等[5]提出ED+ECPE聯(lián)合模型,聯(lián)合多層注意力機制提取情感-原因?qū)Αai等[6]提出EDGCNN模型,運用情感膨脹門控CNN提取提取情感-原因?qū)ΑT陂g接提取中存在著上一步結(jié)果如有誤將影響下一步,就會間接影響提取情感-原因?qū)Φ木_度,所以直接提取的模型也應(yīng)用而生。
在直接提取研究中,F(xiàn)an等[7]提出基于轉(zhuǎn)換的模型,將任務(wù)轉(zhuǎn)換成一個類似分析有向圖構(gòu)建過程,從而直接提取出情感-原因?qū)Αu等[8]提出MTNECP模型,一種將位置感知情感信息加入原因提取的方法中用于情感-原因?qū)μ崛〉亩嗳蝿?wù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。Wei等[9]提出對句子間的關(guān)系進行建模,一步提取情感-原因?qū)Αong等[10]提出通過學(xué)習(xí)鏈接,從情感子句鏈接到原因子句的方法來端到端 的 提 取 情 感-原 因 對。Ding等[11]提 出 了ECPE-2D模型,利用二維矩陣表示情感-原因?qū)Γ瑢⒍S、交互、預(yù)測集成到一個聯(lián)合框架中一步提取情感-原因?qū)Αig接和直接提取研究中,存在著數(shù)據(jù)標簽不平衡,考慮到這一問題,本文加入代價敏感的損失函數(shù)減少標簽不平衡問題帶來的影響,同時運用中文BERT-wwm模型進行預(yù)訓(xùn)練。
本文基于代價敏感的損失函數(shù),同時引入中文BERT-wwm。該模型輸入層經(jīng)過中文BERT-wwm預(yù)訓(xùn)練到達中間層,中間層是兩個獨立提取情感子句和原因子句的模型,提取出的特定句子和預(yù)測句子放在一張二維表中,經(jīng)過加入代價敏感損失函數(shù)計算輸出預(yù)測的情感-原因?qū)Α?/p>
本文模型是利用二維矩陣表示情感-原因?qū)Γ瑢⒍S,交互,預(yù)測集成到一個聯(lián)合框架中。該框架輸入層經(jīng)過中文BERT-wwm預(yù)訓(xùn)練到達中間層,中間層是兩個獨立的組件,句子經(jīng)過兩個組件分別得到特定情感子句和特定原因子句,接著經(jīng)過softmax函數(shù)分別得到預(yù)測的情感子句和原因子句。最后將特定情感子句、預(yù)測情感子句作為列與特定原因子句、預(yù)測原因子句作為行結(jié)合在同一張二維矩陣中,經(jīng)過配對計算抽取出預(yù)測的情感-原因?qū)Α=Y(jié)構(gòu)如圖1所示。

圖1 ECPE-BW模型圖
在本實驗數(shù)據(jù)集上,數(shù)據(jù)的分布存在標簽不平衡問題,文中包含1個情感-原因?qū)τ?9.77%,而包含超過2個情感-原因?qū)χ挥?.13%。前人的研究取得了一定的成果,但數(shù)據(jù)集標簽不平衡問題對實驗結(jié)果會產(chǎn)生一定的影響。為了解決數(shù)據(jù)集標簽不平衡問題,本文引入代價敏感的損失函數(shù)[12]。
下面的公式是Ding等定義的情感-原因?qū)Ψ诸惖膿p失函數(shù):

考慮到ECPE-BW模型用的Softmax函數(shù)的輸出且情感-原因?qū)儆诙诸悾疚牟捎么鷥r敏感的交叉熵損失二分類函數(shù),上述公式可以重新寫成:

為了獲得更好的情感特定性表示和原因特定性表示,引入了輔助的情感預(yù)測和原因預(yù)測損失,其中和表示句子Ci特定的情感和原因。

最后模型的損失函數(shù)是在L2正則化下Lpair和Laux的權(quán)重之和,其中θ表示這個模型中所有的參數(shù),λ1,λ2,λ3∈(0,1)。

應(yīng)用中文BERT-wwm模型作為本文預(yù)訓(xùn)練模型。由于谷歌官方發(fā)布的BERT中,中文是以字為粒度進行切分,沒有考慮中文需要分詞的特點。中文BERT-wwm模型考慮到中文分詞的重要性,采用全詞Mask法[2]。全詞Mask是如果一個完整的詞的部分WordPiece被[MASK]替換,則同屬該詞的其他部分也會被[MASK]替換[13]。表1是原始BERT的Mask和全詞Mask的對比。

表1 原始BERT的Mask和全詞Mask的對比
在數(shù)據(jù)集方面,由于谷歌的BERT模型的研究測試集中于國外公開數(shù)據(jù)集,缺乏一種中文語言的相關(guān)模型。而中文BERT-wwm模型采用了中文維基百科(包括簡體和繁體)進行訓(xùn)練,本文研究是基于中文的情感-原因?qū)μ崛。赃x擇中文BERT-wwm更合適。
在測試的時候本文實驗采用正確率(Precision)、召回率(Recall)、F1值(F1-measure)作為評判[14],為了權(quán)衡預(yù)測率和誤報率,本此實驗采用不平衡數(shù)據(jù)分類算法評價常用的ROC(Receiver Operating Characteristic)曲線,該曲線是模型預(yù)測率和誤報率之間折中的一種圖形化方法[15]。AUC(Area Under the Curve)值是ROC曲線下方的面積[16],提供了評價模型平均性能的另一種方法。
本文在(Xia和Ding)[1]公開可用的數(shù)據(jù)集上進行實驗。本文采用十折交叉驗證法。實驗時字嵌入和相對位置嵌入的維度分別設(shè)置為200和50,我們所有窗口BiLSTM中隱藏單元的數(shù)量設(shè)置為100,轉(zhuǎn)換器中隱藏狀態(tài)、查詢、鍵和值的維度都設(shè)置為30,批量大小和學(xué)習(xí)率分別設(shè)置為32和0.005,在正則化方面,詞嵌入采用dropout,dropout率設(shè)為0.7。
本文將我們提出的模型ECPE-BW和Ding等的ECPE-2D模型[11]、Wu等MTNECP模 型[8]、Fan等[7]、Song等[10]的E2EECP模型進行實驗結(jié)果對比。我們利用消融研究進一步探索代價敏感的損失函數(shù)和BERT-wwm的表現(xiàn)。單獨加入代價敏感的損失函數(shù)(在表2中用“Inter-EC+代”表示)和中文BERT-wwm(在表2中用“Inter-EC+BERT-wwm”表示)對比其實驗結(jié)果。結(jié)果對比見表2。
從表2中我們可以看出,單獨加入代價敏感的損失函數(shù)在整體結(jié)果上有提升。單獨加入中文BERT-wwm比谷歌的BERT取得更好的結(jié)果,尤其在F1值上提升了0.79%,在R值上達到了情感-原因?qū)μ崛嶒炞罴呀Y(jié)果。說明中文BERT-wwm更適用于本文的實驗數(shù)據(jù)集。

表2 實驗結(jié)果對比
同時加入代價敏感的損失函數(shù)和中文BERT-wwm的模型在情感-原因?qū)Τ槿∪蝿?wù)上,F(xiàn)1值提高了接近1%,在P和R值上均有提升。由上述我們分析單獨加入代價敏感的損失函數(shù)和單獨加入中文BERT-wwm在ECPE任務(wù)上分別都有提升,且我們的模型同時加入代價敏感的損失函數(shù)和中文BERT-wwm在ECPE任務(wù)上部分值達到了情感-原因?qū)μ崛嶒灥淖罴呀Y(jié)果,可見代價敏感的損失函數(shù)和中文BERT-wwm的加入在ECPE任務(wù)上起到一定的效果。同時說明我們的模型加入代價敏感的損失函數(shù)和中文BERT-wwm對情感-原因?qū)μ崛∪蝿?wù)有效。
根據(jù)我們提出的ECPE-BW模型和ECPE-2D[11]模型,分別畫出評價模型的ROC曲線,圖2是ECPE-BW模 型ROC曲 線,圖3是ECPE-2D模 型ROC曲線。從下圖中我們對比可以看出我們模型的ROC曲線值比ECPE-2D模型ROC曲線要高,說明我們模型的靈敏度和特異性連續(xù)變量的綜合指標比ECPE-2D模型要高。再比較AUC值,明顯看出我們模型AUC比ECPE-2D模型的AUC值要高,說明我們模型比ECPE-2D模型好。

圖2 ECPE-BW模型ROC曲線

圖3 ECPE-2D模型ROC曲線
綜上所述,我們的模型加入代價敏感的損失函數(shù)和中文BERT-wwm對情感-原因?qū)μ崛∪蝿?wù)有效。
在ECPE任務(wù)中,我們提出了ECPE-BW模型,該模型引入中文BERT-wwm和代價敏感的損失函數(shù),最終結(jié)果在情感-原因?qū)1值上提升了接近1%。雖然我們?nèi)〉昧溯^好的結(jié)果,但是P、R、F1整體結(jié)果還是偏低。在未來的工作中,研究出一個能解決難提取隱含的情感-原因?qū)Φ乃惴ê湍P蛠順O大地提升整體結(jié)果。