999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于代價敏感的中文文本的情感-原因?qū)μ崛⊙芯?

2023-01-06 05:41:26胡朝暉潘偉民張海軍韓連金
計算機與數(shù)字工程 2022年10期
關(guān)鍵詞:情感實驗模型

胡朝暉 潘偉民 張海軍 韓連金

(新疆師范大學(xué)計算機科學(xué)技術(shù)學(xué)院 烏魯木齊 830054)

1 引言

隨著商品評論信息的增多,大量的評論信息參雜一起,在這些雜亂的評論中提取好評和差評有利于商家對商品更加全面的把握,挖掘出差評情感的原因,幫助賣家完善產(chǎn)品也具有重要意義。提取出差評和差評的原因就是情感-原因?qū)μ崛。碋CPE(Emotion-Cause Pair Extraction)[1]。

但是在情感-原因?qū)μ崛∪蝿?wù)中因其數(shù)據(jù)集存在標簽不平衡問題,故引入代價敏感的損失函數(shù)來減小標簽不平衡問題帶來的困擾。在前人的研究中,加入BERT在預(yù)訓(xùn)練模型中取得了較好的表現(xiàn),本文采用哈工大訊飛聯(lián)合發(fā)布中文BERT-wwm[2]。采用中文BERT-wwm是因為中文BERT-wwm選用的是中文語料庫而且模型是基于中文分詞訓(xùn)練,而谷歌發(fā)布的全詞覆蓋的BERT[3]模型的研究測試集中于國外公開數(shù)據(jù)集,缺乏一種中文語言的相關(guān)模型,且基于全詞覆蓋的BERT預(yù)訓(xùn)練模型,可能忽略了中文分詞的作用[4]。

綜上所述,本文提出代價敏感情感-原因?qū)δP停‥motion-Cause Pair Extraction-BERT-wwm,ECPE-BW)。該模型運用基于代價敏感的損失函數(shù)和加入中文BERT-wwm的方法,通過實驗得出在F1結(jié)果上有接近1%的提升。

2 相關(guān)工作

在前人的研究中有研究者通過一個模型直接提取出情感-原因?qū)Γ灿醒芯空卟捎孟忍崛〕銮楦泻驮蚓洌賹⑶楦泻驮蚓渑鋵Φ姆椒ǎ员疚膶⒀芯恐饕譃閮深悾活愂情g接提取,另一類是直接提取。

在間接提取研究中,Xia等[1]提出ECPE模型,運用了ECPE模型和句子對過濾算法兩步得到情感-原因?qū)Αang等[5]提出ED+ECPE聯(lián)合模型,聯(lián)合多層注意力機制提取情感-原因?qū)Αai等[6]提出EDGCNN模型,運用情感膨脹門控CNN提取提取情感-原因?qū)ΑT陂g接提取中存在著上一步結(jié)果如有誤將影響下一步,就會間接影響提取情感-原因?qū)Φ木_度,所以直接提取的模型也應(yīng)用而生。

在直接提取研究中,F(xiàn)an等[7]提出基于轉(zhuǎn)換的模型,將任務(wù)轉(zhuǎn)換成一個類似分析有向圖構(gòu)建過程,從而直接提取出情感-原因?qū)Αu等[8]提出MTNECP模型,一種將位置感知情感信息加入原因提取的方法中用于情感-原因?qū)μ崛〉亩嗳蝿?wù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。Wei等[9]提出對句子間的關(guān)系進行建模,一步提取情感-原因?qū)Αong等[10]提出通過學(xué)習(xí)鏈接,從情感子句鏈接到原因子句的方法來端到端 的 提 取 情 感-原 因 對。Ding等[11]提 出 了ECPE-2D模型,利用二維矩陣表示情感-原因?qū)Γ瑢⒍S、交互、預(yù)測集成到一個聯(lián)合框架中一步提取情感-原因?qū)Αig接和直接提取研究中,存在著數(shù)據(jù)標簽不平衡,考慮到這一問題,本文加入代價敏感的損失函數(shù)減少標簽不平衡問題帶來的影響,同時運用中文BERT-wwm模型進行預(yù)訓(xùn)練。

3 算法

本文基于代價敏感的損失函數(shù),同時引入中文BERT-wwm。該模型輸入層經(jīng)過中文BERT-wwm預(yù)訓(xùn)練到達中間層,中間層是兩個獨立提取情感子句和原因子句的模型,提取出的特定句子和預(yù)測句子放在一張二維表中,經(jīng)過加入代價敏感損失函數(shù)計算輸出預(yù)測的情感-原因?qū)Α?/p>

3.1 模型結(jié)構(gòu)

本文模型是利用二維矩陣表示情感-原因?qū)Γ瑢⒍S,交互,預(yù)測集成到一個聯(lián)合框架中。該框架輸入層經(jīng)過中文BERT-wwm預(yù)訓(xùn)練到達中間層,中間層是兩個獨立的組件,句子經(jīng)過兩個組件分別得到特定情感子句和特定原因子句,接著經(jīng)過softmax函數(shù)分別得到預(yù)測的情感子句和原因子句。最后將特定情感子句、預(yù)測情感子句作為列與特定原因子句、預(yù)測原因子句作為行結(jié)合在同一張二維矩陣中,經(jīng)過配對計算抽取出預(yù)測的情感-原因?qū)Α=Y(jié)構(gòu)如圖1所示。

圖1 ECPE-BW模型圖

3.2 針對代價敏感性問題的損失函數(shù)改進

在本實驗數(shù)據(jù)集上,數(shù)據(jù)的分布存在標簽不平衡問題,文中包含1個情感-原因?qū)τ?9.77%,而包含超過2個情感-原因?qū)χ挥?.13%。前人的研究取得了一定的成果,但數(shù)據(jù)集標簽不平衡問題對實驗結(jié)果會產(chǎn)生一定的影響。為了解決數(shù)據(jù)集標簽不平衡問題,本文引入代價敏感的損失函數(shù)[12]。

下面的公式是Ding等定義的情感-原因?qū)Ψ诸惖膿p失函數(shù):

考慮到ECPE-BW模型用的Softmax函數(shù)的輸出且情感-原因?qū)儆诙诸悾疚牟捎么鷥r敏感的交叉熵損失二分類函數(shù),上述公式可以重新寫成:

為了獲得更好的情感特定性表示和原因特定性表示,引入了輔助的情感預(yù)測和原因預(yù)測損失,其中和表示句子Ci特定的情感和原因。

最后模型的損失函數(shù)是在L2正則化下Lpair和Laux的權(quán)重之和,其中θ表示這個模型中所有的參數(shù),λ1,λ2,λ3∈(0,1)。

3.3 中文BERT-wwm模型

應(yīng)用中文BERT-wwm模型作為本文預(yù)訓(xùn)練模型。由于谷歌官方發(fā)布的BERT中,中文是以字為粒度進行切分,沒有考慮中文需要分詞的特點。中文BERT-wwm模型考慮到中文分詞的重要性,采用全詞Mask法[2]。全詞Mask是如果一個完整的詞的部分WordPiece被[MASK]替換,則同屬該詞的其他部分也會被[MASK]替換[13]。表1是原始BERT的Mask和全詞Mask的對比。

表1 原始BERT的Mask和全詞Mask的對比

在數(shù)據(jù)集方面,由于谷歌的BERT模型的研究測試集中于國外公開數(shù)據(jù)集,缺乏一種中文語言的相關(guān)模型。而中文BERT-wwm模型采用了中文維基百科(包括簡體和繁體)進行訓(xùn)練,本文研究是基于中文的情感-原因?qū)μ崛。赃x擇中文BERT-wwm更合適。

4 實驗及結(jié)果分析

4.1 模型評價指標

在測試的時候本文實驗采用正確率(Precision)、召回率(Recall)、F1值(F1-measure)作為評判[14],為了權(quán)衡預(yù)測率和誤報率,本此實驗采用不平衡數(shù)據(jù)分類算法評價常用的ROC(Receiver Operating Characteristic)曲線,該曲線是模型預(yù)測率和誤報率之間折中的一種圖形化方法[15]。AUC(Area Under the Curve)值是ROC曲線下方的面積[16],提供了評價模型平均性能的另一種方法。

4.2 實驗設(shè)置

本文在(Xia和Ding)[1]公開可用的數(shù)據(jù)集上進行實驗。本文采用十折交叉驗證法。實驗時字嵌入和相對位置嵌入的維度分別設(shè)置為200和50,我們所有窗口BiLSTM中隱藏單元的數(shù)量設(shè)置為100,轉(zhuǎn)換器中隱藏狀態(tài)、查詢、鍵和值的維度都設(shè)置為30,批量大小和學(xué)習(xí)率分別設(shè)置為32和0.005,在正則化方面,詞嵌入采用dropout,dropout率設(shè)為0.7。

4.3 實驗結(jié)果及分析

本文將我們提出的模型ECPE-BW和Ding等的ECPE-2D模型[11]、Wu等MTNECP模 型[8]、Fan等[7]、Song等[10]的E2EECP模型進行實驗結(jié)果對比。我們利用消融研究進一步探索代價敏感的損失函數(shù)和BERT-wwm的表現(xiàn)。單獨加入代價敏感的損失函數(shù)(在表2中用“Inter-EC+代”表示)和中文BERT-wwm(在表2中用“Inter-EC+BERT-wwm”表示)對比其實驗結(jié)果。結(jié)果對比見表2。

從表2中我們可以看出,單獨加入代價敏感的損失函數(shù)在整體結(jié)果上有提升。單獨加入中文BERT-wwm比谷歌的BERT取得更好的結(jié)果,尤其在F1值上提升了0.79%,在R值上達到了情感-原因?qū)μ崛嶒炞罴呀Y(jié)果。說明中文BERT-wwm更適用于本文的實驗數(shù)據(jù)集。

表2 實驗結(jié)果對比

同時加入代價敏感的損失函數(shù)和中文BERT-wwm的模型在情感-原因?qū)Τ槿∪蝿?wù)上,F(xiàn)1值提高了接近1%,在P和R值上均有提升。由上述我們分析單獨加入代價敏感的損失函數(shù)和單獨加入中文BERT-wwm在ECPE任務(wù)上分別都有提升,且我們的模型同時加入代價敏感的損失函數(shù)和中文BERT-wwm在ECPE任務(wù)上部分值達到了情感-原因?qū)μ崛嶒灥淖罴呀Y(jié)果,可見代價敏感的損失函數(shù)和中文BERT-wwm的加入在ECPE任務(wù)上起到一定的效果。同時說明我們的模型加入代價敏感的損失函數(shù)和中文BERT-wwm對情感-原因?qū)μ崛∪蝿?wù)有效。

根據(jù)我們提出的ECPE-BW模型和ECPE-2D[11]模型,分別畫出評價模型的ROC曲線,圖2是ECPE-BW模 型ROC曲 線,圖3是ECPE-2D模 型ROC曲線。從下圖中我們對比可以看出我們模型的ROC曲線值比ECPE-2D模型ROC曲線要高,說明我們模型的靈敏度和特異性連續(xù)變量的綜合指標比ECPE-2D模型要高。再比較AUC值,明顯看出我們模型AUC比ECPE-2D模型的AUC值要高,說明我們模型比ECPE-2D模型好。

圖2 ECPE-BW模型ROC曲線

圖3 ECPE-2D模型ROC曲線

綜上所述,我們的模型加入代價敏感的損失函數(shù)和中文BERT-wwm對情感-原因?qū)μ崛∪蝿?wù)有效。

5 結(jié)語

在ECPE任務(wù)中,我們提出了ECPE-BW模型,該模型引入中文BERT-wwm和代價敏感的損失函數(shù),最終結(jié)果在情感-原因?qū)1值上提升了接近1%。雖然我們?nèi)〉昧溯^好的結(jié)果,但是P、R、F1整體結(jié)果還是偏低。在未來的工作中,研究出一個能解決難提取隱含的情感-原因?qū)Φ乃惴ê湍P蛠順O大地提升整體結(jié)果。

猜你喜歡
情感實驗模型
一半模型
記一次有趣的實驗
如何在情感中自我成長,保持獨立
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
做個怪怪長實驗
如何在情感中自我成長,保持獨立
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久久久久午夜精品| 久久婷婷色综合老司机| 青青青视频蜜桃一区二区| 伊伊人成亚洲综合人网7777| 精品久久综合1区2区3区激情| 国产乱子伦精品视频| 中文国产成人精品久久| 成人一级免费视频| 亚洲精品视频在线观看视频| 国内毛片视频| 91久久性奴调教国产免费| 中日韩欧亚无码视频| 国产毛片基地| 欧美色综合久久| 亚洲伦理一区二区| 国产呦精品一区二区三区下载| 国产精品欧美激情| 色综合热无码热国产| 婷婷激情五月网| 国产黄视频网站| 国产精品视频999| 狠狠操夜夜爽| 亚洲免费黄色网| 国产黑人在线| 日韩免费毛片| 亚洲av无码人妻| 久久黄色影院| 国产成a人片在线播放| 日本草草视频在线观看| 日韩二区三区| 波多野结衣一区二区三视频 | 亚洲国产精品一区二区第一页免| 中文字幕人成乱码熟女免费| 亚洲欧美日韩久久精品| 国产精品亚欧美一区二区| 久久精品人人做人人爽97| 色综合久久无码网| 狠狠ⅴ日韩v欧美v天堂| 91麻豆国产视频| 国产区成人精品视频| 四虎亚洲精品| 久久久久人妻一区精品| 国产精品手机在线观看你懂的| 扒开粉嫩的小缝隙喷白浆视频| 欧美亚洲欧美区| 怡春院欧美一区二区三区免费| 三上悠亚精品二区在线观看| 亚洲成人福利网站| 中文国产成人精品久久一| 国产亚洲高清在线精品99| 91视频首页| 中文字幕人成人乱码亚洲电影| jizz在线观看| 久久亚洲精少妇毛片午夜无码 | 精品国产免费观看| 九色91在线视频| 欧美黄色网站在线看| 亚洲欧洲综合| 日本黄色a视频| 国产成熟女人性满足视频| 国产特一级毛片| 国产在线自揄拍揄视频网站| 精品无码人妻一区二区| 福利在线一区| 久久久亚洲色| 热99精品视频| 精品国产三级在线观看| 亚洲欧美综合另类图片小说区| 国产成年无码AⅤ片在线 | 亚洲精品无码日韩国产不卡| 色婷婷在线播放| 国产精品极品美女自在线网站| 狠狠色狠狠综合久久| 欧美日韩亚洲国产主播第一区| 国产亚洲日韩av在线| 青青草国产一区二区三区| 一级做a爰片久久免费| 中文字幕啪啪| 亚洲国产综合精品一区| 在线精品自拍| 亚洲手机在线| 日韩欧美视频第一区在线观看 |