999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于池化和特征組合增強BERT的答案選擇模型

2023-02-24 05:00:52陳曉茜
計算機應用 2023年2期
關鍵詞:語義特征信息

胡 婕,陳曉茜,張 龑,2

(1.湖北大學 計算機與信息工程學院,武漢 430062;2.湖北省教育信息化工程技術研究中心(湖北大學),武漢 430062)

0 引言

答案選擇[1-2]是從候選答案池中找到與問題最相符的答案。它是一種句子匹配任務[3],即判斷兩個句子之間的相似度,是問答(Question Answering,QA)系統中非常重要的子任務。

隨著深度學習的發展,許多深度學習技術被應用到答案選擇任務上。預訓練模型出現之前,用得比較多的是雙向長短期記憶(Bi-directional Long Short-Term Memory,BiLSTM)網絡。如Neculoiu 等[4]提出的Siamese-BiLSTM 模型結 合BiLSTM 與Siamese 體系結構來提取問答對的語義特征,然后采用余弦函數計算問答對的相似度;但是單一的BiLSTM 網絡難以捕捉問題和答案的語義信息以及字符序列上下文關系方面的特征。由于隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型[5]可以為文本匹配提供主題信息,文獻[6-7]中將LDA 主題模型應用到文本匹配任務中,幫助理解句子對的語義信息。在結合主題模型的應用上有不同的策略,Wu 等[7]提出了ECNU(traditional method of Extracting features and Convolutional Neural Network)模型,它使用包括基于主題模型的特征在內的多種類型的特征與卷積神經網絡(Convolutional Neural Network,CNN)結合表示問答對的語義。相較于Siamese-BiLSTM 模型和LDA 主題模型,它進一步增強了句子對的語義表示,但沒有充分考慮問題和答案之間的交互,容易丟失重要的信息。為了更好地實現問題和答案之間的信息交互,注意力機制被引入到答案選擇任務中,Wen等[8]提出了UIA-LSTM-CNN(User Interaction Attention-Long Short Term Memory-Convolutional Neural Network)模型。該模型利用CNN 和LSTM 混合模式的注意力機制學習問題和答案的語義信息,并將用戶信息作為答案選擇任務的額外特征。上述模型挖掘了問題和答案中的隱含信息,但是由于引入的用戶信息存在噪聲問題,Xie 等[9]提出了AUANN(Attentive User-engaged Adversarial Neural Network)模型,進一步改進引入用戶信息的模型,利用對抗訓練模塊過濾與問題不相關的用戶信息。上述模型大多使用word2vec[10]或者GloVe(Global Vectors)[11]詞嵌入方法進行詞向量表示,表示方法都是靜態固定的,無法表示上下文語義信息。

Google 公司發布的預訓練模型BERT(Bidirectional Encoder Representations from Transformers)[12]改變了自然語言處理(Natural Language Processing,NLP)任務中的模型架構范式,在自然語言處理領域很多任務都取得較好的效果。Laskar 等[13]將預訓練模型BERT 應用到答案選擇任務上,使用預訓練模型BERT 中的[CLS]表示問題和答案的語義,然后通過softmax 層計算問題和答案的相似度。與CNN 和BiLSTM 相比,預訓練模型BERT 可以通過深層模型獲取問題和答案豐富的語義信息;但是,使用BERT 學習到的語義特征不夠豐富,容易造成文本匹配的語義缺失。近年來,由于圖神經網絡可以保存全局信息,Chen 等[14]提出了GMNBERT(Graph Matching Networks-Bidirectional Encoder Representations from Transformers)模型。該模型使用BERT獲得每個詞的上下文表示,將對應的詞嵌入轉換為節點嵌入,并利用圖匹配模塊來計算兩個文本的圖級表示的相似性。盡管基于圖神經網絡的方法能夠捕捉句子的全局信息,但該方法各節點信息沒有充分交互。為了有效提取句子對的語義信息,Peinelt 等[15]提出了tBERT(topic models with Bidirectional Encoder Representations from Transformers)模型,該模型使用預訓練模型BERT 提取句子對的語義信息,同時利用LDA 主題模型輔助表示句子對的語義,取得不錯的效果。然而,該模型仍然存在如下問題:首先,tBERT 模型使用BERT 輸出的[CLS]來表示句子對語義,不能完整地提取問答對的語義信息。對BERT 的輸出向量取平均作為問答對的語義信息效果更好[16]。其次,tBERT 模型將兩個句子的主題信息和它們的語義表示簡單地拼接在一起,無法挖掘問答對主題信息的聯系,影響模型整體的表達能力。通過對提取的兩個句子特征進行特征組合,能更有效地識別句子間的相關性[17]。最后,隱藏層中的tanh 激活函數存在軟飽和與梯度消失問題,影響模型的性能。

針對上述模型存在的問題,本文在tBERT 模型的基礎上進行改進。首先利用BERT 模型對語料進行微調,為了提升模型的魯棒性,在嵌入層增加了對抗訓練;然后對BERT 的輸出向量和對抗樣本取平均作為問答對的語義信息;同時使用LDA 主題模型提取問題和答案的主題信息輔助模型理解問答對的語義;其次,使用點積操作、按位減操作對問題和答案的主題特征進行組合,提升問題和答案主題信息間的聯系;接著,拼接問答對的語義信息與組合后的主題信息,由隱藏層和softmax 層做最終處理;最后,結合tanh 和ReLU(Rectified Linear Unit)激活函數的優點,設計了一種新的激活函數,提升了模型的性能。實驗結果表明,本文模型在SemEval-2016CQA[18]和SemEval-2017CQA[19]數據集上的F1值達到了76.1%和79.9%,相較于基線模型都有所提升,從而驗證了本文采用對BERT 的輸出加入對抗訓練并取平均作為問答對的語義表示、對問答對的主題特征進行組合以及改進激活函數方法的有效性。

1 本文模型

本文模型結構如圖1 所示。編碼層對預處理完成后的問題和答案進行編碼并加入對抗訓練;池化層對編碼層的問題和答案編碼以及對抗樣本進行語義提取;主題信息提取層對輸入問答對的主題信息進行提取;特征組合層通過點積操作、按位減操作進一步關聯問答對的主題信息,然后將組合后的主題信息與問答對的語義信息進行拼接;最后將拼接后的結果經過隱藏層和softmax層計算得到問題和答案的相似度。

圖1 本文模型結構Fig.1 Structure of proposed model

本文模型通過在tBERT 模型基礎上新增對抗訓練、池化層、特征組合層以及改進激活函數,使問答對的語義具有更加豐富的表示,有效完成答案選擇任務。

1.1 編碼層

編碼層使用預訓練模型BERT 對問題和答案進行編碼,預訓練模型BERT 采用多層雙向Transformer 的Encoder 結構,解決了傳統語言模型單向的局限性以及長期依賴的問題。本文使用的BERT-base 模型,包含12 個編碼塊。BERT語言模型有兩個任務:第一個任務是在句子中隨機遮擋一部分單詞,模型利用上下文信息來預測這些被遮擋的單詞;第二個任務是預測下一個句子。BERT 預訓練階段結合這兩個任務同時進行,BERT 模型結構如圖2 所示。

圖2 BERT模型結構Fig.2 Structure of BERT model

為了應對下游任務,BERT給出了句子級別的表示。如果BERT 的輸入是兩個句子,需要在句子的頭部添加標識符[CLS],兩個句子之間以及句子末尾使用分隔符號[SEP]。句子中的每個單詞由字嵌入向量、分段嵌入向量和位置編碼向量三部分組成,其中字嵌入向量的起始單詞嵌入為E[CLS],分隔符為E[SEP],最后一個單詞嵌入為E[SEP]。分段嵌入向量是用來區分兩個輸入句子,對這兩個句子中的單詞分配不同的編碼(例如:A句子用0編碼,B句子用1編碼)。位置編碼向量表示單詞在句中的位置不同可能會導致完全不同的語義。將問題和答案用整合后的向量表示,作為BERT 的輸入,通過堆疊12個Transformer編碼塊,得到輸出向量,表示為:

其中:C、F1、Fn、Fm'分別為問題和答案中的每個單詞經過BERT 后的向量表示。

對抗訓練通過在原始輸入上增加對抗擾動來提高模型的魯棒性。受文獻[9]的啟發,本文在經過預訓練模型BERT處理后獲得的初始向量表示后,添加擾動進行對抗訓練。將通過預訓練模型BERT 后的輸出向量{C,F1…Fn…Fm'}定義為F,對抗樣本Fadv的計算公式為:

其中:ε是擾動ηadv的無限范數最大值,g表示梯度,θ是模型參數,ηadv是添加的擾動,?F表示輸入F求導得到的梯度。對抗訓練在一個步驟中做了兩次梯度更新:第一次做梯度上升是為了找到最佳擾動ηadv,使得損失最大;第二次做梯度下降是為了找到最佳模型參數,使得損失最小。

生成對抗樣本之后,原始向量表示和對抗樣本一同輸入到池化層。

1.2 池化層

經過預訓練模型BERT 后,得到問題和答案的句子表示。先前的工作一般使用BERT 中的[CLS]作為問答對的語義表示,[CLS]雖然可以代表整個句子的語義,但是沒有考慮到每個token 的信息,可能造成語義信息的丟失。考慮到這些問題以及池化層可以去除冗余信息,壓縮信息的特征。為了進一步挖掘問題和答案的語義信息,本文對BERT 的輸出以及對抗樣本取平均作為問答對的語義表示。池化通常分為平均池化和最大池化兩種:最大池化不能將整個句子的語義信息保留下來,因此本文使用平均池化提取問答對的語義信息;平均池化方法沿著文本長度和嵌入維度求均值,實現隱藏序列到向量的轉換。問答對的語義表示C1表示為:

1.3 主題信息提取層

為了增強問題和答案的語義特征,該層使用LDA 主題模型[5]提取問答對的主題信息。LDA 主題模型是一個三層貝葉斯概率模型,該模型認為一篇文檔有多個主題,每個主題對應不同的詞。在LDA 模型中,假設n篇文檔中含有K個主題,w表示每篇文檔對應的單詞,z表示每篇文檔中單詞對應的主題,θ表示每篇文檔的主題概率,服從先驗參數α的狄利克雷分布,Φ表示每個主題對應詞的概率,服從先驗參數β的狄利克雷分布,模型結構如圖3 所示。

圖3 LDA模型結構Fig.3 Structure of LDA model

LDA 提取主題詞的過程為:首先,對于給定的文檔生成一個隱狄利克雷分布模型,得到θ作為主題-文檔分布;然后,對于每個主題,根據先驗參數β的狄利克雷分布得到主題詞的分布Φ;最后,根據主題詞分布和主題文檔分布得到z和w。本文采用當前LDA 模型中主流的采樣方法——吉布斯采樣算法求解得到全局主題z的分布和詞語的分布,需要確定3 個超參數α、β和最優主題數K,其中α和β使用默認值,K通過困惑度計算確定。計算公式為:

其中:D為語料庫中的訓練集,共M個問答對,di為句子i中的詞,p(di)為句子中詞di產生的概率,Ni為每個句子中的單詞數。

通過LDA 主題模型,可以判斷問答對的主題信息分布是否一致。首先將問題和答案輸入到主題模型,計算每個詞的主題分布,計算公式為:

其中:i表示問答對中單詞的序號,Ti表示每個問題和答案中對應的單詞。然后,分別對問題和答案所有詞的主題分布取平均獲得問題和答案的主題信息表示W1和W2,如下式:

其中:n表示每個問題中的單詞個數,m表示每個答案中的單詞個數,wi表示每個問題中對應單詞的主題信息,wi表示每個答案中對應單詞的主題信息。

1.4 特征組合層

僅使用LDA 主題模型提取問題和答案主題特征,容易忽略上下文詞匯間的語義關聯,需要進一步組合這些特征加強問題和答案的主題信息之間的邏輯關系。特征組合層對問題和答案的主題信息實現組合并捕捉它們的主題信息,從而使得問題的主題特征向量包括答案的主題特征,這樣可以過濾掉與問題主題不相關的答案。例如,問題的主題是“去哪里吃飯”,相對應的答案的主題是“在飯店吃炒雞”,通過特征組合層可以加強兩個主題的聯系,把注意力重點放在主題上,判斷這兩個主題是否有關聯。

文獻[15]使用拼接、按位乘和按位減操作提取兩個句子的特征。該方法能夠有效識別句子間的相關性,但是對于問答對主題特征而言,拼接和按位乘操作不能有效建立特征之間的聯系,而點積操作可以使它們進行更充分的組合。為了更好地捕捉問答對主題特征間的聯系,本文使用點積和按位減操作對問答對的主題特征W1、W2進行組合。

通過使用點積和按位減兩種操作,得到兩種不同的特征W1·W2和W1-W2。將這兩種特征與問答對的語義特征進行拼接得到最終的組合特征F',如式(10)所示:

其中:“;”表示拼接,“·”表示點積操作,“-”表示按位減操作,C1為問答對的語義表示,W1和W2分別為問題和答案的主題信息表示。

1.5 輸出層

得到組合特征向量F后,應用隱藏層和softmax 層得到模型的輸出,最終得到問答對相似度概率y',如式(11)所示:

在隱藏層中,tBERT 模型使用tanh 激活函數。激活函數的作用是把激活神經元的特征通過非線性函數把特征保留并映射出來,也決定了信號網絡中能否傳遞。因此,激活函數影響整個網絡的性能。由于tanh 函數的取值范圍在[-1,1]區間內,存在軟飽和性以及梯度消失的問題,近年來,深度學習網絡中經常使用ReLU 函數,相較于tanh 函數具有較快的收斂性,但是沒有負值激活會導致權重無法更新,存在神經元死亡的現象。為了克服tanh 函數和ReLU 函數的缺點,本文提出一種新的激活函數,定義如下:

該激活函數的正半軸使用ReLU 的正半軸,負半軸使用的函數在tanh 基礎上增大了中心區域的梯度,降低了飽和的速度。

相較于使用tanh 作為隱藏層的激活函數,本文提出的激活函數有以下優點:

1)正半軸使用ReLU 激活函數,緩解了梯度消失的問題。由于在正半軸,函數的導數值恒為1,這樣保證了正半軸梯度不衰減。

2)激活負值,在tanh 函數的基礎上增大中心區域的梯度,緩解了快速飽和的問題。

3)降低噪聲,該函數在負半軸具有軟飽和性,意味著可以減小輸出到下一層信息的變化。因此,它表現出來的特征可以降低噪聲。

1.6 模型訓練

在本文中,通過捕捉問答對之間的語義信息來計算它們的相似度。本文應用交叉熵損失函數來衡量答案標簽的真實概率分布和預測概率分布之間的差值:

其中:M為問答對的訓練數量,y為樣本真實值,為樣本預測值。

為了防止過擬合,本文采用早期停止法訓練模型[13]:為了降低梯度,當測試誤差停止降低并開始增大時,就停止訓練。模型訓練是為了在訓練過程中不斷地更新參數,盡可能地減小模型的總損失。

2 實驗與分析

2.1 數據集與評價指標

2.1.1 數據集

為了驗證本文模型的有效性,在兩個被廣泛使用的社區問答公開數據集SemEval-2016CQA 和SemEval-2017CQA 上做對比實驗。它們的驗證集相同,訓練集和測試集不同。這兩個數據集是由卡塔爾生活論壇創建的,每個評論上都被貼上“好”“壞”或者“可能有用”的標簽。本文將“好”作為正樣本,其他標簽作為負樣本。為了驗證激活函數改進的可行性,在一個公開數據集MSRP 上做對比實驗。該數據集是用于釋義識別的數據集,兩個句子是否互為釋義,是微軟研究釋義構建的語料庫。詳細信息如表1 所示。

表1 數據集描述Tab.1 Description of datasets

2.1.2 評估標準

在實驗中,不同的評價指標能夠從不同的角度反映模型的性能。本文采用準確率(Accuracy,Acc)和F1 值(F1)作為評價指標,這兩種評價指標越高,代表模型的準確率和綜合性能越好。準確率是模型正確預測答案的樣本數占總樣本數的比例。F1 值是精確率和召回率的調和平均數,精確率(Precision,P)表示的是正確預測標準答案占實際預測為標準答案的比例,而召回率(Recall,R)則表示預測標準答案占標準答案的比例。評價指標的計算公式如下:

其中:TP(True Positive)是預測該答案是正例且判定正確的次數,TN(True Negative)是預測該答案為負例且判定正確的次數,FP(False Positive)是預測該答案為正例但判斷錯誤的次數,FN(False Negative)是預測該答案為負例但判斷錯誤的次數。

2.2 實驗設置

本文實驗在Python3.6,Tensorflow1.1,GTX5000 平臺上運行。本文模型使用BERT-base 構建,層數L=12,自注意力頭數A=12。其他超參數的設置如表2 所示。

表2 參數設置Tab.2 Parameter setting

2.3 對比模型

實驗對比的基線模型分為三類:第一類是傳統的文本匹配方法LDA 主題模型;第二類是基于CNN 和LSTM 的方法,分別是ECNU、Siamese-BiLSTM、UIA-LSTM-CNN 以及AUANN模型;第三類是基于預訓練模型BERT 的方法,分別是BERT、GMN-BERT、BERT-pooling 以及tBERT 模型。這些模型的特點如下。

1)LDA 主題模型[5]:一般用于獲取文檔的主題信息,是傳統且簡單的算法。在每個數據集的訓練部分建立一個主題模型,并計算兩個句子主題分布之間的JS 散度(Jensen-Shannon Divergence,JSD)。如果JSD 大于閾值,該模型預測為負標簽,否則預測為正標簽。

2)ECNU[7]:該模型采用GloVe 方法獲取靜態詞向量,結合傳統特征的監督模型和CNN 表示問答對特征,最后拼接兩個特征向量并使用softmax 函數計算問題和答案的得分。

3)Siamese-BiLSTM[4]:該模型是孿生神經網絡,左右兩邊的每一層網絡權重共享,使用BiLSTM 網絡對問題和答案進行編碼,然后用余弦函數計算兩個編碼向量之間的相似度。

4)UIA-LSTM-CNN[8]:該模型采用GloVe 方法獲取靜態詞向量,使用CNN 和LSTM 混合模式注意力機制,計算問題和答案句子中單詞的注意力權重以及對應句子中每個單詞對一個句子中單詞的注意力,結合這兩種注意力機制能夠使問答對中的大部分信息進行句子匹配。此外,利用學習到對問答有用的用戶信息完成答案選擇任務。

5)AUANN[9]:該模型與UIA-LSTM-CNN 方法相似,利用用戶信息學習問答對的上下文信息。不同的是,為了解決引入用戶信息而產生的噪聲問題,設計一個去噪機制,采用粗粒度和細粒度的選擇過程,通過計算答案和用戶信息的相似性以及對抗訓練兩個方法過濾掉與問答不相關的用戶信息。

6)BERT[13]:該模型僅使用BERT 中的[CLS]表示問題和答案的語義,然后通過全連接層和分類器來完成答案選擇任務。

7)GMN-BERT[14]:該模型使用預訓練模型BERT 獲得每個單詞的上下文表示,然后將上下文節點作為圖節點的初始表示,通過消息傳播和更新表示兩個步驟,使得每個節點既包含可到達節點的信息又包含了與另一個圖中所有節點成對比較的信息。最后使用兩個圖級表示預測句子對的相似性。

8)BERT-Pooling:該模型在預訓練模型BERT 的輸出層僅使用池化操作表示問答對的語義。

9)tBERT[15]:該模型分別用LDA 和GSDMM(Gibbs Sampling algorithm for the Dirichlet Multinomial Mixture model)主題模型與BERT 結合完成語義相似度檢測任務,其中LDA主題模型適合長文本,GSDMM 主題模型適合短文本。由于本文使用的數據集是長文本,故與LDA 主題模型結合BERT的tBERT 模型對比。該方法僅使用BERT 中的[CLS]表示問答對的語義,簡單地與問答對的主題信息進行拼接。

2.4 實驗分析

首先在tBERT 模型中加入對抗訓練(Adversarial Training,AT)并引入池化操作,然后引入主題信息特征組合并改進激活函數。為了驗證模型改進思路的可行性,分別對tBERT 模型及其改進模型進行實驗對比。

首先驗證在tBERT 模型中加入對抗訓練并引入池化操作改變問答對語義特征提取方式的可行性。問答對語義信息的提取非常重要,本文考慮到每個token 的信息以及模型的魯棒性,先對BERT 的輸出加入擾動生成對抗樣本,然后對原始向量和對抗樣本取平均作為問答對的語義表示。在tBERT 模型中分別加入對抗訓練和引入池化操作并將兩者疊加的結果如表3 所示。

表3 tBERT、tBERT-AT、tBERT-pooling和tBERT-AT-pooling模型的準確率和F1值的對比 單位:%Tab.3 Comparison of accuracy and F1 scores of tBERT,tBERT-AT,tBERT-pooling,and tBERT-AT-pooling models unit:%

由表3 可知,僅加入對抗訓練,提高了模型的魯棒性。對tBERT 和tBERT-pooling 分別引入對抗訓練后,改進后的模型的準確率和F1 值在SemEval-2016CQA 數據集下相較于原模型分別提高了1 和0.8 個百分點,0.8 和0.9 個百分點;在SemEval-2017CQA 數據集上分別提高了0.9 和1.1 個百分點,1 和0.9 個百分點。僅引入池化操作改變問答對語義特征的提取方式,改進后模型的準確率和F1 值在SemEval-2016CQA 數據集上相較于tBERT、tBERT-AT 模型分別提高了0.4 和0.3 個百分點,0.2 和0.4 個百分點;在SemEval-2017CQA 數據集上分別提高了0.3 和0.4 個百分點,0.2 和0.2 個百分點。加入對抗訓練并引入池化操作后模型的準確率和F1 值在SemEval-2016CQA 數據集上相較于tBERT 模型分別提高了1.2 和1.2 個百分點,在SemEval-2017CQA 數據集上分別提高了1.3 和1.3 個百分點。驗證了在tBERT 模型上加入對抗訓練并引入池化操作是可行的,而且兩者的疊加具有更好的效果。

然后驗證引入主題信息特征組合的可行性。為了讓模型更好地識別問答對主題信息的相關性,提升模型的整體預測能力,本文對問答對的主題信息進行按位減、點積操作從而得到主題信息特征組合。分別對比沒有進行特征組合的模型,結果如表4 所示。

表4 tBERT、tBERT-AT、tBERT-pooling以及tBERT-AT-pooling模型引入主題信息特征組合前后的準確率和F1值的對比 單位:%Tab.4 Comparison of accuracy and F1 scores of tBERT,tBERT-AT,tBERT-pooling and tBERT-AT-pooling models before and after introducing combination of topic information features unit:%

由表4 可知,對tBERT、tBERT-AT、tBERT-pooling 以及tBERT-AT-pooling 模型分別引入主題信息特征組合后,改進后模型的準確率和F1 值在SemEval-2016CQA 數據集下相較于各自原模型分別提高了0.3 和0.2 個百分點,0.3 和0.2 個百分點,0.4 和0.3 個百分點,0.4 和0.3 個百分點;在SemEval-2017CQA 數據集下相較于各自原模型分別提高了0.2 和0.2 個百分點,0.1 和0.2 個百分點,0.2 和0.3 個百分點,0.3 和0.5 個百分點,驗證了只引入主題信息特征組合對提升模型的性能是有效的。此外,tBERT-AT-pooling-特征組合模型相較于tBERT 模型,準確率和F1 值在SemEval-2016CQA 數據集下分別提高了1.6 和1.5 個百分點,在SemEval-2017CQA 數據集下分別提高了1.6 和1.8 個百分點,驗證了同時加入對抗訓練并引入池化操作和主題信息特征組合對提升模型的性能有更好的效果。

最后驗證改進激活函數的可行性。由于tanh 激活函數存在軟飽和性和梯度消失的問題,影響模型的性能。本文在tanh 和ReLU 激活函數的基礎上對隱藏層中的激活函數進行改進,分別對基線模型tBERT 和改進后的tBERT-pooling-特征組合、tBERT-AT-特征組合、tBERT-AT-pooling-特征組合模型使用不同的激活函數,其準確率和F1 值的對比如表5所示。

由表5 可知,對tBERT、tBERT-AT-特征組合、tBERTpooling-特征組合以及tBERT-AT-pooling-特征組合模型分別改進激活函數后,改進后模型的準確率和F1 值在SemEval-2016CQA 數據集下相較于各自原模型分別提高了0.9 和0.2個百分點,0.2 和0.2 個百分點,0.9 和0.9 個百分點,1.5 和0.5 個百分點;在SemEval-2017CQA 數據集下相較于各自原模型分別提高了0.7 和0.5 個百分點,0.2 和0.3 個百分點,0.3 和0.7 個百分點,0.6 和1.3 個百分點,驗證了改進激活函數對提升模型的性能是有效的。可以看出,僅改進tBERT模型中的激活函數在SemEval-2016CQA 數據集上的準確率和F1 值提升的效果差別較大,主要原因是該數據集的噪聲多,只改進激活函數對模型的整體性能的提升效果不明顯;并且對tBERT、tBERT-AT-特征組合、tBERT-pooling-特征組合、tBERT-AT-pooling-特征組合模型分別改進激活函數后,在兩個數據集的準確率和F1 值的提升效果有明顯的差別,這是因為SemEval-2016CQA 數據集中的答案包含較多的復雜背景信息,引入特征組合以及改進激活函數后,能夠過濾更多的噪聲詞。引入對抗訓練之后,本文模型在兩個數據集上的準確率和F1 值有所提升,進一步證明對抗訓練可以提升模型的魯棒性。此外,本文模型即tBERT-AT-pooling-特征組合-改進的激活函數模型相較于tBERT 模型,準確率和F1值在SemEval-2016CQA 數據集下分別提高了3.1 和2 個百分點,在SemEval-2017CQA 數據集下分別提高了2.2 和3.1 個百分點,驗證了同時加入對抗訓練并引入池化操作和主題信息特征組合以及對激活函數進行改進對提升模型的性能有更好的效果,而且幾個方面的改進具有明顯的疊加效果。

表5 tBERT、tBERT-AT-特征組合、tBERT-pooling-特征組合以及tBERT-AT-pooling-特征組合模型改進激活函數前后的準確率和F1值的對比 單位:%Tab.5 Comparison of accuracy and F1 scores of tBERT,tBERT-AT-feature combination,tBERT-pooling-feature combination and tBERT-AT-pooling-feature combination models before and after improving activation function unit:%

為了進一步驗證改進激活函數在其他任務上的有效性,在MSRP 數據集上對比基線模型tBERT 以及tBERT-改進后的激活函數,其準確率和F1 值如表6 所示。

表6 tBERT改進激活函數前后在MSRP數據集上的準確率和F1值的對比 單位:%Tab.6 Comparison of accuracy and F1 scores of tBERT,tBERT before and after improving activation function on MSRP dataset unit:%

由表6 可知,對tBERT 模型中的激活函數進行改進,改進后模型在MSRP 數據集上的準確率和F1 值相較于原模型分別提升了0.3 和0.2 個百分點。相較于Semeval-2016CQA和Semeval-2017CQA 數據集,改進tBERT 模型中的激活函數在MSRP 數據集的準確率和F1 值的提升效果有所差別,主要原因是激活函數與數據集的特征有關;但在兩個不同任務上性能均有提高,表明改進激活函數是有效的。

綜上所述,在tBERT 模型基礎上加入對抗訓練并引入池化操作改變問答對語義特征提取方式、引入主題信息特征組合以及改進激活函數是可行的。

為了進一步驗證本文模型的有效性,本文還對2.3 節所述的9 種模型進行了實驗對比,結果如表7 所示。

表7 相關模型準確率和F1值的對比 單位:%Tab.7 Comparison of accuracy and F1 scores of related models unit:%

從表7 可以看出,本文模型在SemEval-2016CQA 數據集上的準確率和F1 值分別達到80.7%和76.1%,在SemEval-2017CQA 上的準確率和F1 值分別達到80.5%和79.9%,均取得了最好的效果。實驗結果中,第二類模型即ECNU、Siamese-BiLSTM、UIA-LSTM-CNN 以及AUANN 模型整體性能優于第一類模型即LDA 主題模型。這是因為CNN 和BiLSTM 比LDA 主題模型能夠更有效地對問題和答案潛在的上下文語義信息進行建模。在第二類模型中,ECNU 和Siamese-BiLSTM 模型在兩個數據集上的結果有明顯的差異,在SemEval-2017CQA 數據集上的表現能力更好,這是因為SemEval-2017CQA 數據集相較于SemEval-2016CQA 數據集更加規整,噪聲詞較少。ECNU 模型相較于Siamese-BiLSTM 模型,在SemEval-2017 數據集上的表現能力較好。這是因為ECNU 模型除了用CNN 表示問答對的語義,還引入5 個額外的特征,有助于建立問答對的相關性。值得注意的是,AUANN 模型在第二類模型中性能表現最佳,這是因為AUANN 模型在UIA-LSTM-CNN 模型的基礎上加入了問題-答案、問題-用戶信息交互模塊并引入了對抗訓練過濾掉與問題無關的用戶信息。本文模型相較于AUANN 模型,在兩個數據集上的準確率分別提高了0.2 和2 個百分點,F1 值分別提高1.6 和0.1 個百分點。這是由于本文模型在嵌入層增加對抗樣本并引入池化操作改變問答對語義的提取方式,能夠更有效地表示問題和答案深層的語義特征。此外,本文模型還引入特征組合整合問答對的主題信息豐富問答對的語義表示,相較于用戶信息作為額外特征,引入問答對主題信息特征組合更能增強問答對的語義表示。

第三類模型都使用預訓練模型BERT 表示問答對的語義信息,相較于前兩類模型,BERT 模型使用Transformer 的編碼器提取問答對信息。BERT-pooling 相較于BERT 模型,在兩個數據集上的準確率分別提高了0.5 和0.9 個百分點,F1值分別提高了0.6 和0.7 個百分點。說明對BERT 的輸出取平均作為問答對的表示效果更好。GMN-BERT 相較于BERT-pooling 模型,在兩個數據集上的準確率分別提高了0.6 和0.4 個百分點,F1 值分別提高了0.3 和0.5 個百分點。這是由于圖神經網絡能夠捕捉全局結構信息,與預訓練模型相結合能夠利用問答對潛在的語義關系。在第三類模型中,tBERT 在兩個數據集上的性能表現最佳。這是因為tBERT模型增加了額外的主題信息特征,更加豐富了問答對的語義特征表示。

綜上所述,本文模型的綜合性能優于所有對比模型。這是因為:本文模型加入對抗訓練并引入池化操作改變問答對語義特征的提取方式;其次,引入主題信息特征組合加強文本主題信息間的聯系,增強問答對的語義表示;最后,本文模型改進了隱藏層的激活函數,增強了特征的魯棒性,從而提高模型的整體性能。

2.5 案例分析

為了直觀地看出本文模型的有效性,首先選用Semeval-2017CQA 數據集中的一個例子并可視化對抗訓練和池化方法對問題的注意權重。顏色深淺表示單詞的重要程度,顏色越深越重要。其結果如表8 所示。

從表8 可以看出,tBERT 模型和本文模型都關注了“salary”“negotiating”“mechanical engineer”“grade 5 in a government company”“Qatar”詞語。不同的是,tBERT 模型對“mechanical engineer”和“Qatar”賦予最高的注意權重,把注意力重點放在“mechanical engineer”和“Qatar”上。而本文模型由于使用對抗訓練和池化方法,使得模型對“How much salary”“salary of mechanical engineer”“grade 5 in a government company”及“benefits”賦予最高的注意權重。兩個模型對同一問題預測的答案如表9 所示。

表8 tBERT模型與本文模型對同一例子的注意力可視化對比Tab.8 Comparison of attention visualization to the same example between tBERT and proposed model

由表9 可知,tBERT 模型錯誤地預測了該例子的答案,但是本文模型預測正確。由于兩個模型對問題中的詞語的注意權重不同導致不同的結果。tBERT 模型根據問題主題詞“mechanical engineer”“Qatar”來預測答案;由于本文使用主題信息特征組合方法,使得模型預測答案的主題詞與問題的主題詞相關聯,如答案中的“12-15”“free government housing、3 000 mobile and internet allowance”分別與問題中的“How much”“benefits”相對應。從注意力可視化到預測答案的結果可以看出,對抗訓練和池化方法使得模型關注重點詞語并弱化不重要的詞語的權重;主題信息特征組合方法,加強問題和答案的主題信息間的聯系,最終提升了模型的性能。

表9 tBERT模型與本文模型對同一問題的預測答案的對比Tab.9 Comparison of answers to the same question predicted by tBERT and proposed model

3 結語

對于答案選擇任務存在的問答對語義信息表示不完整的問題,本文在tBERT 模型基礎上,引入對抗訓練和池化操作來表示問答對的語義信息。由于簡單地拼接主題特征不能有效地建立特征之間的聯系,本文引入點積操作和按位減操作加強問答對主題特征間的聯系,進而增強問答對的語義表示。實驗結果表明本文模型相較于tBERT 模型能更好地提取問答對的語義特征以及提高模型預測能力;但是深入挖掘問答對中潛在的語義特征,僅利用主題模型作為輔助是不夠的。在未來的工作中,我們將進一步研究使用圖神經網絡或者將知識庫嵌入到預訓練模型中完成答案選擇任務。

猜你喜歡
語義特征信息
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 日韩成人高清无码| 欧美日韩亚洲国产| 国产又大又粗又猛又爽的视频| 国产亚洲欧美在线视频| 亚洲天堂高清| 亚洲伊人电影| 亚洲系列无码专区偷窥无码| 亚洲天堂日本| 成人在线不卡| 国产高清在线精品一区二区三区 | 国产福利在线观看精品| 久久先锋资源| 日本一本在线视频| 一区二区在线视频免费观看| 久久熟女AV| 国产成人亚洲无吗淙合青草| 国产电话自拍伊人| 亚洲美女AV免费一区| 91青青草视频| 亚洲天堂视频在线播放| 亚洲国产清纯| 久久女人网| 亚洲欧洲综合| 伊人久久婷婷| 精品一区二区三区波多野结衣| 亚洲三级影院| 亚洲 欧美 中文 AⅤ在线视频| 九色在线观看视频| 91精品国产麻豆国产自产在线| 欧美成人日韩| 国产男女免费视频| 亚洲不卡影院| 国产精品爆乳99久久| 久久免费看片| 青青青伊人色综合久久| 无码国产偷倩在线播放老年人| 亚洲首页国产精品丝袜| 九色视频最新网址| 性网站在线观看| 国产sm重味一区二区三区| 国产国语一级毛片| 亚洲V日韩V无码一区二区| 国产精品偷伦视频免费观看国产| 久久久精品无码一二三区| 在线五月婷婷| 久久窝窝国产精品午夜看片| 5555国产在线观看| 在线欧美a| 天天色综网| 国产精品伦视频观看免费| 成人在线天堂| 国产va视频| 女人18毛片一级毛片在线| 亚洲欧美精品在线| 色妞永久免费视频| 欧美在线精品一区二区三区| 久久精品最新免费国产成人| 亚洲国产成人精品一二区| 网友自拍视频精品区| 亚洲中文字幕23页在线| 亚洲色欲色欲www网| 最新国语自产精品视频在| 精品一区二区三区中文字幕| 天堂成人av| 韩日无码在线不卡| 青青青视频免费一区二区| 国产女人在线视频| 毛片免费观看视频| 国产成人亚洲精品无码电影| 熟女视频91| 色偷偷av男人的天堂不卡| 欧美一区日韩一区中文字幕页| 亚洲无码视频一区二区三区| 国产专区综合另类日韩一区| 婷婷午夜影院| 色综合国产| 五月激情综合网| 538国产视频| 国产在线精品人成导航| 国产区免费精品视频| 国产乱码精品一区二区三区中文 | 东京热一区二区三区无码视频|