999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合多角度特征的文本匹配模型①

2022-08-04 09:58:40馬中昊黃浩鈺張遠明
計算機系統應用 2022年7期
關鍵詞:文本融合實驗

李 廣,劉 新,馬中昊,黃浩鈺,張遠明

(湘潭大學 計算機學院·網絡空間安全學院,湘潭 411105)

在自然語言處理(NLP)中,文本匹配[1]是研究對給定的兩個文本,采用匹配模型預測兩個文本在某種意義上是否相似. 自動評分系統[2]、推薦系統[3]、問答系統[4]、信息檢索[5]等都可以抽象成一個文本匹配問題. 在主觀題評分過程中,系統可以判斷用戶的答案與標準答案相似性來進行評分,極大的減少了教師的工作量. 對于推薦系統,可以根據用戶瀏覽的信息來推薦同領域或者同事件的相關信息. 問答系統中的答案匹配可以減少對人工客服的需求. 在信息檢索中,查詢文檔匹配結果的準確性和相關性都很重要. 所以對文本相似度匹配任務的研究是必要且是具有重要意義的.

傳統的文本匹配基于TF-IDF[6]、BM25[7]、VSM[8]等的算法,主要解決了詞匯層面的匹配問題,但還是存在如“同義詞”“一詞多義”“雙關”等的局限性. 雖然淺層語義分析LSA[9]、LDA[10]等技術可以彌補傳統方法的不足,但是還是不能完全替代關鍵詞匹配技術. 隨著深度學習不斷地發展,對深度文本匹配模型的研究也層出不窮. 大致可以分為兩類: 表示型和交互型. 表示型模型注重對文本的唯一表示,經典的模型有DSSM[11]、CDSSM[12]、MV-LSTM[13]等,但是此類模型容易失去語義焦點,難以把握詞的上下文的重要性. 交互型模型將詞匹配信號作為后續的建模,經典的模型有ARCII[14]、Match-SRNN[15]、DRMM[16]等,但此類模型忽略了句型、句間關系等全局性信息.

針對以上問題,本文提出了一種融合多角度特征的文本匹配模型. 以孿生網絡為基本架構,對輸入文本使用BERT 模型進行詞向量化表示,BERT 轉化的詞向量本身具有一定的語義信息,使用BERT 詞向量計算出兩個文本之間詞向量的相似度再融合到兩個文本中,加強輸入文本的語義. 對文本進行詞性的標注后,使用Bi-LSTM 對兩個文本對應的詞性序列進行編碼,使用Transformer 編碼器對兩個文本信息和文本的詞性進行特征提取,并使兩個文本之間對應的信息進行多層次的信息交互. 對輸出后的語義表示進行池化之后,將兩個文本對應信息進行對齊拼接送入多層感知機(MLP)中進行兩個文本之間的語義匹配. 在Quora部分數據集上的實驗表明,本模型相比于經典深度匹配模型有更好的表現.

1 NLP 技術的主流框架

孿生網絡[17]包含兩個或者更多相同子網絡的神經網絡架構,子網絡共享參數和權重,孿生網絡在探索兩個樣本之間的關系任務中起到很大的作用,子網絡結構的參數和權重共享,使訓練的參數極大的減少,孿生網絡結構可以提取文本整體的語義再送入匹配層進行匹配,利于更好的探索兩個文本之間的相似性和聯系.

雙向長短期記憶模型(Bi-LSTM)[18]由長短期記憶神經網絡(LSTM)發展而來,Bi-LSTM 是由前向的LSTM 和后向的LSTM 組成. 單向的LSTM 能捕捉較長距離的文本信息之間的依賴關系. 雙向的LSTM 能捕捉雙向的文本信息的依賴關系,從兩個方向對輸入序列進行特征提取.

Transformer 由Google 在2017 年發表的論文中提出[19],該模型在很多其他語言理解任務上都超越了以往的模型. 與循環神經網絡類模型相比,Transformer 不需要循環的處理,結合位置信息可以并行地處理所有的單詞和符號,同時利用自注意機制將上下文的信息結合起來并行處理,并且在處理過程中可以注意到文本中重要的信息,訓練速度相比于循環神經網絡有很大的提升,訓練的效果也超越了以往的模型,逐漸替代了循環神經網絡模型.

BERT[20]是一個預訓練語言模型,以Transformer為主要框架,捕捉文本中的雙向關系,通過mask language model (MLM)和next sentence prediction (NSP)兩個任務來預訓練模型,進一步增加了詞向量模型的泛化能力,對字符級、詞級、句子級甚至句間關系特征都可以充分描述,利用BERT 的特征表示代替Word2Vec[21]的特征表示作為任務的詞嵌入特征,相較于詞袋模型,BERT 的特征表示包含了更多的語義信息.

2 融合多角度特征的文本匹配模型IMAF

基于孿生網絡結構的IMAF (text matching model incorporating multi-angle features)模型由輸入層、交互層、表示層、預測層組成,在輸入層利用BERT 模型訓練出來的特征作為匹配任務的詞嵌入特征,解決一詞多義問題; 利用BERT 的詞向量特征計算兩個文本的詞相似度,并將相似度結果融合到文本特征矩陣中,增強局部特征; 對輸入文本進行詞性標注后,利用Bi-LSTM 對文本的詞性信息進行詞性嵌入編碼; 在表示層利用Transformer 編碼器作為特征提取; 在交互層對兩個文本融合詞相似度信息和詞性信息分別進行的注意力[22,23]交互,讓模型對重點信息關注并充分學習; 在預測層,將交互后的結果進行池化之后送入多層感知器最終通過LogSoftmax 分類器得到兩個文本的匹配結果. IMAF 結構如圖1,N為Transformer 編碼器數量.

圖1 IMAF 結構圖

2.1 輸入層

本文使用BERT 模型將文本轉化為詞級別嵌入矩陣. 相比于Word2Vec,BERT 生成的特征矩陣由單詞周圍的單詞動態生成,包含了上下文信息,可以更好地解決一詞多義的問題. 該模型擁有12 個Transformer 編碼器,隱藏層維度為768 維,每個編碼器擁有12 個注意力頭.

BERT 生成的嵌入矩陣含有豐富的語義信息,計算兩個文本的詞相似度作為匹配信號再分別融合到嵌入矩陣中,增強文本的語義表示. BERT 對文本1 的矩陣表示為A,BERT 對文本2 的矩陣表示為B,計算如下,其中,||A||2和||B||2代表矩陣A和B的二范數:

W包含了A與B的詞相似度信息,再分別融入矩陣A和矩陣B中得到融合詞相似度的矩陣,融合計算過程如下:

對于詞性,將文本的詞性序列進行向量表示,送入Bi-LSTM 模型學習文本語句結構的特征表示,例如,給定一個長度為n的文本序列[w1,w2,···,wn],將單詞在文本中的詞性標注映射到向量空間,對于單詞wi的詞性,都有一個唯一的索引表示,通過將詞性向量序列pos[w1,w2,···,wn]輸入到Bi-LSTM 從兩個方向,即前向和后向,學習語句結構特征表示. 公式如下:

2.2 表示層

表示層通過Transformer 編碼器對輸入的信息進行特征提取,編碼器由N個相同的layer 組成,每個layer分別由多頭注意力機制(multi-head self-attention mechanism)和全連接層(fully connected feed-forward network)兩個子層組成,每個子層都做了參差連接(residual connection)與歸一化(normalisation)操作,Transformer 編碼器的內部結構如圖2 所示.

后來母親還告訴過,就是在翠姨還沒有訂婚之前,有過這樣一件事情。我的族中有一個小叔叔,和哥哥一般大的年紀,說話口吃,沒有風采,也是和哥哥在一個學校里讀書。雖然他也到我們家里來過,但怕翠姨沒有見過。那時外祖母就主張給翠姨提婚。那族中的祖母,一聽就拒絕了,說是寡婦的孩子,命不好,也怕沒有家教,何況父親死了,母親又出嫁了,好女不嫁二夫郎,這種人家的女兒,祖母不要。但是我母親說,輩分合,他家還有錢,翠姨過門是一品當朝的日子,不會受氣的。

圖2 Transformer 編碼器

使用Transformer 進行特征提取,增強輸入信息的矩陣表示,步驟如下:

(1)文本經過輸入層的處理得到輸入矩陣維度為S×E,其中,S為最大序列長度,E為嵌入維度. 本文中S為32,E為768. 假設一個文本經過輸入層處理的輸入矩陣為AS×E. 和對應的語句結構特征表示(XA)S×E. 以矩陣A做計算為例,對于另一文本的矩陣B和(XB)S×E做相同計算.

(2)通過注意力機制計算矩陣Q(query)、K(key)、V(value),其中,WQ、WK、WV為權重矩陣.

(3)得到矩陣Q、K、V之后進行self-attention 計算. 其中dk為K的維數.

(4)通過多頭注意力,即m個不同線性變換對Q、K、V進行投影,最后將所有的attention 結果拼接得到M,傳入一個線性層得到的多頭注意力的輸出Mattention,其中m為注意力的頭數.

(5)再對得到的結果進行殘差連接和歸一化之后作為全連接層的輸入.

(6)最后送入全連接層之后再進行一次殘差連接和層歸一化,得到最終結果,輸出矩陣的維度與A一致.

2.3 交互層

經過Transformer 特征提取后的文本1 的矩陣表示為AS×E、對應的詞性嵌入矩陣為 (XA)S×E,文本2 的矩陣表示為BS×E,對應的詞性嵌入矩為(XB)S×E.

計算兩個文本信息的交互注意力矩陣(Sattention)S×S:

對(Sattention)S×S的每一行進行最大池化操作,再融合到A得到交互后的A,此時A包含了B對A中所有的詞注意力權重信息,計算如下:

對(Sattention)S×S的每一列進行最大池化操作,再融合到B得到交互后的B,此時B包含了A對B中所有的詞注意力權重信息,計算如下:

計算兩個文本對應的詞性嵌入矩陣交互注意力矩陣(Pattention)S×S:

對(Pattention)S×S的每一行進行最大池化操作,再融合到XA得到交互后的XA,此時XA包含了XB對XA中所有的詞性注意力權重信息,計算如下:

對(Pattention)S×S的每一行進行最大池化操作,再融合到XB得到交互后的XB,此時XB包含了XA對XB中所有的詞性注意力權重信息,計算如下:

再將結果進行求和與歸一化,經過N次的交互后,使得到的結果包含更多的交互信息和上下文信息,其中N為Transformer 編碼器的數量.

2.4 預測層

假設經過交互后的兩個文本矩陣表示為A32×768和B32×768,預測方法來自文獻[24,25],分別經過最大池化后得到對應向量為a和b; 對應的交互后的詞性矩陣表示為(XA)32×768和(XB)32×768,分別經過最大池化后得到對應向量為x1和x2; 進行向量拼接后送入多層感知機,得到匹配結果,計算如下:

其中,a×b表示向量a與向量b按位相乘,注重兩個文本相同的地方; |a–b|代表向量a與向量b按位相減后的絕對值,注重兩個文本相異的地方,H為多層的前饋神經網絡,將6 個向量拼接后送入多層的前饋神經網絡經過LogSoftmax 分類器得到最終的預測結果,計算如下:

3 實驗及分析

3.1 數據集

Quora Question Pair 是美國知識問答網站Quora發布的數據集,包含了40 萬對的問句對,旨在判斷兩句話是否同義. 為了驗證模型在少數據量和短文本上情況下的有效性,從中抽取了2 萬對短文本句子,相同含義的句子標記為1,不同為0,并將其切分為訓練集(15 996 對)、驗證集(2 002 對)和測試集(2 002 對).

3.2 評估準則

實驗采用的評估準則是F1 值和準確率Acc,F1 值由精確度和召回率得到,TP(true positive)為真正例,FP(false positive)為假正例,FN(false negative)為假負例,TN(true negative)為真負例,計算如下:

3.3 模型參數設置

模型的復雜程度通常與Transformer 編碼器的層數設置有著莫大的關系,往往層數越多,訓練時間越長.因此找到一個層數少,訓練速度快且準確率高的模型是迫切的. 本文將Transformer 編碼器層數分別設置為1、2、3、4、5、6.F1 值與Transformer 編碼器層數的實驗結果如圖3 所示,Acc值與Transformer 編碼器層數的實驗結果如圖4 所示,最終將編碼器層數設置為3.

圖3 F1 值隨編碼器層數變化圖

圖4 Acc 值隨編碼器層數變化圖

表示層的性能與注意力頭數有關. 但數量過多可能導致模型過擬合. 本文將注意力頭的個數設置為4、6、8、12.F1 值與編碼器注意力頭數的實驗結果如圖5所示,Acc值與編碼器注意力頭數的實驗結果如圖6 所示,最終將編碼器注意力頭數設置為8.

圖5 F1 值隨注意力頭數變化圖

圖6 Acc 值隨注意力頭數變化圖

訓練模型時需要關注模型的收斂情況,如果模型收斂了就應當停止訓練,否則模型將會過擬合,達不到期望的效果. IMAF 模型收斂情況如圖7 所示. 訓練次數在20 左右模型就已經開始收斂,因此將訓練次數設置為25.

圖7 IMAF 模型收斂情況

3.4 實驗對比

IMAF 模型實驗部分主要參數如表1 所示.

表1 模型參數設置表

為了驗證IMAF 模型的效果,本文選取多個經典的文本匹配模型進行對比實驗.

針對DSSM 和CDSSM 無法捕捉較遠距離的上下文距離的缺點,文獻[26]提出了LSTM-DSSM 來解決該問題.

針對現有模型計算能力弱和特征提取能力弱的缺點,文獻[27]提出了Transformer-DSSM 模型.

實驗引入僅使用詞相似度IMAFword-similary模型,以及利用LSTM 的變種代替DSSM 的深度神經網絡BiLSTM-DSSM、BiGRU-DSSM 和GRU-DSSM 做對比實驗. 模型對比實驗表如表2 所示.

表2 模型對比實驗結果表

從實驗結果可以看出,本文提出的IMAF 模型的F1 值達到了83.83%,準確率和召回率都有著不俗的表現,從前5 組實驗驗證了Transfomer 編碼器提取特征的能力,由第5、6 組實驗驗證了引入詞相似度的有效性; 由第6、7 組實驗可知,IMAF 模型的文本句型結構信息的引入確實提升了文本匹配的效果,由第1、5、7 組實驗可知,IMAF 模型在文本匹配方面有著不錯的效果,主要體現在召回率、F1、準確率的提升. 其原因在于: 利用詞相似度融合加強文本信息,使之后的操作能更好的衡量詞上下文重要性,利用Transformer 編碼器作為優秀的特征提取器,利用文本信息和句型結構信息的多次交互學習到更豐富的特征表現形式,對文本匹配的效果有著不錯的表現.

4 結束語

針對現有文本匹配模型存在一些的問題,提出了一種融合多角度特征的文本匹配模型IMAF,該模型以孿生網絡為基礎架構,融合了詞相似度,對文本的信息和句型結構信息進行多層的交互,使模型學習到更加豐富的特征表示,從對比實驗結果來看,本文提出的IMAF 模型在文本匹配上有著不錯的效果.

猜你喜歡
文本融合實驗
記一次有趣的實驗
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 呦女亚洲一区精品| 色老二精品视频在线观看| 亚洲手机在线| 青青青视频免费一区二区| 欧美国产精品拍自| 国产一二三区在线| 久久女人网| 国产在线精品99一区不卡| 国产啪在线91| 亚洲欧美天堂网| 国产女主播一区| 第一区免费在线观看| 国产精品性| 国产老女人精品免费视频| 91久久偷偷做嫩草影院精品| 成人福利在线视频免费观看| 久久夜色精品国产嚕嚕亚洲av| 久久夜色精品| 亚洲一区国色天香| 欧美综合中文字幕久久| 99热在线只有精品| 中文无码日韩精品| 一区二区三区四区精品视频 | 人与鲁专区| 色精品视频| 99久久无色码中文字幕| 国产另类乱子伦精品免费女| 日本91视频| 99久久精品国产自免费| 91福利免费视频| 欧美另类一区| 丁香五月亚洲综合在线| 高清视频一区| 91小视频版在线观看www| 日韩在线2020专区| 国产精品刺激对白在线| 少妇高潮惨叫久久久久久| 青青草91视频| 亚洲婷婷丁香| 国产不卡在线看| 欧美日韩精品一区二区视频| 国产精品久久久精品三级| 久久公开视频| 狠狠色噜噜狠狠狠狠色综合久| 亚洲一区二区无码视频| 日本亚洲成高清一区二区三区| 欧美国产日韩另类| 日本国产在线| 国产精品福利一区二区久久| 中文字幕无线码一区| 制服丝袜亚洲| 亚洲床戏一区| julia中文字幕久久亚洲| 天天摸天天操免费播放小视频| 91精品啪在线观看国产91九色| 99久久精品国产综合婷婷| 四虎国产在线观看| аv天堂最新中文在线| 激情亚洲天堂| 内射人妻无套中出无码| 亚洲经典在线中文字幕| 久久无码av三级| 99热这里只有精品免费| 永久成人无码激情视频免费| 少妇被粗大的猛烈进出免费视频| 国产乱人激情H在线观看| 中文字幕日韩久久综合影院| 美女内射视频WWW网站午夜 | 国产特级毛片| 又爽又大又光又色的午夜视频| 老司国产精品视频| 国产亚洲精| 一本综合久久| 久久永久精品免费视频| 欧美精品另类| 国产成人做受免费视频| 亚洲第一成年免费网站| 欧美成人手机在线观看网址| 亚洲国产清纯| 国产自产视频一区二区三区| 国产一级二级三级毛片| 国产一级二级在线观看|