999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合外部語義知識的中文文本蘊含識別

2021-01-15 07:17:24李世寶趙慶帥殷樂樂劉建航黃庭培
計算機工程 2021年1期
關鍵詞:語義文本模型

李世寶,李 賀,趙慶帥,殷樂樂,劉建航,黃庭培

(中國石油大學(華東)海洋與空間信息學院,山東青島 266580)

0 概述

文本蘊含識別也稱為自然語言推理,是一項基礎而又重要的自然語言處理任務。該任務給定前提文本(P)與假設文本(H),然后從語義層面識別出P 和H 之間的單向推理關系,包括蘊含、矛盾、中立3 種關系[1],并且在文本蘊含識別任務上所取得的進展可進一步提高文本摘要、語義搜索、閱讀理解和問答等任務的性能[2]。

早期研究多數采用統計及機器學習方法進行文本蘊含識別[3]。近年來,端到端訓練的神經網絡模型在閱讀理解、情感分析和機器翻譯等自然語言處理任務中表現出色,由此研究人員提出了一些組合多種神經網絡和注意力機制的文本蘊含識別模型,并且經過大量數據訓練,取得了相當高的訓練精度。這些文本蘊含識別模型大致可以分為兩類。一類側重編碼器設計,能夠較好地對句子特征進行編碼,并且整體網絡結構簡單,是早期的主流方向。文獻[4]使用長短期記憶(Long Short-Term Memory,LSTM)網絡分別學習前提和假設的句子表示并對其進行串聯及分類。文獻[5]進一步使用雙向LSTM(Bi-directional LSTM,BiLSTM)網絡對句子進行編碼,并運用句子內自注意力機制更好地增強句子編碼能力。文獻[6]設計HBMP 模型進行句子編碼,相比使用單一的BiLSTM 層效果更佳。另一類注重句間交互,引入句間注意力機制提取句子之間的語義信息,能夠更好地識別句子之間的語義關系。文獻[7]提出一個逐詞注意力模型,對文本中隱含的前提和假設之間的關系進行編碼。文獻[8]對文獻[7]做了進一步擴展,解決了學習注意力權重前提下單個向量表示的局限性問題。文獻[9]提出雙向多視角匹配機制,分析并對比了多種注意力機制的匹配策略。文獻[10]提出一種增強序列推理模型(Enhanced Sequential Inference Model,ESIM),利用兩層不同的BiLSTM 網絡和注意力機制對文本進行編碼。

但是由于上述模型僅從訓練數據中學習推理知識,受限于訓練數據集規模,導致模型泛化能力較弱[11],因此文獻[12]利用WordNet 作為外部知識,增強了模型在不同測試集上的泛化能力,為結合外部知識的相關研究提供了參考。文獻[13]在模型中使用多個英文知識庫,并引入知識圖概念,提高了模型識別性能。然而,基于神經網絡的文本蘊含識別在中文領域的研究較少[14],且知網(HowNet)等中文外部語義知識庫與WordNet知識庫有較大區別,使得無法直接遷移并應用基于英文數據集的文本蘊含識別模型。因此,本文提出中文知識增強推理模型(Chinese Knowledge Enhanced Inference Model,CKEIM),通過分析中文語義知識庫的特點,精確提取詞級的語義知識特征以構建注意力權重矩陣,同時將其融入神經網絡訓練過程。

1 知識庫處理

1.1 知識庫結構分析

HowNet 知識庫[15]的層次結構為詞語-義項-義原,其包含2 000 多個基礎義原,將詞語從語義上進行拆分,同一個詞語的不同含義分為多個義項,每個義項又由多個義原組合而來。如圖1 所示,詞語“蘋果”有多種含義,分別代表“電腦”“手機”“水果”以及“樹木”。每一種含義表示一個義項,用多個義原加以注解。在HowNet 中,使用“樣式值”“攜帶”“特定品牌”和“電腦”等義原描述“蘋果”表示電腦品牌時的義項,并以樹狀結構進行組織。本文忽略了義原之間的結構關系,并且對于每個詞語,將其所有的義原歸類為無序集。

圖1 HowNet 結構示意圖Fig.1 Schematic diagram of HowNet structure

同義詞詞林[16]將中文同義詞以及同類詞進行劃分和歸類,分為5 層層次結構,其中1 層~4 層僅包含分類編碼信息,沒有具體詞匯。本文使用改進版同義詞詞林[17]將原子詞群中較抽象的概念提取到1 層~4 層的分類節點中,使1 層~4 層的分類節點包含代表整個類別的具體概念,如提取“生物”“人”“植物”“動物”等抽象概念并將其放置于大、中、小3 類高層節點中。

為方便表述,本文使用的符號定義如下:HowNet中所有的義原、義項和詞語集合分別表示為ε、S和W;語料庫包含K=|ε|個義原、M=|S|個義項以及N=|W|個詞語;Sw表示詞語w∈W所包含的義項集合表示詞語w所包含義原的無序集合;εs表示義項s∈Sw所包含義原的無序集合。

1.2 知識庫特征提取

通過HowNet 知識庫結構可知,在使用HowNet知識庫計算兩個詞語的相似度時,如“蘋果”和“梨”的相似度,由于“梨”只有“水果”1 種義項,而“蘋果”有“電腦”“水果”“手機”“樹木”4 種義項,這樣就會出現4 個差距相當大的相似度,如果取相似度的最大值或者平均值,則會造成誤差,而在相互為多義詞的詞語之間計算相似度會產生更大的誤差。本文設計一個義項選擇器結構,如圖2 所示,在模型訓練時根據詞語p5的上下文信息p1、p6等,計算出其與各個義原匹配的概率,進而選出當前詞語p5所代表的真正義項,然后進行詞語間的相似度計算。

圖2 義項選擇器結構Fig.2 Structure of sense selector

對于義原概率預測器,假設給定上下文w1,w2,…,wt,…,wn,經過BiLSTM 網絡編碼后,得到詞語wt的上下文向量,H0為向量gt的維度。將gt輸入到預測器中,可生成詞語wt包含的每個義原ek與gt的關聯度。由于義原是最小的語義單位,任何兩個不同的義原之間不存在語義重疊,因此詞語wt包含的義原ek事件為獨立,當前詞語wt在上下文語境中編碼后得到的上下文向量gt與義原ek的關聯度可表示為,如式(1)所示:

對于義項概率預測器,由于一個義項會包含一個或多個義原,因此根據在義原概率預測器中得到的ek與gt的關聯概率可進一步得到詞語wt中各義項s與gt匹配的概率P(s|gt),如式(2)所示:

由以上設計的義項選擇器可計算出詞語wt在當前語境下概率最大的義項smax。在確定義項后,根據混合層次結構的HowNet 詞語相似度計算方法[19],精確計算出詞語wi和wj在具體語境中的相似度Zij。

由于提取的同義詞詞林特征包含詞語相似度特征以及詞語上下位特征,因此將基于信息內容的詞林詞語相似度計算方法[17]作為相似度特征的提取方法,使提取到的詞語wi和wj之間的相似度表示為Cij。同義詞詞林共5 層結構,設層次結構中兩個詞語之間的距離為n,可提取的詞語間上下位信息具體包括:

1)上位詞特征Sij:如果一個詞語wj是另一個詞語wi的上位詞,該特征取值為1-n/4,如[蘋果,水果]=0.75,[蘋果,植物]=0.5。

2)下位詞特征Xij:與上位詞特征正好相反,如[水果,蘋果]=0.75。

最終將外部語義知識庫中提取到的4 個特征組合成特征向量Rij=[Zij,Cij,Sij,Xij],并將其作為外部語義知識融入神經網絡中。

2 CKEIM 模型

在CKEIM 模型中,設前提語句p=[p1,p2,…,],假設語句h=[h1,h2,…,hlh],首先對語句進行編碼,使用預訓練的詞向量對詞語進行初始化,然后輸入BiLSTM 網絡進行編碼,獲得上下文相關的隱層向量,如式(3)、式(4)所示:

其中,(E(p),i)表示前提語句p的第i個詞語初始化后的詞向量,(E(h),j)表示假設語句h的第j個詞語始化后的詞向量。

根據HowNet 知識庫中提取的詞語相似度特征Zij,結合BiLSTM 網絡輸出的隱層向量的內積可計算出知識增強的協同注意力權重Mij,如式(5)所示:

其中,λ為超參數。將得到的注意力權重歸一化后可得到注意力權重矩陣μij和ηij,進而得到前提語句中的每個詞語在假設語句中相關語義信息的向量表示,以及假設語句中每個詞語在前提語句中相關語義信息的向量表示,如式(6)、式(7)所示:

其中,F是前饋神經網絡,其以ReLU 為激活函數。

經過拼接并降維后得到的關系向量包含了大量詞語間的推理信息,需要進行組合并提取出語句級的推理信息,因此再用一層BiLSTM 網絡進一步收集并組合這些信息,提取前提和假設文本之間語句級的推理關系,得到包含語句級推理關系的向量和,如式(10)、式(11)所示:

圖3 CKEIM 模型結構Fig.3 Structure of CKEIM model

3 實驗結果與分析

3.1 實驗數據集

本文在RITE 和CNLI 兩個中文文本蘊含數據集上進行相關實驗。

1)RITE:該數據集收集了2012 年和2014 年日本國立情報學研究所組織的NTCIR 項目發布的2 600 個文本對,其中,訓練集中有2 000 個文本對,測試集中有600 個文本對。數據集涵蓋多音字、同音字等多種語言現象,包括人文、歷史、政治等多種題材,并且以識別準確率作為評價標準。

2)CNLI:該數據集由SNLI 數據集通過機器翻譯和人工篩選得到,包括145 000 個文本對,其中,訓練集有125 000 個文本對,驗證集和測試集各有10 000 個文本對,分類結果包括蘊含、矛盾和中立3 種關系,每個文本對具有唯一的標簽,并且以識別準確率作為評價標準。

3.2 實驗參數設置

CKEIM 模型的實驗參數設置如下:單詞嵌入與BiLSTM 網絡隱藏層的維度均為200 維,使用騰訊AI實驗室[20]發布的200 維中文詞向量初始化詞嵌入,詞表中不存在的詞語會隨機初始化;將Adam[21]作為隨機梯度優化策略,初始化學習率為0.000 4,批處理(Mirri-batch)大小為32;利用哈爾濱工業大學的LTP語言云[22]作為中文分詞工具。

為便于對比,ESIM 等基線模型的實驗參數、實驗環境、實驗設置與CKEIM 模型相同。首先從集合{0.2,0.5,1,1.5,2,5,10,15,20}中依次選取計算注意力權重的超參數λ并在訓練集上進行訓練。然后根據測試集的實驗結果選擇效果最優的λ值,再以此λ值為基礎,通過調整±(0.1~0.5)的步長改變λ值,直到找到實驗效果最優的λ值。最后得到CNLI 數據集的最佳λ值為1,RITE 數據集的最佳λ值為20。

3.3 結果分析

表1 為本文CKEIM 模型與BiLSTM+廣義池化層模型、BiLSTM+句內注意力模型[5]、BiLSTM+最大池化層模型[6]、HBMP 模型[6]和ESIM 模型[10]在大規模CNLI 數據集上的識別準確率對比。由于在神經網絡中結合外部知識的文本蘊含識別模型都是基于英文知識庫,無法在中文數據集上進行比較,因此本文選擇其基礎模型ESIM 作為主要基線模型,同時與其他經典模型進行對比。表2 為CKEIM 模型與BiLSTM+廣義池化層模型、BiLSTM+句內注意力模型、HBMP 模型和ESIM 模型在小規模RITE 數據集上的識別準確率對比。

表1 6 種模型在CNLI 數據集上的識別準確率對比Table 1 Comparison of recognition accuracy of six models on CNLI dataset %

表2 5 種模型在RITE 數據集上的識別準確率對比Table 2 Comparison of recognition accuracy of five models on RITE dataset %

由表1 可以看出,CKEIM 模型在大規模CNLI 數據集上達到81.4%的識別準確率,比ESIM 模型提高了0.9 個百分點,也明顯優于其他經典模型。由表2可以看出,CKEIM 模型在小規模RITE 數據集上優勢更加明顯,超出ESIM 模型3.3 個百分點。可見,CKEIM 模型在兩種數據集上都要優于ESIM 基線模型及其他經典模型,且在小規模RITE 數據集上優勢更加明顯,因此其泛化能力更強,從而說明本文CKEIM 模型通過將中文外部語義知識融入神經網絡,提高了模型識別準確率和泛化能力。

為比較不同規模訓練集下外部語義知識對識別效果的影響,更進一步驗證模型識別準確率和泛化能力,將CNLI 數據集進行拆分并在整個訓練集上隨機采樣得到原訓練集4%、15%、50%和100%數據規模的訓練集,然后分別在這些訓練集上對本文CKEIM 模型與BiLSTM+廣義池化層模型、BiLSTM+句內注意力模型、HBMP 模型和ESIM 模型進行訓練,得到如表3 所示的實驗結果,并據此得到如圖4 所示的柱狀圖,其中:對于4%和15%數據規模的訓練集,設置最佳λ值為5;對于50%和100%數據規模的訓練集,設置最佳λ值為1。

表3 5 種模型在不同訓練集規模下的識別準確率對比Table 3 Comparison of recognition accuracy of five models at different training set scales %

圖4 不同訓練集規模下的模型識別準確率對比Fig.4 Comparison of model recognition accuracy at different training set scales

由表3 和圖4 的數據可以看出,當訓練數據非常有限時,即只有4%數據規模的訓練集時,ESIM 模型的識別準確率為59.5%,而CKEIM 模型為63.0%,超出其3.5 個百分點。在15%、50%和100%數據規模的訓練集下識別準確率始終都高于ESIM 模型,提升比例分別為3.7%、1.5%和0.9%,整體呈遞減趨勢。該結果進一步說明融合外部語義知識的CKEIM 模型具有更好的識別性能和泛化能力,且訓練數據量越小,增強效果越明顯。

4 結束語

本文提出一種基于外部語義知識的CKEIM 模型,從HowNet和同義詞詞林知識庫中提取外部知識,建立注意力權重矩陣并組成特征向量融入神經網絡訓練過程中,增強模型識別性能和泛化能力。實驗結果表明,CKEIM 模型在不同規模的訓練集下的識別準確率均優于對比模型,并且訓練數據量越小,其識別準確率和泛化能力的增強效果越明顯。后續工作可將中文知識圖譜融入神經網絡訓練過程中,進一步提高CKEIM 模型的識別準確率及魯棒性。

猜你喜歡
語義文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲精品视频在线观看视频| 天天做天天爱夜夜爽毛片毛片| 播五月综合| 国产手机在线小视频免费观看| 色综合a怡红院怡红院首页| 国产欧美视频综合二区| 亚洲精品无码AV电影在线播放| 中文字幕在线视频免费| AV老司机AV天堂| 国产成人三级| 97se亚洲| 亚洲成人一区在线| 波多野结衣的av一区二区三区| 久草青青在线视频| 欧美日一级片| 老司机精品久久| 毛片基地视频| 亚洲人成影院在线观看| 国产主播一区二区三区| 国产精品一区在线麻豆| 一级黄色片网| 福利视频一区| 国产18在线播放| 操操操综合网| 亚洲一区二区三区在线视频| 欧美精品二区| 日本国产一区在线观看| 黄色a一级视频| 九九久久99精品| 亚洲中文字幕国产av| 国产性生大片免费观看性欧美| 暴力调教一区二区三区| 亚洲人成成无码网WWW| 欧美人人干| 亚洲国产欧洲精品路线久久| 国产美女无遮挡免费视频网站| 永久毛片在线播| 欧美国产日韩在线| 久久99精品久久久久纯品| 欧美成在线视频| 无码久看视频| 97国产在线视频| 亚洲av无码牛牛影视在线二区| 欧美另类图片视频无弹跳第一页| 色哟哟国产精品一区二区| 色香蕉影院| 亚洲精品无码抽插日韩| 蝌蚪国产精品视频第一页| 国禁国产you女视频网站| 免费高清a毛片| 中文字幕在线播放不卡| 亚洲人成电影在线播放| 国产呦精品一区二区三区下载| 综合色在线| 99久久国产综合精品2020| 国产手机在线小视频免费观看 | www.youjizz.com久久| 成人自拍视频在线观看| 亚洲日韩精品综合在线一区二区| 国产精品手机在线播放| 国产乱子伦视频在线播放| 欧美成人午夜视频免看| 99热免费在线| AV色爱天堂网| 欧美在线视频a| 国产综合亚洲欧洲区精品无码| 国产最爽的乱婬视频国语对白| 欧美在线一级片| 欧美色伊人| 久久久久亚洲Av片无码观看| 久久香蕉国产线看观看亚洲片| 色网在线视频| 亚洲精品波多野结衣| 久久精品国产精品一区二区| 九九九国产| 福利片91| 国产a v无码专区亚洲av| 在线国产欧美| 免费无码又爽又黄又刺激网站| 一区二区三区四区精品视频| 亚洲成人免费看| 国产人成午夜免费看|