999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器閱讀理解研究與進展

2023-04-07 03:16:54王浩暢閆凱峰MariusGabrielPetrescu
計算機應用與軟件 2023年3期
關鍵詞:文本方法模型

王浩暢 閆凱峰 Marius Gabriel Petrescu

1(東北石油大學計算機與信息技術學院 黑龍江 大慶 163318) 2(普羅耶什蒂石油天然氣大學 普拉霍瓦 普羅耶什蒂 100680)

0 引 言

隨著人工智能時代的到來,自然語言處理(Natural Language Processing, NLP)成為當前一個炙手可熱的研究課題。NLP的研究目標就是使得機器能夠理解人類語言,而NLP的核心任務之一就是自然語言理解,因此機器閱讀理解(Machine Reading Comprehension, MRC)受到了研究人員的極大關注。

MRC現在被應用在各種實際領域(軍事、司法、醫療等)中,如中電萊斯信息系統有限公司主辦的全國第二屆“軍事智能機器閱讀”挑戰賽,從文字情報整編業務面臨的實際痛點問題為切入點,旨在由機器篩選出多篇文字情報中用戶所關心的活動時間、地點、性能參數等中心內容,這充分說明MRC在實際應用中有著重要的意義。

1 國內外研究現狀

20世紀90年代末,MRC的早期研究與NLP很多任務一樣都是使用基于規則的方法,其中QUARC[1]就是一個比較有代表性的系統,該系統使用詞匯與語義對應關系規則在預測正確答案時達到了40%的準確率;Charniak等[2]使用字符串模式匹配手動生成規則在檢索正確答案時可以達到41%的準確率。

隨著統計機器學習在NLP領域的快速發展,MRC的性能也得到了進一步的提升。MRC任務要求根據已知信息(文章、問題)生成對應的答案。通常表示為根據已經給定的文章P以及人類根據該文章提出問題Q,再使用MRC技術預測該問題的正確答案A,表示為→A。

2014年Jansen等[3]通過手動提取篇章中的語義特征,使用支持向量機(Support Vector Machine,SVM)分類模型,并且在預測答案時使用答案排序的方法,最終在Yahoo問答語料庫上將準確率提高了24%。

2015年Narasimhan等[4]通過提取句子語法和詞匯特征,并使用傳統的機器學習方法在MCTest數據集[5]MC500上將準確率提升到63.75%。Sachan等[6]手動提取特征并使用改進的SVM方法在相同的數據集上,將MRC任務的準確率提升到67.8%。Wang等[7]將語法、語義、詞向量等特征作為輸入,使用機器學習分類模型,將準確率提升到69.87%。

實驗結果表明,這些傳統機器學習方法在很大程度上提升了閱讀理解任務的準確率。但使用基于傳統機器學習的方法去解決MRC任務,也存在一些缺陷:(1) 使用機器學習方法,需要人工去提取詞匯和語義特征,但是一些分散到文本中的語義特征很難通過手工方法提取出來;(2) 傳統的機器學習的方法需要大規模的數據集為模型提供更好的數據支撐,但之前提到的MCTest數據集,可用于訓練的總數據只有1 480條。因此,受到數據規模的限制,以及手動提取特征的難度,傳統的機器學習方法很難再有突破性的進展。

2015年,由Hermann等[8]構建了大規模數據集CNN/Daily Mail,并提出將注意力機制加入長短時記憶網絡模型(Long Short-term Memory,LSTM),最終在CNN數據集上得到了63.8%的準確率,在Daily Mail數據集上得到69.0%的準確率。此后陳丹琦等[9]使用改進后的基于注意力的神經網絡,在CNN和Daily Mail上分別取得了73.6%和76.6%的準確率,并且通過實驗證明CNN/Daily Mail數據集含有較大的數據噪聲。

斯坦福大學Rajpurkar等[10]在2016年構建了一個包含107 785個問題的數據集SQuAD1.1。同年Wang等[11]針對該數據集提出Match-LSTM模型并得到了77.1%的F1值。Seo等[12]提出的BiDAF模型,在該數據集上得到77.3%的F1值。2017年,陳丹琦等[13]提出的單模型的Document Reader得到79%的F1值。2018年,Yu等[14]提出的QANET模型進一步將F1值提升至84.6%。隨著2018年谷歌的Devlin[15]等BERT模型的提出,并在該數據集上取得93.2%的F1值,深度神經網絡模型在此數據集上已經首次超越人類的86.8%的F1值。2019年Yang等[16]提出的XLNet在該數據集上取得95.08%的F1值;同年Lan等[17]提出的ALBERT在此數據集上得到95.5%的F1值。2020年Brown等[18]提出了GPT-3模型,與之前的預訓練模型的不同之處是該模型在預訓練好模型之后,只需要使用少量的MRC樣例去使得模型適應新的MRC任務,而不需要像之前的預訓練模型一樣進行梯度更新和模型的微調。

國內也有大量研究人員對中文機器閱讀理解(Chinese Machine Reading Comprehension, CMRC)進行了深入研究。文獻[19-20]提出基于知識庫的模式匹配方法;文獻[21-22]在CMRC任務上也做出了一些貢獻;2016年哈工大訊飛聯合實驗室構建了CMRC數據集[23];2017年百度公司構建了大規模CMRC數據集Du-reader[24],這是迄今為止最大的CMRC數據集;在2018年“百度機器閱讀理解”大賽中,基于多任務的MRC模型[25]、分層答案選擇模型[26]、多段落MRC模型[27]、BiDMF[28]都獲得了優異的成績。2019年,哈工大訊飛聯合實驗室根據BERT[15]模型提出了中文全詞覆蓋BERT預訓練模型[29],該模型改進了BERT模型處理中文文本的能力。

2 相關數據集與評測方法

大規模數據集的出現,使得深度神經網絡得以充分發揮其在MRC人物上的優勢。與此同時,評測方法也尤為重要。本節將介紹國內外主流的MRC數據集,以及在這些數據集上所使用的評價方法。

2.1 相關數據集

神經MRC的研究必須依靠大規模的數據集作為支撐,它在一定程度上決定了MRC系統的性能。為了降低任務難度,較早出現的MRC數據集都將背景知識排除在外,因此可以通過人工構造簡單的數據集去回答一些相對簡單的問題。MRC數據集最常見的形式包括完形填空式(Cloze Style, C)、選擇題類型(Multiple Choice, M)、段落抽取式(Span Prediction,S)及自由作答方式(Free-form Answer, F)[30]。本節將著重介紹CNN/Daily Mail[8]、SQuAD、Dureader[24]和MS MARCO[32]幾個主流MRC數據集。此外還對一些其他MRC數據集在數據規模、發布時間、數據來源等方面做了統計,如表1所示。其中,EN表示英文,ZH表示中文。

表1 當前主流的MRC數據集比較

CNN/Daily Mail是2015年發布的一個完形填空數據集。CNN包含了從2007年到2015年在CNN網站收集的92 579篇文檔以及從中提取的387 420個問題;Daily Mail包含了從2010年到2015年在每日郵報(Daily Mail)網站收集的219 506篇文檔以及從中提取的997 467個問題。由于這兩個網站是通過要點(bullet points)補充文章,并總結文章中包含的信息,因此作者通過替換這些要點的方式創建問題。該數據集的任務目標就是根據文章內容推斷出問題中缺失的實體。

SQuAD1.1[10]是斯坦福大學于2016年構建的一個段落抽取式數據集,該數據集采用眾包的方式從維基百科的536篇文章中提取了107 785個問題。它定義了一種全新的MRC任務,即問題的答案是文章的一部分,而非一個實體或者一個詞;正如之前所介紹的MRC發展現狀,現在的一些深度學習模型的表現已經超越了人類,為了增加任務難度,研究人員于2018年在SQuAD1.1基礎上加入了53 775個由人類眾包者對抗性地設計的沒有材料支持的新問題,生成了全新的SQuAD2.0數據集。該任務要求對于這些問題,在作答時不僅要盡可能給出問題的正確答案,還需對沒有材料支持的問題拒絕作答。斯坦福大學為SQuAD2.0數據集開放了一個在線評測模型的網站[56]供已提交的模型在該數據集上的評分及排名。

DuReader是當前規模最大的CMRC數據集,該數據集由百度搜索與百度知道的100萬篇文檔以及從中提取的20萬個問題組成,答案是通過眾包方式生成。該數據集屬于自由作答型,即答案可能并不在給定的文檔中,比如觀點型、是非判斷型。百度開放了一個在線評測網站[57]供已提交的CMRC模型評測及排名。

MS MARCO包含了從Bing搜索引擎檢索到的8 841 823篇文章以及從中提取的1 010 916個問題,而每一個問題對應的答案是由人工生成的。微軟開放了一個在線評測模型的網站[58]供提交的MRC模型在該數據集上評測及排名。

由于當前百度公司與微軟公司開放了較全面的MRC數據集,而且三元組的構造方式比較接近,都屬于自由作答式數據集(如表1所示),此外國內外大量研究人員針對這兩個數據集設計了諸多模型并在實驗中對這二者進行了比較,圖1對這兩個數據集的不同問題類型進行了可視化展示??梢园l現,Description類型問題占這兩個數據集的比例超過50%,且Entity類型問題次之,即這兩種類型占80%左右的問題類型分布。

(a) DuReader (b) MS MARCO圖1 DuReader與MS MARCO的不同問題類型分布

2.2 相關評測指標

對于段落抽取式MRC數據集,更多使用的是評測SQuAD時所使用的精確匹配(Exact Match,EM)以及F1值。通常將BLEU和ROUGE-L作為自由作答型數據集的評價指標。

首先介紹候選答案和參考答案構成的混淆矩陣,這里的候選答案即預測答案,參考答案即真實答案。該混淆矩陣包括真正例(True Positive,TP)、真負例(True Negative,TN)、假正例(False Positive,FP)、假負例(False Negative,FN),可以表示為如表2所示的混淆矩陣。

表2 重疊詞構成的混淆矩陣

那么預測答案的P和R可以表示為:

F1為P與R的調和平均數,可以表示為:

EM表示預測答案與給定答案完全一致的數量占全部問題數量的比率,如式(4)所示。與F1相比,EM更加精確,也更加嚴格。一般而言,F1都比EM值大。

BLEU(Bilingual Evaluation Understudy)是從機器翻譯中引入的評價指標,是一種文本精確度的相似性度量方法。為了度量候選答案與標準答案的相似性,BLEU的計算方法如下:

(5)

式中:n表示n元語法模型,n元語法指的是n個連續的同現詞。定義參考答案的長度為r,候選答案長度為c。對于多個參考答案的情況,我們選擇最接近c的參考長度,長度懲罰因子(BP)為:

C為候選答案的i元語法模型的集合,式(7)計算整個候選答案的精確度Pi,定義Count(x)表示該詞出現在候選答案中的次數。

(7)

假設某個詞出現在參考答案中的總次數為Max_Ref_count,則有:

Countclip=min(Count,Max_Ref_Count)

(8)

ROUGE-L計算的是參考答案和候選答案最長公共子序列的精確率(PLCS)和召回率(RLCS):

式中:γ=PLCS/RLCS,如果γ過大,則只需考慮RLCS。

3 神經機器閱讀理解模型

根據當前MRC數據集的評測結果可以看出,神經MRC模型是當下解決MRC任務行之有效的方法。本章將介紹神經MRC模型的實現過程,并將對每一個步驟的詳細原理進行介紹,此外還介紹了四種解決MRC任務的極有代表性的MRC模型。神經MRC過程總體上包括向量化、編碼、注意力機制[42]、答案預測四個步驟,其結構如圖2所示。

圖2 神經MRC整體架構圖

3.1 向量化

向量化目的是讓計算機可以識別人類語言,在NLP領域,一般是將文字轉化為計算機可以識別的定長向量。不同的編碼方式所達到的效果也有所不同。在人類語言中語境是尤其重要的信息,因此很多研究人員一直致力于將更多的語境信息傳遞給計算機。早期自然語言轉換為詞向量通常使用One-Hot[43]編碼,該方法使用二進制向量表示不同的單詞,其維度與文本詞典大小相同。構造的向量只有該詞對應的位置為1,其余位置都是0。但是由于這樣的向量比較稀疏,所以這種方法更適合文本量較小的情況,一旦文本增多,就會導致維度災難。

因此,為了解決傳統詞向量的不足,Mikolov等[44]提出了Word2Vec詞向量,該詞向量通過語言模型訓練而成,可以充分利用單詞之間在向量空間的距離去衡量詞之間的相似性。之后Pennington等[45]提出了Glove詞向量,它將詞匯編碼成可以反映詞匯之間的相關性的連續低維向量。但是不足之處是以上這些詞向量方法只能簡單地提取出詞匯間的關系,但不能有效挖掘上下文信息。隨著NLP技術的發展,2018年Peters等[46]通過雙向語言模型為每個詞添加了上下文信息,即實現了深層語境的詞匯表示,簡稱ELMo預訓練詞向量。這種詞向量模擬了詞匯更加復雜的特征,并且分析了這些用法在不同的語境中如何變化(如一詞多義現象)。同年Devlin等[15]發布了BERT預訓練詞向量,與ELMo不同的是該方法通過在所有層中聯合調節每個詞的關聯上下文來預先訓練文本的深層雙向表示。近期ALBERT[17]預訓練模型以其出色的性能,再一次向我們證明預訓練詞向量在MRC任務中舉足輕重的作用。

3.2 編 碼

編碼在MRC中是一個極其重要的步驟,目的是提取更多的語境信息。通常使用循環神經網絡(Recurrent Neural Network,RNN)、其變體LSTM與門控循環單元(Gated Recurrent Unit, GRU)、卷積神經網絡(Convolutional Neural Network,CNN)以及Transformer架構來對輸入的詞向量進行編碼。

RNN是NLP領域應用極其廣泛的模型,該網絡有很強的序列信息提取能力。其變體LSTM和GRU利用其門結構更加擅長捕獲序列的長期依賴,而且這二者有利于緩解梯度爆炸和梯度消失問題。由于在理解給定的單詞時,其上下文具有相同的重要性,因此通常使用雙向RNN對MRC系統中的上下文及問題進行編碼和特征提取。雖然RNNs在序列信息上表現很好,但是由于不能并行處理,所以使用這種網絡結構非常耗時,而且極易出現梯度消失和梯度爆炸的問題,因此通常使用其改進模型LSTM或者GRU。相較而言,一般認為GRU可以節省大量的訓練時間,其原因是GRU有更少的模型參數。

CNN是從計算機視覺中引入的一種深度學習方法。一維的CNN應用于NLP任務時,利用滑動窗口挖掘局部上下文信息非常有效,首先在CNN中每個卷積層應用不同比例的特征映射來提取不同窗口大小的局部特征,之后將輸出反饋到池化層降低維數的同時最大程度上保留最重要的信息。另外,在每個篩選器結果上取最大值和取平均是池化層最常用的方法。

Transformer是Vaswani等[47]在2017年提出的一種新型神經網絡模型。與RNN和CNN不同的是,Transformer主要使用注意力機制,由于加入了多個方向的注意力,使得這種結構在對齊方面表現突出,而且與RNN的不同之處是可以并行運行,因此運行時間更短。與CNN最大的區別是,它更加關注全局特征。但是如果沒有CNN與RNN,Transformer就不能更好地利用序列信息,為了整合位置信息,作者添加了正弦和余弦函數去計算位置信息。Transformer的模型輸入是詞匯的編碼以及每個詞的位置信息,通過對輸入進行編碼提取上下文信息,最后輸出解碼后的新序列。

3.3 注意力機制

MRC系統中,注意力機制一般可以分為三種,單向注意力機制(Unidirectional Attention)、雙向注意力機制(Bidirectional Attention)和自匹配注意力機制[47](Self-Attention)。

添加單向注意力是為了突出問題與上下文文本最相關的部分,這種方法對于強調重要的語境詞很有效果。通常情況下,我們認為問題與文本中詞或者句子越相似,越有可能是答案。但是,其弊端在于太強調語境詞從而忽略了預測答案的一個關鍵因素——問題關鍵詞。因此又有研究者提出使用雙向注意力機制來克服單向注意力機制的這一局限性。如圖3所示,在MRC中首次加入雙向注意力機制的是BiDAF[12]模型,該模型既關注了文本到問題,同時也關注了問題到文本兩個方向的信息交互。之后Wang等[48]提出自匹配注意力機制,即通過文本段落與其自身匹配來完善信息交互,并取得了很好的效果。

圖3 問題文檔的雙向注意力機制

3.4 答案預測

不同的MRC數據集,預測答案的方法也不相同。整體上可以劃分為三種,第一種是從文本中提取答案,以CNN/Daily Mail為代表,它們都有一個共同的特點,就是從給定文本中預測一個詞或者一個實體作為答案。另外一種以SQuAD數據集為代表,答案都是段落中的某句話。最后一種就是根據對應文本生成答案,最終答案分布在多個段落中或者答案不一定在給定的文本中,主要以DuReader和MS MARCO為代表。

對于從文本中提取單個詞匯的MRC類型,受到指針網絡[49]的啟發,Kadlec等[42]提出使用注意力機制直接從文本中尋找問題答案。對于段落抽取型數據集,答案預測的關鍵在于找到答案的開頭和結尾??紤]到可能存在多個候選答案的情況,Xiong等[50]提出了DCN迭代技術篩選最終答案。

對于自由作答式數據集,候選答案并不要求與參考答案完全一致。這類問題有一個共同之處,就是每一個候選答案分布在不同段落中。解決這類問題的思想就是,從每一個相關段落中提取候選答案的一個小片段,最后將選取出來的小片段組合作為最終的預測答案。Tan等[51]提出S-Net方法,使用基于注意力的GRUs將與答案相關的每一個片段的起止點找到,最后綜合這些小片段形成預測答案。

3.5 常見的MRC模型

表3所呈現的是按照以上四個步驟對當前主流的方法做的總結和概括,主要介紹了當前主流的MRC方法的結構及其實驗針對的數據集。接下來將介紹幾種解決MRC任務中極具代表性的MRC模型。

表3 當前解決MRC任務的主流方法

Hermann等[8]為評測完型閱讀理解型數據集CNN/Daily Mail,同時發布了兩個基線模型Attentive Reader[8]和Impatitent Reader[8]。它們都使用的雙向LSTM詞嵌入的方法,并且都加入了注意力機制,但是二者不同之處在于對給定的文本段落和問題的處理方式不同。Attentive Reader更加注重將查詢作為一個整體,與給定的文本做交互,以達到查詢答案的目的;相較而言,Impatitent Reader更加復雜,它把查詢中的每一個詞與給定文本做交互,以此達到更加全面詳盡的目的。如圖4所示,Attentive Reader模型(作者原圖)為了預測單詞x,使用雙向LSTM作為嵌入層,并在其輸出上加入注意力機制,從而使得給定文本與對應查詢進行交互。如圖5所示,為Impatitent Reader模型(作者原圖),不同之處是對查詢中每個詞與給定文本進行注意力交互。

圖4 Attentive Reader模型框架

圖5 Impatitent Reader模型框架

之后的改進大多數是以這兩個模型為基礎。隨著注意力機制在NLP領域的應用逐漸深入,在MRC中應用也極其廣泛。下面介紹一種在MRC任務中有著極其重要地位的BiDAF模型,如圖6所示,該模型首次提出在MRC模型中加入了雙向注意力流機制,模型共劃分為六層。

圖6 BiDAF模型

字符嵌入層(Character Embed Layer),該層是將輸入文本轉化為以字符為單位的字符向量。

詞嵌入層(Word Embed Layer),該層主要將輸入文本表示為詞向量的形式,并與上一層一起作為下一層的輸入,該層使用Glove[44]詞向量。

上下文嵌入層(Contextual Embed Layer)使用雙向LSTM對上層輸入的詞向量進行編碼,目的是使得上下文進行充分交互。

注意力流層(Attention Flow Layer),該層是該模型的主要改進之處,模型通過加入雙向注意力流,也就是文本到問題的注意力流和問題到文本的注意力流兩個方向,主要目的是考慮到模型中文本與問題的交互不夠充分。

模型層(Modeling Layer),該層使用兩層雙向LSTM查找問題在文本中的詳細位置。

輸出層(Output Layer),該層預測答案的開頭與結束位置,開頭位置使用全連接層與Softmax函數進行預測,結束位置使用LSTM與Softmax進行預測。

隨著預訓練模型的發展,預訓練詞向量逐漸在MRC任務中嶄露頭角,它也正逐步取代傳統的詞向量,特別是在BERT預訓練模型的發布之后,MRC任務的表現也得到了極大的提升。如圖7所示,BERT模型分為預訓練和微調兩個階段,預訓練階段使用掩碼語言模型、下一句預測任務進行訓練,之后在微調階段對其進行微調。掩碼語言模型是BERT預訓練詞向量的核心思想,它通過雙向Transformer對給定語句的15%詞匯進行隨機掩碼的方式來達到深度訓練的目的,它將句子長度限定為512個詞;為了深度理解句子與句內詞匯的語義關系,它使用了下一句預測任務對BERT進行預訓練。由于預訓練出的參數已經確定,因此并不能很好地支持下游任務,因此模型的微調是為了適應下游任務而對其數據集進行的調整參數的訓練。

圖7 BERT模型框架

4 MRC面臨的問題

MRC技術不斷地迭代更新,推動著MRC任務的向前發展,同時也促進了整個NLP領域的進步。在某些特定情境下,MRC模型的性能已經超越了人類的表現(如SQuAD1.1數據集),但仍然存在一些問題。

1) 資源耗費巨大。正如本文之前討論過的,詞向量層是MRC模型中不可或缺的輸入層,該層的目的是將給定的文本與問題信息最大化地輸入模型中,以期問題與文本之間的最大信息交互。但是通常會遇到難以均衡資源耗費與充分的上下文信息的問題:(1) MRC早期通常使用較為簡單的詞向量(如Word2Vec、Glove),但其不足之處在于難以有充分的上下文信息,這導致在數據輸入模型的過程會產生一定的損耗,以致文本與問題之間的信息交互不夠完全。(2) 預訓練詞向量(如ELMo、BERT、XLNet、ALBERT、GPT3)的出現解決了這一難題,這些詞向量加入了更全面的上下文信息,使得文本與問題的完全交互成為了可能,但是它們的應用又引發了新的問題,那就是資源耗費過大。例如當下性能最好且資源消耗相對較少的ALBERT預訓練詞向量,它使用谷歌公司的TPU集群訓練125 000步擁有23.3億個參數的ALBERT預訓練模型總共花費32小時,更有GPT-3將參數量提升至1 750億,顯然普通科研團隊或機構的硬件很難達到這種要求。因此如何在擁有充分的文本與問題上下文信息的同時最大限度降低MRC模型訓練時的資源耗費,這是MRC當前遇到的一大挑戰。

2) 模型缺乏推理能力。大多數現有的MRC系統主要基于上下文和問題之間的語義匹配來給出答案,這導致MRC模型難以推理。推理能力其實是一種更高層次抽象信息的提取能力,這要求模型按照人類的邏輯推理能力提取抽象信息。雖然預訓練模型可以生成較全面的上下文信息,但是事實上將其應用在MRC任務中,對于模型的推理能力仍然沒有太大的改進。但不可否認的是推理能力會極大地改進模型的性能并有助于提升其他NLP子任務的表現,因此如何使MRC模型具有推理能力仍需進一步研究。

3) 模型通用性有待提升。如果模型是通用的,則其也可能適用于其他任務,此外該機器是否真的通過利用神經網絡方法“理解”了人類的語言,而不僅僅是充當了“文檔級”語言模型。這對于其他的NLP任務也是至關重要的,即并非由給定的文檔解決MRC任務,而是模型真正在“理解”人類語言的基礎上進行解答。如何設計一個通用而非專門針對某一特定領域或特定數據集的MRC模型也須進行深入的研究。

4) 模型缺乏健壯性。現實生活中,遇到的更多閱讀理解問題與自由作答型數據集更加接近,但是現有模型在這解決這些問題時效果仍舊不理想。對于SQuAD2.0,通過在給定的上下文中添加了分散注意力的句子,并且這些句子與問題的語義重疊可能引起混亂,但不會與正確答案相矛盾,通過此類對抗性示例,MRC模型的性能急劇下降,這反映出機器無法真正理解自然語言,此外已有的MRC模型在DuReader與MSMARCO數據集上的表現相對來說也是比較差的。盡管可以通過引入答案驗證組件在某種程度上減少合理答案的副作用,但增強MRC系統的健壯性以應對對抗性環境仍然是一個挑戰。

5 MRC發展前景

事實上,日新月異的MRC技術也在推動NLP領域的飛速發展。通過整理近年來經典的MRC模型以及參考其他在經典模型上的改進工作,下面將給出MRC技術的幾個可能的發展方向。

1) 改進預訓練模型速度與效率。預訓練模型在改進MRC輸入上下文信息的同時也帶來了訓練資源耗費巨大的問題。在未來可以通過稀疏注意力(sparse attention)[52]和塊注意力(block attention)[53]之類的方法來加快預訓練模型的訓練速度,以此應對預訓練模型資源損耗的挑戰。

2) 如何提升MRC模型的推理能力。其實MRC模型的推理能力一直有待提升,這就像就是像人類推理某一個問題一樣,并不依靠外部的知識,而只依據已有知識對問題進行推理,從而得出更加正確的預測答案。Chen等[54]提出將知識圖譜這種新型的知識表示形式應用于知識推理中,因此MRC模型的推理能力也可以借助知識圖譜去改善,當問題復雜且知識庫不完整時,知識圖譜能夠利用現有的三元組推斷出更加合理的答案。通過知識圖譜中的現有事實中推斷出許多有效事實,這是將知識圖譜用于推理的目標之一,其目的是將實體和關系表示到低維的向量空間[55]。

3) 如何改進MRC模型的通用性。實驗表明,MRC模型或者只在特定的數據集上表現良好,但是更換多個不同的數據集后性能卻會受到影響,甚至是性能急劇下降。在很大程度上,這其實也是由于深度學習模型的可解釋性較差,模型本身是一個“黑盒”,在對其進行研究的實驗的過程中,難以從細節處做根本性的改進。但是,未來可通過增廣數據的方式對已有數據進行擴增,龐大的數據量有助于提升模型的通用性,此外,從文中的四個模塊改進MRC模型性能也有利于提升其通用性。

4) 如何提升MRC模型的健壯性??梢钥紤]加入新的特征(如詞性標注、命名實體識別、依存句法分析、語義依存分析等)以改進模型的健壯性,另外可以通過在數據中添加額外的噪聲或者像SQuAD2.0一樣增加對抗性語料,以改進MRC模型的健壯性。

6 結 語

本文介紹了國內外MRC技術的發展歷史及其現狀,內容主要包含MRC數據集、MRC主要模型方法以及一些自然語言處理界通用的評價方法。由于深度學習技術的飛速發展,基于深度學習方法的應用解決了MRC中遇到的很多難題,因此本文主要從應對MRC任務最有效的深度學習方法的角度進行了研究討論,首先總結了神經MRC任務的一般步驟,緊接著闡述了每一個步驟中所涉及的開創性技術,最后對MRC面臨的問題做了詳盡的概括,并針對性地提出了行之有效的解決方案。

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲中久无码永久在线观看软件| 四虎永久在线精品国产免费| 日韩欧美国产另类| 亚洲黄色片免费看| 一级毛片不卡片免费观看| 香蕉在线视频网站| 99er这里只有精品| 中文字幕色站| 国产乱子伦手机在线| 内射人妻无码色AV天堂| 亚洲精品无码在线播放网站| 成人欧美日韩| 日本日韩欧美| 国产特级毛片aaaaaa| 欧美成人免费午夜全| 玖玖精品视频在线观看| 国产成人一区在线播放| 在线观看91精品国产剧情免费| 国产成人久久777777| 久久久久亚洲精品成人网| 8090午夜无码专区| 亚洲无码精彩视频在线观看| 小说区 亚洲 自拍 另类| 精品91视频| 亚洲大尺码专区影院| 国产人妖视频一区在线观看| 欧美日韩精品在线播放| 秘书高跟黑色丝袜国产91在线 | 国产美女在线免费观看| 在线观看国产黄色| 制服丝袜一区二区三区在线| 亚洲天堂网在线视频| 国产日韩丝袜一二三区| 精品剧情v国产在线观看| 亚洲一区第一页| aa级毛片毛片免费观看久| 国产91视频观看| 国产成人夜色91| 中国一级特黄视频| 日本亚洲国产一区二区三区| 国产无码精品在线| 国产欧美日韩精品第二区| 亚洲综合第一页| 日本国产一区在线观看| 国产小视频网站| 亚洲午夜福利精品无码不卡| 99热国产在线精品99| 中国一级毛片免费观看| 亚洲香蕉久久| 久久精品91麻豆| 国产亚洲精久久久久久无码AV | 97在线碰| 国产精品无码AV片在线观看播放| 国产成人a在线观看视频| 女人av社区男人的天堂| 国产三级视频网站| 亚洲第一成年网| 免费国产不卡午夜福在线观看| 成人一区在线| 免费毛片网站在线观看| 成人在线视频一区| 999精品在线视频| 国产白浆视频| 国产主播喷水| 婷婷开心中文字幕| 国产免费观看av大片的网站| 国产一区二区三区在线观看免费| 91在线无码精品秘九色APP | 日韩欧美网址| 三区在线视频| 国产第一页屁屁影院| 国产成人乱码一区二区三区在线| 免费不卡视频| 老色鬼久久亚洲AV综合| 国内精品小视频在线| 亚洲区第一页| 欧美 亚洲 日韩 国产| 波多野结衣无码AV在线| a天堂视频| 中文字幕久久亚洲一区 | 精品国产成人三级在线观看| 午夜视频免费一区二区在线看|