孫 馳,杜軍威,李浩杰
(青島科技大學 信息科學技術學院,山東 青島266061)
近年來,自然語言處理的不同子任務中,基于深度學習的模型不斷刷新相關任務的性能記錄[1]。子任務中,機器閱讀理解則一直被認為是NLP的標志性臨界點,其目標是讓機器同人一樣,可以閱讀并理解文本,回答有關該文本的問題。機器閱讀理解在智能問答、智能搜索、語音控制、構建知識庫等方面具有廣闊的應用前景[2]。
從數據集的類型出發,可以將閱讀理解劃分成完形填空型[3]和區間抽取型[4]等。其中,完型填空類的代表數據集為CNN/Dailymail[5],而區間抽取型的代表包括斯坦福RAJPURKAR等2016年發布的SQu AD[4]以及微軟發布的MS MARCO[6]。完形填空型數據集中的文本均經過精心處理,提前挖空。要求模型根據空位前后上下文預測缺失詞,解決這類問題大部分只需獲取空位局部的上下文就能很好解決問題,不需要捕捉文本全局信息。因此,模型離真正理解文本還有很大距離。而區間抽取型的數據集[7-8]則是基于真實問答數據集構建的,例如SQu AD數據集根據維基百科語料,采用人工提問題的形式進行構建。區間抽取型數據集要求模型根據問題從候選文本中抽取出答案區間,解決這類問題通常要捕捉全局上下文信息,對文本有全局理解。
SQu AD數據集發布之前,研究者在完形填空式數據集上展開工作。HERMANN等[9]借鑒機器翻譯和計算機視覺領域的注意力機制,在模型中引入問題和文本對應向量的權重交互層,捕捉問題和文本之間的注意力信息,第一次將注意力機制引入到機器閱讀理解領域。……