孫 媛,劉思思,陳超凡,旦正錯(cuò),趙小兵
(1. 中央民族大學(xué) 信息工程學(xué)院,北京 100081;2. 國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究少數(shù)民族語(yǔ)言中心,北京 100081;3. 民族語(yǔ)言智能分析與安全冶理教育部重點(diǎn)實(shí)驗(yàn)室,北京 100081)
近年來(lái),機(jī)器閱讀理解引起了人們的廣泛關(guān)注,并成為了人工智能研究與應(yīng)用領(lǐng)域的熱點(diǎn)任務(wù)之一[1-3],其旨在教機(jī)器在閱讀人類(lèi)文章后回答出與文章相關(guān)的一些問(wèn)題[4],它需要機(jī)器能夠理解人類(lèi)的語(yǔ)言文字。 目前,機(jī)器閱讀理解通常以數(shù)據(jù)驅(qū)動(dòng)方式建模,因此數(shù)據(jù)集是其技術(shù)發(fā)展的基礎(chǔ)。到目前為止,已經(jīng)出現(xiàn)了很多大規(guī)模的機(jī)器閱讀理解數(shù)據(jù)集,如CNN/Daily Mail[5]、 MCTest[6]、 CBT[7]、 RACE[8]、 SQuAD[9]、 DuReader[10]等,這些數(shù)據(jù)集推動(dòng)了機(jī)器閱讀理解的研究,其中以2016年Rajpurkar等人發(fā)布的大規(guī)模英文機(jī)器閱讀理解數(shù)據(jù)集SQuAD為代表,許多學(xué)者在這一數(shù)據(jù)集上提出了自己的方法和模型。根據(jù)最新官方數(shù)據(jù),截止到2021年3月發(fā)布的模型榜單排名在SQuAD 的數(shù)據(jù)集上最高得分為93.183,而人類(lèi)的得分是89.452(1)https://rajpurkar.github.io/SQuAD-explorer/。
藏語(yǔ)作為中國(guó)少數(shù)民族語(yǔ)言之一,由于缺乏公開(kāi)的藏語(yǔ)機(jī)器閱讀理解數(shù)據(jù)集,目前藏語(yǔ)機(jī)器閱讀理解任務(wù)還處于起步階段。近年來(lái)隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)上也出現(xiàn)了大量的藏文信息,藏文信息處理等相關(guān)工具也得到了很好的發(fā)展[11-14],但如何有效利用這些藏文信息并推動(dòng)藏文機(jī)器閱讀理解的發(fā)展成為目前藏文信息化建設(shè)需要解決的問(wèn)題之一。
藏語(yǔ)是一種拼音語(yǔ)言,屬輔音字母文字型,分輔音字母、元音符號(hào)兩個(gè)部分。其中有30個(gè)輔音字母、4個(gè)元音字母和5個(gè)反寫(xiě)字母(用于拼外來(lái)語(yǔ))。藏文中的語(yǔ)法比較復(fù)雜,但有很明確的組織形式和動(dòng)詞變化。其中,3個(gè)上加字,4個(gè)下加字,5個(gè)前加字,10個(gè)后加字,2個(gè)后后加字組合在任意一個(gè)基礎(chǔ)字理論上便可以寫(xiě)出任何一個(gè)藏文詞。藏語(yǔ)單詞的最小單位是一個(gè)音節(jié),一個(gè)音節(jié)包含一個(gè)或最多七個(gè)字符,音節(jié)默認(rèn)是用音節(jié)之間的標(biāo)記“·”來(lái)分割的。輔音簇是用特殊的字母連寫(xiě)而成的[15]。另外,藏文是謂語(yǔ)在后、動(dòng)詞作為核心的語(yǔ)言。在藏文中,有一些特殊的助詞,可以清楚地表示句子的語(yǔ)義結(jié)構(gòu)。這些特殊助詞主要包括作格助詞、屬格助詞、位格助詞和從格助詞。例如,作格助詞可以表示動(dòng)作的代理、工具和動(dòng)作的方式。基于藏語(yǔ)的這些特點(diǎn),我們可以識(shí)別這些格助詞來(lái)分析藏語(yǔ)機(jī)器閱讀理解的問(wèn)題。同時(shí),嚴(yán)格的藏文語(yǔ)法規(guī)則要求構(gòu)建更高水平的藏語(yǔ)機(jī)器閱讀理解數(shù)據(jù)集。
為了進(jìn)一步推動(dòng)藏語(yǔ)機(jī)器閱讀理解的發(fā)展,同時(shí)為了滿(mǎn)足相關(guān)研究人員對(duì)高質(zhì)量的藏語(yǔ)閱讀理解數(shù)據(jù)集的需求,本文構(gòu)建了一個(gè)藏語(yǔ)機(jī)器閱讀理解數(shù)據(jù)集(TibetanQA),并將部分?jǐn)?shù)據(jù)公開(kāi)在 https://tibetanqa.cmli-nlp.com,數(shù)據(jù)集的示例如表1所示,每個(gè)段落下包含多個(gè)問(wèn)題和答案,其中答案來(lái)自于文本中。

表1 TibetanQA樣例(包含一個(gè)段落和多個(gè)問(wèn)答對(duì))
本文的主要貢獻(xiàn)如下:
(1) 構(gòu)建了一個(gè)藏語(yǔ)機(jī)器閱讀理解數(shù)據(jù)集(TibetanQA),其中包含1 513篇藏語(yǔ)文章和20 000個(gè)藏語(yǔ)問(wèn)答對(duì)。這些文章均來(lái)自云藏網(wǎng),問(wèn)答對(duì)采用眾包的方式人工構(gòu)建。文章涵蓋了12個(gè)領(lǐng)域的實(shí)體知識(shí),其中包括自然、文化、教育、地理、歷史、生活、社會(huì)、藝術(shù)、技術(shù)、人物、科學(xué)和體育。
(2) 采用嚴(yán)格的人工構(gòu)建流程來(lái)保證數(shù)據(jù)集的質(zhì)量,盡管目前TibetanQA中問(wèn)答對(duì)的數(shù)量不多,但該數(shù)據(jù)集在文章收集、問(wèn)題構(gòu)建、答案驗(yàn)證、回答多樣性和推理能力等方面均采用嚴(yán)格的流程以確保數(shù)據(jù)的質(zhì)量。另外,數(shù)據(jù)集中的問(wèn)答對(duì)數(shù)量還在不斷增加中。
(3) 探索性地以BiDAF、R-Net和QANet三種典型的英語(yǔ)機(jī)器閱讀理解模型作為T(mén)ibetanQA數(shù)據(jù)集上的基線(xiàn)模型,并展開(kāi)實(shí)驗(yàn),其結(jié)果顯示模型最好實(shí)驗(yàn)結(jié)果的F1值比人類(lèi)表現(xiàn)低21.4%。這表明,在藏語(yǔ)機(jī)器閱讀理解任務(wù)上還需要進(jìn)行更多的探索。另外,本文采用基于語(yǔ)言特征消融輸入的方法進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明該數(shù)據(jù)集對(duì)模型的閱讀理解能力提出了更高的要求。
大規(guī)模閱讀理解數(shù)據(jù)集是驅(qū)動(dòng)機(jī)器閱讀理解任務(wù)研究發(fā)展的重要因素,數(shù)據(jù)集的質(zhì)量和規(guī)模直接影響到閱讀理解模型的理解能力和表現(xiàn)。近年來(lái),出現(xiàn)了大量的機(jī)器閱讀理解數(shù)據(jù)集,本文對(duì)這些數(shù)據(jù)集進(jìn)行調(diào)查。按照答案的形式,機(jī)器閱讀理解數(shù)據(jù)集可大致分為四個(gè)類(lèi)型: 填空型數(shù)據(jù)集、選擇型數(shù)據(jù)集、篇章片段型數(shù)據(jù)集和多任務(wù)型數(shù)據(jù)集[16]。表2列舉了常見(jiàn)的幾種數(shù)據(jù)集及其相關(guān)信息。

表2 常見(jiàn)機(jī)器閱讀理解數(shù)據(jù)集的大小和文章來(lái)源比較
填空型數(shù)據(jù)集將復(fù)雜的機(jī)器閱讀理解問(wèn)題簡(jiǎn)化為對(duì)一個(gè)單詞的簡(jiǎn)單預(yù)測(cè),填空型閱讀理解的答案是一個(gè)單詞而非一個(gè)句子,機(jī)器需要理解上下文的內(nèi)容來(lái)預(yù)測(cè)段落中丟失的關(guān)鍵詞,CNN/Daily Mail[5]語(yǔ)料庫(kù)中的數(shù)據(jù)來(lái)自美國(guó)有線(xiàn)電視新聞網(wǎng)和每日郵報(bào)網(wǎng)中的文章,語(yǔ)料庫(kù)剔除了單篇超過(guò)2 000個(gè)字的文章和問(wèn)題答案不在原文出現(xiàn)的文章。The Children’s Book Test (CBT)[7]是經(jīng)典的閱讀理解數(shù)據(jù)集,它從每個(gè)兒童故事中提取20個(gè)連續(xù)的句子作為文檔,第21個(gè)句子作為問(wèn)題,并從中剔除一個(gè)實(shí)體類(lèi)單詞作為答案,該數(shù)據(jù)集只關(guān)注命名實(shí)體識(shí)別和普通名詞類(lèi)型的答案預(yù)測(cè)。
選擇型閱讀理解任務(wù)包含一個(gè)文章片段和多個(gè)問(wèn)題,每個(gè)問(wèn)題又包含多個(gè)選項(xiàng),要求機(jī)器理解給定的文章片段并從給定的答案選項(xiàng)中選出最合適的一個(gè)答案。選擇型數(shù)據(jù)集要求能夠在一個(gè)問(wèn)題的多個(gè)答案候選項(xiàng)中準(zhǔn)確地選出答案。MCTest[6]是一組和故事相關(guān)的問(wèn)題集,該數(shù)據(jù)集的文章來(lái)自童話(huà)故事,它的問(wèn)題選項(xiàng)基本為原文中的內(nèi)容,因此對(duì)模型的推理能力要求較低,數(shù)據(jù)集要求機(jī)器能夠回答有關(guān)虛構(gòu)故事的多項(xiàng)選擇閱讀理解問(wèn)題,直接解決開(kāi)放域機(jī)器理解的高級(jí)目標(biāo)。RACE[8]數(shù)據(jù)集是中國(guó)中學(xué)生英語(yǔ)閱讀理解題目,該數(shù)據(jù)集規(guī)模較大且領(lǐng)域覆蓋廣泛,題型的正確答案并不一定直接體現(xiàn)在文章中,需要從語(yǔ)義層面深入理解文章,通過(guò)分析文章中線(xiàn)索并基于上下文推理,選出正確答案,因此基于該數(shù)據(jù)集的機(jī)器閱讀理解模型需要一定的推理能力。
篇章片段型閱讀理解任務(wù)可以描述為: 給定一段文章片段,給定一個(gè)問(wèn)題,要求機(jī)器根據(jù)該問(wèn)題從文章片段中找到一個(gè)連續(xù)的片段作為答案。SQuAD[9]是一個(gè)大規(guī)模的閱讀理解數(shù)據(jù)集。它包含的文章來(lái)自維基百科,并采用眾包的方式人工構(gòu)建問(wèn)題,該數(shù)據(jù)集擁有10萬(wàn)以上高質(zhì)量的問(wèn)題答案對(duì),由于其高質(zhì)量和可靠的自動(dòng)評(píng)估,該數(shù)據(jù)集引起了NLP領(lǐng)域的廣泛關(guān)注。
多任務(wù)型閱讀理解任務(wù)需要構(gòu)建高難度的真實(shí)世界的數(shù)據(jù)集,該數(shù)據(jù)集的問(wèn)題不限制段落范圍,回答一個(gè)問(wèn)題可能需要理解多個(gè)段落,并且答案是人為創(chuàng)造的,而不是來(lái)自文章原文,這就要求機(jī)器具有更高的推理能力,從而能真正實(shí)現(xiàn)機(jī)器閱讀理解。DuReader[10]是一個(gè)中文閱讀理解數(shù)據(jù)集,該數(shù)據(jù)集的問(wèn)題和文章均來(lái)自百度搜索和百度知道,答案是人們根據(jù)多篇文章推理出來(lái)的,而不是原始上下文中的片段,DuReader提供了新的問(wèn)題類(lèi)型yes、no、和opinion。
目前,英文和中文的閱讀理解數(shù)據(jù)集已經(jīng)得到了很好的發(fā)展,而對(duì)于低資源語(yǔ)言的閱讀理解數(shù)據(jù)集則很少有人研究,這嚴(yán)重阻礙了低資源語(yǔ)言的機(jī)器閱讀理解的發(fā)展,為了解決這個(gè)問(wèn)題,我們構(gòu)建了一個(gè)高質(zhì)量的藏語(yǔ)閱讀理解數(shù)據(jù)集,稱(chēng)為T(mén)ibetanQA,該數(shù)據(jù)集的文章來(lái)自云藏網(wǎng),涵蓋了多領(lǐng)域的知識(shí),并采用眾包的方式人工構(gòu)建。TibetanQA面向藏語(yǔ)篇章片段型閱讀理解任務(wù),數(shù)據(jù)集中的答案來(lái)自文章。
首先,本文從云藏網(wǎng)上獲取了藏文實(shí)體的文本,然后對(duì)文本信息進(jìn)行篩選,并采用人工標(biāo)注的方式構(gòu)建問(wèn)答對(duì),最后對(duì)問(wèn)答對(duì)的有效性進(jìn)行人工審核,該工作過(guò)程主要包括文章收集、問(wèn)題構(gòu)建和答案驗(yàn)證。
為了獲取大量的文章,本文利用爬蟲(chóng)技術(shù)對(duì)云藏網(wǎng)站中的實(shí)體知識(shí)信息進(jìn)行爬取,共獲取了1 600個(gè)實(shí)體知識(shí)信息文本。文本的選取涵蓋了廣泛的主題,包括自然、文化、教育、地理、歷史、生活、社會(huì)、藝術(shù)、技術(shù)、人物、科學(xué)、體育共12個(gè)領(lǐng)域。此外,本文利用正則表達(dá)式對(duì)獲取到的文章段落中的噪聲信息進(jìn)行處理,刪除了圖像、表格和網(wǎng)站鏈接等非文本數(shù)據(jù),并丟棄了小于100個(gè)音節(jié)的段落,最終選取了1 513篇文章。
為了有效地收集問(wèn)題,我們開(kāi)發(fā)了一個(gè)問(wèn)答收集的Web應(yīng)用程序,如圖1所示,并邀請(qǐng)了母語(yǔ)為藏語(yǔ)的學(xué)生來(lái)使用該應(yīng)用程序,這些藏族學(xué)生從小接受藏語(yǔ)學(xué)習(xí),目前為藏學(xué)專(zhuān)業(yè)研究生,方向?yàn)檎Z(yǔ)言文學(xué),具有較高的藏文水平。在問(wèn)題構(gòu)建的過(guò)程中,對(duì)于文章中的每一個(gè)段落,他們首先需要選擇文章中的一段文本作為答案,然后將問(wèn)題用自己的語(yǔ)言寫(xiě)入輸入字段中,學(xué)生的任務(wù)是提問(wèn)并回答關(guān)于該段落的問(wèn)題,答案必須為段落中的一部分。當(dāng)他們完成一篇文章后,系統(tǒng)會(huì)自動(dòng)為其分配下一篇文章。為了構(gòu)建更具挑戰(zhàn)性的語(yǔ)料庫(kù),我們對(duì)每個(gè)學(xué)生進(jìn)行了短期培訓(xùn),并指導(dǎo)他們?nèi)绾翁峁┯行Ш途哂刑魬?zhàn)性的問(wèn)題,對(duì)于每個(gè)學(xué)生,我們首先會(huì)教其如何進(jìn)行提問(wèn)和回答,之后利用少部分?jǐn)?shù)據(jù)來(lái)對(duì)他們進(jìn)行測(cè)試,只有準(zhǔn)確率達(dá)到90%的學(xué)生才可以進(jìn)行后續(xù)工作。此外,我們不對(duì)問(wèn)題的形式施加限制,并鼓勵(lì)他們使用自己的語(yǔ)言來(lái)進(jìn)行提問(wèn)。

圖1 用于收集藏語(yǔ)問(wèn)答對(duì)的Web應(yīng)用程序
為了進(jìn)一步提高數(shù)據(jù)集的質(zhì)量,我們?cè)讷@取到初始的數(shù)據(jù)集后,邀請(qǐng)另一組藏族學(xué)生來(lái)檢查,他們選擇有效的問(wèn)答對(duì),丟棄不完整的答案或問(wèn)題,剔除語(yǔ)法不正確的問(wèn)題。最終,我們?nèi)斯ば?duì)出20 000個(gè)問(wèn)題答案對(duì)。
一個(gè)高質(zhì)量的數(shù)據(jù)集要能夠從多個(gè)角度對(duì)機(jī)器閱讀理解模型進(jìn)行準(zhǔn)確的評(píng)估,因此,本文研究了當(dāng)前自然語(yǔ)言處理領(lǐng)域中一些流行的機(jī)器閱讀理解數(shù)據(jù)集,發(fā)現(xiàn)目前流行的數(shù)據(jù)集主要為英文和中文的,很少有低資源數(shù)據(jù)集。因此,構(gòu)建一批有價(jià)值和開(kāi)放的藏語(yǔ)機(jī)器閱讀理解數(shù)據(jù)集顯得尤為重要。本文重點(diǎn)分析最為權(quán)威的篇章片段型機(jī)器閱讀理解數(shù)據(jù)集SQuAD,該數(shù)據(jù)集不僅有超過(guò)10萬(wàn)個(gè)的問(wèn)題答案對(duì),而且采用人工構(gòu)建,可以保證語(yǔ)料庫(kù)的質(zhì)量。參考SQuAD數(shù)據(jù)集的構(gòu)建方式,我們構(gòu)建了TibetanQA 藏語(yǔ)數(shù)據(jù)集。為了驗(yàn)證構(gòu)建的數(shù)據(jù)集更具挑戰(zhàn)性,本文將TibetanQA與SQuAD進(jìn)行比較,并簡(jiǎn)要對(duì)TibetanQA面臨的挑戰(zhàn)進(jìn)行了介紹。
本文對(duì) TibetanQA中的答案進(jìn)行了分類(lèi),生成答案的音節(jié)標(biāo)簽和命名實(shí)體識(shí)別標(biāo)簽。首先,將數(shù)據(jù)分為數(shù)字答案和非數(shù)字答案,之后利用命名實(shí)體識(shí)別標(biāo)簽將名詞短語(yǔ)分為人、地點(diǎn)、組織機(jī)構(gòu)和其他實(shí)體。表3顯示不同答案類(lèi)型所占的比例,答案中30.4%是短語(yǔ),26.5%是其他實(shí)體和其他類(lèi)型,17.6%是數(shù)字,8.5%是人名,7.2%是地名,日期和時(shí)間占6.3%,剩下的3.5%是組織機(jī)構(gòu)名。

表3 不同的答案類(lèi)型所占的比例


表4 TibetanQA和SQuAD中不同類(lèi)型問(wèn)句所占的比例
從表4中可以看出,疑問(wèn)詞“什么”在兩種數(shù)據(jù)集中的占比均很大,疑問(wèn)詞“哪里”“誰(shuí)”“何時(shí)”和“如何”的占比分別為10.5%、8.7%、11.9%和14.4%,這表明TibetanQA中問(wèn)題類(lèi)型的分布比較均衡。
為了獲得更具有挑戰(zhàn)性的數(shù)據(jù)集,我們?cè)赥ibetanQA 數(shù)據(jù)集的答案中增加了推理,機(jī)器提取正確答案也需要推理能力。我們將所有的問(wèn)題分成四類(lèi): 單詞匹配、同義詞替換、多句推理和模糊問(wèn)題,類(lèi)型樣例如表5所示。

表5 各種推理類(lèi)型舉例
單詞匹配: 這類(lèi)問(wèn)題是針對(duì)段落中的某個(gè)關(guān)鍵詞(通常為名詞)進(jìn)行提問(wèn),即將該關(guān)鍵詞用疑問(wèn)詞替換來(lái)進(jìn)行提問(wèn),該關(guān)鍵詞即為答案,問(wèn)題中的其余部分的單詞均可以直接在文章原文中找到。回答這類(lèi)問(wèn)題只需要使用簡(jiǎn)單的相似算法便可找到答案,不需要任何的推理過(guò)程。在表5段落1中,問(wèn)題中的“蛋白質(zhì)組成成分”直接在原文中出現(xiàn),根據(jù)一個(gè)簡(jiǎn)單的相似算法便可以確定答案為“氨基酸”。

多句推理: 這類(lèi)問(wèn)題并不能只根據(jù)當(dāng)前的句子來(lái)獲得答案,而需要將多個(gè)句子組合起來(lái)進(jìn)行簡(jiǎn)單的推理。表5段落3中展示了TibetanQA中需要進(jìn)行多句推理類(lèi)型的數(shù)據(jù),其中,我們需要知道代詞指的是什么。在這個(gè)例子中,第二個(gè)句子中的“它”指的是第一個(gè)句子中的“蛋白質(zhì)”,所以第二個(gè)句子可以轉(zhuǎn)換成“蛋白質(zhì)是人體肌肉的主要成分”,因此,通過(guò)指代消解后可以得到答案為“蛋白質(zhì)”。
模糊問(wèn)題: 這類(lèi)問(wèn)題理論上沒(méi)有標(biāo)準(zhǔn)答案,即不同的人給出的答案可能不同。表5段落4中展示了TibetanQA數(shù)據(jù)中的模糊性問(wèn)題,問(wèn)題為“兔子有什么特點(diǎn)?”,根據(jù)段落可知兔子存在許多特點(diǎn),不同的人會(huì)得到不同的答案,因此,在實(shí)際的問(wèn)題中我們會(huì)指定一個(gè)答案。
機(jī)器閱讀理解數(shù)據(jù)集的質(zhì)量直接影響到模型的理解能力,因此需要對(duì)構(gòu)建的數(shù)據(jù)集進(jìn)行評(píng)估。本文使用三種經(jīng)典的英語(yǔ)閱讀理解模型R-Net[17]、BiDAF[18]和QANet[19]來(lái)測(cè)試TibetanQA,并采用一種基于語(yǔ)言特征消融輸入的評(píng)估方法來(lái)直觀地評(píng)估TibetanQA數(shù)據(jù)集[20]。本文將這三個(gè)模型作為基線(xiàn)方法,使用EM和F1來(lái)評(píng)估模型的準(zhǔn)確性。EM是指預(yù)測(cè)答案和標(biāo)準(zhǔn)答案之間的匹配程度,例如,有m個(gè)問(wèn)題,如果模型能正確回答n個(gè)問(wèn)題,則可以用式(1)計(jì)算EM。
(1)
F1值是準(zhǔn)確率(Precision)和召回率(Recall)的調(diào)和平均,準(zhǔn)確率、召回率和F1值的計(jì)算如式(2)~式(4)所示。
其中,N(TP)表示預(yù)測(cè)答案和標(biāo)準(zhǔn)答案之間相同的詞數(shù),N(FP)表示不在標(biāo)準(zhǔn)答案中而在預(yù)測(cè)答案中的詞數(shù),N(FN)是標(biāo)準(zhǔn)答案中的詞而不是預(yù)測(cè)答案中的詞數(shù)。
對(duì)于傳統(tǒng)的數(shù)據(jù)驅(qū)動(dòng)閱讀理解來(lái)說(shuō),數(shù)據(jù)集可以使用基于規(guī)則的系統(tǒng)[21]和邏輯回歸模型[22]來(lái)改進(jìn)它們的模式匹配基線(xiàn)。盡管這種類(lèi)型的數(shù)據(jù)集是真實(shí)的和具有挑戰(zhàn)性的,但由于數(shù)據(jù)集太小,無(wú)法支持非常有表現(xiàn)力的統(tǒng)計(jì)模型。從SQuAD數(shù)據(jù)集公開(kāi)發(fā)布之后,基于注意力機(jī)制的深度學(xué)習(xí)匹配模型開(kāi)始大量出現(xiàn),與傳統(tǒng)的基于規(guī)則的方法相比,深度學(xué)習(xí)的方法可以更好地對(duì)文本的特征進(jìn)行表示,能夠在很大程度上提高模型的學(xué)習(xí)能力,也就能使機(jī)器更好地理解文章內(nèi)容。
目前,基于數(shù)據(jù)集的機(jī)器閱讀理解任務(wù)主要采用深度學(xué)習(xí)的方法進(jìn)行研究。Mingoon等人[18]首次引入了“雙向注意力機(jī)制”的機(jī)器閱讀理解模型BiDAF,他們?cè)诮换右攵温鋵?duì)問(wèn)題的注意力和問(wèn)題對(duì)段落的注意力,采用這兩個(gè)方向的注意力來(lái)獲得文章和問(wèn)題之間的表征,他們認(rèn)為這些注意力可以提取更多的信息。Wang等人[17]首次在機(jī)器閱讀理解任務(wù)中加入自注意力機(jī)制并提出了R-Net模型,他們通過(guò)計(jì)算段落中單詞與單詞之間的注意力值,學(xué)習(xí)已經(jīng)融合了問(wèn)題信息的段落內(nèi)部單詞之間的權(quán)重分布,實(shí)驗(yàn)結(jié)果證明引入自注意力機(jī)制提高了模型的準(zhǔn)確率。此外,為了解決RNN在編碼過(guò)程中會(huì)導(dǎo)致訓(xùn)練速度變慢的問(wèn)題,Adams等人[19]將卷積神經(jīng)網(wǎng)絡(luò)和自注意力機(jī)制結(jié)合提出了QANet模型,他們認(rèn)為提高了訓(xùn)練速度以后可以在同樣的時(shí)間內(nèi)訓(xùn)練更多的數(shù)據(jù),因此可以提高模型的泛化能力,該模型在SQuAD上取得了更好的成績(jī)。以上三個(gè)模型均在SQuAD上取得了不錯(cuò)的成績(jī),因此本文將BiDAF、R-Net和QANet模型引入到藏語(yǔ)數(shù)據(jù)集TibetanQA上進(jìn)行實(shí)驗(yàn)。
本文將文章中的段落和問(wèn)題隨機(jī)分為訓(xùn)練集和測(cè)試集,TibetanQA和SQuAD數(shù)據(jù)集的統(tǒng)計(jì)信息如表6所示。

表6 兩種數(shù)據(jù)集的數(shù)據(jù)統(tǒng)計(jì)信息
本文從測(cè)試集中隨機(jī)抽取100個(gè)樣本,分成10個(gè)部分,然后分發(fā)給10個(gè)不同的藏族學(xué)生進(jìn)行測(cè)試,把他們的平均分?jǐn)?shù)作為人類(lèi)的表現(xiàn),得到F1值為89.2%。錯(cuò)誤匹配的原因主要是藏語(yǔ)中短語(yǔ)的替換和不必要短語(yǔ)的添加或刪除,而不是答案的根本分歧。之后,本文分別使用BiDAF、R-Net和QANet模型在TibetanQA上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表7所示。

表7 不同模型在兩種數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
在SQuAD數(shù)據(jù)集上,BiDAF模型的EM和F1分別為68%和77.3%。在TibetanQA數(shù)據(jù)集上,BiDAF模型的EM和F1分別為58.6%和67.8%。R-NET和QANet模型在TibetanQA數(shù)據(jù)集上的結(jié)果也比在SQuAD數(shù)據(jù)集上的結(jié)果要低,主要原因如下:
(1) 現(xiàn)有藏文分詞工具的錯(cuò)誤會(huì)傳播到下游任務(wù)中。
(2) SQuAD的訓(xùn)練集明顯多于TibetanQA的訓(xùn)練集。對(duì)于低資源語(yǔ)言來(lái)說(shuō),在小規(guī)模數(shù)據(jù)集上很難獲得良好的性能,因此需要機(jī)器閱讀理解模型來(lái)加強(qiáng)模型的理解能力,傳統(tǒng)的英語(yǔ)閱讀理解模型不能直接應(yīng)用到TibetanQA上。因此,該數(shù)據(jù)集對(duì)未來(lái)的MRC任務(wù)提出了新的挑戰(zhàn)。
(3) TibetanQA中的大多數(shù)段落長(zhǎng)度約為150個(gè)詞,SQuAD中的大多數(shù)段落長(zhǎng)度約為100個(gè)詞,而長(zhǎng)文本的段落信息中會(huì)存在更多問(wèn)題無(wú)關(guān)的信息,因此對(duì)模型理解能力的要求也越高。
Saku等人[20]提出了基于消融輸入的方法來(lái)評(píng)測(cè)機(jī)器閱讀理解數(shù)據(jù)集,他們假設(shè)輸入文本中的某一項(xiàng)特征對(duì)應(yīng)了現(xiàn)實(shí)中的一種閱讀理解技能,然后通過(guò)刪除文本中一些特定語(yǔ)言特征,觀察刪除前后的實(shí)驗(yàn)結(jié)果來(lái)對(duì)數(shù)據(jù)集難度進(jìn)行驗(yàn)證。他們認(rèn)為一個(gè)數(shù)據(jù)集在經(jīng)過(guò)某一種消融方法后準(zhǔn)確率下降越大,則說(shuō)明這個(gè)數(shù)據(jù)集對(duì)于該技能的要求越嚴(yán)格。反之,如果一個(gè)數(shù)據(jù)集對(duì)多數(shù)的消融處理都不敏感,則說(shuō)明它不能有效地評(píng)估模型的閱讀理解能力。受他們的工作啟發(fā),本文針對(duì)藏文中詞性消融、詞順序、隨機(jī)單詞掩蓋以及句子順序四個(gè)角度評(píng)估 TibetanQA 數(shù)據(jù)集。
(1)詞性消融: 將輸入的文本信息替換成詞對(duì)應(yīng)的詞性組成的序列,以便于考察模型是否僅憑詞性進(jìn)行預(yù)測(cè)。
(2)詞順序: 對(duì)非答案片段的詞順序進(jìn)行隨機(jī)調(diào)整,本文以句子為單位針對(duì)每個(gè)句子中的3個(gè)詞的順序進(jìn)行隨機(jī)替換,目的是考察模型對(duì)詞序的認(rèn)知和句子的語(yǔ)義構(gòu)成。
(3)隨機(jī)單詞掩蓋: 將答案所在句子中的一個(gè)詞隨機(jī)替換成UNK,以便于考察模型的推理能力。
(4)句子順序: 對(duì)段落中句子之間的順序隨機(jī)打亂后進(jìn)行重新組合,目的是考察機(jī)器是否理解句子之間的邏輯。
本文以R-Net模型為基準(zhǔn)實(shí)驗(yàn),觀察不同的輸入對(duì)模型效果的影響,計(jì)算結(jié)果如表8所示。

表8 不同的輸入信息對(duì)R-Net網(wǎng)絡(luò)模型的影響
從表8可以看出,四種消融輸入對(duì)R-Net模型的預(yù)測(cè)準(zhǔn)確率都有所下降,其中以詞性消融后的結(jié)果最為明顯,模型的F1值和EM值分別下降了49.6%和47.6%,這說(shuō)明模型對(duì)詞性以外的信息要求較大,單憑詞性的特征信息難以獲得較高性能表現(xiàn)。除此之外,其他三組實(shí)驗(yàn)也分別說(shuō)明數(shù)據(jù)在詞順序、隨機(jī)單詞掩蓋和句子順序三個(gè)方面對(duì)模型提出了更高的要求。
本文構(gòu)建了藏語(yǔ)機(jī)器閱讀理解數(shù)據(jù)集TibetanQA,其中包含20 000個(gè)問(wèn)題答案對(duì)和1 513篇文章。本數(shù)據(jù)集的文章均來(lái)自云藏網(wǎng),問(wèn)題答案對(duì)采用眾包的方式人工構(gòu)建。TibetanQA為藏語(yǔ)機(jī)器閱讀理解研究提供數(shù)據(jù)基礎(chǔ)。目前,TibetanQA基線(xiàn)模型的F1值分別為67.8%、63.4%和66.9%。最好模型的性能比人類(lèi)表現(xiàn)要低21.4%,這說(shuō)明現(xiàn)有的模型可以在該數(shù)據(jù)集上有更好的改進(jìn)。接下來(lái),我們將進(jìn)一步擴(kuò)展數(shù)據(jù)集,并鼓勵(lì)更多的人去探索新的表示模型,以促進(jìn)低資源語(yǔ)言機(jī)器閱讀理解的研究發(fā)展。