999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的機器閱讀理解

2019-09-24 02:00:29王勇林景彥王瑛
電腦知識與技術 2019年19期
關鍵詞:深度學習

王勇 林景彥 王瑛

摘 要:閱讀理解是考試中一個基本題型,其一般形式是給定一段文本,考生在閱讀完文本后根據(jù)文本內容解答題目。如果機器也有閱讀理解的能力,能幫助我們從眾多的文本中找到我們需要的答案。近年來,深度學習發(fā)展迅猛并應用到機器閱讀理解領域中,取得了很好的效果。本文首先闡述了機器閱讀理解的基本概況,基于深度學習機器閱讀理解模型的基本架構。然后介紹了基于深度學習的機器閱讀理解研究現(xiàn)狀,包括數(shù)據(jù)集和經典模型。

關鍵詞: 機器閱讀理解;深度學習;自然語言處理

中圖分類號: TP391? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2019)19-0203-02

1 機器閱讀理解概要

機器閱讀理解就是讓機器像人一樣能閱讀文本,讓計算機閱讀一篇文章,隨后讓計算機解答與文中信息相關的問題,一般題型包括選擇題、填空題和分析題。機器閱讀理解,是當前自然語言處理研究的核心任務之一[1]。與傳統(tǒng)分詞、命名實體識別和句法分析等任務相比包含更長的篇章,更深層次的語義信息,需要綜合運用文本表示、檢索、指代消解和推理等方法,具有很強的挑戰(zhàn)性。機器閱讀理解無論是在工業(yè)界還是學術界都有著很高的研究價值。當前研究熱門主要在文本表示、相關片段檢索和答案生成三個方面。

機器閱讀理解能力的提高可輔助醫(yī)療診斷、閱卷、法官判決、智能客服、知識問答和搜索引擎等。傳統(tǒng)的機器閱讀理解做法是手工提取特征和設計規(guī)則需要大量的人工勞動力。基于深度神經網絡的機器閱讀理解可自動學習與任務相關的特征和規(guī)則,能捕獲更多特征信息,包括一些人工很難理解到的信息。取得與傳統(tǒng)方法相當甚至更好的效果,同時避免了傳統(tǒng)方法中需要人工提取特征以及一些預處理工具的問題。

2 基本模型架構

典型的基于深度學習機器閱讀理解模型包括詞向量層、表征層、交互層和輸出層。模型的輸入一般是一個三元組{P, Q, A},其中P表示原文,Q代表問題,A表示答案。

詞向量層就是將原文、問題與答案的詞映射成低維詞向量。一般都是通過詞表查詞操作獲得詞向量。使用Word2vec、ELMo和BERT等詞向量工具大規(guī)模的文本上訓練,可以獲得含有豐富語義和文法信息的詞向量表。

表征層就是用CNN和LSTM等深度神經網絡對原文、問題和答案每個單詞及其上下文語義進行編碼。最常用的編碼器是雙向LSTM和雙向GRU,它們都有很強的語義序列建模能力。雙向LSTM和雙向GRU能從正向和反向兩個方向獲取整個句子的語義信息,并將這兩個方向的隱層狀態(tài)拼接起來表征句子的整體語義。

交互層主要是通過注意力機制實現(xiàn)文本信息的交互,得到交互后文本的表示。在基于深度學習機器閱讀理解任務中,主要運用自注意力和互注意力兩種機制。自注意力機制一般針對原文,原文間的詞交互得到原文中的關鍵信息。互注意力機制一般是原文與問題詞向量進行交互,得到基于原文問題的表示和基于問題原文的表示。

輸出層是模型的最后一層,輸出層一般是輸出答案在原文中的起始位置與終止位置。主要是通過sigmoid函數(shù)或指針網絡對答案起始位置和終止位置預測。

模型評價指標與題型相關。對于選擇題,評價標準是準確率。對于填空題和分析題,評價指標有EM、F1、BLEU和Rouge-L。

3 研究現(xiàn)狀

3.1 數(shù)據(jù)集

目前大部分大規(guī)模的機器閱讀理解數(shù)據(jù)集都是英文數(shù)據(jù)集,包括SQuAD、MS-MARCO和RACE。其中最流行的是SQuAD數(shù)據(jù)集[2],它是由斯坦福大學于2016年發(fā)布的,被稱為是自然語言處理的“ImageNet”數(shù)據(jù)集。SQuAD通過眾包的方式,從wikipedia上的536篇文章切出了23215個自然段,每個段落提五個問題,貼近實際。數(shù)據(jù)集答案的類別包括日期、人名、地點、數(shù)字和名詞詞組等。文本片段及答案如圖1所示。2018年SQuAD發(fā)布了2.0版本[3],增大了數(shù)據(jù)集的難度,新增了超過五萬個由人類眾包者設計的無法回答的問題,模型在回答問題時需要判斷哪些問題是在文本中沒有證據(jù)支持的,并拒絕回答這些問題。

3.2 經典模型

Seo[5]等提出了多層次、多粒度模型Bi-Directional Attention Flow(BiDAF),該模型在注意力層上同時計算問題與原文和原文與問題的相似度,通過數(shù)據(jù)流動保留更多信息,更好地實現(xiàn)原文和問題的交互。通過softmax函數(shù)和BiLSTM輸出答案的起始和結束位置。

Cui Y[6]等提出了Attention Over Attention模型(AOA),原文向量和問題向量后相乘得到原文-問題矩陣,然后分別從列和行兩個維度進行softmax操作得到原文注意力矩陣和問題注意力矩陣,其中問題注意力矩陣是每一列元素求均值,將兩個注意力矩陣相乘,得到每個詞作為答案的概率。

Wang[7]等模仿人類做閱讀理解過程,提出了R-Net。使用了詞和字兩種embedding使文本輸入特征更豐富。通過門機制與注意力機制實現(xiàn)了原文與問題交互,原文自身重要信息提取。最后通過指針網絡輸出答案起始和終止位置。

Shen[8]等提出了ReasoNet。模型在推理答案階段運用增強學習的方法,模擬人類閱讀的過程,帶著問題多次閱讀原文,當從已知信息得出答案后,可動態(tài)決定是否需要后續(xù)的推理或立刻停止閱讀把當前答案作為最終答案輸出。

4 總結

隨著深度學習的發(fā)展,機器的閱讀理解能力跟人類越來越接近,但仍存在較大的差距。當前很多機器閱讀理解的方法仍然基于文本匹配而不是真正通過理解原文與問題得出答案。下一步研究重點將包括外部知識(常識)的引入、基于多段落多文本的閱讀理解和可解析推理機制這三個方面。

參考文獻:

[1] 劉飛龍, 郝文寧, 陳剛,等. 基于雙線性函數(shù)注意力Bi-LSTM模型的機器閱讀理解[J]. 計算機科學, 2017(S1):102-106,132.

[2] Rajpurkar P, Zhang J, Lopyrev K, et al. SQuAD: 100,000+? Questions? for Machine Comprehension of Text[C]// Conference on Empirical Methods in Natural Language Processing. 2016:2383-2392.

[3] Rajpurkar P, Jia R, Liang P. Know What You Don't Know: Unanswerable Questions for SQuAD[C]// Meeting of the Association for Computational Linguistics. 2018:784-789.

[4] He W , Liu K , Lyu Y , et al. DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications[J]. arXiv preprint arXiv:1711.05073.

[5] Seo M, Kembhavi A, Farhadi A, et al. Bidirectional Attention Flow for Machine Comprehension[C]// International Conference on Learning Representations, 2017.

[6] Cui Y, Chen Z, Wei S, et al. Attention-over-Attention Neural Networks for Reading Comprehension[C]// Meeting of the Association for Computational Linguistics. 2017:593-602.

[7] Wang W, Yang N, Wei F, et al. Gated Self-Matching Networks for Reading Comprehension and Question Answering[C]// Meeting of the Association for Computational Linguistics. 2017:189-198.

[8] Shen Y, Huang P S, Gao J, et al. ReasoNet: Learning to Stop Reading in Machine Comprehension[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2017:1047-1055.

【通聯(lián)編輯:唐一東】

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數(shù)據(jù)遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數(shù)據(jù)技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 欧美在线视频a| 精品国产电影久久九九| 亚洲动漫h| 久久精品无码国产一区二区三区| 欧美有码在线| 精品久久高清| 亚洲乱码精品久久久久..| 97人人模人人爽人人喊小说| 青青操视频免费观看| 老熟妇喷水一区二区三区| 亚洲欧美日韩综合二区三区| 亚洲无码久久久久| 欧美一区福利| 自拍偷拍欧美| 69视频国产| 高潮爽到爆的喷水女主播视频| 亚洲精品在线影院| 国产成人免费高清AⅤ| 色综合热无码热国产| 欧美日本一区二区三区免费| 国产在线欧美| 伊在人亚洲香蕉精品播放| 99这里只有精品6| 成人亚洲视频| 99re精彩视频| 97在线碰| 538精品在线观看| 国产成人一区在线播放| 亚洲国产综合精品中文第一| 国产簧片免费在线播放| 91九色国产在线| 国产在线一二三区| 日韩一区精品视频一区二区| 色悠久久综合| 国产精品密蕾丝视频| AV无码无在线观看免费| 少妇精品在线| 广东一级毛片| 国产熟睡乱子伦视频网站| 国产精品视频a| 欧美日韩一区二区在线免费观看| 乱人伦视频中文字幕在线| 五月综合色婷婷| 伊人网址在线| 奇米影视狠狠精品7777| 国产国语一级毛片在线视频| 不卡午夜视频| 伊人久久久大香线蕉综合直播| 黄色三级毛片网站| 中文字幕久久波多野结衣| 国产SUV精品一区二区| 国产成人精品男人的天堂| 小蝌蚪亚洲精品国产| 国产成人精品午夜视频'| 亚洲欧美另类视频| 狂欢视频在线观看不卡| 亚洲天堂色色人体| 色综合a怡红院怡红院首页| 91在线国内在线播放老师| 国产精品专区第1页| 国产精女同一区二区三区久| 国产在线八区| 欧美在线精品怡红院| 中文字幕66页| 91精品福利自产拍在线观看| 国产成人午夜福利免费无码r| 国产第一页免费浮力影院| 青草视频在线观看国产| 亚洲日本中文字幕天堂网| 在线观看视频99| 亚洲人成成无码网WWW| 日韩一区二区三免费高清| 九九这里只有精品视频| 国产精品极品美女自在线看免费一区二区| 国产精品中文免费福利| 国产又色又刺激高潮免费看| 国产91精选在线观看| 在线不卡免费视频| 在线国产资源| 91在线一9|永久视频在线| 国产欧美专区在线观看| 欧美激情第一欧美在线|