999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于句內注意力機制的答案自動抽取方法

2017-11-08 12:17:01欒克鑫孫承杰劉秉權王曉龍
智能計算機與應用 2017年5期

欒克鑫+孫承杰+劉秉權+王曉龍

摘要:答案自動抽取是答案融合任務的關鍵技術,其效果直接影響答案融合任務結果的準確性。為了捕捉問題與答案之間的聯系,提高答案自動抽取的準確性,本文引入句內注意力機制用來捕捉問題與答案之間的聯系,進而提高答案自動抽取的準確性。實驗結果表明,句內注意力機制能夠有效發現問句與答案的關系,提升答案自動抽取效果。

關鍵詞: 答案自動抽取; 句內注意力機制; 答案融合

中圖分類號:TP391

[KG3]文獻標志碼: A

文章編號: 2095-2163(2017)05-0087-06

Abstract: The automatic answer extraction is the key technology of the answer fusion task, whose effect directly affects the accuracy of the answer fusion task results. In order to capture the relationship between the question and the answer and improve the accuracy of the automatic answer extraction, this paper introduces the innerattention mechanism to capture the connection between the question and the answer, and then improve the accuracy of the automatic answer extraction. Experimental results show that the innerattention mechanism can effectively find the relationship between the question and the answer, therefore improve the effect of automatically extracting the answer.

Keywords: automatic answer extraction; innerattention mechanism; answer fusion

收稿日期: 2017-06-14

0引言

答案融合[1]任務的核心問題是答案自動抽取[2],答案自動抽取結果的準確率影響任務結果的準確率。因此需要確保模型能夠準確從各個文檔中準確尋找到答案。

例如用戶向系統輸入一個問題“什么是低碳生活?”,候選答案中包括“低碳生活是一種健康的生活方式”,“低碳意指較低的溫室氣體”,“這股風潮逐漸在大城市興起。”其中,“低碳生活是一種健康的生活方式”是能夠回答問題的答案。答案自動抽取是根據用戶輸入的問題“什么是低碳生活?”,從候選答案文檔中得到正確答案,即“低碳生活是一種健康的生活方式”。

傳統的答案自動抽取,依據問句以及答案中提取的多種特征對答案進行打分,并依據打分抽取答案。隨著知識庫[3]的出現,學者嘗試將知識庫技術應用于答案自動抽取任務中,并基于知識庫的先驗知識判斷問句與候選答案之間具有相同實體的個數,同時計算問句與候選答案之間的相關度,由此將抽取出相關答案。隨著深度學習的出現,人們嘗試將深度學習技術應用于答案自動抽取中,從而減少人工特征的提取。

唐朝霞[4]提出了一種基于特種特征融合的答案自動抽取方法,從問題及答案中抽取出多種特征,如詞形相似度特征、長度相似度特征、詞序相似度特征、詞語相似度特征以及問句語義相似度特征等。模型通過提取出多種特征,并進行融合輸入到分類器中,得到句子評分,基于評分進行篩選。傳統方法中的特征提取更多依賴于Hownet以及特征融合過程中的權值設置。Hownet對于很多新出現的詞匯無法處理,同時權值設置過分依賴人工的選取。

余正濤[5]提出了一種基于答案模式的答案自動抽取,通過對問題進行分類,然后通過構建語料庫,對不同類型的問題進行答案模式的訓練,答案模式是一種對答案句法規則的形式化描述,針對不同類型的問題,答案模式都是不同的。在答案抽取的過程中,先對問題進行分類,然后利用訓練好的模型,通過候選答案進行篩選,保留有限個最符合該答案模型的答案句子。與傳統的基于多種特征的答案自動抽取相比,該方法依照模型學到的問題類型的回答規范進行篩選答案,同時輔以特征,能夠較好地從文檔中抽取出答案。

隨著深度學習的日趨成熟,深度學習的諸多方法被引入到答案自動抽取任務中,如長短期記憶網絡(Long Short-Term Memory, LSTM)[6]和卷積神經網絡(Convolutional Neural Networks, CNN)[7]等。Yu[8]嘗試了基于卷積神經網的答案排序方法,將答案排序作為二分類問題來處理,利用模型得到問題與答案相關度的分數。在給定文檔中,將候選文檔切分成句子,將句子和問題分別用預訓練好的詞向量進行句子表示,并利用CNN提取句子表示,將問題與答案的句子表示進行拼接,并添加詞共現特征形成一個新的特征,最終輸入到前饋神經網中,得到候選答案與用戶問題的相關度打分,判斷候選答案與用戶問題的匹配程度,按匹配程度從大到小排列,最終抽取出答案。

Fu[9]提出了一種基于CNN及注意力模型的答案排序算法,將答案排序作為二分類問題來處理,利用模型得到用戶問題與候選答案之間的相關度打分。將給定的包含候選答案的文檔進行句子切分,并用詞向量對候選答案及用戶問題進行詞向量句子表示。

近幾年,注意力機制[10]逐漸走入學界視野,被廣泛應用于圖像識別[11]以及機器翻譯[12]領域,在機器翻譯領域,注意力機制能夠有效發現2個句子間的詞與詞的聯系,從而翻譯得更加精準。常見的注意力機制有靜態注意力機制[10]、動態注意力機制[10]。Liu[13]提出了一種句內注意力機制(inner-attention),該機制被用于文本蘊含中,能夠有效發掘句子間的語義邏輯關系。endprint

本文將句內注意力機制應用于答案自動抽取任務中,同時結合深度學習技術,僅用少量人工特征即可實現答案自動抽取,提高答案自動抽取效果。

1基于句內注意力機制的答案自動抽取

1.1問題描述

答案自動抽取算法是答案自動抽取及融合任務中的核心問題,答案自動抽取算法的準確性直接影響任務結果的準確性。句內注意力機制能夠很好地挖掘句子間和詞間的關系,從而發現問題與答案的關系。本文將句內注意力機制應用于答案自動抽取任務中,使用句內注意力機制嘗試尋找問答對之間詞的關系,從而尋找問題與答案之間的聯系,減少人工特征,實現答案自動抽取。同時針對基于句內注意力的答案自動抽取模型中存在的問題,引入了人工特征,提高答案自動抽取效果。

1.2.2詞共現特征

由于語料庫的限制,只使用深度學習方法解并不能很好地對答案自動進行抽取。本文對語料進行分析,如“雙重人格有什么基本特征?”,“多重人格的基本特征是,雖然同一個體具有2種或更多完全不同的人格,但在某一時間,只有其中之一明顯。”這是語料庫中的一個問答對,前句是問題,后句是答案。問句與答案句中有很明顯的相同點,如人格、基本特征等。這些詞都在問句與答案句中共同出現。經過分析發現,語料庫中大部分語料都有與例句相同的特點,因此本文引入詞共現特征。詞共現特征舉例如表1所示。

由表1得到問題特征向量:[0,1,1,1],答案特征向量:[1,1,1,0,0,0,1,0]。

在表1中列是問句“什么是低碳生活”的分詞結果,行是答案“低碳生活是一種健康的生活方式” 的分詞結果。表中的1代表著問句與答案之間存在著詞共現現象。比如“低碳”、“生活”、“是”。因此本文將問句與答案句中出現詞共現的位置上的值設置為1,其他位置設置為0。如問題句有4個詞,因此特征向量長度為4,問題與答案之間共現了3個詞,分別是“低碳”、“生活”、“是”,其中“是”出現在句子第2個位置上,所以將問題特征第2個位置置為1,“低碳”出現在問題第3個位置上,問題特征第3個位置置為1,“生活”出現在問題第4個位置上,問題特征第4個位置置為1,其他位置置為0。答案特征也做相同的操作。

1.2.3文檔倒數特征

為了區分共現詞的重要程度,引入文檔倒數特征。

如表2所示,由此得到問題文檔倒數[0,1,0.5,1]以及答案文檔倒數特征[0.5,1,1,0,0,0,1,0]。

由表2提取的是文檔倒數特征,在表1中提取了詞共現特征,但詞共現特征中,不能區分出每個詞之間的重要程度,例如在表2所舉的例子中,“低碳”在2個候選答案中都出現了,“生活”只在第1個答案中出現,而第1個答案是正確答案,第2個并不能很好解釋低碳生活。由此可見“低碳”和“生活”的重要程度是不一樣的。“生活”在尋找答案時是更重要的成分,因此本文加入文檔倒數特征,區分共現詞的答案,使模型能夠更好地依據重要詞對候選答案進行打分。

2實驗

2.1數據及數據預處理

2.1.1數據集介紹

答案自動抽取及融合任務中使用的NLPCC于2016年4月發布的開放域中基于文檔的問答語料。DBQA語料庫中包含181 882條問答對,數據正負例比例接近1∶20。語料格式如表4所示。

首句為問題句,第2句為答案句,最后的數字表示是否是候選答案,0表示不是答案,1為是答案。

NLPCC的DBQA語料庫主要用于問答系統,用來回答用戶問題,其答案是從文檔中的檢索,并將答案排序,最終返回給用戶。

2.1.2數據預處理

本文將答案自動抽取轉換為從包含答案的多個候選文檔中根據用戶給定的問句由其中抽取出最能回答問題的相關檔案。因此答案自動抽取選用NLPCC的DBQA語料庫。

對于訓練數據,首先在讀取語料時對來自于同一文檔的問答對進行歸類,方便后期進行特征提取。對問答對進行分詞處理,同時對未登錄詞進行初步過濾,將分詞后的問答對轉化為index形式的句子。訓練模型使用gensim工具在百度百科語料上訓練的詞向量,詞向量維度保存200維。

2.4平衡語料庫

因為語料過于不平衡,本文采用隨機采樣的方法對語料進行平衡。隨機采樣方法是通過某種策略改變數據集的樣本分布,使數據從分布不平衡達到分布平衡。隨機采樣算法是最簡單且容易實現的采樣方法。主要分為2種:一種是隨機欠采樣,另一種是隨機過采樣。其中,隨機過采樣是指對于少數據量的樣本集進行多次有放回的采樣,通過隨機的方法將少數據量的樣本進行擴大,最終達到一個平衡,從而解決樣本不平衡的問題。而隨機欠采樣是訓練時隨機從多數樣本中按照采樣率進行采樣。隨機欠采樣包括:有放回的隨機欠采樣以及無放回的隨機欠采樣。

文本嘗試隨機過采樣以及隨機欠采樣結合的方式解決數據不平衡問題。對正例進行有放回的隨機過采樣,對負例進行有放回的隨機負采樣。

平衡數據實驗結果如表5所示。

經過實驗,發現正例采用16倍過采樣、負例采用隨機采樣時模型效果最好,因此本文所有實驗都采用正例16倍過采樣,負例隨機采樣。

2.5基線

本文除了基于句內注意力機制的答案自動抽取模型,還使用了基于詞對齊注意力機制的答案自動抽取模型、基于相似度矩陣的答案自動抽取、基于句子匹配的答案自動抽取等。[JP+2]

其中,基于相似度矩陣的答案自動抽取模型是在句內注意力機制的基礎上引入相似度矩陣打分。在基于相似度矩陣的答案自動抽取模型實現中,對于輸入的句子Si,Sj先利用句內注意力機制計算出句內注意力特征Fi,Fj,利用Fi,Fj做句子匹配特征計算,得到特征T1,提取詞共現特征T2以及文檔倒數特征T3,然后通過相似度矩陣計算得到特征T4。將4個特征拼接得到最終特征[T1;T2;T3;T4]。基于相似度矩陣的答案自動抽取模型如圖上述所有實驗結果都是基于正例16倍過采樣,負例隨機采樣。endprint

由實驗結果可以看出句子匹配模型、詞對齊注意力模型和句內注意力模型沒有額外特征,句內注意力模型的表現效果最好,MAP達到0.567 4,MRR達到0.568,高于句子匹配模型的0.388 6和0.392 7,同時高于詞對齊注意力模型的0.477 4和0.478。說明在只使用模型提取的特征中句內注意力機制能夠更好地找到問句與答案間的關系。

由于語料庫大小的關系,很多答案不能被很好地判斷,因此在基于句內注意力機制的答案自動抽取模型中加入人工特征,加入詞共現特征、文檔倒數特征、相似度打分特征以及詞相似度特征。

實驗表明,加入詞共現以及文檔倒數的模型比只使用句內注意力機制的模型能夠更好地抽取答案。加入相似度矩陣的模型比詞共現-文檔倒數模型效果差,說明相似度矩陣并不能很好地發現問句與答案句之間的特點。

而引入詞相似度的模型比上述所有模型效果都要好,模型更多地考慮了詞之間的相關度,解決了沒有共現詞情況的答案判斷,進一步提高了模型抽取答案的準確率。

3結束語

基于句內注意力機制的答案自動抽取模型能夠有效地從候選文檔中提取候選答案,相對于其它深度學習模型,能更好地從文檔中抽取候選單。而引入人工特征后,進一步提升了模型的效果。同時由于模型只使用了句內注意力機制、詞共現特征、文檔倒數特征和詞相似度特征,使得模型能夠在多種語言上使用,而不僅限于某種特定的語言。

基于句內注意力機制的答案自動抽取模型能夠有效地發現問句與答案之間詞與詞的聯系,發掘問句與候選答案之間的關系,得到了良好的答案自動抽取效果。

參考文獻:

劉秉權, 徐振, 劉峰, 等. 面向問答社區的答案摘要方法研究綜述[J]. 中文信息學報, 2016, 30(1): 1-7,15.

[2] 鄭實福, 劉挺, 秦兵, 等. 自動問答綜述[J]. 中文信息學報, 2002, 16(6): 46-52.

[3] NAKAI K, KANEHISA M. A knowledge base for predicting protein localization sites in eukaryotic cells[J]. Genomics, 1992, 14(4): 897-911.

[4] 唐朝霞. 多特征融合的中文問答系統答案抽取算法[J]. 貴州大學學報(自然科學版), 2011, 28(5): 80-83.

[5] 余正濤, 毛存禮, 鄧錦輝, 等. 基于模式學習的中文問答系統答案抽取方法[J]. 吉林大學學報 (工學版), 2008, 38(1): 142-147.

[6] SIMARD P Y, STEINKRAUS D, PLATT J C. Best practices for convolutional neural networks applied to visual document analysis[C]// International Conference on Document Analysis and Recognition, 2003. Proceedings. Edinburgh, UK:IEEE, 2003:958.

[7] HOCHREITER S, SCHMIDHUBER J. Long short term memory[J]. Neural Computation,1997,9(8):1735-1780.

[8] YU L, HERMANN K M, BLUNSOM P, et al. Deep learning for answer sentence selection[J]. arXiv preprint arXiv: 1412.1632v1, 2014.

[9] FU Jian, QIU Xipeng, HUANG Xuanjing. Convolutional deep neural networks for document-based question answering[C]// LIN C Y, XUE N, ZHAO D, et al. Natural Language Understanding and Intelligent Applications. ICCPOL 2016, NLPCC 2016. Lecture Notes in Computer Science. Cham:Springer, 2016:790-797.

[10]ROCKTSCHEL T, GREFENSTETTE E, HERMANN K M, et al. Reasoning about entailment with neural attention[J]. arXiv preprint arXiv:1509.06664, 2015.

[11]楊健, 楊靜宇, 金忠. 最優鑒別特征的抽取及圖像識別[J]. 計算機研究與發展, 2001, 38(11): 1331-1336.

[12]劉群. 統計機器翻譯綜述[J]. 中文信息學報, 2003, 17(4):1-12.

[13]LIU Yang, SUN Chengjie, LIN Lei, et al. Learning natural language inference using bidirectional LSTM model and inner-attention[J]. arXiv preprint arXiv:1605.09090, 2016.

[14]MOU Lili, RUI Men, LI Ge, et al. Recognizing entailment and contradiction by treebased convolution[J]. arXiv preprint arXiv:1512.08422, 2015.

[15]IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv:1502.03167, 2015.endprint

主站蜘蛛池模板: 欧美午夜久久| 日本成人福利视频| 人妻丝袜无码视频| 看av免费毛片手机播放| 伊人久久婷婷五月综合97色| 夜色爽爽影院18禁妓女影院| 亚洲床戏一区| 欧美日韩在线第一页| 亚洲人成网站在线观看播放不卡| 一本二本三本不卡无码| a在线亚洲男人的天堂试看| 国产高清免费午夜在线视频| 亚洲国产天堂久久九九九| 欧美伊人色综合久久天天| 国产精品浪潮Av| 亚洲V日韩V无码一区二区 | 色丁丁毛片在线观看| 久久天天躁狠狠躁夜夜躁| 中文字幕 欧美日韩| 色婷婷综合在线| 国产区在线观看视频| 國產尤物AV尤物在線觀看| 中文字幕在线欧美| 91久久夜色精品| 欧美精品导航| 亚洲精品片911| 免费国产高清视频| 亚洲综合国产一区二区三区| 91色爱欧美精品www| 在线精品亚洲国产| 日本一区中文字幕最新在线| 亚洲国产精品人久久电影| 蜜桃视频一区二区| 色一情一乱一伦一区二区三区小说| 最新午夜男女福利片视频| 九色综合视频网| 亚洲视频免| 成人亚洲国产| 国产欧美日韩va另类在线播放| 亚洲人成网址| 国产精品自在自线免费观看| 狠狠色噜噜狠狠狠狠色综合久 | 日韩国产精品无码一区二区三区 | 中文字幕2区| 偷拍久久网| 99精品热视频这里只有精品7| 伊人色天堂| 国产av剧情无码精品色午夜| 欧美国产中文| 91精品aⅴ无码中文字字幕蜜桃| 日韩少妇激情一区二区| 97在线碰| 成人福利在线视频| 爽爽影院十八禁在线观看| 性69交片免费看| 日本午夜精品一本在线观看| 在线欧美日韩国产| 99手机在线视频| 性欧美精品xxxx| 欧美日韩另类国产| 99re在线免费视频| 国产不卡一级毛片视频| 国产精品无码久久久久AV| 在线一级毛片| 欧美精品成人一区二区视频一| 色综合成人| 亚洲自拍另类| 国产精品综合久久久| 欧美国产成人在线| 九色视频线上播放| 欧美亚洲第一页| 亚洲va在线观看| 91青青草视频在线观看的| 国产亚洲精品自在线| 日韩毛片在线播放| 91热爆在线| 成人午夜网址| a毛片免费观看| 国产精品成人一区二区不卡 | 99国产精品国产高清一区二区| 欧美区一区二区三| 伊人久久婷婷五月综合97色|