999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于序列到序列模型的句子級復述生成

2018-09-05 10:19:04寧丹丹
智能計算機與應用 2018年3期
關鍵詞:機制方法模型

寧丹丹

文章編號: 2095-2163(2018)03-0061-04中圖分類號: 文獻標志碼: A

摘要: 關鍵詞: (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Abstract: Paraphrase is to change a sentence into another expression, meaning the same as before. Paraphrase is widely used in Natural Language Processing, for example, it is used in information retrieval, automatic abstracting, information extraction, sentence translation and so on. This paper focuses on the generation of sentence level paraphrase. In the research, first try the basic seq2seq model for sentence paraphrasing, then use bidirectional LSTM in encoder stage and join the attention mechanism, by comparing the generation results of sentences,demonstrate that the model with attention is better. In addition, further propose the copy mechanism and the coverage mechanism to improve the model. Among them, introduce the copy mechanism to solve special condition when names and places are present in original sentence. Under this condition, design to realize that the model can copy words without change. Experimental results show that the copy mechanism can improve the situation and generate better sentences. Finally, to address the common repetition problem of seq2seq, coverage mechanism is added on the basis of copy mechanism, which effectively improves this problem in sentences generation. And BLEU is used to evaluate the model results.

Key words:

作者簡介:

通訊作者: 收稿日期: 引言

復述(Paraphrase)是自然語言中普遍存在的一種現象,體現了自然語言的多樣性。隨著深度學習的發展以及自然語言處理各項技術的提高,對復述技術的需求也日趨強烈,因此,各大研究機構及高校等對復述任務的研究也越來越關注。復述研究的對象主要是有關短語或者句子的同義現象。現在已在信息檢索、自動問答、信息抽取、自動文摘和機器翻譯等方面應用廣泛。在復述的研究前期,研究主要利用句子中詞語之間的關系,句子的依存句法關系等進行復述生成,隨著深度學習的發展,很多研究機構將深度學習技術應用到復述生成的任務中,并且具有顯著的效果。本文采用序列到序列模型的方法,對句子級復述進行生成,在基本seq2seq模型上嘗試3種改進方法,分別是雙向LSTM 注意力機制的改進方法、加入復制(copy)以及加入 (coverage)機制的方法。其中,復制機制主要解決句子中詞頻比較低的詞語的生成,例如在句子中會存在人名、地名等詞頻較低的詞,在復述過程中,目標設定在生成的句子將這些名稱進行復制,不進行改變,因此即有針對性地提出了復制機制。另外,seq2seq模型存在重復這一共性問題,本文采用覆蓋機制對這一現象進行改進。經過如上3種改進方法,句子生成結果則獲得了明顯改進。

1基于序列到序列的句子級復述生成模型

在國內,句子級復述生成的研究也主要圍繞seq2seq模型進行改進。2016年,Gu等人\[1\]提出CopyNet方法,在Attention-based Encoder-Decoder模型的基礎上引入了一些改進,在decoder過程中,詞的概率由generate-mode和copy-mode共同決定,其中后者表示該詞來自原句。例如,在生成對話的過程中,就可以將人名這樣的特殊詞匯拷貝到回復句中。Cao等人\[2\]在句子級復述生成中借鑒CopyNet方法,提出了基于copy機制的復述生成模型,將該模型應用到文本簡化、摘要生成等任務上,取得了較好的結果。相比Gu等人提出的CopyNet模型,該模型的優勢是簡單、易懂。國外研究人員在句子級復述任務上也開展了很多的研究工作,Prakash\[3\]等人在2016年提出了Stacked Residual LSTM networks用于復述生成問題上,通過利用基本seq2seq 的encoder-decoder模型,采用多層結構,在層與層之間加入殘差來改善多層網絡存在的梯度消失問題。Hasan\[4\]等人提出Neural Clinical Paraphrase Generation方法,用于臨床醫學術語等的復述問題上,目的是用通俗易懂的詞代替一些專業醫學術語,讓患者更加容易理解,并且采用attention-based Bi-direction RNN的端到端結構進行復述生成,得到了較好的結果。另外,2017年,See\[5\]等人提出一種基于seq2seq模型的改進方法——Pointer-Generator Networks,并將其利用到文本摘要生成的任務當中,展現了較好的效果優勢,其中seq2seq+Attention模型作為baseline,在此基礎上加入Pointer-Gen機制,即加入一個參數,該參數決定當前詞進行生成還是進行復制,隨后在Pointer-Gen基礎上加入覆蓋機制,改善生成過程中出現的重復問題。

在本文中,在研究嘗試了3種序列到序列模型的改進方法進行句子級復述生成,首先在基本seq2seq模型上加入注意力機制,在encoder階段采用雙向LSTM模型,用于提高seq2seq模型效果,模型結構設計如圖1所示。

上述模型也存在一定的問題,當原句長度較長時,生成句子結果也并未呈現良好實效,當原句中存在一些人名、地名等詞頻較低和不在詞表中存在的詞時,期望的結果是生成的句子中也存在這些詞,但是基本seq2seq模型和加入注意力機制的模型對這一問題沒有提供特別的處理,導致生成的句子中人名、地名的特殊詞語生成結果不好。所以,關于這一問題本文提出復制的思想,在注意力機制的模型上進行改進,一定程度上解決像人名、地名等OOV(out of vocabulary)的詞語的生成情況。另一方面,seq2seq模型和加入注意力機制的模型生成的句子存在重復的問題,這個問題是seq2seq模型的一個通病。生成的句子越長,重復問題越明顯,針對這一問題,本文提出覆蓋機制來對這一問題進行改善,模型結構如圖2所示。

2語料獲取及處理

目前自然語言處理研究中,沒有大規模現成的復述語料資源,需要采取一定的方法獲取復述語料。例如英文詞語級復述資源用WordNet\[6\]、MindNet\[7\]等獲取,中文可以采用同義詞詞林、知網等。2001年,Barzilay\[8\]提出了一種基于外文翻譯獲取句子級復述語料庫的方法。Shinyama\[9\]等人提出了利用同一個新聞事件的不同描述來獲取復述語料,因而假定若2個句子中共同包含的命名實體超過一定的數量,那么這2個句子可以組成一個復述實例。

本課題借鑒前人Barzilay\[8\]及哈爾濱工業大學李維剛\[10\]等人的方法,從單語平行語料庫中,也就是外文名著的不同譯本獲取復述實例。由于待處理的平行譯文文本大多數是從網絡上得到的 ,這些文本具有很多不規范的特征,例如這些文本一般是篇章對齊的,其中的段落沒有嚴格對齊,并且在翻譯時,為了保證翻譯后的語句通順,源語言的一句話可能被翻譯成多句話。基于以上問題,首先需要將文本整合為一篇文章消除段落界限,利用二分圖最優匹配的過程,對句子進行對齊,獲取復述實例。

本文研究利用《百年孤獨》和《呼嘯山莊》兩部外文名著的不同翻譯版本獲取復述語料,語料規模為:10 159句對。對抽取出的復述句對再次進行過濾處理,過濾規則是相對應的2句長度差超過一定的值則將該句對進行過濾,過濾處理后的語料規模為8 022句。

3評價指標與實驗結果

3.1評價指標

本文采用機器翻譯的一種評價方式——BLEU值對句子級復述生成的結果進行評價。該評價方式最先由IBM\[11\]在2002年提出,在機器翻譯任務中,該評價方式的主要思想是若由模型翻譯得到的句子越接近人工翻譯的結果,則證明該模型效果越好,那么定義模型翻譯得到的句子與人工翻譯得到句子之間的相似度成為BLEU評價的核心內容。

首先,BLEU評價需要參考譯文,對于本文句子級復述生成任務,這里的“參考譯文”為復述后的句子。BLEU值通過比較并統計模型生成句子和復述句中共現的n-gram個數,最后把匹配到的n-gram的數目除以模型生成句子中詞語的數目,得到評測結果。之后BLEU做了修正,首先計算出n-gram在一個句子中最大可能出現的次數,然后跟“參考譯文”中n-gram出現的次數作比較,取兩者之間最小值作為n-gram的最終匹配個數。首先,研究定義模型生成的句子為ci,“參考譯文”即復述句表示為Si={si1, si2, …, sim}∈S,計算過程如下。

首先,計算句對中語料庫層面上的重合精度CPnC,S:

CPnC,S=∑i∑kmin (hkci, maxj∈mhk(sij))∑i∑khk(ci) (1)

其中,wk表示第k組可能的n-grams,式(1)中hkci表示wk在模型生成句ci中出現的次數,hk(sij)表示wk在“參考譯文”sij中出現的次數。

可以看出CPnC,S是個精確度度量,在語句較短時表現更好,所以BLEU加入懲罰因子BP。這里給出數學公式如下:bC,S=1 iflc>ls

e1-lslciflc

4結束語

本文主要提出了3種基于序列到序列模型的改進方法應用到句子級復述生成任務中,首先研究嘗試了基本seq2seq模型用于句子復述,并嘗試在encoder階段采用雙向LSTM,而后在雙向LSTM基礎上加入注意力機制,比較句子生成結果,可以得出加入注意力機制的模型生成結果效果要好。接著本課題提出復制機制和覆蓋機制對模型進行改進,其中復制機制旨在解決原句中出現人名、地名等特殊詞匯的情況,這樣情況下將致力于模型可以對詞進行復制,不進行改變,實驗結果證明,復制機制對這一情況有所改善,句子生成效果較好,此外,針對seq2seq普遍存在的重復問題,研究還在復制機制的基礎上加入覆蓋機制,有效改善了生成句子的重復問題。

參考文獻

[1] GU Jiatao, LU Zhengdong, LI Hang, et al. Incorporating copying mechanism in sequencetosequence learning[J]. arXiv preprint arXiv:1603.06393, 2016.

[2] CAO Ziqiang, LUO Chuwei, LI Wenjie, et al. Joint copying and restricted generation for paraphrase[J]. arXiv preprint arXiv:1611.09235, 2016.

[3] PRAKASH A, HASAN S A, LEE K, et al. Neural paraphrase generation with stacked residual LSTM networks[J]. arXiv preprint arXiv:1610.03098,2016.

[4] HASAN S A, LIU B, LIU J, et al. Neural clinical paraphrase generation with attention[C]//Proceedings of the Clinical Natural Language Processing Workshop. Osaka, Japan:[s.n.], 2016: 42-53.

[5] SEE A, LIU P J, MANNING C D. Get to the point: Summarization with pointergenerator networks[J]. arXiv preprint arXiv:1704.04368, 2017.

[6] MILLER G A, BECKWITH R, FELLBAUM C, et al. Introduction to wordnet: An online lexical database[J]. International Journal of Lexicography, 1990,3(4): 235-244.

[7] RICHARDSON S D, DOLAN W B, WANDERWENDE L. Mindnet: Acquiring and structuring semantic information from text[C]//COLING '98 Proceedings of the 17th international conference on Computational linguistics.Montreal, Quebec, Canada:ACM, 1998:1098-1102 .

[8] BARZILAY R, MCKEOWN K R. Extracting paraphrases from a parallel corpus[C]//ACL '01 Proceedings of the 39th Annual Meeting on Association for Computational Linguistics. Toulouse, France:ACM, 2001:50-57.

[9] SHINYAMA Y, SEKINE S, SUDO K. Automatic paraphrase acquisition from news articles[C]//HLT '02 Proceedings of the second international conference on Human Language Technology Research. San Diego, California:ACM, 2002:313-318 .

[10]李維剛. 中文復述實例與復述模板抽取技術研究[D]. 哈爾濱: 哈爾濱工業大學, 2008.

[11]PAPINENI K, ROUKOS S, WARD T, et al. BLEU: A method for automatic evaluation of machine translation[C]// ACL '02 Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Philadelphia, Pennsylvania: ACM,2002:311-318.

猜你喜歡
機制方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 国产成人综合日韩精品无码不卡| 国产人成午夜免费看| 美女无遮挡拍拍拍免费视频| 国产第一页亚洲| 免费一级无码在线网站| 色综合五月婷婷| www亚洲天堂| 亚洲色图欧美一区| 国内精自视频品线一二区| 国产精品网址在线观看你懂的| 欧美亚洲一区二区三区导航| 久久久久人妻一区精品色奶水 | 欧美一道本| 成年人国产视频| 91在线一9|永久视频在线| 有专无码视频| 国内丰满少妇猛烈精品播 | 国产精品无码翘臀在线看纯欲| 国产91精品最新在线播放| 国产成人精品在线1区| 成人一级免费视频| 亚洲国产日韩视频观看| 在线无码av一区二区三区| 中文成人在线视频| 夜精品a一区二区三区| 欧美区一区二区三| 91国内视频在线观看| 国产一二三区视频| 国产人人射| 亚洲AV无码乱码在线观看代蜜桃| 欧美亚洲综合免费精品高清在线观看 | 五月天在线网站| 少妇被粗大的猛烈进出免费视频| 亚洲成人高清在线观看| 欧美日韩国产综合视频在线观看| 免费在线国产一区二区三区精品| 国产原创第一页在线观看| 黄色网页在线播放| 国产精品无码制服丝袜| 国内精品免费| 国产极品美女在线观看| 国产十八禁在线观看免费| 国模私拍一区二区三区| 夜夜拍夜夜爽| 看国产毛片| 国产性猛交XXXX免费看| 亚洲精品男人天堂| 成人免费午间影院在线观看| 国产va欧美va在线观看| 亚洲国产欧美自拍| 毛片a级毛片免费观看免下载| 露脸国产精品自产在线播| 亚洲精品第一在线观看视频| 国产av无码日韩av无码网站| 国产91无码福利在线| 91久久精品国产| 天天做天天爱天天爽综合区| 国产丝袜91| 伊人激情综合网| 日本人妻一区二区三区不卡影院| 国产成人精品在线| 久久一日本道色综合久久| 午夜激情福利视频| 欧美在线一二区| 久久综合成人| 精品无码国产一区二区三区AV| 国产乱人伦AV在线A| 成年人福利视频| 亚洲国产av无码综合原创国产| 三上悠亚精品二区在线观看| www.99精品视频在线播放| 精品人妻无码中字系列| 成人午夜福利视频| 欧美在线视频a| 麻豆国产在线不卡一区二区| 久久久精品国产SM调教网站| 国模粉嫩小泬视频在线观看| 中文字幕人成人乱码亚洲电影| 四虎永久免费地址| 日韩二区三区| 91精品视频播放| 国产毛片不卡|