999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合語料的無監督雙語詞典抽取

2021-12-01 05:26:48韓夢凡曹海龍
智能計算機與應用 2021年8期
關鍵詞:單詞監督方法

韓夢凡,曹海龍

(哈爾濱工業大學 計算學部 機器智能與翻譯實驗室,哈爾濱 150001)

0 引言

雙語詞典抽取能夠抽取出不同語言中含義相同的單詞。作為機器翻譯的基礎,雙語詞典也被應用到跨語言自然語言處理任務中。在跨語言任務中,雙語詞典作為共享的跨語言特征將在一個語言上訓練得到的模型應用到其它語言上。跨語言命名實體識別、跨語言信息檢索以及跨語言文檔分類等都利用該思想進行跨語言任務學習。

雙語詞典的抽取需要大規模高質量的平行語料,例如Mikolov 和Xing 等人的工作都采用了規模較大的詞典作為監督方式學習跨語言詞向量,進而抽取雙語詞典。由于高質量大規模的平行語料難以獲取,不需要任何監督信息的無監督方法逐步成為研究熱點[1-2];Barone 等人首次提出采用生成對抗訓練進行無監督學習[3];zhang 等人在此基礎上提升生成對抗訓練方法的性能[4];Artetxe 等人利用無監督初始化和迭代自學習進行無監督跨語言詞向量表示學習來抽取詞典[5];Lample 等人將生成對抗訓練與迭代學習過程進行結合,利用對抗訓練獲取初始化詞典之后進行迭代增強[6]。盡管無監督方法在部分語言上(如英語-西班牙語)的性能與有監督方法不相上下,但是無監督方法隱含了不同語言的詞向量是同構的假設。S?gaard 等人的研究表明詞向量之間的同構性受到多種因素的影響,不同語言的同構程度是不同的[7]。基于以上原因,本文提出了一種同構性增強的方法,來提升無監督方法在雙語詞典抽取上的性能,該方法首先利用基線模型抽取雙語詞典,根據雙語詞典替換且合并單語語料,對混合語料進行訓練,提升不同語言詞向量的同構性,進而提升雙語詞典性能。在維基百科語料英文-中文實驗上,本文提出的方法有明顯的提升。

1 基于混合語料的無監督雙語詞典構建模型

本文在Artetxe 等人提出的無監督雙語詞典抽取模型(vecmap)的基礎上,提出了一個基于混合語料的無監督雙語詞典構建模型,模型的示意圖如圖1 所示。

基于混合語料的無監督雙語詞典構建模型包含3 部分,第一部分利用基線模型將單語詞向量映射至同一個空間并抽取詞典;第二部分利用抽取的詞典將源語言及目標語言單語語料中的單詞替換并合并為混合語料,訓練混合語料得到新的單語詞向量XN與YN;第三部分利用基線模型映射詞向量XN與YN至同一空間并抽取詞典。

訓練混合語料過程中被詞典替換后的單詞能夠影響上下文單詞,使對應上下文單詞更加接近,從而可以增強不同語言之間單語詞向量的同構性。

2 基于混合語料的無監督雙語詞典模型細節

本文提出的模型結構中,基線模型vemcap 采用了無監督初始化詞典以及迭代自學習,不斷更新詞典和映射矩陣,最終利用映射矩陣W把源語言詞向量映射到同一個空間。本文采用Lample 等人提出的跨域相似性局部縮放方法(cross-domain similarity local scaling,CSLS)[6]替代最近鄰方法抽取詞典。

在抽取詞典時采用CSLS 方法尋找源語言到目標語言的翻譯,得到對應的翻譯對,根據翻譯對抽取詞典。本文提出了兩種抽取詞典方式:

(1)基于頻率進行詞典抽取。在抽取詞典的過程中,根據源語言單詞出現的頻率作為選取準則,源語言單詞出現的頻率越高,該源語言單詞對應的翻譯對越優先被抽取;源語言單詞出現的頻率越低,該源語言單詞對應的翻譯對越靠后被抽取;

(2)基于CSLS值進行詞典抽取。該方式在抽取詞典的過程中,根據已有翻譯對對應的CSLS值進行詞典抽取,翻譯對對應的CSLS值越大,對應翻譯對越容易被抽取;翻譯對對應的CSLS值越小,對應翻譯對越難以被抽取。

利用抽取得到詞典替換合并語料:首先將詞典中的詞對聯結成為一個特殊的聯結對,接下來將單語語料中出現在詞典中的單詞替換成對應的聯結對,具體例子見表1。

表1 替換合并語料例子Tab.1 Example of replacing and merging corpus

在訓練混合語料過程中,本文采用了word2vec方法進行混詞向量的訓練。混合語料訓練詞向量中,根據上下文預測中心詞的過程如圖2 所示。

圖2 混合語料預測中心詞Fig.2 Example of predicting center word from Mixed Corpus

根據圖2 可以發現,數學???math 的翻譯聯結對能夠影響“學習”和“learning”,根據單詞的語義是由上下文決定的分布假設,經過詞向量訓練后的“學習”和“learning”會更加接近彼此。采用混合語料訓練詞向量的方式能夠提升單語詞向量的同構性。

在得到混合詞向量后,將混合詞向量分離為源語言單語詞向量與目標語言單語詞向量,具體見表2。

表2 分離混合詞向量Tab.2 Example of separating mixed word embedding

3 實 驗

本文的實驗在維基百科中文和英文單語語料進行,評價指標包括抽取雙語詞典的準確率以及詞向量同構性的程度。詞向量同構性程度的衡量采用了S?gaard 等人提出的奇異向量相似度(Eigenvector Similarity,EVS)[7]。EVS值越低,同構性越好;EVS值越高,同構性越差。

本文提出的方法在雙語詞典抽取任務上的結果見表3,其中CSLS、frequency 分別表示基于CSLS值抽取詞典以及基于頻率抽取詞典,參數dict 表示抽取詞典的規模。

表3 基于混合語料的詞典抽取結果Tab.3 Dictionary induction accuracy based on mixed corpus

可以發現不論是基于頻率方法還是基于CSLS值方法,在詞典規模合適的情況下,本方法面向詞典抽取任務上的結果有明顯的提升。在基于CSLS值替換的方法中最高能夠達到51.14%,在基于頻率替換的方法中最高能夠達到51.97%,遠遠超過基線模型的46.44%。驗證了本文提出的方法在雙語詞典抽取任務上的有效性。

根據表3 可以發現,隨著抽取詞典規模的增大,雙語詞典的性能并沒有隨著提升。一個可能的原因是由于隨著抽取詞典規模的增大,詞典對應的質量隨之降低。詞典中錯誤翻譯對上下文也產生了影響,最終導致雙語詞典抽取任務性能下降。

本文基于混合語料訓練得到單語詞向量在同構性評價指標上的結果見表4,其中10 k、20 k 表示抽取最常用10 k 或者20 k 單詞衡量對應詞向量之間的同構性。

表4 詞向量同構性結果Tab.4 Isomorphism results of word embedding

通過表4 可以發現,本文提出方法詞向量同構性相對于原始方法有明顯的提升,驗證了本文提出方法能夠提升不同語言詞向量之間的同構性。對比在10k 與20k 的結果可以發現,頻率越高的單詞對應的同構性越好。

4 結束語

本文提出了一種基于混合語料訓練的無監督雙語詞典構建方法。該方法根據單語詞向量訓練方法,采用分布假設的特性,提出了將單語語料中的單詞替換成抽取詞典翻譯聯結對,并將原始單語語料合并的混合語料的方法。該方法增強了單語詞向量之間的同構性,同時在雙語詞典抽取任務上有明顯的提升。無監督雙語詞典抽取的同構性假設制約了無監督算法的性能,除了增強不同語言詞向量之間的同構性,未來還可以探索其它不需要同構性假設的方法。

猜你喜歡
單詞監督方法
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
單詞連一連
看圖填單詞
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
監督宜“補”不宜“比”
浙江人大(2014年4期)2014-03-20 16:20:16
最難的單詞
主站蜘蛛池模板: 色综合激情网| 国产手机在线ΑⅤ片无码观看| 国产综合另类小说色区色噜噜| 国产a网站| 国产成人AV综合久久| 天堂久久久久久中文字幕| 在线观看视频一区二区| 国产另类视频| 日本国产精品一区久久久| 91人妻日韩人妻无码专区精品| 免费人成视网站在线不卡| 很黄的网站在线观看| 国产亚洲欧美日本一二三本道| 国产精品手机视频| 人妻少妇乱子伦精品无码专区毛片| 亚洲Aⅴ无码专区在线观看q| 无码aaa视频| 伊人欧美在线| 久久先锋资源| 91视频首页| 色婷婷综合激情视频免费看 | 99热这里只有精品5| 成人日韩欧美| 久热re国产手机在线观看| 91口爆吞精国产对白第三集 | 九九免费观看全部免费视频| 99国产精品一区二区| 国产精品片在线观看手机版| 成人免费午间影院在线观看| 婷婷伊人五月| 色哟哟色院91精品网站| 国产另类视频| 成年女人a毛片免费视频| 夜精品a一区二区三区| 狠狠色香婷婷久久亚洲精品| 免费jjzz在在线播放国产| 欧美成人精品一级在线观看| 伊人婷婷色香五月综合缴缴情| 91九色国产porny| 欧美视频在线观看第一页| 国产一区二区三区免费观看| 老司机aⅴ在线精品导航| 亚洲福利视频一区二区| 亚洲精品日产精品乱码不卡| 午夜免费视频网站| 日韩欧美成人高清在线观看| 99视频在线免费| 国产精品欧美在线观看| 激情综合婷婷丁香五月尤物| 91精品视频播放| 日韩精品毛片| 国产成+人+综合+亚洲欧美| 女人天堂av免费| 在线观看亚洲天堂| 亚洲国产精品日韩专区AV| 欧美 国产 人人视频| 在线国产毛片| 熟妇无码人妻| 好吊色国产欧美日韩免费观看| 91探花在线观看国产最新| www.国产福利| 中国丰满人妻无码束缚啪啪| 天天色天天综合| 国产无码制服丝袜| 性欧美久久| 国产综合色在线视频播放线视| 亚洲一区网站| 香蕉网久久| 久久免费观看视频| 18黑白丝水手服自慰喷水网站| 国产乱人免费视频| 日韩精品一区二区深田咏美| 中文字幕va| 二级特黄绝大片免费视频大片| 99在线观看免费视频| 欧美日韩在线观看一区二区三区| 久久青草热| 国产永久无码观看在线| 亚洲日本中文综合在线| 欧美人在线一区二区三区| 精品一区二区三区波多野结衣 | 国产探花在线视频|