999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器翻譯技術(shù)的研究和發(fā)展

2018-12-21 03:47:00王子航
電子制作 2018年22期
關鍵詞:語義規(guī)則語言

王子航

(武漢鋼鐵公司第三子弟中學,湖北武漢,430000)

0 前言

隨著人工智能技術(shù)的不斷發(fā)展,圖像處理、內(nèi)容推薦、自然語言處理等作為其主要的應用方向也隨之加速迭代發(fā)展。相比于其他應用方向,自然語言處理發(fā)展還不夠完善,仍有較大的進步空間。機器翻譯技術(shù)作為自然語言處理中的一個重要分支,早在上個世紀四十年代就被提出,而后二十年間,在大量人力物力的促進推動下,取得了一定的發(fā)展,但是受限于當時計算機技術(shù)等諸多條件,未能取得實質(zhì)性的突破,機器翻譯也隨之陷入了沉寂[1]。近些年來,人工智能技術(shù)的發(fā)展、語言理論的進步以及統(tǒng)計學在翻譯技術(shù)中的廣泛應用,加上計算機硬件以摩爾定律的速度飛速發(fā)展,已經(jīng)可以支撐海量數(shù)據(jù)的存儲和計算,這些條件使得人們對機器翻譯技術(shù)本身有了更完備的認知,新一代的處理方法在此背景之下取得了長足的發(fā)展。

本文首先將從整體的角度介紹典型的機器翻譯技術(shù)的分類,然后從人工智能和機器翻譯結(jié)合的角度出發(fā),分別介紹機器學習和深度學習在機器翻譯中的結(jié)合方式和應用方法。最后對當前翻譯技術(shù)存在的限制和問題作出總結(jié)合展望。

1 典型機器翻譯技術(shù)

機器翻譯技術(shù)的目的是為了節(jié)省人力資源,使機器能夠最大限度的替代人們重復的工作。它建立在諸多復雜的學科之上,如語言學、統(tǒng)計學、計算機科學、信息論等等。如此紛繁復雜的體系難以迅速形成一套行之有效的解決方案[2]。在機器翻譯的理論早期,研究的主流是基于規(guī)則的機器翻譯技術(shù),而后隨著概率統(tǒng)計學的引入,機器翻譯達到了新的高度。接下來,本文將對基于規(guī)則和基于統(tǒng)計兩個研究方向作以介紹。

■1.1 基于規(guī)則的機器翻譯技術(shù)

在上個世紀機器翻譯技術(shù)剛剛提出時,人們對語言的認知局限于在有限的規(guī)則集內(nèi)形成的一套體系。尤其在Chomsky提出的短語結(jié)構(gòu)語法,給出了“從規(guī)則生成句子“的原則以后,基于規(guī)則的機器翻譯技術(shù)確立了其在當時的機器翻譯技術(shù)中的主流地位。

基于規(guī)則的機器翻譯技術(shù)的指導思想是:語言的規(guī)則是無限的,而語言都是可以由這些無限的規(guī)則推導而來的。而后在基于規(guī)則的思想指導下,產(chǎn)生了三種主流的規(guī)則翻譯方法,分別是直譯式、轉(zhuǎn)換式和中間語言式。其中直譯式比較簡單,通過分析源語言和目標語言的對應關系,直接進行轉(zhuǎn)換,而后對目標語言進行符合目標規(guī)則的重新排列;轉(zhuǎn)換式不僅考慮到兩種語言在單純意義上的對應,也考慮到了句子文法結(jié)構(gòu)上的對應,從詞法、語法、語義等層層遞進的分析句子的含義,它對語言的規(guī)則挖掘的更深、更完善,因此一般能取得比直譯式更加好的效果;中間語言方法采用了一種折衷的方法,既考慮句子的多層次意義,又盡量忽略語言上復雜的結(jié)構(gòu)關系,創(chuàng)造一種相對簡單的中間語言作為翻譯的過渡,先講源語言映射到中間語言相對簡單的結(jié)構(gòu)上,然后在通過中間語言進行翻譯。綜上三種基于規(guī)則的方法都要求有兩種語言的對應語料,并且對預料在詞義和結(jié)構(gòu)上的對應度要求都比較高,否則對結(jié)果有很大的影響。此外,基于規(guī)則的翻譯技術(shù)也有著明顯的優(yōu)點,翻譯的過程是可解釋的,并且規(guī)則和語義都是可較為直觀的表述的,這對人們更好的控制翻譯過程有著很大的幫助。

■1.2 基于統(tǒng)計的機器翻譯技術(shù)

語言本身是非常復雜的,縱然假設無限的規(guī)則是可以完美表述語言本身,但是資源是有限的,無法總結(jié)并表達出無限的規(guī)則,也因此,基于規(guī)則的機器翻譯一直都無法達到理想的效果,更無法實現(xiàn)產(chǎn)業(yè)化。而隨著統(tǒng)計學、信息論的發(fā)展,研究的方向逐漸向統(tǒng)計學靠攏。一方面是因為存儲條件的發(fā)展促生了大規(guī)模語料庫,另一方面是計算資源的支持使得我們可以在海量數(shù)據(jù)中較為迅速提取有效信息。基于統(tǒng)計的機器翻譯技術(shù)也主要分為兩種,一種是利用統(tǒng)計來做語言的預處理或后處理工作,比如典型的詞性消岐、詞性標注、分詞技術(shù)等等,這些和傳統(tǒng)機器學習技術(shù)的結(jié)合較為緊密,另一種是利用統(tǒng)計的方法提取語料庫中體現(xiàn)出的重要知識,或特定任務中針對的某些特定知識,并根據(jù)這些信息來做機器翻譯,這一部分和深度學習結(jié)合較為緊密[3]。綜上來說,基于統(tǒng)計的翻譯技術(shù)應用范圍廣且粒度很細,接下來本文將從傳統(tǒng)機器學習和深度學習與機器翻譯不同的結(jié)合角度切入,來對基于統(tǒng)計的機器翻譯方法作出介紹。

2 結(jié)合機器學習的機器翻譯技術(shù)

機器翻譯技術(shù)發(fā)展至今,無論是基于規(guī)則還是統(tǒng)計方法都要求大量的對應語料進行訓練,語料的質(zhì)量都直接決定了翻譯效果,此外翻譯質(zhì)量的校驗和優(yōu)化也對翻譯效果有深遠的影響。傳統(tǒng)的機器學習方法在這些語料庫構(gòu)建和后處理優(yōu)化的過程中表現(xiàn)十分優(yōu)越,在當前的機器翻譯技術(shù)中得到了廣泛的應用。

■2.1 機器學習算法在機器翻譯中的應用方向

機器學習在機器翻譯中的應用方向充斥在各個角落中,小到參數(shù)調(diào)優(yōu),大到翻譯模型的建立,無不體現(xiàn)出機器學習的思想。下面從語料庫構(gòu)建、語言模型等方面來闡述機器學習在機器翻譯中的應用方向。

語料庫,顧名思義是統(tǒng)一存儲特定的格式的一種或多種語言的倉庫。對于機器翻譯來說,語料庫一般指雙語或多種語言的對應語料,語料庫構(gòu)建需要解決多個問題,比如詞義消岐、語義消岐、對于中文還有分詞問題等等[4]。這些問題或多或少的都需要機器學習來處理。比如詞義消岐,需要借助貝葉斯模型,利用給定的語料計算待選語義的后驗概率,取其大者作為參考項;中文分詞問題則需要借助多個模型來選定最佳的分詞位置,這些都是構(gòu)建語料庫中存在的關鍵問題。語言模型,是為了表述句子出現(xiàn)的概率而創(chuàng)造的一種模型,從原理上來說是基于統(tǒng)計學、信息論等學科,但從原理上來說其推導和應用的過程和監(jiān)督式機器學習基本一致。語言模型在目標翻譯語句的選擇中發(fā)揮重要的作用,其本身的概率學原理和樸素貝葉斯類似,在實際應用中,往往不會選擇單模型來做選擇,而是選取等多個模型共同抉擇,其中涉及到的參數(shù)優(yōu)化,模型融合等無不體現(xiàn)出機器學習的思想。

■2.2 經(jīng)典算法與機器翻譯的結(jié)合

經(jīng)典的機器學習算法分為兩大類,監(jiān)督學習和無監(jiān)督學習。前者通過學習帶標注的數(shù)據(jù)中屬性和標注存在的關聯(lián)關系,總結(jié)規(guī)律并作出預測,整體步驟一般由模型、損失函數(shù)和優(yōu)化算法三部分組成;后者是通過學習無標注的數(shù)據(jù)中屬性之間存在的潛在關系來對數(shù)據(jù)進行歸類總結(jié),進而達到分類的目的。兩種學習方式都是機器學習的重要組成部分,接下來本文將對在自然語言處理和機器翻譯中有著廣泛應用的幾個監(jiān)督和無監(jiān)督模型,以及其與自然語言處理的聯(lián)系作出介紹。

(1)樸素貝葉斯

樸素貝葉斯實際上是貝葉斯模型加上了較強的獨立性假設而來的,以詞性消岐任務來說,若我們想獲取某個詞對應詞義出現(xiàn)的概率,設待選詞義為Xi,給定語料中相關特征的集合為A,則在給定語料庫中的該語義出現(xiàn)的概率可以根據(jù)下式進行轉(zhuǎn)換:

上式便是經(jīng)典的貝葉斯公式,其中,任務所求的是給定語料的屬性集A時待選語義出現(xiàn)的概率 P( Xi|A),可以根據(jù)上述公式轉(zhuǎn)化為在語料庫中給定待選語義Xi時屬性A出現(xiàn)的概率 P( A |Xi)與P( Xi)的乘積。在計算過程中,乘積的左項概率是由是由多個概率聯(lián)合組成 的, 即 P( A |Xi)= P( A0A1… Aj| Xi), 聯(lián) 合 概 率 非 常復雜,若嚴格按照條件概率乘積展開,參數(shù)達到了指數(shù)級別,難以計算。樸素貝葉斯模型加入了獨立性假設,將其不同的特征視為互相獨立的,即將計算轉(zhuǎn)化為,因而大大減小了計算量,又有大數(shù)定理,當語料庫足夠大時用各項條件概率出現(xiàn)的頻率近似替代概率,進而可以得到上式中分子的值,由于各個計算的分母相同,故比較分子獲取最大者即為所求語義。

樸素貝葉斯雖然忽略了語序信息,且語序信息對語義本身的影響是至關重要的,但是,樸素貝葉斯在實際工程中的應用卻是十分廣泛,一方面是因為其模型是強可解釋的,另一方面有研究表明樸素貝葉斯的獨立性假設效果是要優(yōu)于考慮各個因素相關性,因為各個關系之間出現(xiàn)了互相抵消的效果。

(2)K–Means

K–Means算法是無監(jiān)督學習的經(jīng)典模型,其在自然語言處理中也有著廣泛應用,常用于文本分類、語義識別等領域,用于計算不同樣本之間的相似度,進而幫助人們獲取關鍵數(shù)據(jù)信息,提升模型的效果。

算法旨在提取樣本在特征空間中的分布信息,通過挖掘不同樣本反映出的分布信息,迭代的尋找最合適的分類方法。在執(zhí)行前需要給定幾個比較重要的超參數(shù)信息,第一個是K值,也就是目標分類數(shù),往往根據(jù)不同任務的需要而定,第二個是樣本相似度的度量標準,經(jīng)常采用的有歐式距離和皮爾遜相似度等。在確定了K值和相似度評價標準之后,在特征空間內(nèi)隨機的選取K個中心點,然后遍歷一次所有樣本,將每個樣本劃分至距離其最近的樣本中心點類,接下來對每個類別中的所有樣本計算平均值作為新的中心點,至此中心點完成了一次迭代。重復上述步驟直到中心點的無變化或者變化幅度小于某一閾值即可。

3 結(jié)合深度學習的機器翻譯技術(shù)

傳統(tǒng)機器學習作為統(tǒng)計機器翻譯中的重要技術(shù),雖然突破了基于規(guī)則的機器翻譯技術(shù)的限制,效果也得到了巨大的提升,但是隨著技術(shù)的進一步發(fā)展,面臨著嚴重的結(jié)構(gòu)問題。比如對特征設計依賴、對模型假設的依賴等等,都嚴重的限制了模型的效果上限。深度學習作為機器學習中的一個分支,已經(jīng)發(fā)展壯大為一個獨立的體系,其突破了模型假設和特征設計等限制,在參數(shù)量足夠的情況下,理論上可以完美逼近任何函數(shù),深度學習在自然語言處理中的應用真正幫助機器翻譯達到了工業(yè)化的標準[5]。

■3.1 循環(huán)神經(jīng)網(wǎng)絡

首先介紹經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡。循環(huán)神經(jīng)網(wǎng)絡是處理序列問題的經(jīng)典架構(gòu),神經(jīng)網(wǎng)絡由一個神經(jīng)元構(gòu)成,神經(jīng)元的輸入由單詞和上一步的隱狀態(tài)構(gòu)成,在每一步的轉(zhuǎn)換中維護并生成一個新的隱狀態(tài),通過隱狀態(tài)的改變實現(xiàn)對序列信息的記憶[6]。在傳統(tǒng)的序列到序列的循環(huán)神經(jīng)網(wǎng)絡中,每一步的隱狀態(tài)都可以利用一次全連接產(chǎn)生輸出,但是這并不符合機器翻譯的需要。比如翻譯“今天的天空很藍”這句中文,每次輸入一個詞就產(chǎn)生翻譯的話很可能結(jié)果是“Todays sky is blue.”,顯然這種翻譯效果無法考慮到語義整體的信息,并且難以形成符合目標語言規(guī)則的翻譯結(jié)果。

■3.2 編碼解碼器

編碼解碼器框架是為處理翻譯問題而設計的深度學習框架,由循環(huán)神經(jīng)網(wǎng)絡架構(gòu)改動而成,實現(xiàn)了利用深度學習框架來進行序列到序列的自動翻譯轉(zhuǎn)換。

編碼–解碼器由兩部分組成,第一部分只輸入不產(chǎn)生輸出,稱為編碼部分,通過隱狀態(tài)學習并記錄輸入的信息,最終形成的隱狀態(tài)包含了所輸入語句的所有信息。然后進入架構(gòu)的第二部分,稱為解碼部分,以編碼產(chǎn)生的最終隱狀態(tài)為初始狀態(tài)開始進行解碼翻譯,每一步以上一步的輸出作為輸入并產(chǎn)生一個輸出,組合起來即為翻譯結(jié)果。編碼解碼器很好的考慮的全局信息,并且可以很好的組成符合目標語言語法的翻譯結(jié)果,由于其出色的翻譯效果,使得其在工業(yè)中獲得了廣泛的應用。

4 總結(jié)與展望

機器學習從上個世紀發(fā)展至今,已經(jīng)在深度學習這一潮流之中獲得了長足的發(fā)展,基于機器翻譯技術(shù)的產(chǎn)品也如雨后春筍般接連出現(xiàn)。雖然如此,由于自然語言本身技術(shù)發(fā)展的限制,如語料庫在規(guī)模和領域不夠、詞義消岐的精度不足,這些都限制了翻譯模型所能達到的效果上限。因此如何繼續(xù)發(fā)展機器學習技術(shù),更好的將其應用于自然語言處理領域成為至關重要的問題。本文即是在介紹了機器翻譯發(fā)展歷史和研究內(nèi)容的基礎上,進而從機器學習領域開始,逐步闡述深度學習的應用。現(xiàn)在的機器翻譯技術(shù)發(fā)展仍被語言復雜和多變的結(jié)構(gòu)所限制,相信隨著語言理論、計算機技術(shù)的發(fā)展,機器翻譯技術(shù)一定會一步一步趨于完善。

猜你喜歡
語義規(guī)則語言
撐竿跳規(guī)則的制定
數(shù)獨的規(guī)則和演變
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
語言與語義
讓語言描寫搖曳多姿
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規(guī)則對我國的啟示
累積動態(tài)分析下的同聲傳譯語言壓縮
“上”與“下”語義的不對稱性及其認知闡釋
我有我語言
主站蜘蛛池模板: 成人欧美日韩| 波多野结衣一区二区三区四区视频| 精品福利国产| 久久精品国产电影| 精品视频一区二区观看| 欧美日韩激情| 中文字幕乱妇无码AV在线| 99久久精品免费看国产免费软件 | 永久毛片在线播| 日本人妻丰满熟妇区| av在线手机播放| 国产91精品久久| 国内丰满少妇猛烈精品播| 国产日韩欧美一区二区三区在线| 噜噜噜久久| 精品国产美女福到在线直播| 久久久久夜色精品波多野结衣| 日本亚洲欧美在线| 日本在线欧美在线| 成人免费网站久久久| 日韩在线播放欧美字幕| 亚洲精品成人福利在线电影| 久久精品人人做人人爽97| 国产一区二区丝袜高跟鞋| 青青青国产视频手机| 97人人做人人爽香蕉精品| 国产一区亚洲一区| 亚洲有无码中文网| 午夜国产理论| 一区二区三区精品视频在线观看| 亚洲丝袜中文字幕| 亚洲午夜福利精品无码不卡| 网久久综合| 天堂网国产| 久久精品中文字幕少妇| 国产无码高清视频不卡| 亚洲视频黄| 亚瑟天堂久久一区二区影院| 久久无码av一区二区三区| 青草视频在线观看国产| 久久精品丝袜| 精品无码国产一区二区三区AV| 日韩国产综合精选| 71pao成人国产永久免费视频| 成人自拍视频在线观看| 日韩色图区| 中文字幕人妻无码系列第三区| 亚洲视屏在线观看| 亚洲国产AV无码综合原创| 狠狠色综合久久狠狠色综合| 中文字幕波多野不卡一区| 国产95在线 | 四虎影视永久在线精品| 国产99欧美精品久久精品久久| 日日拍夜夜操| 亚洲国产欧美目韩成人综合| 欧美一区中文字幕| 国产中文一区二区苍井空| 91免费国产高清观看| 幺女国产一级毛片| 久久综合伊人77777| 亚洲午夜福利精品无码| 日韩欧美国产另类| 日本影院一区| 97超爽成人免费视频在线播放| 欧美精品亚洲日韩a| 婷婷色婷婷| 色婷婷亚洲十月十月色天| 午夜视频免费试看| 亚洲黄色片免费看| 爱色欧美亚洲综合图区| 亚洲国产精品日韩av专区| 国产毛片片精品天天看视频| 精品国产一区91在线| 在线观看无码a∨| 美女裸体18禁网站| 91久久偷偷做嫩草影院精品| 欧美中日韩在线| 波多野结衣在线se| 国产成人福利在线| 亚洲最黄视频| 亚洲精品动漫|