機(jī)器翻譯實(shí)現(xiàn)過程中會涉及到形態(tài)自動分析方法、各種句法分析、語義分析等分析方法,是機(jī)器翻譯譯文質(zhì)量的關(guān)鍵環(huán)節(jié)。
形態(tài)自動分析
形態(tài)自動分析主要包括詞例還原、詞目還原、詞性標(biāo)注和詞性消歧四步驟。
詞例還原是指自動分割出一個句子當(dāng)中所有的單詞。英文中,詞與詞之間一般會有空格隔開,分割并非難事。如果是漢語,詞例還原用自動分詞方法即可。通過詞例還原以后,句子當(dāng)中符號串變成詞例串,便利了形態(tài)分析過程。
詞目還原是把詞的變體形式還原成單詞詞典存儲形式。這里詞目是指變體形式單詞,例如把復(fù)數(shù)形式單詞還原成單數(shù)形式(如translators- translator),把動詞的過去式或進(jìn)行式改回動詞原形(如translated-translate),把形容詞的比較級改為沒有比較級時候形式(如easier-easy)。
詞性標(biāo)注是指為每個單詞指派一個詞類或詞匯類別進(jìn)行標(biāo)記。詞性標(biāo)注與詞目還原均是形態(tài)分析最重要內(nèi)容,同時詞性標(biāo)注在語音識別技術(shù)與信息檢索技術(shù)中發(fā)揮重要作用。
詞性標(biāo)注難度大,歧義單詞較多。值得慶幸的是,40%歧義單詞可以消除歧義。詞性消歧是指消除詞的歧義性,具體是指詞多義性,多時態(tài)性。
自動句法分析
自動句法分析方法很多,例如基于上下文無關(guān)語法、基于特征結(jié)構(gòu)、基于依存語法、基于轉(zhuǎn)移網(wǎng)絡(luò)等,簡要介紹一下基于轉(zhuǎn)移網(wǎng)絡(luò)自動句法分析。
轉(zhuǎn)移網(wǎng)絡(luò)主要包括遞歸轉(zhuǎn)移網(wǎng)絡(luò)和擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)兩種。由于語言中嵌套結(jié)構(gòu)比較復(fù)雜,有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)難以處理這種情況,所以必須對有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)做一些改進(jìn),便出現(xiàn)了遞歸性轉(zhuǎn)移網(wǎng)絡(luò)。遞歸性網(wǎng)絡(luò)是有限轉(zhuǎn)移網(wǎng)絡(luò)擴(kuò)充來的,是把單個弧用一個弧串表示,再用子網(wǎng)絡(luò)表示這個弧串。然后通過子網(wǎng)絡(luò)的名稱來調(diào)用并遍歷此弧串,從而變成遞歸性網(wǎng)絡(luò)。遞歸性轉(zhuǎn)移網(wǎng)絡(luò)自身局限性是該網(wǎng)路不能處理好詞序調(diào)整問題。有時候源語言與目標(biāo)語言的詞序恰好相反,例如源語言修飾詞在前,但是目標(biāo)語言的修飾詞在后,這時候必須要把相應(yīng)修飾詞對應(yīng)起來,這樣一來在網(wǎng)絡(luò)一側(cè)分析源語言的修飾詞,在網(wǎng)絡(luò)另一側(cè)還要生成對應(yīng)目標(biāo)語言的修飾詞。顯然,這要增加弧才能處理這個問題,如果修飾詞不止一個,那么遞歸性網(wǎng)絡(luò)分析變得很復(fù)雜。其實(shí)解決這個問題關(guān)鍵在于對源語言前置修飾詞翻譯的時候,對所修飾的名詞進(jìn)行翻譯成目標(biāo)語言所對應(yīng)名詞之后,把翻譯的修飾詞置于目標(biāo)語言名詞之后。
語義自動分析
語義分析法有很多,例如句法驅(qū)動語義分析、淺層語義分析、語義語法等。語義分析通常分為四個步驟:把詞的一階謂詞驗(yàn)算表達(dá)式附著至樹形圖的詞匯單元之上;把樹形圖無分叉子樹子女節(jié)點(diǎn)上語義值復(fù)制給父母節(jié)點(diǎn);把類似函數(shù)的一個表達(dá)式附著至句子中心動詞之上,然后用該表達(dá)式處理此動詞的一個或者多個子女節(jié)點(diǎn);將帶有邏輯量詞的表達(dá)式用復(fù)雜項(xiàng)處理,并將處理的表達(dá)式作為一個單獨(dú)項(xiàng)處理。
句法驅(qū)動語義分析是基于組成性原則方法,弗雷格認(rèn)為:句子的含義可以是句子幾個部分意義組合而成。即句子由詞組成,各個單詞的含義組合當(dāng)然是句子代表的意義。值得思考的是,一個句子含義不僅依賴各個詞的含義,還與詞的順序以及詞與詞之間的關(guān)系有關(guān),與句法結(jié)構(gòu)有關(guān)。所以從句法角度驅(qū)動語義分析,是該分析法基本依據(jù),大致流程是:對輸入句子經(jīng)過剖析器進(jìn)行句法分析,把結(jié)果作為語義分析器輸入,經(jīng)過語義分析器后便把其結(jié)果作為輸出。該過程被稱為“管道流方法”。句法驅(qū)動語義分析用到組成性原則時候,語義組成成分應(yīng)和句法組成成分匹配。
語用自動分析
語用自動分析中語用指的是語言和使用所處環(huán)境之間的關(guān)系。這里使用所處環(huán)境包括話語上下文、人和物。其涉及到話語結(jié)構(gòu)、聽話者如何理解話語對象以及語言指示或者回指人和物的內(nèi)容。語用分析主要有所指判定和文本連貫的分析方法。
所指判定是對所指語判定所指對象過程。一般句子與句子之間均存在某種關(guān)聯(lián),并非孤立存在的,而有時候靠單獨(dú)句子根本不能理解所指對象。例如“Tim told Tom that he had passed the examination”的he是指Tim還是指Tom?無法判定。如果前面有語句“Tom was worried about his examination”,則可以斷定he是指Tom。一般采用折半加權(quán)算法來判定代詞所指對象,具體過程為:(1)搜集所有可能所指對象;(2)排除和代詞在數(shù)、性不一致和句內(nèi)句法同指約束的所指對象;(3)把話語模型在更新階段計(jì)算的顯著值和使用角色平行和提前指代的代詞顯著權(quán)重值相加,并計(jì)算所指對象總的顯著值;(4)選擇顯著值最高所指對象作為最終代詞指代對象。如果有顯著值相同則選擇靠的最近(指字符串位置)所指對象作為最終代詞指代對象。
溯因推理既然是基于不可靠推理,那么就需要找出一種最佳解釋。一種策略是基于概率模型,通過計(jì)算相關(guān)概率參數(shù)來選出最佳解釋,不過概率模型前提需要一些事件語料庫,否則會出問題。另一種策略是基于啟發(fā)式策略。把假設(shè)數(shù)目最少的作為最佳解釋,也可以把最具體的輸入特征作為最佳解釋。第三種策略是基于概率模型和啟發(fā)式策略的混合策略。文本連貫中計(jì)算機(jī)模型構(gòu)建十分重要,但現(xiàn)有推理方法難以覆蓋范圍更廣的應(yīng)用領(lǐng)域,有待進(jìn)一步研究。
(作者單位:遼寧省機(jī)電工程學(xué)校)