漢英機器翻譯中從句復雜度的錯誤分析

2020-10-13 09:37:40成潔

微型電腦應用 2020年9期

成潔

摘要：誤差分析是衡量機器翻譯系統性能的重要手段。在從句復合模型的分析框架下，對從句復合級錯誤進行了分析，并從漢英語法差異的角度對錯誤進行了解釋。統計結果表明，復句級錯誤發生的概率相對較高，而且錯誤的發生在不同的體裁上是不同的，并且與復句的長度呈正相關。

關鍵詞：機器翻譯; 從句復雜度; 從句-復雜度級別錯誤; 漢譯英

中圖分類號： H315.9/TP391.2 ? ? ?文獻標志碼： A

Abstract： Error analysis is an important method for performance estimationof machine translation systems. This article analyzes clause-level compound errors under the analysis framework of clause-complex model， and explains the errors from the perspective of differences between Chinese and English grammars. Statistical results show that the probability of complex sentence-level errors is relatively high， and that errors occur in different genres， and are positively related to the length of complex sentences.

Key words： machine translation; clause complex; clause-complex level errors; Chinese-English translation

0 引言

機器翻譯（MT）技術在過去幾十年里得到了長足的發展。隨著機器翻譯的發展，機器翻譯輸出的評價方法也在不斷發展。在MT發展的早期，人工評價是主要的方法。然而，隨著機器翻譯統計方法的廣泛應用，通過計算機器翻譯輸出和人工翻譯之間的相似度來進行自動評價的方法得到了廣泛的應用[1-2]。盡管自動評價是一種客觀的評價方法，提高了評價的效率，但自動評價的結果能否正確反映機器翻譯輸出的質量，并指出機器翻譯輸出錯誤的原因，還是值得懷疑。同時，雖然目前仍有人工評價的研究，但大多只是對機器翻譯錯誤進行分類，沒有詳細分析錯誤產生的原因[3-4]。因此，本文旨在分析MT誤差產生的原因。

根據Halliday的理論[5]，語言結構涉及不同的層次，包括語素、詞、組/短語、從句、從句復合詞。不同的語言層次涉及不同的語境關系。由于跨語言從句復雜程度上的差異很大，而且涉及到遙遠的語境關系，因此這種差異會給機器翻譯帶來更大的困難。所以，本文探討了漢英機器翻譯中的從句復合級錯誤。

1 漢英復合從句

漢語從句復合體是基于命名共享關系和邏輯語義關系組合而成的標點從句（p-子句）序列[6]。p-子句是由逗號、分號、句點、感嘆號或問號與周圍上下文分隔的文本段。下例說明子句的復雜度，如圖1所示。

p-子句中的一個組件可以由另一個p-子句解釋或斷言。前面的組件稱為命名，下面的p-子句稱為定語從句。示例1顯示了一個由4個p-子句組成的子句復合體，這些p-子句以換行縮進模式表示。在本例中，帶下劃線的組件是名稱。冠名權上的成分、冠名權下和冠名權上的p-子句是它們的標志。

對于英語從句復合句來說，它基本上是一個傳統的句子。在英語中，主語或名詞短語加上解釋或修飾后稱為命名。它的謂語，或者它的解釋或后修飾，被稱為它的定語。

2 從句-復雜級錯誤

2.1 定義

從句復雜級錯誤（clause-complex level errors， CC）是指在翻譯過程中，由于忽略了源語言的小句間關系而導致的錯誤[7]。更具體地說，在漢英翻譯中，這些錯誤是由于忽略了從句復合體中p-子句之間的關系而造成的。

應該強調的是，在此只關注從句復雜度的錯誤。在本研究中，將不標記和分析非因忽略小句間關系而引起的錯誤。具體演示如何識別CC級別的錯誤，如圖2所示。

在圖2中，每個帶圓圈的數字表示一個錯誤，其位置表示錯誤發生的位置。中文原版、機器翻譯輸出版和修訂版中相同的數字表示機器翻譯輸出版中相同的錯誤。帶圓圈數字右邊帶下劃線的部分是機器翻譯輸出中的錯誤單詞或短語。如果一個帶圓圈的數字右邊沒有帶下劃線的部分，這意味著在這個位置的機器翻譯的輸出中有一些缺少的單詞。

雖然機器翻譯的輸出中總共有7個錯誤，但只有錯誤2和錯誤6是CC級別的錯誤。錯誤2是因為此位置缺少逗號。在中文原句中，句子“為了給他醫病”是后面三句話的邏輯目的。但是沒有逗號，邏輯目的就無法正確表達。錯誤6對應于第四個p-子句。在直譯方面，似乎第四個p-子句翻譯正確。然而，從漢語從句復合體的結構來看，機器翻譯系統未能在基于共享命名的最后一個p-子句的翻譯中補充主語“她”。

其余5個錯誤不是CC級錯誤。錯誤1是由于中文人名的不正確細分引起的。在錯誤3中，中文短語“為了給他醫病”的結構在輸出中未正確翻譯。發生錯誤4是因為中文“跑遍了”中的動詞在翻譯中丟失了。錯誤5是錯誤的，因為系統無法補充副詞動詞。錯誤7是動詞的錯誤選擇。所有這5個錯誤與其他p子句都不相關，因此它們不是CC級錯誤。

2.2 從句復雜級錯誤的分類

通過誤差分析，發現CC級誤差可分為形態誤差、共享結構誤差和邏輯關系誤差。每種類型的錯誤都對應于一種在機器翻譯輸出中沒有得到正確處理的子句間關系。

詞形錯誤是指由于忽視小句之間的詞匯關系而導致動詞、名詞或代詞詞形選擇錯誤。當命名和命名之間的語義關系在機器翻譯輸出中不恰當地呈現時，就會出現共享結構錯誤。邏輯關系錯誤是指影響子句之間邏輯關系的錯誤。

形態錯誤主要是由于漢語缺乏形態而引起的，這一點已被廣泛認識。因此，在此著重研究后兩類錯誤。

3 漢英機器翻譯輸出中的從句級錯誤

本文分析了兩類錯誤：共享結構錯誤和邏輯關系錯誤。

3.1 共享結構錯誤

從錯誤分析中可以看出，共有結構錯誤主要是由于中英文在共有層面上的語法差異，特別是漢語中缺乏形態結構和相對較大的從句復雜度（CC-size是指一個復合從句中包含的p-子句的數量）。下面是共享結構錯誤的示例，說明這兩個特征的影響，顯示了缺乏形態形式的影響。如圖3所示。

中文和英文在語義角色形式上有所不同。在中文中，不同的語義角色可以采用相同的形式。在英語中，不同的語義角色對應于不同的形式[8]。因此，中文命名無需更改其形式即可在將其共享為命名的講述中承擔不同的語義角色。在圖3的例子中，共享命名“她”在第一個p-子句中扮演屬性“自家生活條件”的持有者，在第二個p-子句中變成動詞“收養”的代理，并成為主題在最后一個p-子句中。在機器翻譯輸出中，機器翻譯系統在第一子句中正確使用了所有格代詞她，但是它未能相應地更改命名形式并為其他兩個敘述的翻譯補充它們。

顯示了大型從句復雜大小的影響，如圖4所示。

在中文中，從句復合句的大小可能多達數十個p-子句。在一個大型的漢語從句復合句中，一個命名及其敘述很可能被許多p-子句分隔開，其中有些p-子句具有主謂結構或以句號結尾。在示例4中，最后一個用中文講的共享命名為“澳洲肺魚”，相距數個p-子句。然而，機器翻譯系統僅復制了中文原件的結構，因此無法基于共享命名來補充主題的翻譯。這也是錯誤①，②，③和④的原因。

3.2 邏輯關系錯誤

漢語和英語從句之間邏輯關系的表達方式是不同的。在機器翻譯輸出分析中發現了兩個特點：連接詞的位置和省略。由于兩種語言之間的差異，機器翻譯系統很難在漢語原語中正確地呈現句間邏輯關系。如圖5所示。

在中文中，可以將連詞放在謂詞之前，以邏輯方式鏈接p-子句，但又不妨礙p-子句，尤其是后面帶有謂詞的p-子句可以共享命名。但是，用英語來說，不能將從屬連詞直接置于謂詞之前而不將主語置于兩者之間。因此，在機器翻譯輸出中，應在位置1和3處補充對象。另外，在中文中，不需要協調連詞來連接兩個共享邏輯連詞的p-子句。但是，用英語來說，應該使用一個協調連詞來連接兩個p-子句。否則，這兩個部分的邏輯層次結構將存在歧義。因此，在位置2應該補充連詞“和”。如圖6所示。

在中文中，省略連詞是很常見的。但是，在英語中，經常需要使用連接詞來表示從句之間的邏輯關系。在此示例中，第一個p-子句是第二個p-子句的條件，但是沒有用于指示邏輯關系的連詞。因此，系統將兩個p-子句都輸出為常規語句，而無法表達兩者之間的實際關系。

4 實驗與數據分析

在本研究中，對463個漢語從句復合體的語料庫進行了錯誤分析，覆蓋了3種體裁。每個條款復合體都輸入到4個在線機器翻譯系統中，這些系統在翻譯中采用了神經網絡機器翻譯技術[9]。在每個輸出中標記，分析和計算CC級錯誤。每個中文從句復合詞被視為從句復合詞的一種類型（CC類型），而4個機器翻譯系統的每個輸入都被視為從句復合詞的標記（CC標記）?？倲禐?63 CC類型和1852 CC標記。

4.1 錯誤類型和錯誤數量

表1顯示了共享結構錯誤和邏輯關系錯誤的數量。在分析結果之前，應說明兩點。首先，一些錯誤被視為共享結構錯誤和邏輯關系錯誤。這就是為什么表1中的總誤差大于表2和表3的誤差的原因。其次，這兩種類型的錯誤都計入1391個標記中（不包括具有太多復雜錯誤且無法識別為CC級錯誤的標記和僅包含一個p-子句的標記）。

在表1中，SP代表堆棧模式，NB表示新分支模式，BP代表后位置模式，IP表示流入模式。從表1中可以看出，在1 394個標記中共有1 154個共享結構錯誤。共享結構錯誤可以根據錯誤所在子句復合體的不同模式進一步分為SP錯誤，NB錯誤，BP錯誤，IP錯誤和其他錯誤。統計數據表明，共享結構錯誤的可能性很高，而堆棧模式錯誤占共享結構錯誤的百分比最高。結果表明，現有的機器翻譯系統仍不能正確地將中文命名共享結構轉換為英文命名結構。

對于邏輯關系錯誤，總錯誤數為239，與共享結構錯誤的總數相比，這似乎是一個小數目。這是因為僅計算帶有連詞的CC標記中的錯誤。因此，基于較小的計數范圍，邏輯關系錯誤的可能性也較高。結果表明，表達漢英邏輯關系的不同方式也阻礙了機器翻譯系統產生高質量的輸出。

4.2 不同大小從句復合詞的錯誤分布

不同大小子句復合詞中錯誤的分布，如表2所示。

由于268個只包含一個p-子句的子句復合體肯定沒有CC級別的錯誤，因此CC的大小為1行的錯誤總數和平均錯誤數為零。

從表中可以看出，一般情況下，錯誤數與從句復雜大小正相關。確實有一些上升和下降，特別是當CC大小超過10。這是因為子句復合詞的出現次數與其大小呈負相關。因此，基于小樣本的統計在很大程度上受到偶然因素的影響。一個典型的例子是當CC大小達到25。語料庫中只有一個這樣大小的從句復合類型，其結構簡單且偶然一致。4個翻譯輸出中，1個基本正確，3個翻譯錯誤混雜無序。由于后三個譯本無法在現有的分析框架下進行分析，因此它們被排除在統計范圍之外。因此，平均錯誤數為0。

正相關可以從兩個方面來解釋。首先，當漢語從句復合詞規模較大時，其命名可能與某些主語相距甚遠，這些主語可以用句點或嵌套主語的主語與主語分開。在這種情況下，話語和命名之間的關系很難確定，因此無法在翻譯中呈現出來。其次，從句復雜度越大，它所涉及的邏輯關系就越復雜。由于漢英兩種語言表達邏輯關系的方式不同，在翻譯大型從句復合句時需要對結構進行更多的調整，這給機器翻譯帶來了困難。

4.3 不同體裁的錯誤分布

通過統計發現，CC級錯誤在體裁上的分布是不同的。如表3所示。

從表3中可以看出不同體裁的錯誤分布。百科全書中的平均錯誤數，無論是每個CC標記的平均錯誤數還是每個p-子句的平均錯誤數，都高于其他兩種類型。同時，從最后一行的數據來看，百科全書體裁的平均復句長度最大。因此，結果與表3中的統計數據相對應，表明在較大的子句復合詞中，CC級錯誤的概率更高。

5 總結

本文以463個漢語小句復合詞為語料，采用4個機器翻譯系統，分析了漢語小句復合詞的中心偏誤。將誤差分為形態誤差、共享結構誤差和邏輯關系誤差，并對后兩類誤差進行了詳細分析。錯誤分析表明，漢英語法差異是造成這些錯誤的主要原因。相關差異包括：1）語義角色的形式要求;2）大型從句復合句的結構;3）連詞的位置;4）連詞的省略等。

同時，統計結果表明：1）共有結構錯誤和邏輯關系錯誤的概率較高;2）共有結構錯誤和邏輯關系錯誤的概率與從句復合詞的大小呈正相關;3）不同體裁文本的錯誤概率不同，與社會新聞和政治文本相比，百科全書體裁的錯誤率更高。因此，認為有必要對CC級錯誤進行研究，這將對提高MT系統處理小句間關系的能力，從而產生更好的輸出帶來啟示。

參考文獻

[1] 王湘玲，王婷婷.人工翻譯與機器翻譯譯后編輯對比實證研究[J].外國語言與文化，2019，3（4）：83-93.

[2] 黎亞飛，張瑞華.機器翻譯發展與現狀[J].中國輕工教育，2019（5）：38-45.

[3] 孫瑞.基于英語翻譯應用視角下的計算機智能校對系統開發研究[J].微型電腦應用，2020，36（2）：145-148.

[4] 李晗佶，陳海慶.翻譯技術研究現狀、問題與展望[J].北京科技大學學報（社會科學版），2019，35（4）：112-118.

[5] Castro C D， Halliday M A K. An Introduction to Functional Grammar[J]. Language， 1995， 71（4）：831.

[6] 張會會. 英語長句機器漢譯的研究[D].濟南：山東師范大學，2015.

[7] 左軍軍. 英漢機器翻譯中長句分析技術的研究[D].沈陽：沈陽航空航天大學，2013.

[8] 吳欣輝. 基于中英文主題向量空間的文本分類算法[D].合肥：中國科學技術大學，2018.

[9] 李真，屈丹，高明霞，張文林，等.基于端到端的神經網絡機器翻譯技術研究[J].信息工程大學學報，2018，19（5）：550-555.

（收稿日期： 2020.03.12）

微型電腦應用2020年9期

微型電腦應用的其它文章: 人工智能在益智類計算機軟件開發中的應用研究; 基于“雙態”業務的自動化IT構架關鍵技術的研究; 基于大數據的電能計量系統客戶用電規律研究; 多特征融合和機器學習算法的電子音樂分類模型; 基于改進相似性度量的鄰近傳播聚類算法; 基于無線紅外熱成像儀的變電設備識別和檢測