關鍵詞: 簡歷翻譯;機器翻譯;受限漢語;句模;統計翻譯法
摘 要: 隨著國際交流的深入,越來越多的中國人需要把中文簡歷翻譯成英文。但是,簡歷漢語的特殊性使機器翻譯還存有許多不足,導致漢譯英的簡歷表達不盡如人意。要解決這一問題,就有必要對簡歷中漢語的詞匯、句法和語義等進行限制,并建立翻譯句模,以簡化句子結構,減少或消除漢語表達的歧義,從而提高機器翻譯系統的譯文質量。受限漢語和句模在機器翻譯中的應用,可以推廣到飯店訂餐和房間預訂等受限領域的機器翻譯系統中。
中圖分類號: H085.3
文獻標志碼: A 文章編號: 1009-4474(2012)05-0049-05
隨著經濟全球化和國際交流的發展,越來越多的畢業生申請到外資企業實習或工作。《2011上海應屆生外資企業就業市場供需狀況調查》顯示,被調查的99家外資企業中,近九成的外資企業接受了學生實習、見習或招聘了大學畢業生,而簡歷的投遞就是見習、實習或應聘的第一步。另外,“中國教育網”的最新數據顯示,2011年出國留學人數超過33萬,而就業或出國需將大量的簡歷翻譯為英文,因此市場上就出現了許多翻譯軟件。但用機器進行翻譯的軟件卻存在一些問題,如果簡單地用機器翻譯軟件將中文簡歷字對字、詞對詞地翻譯,英文簡歷會非常糟糕,申請者得到工作的機會或學習的機會就有可能大打折扣。因為簡歷的翻譯需言簡意賅、用詞準確,而現代漢語詞匯豐富,同樣的一個詞,在不同的語境中有可能表達的意思不盡相同,這就使結構短小但信息含量龐大的簡歷翻譯有著極大的難度。要想把漢語簡歷準確地、簡便地翻譯為英文簡歷,就必須將簡歷的漢語句式限定為受限漢語,并建立翻譯句模。本文擬從機器翻譯的現狀和難點出發,結合簡歷中漢語的特點,討論簡歷中受限漢語在機器翻譯中的可行性,以期為其他特殊領域的受限漢語機器翻譯提供一些參考。
一、機器翻譯現狀和翻譯難點 1.機器翻譯現狀
“機器翻譯(Machine Translation)是使用電子計算機把一種語言(源語言,Source Language)翻譯成另外一種語言(目標語言,Target Language)的一門新學科。”〔1〕半個多世紀以來,世界上許多國家一直都在從事有關機器翻譯的研究。機器翻譯研究曾走過一段曲折的道路,直到20世紀70年代中期,機器翻譯才開始在世界范圍內復蘇并日趨走向繁榮。二十世紀七八十年代,國外研究者開發出了不少實用型的機器翻譯系統,如:Météo,Systran,Logos和Metal。國內的一些機器翻譯軟件也頗受歡迎,比如“譯星”、“雅信”、“通譯”和“華建”等。
西南交通大學學報(社會科學版) 第13卷第5期
林 娜 談受限漢語在機器翻譯中的運用——以中文簡歷英譯為例國內外的機器翻譯研究雖然取得了不俗的成績,但國內諸如“譯星”、“雅信”、“通譯”和“華建”等機器翻譯系統卻只擅長英譯漢,漢譯英的效果則很難令人滿意;國外以Trados和Systran為代表的許多國際機器翻譯系統只是英語、法語和西班牙語等語種間的互譯,很少有把“漢語翻譯成其它語種”的機器翻譯系統。這是因為漢語為表意文字,不像表音文字那樣有利于機器翻譯系統的“理解”。國內外的漢英機器翻譯研究進展緩慢,其原因是漢語表達靈活多變,在詞法、句法和語義等層面有不少歧義。
2.機器漢譯英簡歷的難點
簡歷主要用于介紹個人情況,陳述過去的經歷和業績。從句法來看,簡歷中漢語翻譯成英文時具有以下特點:一是動詞大都使用過去時態,少數用現在時,基本不用將來時態。這一特點可降低漢譯英過程中機器判斷時態的難度。二是大多用無主句,翻譯系統不必調整名詞或代詞來實現主謂一致(英語中主語與謂語的時態和數量保持一致)。三是簡歷中大都使用短語或簡單句,少用復合句或復雜句,翻譯時基本上不需要依靠上下段落的語義結構或語境來進行。例如:
例1 指導孩子們練習打籃球。(無主句、短語)
例2 精通德語聽說。(無主句、短語)
例3 2010年成都大學畢業生就業率為80%。(簡單句)
例4 2011年在XX外貿公司擔任跟單助理。(無主句、簡單句)
例5 通過了注冊會計師考試。(無主句、短語)
例6 領導臨時安排的任務。(無主句、短語)
從簡歷的用詞來看,出現最多的是動詞和名詞。動詞在漢英機器翻譯中最復雜的是時態和主謂一致的處理,而上述簡歷句式的特點大大降低了機器翻譯處理動詞的難度。簡歷中的名詞除了上述句中的“德語”、“XX外貿公司”“跟單助理”和“注冊會計師”之外,通常還有地名、人名和與學校學習相關的詞語:
例7 地名:金牛區、二環路
例8 人名:王紅、陳小明、上官儀、歐陽振豪
例9 機構名稱:西南交通大學、外國語學院
例10 縮略構詞:“四川大學”→“川大”、“藝術與傳播學院”→“藝傳學院”
例11 數學和寫作、校籃球隊隊長、優秀畢業生
例12 四川省成都市西南交通大學外國語學院英語專業、輔修經濟學專業
如果用Google Translate軟件來翻譯以上12個例句,其譯文如下:
例1 to teach children to play basketball
例2 is fluent in German heard
例3 2010 Chengdu University graduate employment rate of 80%
例4 XX foreign trade companies, as with a single assistant in 2011
例5 by a Certified Public Accountant exam
例6 led the interim arrangements for the task
例7 names:Jinniu,the Second Ring Road
例8 names:Wang Hong,Chen Xiaoming,Norm,Ouyang Zhen Hao
例9 Name of Organization:Southwest Jiaotong University,School of Foreign Languages
例10 Abbreviated word formation:\"Sichuan University→Sichuan,Yi Chuan College of Art and College of Communication,\"→\"
例11 mathematics and writing,the school basketball team captain,outstanding graduates
例12 Chengdu,Sichuan Province,Southwest Jiaotong University School of Foreign Languages,English major and a minor in economics
從譯文例7~例12可以看出,Google Translate軟件在翻譯一些專有名稱時處理比較恰當(“縮略構詞”除外)。在翻譯人名時,Google Translate軟件把“小明”和“歐陽”譯成“Xiaoming”和“Ouyang”,譯文比較規范。可見Google Translate可以“根據人名的構成規律從語法角度對人名進行分析、描述和標注,從而設計出有效的運算法則,讓系統能自動準確地區別姓與名”〔2〕。但是Google Translate軟件翻譯的例1~例6,就有待商榷了。例1~例6的漢語非常靈活,有一詞多義的情況存在,中文所表現的意思如果不是唯一的話,那么機器軟件翻譯出來的意思就有可能不是投遞簡歷者所想表達的意思,還有可能給投簡歷者帶來不必要的困惑,甚至可能帶來嚴重的后果。
從宏觀句法看,漢語中“同一詞類擔任多種語法成分且無形態變化,語法單位界限模糊,詞類和句法成分沒有明確的一一對應關系,句子成分和語義關系也沒有明確的一一對應關系,書面語沒有分詞連寫〔3~4〕。”從微觀詞性看,“漢字的詞性是隱性的,有些漢字在不同的語境表現出不同的詞性;不少漢字可以一詞多義或存在歧義”〔2〕。可見漢語各個層面上的歧義現象非常嚴重。在詞法層面上,漢語中存在不少多義詞、兼類詞和組合詞,而且漢語中詞與詞之間沒有空格或界線,因此機器切分詞語通常不準確,翻譯質量就受到極大地影響。在句法層面上,連動句式、兼語句式、無主句、形容詞謂語句及名詞謂語句等的大量應用妨礙了機器正確判斷句子的結構和成分,影響了翻譯結果的準確性和可讀性。在語義層面上,漢語中很多表達沒有明顯的時態標志,名詞也沒有明顯的單復數標志,需要機器根據語境或語義判定,這又正是絕大多數漢英機器翻譯系統難以實現的。
除此之外,省略結構、意譯表達方式的存在也給機器翻譯帶來了新的難度。比如,例1中“指導”、“練習”和“打”皆為動詞,但翻譯成英語時三個動詞的時態卻不一樣。例2中“聽說”在漢語中既可是名詞,又可是動詞,而翻譯為英文時卻只翻名詞的意思,即“聽力和口語”。例3中“成都大學畢業生”有歧義,可理解為“成都大學的畢業生”或“成都的大學畢業生”。例4中“跟單”是商業貿易常用詞匯,“單”不能翻譯成single,應該是business coordinator或者trade merchandiser。此外,“單”可以讀shàn,“單助理”可理解為姓“單”的“助理”。例5中“通過”是動詞,“注冊”是定語修飾“會計師”。例6也有歧義,如果“領導”是動詞,意思是“承擔臨時安排的任務”;如果“領導”是名詞,其含義是“上級(給下級)臨時安排的任務”。
可見,機器翻譯系統給出的例1~例6的譯文都不準確。也就是說,機器翻譯要“將表達靈活多變的漢語通過機器自動翻譯的方式轉化為語法邏輯嚴謹的英語,在詞法、句法和語義三個層面上都存在諸多不利因素,以及知識抽取不易和單向式的系統設計等”〔5〕問題,很難實現高質量漢英機器翻譯。要解決上述問題,我們可以引入“受限語言”的理念,約束語言的多義或歧義現象,通過計算機標注來增強機器翻譯系統對漢語的理解。“采用受限的方法可以在不改變現有算法的基礎上較大地提高翻譯的正確率及可讀性,具有較好的使用價值。”〔6〕比如,加拿大Montreal大學開發的TaumMeteo系統,由于專業領域選擇得當,所用的詞匯大約只有1500個不同的單詞,而且半數是地名,系統的詞匯歧義(多義詞)就很小,即使是多義詞,因領域的限制,所以在特定的領域中也沒有歧義〔7〕。可見在機器翻譯軟件中使用“簡歷受限漢語”有助于解決上述簡歷翻譯中的一些問題。
二、簡歷中的受限漢語和句模建立 從上文機器翻譯簡歷的示例來看,目前機器翻譯仍然很難將任意文本自動從一種語言生成為另外一種語言。這是因為“計算機的翻譯是建立在串行二值邏輯的基礎上的緣故,它沒有思維、判斷、推理能力,只能是在限定的范圍內進行一對一的選擇”〔8〕。這里所說的“限定的范圍”即是簡歷這樣的特定領域,特定領域需要使用受限語言,在簡歷中使用受限漢語有助于機器翻譯系統對漢語的理解和翻譯。“受限漢語是一種受限語言,它是對漢語施加限制,構造一個或一組有一定表現能力且語法簡單、容易消除歧義的漢語子集。”〔9〕換言之,受限漢語就是在詞法、句法和語義等方面受到某些限制的漢語子集,它能從詞匯、語用、語義和句法四個方面減少或消除歧義。
對于機器翻譯來說,句子成分越復雜,句法分析越困難,譯文質量越差。因此,簡化句子的復雜程度可以增強機器翻譯系統對漢語的理解。簡歷受限漢語的結構應該是“相對簡單和整齊劃一的”,應該是“加以嚴格限制的,基本上做到一詞一義,盡量避免多義詞或近義詞”,句法與語義之間的聯系應該“盡量一一對應”〔10〕。
此外,句模策略也是簡化句子結構、避免多義或歧義、使句法與語義一一對應的方法。構建受限漢語“句模”可以幫助機器翻譯消除歧義,“在句法和語義的層面上,對受限漢語有更加深刻全面的認識”〔10〕。
“句模”指的是句子模塊或句型,機器翻譯例句庫的每個例句都有一個句模與其對應。比如,上述例句中含有短語模塊:
短語: 打 籃球
模塊:〔動作〕+〔對象〕
短語: 德語 聽說
模塊:〔語言〕+〔技能〕
在句法層面上,每個句模由時間模塊、動作模塊和空間模塊數個“模塊”組成。比如:
句子:2001年9月至2005年7月 就讀于 西南交通大學外國語學院
句模:〔時間模塊〕+〔動作模塊〕+〔空間模塊〕
句子:2001年9月至2005年7月 在西南交通大學外國語學院 學習
句模:〔時間模塊〕+〔空間模塊〕+〔動作模塊〕
簡歷通常包括以下內容:個人信息、求職意向、教育背景、工作經歷、成績榮譽和技能專長。有時也有附加信息,如:相關課程、參加活動和推薦人信息等。根據以上簡歷中的受限漢語和“句模”特點,我們可以在機器翻譯系統中構建如下句模:
(1)就讀于四川省成都市西南交通大學外國語學院英語專業
(2)榮獲西南交通大學“優秀畢業生”稱號
(3)精通英語聽說讀寫
每一個句模由“固定部分”和“可變部分”構成。上面句模中帶下劃線的為“可變部分”,即可以被替換;其他部分為固定內容。其實句模中的“固定部分”也就是簡歷受限領域里的專業術語。因此簡化后的句模為:
(1)就讀于 省 市 (學校) (院/系) 專業(教育背景)
(2)榮獲 (學校) 稱號(獎勵榮譽)
(3)精通 聽說讀寫(外語水平)
句模(1)可以擴展為“工作于 (單位名稱)”或“在 (單位名稱)工作”,在簡歷的“工作經歷”板塊中使用。句模(2)可以擴展為“榮獲 獎學金”;句模(3)也可以擴展為“基本掌握 ”或“熟練運用 ”,用來描述個人的外語水平或其他技能。相對而言,機器翻譯系統比較容易處理以上類似句模,還能按句模的結構進行詞序的部分調整,從而提高翻譯的準確性。
總之,簡歷機器翻譯系統中的所有句模應當預先分析,添加內部標注。每個句模如何分塊,每個語塊應承擔什么語法功能和語義角色,這對計算機來說都是較容易的。句模的最大優勢就是幫助機器翻譯系統解決了對句子總體結構把握不住的問題,因此,按照這些句模寫出來的句子計算機完全能“讀懂”,簡歷機器翻譯系統就能運行順暢,譯文質量也能得到提高。
三、簡歷機器翻譯系統的運行和推廣 基于以上有關簡歷受限漢語的論述,我們可以設計出簡歷漢英機器翻譯系統,以滿足漢語簡歷翻譯的需要。翻譯界對機器翻譯系統進行了大量開發,早期有直接翻譯法、轉換法和中間語言法,后來又出現了“基于規則”的翻譯方法,“基于實例”和“基于統計”的方法,也有人提出基于混合策略的機器翻譯方法〔11~12〕。這些方法各有優劣,對機器翻譯的研究和發展都有不同程度的影響。簡歷機器翻譯系統的開發應當綜合上述各種翻譯方法的優點,以受限漢語“句模”為基礎,以“統計翻譯法”為主導,結合“基于句模”和“基于記憶”的翻譯方法來進行。統計機器翻譯方法是目前國際上領先的機器翻譯技術,它克服了傳統規則翻譯方法的諸多弊端。“基于句模”的翻譯方法便于計算機系統處理具有相似模式的句子,這是因為簡歷中經常會包含一些固定句型。“基于記憶”的翻譯方法可以把簡歷翻譯過的正確句子批量添加到記憶庫中,在機器翻譯過程中,如果記憶庫中存在相同的句子,系統就可以迅速搜索并輸出對應譯文,從而節省時間精力,保證譯文質量。此外,簡歷機器翻譯系統還應當建立一個包括簡歷常用詞語的“受限漢語詞庫”,收錄一些常見地名、校名以及專業名稱等,增強機器翻譯系統的“文化水平”,以有利于提高翻譯的準度和精度。
如圖1所示,在“輸入漢語原文”之后,機器翻譯系統首先查找翻譯記憶庫,如果記憶庫中存儲的譯文正好與原文一致,系統就跳過“語言語法分析”等步驟,直接輸出記憶庫中的譯文;如果系統里沒有與之匹配的現成譯文,機器翻譯系統則對漢語原文進行詞語切分和標注等“語言語法分析”,然后與句模和例句庫匹配,運用統計翻譯法,結合各類翻譯模型和語言模型,最后輸出比較準確的英語簡歷譯文。
簡歷機器翻譯系統運行流程綜上所述,本文以簡歷中的受限漢語為出發點,結合機器翻譯簡歷的難點與受限漢語句模的特點,討論了簡歷受限漢語和句模在機器翻譯系統中得以應用的可行性和策略,目的是讓簡歷機器翻譯系統幫助我們實現自動翻譯,以輸出質量較高的譯文。本文的研究意義在于:一是能否在此研究基礎上進一步開發用于書寫個人簡歷的“受限漢語寫作器”,讓計算機輔助用戶在受限漢語“句模”的約束下寫出自己的漢語簡歷,然后由簡歷機器翻譯系統翻譯成地道的英文簡歷;二是將簡歷機器翻譯的模式進行推廣,可以在多個特殊領域研發受限漢語的機器翻譯系統,比如:飯店訂餐和預訂房間等。由于這些領域的漢語與簡歷中的受限漢語有不少共性,諸如菜單、就餐或入住時間、預訂人數和房間號等信息都比較簡潔,句式也不復雜,因此也能根據上述原則開發機器翻譯系統。這些受限漢語的機器翻譯研究對于中外合作與交流都有一定的理論和實踐意義。
參考文獻:
〔1〕馮志偉.澄清對機器翻譯的一些誤解〔J〕.現代語文,2004,(5):36.
〔2〕KamFaiWong,Wenjie Li,Ruifeng Xu and Zhengsheng Zhang.Introduction to Chinese Natural Language Processing〔M〕.Lexington:Morgan Claypool Publishers,2010:33-39.
〔3〕劉海濤.機器翻譯不僅僅是機器+翻譯〔J〕.中國科技翻譯,2005,(4):59-61.
〔4〕俞士汶,朱學鋒.受限漢語研究的必要性〔J〕.語言現代化論從,1997,(3):32.
〔5〕王 丹,李 進.機器翻譯:現狀與展望〔J〕.專利文獻研究,2008,(3):6.
〔6〕劉 群,俞士汶.漢英機器翻譯的難點分析〔EB/OL〕.(19980101)〔20110105〕.http://ccl.pku.edu.cn/doubtfire/NLP/Machine_Translation/Difficulities_of_MT/paper98-7.htm.
〔7〕徐 波,孫茂松,靳光瑾.中文信息處理若干重要問題〔M〕.北京:科學出版社,2003:45.
〔8〕肖 靜.機器翻譯的若干問題〔EB/OL〕.(20100311)〔20110123〕.http://www.yywzw.com/show.aspx?id=1644cid=152.
〔9〕陳 云.基于受限漢語和模塊組合的自動程序設計研究〔D〕.重慶:重慶大學計算機學院,2008:4.
〔10〕馮志偉.“受限漢語”研究與信息技術〔J〕.中文信息,1997,(2):29-31.
〔11〕劉 群.機器翻譯研究新進展〔J〕.當代語言學,2009,(2):147.
〔12〕馮志偉.機器翻譯今昔談〔M〕.北京:語文出版社,2007:38-44.
(責任編輯:楊 珊)