李雙燕 孫曄芃
(首都經濟貿易大學外國語學院,北京)
隨著人工智能技術與翻譯領域的深度融合,機器翻譯(MT)已成為人工智能翻譯時代的新常態。機器口譯App因其便捷性、靈活性逐步成為大眾生活類翻譯的主要選擇。但當前機器口譯的實驗研究較少,主要側重于使用計算機科學算法及建模評價標準對譯文進行自動化、模式化的評分,較少涉及語用層面等語言學意義方面的研究(姜寶涵,2018;劉佳琛,2019),因此本研究擬將語用層面納入進來,把語音識別、語言轉換以及語音合成看作一個整體,以中國游客在英語國家旅游交流場景為例,評測有道翻譯官在模擬真實場景下的機器口譯輸出質量,并且通過量化和質化分析,找出當前機器口譯App存在的問題,并提出改進建議。
20世紀80年代中期,西方學者開始進行口譯質量評估實證研究,試圖將口譯質量量化。Bhler(1986)指出衡量口譯質量最重要的9個指標為后續口譯質量實證研究奠定了基礎。Moser-Mercer(1996)提出針對不同評測目的,口譯評測的側重應該不同。Angelelli(2000)從社會交際視角出發,探索只聽取單方對話對口譯質量的影響。中國則從90年代起,開始逐步關注口譯質量的影響因素及其評估方式。胡庚申(1993)提出了CREDIT模型,并通過計算求出不同級別口譯效果的數值范圍。鮑剛(1998)采取定性、定量相結合的方式評估口譯質量。劉和平(2002)結合科技口譯制定了量化的科技口譯評估方法。本世紀初,臺灣輔仁大學翻譯學研究所所長楊承淑(2005)提出了量化(quantitative evaluation)與質化(qualitative description)相結合的評估理論,并給出了相應指標的占比及分值,奠定了國內口譯質量量化評估的基礎(劉佳琛,2019)。
在機器口譯評測方面,國內外對機器口譯質量的評估研究相對薄弱(王華樹 李智,2019)。當前機器口譯對于重音、方言、背景音以及發音不清等要求都較為嚴格,缺乏人的判斷力和文化儲備(Emma,2016)。雖然當前已有學者對國內機器口譯進行質量評估,但其文本都局限于科技、經濟講座或總理答記者問這類較為正式的口語材料(趙琳,2017;李雪菲,2018;姜寶涵,2018),較少探討日常對話評測,難以全面反映口譯軟件在大眾日常生活中的使用情況。
在楊承淑量化與質化評估理論中,量化與質化相輔相成,量化指出的數值往往代表比較負面的評價,因而需要質化來修正;質化所評但就目前機器口譯的發展來看,日常對話是此類軟件的主要應用場景,出國旅行使用比率較高。因而,本研究選取旅游類口語場景對話作為評測材料,分析國內主流機器口譯App的翻譯效果。
基于當前缺乏針對旅游類材料機器口譯的質量評測標準,本文借鑒了大學旅游英語課程的部分口譯評價標準,注重譯員口譯時的理解能力、語音語調、語法詞匯、口語交流的得體性;考慮到中外文化的巨大差異,必要時還應對文化意象進行解釋,并根據提示信息的類別調整譯文(曾利沙,2005)。
由于對話翻譯的日常使用頻率高,適用范圍廣,應用難度小,因此本文選擇日常對話類材料作為研究對象,所評測的機器口譯交替傳譯是指通過機器口譯的語音識別、翻譯技術、文字轉語音技術對使用者的語音進行識別、翻譯并以AI語音的形式呈現。
本文將以楊承淑(2005:237-238)提出的口譯專業考試評分表為基礎,根據旅游口譯的特點制定旅游類機器口譯(漢譯英)質量評估表。具定的結果由于無法記住所有細節往往趨于寬容,因而需要量化指針來補充整體判斷(楊承淑,2005)。在表1中,量化的具體指標包括忠實層譯次數、遺漏翻譯次數和增譯翻譯次數;表達層面的邏輯不清次數、發音不清次數、贅音贅詞個數和句型生硬次數;語言層面的語法錯誤個數、選詞不當次數、語意不明次數、缺少文化轉換次數;時間控制層面的譯文時間是否超過原文時間、啟動大于2秒次數。質化的具體指標包括忠實層面的信息是否等值、省略是否恰當和補充是否恰當;表達層面的邏輯是否清晰、發音是否清晰、語調節奏是否順暢易懂和總體是否流暢清晰、轉換自然;語言層面的風格是否一致和選詞是否恰當;時間控制層面的時間長度是否恰當,啟動是否及時。

表1 旅游類機器口譯(漢譯英)質量評估表
在楊承淑的分數評定等級中,總分90分表示口譯水準可獨當一面,總分85分表示口譯水準穩定,總分80分表示水準尚稱穩定,可從事較簡易的口譯工作,總分75分表示略有語言和知識不足的問題,但已具備基本口譯技巧,總分70分表示語言、知識或技巧中有某一項極弱,導致穩定度不夠,不及格(楊承淑,2005)。由于本文對評價表只有少部分修改,整體類別和分值配比無變化,因此修改后的旅游類機器口譯(漢譯英)質量評估表依舊借鑒楊承淑的等級評定標準。
本文假設有道翻譯官機器口譯App在旅游對話中,中譯英翻譯質量良好,8組機器口譯平均分在80分以上,分值浮動區間為70-90全部及格,且男女平均得分無明顯差異(二者均分差值不超過5分)。質化方面,在忠實層面,機器口譯信息等值、省略恰當和對文本略有補充;在表達層面,邏輯清晰、發音清晰、語調節奏較為順暢易懂,總體流暢清晰、轉換自然;在語言層面,選詞較為恰當,風格一致;在時間控制層面,時間長度恰當,啟動及時。
本文主要采取了實驗法以及定量與定性相結合的分析方法,通過旅游口譯評價表對機器口譯質量進行評價。這不僅使得分析結果符合口譯交際目的,具有語言學意義,而且還借助分數使評價結果更為科學、準確、直觀,彌補了之前傳統語言學評價較為抽象的問題。
具體實驗步驟如圖1所示:

圖1 實驗流程
第一步:收集語音材料。筆者構建了9個具體旅游場景及31個需求點,與8位測試者進行模擬場景對話,收集真實語言狀態下的中文語音材料。每名測試者每個需求點的語音回答為一組材料(由于不同測試者表述不同,一組材料可為單句,也可為多句),共計248組回答。
第二步:對語音材料進行打分并進行人工轉錄。轉錄文本包含測試者的口頭禪等,之后統計字數。由于8名測試者身處環境、音頻收集途徑(現場或微信電話)、音頻效果不同,所以本文對音頻的音質、背景音、音量、吐字清晰度、語言完整度、語速、語言口語化程度等7個維度進行打分,分值范圍為1-5分,總分共計35分。其中滿分5分代表音質清晰、無背景音、聲音洪亮、吐字非常清晰、語言非常完整、語速適中、語言口語度高;各項最低分1分則代表音質非常差,背景音非常大、聲音弱、吐字非常模糊、語言非常碎片化、語速極慢或極快、語言口語化程度極差。
第三步:進行機器口譯。逐句播放8位測試者的音頻材料,通過有道翻譯官的“對話翻譯功能”進行中-英口譯。
第四步:機器口譯評估。根據表1構建的“評估標準”,逐句、逐項進行量化評估和質化描述。量化評估時,以每項指標所收集的數據為基礎,通過先行扣分、再乘以占比的方式計算得分。其中每組材料測試者回答的語句數量會有不同,但由于各個需求點均可由一句話進行回應,因此本文將每組回答統一視為一個整體,按照“一錯皆錯”的原則,即一個句子中如果出現某一項錯誤,則將減去該句該項全部得分;質化評估時,針對得分結果,結合個別語言點進行質化描述。由于機器語音未識別的部分,口譯App會自行補充相應內容,因此本文測試的機器口譯還是以最終形成的英語語音為準。
第五步:數據分析。通過量化與質化分析、整體評估、對比分析得出相應結論。
有道翻譯官是網易有道公司出品的一款軟件,該軟件支持離線翻譯功能的翻譯應用,在沒有網絡的情況下也能順暢使用。2019年12月,教育部辦公廳公布第一批教育App備案名單,有道翻譯官通過備案。
測試者需滿足以下幾方面要求:滿足機器口譯App的使用條件,比如擁有智能手機,會安裝軟件,同時有出國旅游的機會,因此測試者年齡在12-74歲之間較為合適。參照聯合國世界衛生組織的年齡分段和出國人群的實際情況,青年人與中年人的出國比例高于少年和年輕老年人。因此,8名測試者選取4名男性,4名女性,其他具體信息如表2所示。

表2 8位測試者個人信息
考慮到本次對比研究的實用性和創新性,筆者選取了2本有關旅游英語的書籍作為話題參考,分別為通用教材《旅游英語(第3版)》(李燕徐靜,2018)和大眾讀物《一個人帶著英語去旅行》(都述文 李藝璇,2017)。根據實驗需要,共構建了9個具體旅游場景及31個需求點8名測試者的原對話音頻質量如表3所示。

表3 測試者原對話音頻質量
本文利用有道翻譯官對上述音頻進行口譯,并根據“評估表”進行評估,統計結果如表4所示。

表4 機器口譯(漢英)口譯質量評分結果

續表
通過表4可知,整體機器口譯平均分為55.95,低于預想平均分80分,且本次測驗的分數浮動在31.1-67.3之間,遠低于假設的70-90分,這說明當前機器口譯在旅游方面的模擬應用效果還遠未達到預期。
忠實方面,8組平均分為21.52(滿分50分),最高分30.56,最低分9。表明當前機器口譯App在傳達正確信息方面很差,特別是在誤譯以及文化轉化方面,本實驗在誤譯方面平均得分在16.9(滿分30分),接近一半的對話未被正確翻譯,并且機器翻譯沒有文化轉化的功能,主要按字面意思翻譯。
語言方面,8組平均為9.58(滿分20分),最高分12.4,最低分5.6。在短句密集或句子很長且沒有明顯語音停頓的情況下,機器口譯的語法、同音詞或同義詞的選擇比較隨機,難有統一標準。在“語意及文化轉換”的評分項中,平均分為2.23(滿分5分),表示能正確傳達語意的對話不足半數。
表達方面,8組平均分為19.21(滿分30分),最高分為21.41,最低分為14.5。這一項相較忠實和語言兩項的分數要高,機器口譯App在“發音”以及“贅音贅詞刪減”方面做得不錯,但在語言邏輯方面表現一般,平均分為5.59分(滿分10分),發現句中的邏輯關系能力不佳。此外,“句型轉化”一項表現最差,幾乎都是按照中文進行逐字全部翻譯,不能對句子元素進行有效挑揀重組。
時間控制方面,幾乎所有的句子都能保證英語口譯時長小于等于原語音時長,且啟動時間小于2秒。只有1、2句會超時,可忽略不計。值得注意的是,機器口譯App在使用一定時長后(翻譯150句左右時),若原句長度多于50字,口譯啟動時間則明顯加長,多于2秒,需退出后重啟,方可緩解。
從量化分析結果可知,當前機器口譯App在旅游領域模擬中譯英對話中口譯質量較低,在現實旅游場景中尚未達到預期效果。因此,下文將從質化角度逐一分析機器口譯App當前存在的主要問題。
4.2.1 語音識別不佳
機器口譯整體上翻譯較為準確,但個別地方翻譯得很離譜,原因主要是語句的核心詞識別錯誤。
例1:

語音識別請問咱們的娶妻在哪里辦理?Could you tell me where we can get married?
在該例句中,機器口譯把句中關鍵詞“值機”語音識別成了“娶妻”,并在翻譯中并未糾正,因此該句口譯質量受到很大影響。
4.2.2 文化轉化不佳
在中國,客套話是一種常見的表達方式,很多顧客在商店、餐廳表達需求時會把“商店/餐多顧客在商店、餐廳表達需求時會把“商店/餐廳”表述為“咱們商店/餐廳”。
例2:

語音識別 譯文請問咱們商店營業時間是什么時候呢?What are our shop hours, please?
在該例句中,“咱們商店”并不是表達這個餐廳是測試者和店主共同經營的,而是與對方拉近距離的客套說法。機器軟件卻難以識別這類客套話背后的語用含義,仍按照字面意思翻譯,難以符合語用需求。
4.2.3 冗長信息刪減不當
人們在口語表述中會有結巴的現象,為了節省時間應該刪去這類因口誤造成的無用或重復信息。在下面這句例句中,App沒有識別出結巴“您好”,依舊照常翻譯,在真實場景中耽誤時間。
例3:

語音識別 譯文您好,您您好,商場里有沒有打折區啊?Hello, hello, is there a discount area in the shopping mall?
4.2.4 物品名稱及稱謂混亂
由于機器沒有辦法識別在場人員性別,因此在對話中遇到人稱代詞“她/他/它”時,App在選詞上沒有參考依據,會造成一系列錯誤。在例句中,“他”在語音情況下并沒有說明是男士還是女士,被翻譯成“he”欠妥,且“I and he are together”表達不地道。
例4:

語音識別 譯文不好意思可不可以換下座位,因為我和他是一起的。And the new person is embarrassed can change the seat, because I and he are together.
4.2.5 數字翻譯不恰當
語音識別數字表達不規范對機器口譯產生很大負面影響(劉佳琛,2019)

語音識別 譯文你好,這件衣服有叉L碼的嗎?可以讓我試一下嗎?Hello, do you have this dress in a forked L? May I try it on?
例5:
在中國,衣服尺碼是按S、M、L、XL等來記錄碼數的,在讀音中“XL”中的“X”習慣被讀成“叉”。在該例句中,“XL”沒有被正確識別出來,對應的譯文“Extra Large”也沒有表達正確。
4.2.6 語音效果不穩定
機器口譯在譯文過長時還將導致語音輸出不順暢,遇到較長的句子會一口氣念下來,單詞發音也會變形,聽者在理解上會受到影響。
探究語音文字數量與口譯質量的關系時,據圖2所示,測試者表達的文字越多,口譯質量相對越低,但由于口譯質量在趨勢線上下浮動較明顯,可得出文字數量會產生影響,但不占主導地位。

圖2 語音文字數量與口譯質量的關系
將原語音質量和機器口譯的得分進行對比分析,據圖3所示,基本可看出隨著原語音質量的下降,機器口譯得分明顯降低。

圖3 原語音質量與機器口譯質量的關系
由于8位測試者中只有WWY是通過微信語音電話進行機器交傳,受設備影響噪音較大,音頻評分與機器口譯評分都明顯低于其他同類數據。為了更好分析測試者性別和機器口譯質量的關系,共分為有無測試者WWY兩種情況,進行平均分比對。在包含WWY數據情況下,男測試者平均分為54.64,女測試者平均分57.26;在不包含WWY數據情況下,男測試者平均分為62.49,女測試者平均分57.26。機器口譯質量在兩種情況下均分差值均在5分以內,說明男女語音差異不會對機器口譯質量產生明顯影響。
本文通過實驗研究發現機器口譯App在模擬旅游場景的使用中翻譯效果不佳,尚未達到預期效果。
從量化角度來看,機器口譯App在“忠實”和“語言”兩大項得分最少,不足50分;在“表達”上相對表現較好;“時間控制”表現最佳。從質化角度來看,機器口譯App口譯質量受到以下幾方面影響:語音識別不佳、文化轉化不佳、冗長信息刪減不當、物品名稱及稱謂混亂、數字表達不當、語音效果不穩。
此外還發現,語音文字數量越多,口譯質量相對越差;語音質量越高則口譯質量越高;男女語音差異不會對機器口譯語音質量產生影響。
本研究有以下幾點不足:1)筆者只選取了8名測試者,樣本數量不夠大。2)這8位測試者都使用普通話,沒有探究方言對旅游漢英機器口譯交傳質量的影響。3)由于語言材料較多,評分標準按照“一錯全錯”的原則進行評分,沒有根據錯誤程度進行更為細致的打分,使得最終得分比較低。未來可以在本研究的基礎上增加測試者的數量,收集方言語音素材,細化旅游漢英機器口譯質量評估標準。
本文通過分析實驗結果,對當前機器口譯App的交傳功能提出以下改進建議:
第一,使用機器口譯App前,先選出對應國家、場景及身份等。不僅可以有效避免不同國家對于同一單詞釋義不同的尷尬、同音詞的聽譯誤差,還可以有效辨別對方性別。
第二,規范旅游常用語。旅游口譯評測還應包含檢驗旅游常用句型,旅游機器口譯App可以盡可能地規范表達基礎需求的旅游常用語,避免產生歧義。
第三,增強機器理解能力,刪除無用信息。漢語口語的短句較多,表述時先進行描述,最后說出需求。而英語國家正好相反。因此機器口譯需要像人工口譯學習,抓住句子主干進行翻譯,而不是逐字完全翻譯。
第四,研發機器口譯App浮窗翻譯功能。當前機器口譯App在進行對話翻譯時,屏幕無法離開翻譯界面,可實際情況卻是人們有時需要配合手機上的圖片、地圖或其他App進行表述。未來機器口譯App可與整個手機或其他軟件融合,成為一種集成性服務程序,而不再是單一應用軟件。
當前,機器翻譯蓬勃發展,許多商家在宣傳機器口譯時都會聲稱機器口譯可以代替人工口譯,但通過本研究發現其實不然。一旦脫離清晰明確的語音材料,回歸日常口語交流,機器口譯則會暴露缺點。對機器口譯來說,其語音語調區域單調,無法傳遞情緒,無法像人類一樣對溝通對象進行預判,這些都是未來需要攻破的技術難題,因此,機器口譯App技術研發任重而道遠。身為口譯員面對不斷完善的機器口譯技術,也要不斷學習,充分發揮主觀能動性,拓展知識面,增強信息綜合處理能力。如此,人機優勢才能互補,共同提升未來口譯質量。