CAT視角下ChatGPT與谷歌翻譯效度初探

2025-04-12 00:00:00劉安琪

文教資料 2025年1期

摘要：本研究以體育科技英語文本為例，探討新興人工智能翻譯系統ChatGPT與傳統計算機輔助翻譯系統谷歌翻譯器在特定文本翻譯中的效度差異。研究采用人工評測和自動評測相結合的定量研究方法，對120組體育科技英語測試句群進行全面評測。結果顯示，在翻譯體育科技英語文本時，ChatGPT的翻譯效度整體優于谷歌翻譯器。兩類翻譯系統在一般語境下的翻譯效度均優于專業語境，且二者相比，ChatGPT仍略勝一籌。研究發現，即使如ChatGPT這樣的新興人工智能翻譯系統，在專業領域的文本翻譯中也仍需要人工校對和修訂。這說明完全依靠計算機翻譯處理體育科技類文本的效度并不理想，翻譯系統的智能水平需要進一步優化。本研究為推動人工智能翻譯技術在專業領域的應用提供了啟示與借鑒。

關鍵詞：ChatGPT 谷歌計算機輔助翻譯翻譯效度體育科技英語

隨著社會的進步與科技的發展，多語言溝通交流的需求與日俱增。傳統的人工翻譯在速度和數量上均有一定的局限性，不能完全滿足日益增長的翻譯市場需求。因此，依靠信息技術的支撐，計算機輔助翻譯（Computer Aided Translation，縮寫為CAT）為語言的溝通交流提供了便利，同時，也大大提升了人工翻譯速度，使翻譯操作更加簡易。

近年來，人工智能的發展正深刻地塑造著翻譯新貌。2023年3月15日，美國開放人工智能研究中心OpenAI

宣布正式推出GPT-4，它是OpenAI努力擴展深度學習的最新里程碑。ChatGPT語言模型的崛起，引領人工智能走向了新的發展階段，為語言文化及翻譯研究帶來了巨大變革。［1］與統計機器翻譯（Statistical Machine Translation，縮寫為SMT）系統——谷歌翻譯器（Google Translate）相比，ChatGPT翻譯不再單一依靠傳統算法，而是通過大量語料庫翻譯學習與訓練［2］，以高度精確和靈活的方式處理翻譯任務，使譯文翻譯更加貼近人工翻譯風格。但由于語言本身的復雜性和文化背景的差異，ChatGPT作為新興人工智能產物，在應對專業領域特定文本翻譯時，譯文效度仍有待驗證。［3］

體育科技英語作為專門用途英語（English for Special Purpose，縮寫為ESP）的一個重要分支，一直以來都是翻譯的重點和難點。一是由于體育國際交流的日益豐富，語言障礙成為國家間切磋體育技能、發展體育產業、開拓體育科學時的首要壁壘，亟須通過翻譯行為促進國家間體育對話的順利開展［4］；二是由于體育科技英語涉及的知識面及題材非常廣泛，結合了運動、生理、心理、管理、訓練、歷史、分析等自然科學及社會科學知識，翻譯此類文本需要譯者同時具備英語水平、漢語水平及體育專業知識，因此這類文本也被視為最難翻譯的文本類型之一。能精準翻譯體育科技英語文本，即使對于經驗豐富的譯員來說，也是不小的挑戰。然而，不可否認的是，隨著翻譯語料庫及人工智能技術的逐步完善，計算機輔助翻譯工具在一定程度上能夠輔助甚至自主進行諸如體育科技英語等較大難度的文本翻譯，從而提高人工翻譯的效率。

翻譯系統對于大量平行語料統計分析的準確性，統計翻譯模型的構建完善度，基于短語翻譯的句法信息融合能力，都將直接或間接影響最終輸出的譯文效度。不同翻譯平臺對于不同領域、不同類型的文本翻譯輸出也極有可能存在顯著差異。本研究以體育科技英語文本為例，將ChatGPT翻譯功能與傳統CAT系統——谷歌翻譯器生產的譯文進行對比，評估二者在特定體育科技文本翻譯中的效度。

一、研究設計

（一）研究對象及目的

常用翻譯系統獨立進行翻譯活動時，在不同場合、不同文本語境下能否準確地表達源語意義，傳遞信息的效度如何，對翻譯系統智能化的完善有著重要意義。本研究旨在通過譯本評測，對比在體育科技英語文本情境中兩種翻譯系統——谷歌翻譯器與ChatGPT翻譯功能的翻譯效度。本研究在測試時均使用其免費版本的在線翻譯器。

（二）研究方法

為了保證表達的豐富性與研究結果的客觀性，本研究的測試選擇了兩類體育科技英語文本。一是現有教材《體育英語》中與體育科技相關的文本句群，二是國際奧委會《賽事手冊》中與體育科技相關的文本句群。兩類文本均為英文，并附有官方中文譯本，旨在兼顧書本理論與實踐運用，以確保兩種翻譯系統輸出的譯文有較為有效權威的參考標準。

在對譯文效度的分析上，本研究采用兩種分析方法：人工評測與自動評測，并將兩者的分析數據相結合，從多個角度對比論證ChatGPT與谷歌翻譯器在體育科技英語文本中翻譯效度的差異，力求取得相對客觀、更有說服力的測試結果。

（三）測試過程

1. 嚔句群篩選

在熟悉教材《體育英語》與《賽事手冊》內容與架構的基礎上，為了保證測試句群兼備典型性與客觀性，本研究的備選測試句群均從材料各章正文部分隨機均勻抽取，中英對照，并保證每組測試對象均包含體育科技英語關聯性內容。

從備選測試句群中進一步進行篩選，本研究將描述性較強的句群歸為一般語境文本，此類句群更偏向日常表達，通常以傳遞社會科學類的體育科技信息為主；將專業性較強的句群歸為專業語境文本類，此類句群用詞表達更為學術化，通常包含自然科學信息或是體育專業術語。

經過分析、篩選，本研究最終確定測試句群共計120組。其中一般語境文本類60組，專業語境文本類60組。

2. 嚔翻譯處理

測試句群中的英文為測試源語言，中文為標準目標語言，筆者將源語言句群一一輸入ChatGPT聊天界面與谷歌翻譯器中，下達翻譯指令，收集即時翻譯的譯文，記為測試目標語言句群，共計120組。翻譯及收集過程中，筆者不會對輸出句群的字、詞、標點、內容等做任何修改。

二、譯本評測

翻譯是一種促進溝通交流的語言轉換行為，因此想要對譯文進行統一標準化的評判較為困難。即使是同一譯本，在不同的時間、情境下，由不同身份的表述者傳遞，所產生的語言效度也可能千差萬別。因此，本研究將不同語境下譯本的忠實度、流暢度視為評判其效度的主要因素，譯本的忠實度、流暢度越高，說明其翻譯效度越強。

為了盡量確保測試結果的客觀性，筆者會采取兩種評測標準對120組目標語言句群進行效度評測：人工評測及自動評測。筆者將收集的120組測試目標語言與120組標準目標語言一一進行比對，并采用計算效度得分的方式，從多角度對ChatGPT翻譯功能及谷歌翻譯器的翻譯效度進行對比評測，力求量化測評結果。

（一）人工評測

人工評測是一種個人主觀評價翻譯文本的行為，其優勢是更加智能化，在對表達方式的合理性、信息傳遞的有效性等方面的評價更加細致靈活。人工評測不足之處在于不同評價者對于同一譯本的評價可能存在一定差異。為了盡量減少因個人因素而造成的結果誤差，本研究在人工評測部分引入了兩大類得分細則，要求同一評測者分別為同一譯本的效度進行忠實度及流暢度兩方面的評價。具體評測標準如下表1和表2所示。

基于以上兩類評分細則，筆者對120組測試目標語言分別進行人工評分計算：

P_h=（f+t）/2

（其中P_h為人工評測綜合得分，f為人工評測忠實度得分，t為人工評測流暢度得分）

（二）自動評測

自動評測相較于人工評測更具有客觀性，但就評測靈活性而言稍有欠缺。本研究中的自動評測部分采用雙語互譯質量評估輔助工具（Bilingual Evaluation Understudy，縮寫為BLEU）的基本算法作為評分標準，

該方法是2002年美國國家標準與技術研究所采納

國際商業機器公司（International Business Machines "Corporation，縮寫為IBM）提出的基于詞的N元模型的評價方法。

本文通過對比標準目標語言與測試目標語言中的共現詞頻率，選取BLEU算法多元精度標準（N-gram）中一元組（Uni-gram）與二元組（Bi-gram）的得分均值作為測試目標語言自動評測的最終得分，具體算法如下。

一元組BLEU得分算法：

其中，一元組算法以單字為單位，將測試目標語言輸出的每一個字與標準目標語言進行逐一比對，從而進一步計算測試目標語言與標準目標語言的單字匹配比率。一元組算法可較為客觀地評測譯文的精確度，與人工評測中的忠實度具有一定的關聯性。

二元組算法以相鄰兩個單字組成的詞組為單位，將測試目標語言輸出的每一個詞組與標準目標語言進行逐一比對，從而進一步計算測試目標語言與標準目標語言的詞組匹配比率。二元組算法可較為客觀地評測譯文的可讀性，與人工評測中的流暢度相呼應。

基于一元組和二元組算法，筆者對120組測試目標語言分別進行自動評分計算：

P_a=（P₁+P₂）/2

（其中Pa為自動評測綜合得分，P1為一元組得分，P2為二元組得分）

（三）綜合效度評測

基于人工評測和自動評測法，對120組測試目標語言分別進行綜合效度P評分計算：

P=（P_h+P_a）/2

三、評測結果

（一）綜合效度評測結果

基于以上評測方法，表3為ChatGPT翻譯功能與谷歌翻譯器在體育科技英語文本背景下的總體翻譯效度量化數據。

（二）專業語境中效度評測結果

基于對60組專業語境文本句群的譯文評測，研究得出在體育科技英語專業語境中，ChatGPT翻譯功能與谷歌翻譯器的翻譯效度量化數據（見表4）。

（三）一般語境中效度評測結果

基于對60組一般語境文本句群的譯文評測，研究得出在體育科技英語一般語境中，ChatGPT翻譯功能與谷歌翻譯器的翻譯效度量化數據（見表5）。

（四）宏觀測評結果

基于以上評測結果，筆者將分值0.60定義為“合格”，記為“Q（Qualified）”；將分值在0.60以下定義為“不合格”，記為“F（Failed）”；可得出表6中的宏觀測評結果。

四、分析與結論

（一）評測結果分析

從對120組體育科技英語相關句群的研究測評數據來看，在翻譯效度綜合分值、專業語境中分值以及一般語境中分值等方面，無論是以人工、自動還是總體作為評分標準，ChatGPT翻譯功能均占有一定優勢。其中，在專業語境翻譯的輸出表現方面，ChatGPT翻譯效度優勢更為明顯；在一般語境翻譯的輸出表現方面，兩者的差距稍有縮小。從宏觀測評結果來看，ChatGPT翻譯的表現明顯優于谷歌翻譯器，前者在綜合效度、專業語境效度、一般語境效度的人工評測結果中均為合格，且綜合測評結果也為合格；而后者并未產生任何合格項目。

1. 嚔人工評測效度與自動評測效度對比分析

在對語句進行逐一比對核算時，本研究發現，無論是在綜合還是在特定語境下，對120個檢測句群的人工評分大多高于自動評分，如句群18“There will be medical rooms in MMC and the IOC Headquarters Hotel to provide medical services needed by the media， members of the Olympic Family， and staff”。標準目標語言為“主媒體中心、國際奧委會賓館設醫療室，負責為媒體、奧林匹克大家庭成員和工作人員等提供合適的醫療服務”。谷歌翻譯器給出的譯文為“MMC和IOC總部酒店將設有醫療室，以提供媒體，奧林匹克大家庭成員和員工所需的醫療服務”。ChatGPT給出的譯文為“在主媒體中心（MMC）和國際奧委會總部酒店將設有醫務室，為媒體、奧林匹克家庭成員和工作人員提供所需的醫療服務”。

在此句群評測中，

兩類翻譯器在人工評測結果中均表現合格，而在自動評測結果中兩類均不合格。造成如此差異的原因一定程度上是由于在人工參與評測時，能夠識別相關的同義、近義詞，更加注重句子的整體表達以及信息傳達的有效性，因而即使與標準目標語言的結構、用詞略有差別，人工測評也能夠相對靈活地進行評分；而在自動測評中，評測結果完全按照BLEU算法機械識別標準目標語言與測試目標語言的精準匹配率，而不能對可以傳達源語言信息的同義詞或是相似結構進行識別。因此，兩類翻譯器的人工評測得分明顯高于自動評測得分。然而在少部分句群中，也出現了自動評分高于人工評分的現象。按照BLEU算法中一元組、二元組進行計算時，測試目標語言的單詞、詞組得到了精準匹配，但由于詞序顛倒或是句法結構錯誤等問題，目標語言并不能忠實、流暢地傳達源語言信息，因此在人工評分時，相應分數自然較低。

2. 嚔專業語境與一般語境評測效度對比分析

從測評數據可以明顯看出，兩類翻譯器在進行體育科技英語類文本翻譯時，對一般語境下的源語翻譯效度明顯高于專業語境中的效度。其中，ChatGPT翻譯一般語境的效度甚至達到了在所有測評標準下全部合格的佳績。但在專業語境中，兩者的翻譯效度均不甚理想。例如句群37“Putting a net in the middle of court， the bladder was to be a ball， pushing it over here to there， not allowed to fall it onto the ground”。標準目標語言為“在場地中間掛一張網，利用球膽當球，在網上托來托去，不讓球落地”。谷歌翻譯器給出的譯文為“把球放在球場中間，膀胱是一個球，把它推到那里，不允許它落到地上”。而ChatGPT翻譯給出的譯文為“在球場中央放置了一張網，使用的是一個充氣球作為球，將球從這里推到那里，不允許它落到地面上”。

在此句群評測中，谷歌翻譯器人工評測得分為0分，譯文完全無法傳達源語言信息，甚至完全曲解句群含義，ChatGPT也僅獲得0.2的低分。而自動評測得分中，谷歌翻譯器和ChatGPT也分別獲得了0.19和0.23的低分。在此句群中，“bladder”是傳達句意的關鍵詞。在體育科技英語的專業語境中，“bladder”一詞意為“球膽”。從測試目標語言中可以看出，谷歌將“bladder”一詞譯為其常見義“膀胱”，導致整句句意全錯。造成此類錯譯的原因很大程度上與谷歌翻譯器的翻譯原理有關。由于其為基于統計的語料庫翻譯系統，在語料庫的存儲容量上，一般語境語料遠遠超過專業語境語料。因此在

翻譯處理

體育科技英語等專業類文本時，由于相應語料庫素材的限制，翻譯器很大程度上會優先在一般語境語料庫中進行范本查找比對，并從中抽取譯文，從而導致無法正確翻譯專業術語，造成歧義或重大錯誤。而ChatGPT在翻譯過程中，盡管依靠自身語料學習能力，已經能將“bladder”一詞譯為與上下文較為貼合的“球類”，但就準確性而言，依然存在較為嚴重的語義損耗，加之后文“從這里推到那里”，使體育英語的專業表達無從體現，嚴重影響語言的傳遞與理解，違背源語、目標語力求“動態對等”的翻譯初衷。

（二）研究結論

經過對120組體育科技英語測試句群的全面評測、分析研究，可以看出，在翻譯體育科技英語文本時，ChatGPT翻譯效度整體優于谷歌翻譯器的效度。兩類翻譯器在翻譯一般語境下的體育科技類文本時，翻譯效度均優于專業語境下的體育科技類文本翻譯效度，但相比而言，ChatGPT翻譯的表現仍略勝一籌。

在宏觀評測中，ChatGPT和谷歌翻譯器均有不合格項目，且谷歌翻譯器數量居多。但并不意味著這兩類翻譯器不是合格的計算機輔助翻譯工具，而是客觀說明了在進行體育科技文本類型的翻譯時，單獨依靠計算機翻譯處理譯文的效度并不十分理想，需要進一步進行人工校對和修訂。［5］

（三）研究局限

在對ChatGPT及谷歌兩類翻譯器進行翻譯效度對比分析時，本研究存在著一定的局限性。首先，由于體育科技英語涵蓋范圍廣、專業性強，本研究在測試文本類型和樣本量的選擇上具有一定的局限性。其次，在測評方式上，自動測評中利用了BLEU算法多元精度中最為基礎的一元組和二元組算法，而忽略了長度懲罰因子等方面因素，一定程度上可能造成測評結果的誤差。再次，人工測評參與者的數量也可能影響測評結果。

因此，之后的研究者在對此進行進一步深入研究時，應盡量克服以上限制條件對測評的干擾，以確保測評結果更加客觀精確。

參考文獻

［1］文旭，田亞靈.ChatGPT應用于中國特色話語翻譯的有效性研究［J］.上海翻譯，2024（2）：27-34，94-95.

［2］薛健.ChatGPT對人工智能輔助翻譯的影響［J］.英語廣場，2024（6）：27-30.

［3］顧文昊，冷冰冰.ChatGPT在科技翻譯應用中的四種術語誤譯類型——以機械工程術語為例［J］.中國科技翻譯，2024（1）：24-27.

［4］閻姍.多種翻譯工具在科技英語翻譯中的運用［D］.上海：上海外國語大學，2012.

［5］莊小萍.論機器翻譯與人工翻譯的結合［J］.宜賓學院學報，2007（8）：97-99.

文教資料2025年1期

文教資料的其它文章: 新質生產力賦能基礎教育公平的內在邏輯與實踐路徑; 人工智能時代檔案管理面臨的挑戰與應對策略研究; 高校檔案管理中的隱私保護與數據安全研究; 論生成式人工智能賦能高校外語教學：機遇、挑戰與應對; 基于積極心理學視角的大學生心理挫折教育的研究; 基于焦點解決模式的高校心理育人體系構建