張書琛
8月5日,ACL 2021正式頒發“最佳論文”獎項,字節跳動AI Lab的機器翻譯技術論文在3350篇論文投稿中脫穎而出,當選今年度“最佳論文”。ACL大會由國際計算語言學協會主辦,被視為自然語言處理與計算語言學領域最高級別的學術會議。多年來,自然語言處理被譽為“人工智能皇冠上的明珠”,在機器翻譯、搜索、信息流、輸入法等領域都有著廣泛的應用。
自1949年信息論先驅Warren Weaver發表翻譯備忘錄、提出機器翻譯的可能性以來,機器翻譯已經過了幾十年的發展迭代,如今進入了一個可以運用“神經網絡”和加入了“深度學習技術”的AI翻譯時代。
不可否認的是,全球化的商業巨頭已經走在了最前端。
字節跳動作為互聯網新貴,機器翻譯是其AI能力發展程度的重要體現之一。該公司業務覆蓋150個國家和地區,員工也遍布全球各地。在其11萬名員工跨越語言障礙、順暢交流協作的背后,字節跳動AI Lab火山翻譯團隊多年打磨的機器翻譯模型的支持必不可少。
基于文本翻譯、語音翻譯、圖像翻譯、語種識別等技術能力,火山翻譯推出了一系列形態多樣的產品與服務,包括機器翻譯云服務、智能視頻翻譯、智能同傳等。此外,火山翻譯還支持垂直領域的快速模型定制,能夠滿足不同群體和不同行業的翻譯需求。
據火山翻譯負責人王明軒介紹,內部很多大熱的軟件中都可以看到火山翻譯的身影。無論是在泛娛樂端還是工具端的應用,火山翻譯多語言互譯的速度和準確度都經受住了考驗。
如今,火山翻譯已經上線了56門語種之間的互譯,支持的語向翻譯多達3080個。據透露,今年內火山翻譯上線語種將超過150個。值得一提的是,火山翻譯不需要英語等通用語作為中間語,可以支持任意兩個語種之間的互譯,大大提高了翻譯速度。
火山翻譯的前沿技術也獲得了學術界認可。今年共有9篇論文被ACL 2021接收,就是由AI Lab的NLP基礎研究團隊和火山翻譯團隊合作實現的。由字節跳動AI Lab提出的一種新的詞表學習方案VOLT,更是獲得了年度唯一的“最佳論文”獎項。這是ACL59年歷史上,華人科學家團隊第二次贏得最高榮譽。
王明軒透露,火山翻譯現在每天都要處理數億次翻譯請求,可以說每一個上線語種都經過了實際用戶的檢驗,“因此,穩定和高質量的翻譯服務是我們必須提供的保障”。

今年內火山翻譯上線語種將超過150個

火山翻譯多語言預訓練新范式源于人類語言學習規律
持續不斷地為用戶提供高水平翻譯服務靠的不是運氣,而是火山翻譯背后強大的技術支撐和工程能力,以及字節跳動開放體系的聯動支持。
火山翻譯之所以能在近年快速落地,實現商業價值,離不開其濃厚的技術基底。
微軟技術學院院士黃學東曾表示,一家公司構建的翻譯系統效果如何,主要取決于兩點:一是數據是否夠全、夠多;二是算法是否足夠好。
海量數據是AI自我迭代不可或缺的基礎,由于背靠字節全球化布局,火山翻譯可以獲得更好的AI訓練結果,并從AI賦能中率先獲益。
同時,得益于字節跳動多年機器學習和自然語言處理領域的深耕,其AI團隊擁有百余項技術發明專利,在機器翻譯技術上更是獨創了multilingual Random Aligned Substitution Pre-training (mRASP)多語言預訓練算法,把幾十種語言語料融合在一起訓練,獲得的模型在具體語對上微調取得了44個語對的業界最佳性能。
據悉,目前研究界主流的多語言翻譯模型主要在英語相關的語對上進行訓練。這樣的系統通常在英語相關的語向(有監督語向)上表現不錯,而在非英語方向(零資源方向)的翻譯效果不佳。針對這個問題,火山翻譯團隊近期提出了更簡潔優雅的大規模多語言預訓練新范式mRASP2,通過引入對比學習,輔以對齊增強方法,將單語語料和雙語語料囊括在統一的訓練框架之下,旨在充分利用語料,學習更好的語言表示,并由此提升多語言翻譯性能。
這一多語言預訓練新范式運用在機器翻譯時,就像是一個精通兩三門語言的人類學者,在學習另一門語言時,速度就會更快?!叭祟愒诙嗾Z言學習過程中會自發去總結語言學習中比較抽象的共性,再去學習新語言的特性。因此想要提升個人語言學習能力,往往需要學習更多的語言?!被鹕椒g就將這一規律植入神經網絡翻譯中,創造出了一個統一的具備多種語言能力的模型,在遇到新的語言時,臨時少量學習即可達到很流利的語言水平。

Transformer模型結構圖(以機器翻譯為例)
這意味著,無論是語料庫豐富的通用語言,還是訓練數據稀缺的小語種,機器都可以通過這一新范式,把翻譯能力遷移到不同語言上,使不同語言之間的信息互相利用,完成學習迭代。
隨著語種數量增加,翻譯任務增多,對機器自然語言處理任務的能力水平也提出了新的要求。
早在2019年12月,火山翻譯團隊曾經開源過一款Transformer類模型推理加速引擎LightSeq。作為業界第一款支持多種模型和解碼方法的推理加速引擎,LightSeq的推理速度快于其他同類軟件,更是遠遠超過了TensorFlow和PyTorch。