“谷歌翻譯”一直在堅持創新,從“PC網頁版”到“工具欄插件”,再到如今的“移動客戶端”,形式逐漸增多,虛擬鍵盤、可選擇翻譯、朗讀等功能也相繼推出。這正如谷歌翻譯研發經理陳雍所說,“谷歌希望支持用戶多樣化的輸入和輸出,以便更加輕松地跨越語言的障礙。”
近日,陳雍在位于北京清華科技園的谷歌北京辦公室接受了《計算機世界》報記者的獨家專訪,為我們揭開了谷歌翻譯所用技術的神秘面紗。
懂得更多
全憑“云”統計
2004年,谷歌創始人之一塞吉#8226;布林(Sergey Brin)使用市面上的網絡翻譯服務來翻譯韓國粉絲的郵件,結果顯示:“生魚片帶著它的愿望,用谷歌搜索綠洋蔥!愿意?”。這一與原意風馬牛不相及的翻譯結果,使塞吉下定決心要讓谷歌做出“靠譜”的翻譯產品。
如今,谷歌翻譯早已是很多人出國旅行和外文寫作的必備工具,而谷歌也成為世界上最大的在線翻譯服務提供商,實現了塞吉跨語言搜索信息、并可將搜索結果和網頁等資訊以母語傳遞給用戶的愿望。目前,在全世界,使用人數超過1000萬的語言約有100種,而谷歌翻譯已經實現了對其中58種語言的支持。陳雍坦言:“雖然機器翻譯并不完美,但它可以讓用戶接觸到之前無法觸及的世界各地的信息。”
值得注意的是,谷歌翻譯是個自動翻譯機,也就是說,它借助的是技術而非人力。對這一點,陳雍解釋說,“當下大部分的商業翻譯系統用的都是規則法機器翻譯,需要做大量詞匯與語法的處理,谷歌的方法與它們不同。”據介紹,谷歌翻譯是先往計算機內輸入大量的文字文本,這些文本數據包括目標語言以及對應的翻譯文本中現有的人工翻譯數據,然后構建統計翻譯模型。
為了形成翻譯模型,每年,谷歌都會從一些政府部門、學術機構搜集翻譯信息,完善自己的“平行語料”庫。為了保證翻譯質量,除了嚴格限制“平行語料”的來源,谷歌還采用了國際認定標準Bleu Score來分析、調試。
陳雍指出,谷歌翻譯之所以能采用統計翻譯模型,關鍵在于谷歌的技術基于云計算架構。統計模式機器翻譯需要海量的數據存儲空間以及高效的運算能力,而谷歌擁有谷歌MapReduce(分布式計算系統) 和BigTable(分布式存儲系統),正好滿足了這兩方面需求。
從表面上看,“支持更多語言種類”和“在線使用”是谷歌翻譯與其他流行翻譯產品如金山詞霸、有道詞典等的功能區別,但背后最大的不同卻是,谷歌翻譯是基于云計算支撐下的統計翻譯模型。
整合信息
人人皆受益
“整合全球信息,使人人皆可訪問并從中受益,這是谷歌始終秉持的信條,也是其產品戰略。”陳雍表示,谷歌翻譯雖然并不是谷歌最大的研發部門,但其與研究Android、Chrome,甚至YouTube的部門一樣,都是為谷歌實現整合全球信息的目標服務的。
谷歌希望將分散在全球各地的所有可以數字化的不同語種、不同格式的信息,進行分析處理,而后以最簡便的方式提供給用戶使用。“這也可以解釋為什么每次技術論壇上,谷歌都會在‘翻譯’這款產品上‘大費唇舌’,因為,它代表了一種理想化的溝通形態,即全球信息的無障礙流通。”陳雍堅信這一理想。
有數據顯示,世界上超過99%的人每天的溝通都要靠母語,但在互聯網上,英文信息占了80%,在剩下的20%中,法語占其中的大約5%,中文等其他語言信息各自所占百分比微不足道。由此,也就不難理解為什么谷歌如此重視一款小小的語言工具。
谷歌除了用翻譯工具對不同類型、不同語種的信息進行橫向整合,還強調對自己的產品體系進行縱向整合。早在2010年,谷歌已經在Chrome瀏覽器中整合了谷歌翻譯。當Chrome用戶訪問與電腦系統默認語言(或是瀏覽器語言)不同的其他語種網站時,Chrome瀏覽器就會彈出谷歌翻譯工具欄,只要單擊“翻譯”按鈕,谷歌翻譯將把整個網站翻譯為系統默認語言。當然,用戶也可以讓谷歌翻譯把整個網站翻譯為其他語言。
此外,谷歌翻譯還可以幫助用戶閱讀搜索結果、網頁、電子郵件、YouTube視頻字幕以及其他信息,用戶甚至還能在Gmail內進行實時的多語言對話。
事實上,剛剛在蘋果AppStore上線的“谷歌翻譯工具軟件”并不是第一個谷歌翻譯“移動客戶端”。早在一年前,谷歌就已經在Android平臺上推出了谷歌翻譯工具。今年,谷歌又推出了聊天模式的Android 版谷歌翻譯軟件(Conversation Mode,目前只支持英語和西班牙語之間的互譯),其主要功能是讓使用者通過 Android 手機來實現實時翻譯,為語言不通的人建立溝通橋梁。
名詞解釋
平行語料
所謂“平行語料”就是兩種語言的對應詞組或者句子。比如,“long”的平行語料是“長”、“time”的平行語料是“時間”,但詞組“long time”的平行語料卻不能只是兩個單詞的拼接,而是“很久”,而句子“I have been here for a long time.”的平行語料則是“我已經在這里很長一段時間。”