








1954年1月7日,美國IBM公司與喬治敦大學合作,成功地進行了世界上第一次機器翻譯試驗。今年是2014年,是第一次機器翻譯試驗60周年。第一次機器翻譯試驗是計算語言學發展史上的大事,也是當代語言學發展史上的大事。在本文中,我們回顧一下第一次機器翻譯試驗的前前后后,作為對于機器翻譯60年的紀念。
用機器來進行翻譯的想法,早在古希臘時代就有人提出過了。當時,人們曾經試圖設計出一種理想化的語言來代替種類繁多、形式各異的自然語言,以利于不同民族的人進行思想交流。曾提出過不少方案,其中一些方案已經考慮到了如何用機械手段來分析語言的問題。
17世紀,一些有識之士提出了采用機器詞典來克服語言障礙的想法。
笛卡兒(Descartes)和萊布尼茲(Leibniz)都試圖在統一的數字代碼的基礎上編寫詞典。
17世紀中葉,貝克(Cave Beck)、基爾施(Athanasius Kircher)和貝希爾(Johann Joachim Becher)等人都出版過這類詞典。由此開展了關于“普遍語言”的運動,一些人試圖在邏輯原則和圖形符號的基礎上,創造出一種無歧義的語言,這樣一來,人們就不會再由于誤解而產生交際方面的困難了。
維爾金斯(John Wilkins)(1668)在《關于真實符號和哲學語言的論文》(An Essay towards a Real Character and Philosophical Language)中提出的“中介語”(Interlingua)是這方面最著名的成果,這種中介語的設計試圖將世界上所有的概念和實體都加以分類和編碼,有規則地列出并描述所有的概念和實體,并根據它們各自的特點和性質,給予不同的記號和名稱。
1903年,古圖拉特(Couturat)和洛(Leau)在《通用語言的歷史》一書中指出,德國學者里格(W.Rieger)曾經提出過一種“數字語法”(Zifferngrammatik),這種語法加上詞典的輔助,可以利用機械將一種語言翻譯成其他多種語言,首次使用了“機器翻譯”(德文是“ein mechanisches Uebersetzen”)這個術語。
20世紀30年代初,亞美尼亞裔的法國工程師阿爾楚尼(G.B. Artsouni)提出了用機器來進行語言翻譯的想法,并在1933年7月22日獲得了一項“翻譯機”的專利,叫作“機械腦”(mechanical brain)。這種機械腦的存儲裝置可以容納數千個字元,通過鍵盤后面的寬紙帶,進行資料的檢索。阿爾楚尼認為它可以用來記錄火車時刻表和銀行的帳戶,尤其適合作機器詞典。在寬紙帶上面,每一行記錄了源語言的一個詞項以及這個詞項在多種目標語言中的對應詞項。在另外一條紙帶上對應的每個詞項處,記錄著相應的代碼,這些代碼以打孔來表示。要查詢的詞項也利用鍵盤打孔來表示,檢索一個詞項的時間大約是10到15秒。阿爾楚尼的原型機于1937年正式展出,引起了法國郵政、電信部門的興趣。但是,由于不久爆發了第二次世界大戰,阿爾楚尼的機械腦無法投入使用。
1933年,蘇聯發明家特洛揚斯基(П.П.ТРОЯНСКИЙ)設計了用機械方法把一種語言翻譯為另一種語言的機器,并在同年9月5日登記了他的發明。特洛揚斯基認為翻譯可以分為三個階段,第一階段由只懂源語言的編輯,將輸入的原文分析成特定的邏輯形式,將帶有屈折詞尾的變形詞還原成原形詞,并分析出各個單詞的句法功能。為此,他創造了一套邏輯分析符號。第二階段是利用他的翻譯機,把源語言的原形詞和邏輯符號轉換成目標語言的原形詞和符號。第三階段由只懂目標語言的編輯,把目標語言的原形詞和符號轉換成目標語言。特洛揚斯基認為,他的翻譯機只能在第二階段作為自動詞典來使用。不過他相信,只要能夠建造出一部專門處理邏輯分析過程的機器,總有一天,上述的整個翻譯程序都能夠用機器來實現。特洛揚斯基的這種認識,已經超越了“機器詞典”的簡單想法,比阿爾楚尼又邁進了一步。1939年,特洛揚斯基在他的翻譯機上增加了一個用“光元素”操作的存儲裝置;1941年5月,這部實驗性的翻譯機已經可以運作;1948年,他計劃在此基礎上研制一部“電子機械機”(electro-mechanical machine)。但是,由于當時蘇聯的科學家和語言學家對此反應十分冷淡,特洛揚斯基的翻譯機沒有得到支持,最后以失敗告終。
1946年,美國賓夕法尼亞大學的埃克特(J.P. Eckert)和莫希萊(J.W.Mauchly)設計并制造出了世界上第一臺電子計算機“ENIAC”。電子計算機驚人的運算速度,啟示著人們考慮翻譯技術的革新問題。因此,在電子計算機問世的同一年,英國工程師布斯(A.D. Booth)和美國洛克菲勒基金會副總裁韋弗(W. Weaver)在討論電子計算機的應用范圍時,就提出了利用計算機進行語言自動翻譯的想法。
1947年3月6日,布斯與韋弗在紐約的洛克菲勒中心會面,韋弗提出,“如果將計算機用在非數值計算方面,是比較有希望的”。
在韋弗與布斯會面之前,韋弗于在1947年3月4日給控制論學者維納(N. Wiener)寫信,討論了機器翻譯的問題,韋弗說:“我懷疑是否真的建造不出一部能夠作翻譯的計算機?即使只能翻譯科學性的文章(在語義上問題較少),或是翻譯出來的結果不怎么優雅(但能夠理解),對我而言都值得一試。”可是,維納給韋弗潑了一瓢冷水,他在4月30日給韋弗的回信中寫道:“老實說,恐怕每一種語言的詞匯,范圍都相當模糊;而其中表示的感情和言外之意,要以類似機器翻譯的方法來處理,恐怕不是很樂觀的。”
不過,韋弗仍然堅持自己的意見。1949年,韋弗發表了一份以《翻譯》為題的備忘錄,正式提出了機器翻譯問題。在這份備忘錄中,他除了提出各種語言都有許多共同特征這一論點之外,還有兩點值得我們注意:
第一,他認為翻譯類似于解讀密碼的過程。他說:“當我閱讀一篇用漢語寫的文章的時候,我可以說,這篇文章實際上是用英語寫的,只不過它是用另外一種奇怪的符號編了碼而已,當我在閱讀時,我是在進行解碼。”他的這段話非常重要,廣為流傳,我們把英文原文寫在下面:
I have a text in front of me which is written in Chinese but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text.
這段話中,韋弗首先提出了用解讀密碼的方法進行機器翻譯的想法,這種想法成為后來噪聲信道理論的濫觴。
備忘錄中還記載了一個有趣的故事,布朗大學數學系的吉爾曼(R. E. Gilmam)曾經解讀了一篇長約一百個詞的土耳其文密碼,而他既不懂土耳其文,也不知道這篇密碼是用土耳其文寫的。韋弗認為,吉爾曼的成功足以證明解讀密碼的技巧和能力不受語言的影響,因而可以用解讀密碼的辦法來進行機器翻譯。
第二,他認為原文與譯文“說的是同樣的事情”,因此,把語言A翻譯為語言B,就意味著從語言A出發,經過某一“通用語言”(Universal Language)或“中間語言”(Interlingua),然后轉換為語言B,這種“通用語言”或“中間語言”,可以假定是全人類共同的。
可以看出,韋弗把機器翻譯僅僅看成一種機械地解讀密碼的過程,他遠遠沒有看到機器翻譯在詞法分析、句法分析以及語義分析等方面的復雜性。
早期機器翻譯系統的研制受到韋弗的上述思想的很大影響,許多機器翻譯研究者都把機器翻譯的過程與解讀密碼的過程相類比,試圖通過查詢詞典的方法來實現詞對詞的機器翻譯,因而譯文的可讀性很差,難于付諸實用。
由于學者的熱心倡導,實業界的大力支持,美國的機器翻譯研究一時興盛起來。1954年,美國喬治敦大學在國際商用機器公司(IBM公司)的協助下,用IBM-701計算機,進行了世界上第一次機器翻譯試驗,把幾個簡單的俄語句子翻譯成英語;接著,蘇聯、英國、日本也進行了機器翻譯試驗,機器翻譯出現熱潮。
這里,我們向讀者展示第一次機器翻譯試驗的一些珍貴的圖片。這是當代語言學發展史上重要事件的回憶,是歷史的記錄,是科學的檔案,值得我們永久珍藏。
圖1:第一次機器翻譯試驗的設計者Hurd,Dostert和Watso
圖2:提出了機器翻譯中的“支點分析法”(fulcrum analysis)的語言學家Garvin
圖3:第一次機器翻譯使用的計算機IBM-701
圖4:第一次機器翻譯在鍵盤上使用穿孔卡片輸入
圖5:穿孔卡片上的數據樣本(72行卡片,1分鐘可轉寫為150個二進制代碼)
圖6:第一次機器翻譯使用光電管讀入數據
圖7:第一次機器翻譯的程序流程圖
圖8:第一次機器翻譯試驗所用的詞典
圖9:第一次機器翻譯在寬行打印機上輸出英文
在1954年1月7日向公眾表演的時候,他們把俄語句子用英文字母進行轉寫,使用穿孔卡片輸入數據,這樣,就可以便于不懂俄語的操作員進行操作了。
我們把第二天(1954年1月8日)《紐約時報》(New York Times),標題為《翻譯者701》(701 translator)報道的英文原文抄錄如下:
In the demonstration,a girl operator typed out on a keyboard the following Russian text in English characters:“Mi pyeryedayem mislyi posryedstvom ryechi”(Мы передаем мысли посреством речи).The machine printed a translation almost simultaneously:“We transmit thoughts by means of speech.”The operator did not know Russian. Again she types out the meaningless(to her)Russian words:“Vyelyichyina ugla opryedyelyayatsya otnoshyenyiyem dlyini dugi k radyiusu.”(величина угла определяется отношением длины дугы к радиусу)And the machine translated it as:“Magnitude of angle is determined by the relation of length of arc to radius.”
這段英文的漢語譯文如下:
在演示時,一個女操作員在鍵盤上使用穿孔卡片輸入轉寫成英文字母的俄語句子“Mi pyeryedayem mislyi posryedstvom ryechi”,盡管她對于俄語一無所知,可是計算機很快就輸出了英語譯文:“We transmit thoughts by means of speech.”接著,她又在鍵盤上使用穿孔卡片輸入她完全不懂的另一個俄語句子:“Vyelyichyina ugla opryedyelyayatsya otnoshyenyiyem dlyini dugi k radyiusu.”(величина угла определяется отношением длины дугы к радиусу),計算機幾乎同時輸出了相應的英語譯文“Magnitude of angle is determined by the relation of length of arc to radius.”
第一次機器翻譯取得了很大的成功。但是,很快就受到了保守分子的攻擊。
1962年8月號的《哈潑雜志》(Harper’s Magazine)發表了古溫豪芬(John A. Kouwenhoven)的題為《翻譯的困擾》(The trouble with translation)的文章,文章中編造了如下故事:
有幾個電子工程師設計了一部自動翻譯機,這部機器的詞典包含1500個基礎英語詞匯和相對應的俄語詞匯。他們宣稱這部機器可以馬上進行翻譯,而且不會犯人工翻譯的錯誤。第一次試驗時,觀眾要求翻譯“Out of sight, out of mind”(眼不見,心不煩)這個句子,燈光一陣閃動之后,翻譯出來的俄語句子的意思竟然是“看不見的瘋子”(Invisible idiot)。他們覺得這樣的諺語式的句子比較難以翻譯,于是又給機器翻譯系統翻譯另一個出自《圣經》的句子“The spirit is willing, but the flesh is weak”(心有余而力不足),機器翻譯出來的俄語句子的意思卻是“酒保存得很好,但肉已經腐爛”(The liquor is holding out all right, but the meat has spoiled)。
這樣的故事顯然是憑空捏造的。我們知道,當時美國只研究過把俄語翻譯成英語的機器翻譯系統,根本沒有研究過把英語翻譯為俄語的機器翻譯系統。這說明文章作者對于美國機器翻譯的歷史一無所知。盡管這是無中生有編造出來的虛假故事,但是,從中我們可以感覺到當時美國的許多人對機器翻譯強烈的不滿情緒。
早在機器翻譯剛剛問世的時候,美國著名數理邏輯學家Bar-Hillel在1959年就指出,全自動高質量的機器翻譯(Fully Automatic,High Quality,MT,簡稱“FAHQMT”)是不可能的。
Bar-Hillel說明,“FAHQMT”不僅在當時的技術水平下是不可能的,而且在理論原則上也是不可能的。
他舉出了如下簡單的英語片段,說明要在上下文中發現多義詞“pen”的正確譯文是非常困難的事情:
John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy.
他的理由如下:
1.“pen”在這里只能翻譯為“play-pen”(“游戲的圍欄”),而絕對不能翻譯為書寫工具“鋼筆”。
2.要確定“pen”的這個正確的譯文是翻譯好這段短文的關鍵所在。
3.而要確定這樣的正確譯文依賴于計算機對于周圍世界的一般知識。
4.但是我們沒有辦法把這樣的知識加到計算機中去。
在機器翻譯的早期,Bar-Hillel就科學地預見到了機器翻譯將會遇到的困難,顯示了他的遠見卓識。
1964年,美國科學院成立語言自動處理咨詢委員會(Automatic Language Processing Advisory Committee,簡稱“ALPAC”),調查機器翻譯的研究情況,并于1966年11月公布了一個題為《語言與機器》的報告,簡稱“ALPAC”報告,對機器翻譯采取否定的態度,報告宣稱:“在目前給機器翻譯以大力支持還沒有多少理由”;報告還指出,機器翻譯研究遇到了難以克服的“語義障礙”(semantic barrier)。
在“ALPAC”報告的影響下,許多國家的機器翻譯研究陷入低潮,許多已經建立起來的機器翻譯研究單位遇到了行政上和經費上的困難,在世界范圍內,機器翻譯的熱潮突然消失了,出現了空前蕭條的局面。
從第一次機器翻譯實驗的前前后后可以看出,人類為了克服語言障礙進行了艱苦的探索。至今這個問題仍然沒有得到很好的解決。
參考文獻:
[1]馮志偉.機器翻譯研究[M].北京:中國對外翻譯出版公司,
2004.
[2]馮志偉.應用語言學新論——語言應用研究的三大支柱[M].北
京:當代世界出版社,2003.
(馮志偉 馮紹鋒 浙江杭州 杭州師范大學外國語學院 311121)