我與語言學割舍不斷的緣分

2011-12-06 01:05:56馮志偉

當代外語研究 2011年1期

馮志偉

(教育部語言文字應用研究所)

我是一名普通的語言學研究者,《當代外語研究》執行主編楊楓老師邀我寫一篇文章介紹自己的治學經驗,我很愿意與廣大讀者交流自己學習和研究語言學的心得,因此就欣然同意了。在這里,我想講一講自己棄理學文、棄文從理,最后又棄理從文的曲折過程,談一談50多年來自己與語言學之間割舍不斷的緣分。

1. 棄理學文

我于1939年4月15日出生于云南昆明。1946年考入昆明市長春路東升小學,1951年以昆明市會考第一名的高分考入昆明一中。昆明一中是云南省著名的重點學校,曾培育了眾多的英才。獲諾貝爾獎的著名物理學家楊振寧、著名哲學家艾思奇、著名出版家黃洛峰等等,多年前都曾是該校學生。入學后,我下決心追趕這些曾經給昆明一中帶來聲譽的前輩老校友,努力學習。從初一到高三,我每年的總平均分都名列全校第一。

1957年高中畢業時,我以云南省理科第一名的成績考入北京大學地球化學專業,一心想研究化學元素在地球上的分布規律。當時我的興趣主要是在稀有元素上,它們在元素周期表上排在較后,卻是國家很需要的自然資源。我非常熱愛地球化學專業,當時也沒有任何想從事其他學科的想法,這個學科確實也很有意思。地球化學在上世紀50年代屬于國家重點發展的尖端學科之一,在地球科學里,它也是屬于最先進的學科。我入學后曾對五光十色的礦物發生了濃厚的興趣,研究這些礦物的晶體結構,如醉如癡地觀察著不同結晶形狀的各種礦物,六方晶系的金剛石、方斜晶系的石墨……,這些立體結構不同的礦物有著差異很大的物理和化學性質。我被大自然的奧秘深深吸引住了。

圖1 馮志偉研究員在查閱資料

就在我認真學習地球化學之時,國外興起了數理語言學(mathematical linguistics),建立起了完善的理論和方法,并在一些大學開設了數理語言學課程,從而使數理語言學作為一個獨立的學科出現在現代語言學的百花園中,日益芬芳燦爛。1956年,我國開始注意到國外數理語言學的興起和發展,并在我國科學研究的發展規劃中確立了名稱叫做“機器翻譯,自然語言翻譯規則的建立和自然語言的數學理論”的課題。該課題包括兩部分:機器翻譯和自然語言的數學理論,統稱即“數理語言學”。

一個偶然的機會使我了解到數理語言學這一新興學科。1957年冬天,我在北京大學圖書館館藏的1956年出版的美國《信息論》(IRE Transaction,Information Theory)雜志上,無意中讀到了美國語言學家喬姆斯基(N. Chomsky)的論文《語言描寫的三個模型》(Three Models for the Description of Language),并很快被喬姆斯基在語言研究中的新思想深深吸引。喬姆斯基追求語言描寫的簡單性原則,為了用有限的手段描述變化無窮的自然語言,他在文章中建立了形式語言和形式文法的新概念;他把自然語言和計算機程序設計語言置于相同的平面上,用統一數學方法進行解釋和定義,提出了語言描寫的三個模型。這三個抽象的模型既可用于描寫自然語言,又可描寫計算機程序設計語言,達到了“有限手段的無限運用”的目標。

我預感到這種語言的數學描寫方法將會把自然語言和程序設計語言緊密結合起來,在信息的處理和研究中發揮出巨大的威力。喬姆斯基當時不到30歲,還只是一個名不見經傳的青年學者。然而,我卻已被他和他閃耀著智慧光芒的文章征服了。

經過反復考慮,我下決心致力于研究數學方法在語言中的應用這個問題,并經學校同意,棄理學文,我開始從理科轉到中文系語言學專業從事語言學的學習。

2. 胡耀邦鼓勵我學習數理語言學

轉入語言學專業之后,情況并不像我原來預想的那樣順利。當時的中文系語言學專業開設的多為傳統語言學課程,如“漢語史”、“文字學”、“音韻學”、“訓詁學”等,還未開設任何與數理語言學有關的課程,而我的志向是用數學方法研究語言,與學校的課程安排有很大的出入。我一面要學習這些傳統課程,一面利用課余時間,繼續研究我感興趣的數理語言學問題。因同時需要在兩條戰線上作戰,我常常感到時間不夠用,于是終日埋頭讀書,不怎么關心政治。我努力學習學校規定的這些課程,成績名列前茅,而且還學會了4門外語。但是,同學們對我這個理科轉來的學生仍不理解,有的發現我能夠解一些非常繁難的數學問題,感到十分奇怪。他們覺得,數學這樣好的人居然改行來中文系學語言學,簡直是南轅北轍！我在班上顯得很孤立。

1961年秋天,團中央機關建立了這樣一個制度:團中央書記處的每位書記至少直接聯系一個團支部,作為了解情況和結交青年朋友的一個渠道。北京市團市委為團中央第一書記胡耀邦選定北京大學59級語言專業團支部作為聯系點。胡耀邦首先找班的團支部書記和宣傳委員了解情況,問他們“你們同學中有學習特別專心的嗎？”他們回答說,“我們班有個叫馮志偉的學習特別好,他已經學了英語、俄語、德語和日語,而且達到相當水平,但是好像不怎么關心政治”。胡耀邦表示,“我希望找馮志偉同學親自談一談”。

團中央第一書記邀請的消息傳給了我,我感到非常激動。11月11日,北大團委安排我和其他4名同學一起到住在富強胡同的胡耀邦家做客。晚飯后我們乘公共汽車進城,當時北京的公交車數量嚴重不足,乘車的人很多,我們沒有擠上從頤和園路過北大開往西直門的32路汽車,急中生智,干脆從北大乘車到起點站頤和園,再從頤和園乘車直奔北京市內,我們趕到富強胡同時已是晚上9點多鐘了。胡耀邦一直在等我們,他也等得有些著急了。

我們在會客室坐下,胡耀邦給我們每個同學遞上了一個蘋果,依次詢問我們的姓名、籍貫。當胡耀邦問到我的時候,他說,“你就是那個學了4種外國語的同學馮志偉嗎？你學習那么努力,挨批了沒有？”我回答說,“其實我學習只是出于對語言學的興趣,只是想多學點東西而已?！碑敃r的社會風氣不主張學生學外語,認為那是“崇洋媚外”,胡耀邦洞察秋毫,一見面就關切地問我挨批了沒有。我坦率地向胡耀邦匯報了自己的想法,講述了自己學習數理語言學的動機和過程。我也談到當時學校的政治氣氛特別濃,不太主張學生讀書,我在別人眼里顯得有些古怪。有的同學認為我是在走“只專不紅”的道路,對我頗有微辭；有的還說我是“孔子學生繼承牛頓事業”,認為我的學習方向怪異。盡管我并未受到批判,但思想壓力很大,心里很不痛快。

胡耀邦帶著關注的神色耐心聽了我的介紹之后,正色對我說,“事實將證明你的道路是正確的！”他的話斬釘截鐵,擲地有聲。他嚴肅地對我們大家說,“外語學習是很重要的,我們需要對外交流,語言是很好的交流工具呀,懂了外語可以擴大眼界?！蔽覀儗Ｐ牡伛雎犞?默默思考著,會客室的氣氛顯得特別肅穆。

接著胡耀邦換了語氣,開始和大家輕松地聊天。他告訴大家,“學生的主要任務是學習知識。我在高中的孩子寫了篇作文,老師出題目說什么是學生的主要任務？我的孩子寫道:學生的主要任務是提高政治水平?！彼χ鴮ξ覀冋f,“現在不少人對學生的主要任務的認識不很清楚,其實,道理很簡單:學生的主要任務是學習?！闭勗捊Y束時已經很晚了。我們告別了胡耀邦,一路談論著他的教導,總算趕上末班車順利回到了學校。從這次談話后,我學習數理語言學就更理直氣壯了。

1964年,我考上了北京大學理論語言學專業的研究生,我的畢業論文題目就是《數學方法在語言研究中的應用》,在我國語言學研究中,首次系統、全面地來研究數理語言學這個新興學科。這樣,我國的數理語言學研究便首先在北京大學正式開展起來?，F在媒體報道,北京大學的計算語言學研究是從1985年開始的,恐怕與事實不符,我覺得似乎應當是從1964年開始的。

北京大學中文系的著名語言學家王力先生和朱德熙先生都支持我的研究。王力先生曾對我說,“語言學不是很簡單的學問,我們應該像趙元任先生那樣,首先做一個數學家、物理學家、文學家、音樂家,然后再做一個合格的語言學家。”朱德熙先生曾對我說,“數學和語言學的研究都需要有邏輯抽象的能力,在這一方面,數學和語言學有共同性。”北京大學的這些一流學者總是站在科學的最前沿來看待學術的發展,他們的鼓勵給了我巨大的力量。

但是這時候發生了一件事,就是1966年5月,第一張“馬列主義”的大字報貼到了北大飯廳的門口。我記得很清楚,那一天是5月25日,因為那天我要去買一本法文詞典,當時的《法漢詞典》編得很不好,很簡單,單詞太少了。我學過日文,可以閱讀日文文獻,我的導師岑麒祥教授說,“你去買本《仏和詞典》①吧！”于是,我就到五道口的外文書店買了一本。中午時分,我剛在書店旁的小飯館吃完中飯回到北京大學,看到學校的大飯廳前人頭攢動。我伸頭一看,大飯廳前面的墻上貼著大字報呢。上面寫著:“陸平、彭佩云你們要走往何方？”言詞很激烈,陸平是當時北大的校長,彭佩云時任北大黨委書記,她現在是全國婦聯的領導,他們倆當時被認為是北京市委的黑線人物,當時北京市長彭真已被揪出來了。我一看到大字報,就知道我正在準備答辯的畢業論文泡湯了,一場很大的革命就要來臨了。

果然,過了幾天《人民日報》就發表了社論稱“這是一張馬列主義的大字報”,一下把火點起來了。北大進入“文化大革命”的混亂狀態,王力先生和朱德熙先生等等都被打成反動學術權威,我的數理語言學研究也隨之失去了支持,這個新興學科的研究被這場“革命”扼殺在襁褓之中。我的數理語言學之夢破滅了。我棄理學文,意在用數學方法研究語言,現在,我既不能學理,也不能學文,成為了所謂的“三品學生”②。我離開了北大,到云南邊疆的一所中學當一名物理教員,又只好棄文從理了！

3. 手工查頻估測漢字熵值

在云南的這段時間里,我除了認認真真教好學生,努力搞好本職工作外,仍然利用一切業余時間,密切關注著國外學術發展的動向。

數理語言學仍然像磁石一樣強烈吸引著我。在云南邊疆那樣閉塞的環境中,我設法利用業余時間,潛心研究數理語言學;在信息不足、資料缺乏的困難條件下,閱讀了我所能搜集到的各種相關資料。當時我已掌握了英、法、德、俄、日等5種外國語,閱讀了散見于各種外文書刊的數理語言學文獻,緊跟著世界上數理語言學發展的步伐。就在“讀書無用論”甚囂塵上之時,我總結了當時國外數理語言學的成果,于1975年,以昆明五中教師的名義寫成了“數理語言學簡介”的長篇文章,在重慶的一家自然科學雜志《計算機應用與應用數學》上發表,向國內計算機界和數學界詳細介紹了數理語言學的最新情況,這一篇文章猶如空谷足音,使當時被文化大革命封閉了世界學術進展的中國學術界了解到國外信息時代已經到來的最新動態。我在文章中興奮地告訴廣大讀者,“信息時代的到來,使得語言學、數學和計算機科學結下了不解之緣,語言研究和計算機技術已經到了非結合不可的地步了！”

在云南期間,我還有機會閱讀了一些物理學的經典著作,如伽利略的《關于兩個世界體系的對話》和牛頓的《自然哲學之數學原理》等。這些經典著作給了我很多啟示。伽利略認為,人們正在構建的理論體系是確實的真理,由于存在過多的因素和各種各樣的事物,現象序列往往是對真理的某種歪曲。因此,在科學研究中,最有意義的不是去考慮現象,而應當去尋求那些看起來確實能夠給予人們深刻見解的原則。伽利略告誡人們,如果事實駁斥理論的話,那么,事實可能是錯誤的。伽利略忽視或無視那些有悖于理論的事實。他舉例說,人們看到每天太陽從東方升起、從西方落下,都誤以為太陽是圍繞地球旋轉的,而實際上卻是地球圍繞太陽旋轉。因此,現象序列往往是對真理的某種歪曲,科學研究應當揭示那些隱藏在現象序列后面的真理,千萬不要被表面的現象所迷惑。

牛頓認為,在他那個時代的科學水平下,世界本身還是不可理解的,科學研究所要做的最好的事情就是努力構建可以被理解的理論。牛頓關注的是理論的可理解性,而不是世界本身的可理解性,科學理論不是為了滿足常識理解而構建的,常識和直覺不足以理解科學的理論。牛頓摒棄那些無助于理論構建的常識和直覺。

通過閱讀這些博大精深的物理學經典著作,我認識到,在語言學研究中,我們應當探索和發現那些在語言事實和現象后面掩藏著的本質和原則,不要只是停留在對現象的觀察和描寫上,語言學研究的目的在于通過語言現象揭示語言的本質。在這樣的思想的啟示之下,我下決心模仿Shannon研究英語字母的熵的做法,通過漢字頻度的統計來探測在字頻表面現象之后掩藏著的漢字的熵值(entropy),也就是漢字中包含的信息量。從此,我利用業余時間潛心研究漢字熵值的測定問題。

漢字熵值的測定首先需要統計漢字的頻度,通過頻度再計算漢字的熵值。這顯然是一個通過現象揭示本質的典型的科學問題,正好與伽利略和牛頓的科學方法不謀而合。為了進行語言文字的信息處理,必須知道文字的信息量,因此,也就必須測定文字的熵。這是信息時代語言文字處理應該研究的基礎性問題。漢字的“熵”是漢字所含信息量大小的數學度量,是漢字的一個重要的本質屬性,一旦進入信息時代,我國必定要用計算機來處理漢字,首先遇到的就會是漢字信息量的問題。對漢字熵的研究可以為漢字進入信息時代做好理論上的準備。

近幾十年來,國外學者已陸續測出一些拼音文字字母中的熵。然而,漢字數量太大,各個漢字的出現概率各不相同,因此,要計算包含在一個漢字中的熵是個十分復雜和繁難的問題。為了計算漢字的熵,首先需要統計漢字在文本中的出現頻度。上世紀70年代我們還沒有機器可讀的漢語語料庫,甚至連小規模的漢語語料庫也沒有。沒有計算機,只得根據書面文本進行手工查頻,我請了幾個志同道合的朋友用手工幫助我進行漢字頻度的調查。我給這些朋友每人發了一箱卡片,請他們幫助統計在選定樣本資料中的漢字出現的頻度,并把這些頻度記錄在卡片上。在朋友們的幫助下,我用了將近10年的時間,對數百萬字的現代漢語文本(占70%)和古代漢語文本(占30%)進行手工查頻,從小到大逐步擴大統計的規模,建立了6個不同容量的漢字頻度表,最后根據這些漢字頻度表,逐步擴大漢字的容量,終于計算出了漢字的熵。

通過漢字熵值的測定,我進一步認識到了科學方法論的重要性,語言學研究不能總是停留在對語言表面現象的描述上,而應當通過語言的表面現象深入揭示語言的根本屬性。漢字熵值的測定正好體現了這樣的科學方法論原則:通過漢字頻度的手工統計出來的數據揭示隱藏在這些數據后面的漢字的信息量的大小——漢字的熵值。

為了給漢字熵的測定建立一個堅實的理論基礎,我還提出了“漢字容量極限定律”,我用數學方法證明:當統計樣本中漢字的容量不大時,包含在一個漢字中的熵將隨著漢字容量的增加而增加;當統計樣本中的漢字容量達到12,366字時,包含在一個漢字中的熵就不再增加,這意味著,在測定漢字的熵時,統計樣本中漢字的容量是有極限的。這個極限值就是12,366字,超出這一極限值,測出的漢字的熵就不再會增加。在“漢字容量極限定律”的基礎上,我在包含12,370個不同漢字的統計樣本范圍內,初步測出了在考慮語言符號出現概率差異的情況下,包含在一個漢字中的熵為9.65比特。由此得出結論:從漢語書面語總體考慮,在現代漢語和古代漢語的全部漢語書面語中,包含在一個漢字中的熵是9.65比特。由于我采用的是手工查頻的方法,盡管工作十分繁重,準確性還是難以得到保證,我一直認為,我測定出的漢字熵值只是一種初步的猜測,還需要更精密的手段來進一步檢驗這樣的猜測。

20世紀80年代,北京航空學院計算機系劉源教授使用計算機統計漢字的頻度,并計算出漢字的熵為9.71比特。劉源教授使用計算機計算的結果與我通過手工測定的結果相差不大,這說明我在70年代對漢字熵的測定是科學的。

這項研究的結果說明,由于漢字的熵大于8比特,所以,漢字不能使用8比特的單字節編碼,而要使用16比特的雙字節編碼。這項研究為漢字信息的計算機處理提供了基本的數據支持,對漢字編碼、漢字改革和漢語的規范化都有一定的指導意義。漢字熵值的測定還使我更深入地理解了通過表面現象揭示隱藏在現象后面的本質的科學研究方法在探索真理之路的重要性。這些都是我認真閱讀伽利略和牛頓的物理學經典著作而得到的收獲。

4. 研制世界上第一個漢語到多種外語的機器翻譯系統

粉碎四人幫之后,迎來了科學的春天。高等學校開始招生。毛澤東主席生前對于大學招生做過指示,“大學還是要辦的”,但接著他又指示,“我這里主要說的是理工科大學還要辦”。毛澤東在他的指示中沒有說文科大學還要辦。這樣,大學招生時,首先恢復的是理工科專業招生,而文科沒有招生。我渴望著早日回到科學研究的崗位上去,因此決定,既然文科不招生,那就報考理工科,于是,我報考了中國科學技術大學研究生院,毅然參加理工科大學的入學考試。1978年,我通過了理科的入學考試,成為了這所全國一流的理工科大學的研究生。于是,我在棄理學文20年之后,又反過來棄文學理,重新開始了理科的學習,從云南回到了北京。

在中國科學技術大學學習期間,我很快就在理工科的雜志上發表論文。1979年,《計算機科學》雜志創刊,我就在該雜志創刊號上發表了《形式語言理論》的長篇論文,用嚴格的數學表達方式向計算機科學界說明數理語言學中的形式化方法如何推動了當代計算機科學的發展,并且指出,在數理語言學研究中發展起來的形式語言理論,事實上已經成為當代計算機科學不可缺少的一塊重要的理論基石,計算機科學絕不可忽視形式語言理論。許多人認為這篇文章一定是資深的計算機科學家寫的,后來,當計算機界的一些專家了解到,這竟然是出自文革前北京大學中文系一個文科研究生時,感到非常驚訝。

不久,我被學校選送到法國格勒諾布爾理科醫科大學應用數學研究所(IMAG)自動翻譯中心(GETA)學習,師從當時國際計算語言學委員會主席、法國著名數學家沃古瓦(B. Vauquois)教授,并專門研究自動翻譯和數理語言學問題。沃古瓦教授是該委員會的創始人,是當時國際計算語言學的領軍人物,他領導的GETA在機器翻譯的理論和實踐上都做出了出色的成績。我在GETA良好的學習環境中,可以了解到機器翻譯發展的最新情況,學習到當代機器翻譯最前沿的技術。我自幼喜歡數學,而沃古瓦教授是數學家,我們一拍即合,都深知自然語言的形式理論對構建機器翻譯系統的重要性。從此,我的研究重點逐漸由數理語言學轉到了計算語言學(computational linguistics)。

在法國留學期間,我的主要工作是進行漢語與不同外語的機器翻譯研究。開始時,我使用的自然語言形式理論是喬姆斯基的短語結構語法(phrase structure grammar),我試圖使用短語結構語法來進行漢語的自動分析。早在1957年,我就接觸到喬姆斯基的形式語言理論。喬姆斯基根據形式語法的原理,提出了短語結構語法來作為自然語言形式描述的一種手段,這種語法在自然語言處理中得到了廣泛的使用。國內外的許多機器翻譯系統都采用喬姆斯基的短語結構語法作為系統設計的基本理論依據。根據這一語法,表示句子結構的樹形圖中的每一個結點只有一個相應的標記,結點與標記之間的關系是一種單值標記函數,會出現大量的歧義問題,難于區分句法結構相同而語義結構不同的漢語句子,這種分析法是短語結構語法在分析漢語時一個致命缺點。

當時我在法國研制開發機器翻譯系統的實踐中,就更具體地認識到短語結構語法的缺陷。這種單值標記函數表示的語言特征十分有限,因而在機器翻譯中進行漢語的自動分析時會顯得左支右絀。

有一天,沃古瓦教授和我討論漢語自動分析的問題。我坦率地對沃古瓦教授說:“喬姆斯基的短語結構語法對于法語和英語的分析可能沒有多大問題,可是,用這種語法來分析漢語,幾乎寸步難行”。沃古瓦教授用好奇的目光看著我,他希望我進一步闡述自己的看法。于是,我舉例對沃古瓦教授作了如下的說明:

在漢語中可以說“點心吃了”,實際上是“點心被吃了”,但漢語一般不用“被”字；漢語中還可以說“張三吃了”,實際上是“張三把點心吃了”?！皬埲笔莻€名詞短語NP(Noun Phrase),“點心”也是個NP,“吃了”是個動詞短語VP(Verb Phrase),這兩個句子的規則都是:S→NP+VP。其中,S(Sentence)表示句子,它們的層次相同、詞序相同、詞性也相同,但它們卻有截然不同的含義,一個是被動句,一個是主動句。我們怎么來解釋這樣的差異呢？如果我們使用短語結構語法,用計算機來分析這兩個句子,計算機最后做出來的肯定是一樣的樹形圖,它們的差別只是在葉子結點上的詞不一樣,整個樹形圖的上層都是同樣的S→NP+VP,這樣在結構上相同的句子為什么會有不同的語義解釋,從而產生不同的含義？使用短語結構語法顯然是解釋不了的,而中文里到處都是這樣的句子,因為中文里的被動關系有不同的表示方法,有時主動和被動在形式上沒有明顯區別,可以從句子的上下文和意念上來加以區分。在這種進退兩難的局面下,唯一的出路就是根據漢語語法的特點來改進喬姆斯基的短語結構語法,設法使用一種新的方法來描述漢語。

沃古瓦教授耐心地聽完了我的說明,他從沙發上站起來驚嘆地說,“漢語真是一種langue terrible(法語:糟糕的語言)”。他說,“哪種語言能夠不分主動和被動,人吃了和被人吃了怎么能是一樣的？怎么這么亂？”

我向沃古瓦教授解釋道,其實中國人一點兒也不感覺到亂,我們中國人說話時對這類結構是分辨得很清楚的,因為我們知道,在一般的情況下,人是不能被吃的。因此“小王吃了”的語義不能是“小王被吃了”,而點心不可能吃東西,所以“點心吃了”必定是“點心被吃了”。漢語是靠詞匯的固有語義來解決語法問題的,但是對你們法國人來講,并不存在這樣的問題。因此,我們不能按照法語的思考方法來處理這個漢語問題,我們必須另辟蹊徑！

沃古瓦教授是一個知識廣博、眼界開闊的學者,他鼓勵我沿著這個思路繼續探索。他對我說:“喬姆斯基的短語結構語法也不一定永遠正確嘛！”在結束談話我向他告別時,沃古瓦教授興奮地說,“我相信,你一定能找出一種漢語自動分析的新方法?！?/p>

這次和沃古瓦教授的談話使我深刻認識到,喬姆斯基的短語結構語法在漢語自動分析時確實出現了極大的困難。這種困難甚至連沃古瓦教授這樣世界一流的計算語言學家也承認了。作為中國的科學工作者,我必須想出一種新的辦法,來克服短語結構語法的缺點。不然,我現在進行的漢語自動分析就很難再搞下去。

這一天夜里我很不平靜,翻來覆去總在思考這個問題。第二天清早,我走到沃古瓦教授的辦公室,明確向沃古瓦教授提出:我們正面臨一個新的挑戰,我們必須要思考一種新的語法理論來解決這個問題。沃古瓦教授完全同意我的意見,他進一步鼓勵我探索新的理論和方法來解決漢語自動分析中出現的這個困難問題。

在沃古瓦教授的鼓勵下,我對這個問題進行了反復思考。我觀察到“小王吃了”和“點心吃了”這兩個貌似相同的句子在詞匯的語義上有很大的不同,“小王”在語義上是一個“人”,在一般情況下,“人”是“吃了”這個行為的主動者(agent),而“點心”在語義上是“食品”,在一般情況下,“食品”是“吃了”這個行為的被動者(patient),是“吃了”的對象。在短語結構規則S→NP+VP中,如果我們不把NP看成一個不可分割的單元,而是把NP進一步加以分割,使用若干個特征來代替NP這個單一的特征(例如,在“小王吃了”中,我們把NP分解為“NP|人”兩個特征,在“點心吃了”中,我們把NP分解為“NP|食品”兩個特征),這樣一來,就有可能在計算上把它們分解開來。在計算機處理語言時,特征也就是“標記”,因此,我提出,如果我們使用“多標記”(multiple label)來代替短語結構語法中的“單標記”(mono label),就有可能大大提高短語結構語法描述語言的能力,我們就可以使用改進后的這種語法來描述漢語,實現漢語的自動分析。這就是我關于“多標記”的設想。

我對短語結構語法的另一個改進是使用多叉樹代替二叉樹。喬姆斯基曾提出“喬姆斯基范式”,他認為自然語言的結構具有二分的特性,因此他主張在自然語言處理中使用“二叉樹”(binary-tree)。我認為,在漢語中存在著“兼語式”和“連動式”等特殊句式,它們都不具備二分的特性,因此,我主張使用“多叉樹”來代替“二叉樹”,從而提高短語結構語法描述漢語的能力。例如,“請小王吃飯”是一個兼語式的句子,其中的“小王”做前一個動詞“請”的賓語,又做后一個動詞“吃飯”的主語,在計算機處理時,究竟是分析為“請/小王吃飯”,還是“請小王/吃飯”,我們會感到舉棋不定,處于進退維谷的境地,如果勉強分析,只會得到一棵交叉的分析樹,違反了句法樹的“非交特性”。如采取三分,把該句分析為“請/小王/吃飯”,可以避免分析樹的交叉,得到唯一的分析結果。

經過在計算機上編寫程序進行潛心的鉆研和反復的試驗,我提出了“多叉多標記樹模型”(Multiple-labeled and Multiple-branched Tree Model,簡稱MMT模型)。在該模型中,我采用多值標記函數(multiple-label function)來代替短語結構語法的單值標記函數(mono-label function),使得樹形圖中的一個結點不再僅僅對應于一個標記,而是對應于若干個標記;我還使用多叉樹來代替二叉樹,這樣便大大提高了樹形圖的標記能力,使得樹形圖的各個結點上都能記錄足夠多的語法語義信息,把句子中所蘊含的豐富多采的信息充分表示出來。這種多值標記函數的理論從根本上克服了喬姆斯基的短語結構語法在自然語言描述中的嚴重缺點,提高了其有限的分析能力,限制了其過強的生成能力。顯而易見,MMT模型是對喬姆斯基短語結構語法的一個帶有實質意義的重要改進,這個模型提出后,立即引起了國際語言學界的高度重視,在1982年于布拉格召開的國際計算語言學會議(COLING’82)上、1983年于北京召開的國際中文信息處理會議(ICCIP’83)上、以及在1984年于香港召開的東南亞電腦會議(SEARCC’84)上,我都介紹了MMT模型。沃古瓦教授在那次國際計算語言學會議的大會發言中,也滿腔熱情地贊揚了我的研究工作。

就在我提出MMT模型的同時,國外一些計算語言學家也看到了短語結構語法的局限性,分別提出了各種手段來改進它。例如1983年卡普蘭(R. M. Kaplan)和布列斯南(J. Bresnan)提出的“詞匯功能語法”、1983年馬丁·凱依(Martin Kay)提出的“功能合一語法”、1985年蓋茲達(G. Gazdar)等提出的“廣義短語結構語法”、1985年珀拉德(C. Pollard)提出的“中心語驅動的短語結構語法”等,都采用了“復雜特征”(complex features)來描述自然語言,實際上和我提出的“多值標記”(multiple lables)名異而實同。所以,我當時提出的MMT模型是全世界計算語言學者對喬姆斯基的短語結構語法進行改進的一個重要方面和不可分割的組成部分,它是20世紀80年代較早提出的一個旨在改進短語結構語法的形式化模型,當時我國學者在這方面的研究在國際上是處于前沿地位的。

1984年荷蘭阿姆斯特丹北荷蘭出版社出版的多卷專著《計算機科學基礎研究》第9卷《自然語言處理的計算機模型》一書(由意大利米蘭大學主編)詳細介紹了MMT模型,并評論說,“馮氏關于獨立分析—獨立生成的主張,關于盡可能地從源語言分析中獲取多方面信息的主張,是當前自然語言處理研究中的一個重要進展”。

我還結合漢語的特點需要,研究了采用MMT模型來解決漢語自動分析的各種問題。我認為,相比之下在漢語的自動分析中,采用“多值標記”的必要性更加明顯。這是因為,漢語的句子不能僅僅用詞類或詞組類型等簡單特征來描述,漢語句子各個成分的詞類、詞組類型、句法功能、語義關系、邏輯關系之間,存在著極為錯綜復雜的關系,如只采用簡單特征,就無法區分各種歧義現象,達不到漢語自動處理的目的。具體地說,這是由于:1.漢語句子中的詞組類型(或詞類)與句法功能之間不存在簡單的一一對應關系；2.漢語句子中詞組類型(或詞類)和句法功能相同的成分與句子中其它成分的語義關系還可能不同,句法功能和語義關系之間也不是簡單地一一對應的；3.漢語中單詞所固有的語法特征和語義特征對判別詞組結構的性質往往有很大的參考價值,除了詞組類型這樣的簡單特征之外,再加上單詞固有的語法特征和語義特征,采用多值標記來描述,就可以判斷詞組結構的性質。

我還提出了用于多值標記的漢語“特征—值”系統,特征可分為靜態特征(static feature)和動態特征(dynamic feature)兩大類。其中,靜態特征有詞類特征、單詞的固有語義特征和它的值、詞的固有語法特征和它的值;動態特征有詞組類型特征和它的值、句法功能特征、語義關系特征、邏輯關系特征。在自動句法語義分析中,靜態特征是計算機進行運算的基礎,計算機依賴于這些預先在詞典中給出的靜態特征,通過有窮步驟的運算,逐漸計算出各種動態特征,從而逐步弄清楚漢語句子中各個語言成分之間的關系,達到句法語義分析的目的。這就是我的“雙態理論”(bi-states theory)。

我在法國留學期間,了解到法國語言學家泰尼埃(L. Tesniere)的從屬關系語法和語法“價”的概念,我用這種語法來研究漢外機器翻譯問題,首次把“價”(valence)概念引入我國的機器翻譯研究中。我把動詞和形容詞的行動元(actant)分為主體者、對象者、受益者三個,把狀態元(circonstant)分為時刻、時段、時間起點、時間終點、空間點、空間段、空間起點、空間終點、初態、末態、原因、結果、目的、工具、范圍、條件、作用、內容、論題、比較、伴隨、程度、判斷、陳述、附加、修飾等27個,以此建立多語言的自動句法分析系統,對一些表示觀念、感情的名詞也分別給出了它們的價。我還把從屬關系語法和短語結構語法結合起來,在表示結構關系的多叉多標記樹形圖中,明確指出中心語的位置,并用核心(GOV)、樞軸(PIVOT)等結點來表示中心詞。這是我國學者最早利用從屬關系語法和配價語法來進行自然語言計算機處理的嘗試。

我根據機器翻譯的實踐,提出了表示從屬關系語法的從屬樹(dependence tree)應滿足如下5個條件即1.單純結點條件:從屬樹中,只有終極結點,沒有非終極結點,從屬樹中的所有結點所代表的都是句子中實際出現的具體單詞；2.單一父結點條件即在從屬樹中,除了根結點沒有父結點之外,所有結點都只有一個父結點；3.獨根結點條件即一個從屬樹只能有一個根結點,即從屬樹中唯一沒有父結點的結點,這個根結點支配著其他所有的結點,4.非交條件即從屬樹中的樹枝不能彼此相交；5.互斥條件即從屬樹中的結點之間從上到下的支配關系和從左到右的前于關系之間是互相排斥的,如兩個結點之間存在支配關系,它們之間就不能存在前于關系。我提出的這5個條件比1970年美國計算語言學家羅賓孫(J. Robinson)提出的從屬關系語法的4條公理更為直觀,更便于在機器翻譯中使用。

我在法國研究的另一個問題是生成語法的公理化方法。我從這一角度來研究喬姆斯基的形式文法,把他的形式文法同數學中的半圖厄系統(semi-Thue system)相比較。我提出喬姆斯基的形式文法實際上是數學中的公理系統理論在語言分析中的一種應用,語言就是由文法這一公理系統從初始符號出發推導出的無限句子的集合；文法的規則是有限的,文法中的終極符號和非終極符號的數目也是有限的,可是,由于語言符號具有遞歸性,文法這一公理系統就能夠根據有限的符號,通過有限的重寫規則,遞歸地推導出無限的句子來。這樣的研究從數學的基礎理論方面揭示了形式文法的實質。

根據MMT模型,我于1981年完成了漢-法/英/日/俄/德多語言機器翻譯試驗,建立了FAJRA系統(FAJRA是法、英、日、俄、德語的法文首字母縮寫)。在IBM-4341大型計算機上,把20多篇漢語文章自動翻譯成英、法、日、俄、德文。這是世界上第一個漢語到多種外語的機器翻譯系統,開創了多語言機器翻譯系統之先河。

我的研究從理論和實踐上都改進了短語結構語法,受到沃古瓦教授的贊賞。我急著想把這些成果應用到中國的科技信息文獻的大規模翻譯方面,建立一個實用的機器翻譯系統,因此,實驗報告一寫完,我就與沃古瓦教授告別,離開法國回到了祖國。

5. 立志做文理兼通的語言學家

回到北京,我想到的第一件事就是到北京大學拜見著名語言學家王力先生,向他匯報我在法國學習的收獲。早年在我開始研究數理語言學的時候,王力先生就支持過我的研究,在北大求學期間,我曾經認真地聽過他講授的《古代漢語》、《漢語史》、《中國語言學史》、《清代古音學》等課程,這些課程為我后來的計算語言學研究奠定了堅實的基礎,我永遠忘不了我的恩師王力先生。

1982年春天,我和老同學吳坤定(現為北京出版社編審)一起到北京大學燕南園去看望王力先生。一進門,王力先生就高興地請我們坐下,他對我說:“聽說你到法國之后已經改行學習自然科學了,現在,你有了很好的數理化基礎,因此也就有了科學的頭腦,這些都是很寶貴的財富,在語言學研究中隨時用得著”。我向王力教授匯報了自己在法國研究多語言機器翻譯的收獲。王力先生細心聽著,他對我說:“我前年在武漢開的中國語言學會成立大會上曾經說,我一輩子吃虧就吃虧在我不懂數理化?，F在你懂得數理化,就不會像我這樣吃虧了,我相信你今后一定會做出更好的成績”。接著,他又說:“20多年前我曾經對你說過,我希望你學習趙元任先生。當然,這是很難的。趙元任先生由哲學家、物理學家、數學家、文學家、音樂家做底子,最后才成為世界著名的語言學家的。我一輩子都想學他,但是,我的數理化基礎差,沒有學好。你現在到法國學習了自然科學,已經具備學習趙元任先生的條件了,我再一次提醒你,你要向趙元任先生學習,而且一定要學得比我好”。王力先生這些語重心長的話,極大地鼓勵了我,我決心按照王力先生的教導,把數理化知識和語言學的知識結合起來,做一個信息時代的文理兼通的語言學家。

從法國回國之后,我在中國科技信息研究所計算中心擔任機器翻譯研究組的組長,我利用當時北京遙感技術研究所的IBM-4361計算機,于1985年進行了德—漢機器翻譯試驗和法—漢機器翻譯試驗,建立了GCAT德—漢機器翻譯系統和FCAT法—漢機器翻譯系統,檢驗了MMT模型生成漢語的能力,試驗結果良好?？上М敃r由于國內的科研資金缺乏,不能提供足夠的財力和人力來開展更大規模的實驗,我要建立實用性機器翻譯系統的愿望沒能馬上實現。

1982年秋天,我應北京大學的邀請,在北大中文系漢語專業開設了“語言學中的數學問題”的選修課。這是國內首次在高等學校全面、系統地講述數理語言學的課程,受到學生們的歡迎。北京大學前任校長、著名數學家丁石孫教授在他的專著《數學與教育》一書中,對這門課程作了如下的評價:“1982年,北京大學中文系開設了《語言學中的數學問題》,這是給漢語專業學生開的選修課程,許多同學對這門學科產生了很大的興趣,經過一個學期的學習,同學們初步認識了現代數學的發展給語言學注入了生機,覺得獲益匪淺,對語言學這門古老的學科分支的發展充滿了信心,而且這一舉動沖擊了相當多的人的舊概念,使閉塞的中國學術界認識到,即使在人文科學教育中,數學也在逐漸起作用?！雹?/p>

在北京大學講稿的基礎之上,我寫出了我國第一部數理語言學的專著,書名就叫做《數理語言學》,于1985年8月由上海知識出版社出版。接著,我又出版了《自動翻譯》的專著,深入探討自然語言機器翻譯的理論和實踐問題。這兩本專著的出版受到了我國計算語言學界的歡迎。不少出國學習計算語言學的留學生出國時都帶著這兩本書,作為入門的向導。

6. 研制世界上第一個中文術語數據庫

1985年,原文字改革委員會更名為國家語言文字工作委員會,需要計算語言學方面的人材,我調入了國家語言文字工作委員會語言文字應用研究所擔任計算語言學研究室主任,得以專門從事計算語言學的研究工作,這是我1978年棄文學理之后又一次棄理從文,我又重新回到了語言學的懷抱。與此同時,由于工作的需要,我還在中國科學院軟件研究所擔任兼職研究員。

根據中德科技合作協定,我受中國科學院軟件研究所的派遣,于1986年至1988年到德國夫瑯禾費研究院新信息技術與通訊系統研究所(Fraunhofer Gesellschaft,簡稱FhG)任客座研究員,從事術語數據庫的開發。術語是人類科學技術知識在自然語言中的結晶。術語數據庫是在計算機上建立的人類科學技術的知識庫,這項研究屬于知識工程的研究,具有重要的意義。

當時世界上還沒有很好的漢字輸入輸出軟件,我國自己開發的CCDOS還很不成熟,我克服了重重困難,在FhG使用UNIX操作系統和INGRES軟件,建立了數據處理領域的中文術語數據庫GLOT-C,并且把這個數據庫與FhG的其他語言的術語數據庫相連接,可以快速進行多語言術語的查詢和檢索,而且還可以處理簡繁體的漢字。這是世界上第一個中文術語數據庫,具有開創作用。

在FhG研究術語數據庫的過程中,我還接觸到多種語言的大量術語,我驚異地發現,幾乎在每一種語言中,詞組型術語的數量都大大超過了單詞型術語的數量。根據多年前我學習過的伽利略和牛頓的科學方法論,我試圖揭示出語言事實后面隱藏的本質,從理論上對這樣的語言事實進行解釋。

為此,我把數理語言學的理論應用到術語數據庫的研究中,提出了“術語形成的經濟律”這一觀點。

我根據大量的實驗數據證明,在一個術語系統中,其經濟指數與術語平均長度的乘積正好等于單詞的術語構成頻度之值,并提出了“FEL公式”來描述這個定律。根據FEL公式可知,在一個術語系統中,提高術語系統經濟指數的最好方法是在盡量不過大地改變術語平均長度的前提下,增加單詞的術語構成頻度。這樣,在術語形成的過程中,將會產生大量的詞組型術語,使得詞組型術語的數量大大超過單詞型術語的數量,而成為術語系統中的大多數。FEL公式從數理語言學的角度正確解釋了為什么術語系統中詞組型術語的數目總是遠遠大于單詞型術語的數目的數學機理,它反映了語言中的省力原則和經濟原則,這是我國學者對數理語言學中著名的齊夫定律(Zipf’s law)的新發展,并從術語的角度說明了語言中的省力原則和經濟原則是具有普遍意義的原則④。

“術語形成的經濟律”提出之后,國內外的術語學研究者根據術語數據庫的事實進行檢驗,證明在各種語言的術語數據庫中,詞組型術語的數目都大于單詞型術語的數目。因此,“術語形成的經濟律”是適應于各種語言的一條普遍規律,是現代術語學的一條重要的基本定律。

語言是現實的編碼體系,術語形成的經濟律反映了用詞作為語言材料進行單詞型術語和詞組型術語的編碼的經濟律,這一經濟律也可適用于語言編碼的其他領域。漢語在用單字組成多字詞的時候,有限數目的單字組成了為數可觀的多字詞,多字詞以增加自身的長度為代價來保持或盡量不增加漢語中原有單字的個數,體現了組字成詞這個編碼過程的經濟律。多字詞也就是雙音詞或多音詞,著名語言學家呂叔湘先生指出,“北方話的語音面貌在最近幾百年里沒有多大變化,可是雙音詞的增加以近百年為甚,而且大部分是與經濟、政治和文化生活有關的所謂‘新名詞’。可見同音詞在現代主要是起消極作用,就是說,要創造新的單音詞是極其困難的了?！眳问逑嫦壬谶@里一方面指出了創造新的單音詞(即單字)的困難,一方面又指出了雙音詞(即雙字詞)大量增加的現象,這正是組字成詞的經濟律的生動體現。

對漢字結構及其構成成分的統計與分析表明,在《辭?！?1979年版)所收的16,295個字和GB2312-80國家標準《信息交換用漢字編碼字符集·基本集》收入而《辭海》未收的43個字中,簡化字和被簡化的繁體字(包括被淘汰的異體字和計量用字)以及未簡化的漢字共有16,339個,它們是由675個不能再分解的末級部件構成的,簡化字和未簡化的漢字(不包括被簡化的繁體字、被淘汰的異體字和計量用字)共11,837個,它們是由648個不能再分解的末級部件構成的。由少量的部件構成大量的漢字,體現了部件構成漢字這一編碼過程的經濟律。

因此,術語形成經濟律實際上乃是“語言編碼的經濟律”,這是語言學中的一個普遍規律,它支配著語言編碼的所有過程。

在研究FEL公式的同時,我還提出了“生詞增幅遞減律”這一觀點。我指出,在一個術語系統中,每個單詞的絕對頻度是不同的,經常使用的單詞是高頻詞,不經常使用的單詞是低頻詞,隨著術語條目的增加,高頻詞的數目也相應增加,而生詞出現的可能性越來越小,這時,盡管術語的條數在繼續增加,生詞總數增加的速率卻越來越慢,而高頻詞則反復出現,生詞的增幅有遞減的趨勢。這個“生詞增幅遞減律”不僅適用于術語系統,也適用于閱讀書面文本的過程,人們在閱讀一種用自己不熟悉的語言寫的文本時,開始總有大量不認識的生詞,隨著閱讀數量的增加,生詞增加的幅度會逐漸減少,如果閱讀者能夠掌握好已閱讀過的生詞,閱讀將會變得越來越容易。

我還與上海交通大學博士生李晶潔合作,基于布朗語料庫(Brown corpus)的證據,考察科技英語的篇際詞匯增長模型,以篇章為計量單位,描述科技英語文本中詞匯量與累積文本容量之間的函數關系。我們注意到,國外現有的詞匯增長模型不能夠精確地描述科技英語的詞匯增長曲線,因此,我們通過對冪函數和對數函數的比較分析構建了新的詞匯增長模型,并應用此模型推導出科技英語的理論詞匯增長曲線及其95%雙向置信區間。

在術語研究中,我還提出了“潛在歧義論”(Potential Ambiguity Theory,簡稱PA論),指出了中文術語的歧義格式中,包含著歧義性的一面,也包含著非歧義性的一面,因而這樣的歧義格式是潛在的,它只是具有歧義的可能性,而并非現實的歧義,潛在的歧義能否轉化成現實的歧義,要通過潛在歧義結構的“實例化”(instantiation)過程來實現,“實例化”之后,有的歧義結構會變成真正的歧義結構,有的則不然。這一理論是對傳統語言學中“類型—實例”(type-token)觀念的沖擊,深化了對歧義格式本質的認識,近年來,我又把PA論進一步推廣到日常語言的領域,促進了自然語言處理中的歧義消解的研究。

術語是記錄科學技術知識的基本單元,因此,術語的研究對人類知識的系統處理,對科學技術交流都有著重要的價值。1977年,我把這些研究術語的成果寫成《現代術語學引論》一書出版了,這是我國第一本關于術語學理論的專著。

7. 用德語講授中國語言文學課程

1990年至1993年,我被德國特里爾大學文學院聘任為客座教授。特里爾是一座擁有2000年歷史的古城,也是馬克思的故鄉,我因此有機會經常到馬克思的故居了解這位無產階級革命導師的光輝業績。在特里爾任教期間,我用德語給德國學生講授《漢魏六朝散文》、《唐詩宋詞》、《中國現代散文》、《漢字的發展與結構》、《漢語拼音正詞法》、《漢語詞匯史》、《機器翻譯的理論和方法》等課程。

我學過德語,有一定的德語口語交流經驗,可是,用德語在高等學校的課堂上講課,與日常生活中用德語交流大不一樣;課堂是學術的殿堂,課堂上的語言不能有很多差錯,特別是不能在語法上出錯,而德語語法又十分復雜,需要我嚴肅對待。為了講好課,我苦練德語口語,認真用德語備好每一節課,在上每節課之前,我都要先用德語把講課的內容對自己敘述一遍或多遍,直到能夠熟練地背誦為止,我把“備課”當作了“背課”。由于備課特別認真,我的課堂教學效果越來越好,我的講課受到德國學生的一致好評。我當時的一些德國學生現在已成為德國知名的語言學家。

在教學中,我發現德國學生學習漢語時,學講話并不困難,最困難的是學漢字。漢字數量多,結構復雜,因此,我開始研究如何教德國學生學習漢字的問題。我經過反復思考,把自己在法國留學時提出的MMT模型運用到漢字結構的教學中,提出了漢字結構的括號式表示法,用這種方法可以把一個漢字按層次分解為若干個部件,構成一個樹形結構,再把這樣的樹形結構用括號表示出來。學生只要掌握了基本的漢字部件,就可以進一步學會由這些部件構成的整個漢字,以簡馭繁,使漢字便于理解和記憶。這樣的方法受到德國學生的歡迎。

我把這樣的嘗試寫成了科研專著《漢字的歷史和現狀》用德文在特里爾科學出版社出版。德國特里爾大學韋荷雅(Dorothea Wippermann)博士1996年在《評馮志偉新著〈漢字的歷史和現狀〉(德文版)》一文中指出,馮志偉“在漢字研究中引入了現代的成分分析法。對于這種方法,直到現在為止,許多專家圈子之外的普通人還很不熟悉,所知極少。這種分析法認為,漢字是由不同的圖形成分組合而成的一個封閉的集合,其中的每一個較大的成分都可以進一步被拆分為較小的成分,一直被拆分到單獨的筆畫為止。漢字結構的這種多層次多分叉的構造圖形可以用樹形圖來表示,這樣一來,便為揭示漢字總體結構的研究提供了一種系統性的理論和方法。這種在中文信息處理中行之有效的成分分析法,對漢字的研究和學習也提供了一種新的記憶手段”。

漢字的計算機處理一直是我關注的一個重要的應用問題。近來年,我與旅居加拿大的青年學者歐陽貴林合作,把漢字的基本字根歸納為25個,我們在這25個字根基礎上提出了“機寫漢字學習法”(簡稱“和碼”),這是一種以簡馭繁的漢字學習的方法。我們在加拿大和九江的兒童識字教學中進行試驗,效果良好。

目前,漢字輸入計算機主要使用拼音輸入,拼音輸入是一種簡捷而方便的輸入法,為群眾喜聞樂見。但是,由于拼音與漢字的字形之間沒有明確關系,長期使用拼音輸入,往往會忘記漢字的字形,寫字時出現“提筆忘字”的情況,有人把這種情況叫做“漢字失寫癥”。我認為,除了繼續使用和推廣拼音輸入法之外,我們還需要在計算機上根據漢字的結構使用鍵盤來書寫漢字,從而避免“漢字失寫癥”,繼承漢字的文化傳統。“機寫漢字學習法”使用鍵盤來書寫漢字,有助于克服由于長期使用拼音輸入漢字而導致的“漢字失寫癥”這種文化病。

我們還開發出針對外國學生學習漢字的相關軟件,在北京語言大學的部分外國學生中進行初步試驗,效果良好,“機寫漢字學習法”軟件讓外國學生在學習“聽說”漢語的同時,也能夠“讀寫”漢語,達到“聽說讀寫”四會的要求。

“機寫漢字學習法”為漢字的鍵盤“機寫”提供了一種方便而實用的手段,使我們在計算機上輸入漢字時,永遠也不會忘記怎樣書寫漢字。這對發揚我國漢字文化的優秀傳統是大有好處的。

8. 用英語講授自然語言處理課程

2001年,我應邀到韓國科學技術研究院(Korean Advanced Institute of Science and Technology,簡稱KAIST)電子工程與計算機科學系擔任教授。KAIST是韓國著名的理工科大學,大部分學生都是通過嚴格的考試和數學物理競賽選出來的精英。我不會韓國語,因此,只能用英語給該系博士研究生開“自然語言處理-Ⅱ”(Natural Language Processing-Ⅱ,簡稱NLP-Ⅱ)的課程。在這門課程中,我系統講授了詞匯自動分析、形態自動分析、句法自動分析、語義自動分析、語用自動分析等自然語言處理中的各種方法,受到韓國學生的歡迎,韓國科學技術研究院還特別出版了文集來紀念我的這次講學⑤。

在用英語備課的過程中,我發現美國Colorado大學的Daniel Jurafsky和James Martin的新著“Speech and Language Processing—An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition”(《語音和語言處理——自然語言處理,計算語言學和語音識別導論》)是一本很優秀的自然語言處理教材,該書覆蓋面廣,理論分析深入,而且強調實用性和注重評測技術,幾乎所有的例子都來自真實的語料庫。我想,如果能夠把這本優秀的教材翻譯成中文,讓國內的年輕學子們也能學習本書,那該是多么好的事情！

2002年,我回國參加機器翻譯的學術討論會,電子工業出版社的一位編輯找到我,說他們打算翻譯出版此書。這位編輯說,出版社已進行過調查,目前國外絕大多數大學的計算機科學系都采用此書作為“自然語言處理”課程的研究生教材,他們希望我親自來翻譯這本書,與電子工業出版社配合,推出高質量的中文譯本。出版社的意見與我原來的想法不謀而合,于是,我欣然接受了這本長達600多頁的英文專著的翻譯任務,于2003年開始進行翻譯。

我雖然已通讀過該書兩遍,對于這本書應該說是有一定的理解了,但是,親自動手翻譯起來,卻不像原來想象的那樣容易,要把英文的意思表達為確切的中文,下筆時總有汲深綆短之感,大量的新術語如何用中文來表達,也是頗費周折和令人躊躇的難題。

在韓國教書期間,我利用了所有業余時間進行翻譯,晚上加班到深夜,連續工作了11個月,當翻譯完14章(全書三分之二)的時候,不幸患了黃斑前膜眼病,視力出現障礙,難于繼續翻譯下去,還剩下7章(全書三分之一)沒有翻譯,“行百里者半九十”,這7章的翻譯究竟如何來完成呢？正當我束手無策、一籌莫展之時,中國科學院軟件研究所的一位年輕的副研究員孫樂表示愿意繼續我的工作,協助我完成本書的翻譯。孫樂把剩下的7章逐一譯成中文,通過計算機網絡一章一章傳到韓國,我使用語音合成裝置,讓計算機把書面的文本讀出來,通過讀出來的語音進行譯文的校正,語音合成技術克服了我視力不濟的困擾,幫助我邁過了重重的難關。2004年,在我們兩人的通力合作下,全書的翻譯總算大功告成,由電子工業出版社以《自然語言處理綜論》的書名出版。該書的出版受到廣大讀者的歡迎,而我為此卻損害了自己的視力,不得不借助于語音合成裝置來閱讀了。

現在我已進入古稀之年,不能再做很多具體的開發和研究工作了,我的視力不濟,難于長時間看書。我近來主要做一些介紹和引進外國優秀計算語言學英文原著的工作,為這些著作寫導讀,以便幫助年輕學子盡快接觸到當代計算語言學的前沿問題。我寫的導讀有:《應用語言學中的語料庫》(世界圖書出版公司&劍橋大學出版社,2006年版),《譯者的電子工具》(外語教育與研究出版社,2006年版),《人工智能在第二語言教學中的應用》(世界圖書出版公司,2007年版),《語言學中的數學方法》(世界圖書出版公司,2009年版),《自然語言生成系統的建造》(北京大學出版社,2010年版)。

9. 學海無涯苦作舟

2006年6月30日,聯合國教科文組織奧地利委員會(Austrian Commission for UNESCO)、維也納市和國際術語信息中心(INFOTERM)給我頒發了維斯特特別獎(Wüster Special Prize),以表彰我在術語學理論和術語學方法研究方面作出的突出貢獻。維斯特(Eugen Wüster,1898-1977)是奧地利著名科學家,是術語學和術語標準化工作的奠基人。維斯特獎是專門為那些對術語學和術語標準化工作有出色成就的科學家而設置的。

可惜的是,我的視力越來越差,當我接受維斯特獎的時候,已經不能看清獎章上面的圖案了。

我從事語言學研究已經50多年了,在這50年中,我始而棄理學文,繼而棄文從理,后來又棄理從文,最后還是回到了語言學的隊伍,看來我與語言學之間,確實有一種割舍不斷的緣分。

1957年我第一次閱讀喬姆斯基的文章時,還是一個不諳世事的19歲小青年,喬姆斯基還是一個不滿30歲的年輕學者;現在,我已是年過70歲的白發蒼蒼的古稀老人,而喬姆斯基也已經82歲了。2010年8月,喬姆斯基應邀訪問北京,我和喬姆斯基見了面,我們這兩個老人一起合影留念。

我在喬姆斯基的影響下步入語言學的殿堂,曲曲折折地走了50多年,喬姆斯基可以說是我學習語言學的最早的啟蒙老師。我把我們的合影照附在這里,作為永遠的紀念。

語言學是一門歷史悠久而博大精深的學問,50多年來,我主要是在數理語言學和計算語言學領域從事研究和學習。盡管我已年逾古稀,并且一天天地變老,但是,我50年來一直如癡如醉地鐘愛著的數理語言學和計算語言學依然是一門新興的學科,她還非常年輕,充滿了青春的活力,盡管她還比較幼稚嬌嫩,還不夠成熟,但是她無疑有著光輝的發展前景。我們個人的生命是有限的,而科學知識的探討和研究卻是無限的。我們個人渺小的生命與科學事業這棵常青的參天大樹相比較,顯得多么地微不足道,有如滄海之一粟。想到這些,怎不令我們感慨萬千！

“書山有路勤為徑,學海無涯苦作舟”,我們應當勤苦地工作,把個人有限的生命投入到無限的科學知識的探討和研究中去,從而實現人生的價值。

圖2 喬姆斯基與馮志偉合影留念(2010年8月14日)

附注:

① 《仏和詞典》是《法日詞典》的日語寫法。

② 當時把文革中找不到工作的大學生叫做“舊教育制度的犧牲品,新教育制度的實驗品,社會上的處理品”,簡稱為“三品學生”。

③ 丁石孫.1991.數學與教育[M].長沙:湖南教育出版社.

④ Feng Zhiwei, Analysis of Formation of Chinese Terms in Data Processing, Fraunhofer-Gesellschaft, Stuttgart, Germany, 1988.

⑤ KORTERM, 2001-2002 Collection of FORTERM Publication—in Honor of Professor Feng Zhiwei-, KAIST, Korea, 2002.

當代外語研究2011年1期

當代外語研究的其它文章: 基于語料庫的漢英會議口譯中被動式的應用及其動因研究; 二語口語廣度測試及其對口語流利度的預測能力; I—CARE培養策略下的合作學習效度研究; 基于語料庫的莎士比亞戲劇漢譯本中語氣詞“吧”的應用研究; BETSY在自動作文評分中的原理與應用; 外語學習的理想狀態:“流”體驗