田媛
地處“宇宙中心”北京五道口,與清華相鄰不遠,人稱“小聯(lián)合國”的北京語言大學有兩個王牌專業(yè)。一個是名滿天下的漢語國際教育(俗稱對外漢語教學),還有一個專業(yè)知道的人不多,因為它是北語這所文科為主的學校里唯一一個理工專業(yè),該專業(yè)學術大拿云集,某些研究領域甚至位列世界前列,它就是隱藏在北語的一座金礦——語言智能與技術(俗稱計算語言學)。
計算語言學到底研究啥
北語的計算語言學開設于全校唯一理工科學院信息科學學院(簡稱信科)。北語信科的歷史有三十二年了,前身是計算機科學與技術系,成立于2000年,再之前,是1987年成立的中國第一個以漢語信息處理為主要研究方向的“語言信息處理研究所”。2014年,北語進行了大部制改革,信科在原有的語言信息處理研究所基礎上,成立了另外三個研究所,分別是:大數(shù)據(jù)與語言教學研究所、語言監(jiān)測與社會計算研究所(國家語言監(jiān)測與研究平面媒體中心)和管理科學與工程研究所。幾個研究所基本上都與計算語言學學科直接相關,分別對語言的教學、研究和應用開展深入的研究。信科的主要任務是培養(yǎng)外語水平出色,具有信息處理基本素養(yǎng)的通用人才,在信息領域開展一些前沿性的研究。
計算語言學就是利用計算機對語言進行計算處理,比如要提出某個語言現(xiàn)象,若沒有語言數(shù)據(jù)的支持,就不能成為一個語言規(guī)律。而發(fā)現(xiàn)規(guī)律一般有兩種方法:一種基于規(guī)則,如語法專家經(jīng)過研究,發(fā)現(xiàn)語言規(guī)律;另一種基于統(tǒng)計,根據(jù)大規(guī)模數(shù)據(jù)提煉規(guī)則。后一種就是計算語言學主要做的事。
在這門融合了計算機科學、語言學和數(shù)學的計算語言學中,計算機科學是研究工具,語言學是處理對象,數(shù)學是建模工具,此外還會用到物理學等知識。計算語言學,是從字、詞、句、篇章、語音等各個維度去研究語言,比如讓計算機自動評判一個留學生寫漢字寫得對不對、好不好,這項技術的核心是數(shù)學曲線在二維平面的變換;再比如研究日本人說漢語,計算機可以判斷他們說得對不對、準不準,這項技術就利用了物理學中的聲學理論,通過發(fā)音的波形進行判斷。計算語言學的應用還有很多,最常見的比如在拼音輸入法中,有一項功能是“拼寫和語法錯誤”,一旦判定有錯誤嫌疑,系統(tǒng)就會用紅色波浪線劃出。還有讓計算機評判一篇論文寫得好不好,對不對等。
資源優(yōu)勢獨一無二
除了北語,國內開展計算語言研究的還有清華大學、北京大學、中國科技大學、哈爾濱工業(yè)大學、復旦大學等名校。每所大學的研究各有側重,比如中國科技大學的科大訊飛主攻語音信息處理,特別是語音識別。語音識別的應用也很多,比如語音輸入法,又比如語音考試,在口語考試中,有一種題型是模仿原聲讀句子,計算機會給考生自動評分。傳統(tǒng)牛校的計算語言研究規(guī)模大,相比之下,北語更像是小團隊作戰(zhàn),但在某些領域有得天獨厚的優(yōu)勢。
這優(yōu)勢就是在語言資源方面,尤其是搜集外國人的語言資源上面。比如需要收集各國人書寫的漢字樣本做研究,在北語,隨便推開一間教室的門,20位同學就可能來自20個國家,只要收集每個人的漢字,就是20個國別樣本。目前,約有170多個國家和地區(qū)的學生在北語學習,校園里能見到世界各地的人。在北語,研究語言信息處理根本不愁樣本,這是其他高校無法比擬的。
此外,計算語言研究需要的理論知識,北語也有著得天獨厚的條件。在培養(yǎng)漢語國際教學師資方面,北語是培訓漢語國際教學師資的官方機構,對漢語國際教學中的各種教學研究得非常深入。豐富的學生資源、專業(yè)的理論積累,都為北語的計算語言學提供了良好環(huán)境。
專業(yè)教學各有特色
北語計算語言學專業(yè)招收本科、碩士和博士。本科時要將基礎數(shù)學、物理、統(tǒng)計等基礎學科學扎實了,這可不簡單。在本科生眼里,高等數(shù)學、線性代數(shù)、離散數(shù)學和概率論與數(shù)理統(tǒng)計是“四座大山”。在計算語言學專業(yè)中,數(shù)學是基礎,所有的語言現(xiàn)象都要對應一個語言模型。什么是語言模型?說得簡單點兒就是一個數(shù)學公式。攻克了“四座大山”,大三大四的學生就可以選人工智能、自然語言處理等選修課了,還可以參與到學院老師們的研究項目中。本科生直接申請項目或直接參與科學研究,這是北語信科的特色。
至于碩士和博士,北語的計算語言學專業(yè)文理兼收,會針對每個人的專業(yè)特長、興趣點對他們的研究方向進行專門定制。多數(shù)碩士博士是理工科出身,他們會編程,但一般不懂語言學,進來后要補修《語言學概論》等語言學基礎課程。文科背景的研究生則要補數(shù)學和計算機課程,但這沒有想象中那么痛苦,甚至有幾位文科研究生經(jīng)過一段時間的學習,成了編程大拿。
北語計算語言學強調動手能力,本科生、碩士生和博士生有時會參加同一個研究課題,但是對他們的要求是不同的:本科生做的是基礎工作;研究生則是解決課題中的一兩個具體問題;對于博士生,則必須有三五個完整的創(chuàng)新點,并以此為基礎完成博士論文,這是畢業(yè)的硬性要求。
去向好,招生難
談起同學們的畢業(yè)去向,北語堅持“專業(yè)+外語”的復合型人才培養(yǎng)模式。信科大一到大四都開設英語課,本科生的英語專八考試通過率能達到70%。選擇就業(yè)的本科生和研究生,除了去外交部、新華社等國家級機構,以及中國銀行、工商銀行等金融單位從事信息技術相關工作外,還有不少畢業(yè)生在IBM、微軟、Google、百度、阿里巴巴、騰訊、新浪等從事軟件開發(fā)、信息管理、技術服務工作。
因為做的都是前沿研究,有意深造的同學也不錯,每年都有50%左右的本科畢業(yè)生赴國內外名校讀研,如清華、北大、北航、北郵、牛津、斯坦福、帝國理工、加州伯克利、哥倫比亞、賓夕法尼亞、卡耐基·梅隆、東京大學等。想讀博也不難,如今,每年都有外國高校請北語計算語言學的教授推薦博士生候選人。
北語曾邀請第三方機構調查了校友滿意度,各院系中信科校友的滿意度排名第一。不過校友滿意度第一也可能是由于一個令人哭笑不得的原因:沒來信科之前,不少同學對北語唯一的理工科學院不了解甚至有怨氣,來了后卻發(fā)現(xiàn)真的很棒,不虛此行。
但畢業(yè)不愁出路的計算語言學,在招生時卻讓學院操碎了心。考研時第一志愿填報北語計算語言學的,只要能過國家分數(shù)線就能被錄取。但每年招的30名碩士研究生,還是有近一半要靠調劑,調劑生的平均分數(shù)有時候甚至比第一志愿錄取的還要高。
自豪和無奈,是每一位北語信科人都流露出的情感。他們自豪于自己的前沿研究,自豪于自己靈活的本碩博培養(yǎng)方案,自豪于學生的就業(yè)去向,自豪于畢業(yè)生對學院的真心熱愛。但是,也無奈于本科生招不滿,研究生靠調劑的局面。但是金子終會發(fā)光,而北語計算語言學,不僅是金子,還是一座蘊藏著金子的金礦。