蘇俊銘,宋靈青
(1.臺(tái)南大學(xué) 數(shù)字學(xué)習(xí)科技系,臺(tái)灣 臺(tái)南 70101;2.中央電化教育館,北京 100031)
計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言處理:影響現(xiàn)代人生活的研究領(lǐng)域*
——訪談?wù)J知心理語(yǔ)言學(xué)專家左密夏博士
蘇俊銘1,宋靈青2
(1.臺(tái)南大學(xué) 數(shù)字學(xué)習(xí)科技系,臺(tái)灣 臺(tái)南 70101;2.中央電化教育館,北京 100031)
自然語(yǔ)言處理;計(jì)算語(yǔ)言學(xué);認(rèn)知科學(xué);信息檢索
訪談?wù)撸鹤竺芟牟┦浚紫确浅8兄x您接受此次專題訪談。您在計(jì)算語(yǔ)言學(xué)和認(rèn)知科學(xué)研究領(lǐng)域工作了30多年,以這樣豐富的經(jīng)驗(yàn),您一定有非常多的知識(shí)可以與大家分享。首先,您能否簡(jiǎn)要地告訴我們什么是計(jì)算語(yǔ)言學(xué)(CL)嗎?再者,您能不能給我們一些相關(guān)的參考信息?
左密夏博士:這取決于您們的興趣焦點(diǎn)。從狹義上講,計(jì)算語(yǔ)言學(xué)可以簡(jiǎn)單定義為 “使計(jì)算機(jī)能夠自動(dòng)進(jìn)行了解并產(chǎn)生語(yǔ)言所需要的操作流程”。我說(shuō)“狹義” 是因?yàn)橛?jì)算語(yǔ)言學(xué)和語(yǔ)言科技其實(shí)是可以應(yīng)用到許多其他領(lǐng)域及實(shí)用任務(wù)。例如,它可以幫助人們進(jìn)行溝通(聽(tīng)、說(shuō)、讀、寫(xiě)、理解)、獲取信息,依此類推。
在所舉后者的情況下,整體過(guò)程是互動(dòng)的,它對(duì)使用者的習(xí)慣和需求必須具備一定的感受性與理解度。而這也正明顯地指出計(jì)算語(yǔ)言學(xué)和認(rèn)知科學(xué)是相關(guān)的。認(rèn)知科學(xué)在這里結(jié)合了語(yǔ)言學(xué)家、計(jì)算機(jī)科學(xué)家和心理學(xué)家協(xié)同工作,以揭示解決特定問(wèn)題時(shí)所需要的知識(shí)(此英文單字源自拉丁文的“認(rèn)知”一詞)和所需的專有技術(shù)(流程)。例如,在語(yǔ)言生成的研究領(lǐng)域中涉及到語(yǔ)言問(wèn)題:如何告訴問(wèn)路人怎樣從地點(diǎn)A到達(dá)地點(diǎn)B。要解決這些問(wèn)題,我們需要應(yīng)用多重學(xué)科的態(tài)度及方法,這是極度重要的。然而,這并不是絕大多數(shù)人的實(shí)際做法,在一定程度上這是可以理解的,因?yàn)橐龅蕉嘀貙W(xué)科互動(dòng)首先需要具有一個(gè)相當(dāng)開(kāi)放的態(tài)度,并有和完全不同背景的“同事”做交流的意愿與態(tài)度。
再回到您最初的問(wèn)題。計(jì)算語(yǔ)言學(xué)包含了信息溝通的四項(xiàng)主要技能所有必要的組成部分:口語(yǔ)、閱讀、聽(tīng)力和寫(xiě)作。這些不僅要擁有關(guān)于意、形、聲,即特定的語(yǔ)言知識(shí)(語(yǔ)法、詞匯、詞形),還需要包括其他類型的知識(shí)(世界知識(shí)、文化、社會(huì)習(xí)俗等)。這現(xiàn)象不限于母語(yǔ),也適于其他外語(yǔ),當(dāng)然在翻譯過(guò)程中更加凸顯。它還涉及語(yǔ)言學(xué)習(xí)、信息獲取、信息檢索以及許多其他信息溝通的活動(dòng)項(xiàng)目。如果您想對(duì)此有更深入了解,可以在維基百科以Computational Linguistics (計(jì)算語(yǔ)言學(xué))或Language Technology (語(yǔ)言科技)來(lái)查找。
為了提供容易理解的相關(guān)數(shù)據(jù),我在這次訪談文章后提供了一些重要的參考文獻(xiàn),分類列表來(lái)呈現(xiàn)語(yǔ)言研究和認(rèn)知語(yǔ)言學(xué)[1-18]、計(jì)算語(yǔ)言學(xué)[19-42]、心理語(yǔ)言學(xué)[43-48]、神經(jīng)語(yǔ)言學(xué)[49][50]、學(xué)習(xí)分析[51-53]的相關(guān)文獻(xiàn)。此外,你們可以找到對(duì)應(yīng)網(wǎng)站[54-58]連結(jié),讓有興趣者能夠快速地對(duì)“誰(shuí)是誰(shuí)”以及當(dāng)今主要的議題、技術(shù)、出版物和相關(guān)研究會(huì)議等信息有初步的入門(mén)了解。
訪談?wù)撸杭热籆L不再處于“童年”時(shí)期,您能不能給大家一些它發(fā)展過(guò)程的細(xì)節(jié),例如理論上和方法上的演化和改變?
左密夏博士:有鑒于本次訪談的范圍,我對(duì)這個(gè)問(wèn)題僅做簡(jiǎn)短回答。對(duì)于那些有興趣進(jìn)一步了解的讀者,我建議閱讀Jurafsky & Martin、Nugues和Altman的文章資料。這些內(nèi)容都可以在網(wǎng)絡(luò)上免費(fèi)獲取?;氐侥膯?wèn)題。可想而知,在過(guò)去50年來(lái),很多事情已經(jīng)改變了。同樣地,想要有一個(gè)粗略的概念,您們可以開(kāi)始看看維基百科,通過(guò)搜索 “Natural Language Processing”“Computational Linguistics”“Human Language Technology”或“Artificial Intelligence”,這些研究領(lǐng)域是和NLP緊密相連的,至少在一開(kāi)始時(shí)是如此的。
計(jì)算機(jī)在60年多前并不存在,語(yǔ)言學(xué)在當(dāng)時(shí)主要是理論性學(xué)說(shuō),研究往往是根據(jù)極少量且特制的例句開(kāi)展的。需要注意的是,時(shí)下的計(jì)算語(yǔ)言學(xué)家做自然語(yǔ)言處理(包括機(jī)器翻譯)通常不依靠深厚的語(yǔ)言知識(shí)。整個(gè)處理是通過(guò)使用大量語(yǔ)言數(shù)據(jù)庫(kù)加上機(jī)器自動(dòng)學(xué)習(xí),也就是用統(tǒng)計(jì)數(shù)據(jù)方法進(jìn)行的。
談起CL研究最初的驅(qū)動(dòng)力是很有趣的。大約在50年前左右,結(jié)合了科學(xué)(語(yǔ)言學(xué))、技術(shù)(計(jì)算機(jī))和政治(“冷戰(zhàn)時(shí)期”由俄羅斯發(fā)射人造地球衛(wèi)星開(kāi)始的太空競(jìng)賽等)因素,導(dǎo)致了在語(yǔ)言研究方面大規(guī)模的投資,或是我們今天所稱的語(yǔ)言科技研究。
在早期時(shí)代,我們做了菲爾莫爾(Fillmore, 過(guò)去30年來(lái)最權(quán)威的語(yǔ)言學(xué)家之一)所稱的“扶手椅語(yǔ)言學(xué)(Armchair Linguistics)”?,F(xiàn)在的研究則是應(yīng)用龐大的語(yǔ)料庫(kù),依靠機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法和理論。這和過(guò)去使用的方法有著根本上的不同。在當(dāng)時(shí)多數(shù)的語(yǔ)言研究人員以規(guī)則式方法(Rule-based Approach)來(lái)處理假構(gòu)的例句(Made-up Example)。后來(lái),隨著著人工智能(AI)時(shí)代的到來(lái),研究者試圖建立全面性的系統(tǒng)(語(yǔ)法分析器、語(yǔ)言生成器、機(jī)器翻譯系統(tǒng)等)。所有這一切在20世紀(jì)80年代后期都因因特網(wǎng)(Internet)的出現(xiàn)和硬件的發(fā)展而發(fā)生了巨大變化。通過(guò)互聯(lián)網(wǎng)我們能快速取得儲(chǔ)存在網(wǎng)絡(luò)上的信息,現(xiàn)代計(jì)算機(jī)功能都非常強(qiáng)大且有巨大的儲(chǔ)存容量。此外,現(xiàn)今學(xué)者們習(xí)慣于為一個(gè)特定主題組成研究團(tuán)體,互相快速地交換著數(shù)據(jù)、信息甚至程序編碼。因此,今天的研究趨勢(shì)不是建構(gòu)或執(zhí)行驗(yàn)證理論,而是在建造資源、應(yīng)用巨大的數(shù)據(jù)化語(yǔ)料庫(kù),并評(píng)估其結(jié)果或方法的相對(duì)效率。此外,大量的語(yǔ)言處理是通過(guò)機(jī)器學(xué)習(xí)來(lái)完成。計(jì)算機(jī)不再只限于執(zhí)行由程序人員直接下的指令,它能從巨量的數(shù)據(jù)中進(jìn)行萃取(例如語(yǔ)料庫(kù))。
訪談?wù)撸阂苍S您可以介紹一些使用CL的應(yīng)用,以及它對(duì)我們社會(huì)或一般民眾日常生活的影響。目前可見(jiàn)的有哪些影響?在不久的將來(lái)有哪些可能性?有哪些挑戰(zhàn)?
左密夏博士:這里提及的研究結(jié)果都已融入我們的現(xiàn)代生活中,很多的應(yīng)用實(shí)例已自然地充斥在生活周遭,一般使用者渾然不覺(jué)這些應(yīng)用成品是需要上游的“人工”的處理。所有這些應(yīng)用在二三十年以前是難以想象的。其中有些是在“前臺(tái)”看得見(jiàn)的,因?yàn)樗鼈兘?jīng)常是使用者付費(fèi)的(例如您想安裝一個(gè)電子字典);其他成果應(yīng)用則像是“內(nèi)勤”工作,我們甚至沒(méi)有注意到它們(例如搜索引擎)。另有其他許多應(yīng)用工具則每天為我們服務(wù)(不僅是研究學(xué)者、專員),例如機(jī)器翻譯、電子詞典、拼寫(xiě)檢查、文本到語(yǔ)音轉(zhuǎn)換器等。
值得注意的是最好成果仍在我們面前,這會(huì)在不太遙遠(yuǎn)的將來(lái),可能再一個(gè)20年左右。這是因?yàn)閷W(xué)者們已經(jīng)開(kāi)始做知識(shí)資源和文字(數(shù)據(jù)語(yǔ)料庫(kù))的數(shù)據(jù)探勘,它可以被看作是將人類集體的大腦中所具有的知識(shí)(一個(gè)全球性的社會(huì)知識(shí))進(jìn)行外化的事實(shí)。例如,在語(yǔ)言學(xué)習(xí)和語(yǔ)言教學(xué)領(lǐng)域,研究學(xué)者已經(jīng)開(kāi)始探勘語(yǔ)言學(xué)習(xí)者的學(xué)習(xí)數(shù)據(jù)。
關(guān)于“CL怎么影響我們社會(huì)以及一般大眾的日常生活 ?”這個(gè)問(wèn)題,我的答案很簡(jiǎn)單。它對(duì)我們社會(huì)的影響是多層面的:教育(例如在線學(xué)習(xí)、終身學(xué)習(xí)、遠(yuǎn)程學(xué)習(xí)等)、文化、經(jīng)濟(jì)、軍事等。很多工作直到最近都還是需要很大的人力投入,現(xiàn)在則可通過(guò)一臺(tái)機(jī)器來(lái)執(zhí)行。雖然這聽(tīng)起來(lái)可能有點(diǎn)可怕 (的確,如果管理不當(dāng)?shù)脑?,然而可以肯定的是,它也可以是非常有益的。想想一個(gè)普通公民的個(gè)人或?qū)I(yè)需求,例如旅游信息、訂票,農(nóng)民或醫(yī)生的各種需求。實(shí)際上現(xiàn)今已存在一些應(yīng)用工具或服務(wù),如聯(lián)合國(guó)糧食和農(nóng)業(yè)組織(FAO)以表格形式或自然語(yǔ)言形式,提供農(nóng)民進(jìn)行決策和解決問(wèn)題時(shí)所需要的信息數(shù)據(jù)。這同樣適用于許多其他領(lǐng)域。再如,一個(gè)住在偏遠(yuǎn)地區(qū)的人需要醫(yī)療救助。我們可以假設(shè)讓此病人描述他的問(wèn)題,以終端儀器進(jìn)行現(xiàn)場(chǎng)測(cè)量讀取其生理數(shù)據(jù)后,由機(jī)器來(lái)進(jìn)行分析并建議適當(dāng)?shù)寞煼?。機(jī)器是參考已存有病者的基本數(shù)據(jù)及早先其家庭醫(yī)師所記載的疾病紀(jì)錄來(lái)進(jìn)行分析。當(dāng)然,這是不尋常的狀況,是需要謹(jǐn)慎進(jìn)行的,但在原則上是可以做到的,至少可以適應(yīng)一些特殊的情況。
除了上述的例子,我再舉一些與平常一般語(yǔ)言用戶的需求更密切相關(guān)的實(shí)例。電子詞典、數(shù)據(jù)語(yǔ)料庫(kù)的存取查閱、閱讀輔助工具、拼寫(xiě)檢查器、雙向言語(yǔ)翻譯、信息和知識(shí)庫(kù)(數(shù)據(jù)庫(kù)、本體論、百科全書(shū))獲取、輔助通訊(文字簡(jiǎn)化、針對(duì)特定有認(rèn)知缺陷的設(shè)計(jì)輔助工具)等,這些工具可以幫助那些找不到必要信息的語(yǔ)言學(xué)習(xí)者和用戶。值得注意的是,雖然有很多有用的信息已經(jīng)存在于網(wǎng)絡(luò)上,它們往往還是相當(dāng)靜態(tài)的,在引入自然語(yǔ)言處理后,在擷取和萃取信息上增添了不少靈活性。例如,如果以文字字符串的匹配來(lái)搜索,通常很多相關(guān)網(wǎng)站都可能不會(huì)被顯示的。但是,如果允許同義詞或詞形異變(“ring”和“rang”都是與撥打電話時(shí)有關(guān)聯(lián)的概念)的搜索,那很多潛在相關(guān)的網(wǎng)站內(nèi)容就可能會(huì)被呈現(xiàn)出來(lái)。
至于CL在未來(lái)的發(fā)展可能性和面臨挑戰(zhàn),答案取決于您所定的目標(biāo),您想要理解人類的頭腦和它是如何處理信息,或者您想要處理一個(gè)特定的語(yǔ)言(中文、法文等等)。CL處理方式是要完全自動(dòng)式或交互式?您的目地是想建造一個(gè)資源(字典、知識(shí)庫(kù)、本體)或是一個(gè)應(yīng)用工具(閱讀輔助、寫(xiě)作輔助、機(jī)器翻譯)?顯然,針對(duì)每個(gè)不同的目標(biāo)會(huì)有它特定的挑戰(zhàn),針對(duì)每一個(gè)特定的語(yǔ)言也是同理的。
例如,一個(gè)外國(guó)人想學(xué)說(shuō)中國(guó)話和寫(xiě)中文,將不得不面對(duì)發(fā)音、音調(diào)和文字的問(wèn)題。中文里有許多音在西方語(yǔ)言(英語(yǔ)、西班牙語(yǔ)、德語(yǔ)等)里根本不存在的。它的書(shū)寫(xiě)系統(tǒng)更是完全不同的,因?yàn)槲鞣秸Z(yǔ)言以拼音為字的起點(diǎn)。值得注意的是,對(duì)即使是以中文為母語(yǔ)的人來(lái)說(shuō),書(shū)寫(xiě)正確中文字有時(shí)也是個(gè)問(wèn)題。一般中文為母語(yǔ)的孩童也需要一段相當(dāng)長(zhǎng)的學(xué)習(xí)時(shí)間以達(dá)到相當(dāng)程度的書(shū)寫(xiě)能力。
另舉一個(gè)非常不同類的語(yǔ)言為例:學(xué)習(xí)法文的挑戰(zhàn)之一在于它的發(fā)音(同音)和動(dòng)詞變化。而像芬蘭語(yǔ)和俄羅斯語(yǔ)有眾所周知的變格(主格、賓格等等)的難處,德文也有變格的特色。除此之外,其動(dòng)詞的位置也是一個(gè)挑戰(zhàn)。至于日文,動(dòng)詞應(yīng)該放在句子的尾端。我們可以不斷地談?wù)撁糠N語(yǔ)言的特殊性質(zhì),因?yàn)槊恳环N語(yǔ)言都有其特定的問(wèn)題。然而即使如此,各種不同的語(yǔ)言中也會(huì)有或多或少相似之處。
我們也不應(yīng)忘記語(yǔ)言是表達(dá)思想的工具。然而,想法或概念僅是硬幣的一面,另一面就是詞形。另外很重要的一點(diǎn)是語(yǔ)言(包括文字)不僅是用來(lái)通訊溝通,它也是用來(lái)思考(或概念化)、腦力震蕩、信息檢索、推理等等。當(dāng)我們?cè)诰W(wǎng)絡(luò)上搜索信息時(shí),我們也用文字(查詢問(wèn)題),即使我們未必打算將這個(gè)搜索結(jié)果傳達(dá)給他人。因此,我們需要使用語(yǔ)言以為了能夠獲得所需要的信息。另外,對(duì)于那些我們想要取得的知識(shí),為了能利于檢索,它不僅必須被儲(chǔ)存,而且還要被系統(tǒng)索引和有組織地儲(chǔ)存。還要注意的一點(diǎn)是語(yǔ)言往往不是絕對(duì)地精確:所有語(yǔ)言在它不同層面(詞意、發(fā)音、詞形)中常有許多含糊不清的現(xiàn)象。當(dāng)我們說(shuō)出單詞“Mouse”時(shí),我們指的是那體型小的哺乳動(dòng)物或計(jì)算機(jī)鼠標(biāo)(Computer Mouse)?當(dāng)讀到這個(gè)英文字“Read”時(shí),您應(yīng)該發(fā)音/rid/或/red/)?當(dāng)聽(tīng)到發(fā)音/red/時(shí),它指的是“顏色(紅)”,或者“信息提取的活動(dòng)(動(dòng)詞‘閱讀’的過(guò)去式)”?正如您所見(jiàn)的,這領(lǐng)域仍存有大量的問(wèn)題,其中許多仍尚在等待一個(gè)令人滿意的解決方案。
訪談?wù)撸耗岬秸Z(yǔ)言學(xué)習(xí)者或語(yǔ)言教育者兩者都可能受益于CL或語(yǔ)言科技方面所做的研究成果。能否請(qǐng)您在這個(gè)方面多談一點(diǎn),并顯示兩者之間的關(guān)系?
左密夏博士:在過(guò)去,學(xué)生的語(yǔ)言學(xué)習(xí)過(guò)程都會(huì)有一位語(yǔ)言老師、一本字典、一本文法書(shū)和一些語(yǔ)本教科書(shū)的。這類的學(xué)習(xí)是通過(guò)指令的學(xué)習(xí)方法,其過(guò)程等和自然學(xué)習(xí)是完全不同的。在進(jìn)入學(xué)校制度之前,每個(gè)孩子都由生活中的日?;顒?dòng)里漸進(jìn)地學(xué)會(huì)母語(yǔ)和其他方言,他無(wú)時(shí)無(wú)刻不暴露(或沉浸)在豐富且具多種語(yǔ)言信息形式(如圖像、聲音等)的環(huán)境中,這種不知不覺(jué)地學(xué)習(xí)方式就像一切都是自然而然發(fā)生的。這種形式的學(xué)習(xí)環(huán)境我們可以通過(guò)現(xiàn)代技術(shù)來(lái)進(jìn)行重建。我們可以通過(guò)看電影,聽(tīng)我們喜歡的音樂(lè)等活動(dòng)來(lái)學(xué)習(xí)外語(yǔ)。換句話說(shuō),我們可以一邊學(xué)習(xí)一邊獲得樂(lè)趣。但是,要讓這種學(xué)習(xí)方式真正地可行并有效率,信息必須被處理并相對(duì)有意義地呈現(xiàn)在各個(gè)動(dòng)態(tài)環(huán)境中,這點(diǎn)大體來(lái)說(shuō)已經(jīng)有相當(dāng)?shù)陌l(fā)展。我們可以看到有字幕的原文電影,我們可以減慢語(yǔ)言錄音說(shuō)話的速度或改變音調(diào)或口音、我們可以通過(guò)谷歌翻譯將一份文件翻成自己懂的語(yǔ)言等。在用計(jì)算機(jī)工作時(shí),我們可以隨時(shí)從彈出的窗口查詢一個(gè)未知單詞的意思。
同樣地,我們能想象有一些系統(tǒng)工具專門(mén)協(xié)助寫(xiě)作。當(dāng)然,現(xiàn)今已有許多拼寫(xiě)檢查器和電子字典,但我認(rèn)為可以研發(fā)輔助寫(xiě)作風(fēng)格和文體的工具。它會(huì)自動(dòng)檢測(cè)文章所提供的信息以及內(nèi)容的邏輯順序(連貫性、凝聚力和代名詞的正確使用)等等。例如,在一個(gè)故事編寫(xiě)中,您可能寫(xiě)著 “很久很久以前,有一個(gè)名字叫亨利的國(guó)王。他有三個(gè)女兒,……”。正如您所看到的,語(yǔ)言里有很多方法來(lái)指代同一個(gè)人:他的名字(亨利),他的功能(國(guó)王),或以簡(jiǎn)單的代詞(他、他的)來(lái)再次提到同一個(gè)人。然而,代詞的選用并不總是很容易地來(lái)決定要使用哪一個(gè)。例如在幼兒的語(yǔ)言學(xué)習(xí)中,他必須學(xué)習(xí)不能直接以“他”來(lái)啟動(dòng)一段對(duì)話中的第一個(gè)句子,因?yàn)槁?tīng)眾可能不知道“他”指的是誰(shuí)。這是在成長(zhǎng)經(jīng)歷中社會(huì)化過(guò)程的一部分,您必須學(xué)會(huì)不僅從自己的角度,也從接收您的信息者的角度來(lái)看世界。語(yǔ)言生成的目的,不僅在于傳播說(shuō)話者/寫(xiě)作者想表達(dá)的內(nèi)容,還必須把聽(tīng)者/讀者的知識(shí)、興趣,甚至信仰等都列入語(yǔ)言生成過(guò)程中需要考慮的因素。
有鑒于這些和語(yǔ)言相關(guān)的復(fù)雜性,學(xué)習(xí)單詞和語(yǔ)法規(guī)則是絕對(duì)不夠的。語(yǔ)言基本技能的培養(yǎng)——閱讀、寫(xiě)作和口語(yǔ)(流利度、發(fā)音正確度)是語(yǔ)言學(xué)習(xí)者極大的挑戰(zhàn)。然而,這也正好是語(yǔ)言科技可以做出很大貢獻(xiàn)的地方。今天已有多種學(xué)習(xí)輔助工具可以提供學(xué)習(xí)者許多學(xué)習(xí)的幫助。它們可幫學(xué)生們減輕認(rèn)知負(fù)擔(dān)和心理壓力。它們專門(mén)負(fù)責(zé)處理學(xué)習(xí)中制式性方面(拼字、發(fā)音)的問(wèn)題,由此可舒緩學(xué)習(xí)者的一部分壓力,讓他們的精神能夠?qū)W⒂诟邔哟蔚臏贤?含義、因果關(guān)系的解釋)。至于在導(dǎo)師或教師方面,語(yǔ)言科技工具可減輕他們的工作負(fù)擔(dān),就像各式各樣的家用設(shè)備能幫我們省下許多打掃房子(吸塵器)、洗碗(洗碗機(jī))或準(zhǔn)備咖啡(咖啡機(jī))等的時(shí)間和精力。此外,利用現(xiàn)代科技來(lái)學(xué)習(xí)可以讓我們的學(xué)習(xí)過(guò)程變得很自然、像無(wú)意中所產(chǎn)生的效果。例如,我們可以想象在玩游戲的同時(shí),在您所選擇的語(yǔ)言中學(xué)到一些歷史或地理的知識(shí)。在這種情況下,學(xué)習(xí)語(yǔ)言結(jié)合在其他的活動(dòng)中,就像是意外得來(lái)具有正面效益的“副作用”效果。
訪談?wù)撸耗怯嘘P(guān)于遠(yuǎn)距學(xué)習(xí)和計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)(Computer-Assisted Language Learning, CALL)呢?它們用到CL/NLP的研究帶來(lái)好處了嗎?
左密夏博士:兩者都已達(dá)到AAA級(jí)的優(yōu)點(diǎn):任何人(Anyone)、隨時(shí)(Anytime)、隨地(Anywhere)。也就是說(shuō),學(xué)習(xí)完全可由學(xué)習(xí)者時(shí)刻隨其心情自定義。這是跟傳統(tǒng)學(xué)習(xí)方式比較時(shí)一個(gè)很大并且不應(yīng)該被低估的優(yōu)點(diǎn)。不幸的是,遠(yuǎn)程學(xué)習(xí)和計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)的開(kāi)發(fā)常有過(guò)多的時(shí)間壓力,主要是因?yàn)橥远唐诘慕?jīng)濟(jì)效益為考慮因素(時(shí)間投資效益)。這就是為什么它們很難深入探討到CL/NLP的問(wèn)題,尤其是以心理語(yǔ)言學(xué)家的觀點(diǎn)來(lái)看這兩者的發(fā)展。然而,CL/NLP的研究對(duì)這兩者是絕對(duì)必要的,如果我們希望得到一些持續(xù)的解決方案,在系統(tǒng)的上游設(shè)計(jì)時(shí)間時(shí)就應(yīng)正視與CL/NLP有關(guān)的問(wèn)題。
訪談?wù)撸涸谶@21世紀(jì)初,亞洲的地位逐漸明顯,特別是中國(guó)在全球舞臺(tái)上所扮演的角色也越來(lái)越重要(文化、政治和經(jīng)濟(jì)等各方面)。因此,我們一點(diǎn)也不驚訝地看到中文成為很熱門(mén)的一種外語(yǔ)學(xué)習(xí)??墒?,中文和印歐語(yǔ)言比較起來(lái)有很大不同,這些差異有可能會(huì)阻礙支持語(yǔ)言學(xué)習(xí)的CL工具的發(fā)展嗎?如果有針對(duì)中文的特殊挑戰(zhàn)難題,我們?cè)撊绾谓鉀Q這些問(wèn)題呢?
左密夏博士:關(guān)于中文最近在外語(yǔ)學(xué)習(xí)中很受歡迎,這對(duì)一個(gè)開(kāi)通的(Open-minded)人來(lái)說(shuō)是一件很令人興奮的事。其實(shí),我一直以為語(yǔ)言學(xué)家們都應(yīng)該學(xué)習(xí)一門(mén)與自己的母語(yǔ)完全不同的語(yǔ)言。就此觀點(diǎn)而言,中文是一個(gè)很好的“候選人”,尤其當(dāng)我們顧及到它在全球的使用度。學(xué)習(xí)一個(gè)很多人使用的語(yǔ)言顯然是一項(xiàng)很好的投資。我認(rèn)為中文具有其他語(yǔ)言少有的一些優(yōu)點(diǎn)??上У氖?,我對(duì)中文的了解還很淺薄,但如果我的初步理解是正確的話,中文的詞匯相當(dāng)具有邏輯性,這是任何語(yǔ)言中一個(gè)重要的組成部分。不同于一些西方語(yǔ)言用戶也對(duì)自己的語(yǔ)言提出這種說(shuō)法,中文的確在一定程度上是非常有邏輯的。事實(shí)上,中文的詞匯似乎在許多方面類似于本體論(Ontology)(在特定領(lǐng)域中,概念間的關(guān)聯(lián)分類)。既然語(yǔ)言的功能不限于只做為表達(dá)工具,也能進(jìn)行思考,那擁有一個(gè)邏輯結(jié)構(gòu)很強(qiáng)的詞庫(kù)也可作為一項(xiàng)資產(chǎn)投資。因此,即使中文在很多方面和西方語(yǔ)言不同,但這并沒(méi)有阻止研究學(xué)者們針對(duì)中文進(jìn)行CL/NLP的研究。其實(shí)在過(guò)去的二三十年來(lái),在CL已經(jīng)有相當(dāng)?shù)某晒?例如臺(tái)灣Sinica的語(yǔ)言學(xué)研究所)。同時(shí),越來(lái)越多人對(duì)這種語(yǔ)言會(huì)有研究興趣,進(jìn)而基于研究的結(jié)果來(lái)研發(fā)語(yǔ)言學(xué)習(xí)/教材工具。關(guān)于問(wèn)題的第二部分,我深信在這領(lǐng)域中真正的研究瓶頸不是語(yǔ)言本身,而是在于語(yǔ)言學(xué)習(xí)者、教師、語(yǔ)言學(xué)家、計(jì)算機(jī)科學(xué)家、心理學(xué)家等之間缺乏真正的合作與交流。換言而之,這才是真正的問(wèn)題所在:更多在于人性層面問(wèn)題(人與人之間,行政制度的官僚化等),這些障礙都比語(yǔ)言特殊性的困難更不易被解決。
此外,從研究者的角度來(lái)看,有些問(wèn)題是與我們對(duì)想要進(jìn)行自動(dòng)化處理的學(xué)科主題不夠了解有關(guān)。例如,哪些知識(shí)需要被灌入程序中才能讓它能自動(dòng)產(chǎn)生有相關(guān)性的結(jié)果。話雖如此,我仍然認(rèn)為主要的障礙停留在各類學(xué)者專家們不知道如何一起工作,而決策者不夠重視跨學(xué)科的研究工作。
訪談?wù)撸鹤竺芟牟┦?,我們知道您的背景是心理語(yǔ)言學(xué)和認(rèn)知科學(xué)。這兩個(gè)學(xué)科在語(yǔ)言學(xué)習(xí)/教學(xué)研究和軟件的設(shè)計(jì)上能有哪些貢獻(xiàn)?
左密夏博士:這兩個(gè)學(xué)科的領(lǐng)域是很廣泛的,它們涵蓋許多的研究主題并不一定是語(yǔ)言學(xué)習(xí)方面最為重要的問(wèn)題。但在另一方面,在它們研究的問(wèn)題中,也有我們語(yǔ)言領(lǐng)域中極需要做更多清楚了解的問(wèn)題,例如如何有效學(xué)習(xí)和記憶、如何索取信息、如何激發(fā)/維持學(xué)生的學(xué)習(xí)興趣等等。心理學(xué)既可是理論也可是應(yīng)用的,但它的應(yīng)用成果工作很少被重視。而且,就像是有良好的科學(xué)和無(wú)趣的科學(xué)一樣,也有很好的應(yīng)用和沒(méi)什么用處的應(yīng)用程序。我認(rèn)為,蘋(píng)果計(jì)算機(jī)公司,今天被公認(rèn)為一個(gè)很成功的故事,很明顯地證明了良好的跨學(xué)科工作的重要性。他們的工程師一開(kāi)始便先從用戶的角度來(lái)設(shè)想,建造一臺(tái)為使用者而設(shè)計(jì)的機(jī)器,因此使用者不須花太多的時(shí)間來(lái)學(xué)習(xí)使用這臺(tái)機(jī)器,幾乎是很本能性的?;蛟S科學(xué)家和行政人員、決策者們都應(yīng)該吸取這樣的經(jīng)驗(yàn),偶爾轉(zhuǎn)個(gè)頭,看看語(yǔ)言用戶的需求。有多少次詞典編纂者曾試圖去理解一位字典用戶在查找一個(gè)單詞時(shí)是如何進(jìn)行的?為什么他突然停下來(lái),或者為什么繼續(xù)、又如何繼續(xù)查找?這些都是重要的問(wèn)題。我們太重視答案及它的正確率,卻忽視了“獎(jiǎng)賞”一下好的問(wèn)題,我們常忘記不適當(dāng)?shù)膯?wèn)題是找不到答案的,而一個(gè)很好的問(wèn)題常常已經(jīng)包含形成答案的“種子”。
回到您的問(wèn)題。心理語(yǔ)言學(xué)家和認(rèn)知科學(xué)家對(duì)于我們的頭腦、心理(記憶力、注意力等)如何運(yùn)作很感興趣。而不同于語(yǔ)言學(xué)家往往只能看“產(chǎn)品”(單詞、句子),心理學(xué)家主要是著重在觀察過(guò)程。他們感興趣的是結(jié)構(gòu)(什么組件被儲(chǔ)存)、組件之間的功能性關(guān)系(信息流通)等。他們思考觀察起點(diǎn)(輸入:場(chǎng)景、目標(biāo))和相對(duì)的輸入(想法)和輸出(句子)的中間過(guò)程步驟。因?yàn)閷?duì)過(guò)程有研究興趣,他們?cè)囍ο嗷?duì)照的圖表:兩個(gè)相鄰的級(jí)別中間,比如概念和詞語(yǔ),是如何牽引互動(dòng)?是否有來(lái)自較低層級(jí)別(例如聲音)對(duì)較高層級(jí)別的概念的反饋等等。
很顯然,我們期望這兩個(gè)學(xué)科能對(duì)語(yǔ)言的教學(xué)和學(xué)習(xí)做出直接的貢獻(xiàn)。事實(shí)上過(guò)去也有不少嘗試,但并沒(méi)有很好的效果。我知道的一些很好的方法不是科學(xué)家提出的,而是一些擁有豐富的語(yǔ)言學(xué)習(xí)或語(yǔ)言教學(xué)經(jīng)驗(yàn)的人提出的。他們不一定是心理學(xué)家或科學(xué)家,但他們擁有的特質(zhì)是對(duì)語(yǔ)言學(xué)習(xí)這個(gè)主題真正感到興趣,同時(shí)也擁有很多的第一手經(jīng)驗(yàn),所以他們的知識(shí)是有實(shí)證根據(jù)的。
這意味著他們?cè)?jīng)認(rèn)真地嘗試學(xué)習(xí)一門(mén)語(yǔ)言,包括那些和他們母語(yǔ)完全不同的語(yǔ)言。這也可能意味著他們繼續(xù)這樣做,學(xué)習(xí)發(fā)展一項(xiàng)新技能,同時(shí)也發(fā)展了對(duì)于學(xué)習(xí)新語(yǔ)言的寶貴基本知識(shí)。因此,他們發(fā)展了良好的觀察和分析能力,以反映他們的經(jīng)驗(yàn)。這些經(jīng)驗(yàn)不是植根于書(shū)籍或書(shū)本的知識(shí)上,而是在語(yǔ)言上的,因?yàn)樗亲鳛槿嗽谝粋€(gè)具體真實(shí)的環(huán)境中所活用與使用著的。
訪談?wù)撸嚎鐚W(xué)科及多學(xué)科研究對(duì)于應(yīng)用程序與工具的開(kāi)發(fā)在哪些方面有幫助呢?
左密夏博士:從我的角度來(lái)看,答案很簡(jiǎn)單:即使您本身有很好的直覺(jué)和充分的經(jīng)驗(yàn),有時(shí)候在研發(fā)過(guò)程中仍然會(huì)需要依賴于您所知不多的元素。假設(shè)您是一位做糕點(diǎn)的專家,但這仍然不意味著您知道如何成功地銷售它們。售賣是一種專門(mén)知識(shí),和糕點(diǎn)或餅干的創(chuàng)作有極少的相關(guān)處。它是與市場(chǎng)營(yíng)銷、美學(xué)、經(jīng)濟(jì)學(xué)(如何標(biāo)出合適的價(jià)格)等相關(guān)聯(lián)的。由此可見(jiàn),這牽涉到許多不同領(lǐng)域的專門(mén)知識(shí)。
我拿前面提到的蘋(píng)果計(jì)算機(jī)公司為例。來(lái)自Cupertino的工程師很重視人體因素。他們已經(jīng)創(chuàng)建了一個(gè)非常適合人使用的界面。機(jī)器的設(shè)計(jì)考慮配合使用者的習(xí)慣。這里面的理念就是由機(jī)器,或更確切地說(shuō),由它的設(shè)計(jì)者來(lái)配合使用者,而不是由使用者來(lái)適應(yīng)機(jī)器。這樣的策略被其競(jìng)爭(zhēng)對(duì)手(微軟)完全忽視,而這幾乎毀了他們。有趣的是,微軟從蘋(píng)果的 “配方”(界面)得到了啟發(fā),從那之后,他們?cè)俅巫龅孟喈?dāng)不錯(cuò)。我們所談?wù)摰闹黝}跨學(xué)科研究是有很多優(yōu)點(diǎn)的,其中很明顯的兩點(diǎn)就是參與者之間相互交流與豐富彼此的知識(shí)與經(jīng)驗(yàn),進(jìn)而提高最終成果的質(zhì)量(即正確度的優(yōu)化)。
訪談?wù)撸阂堰@些想法變成被一般人使用的具體程序有多難?有哪些瓶頸?
左密夏博士:如我先前已有的建議,主要瓶頸既不是缺乏知識(shí),也不是缺錢,主要的障礙是人們的自我中心意識(shí)。身為研究者,我們應(yīng)該保有謙虛的態(tài)度。如果想要做的東西的確很好,那就需要時(shí)間和真誠(chéng)投入。您可能始終并沒(méi)有成功,但至少您已經(jīng)盡力了。此外,最后成果歸功于誰(shuí)并不那么重要(或者,不應(yīng)該是那么重要)。因?yàn)檎胬硎牵何覀冏约河械闹饕獬3J怯蓜e人、別處而來(lái)的,這是創(chuàng)作的正常過(guò)程。
訪談?wù)撸赫缫呀?jīng)提到的,我們生活周遭充斥著各種“小玩意(Gadgets)”和看似擁有無(wú)限可能性的設(shè)備與器具。自然語(yǔ)言處理在這些對(duì)象扮演什么樣的角色?有什么樣的限制?
左密夏博士:這是一個(gè)有趣的問(wèn)題。的確,在現(xiàn)代生活中,我們周圍常環(huán)繞著這些“好的服務(wù)與工具”,但大多數(shù)人并沒(méi)有意識(shí)到設(shè)計(jì)制造它們時(shí)是多么困難。當(dāng)年輕人得到通過(guò)復(fù)雜計(jì)算的外文翻譯時(shí),不要期待從他們的臉上看到驚喜的表情。對(duì)年輕的這一代來(lái)說(shuō),這些都好像很理所當(dāng)然的事。然而更令人驚異的事實(shí)是,雖然我們?cè)诶斫庹Z(yǔ)言方面有了真正的進(jìn)展,當(dāng)涉及到溝通信息時(shí)我們?nèi)匀豢烧f(shuō)是遲滯不前與進(jìn)展不大的。您或許可以將語(yǔ)言說(shuō)得很好,我的意思是沒(méi)有犯任何文法、發(fā)音、或選詞的錯(cuò),但仍無(wú)法清楚地表達(dá)自己的意見(jiàn)、想法、或讓對(duì)方感動(dòng)。您可以通過(guò)邀請(qǐng)您關(guān)心卻不熟的人一起吃晚飯來(lái)測(cè)試前述的論點(diǎn)。您也可以嘗試是否能成功地讓您的父親、老師、還是警察了解您的觀點(diǎn),尤其是如果您的看法與他們有很大不同的時(shí)候。這已不是語(yǔ)言的問(wèn)題,而是人文知識(shí)的問(wèn)題。
顯然,語(yǔ)言及其處理是很重要的,但更重要的是溝通的藝術(shù)。當(dāng)然,語(yǔ)言的使用也有其它目的,如數(shù)據(jù)檢索和信息取得等。從這個(gè)角度來(lái)看,語(yǔ)言本身是必要的。然而,知識(shí),即取得的信息,不應(yīng)該是唯一被考慮的成分,如何使用它也是個(gè)值得探討的問(wèn)題。
從長(zhǎng)遠(yuǎn)來(lái)看,我相信不會(huì)有太多限制來(lái)阻礙計(jì)算機(jī)科技成功地進(jìn)行復(fù)雜的認(rèn)知與語(yǔ)言任務(wù)的。況且現(xiàn)今似乎已有充分的證據(jù)讓人相信某些計(jì)算機(jī)已經(jīng)比我們?cè)S多人更聰明,他們很快就能超越我們之中大多數(shù)人的表現(xiàn)。當(dāng)然,它們?nèi)匀蝗狈υS多特質(zhì),比如一般常識(shí)、情緒等,但這些局限性很可能在不太遙遠(yuǎn)的將來(lái)就能被克服。總之,機(jī)器可以在某些領(lǐng)域比人們有更好的執(zhí)行成果,這事實(shí)本身并不是一個(gè)問(wèn)題,因?yàn)橹灰覀儗?duì)它們?nèi)员S锌刂颇芰?。然而,這可能不會(huì)永久保持不變,我們肯定要學(xué)習(xí)。機(jī)器已經(jīng)在“控制”我們的生活(例如電視)了,但這該指責(zé)誰(shuí)呢?生活周遭中充斥著眾多噱頭和符號(hào)形象,我們出現(xiàn)了變得越來(lái)越需要輔助和依賴的現(xiàn)象。我們正在失去越來(lái)越多曾經(jīng)擁有的技巧和能力(記憶、觀察等)。盡管如此,這現(xiàn)象是可以修正的。智慧和哲學(xué)應(yīng)該始終優(yōu)先于技術(shù),這也就是科技始終來(lái)自于人性。
訪談?wù)撸褐x謝您接受我們的采訪。
[1] J. Aitchison. Words in the Mind: An Introduction to the Mental Lexicon[M]. Oxford and New York: Basil Blackwell, 2003.
[2] J. Aitchison. The Articulate Mammal: An Introduction to Psycholinguistics[M]. London and New York: Routledge, 1998.
[3] G. Altmann. The Ascent of Babel: An Exploration of Language, Mind,and Understanding[M]. Oxford: Oxford University Press, 2012.
[4] C. Boeckx. Language in Cognition: Uncovering Mental Structures and the Rules Behind Them[M]. Chichester: Wiley-Blackwell, 2010.
[5] W. Levelt. Speaking: From Intention to Articulation[M]. Cambridge,Mass: Bradford Book/MIT Press, 1989.
[6] G. Miller and P. Johnson-Laird. Language and Perception[M].Cambridge:Belknap Press, 1976.
[7] S. Pinker. The Language Instinct[M]. Cambridge, MA: MIT Press,1994.
[8] S. Pinker. How the Mind Works[M]. London: Penguin Press, 1997.
[9] L. Vygotsky. Thought and Language[M]. Cambridge, MA: MIT Press,1961.
[10] LT. Language Technology[DB/OL]. http://en.wikipedia.org/wiki/Language_technology, 2015-03-27.
[11] AI.Artificial Intelligence[DB/OL]. http://en.wikipedia.org/wiki/Artificial_intelligence, 2015-03-27.
[12] J. Read. Research in Teaching Vocabulary[J].Annual Review of Applied Linguistics, 2004, (24): 146-161.
[13] T.D. Rudick. Rikai[DB/OL]. http://www.rikai.com/perl/HomePage.pl?Language=Ja, 2015-03-27.
[14] Popjisyo. Read Japanese, Chinese and Korean Web Sites with Popup Hints [DB/OL]. http://www.popjisyo.com/WebHint/Portal_e.aspx,2015-03-27.
[15] C.J. Fillmore. “Corpus Linguistics” or “Computer-aided Armchair Linguistics”[A].J.Svartvik. In Directions in Corpus Linguistics.Proceedings of Nobel Symposium 82.Stockholm, 4-8 Auguest 1991[C].Berlin: Mountain de Gruyter, 1992.35-60.
[16] V. Fromkin, R. Rodman, and N. Hyams. An Introduction to Language[M]. Boston, MA: Thomson Wadsworth, 2007.
[17] M. Gasser, How Language Works: The Cognitive Science of Linguistics[DB/OL]. http://www.indiana.edu/~hlw, 2015-03-27.
[18] A. Radford, R.M. Atkinson, D. Britain, H. Clahsen, and A.J. Spencer.Linguistics: An Introduction [M]. Oxford: Cambridge University Press,1999.
[19] D. Jurafsky and J.H. Martin. Speech and Language Processing:An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition [DB/OL]. http://www.cs.colorado.edu/%7Emartin/SLP/Updates/1.pdf, 2015-03-27.
[20] P.M. Nugues. An Overview of Language Processing [DB/OL]. http://link.springer.com/chapter/10.1007%2F3-540-34336-9_1, 2015-03-27.
[21] CL. Computational linguistics[DB/OL]. http://en.wikipedia.org/wiki/Computational_linguistics, 2015-03-27.
[22] H. Uszkoreit.DFKI-LT - What is Language Technology? [DB/OL].http://www.dfki.de/lt/lt-general.php, 2015-03-27.
[23] H. Uszkoreit. Language Technology-A First Overview[DB/OL].http://www.dfki.de/~hansu/LT.pdf, 2015-03-27.
[24] NLP. Natural Language Processing[DB/OL]. http://en.wikipedia.org/wiki/Natural_language_processing, 2015-03-27.
[25] NLP. History of Natural Language Processing[DB/OL].http://en.wikipedia.org/wiki/History_of_natural_language_processing, 2015-03-27.
[26] J. Allen, Natural Language Understanding[J]. Journal Computational Linguistics,1988, 14(4): 96-97.
[27] R. Grishman. Computational Linguistics: An Introduction. Studies in Natural Language Processing[M]. Cambridge: Cambridge University Press, 1986.
[28] D. Jurafsky and J.H. Martin. Speech and Language Processing[DB/OL].http://www.cs.colorado.edu/~martin/slp.html,2015-03-27.
[29] C.Manningand H. Schütze. Foundations of Statistical Natural Language Processing[DB/OL]. http://nlp.stanford.edu/fsnlp,2015-03-27.
[30] C. Manning, P.Raghavan, and H. Schütze. Introduction to Information Retrieval [DB/OL]. http://nlp.stanford.edu/IR-book/informationretrieval-book.html,2015-03-27.
[31] T. Winograd. Language as a Cognitive Process: Volume I: Syntax[M].Reading MA: Addison-Wesley, 1983.
[32] Clark, C. Fox, and S. Lappin. The Handbook of Computational Linguistics and Natural Language Processing[M]. Oxford: Wiley-Blackwell, 2010
[33] R. Cole, J. Mariani, H.Uszkoreit, A. Zaenen, and V. Zue. Survey of the State of the Art in Human Language Technology[M]. Oxford:Cambridge University Press, 1996.
[34] R. Dale, H. Moisl, and H.L. Somers. Handbook of natural language processing [M]. New York: Marcel Dekker, 2000.
[35] T. McEnery. Computational Linguistics: A Handbook & Toolbox For Natural Language Processing[M]. Wilmslow: Sigma, 1992.
[36] R. Mitkov. Handbook of Computational Linguistics[M].Oxford: Oxford University Press, 2005
[37] S. Bird, E. Klein, and E. Loper. Natural Language Processing with Python– Analyzing Text with the Natural Language Toolkit[DB/OL].http://www.nltk.org/book, 2015-03-27.
[38] P. Blackburn and K. Striegnitz. Natural Language Processing Techniques in Prolog[DB/OL].http://cs.union.edu/~striegnk/courses/nlp-with-prolog/html, 2015-03-27.
[39] M. Covington, M. Natural Language Processing for Prolog Programmers[M]. Englewood Cliffs, N.J: Prentice Hall, 1994.
[40] G. Ingersoll, T. Morton, and A.L. Farris. Taming Text. How to Find,Organize, and Manipulate It[M]. NY: Manning Publication, 2013.
[41] G. Gazdarand C. Mellish. Natural Language in LISP: an introduction to computational linguistics [M]. Boston:Addison Wesley, 1989.
[42] P.M. Nugues. An Introduction to Language Processing with Perl and Prolog[M]. Berlin: Springer, 2006.
[43] G.T.M. Altmann. History of Psycholinguistics[DB/OL].http://www.psycholinguistics.com/gerry_altmann/research/papers/files/encyclopedia.pdf, 2015-03-27.
[44] G.T.M. Altman. The language machine: Psycholinguistics in review[J]. British Journal of Psychology, 2001, (92): 129-170.
[45] H.H.Clark and E.V. Clark. Psychology and language: An introduction to psycholinguistics [M]. New York: Harcourt Brace Jovanovich, 1977.
[46] T. Harley. The Psychology of Language From Data to Theory[M].Essex, UK: Psychology Press, 2008.
[47] M. Christiansen and N. Chater. Connectionist Psycholinguistics [M].Santa Barbara, California: Greenwood Publishing Group, 2001.
[48] Dijkstra and K. de Smedt. Computational psycholinguistics: AI and connectionist models of human language processing[M]. London:Taylor & Francis, 1996.
[49] J. Ingram. Neurolinguistics: An Introduction to Spoken Language Processing and Its Disorders[M]. Cambridg: Cambridge University Press, 2007.
[50] S. Lamb. Pathways of the Brain: The Neurocognitive Basis of Language[DB/OL]. http://www.ruf.rice.edu/%7Elngbrain/main.htm,2015-03-27.
[51] 魏雪峰,宋靈青.學(xué)習(xí)分析:更好地理解學(xué)生個(gè)性化學(xué)習(xí)過(guò)程——訪談學(xué)習(xí)分析研究專家George Siemens教授[J].中國(guó)電化教育, 2013,(8):1-4.
[52] J.M.Su, S.S. Tseng, H.Y.Lin, and C.H. Chen. A Personalized Learning Content Adaption Mechanism to Meet Diverse User Needs in Mobile Learning Environment[J]. User Modeling and User-Adapted Interaction(UMUAI), 2011, 21(1):5-49.
[53] S.S. Tseng, P.C.Sue, J.M.Su, J.F.Weng, and W.N. Tsai. A New Approach for Constructing the Concept Map[J]. Computers &Education, 2007, (49): 691-707.
[54] ACL. Association for Computational Linguistics[DB/OL]. https://www.aclweb.org, 2015-03-27.
[55] Anthology. ACL Anthology-A Digital Archive of Research Papers in Computational Linguistics [DB/OL]. http://aclweb.org/anthology,2015-03-27.
[56] ACL Wiki. ACL Wiki Articles and Tutorials[DB/OL]. http://aclweb.org/aclwiki/index.php?title=Research, 2015-03-27.
[57] Neurolinguistics. Lngbrain-Language and Brain: Neurocognitive Linguistics [DB/OL]. http://www.ruf.rice.edu/~lngbrain, 2015-03-27.
[58] S. Clark. Practical Linguistically Motivated Parsing[DB/OL]. http://videolectures.net/clspss09_clark_lspl, 2015-03-27.
蘇俊銘:博士,助理教授,研究方向?yàn)檫m性學(xué)習(xí)與評(píng)量、智能型系統(tǒng)、擴(kuò)增實(shí)境與仿真系統(tǒng)、可視化人機(jī)互動(dòng)、云端及因特網(wǎng)應(yīng)用(junming.su@gmail.com)。
宋靈青:博士,編輯,副編審,研究方向?yàn)樾畔⒓夹g(shù)教育實(shí)踐與教師專業(yè)發(fā)展(songlingqing@126.com)。
Editor’s Commentary:Knowledge, i.e. information and its transmission via language are omnipresent in our modern life of the 21st century. People are continuously receiving information, communicating and social networking via their desktops, television sets and mobile devices in work and in their private life. How do we transform traditional static information, for instance, books, newspapers and so on to dynamic data, interpretable in various forms (written/audio/video), accessible at any time, from any where? What are the “inevitable” steps in the process? In order to understand the upstream research for these achievements, we have interviewed Dr.Michael Zock on this topic to glean some of his insights on these topics. Dr. Zock has been active in Computational Linguistics(CL)and Natural Language Processing(NLP)for more than 30 years. He has obtained his PhD in experimental psychology, and has been appointed as tenured researcher by the CNRS (French National Center for Scientific Research). After 20 years working at LIMSI, an Artificial Intelligent Laboratory near Paris, he has joined the NLP group of the LIF (Lab. of Fundamental Informatics)of Aix-Marseille University in 2006.His research interests lie in language production by and large. Starting from user needs and empirical findings (psycholinguistics, neurosciences), he attempts to build tools to help people to acquire the skill of speaking and/or writing. His current research comprise: message-planning, outline planning, lexical access, and the acquisition of basic speaking skills in a foreign language. Dr. Zock is an international well-known researcher in NLP. He has published extensively and some of his publications are considered to be essential for the field. Besides playing a federating role to gather people around an idea(Natural Language Generation, CALL, Cognitive aspects of the lexicon), he has often produced pioneering ideas, most prominently on conceptual authoring, lexical access and language learning (how to learn quickly and painlessly the skill of speaking a foreign langue). His research has often been cited as it has helped to advance the field. Having been invited to Japan and Korea many times, Dr. Zock is currently collaborating with Prof. Jun-Ming Su of the University of Tainan in Taiwan. His stay is financed by a government funding research project in the domain of Foreign Language Learning/Teaching.
Computational Linguistics (CL) and Natural Language Processing (NLP): A Research Field with Impact on Our Modern Life——An Interview with Michael Zock
Su Junming1,Song Lingqing2
(1.Department of Information and Learning Technology, University of Tainan, Tainan Taiwan 70101;2.National Center for Educational Technology, Beijing 100031)
Natural Language Processing; Computational Linguistics; Cognitive Science; Information Retrieval

編者按:在21世紀(jì)現(xiàn)代生活中,知識(shí),即信息,通過(guò)語(yǔ)言媒介的傳達(dá)無(wú)所不在。大眾無(wú)時(shí)無(wú)刻在工作場(chǎng)合或私人領(lǐng)域中不斷地通過(guò)家庭計(jì)算機(jī)、電視機(jī)和移動(dòng)通訊設(shè)備來(lái)接收信息、進(jìn)行傳播和網(wǎng)絡(luò)社交。我們是如何通過(guò)各種不同形式(文字/音頻/視頻)將傳統(tǒng)的靜態(tài)信息(例如書(shū)本與報(bào)紙等)轉(zhuǎn)換成動(dòng)態(tài)數(shù)據(jù)的,而且在任何時(shí)間,從任何地點(diǎn)都能取得?過(guò)程中有哪些“不可避免”的步驟呢?為了了解實(shí)現(xiàn)這些成果的相關(guān)研究,我們邀訪了左密夏(Michael Zock)博士,請(qǐng)他針對(duì)此主題根據(jù)他的特長(zhǎng)及多年來(lái)的研究經(jīng)驗(yàn)分享見(jiàn)解及看法。
左密夏博士在自然語(yǔ)言處理(Natural Language Processing)和計(jì)算語(yǔ)言學(xué)(Computational Linguistics)的研究領(lǐng)域已經(jīng)有30多年的研究經(jīng)驗(yàn)。他在獲得實(shí)驗(yàn)心理學(xué)博士學(xué)位后,被聘任為法國(guó)國(guó)家科學(xué)研究中心的終身研究員。他在巴黎附近的人工智能實(shí)驗(yàn)室LIMSI工作了20多年。自2006年起,在艾克斯馬賽大學(xué)(Aix-Marseille)基礎(chǔ)信息學(xué)實(shí)驗(yàn)室(Lab. of Fundamental Informatics)的自然語(yǔ)言處理組(NLP Group)工作。他的研究興趣主要在于語(yǔ)言生成領(lǐng)域(Language Production),以用戶需求與實(shí)證研究(心理語(yǔ)言學(xué)、神經(jīng)科學(xué))結(jié)果為出發(fā)點(diǎn),進(jìn)行研發(fā)與構(gòu)建工具來(lái)幫助語(yǔ)言學(xué)習(xí)者獲得口語(yǔ)表達(dá)和(或)書(shū)寫(xiě)的能力。他目前的研究重點(diǎn)包括:信息規(guī)劃(Message Planning)、寫(xiě)作大綱規(guī)劃(Outline Planning)、詞匯存取(Lexical Access)和基礎(chǔ)外語(yǔ)口說(shuō)技能學(xué)習(xí)(Basic Speaking Skills Acquisition)。
左密夏博士在自然語(yǔ)言處理研究領(lǐng)域是國(guó)際知名學(xué)者。他發(fā)表了許多研究成果,其中包含該領(lǐng)域中被認(rèn)為非常重要的研究。他除了積極扮演促進(jìn)學(xué)者間進(jìn)行各樣主題(如自然語(yǔ)言生成、計(jì)算機(jī)輔助教學(xué)、詞匯的認(rèn)知特點(diǎn))交流的角色(如通過(guò)舉辦研討會(huì)、暑期專題學(xué)校、專題工作坊等)外,也經(jīng)常提出創(chuàng)新想法,尤其是概念創(chuàng)作、詞匯存取和語(yǔ)言學(xué)習(xí)(如何快速、輕松地學(xué)習(xí)外語(yǔ)口語(yǔ)表達(dá)技巧)。因此,他的研究在該領(lǐng)域中經(jīng)常被引用。他也曾多次獲得國(guó)家研究經(jīng)費(fèi)受邀到日本和韓國(guó)等國(guó)參與長(zhǎng)期與短期的專題研究,并于2013-2014年間應(yīng)邀聘請(qǐng)?jiān)谂_(tái)灣臺(tái)南大學(xué)與蘇俊銘教授合作研究政府資助的外語(yǔ)學(xué)習(xí)/教學(xué)研究項(xiàng)目。
G434
A
1006—9860(2015)05—0006—08
*本文受科研項(xiàng)目“支持自律學(xué)習(xí)的適性學(xué)習(xí)與診斷系統(tǒng)之研究與評(píng)估”(項(xiàng)目編號(hào):NSC 102-2811-S-024-001和NSC 101-2511-S-024-004-MY3)資助。