對(duì)抗與聯(lián)結(jié)：生成語法與語料庫語言學(xué)

2018-08-28 09:44:16蔡穎瑩

北方文學(xué) 2018年20期

關(guān)鍵詞：人工智能

蔡穎瑩

摘要：隨著1957年《句法結(jié)構(gòu)》的出版，語言學(xué)研究進(jìn)入了一個(gè)全新的時(shí)代，即喬姆斯基語言學(xué)革命。而語料庫語言學(xué)自上世紀(jì)50年代以來受到了質(zhì)疑與挑戰(zhàn)。隨后，由于計(jì)算機(jī)技術(shù)的快速發(fā)展，語料庫語言學(xué)又逐漸走向復(fù)蘇。本文旨在通過分析生成語法與語料庫語言學(xué)在研究理念、研究范圍和研究方法等層面的差異，及其存在的局限，闡述二者的對(duì)抗關(guān)系。同時(shí)，通過二者在人工智能領(lǐng)域的應(yīng)用，剖析生成語法與語料庫語言學(xué)的聯(lián)結(jié)關(guān)系，從而挖掘其合作潛力。

關(guān)鍵詞：語料庫語言學(xué)；生成語法；人工智能；對(duì)抗；聯(lián)結(jié)

20世紀(jì)50年代，隨著喬姆斯基理論改變了語言學(xué)研究的實(shí)證方向，語料庫語言學(xué)作為語言研究方法受到了普遍質(zhì)疑。長久以來，生成語法和語料庫語言學(xué)被稱為兩種截然不同、相互對(duì)立的研究范式。生成語法和語料庫語言學(xué)的發(fā)展也伴隨著雙方的互相批判。本文首先通過分析生成語法和語料庫語言學(xué)在研究范圍、研究方法和研究思路上的差異，以及各自存在的優(yōu)勢(shì)和不足，闡述二者的對(duì)抗關(guān)系。同時(shí)，本文借助生成語法和語料庫語言學(xué)在人工智能領(lǐng)域，尤其是自然語言處理層面的互補(bǔ)，揭示兩者在一定程度上的聯(lián)結(jié)關(guān)系，從而挖掘生成語法和語料庫語言學(xué)的合作潛力。

一、生成語法與語料庫語言學(xué)的對(duì)抗

生成語法和語料庫語言學(xué)在研究范圍、研究方法和研究程序上有較大的差異。

1957年喬姆斯基《句法結(jié)構(gòu)》的出版標(biāo)志著生成語法的誕生。生成語法采用數(shù)學(xué)模擬方式來進(jìn)行語言研究，使用符號(hào)和公式來規(guī)定概念，表達(dá)規(guī)則，以嚴(yán)密的方法把語言機(jī)制形式化，以達(dá)到用有限的公式來生成無限的句子的目的。生成語法認(rèn)為，語言學(xué)的目的就是要形式化地構(gòu)造出語法的公理系統(tǒng)，用以精確地描寫人的語言能力（沈家煊，2004）。生成語法的研究范圍限于人的語言知識(shí)或語言能力，而不是語言的運(yùn)用（徐烈炯 1988）。在研究方法上，生成語法主要采用內(nèi)省法，即語言學(xué)家本人作為資料提供人，將自己的語感作為判斷語言現(xiàn)象歧義、正誤、可接受性等的依據(jù)。在研究程序上，生成語法的研究一般包括九個(gè)步驟：定向、選題、發(fā)現(xiàn)、描寫、解釋、推廣、論證、批評(píng)、反應(yīng)（Botha 1981）。

語料庫語言學(xué)是當(dāng)代語言學(xué)與計(jì)算機(jī)科學(xué)交叉的一門新興學(xué)科。它用計(jì)算機(jī)手段對(duì)巨量的語料庫進(jìn)行高速檢索、統(tǒng)計(jì)和展示，以揭示真實(shí)語言使用的傾向性規(guī)律及其所傳遞的意義、功能乃至思想意識(shí)（何安平 2012）。Hunston（2002）曾指出，語料庫語言學(xué)無論對(duì)語言研究還是語言的應(yīng)用研究都具有革命性的作用。語料庫語言學(xué)研究自然語言的使用，在研究范圍上一般涉及語言定量分析、詞典編纂、自然語言理解等領(lǐng)域。在研究方法上，主要包括兩個(gè)步驟：對(duì)自然語言進(jìn)行加工、標(biāo)注；對(duì)已經(jīng)標(biāo)注好的語料，采用數(shù)理統(tǒng)計(jì)的方法進(jìn)行研究。在研究程序上，語料庫語言學(xué)內(nèi)部有兩個(gè)不同的取向：“基于語料庫”和“語料庫驅(qū)動(dòng)”，兩者在語料庫的性質(zhì)、語料庫建設(shè)以及語料庫分析方面有較大差異。

生成語法和語料庫語言學(xué)在研究理念上的本質(zhì)差異造成了兩者的對(duì)抗關(guān)系。喬姆斯基強(qiáng)調(diào)區(qū)分語言能力和語言應(yīng)用兩個(gè)概念。他認(rèn)為，語言學(xué)研究的對(duì)象應(yīng)當(dāng)是人腦的語言能力而非語言應(yīng)用。喬姆斯基（1965）指出，“任何自然語料都是偏頗的”，由于自然語料會(huì)受到各種因素的影響，因而以自然語料為研究對(duì)象、對(duì)語言應(yīng)用進(jìn)行分析的語料庫語言學(xué)無法揭示語言本質(zhì)。然而，Sinclair（1991）認(rèn)為，語料庫的研究方法“能夠系統(tǒng)地對(duì)大數(shù)量的文本語料進(jìn)行審視，使我們有可能發(fā)現(xiàn)一些以前從未有機(jī)會(huì)發(fā)現(xiàn)的語言事實(shí)。”同時(shí)，生成語法具有高度的抽象性復(fù)雜性。雖然喬姆斯基一再強(qiáng)調(diào)短語結(jié)構(gòu)規(guī)則和轉(zhuǎn)換的簡(jiǎn)單化，然而深層結(jié)構(gòu)自身顯得抽象和復(fù)雜。再者，生成語法只能揭示人類語言能力的某些比較狹窄的方面，無法進(jìn)行語言的歷時(shí)研究以及對(duì)創(chuàng)造性語言的研究（如詩歌）。最后，生成語法的研究語料存在先驗(yàn)論的特性。例如在《句法結(jié)構(gòu)》中，喬姆斯基分析了28個(gè)自造的例句，這樣的語言數(shù)據(jù)脫離了語境，而語境恰恰在判斷句子是否合乎語法或是否可接受上具有重要作用。

二、生成語法與語料庫語言學(xué)的聯(lián)結(jié)：人工智能

（一）人工智能的產(chǎn)生與發(fā)展

對(duì)人工智能（Artificial Intelligence，簡(jiǎn)稱AI）的正式研究發(fā)軔于1956年的達(dá)特茅斯會(huì)議。在此次會(huì)議上，約翰·麥卡錫首次提出了“人工智能”這一概念。也是在這次會(huì)議上，模擬人的啟發(fā)式搜索問題解決的計(jì)算機(jī)程序“邏輯理論家”證明了《數(shù)學(xué)原理》中的38條邏輯推理。這一事件被認(rèn)為機(jī)器執(zhí)行認(rèn)知任務(wù)的第一個(gè)實(shí)例，因而1956年也被稱為“AI誕生年”。

20世紀(jì)60年代，人工智能的研究活動(dòng)越來越受到重視，研究者對(duì)求解、博弈、機(jī)器視覺、自然語言理解等領(lǐng)域進(jìn)行了深入研究，人工智能進(jìn)入高速發(fā)展時(shí)期。從20世紀(jì)80年代開始，經(jīng)過六十余年的發(fā)展，原先作為計(jì)算機(jī)科學(xué)領(lǐng)域分支的人工智能已成為跨領(lǐng)域的交叉學(xué)科，甚至成為人類科技?xì)v史發(fā)展上的本質(zhì)奇點(diǎn)。

（二）生成語法與語料庫語言學(xué)的聯(lián)結(jié)

人工智能的核心在于“智能”和“自動(dòng)化”，一般根據(jù)“智能”和“自動(dòng)化”程度將人工智能的發(fā)展分為三個(gè)階段即：機(jī)器學(xué)習(xí)、機(jī)器智能、機(jī)器意識(shí)。實(shí)現(xiàn)“智能”和“自動(dòng)化”的關(guān)鍵技術(shù)主要包括自然語言處理（Natural Language Processing，簡(jiǎn)稱NLP）、自動(dòng)推理（Automated Reasoning）、機(jī)器學(xué)習(xí)（Machine Learning）等。其中，NLP涉及對(duì)語言的處理能力，是人工智能的高級(jí)表現(xiàn)形式。NLP的實(shí)現(xiàn)離不開語言學(xué)，尤其是生成語法與語料庫語言學(xué)。

1.生成語法在AI領(lǐng)域的應(yīng)用

在1956年達(dá)特茅斯會(huì)議召開的同時(shí)，喬姆斯基也在同年提出了生成語法，后發(fā)表在1957年出版的《句法結(jié)構(gòu)》中。生成語法的要領(lǐng)是：某一語言的全部合乎語法的句子是從一組抽象的符號(hào)通過一套規(guī)則的操作而生成出來的。當(dāng)今大多數(shù)用計(jì)算機(jī)來模擬人類認(rèn)知過程的系統(tǒng)都是基于這種“符號(hào)操作”模式，整個(gè)人腦被視為一部按程序操作符號(hào)的巨型計(jì)算機(jī)。可見，人工智能在發(fā)展初期就吸收了生成語法的觀點(diǎn)。同時(shí)，傳統(tǒng)NLP涉及一個(gè)重要的步驟，即句法分析。生成語法在這一層面發(fā)揮著無可替代的作用。對(duì)于如：“今天晚上去吃火鍋吧，不，去吃燒烤吧。”這樣的句子，機(jī)器本身無法意識(shí)到句子中自我糾正這一環(huán)節(jié)。那么，利用句法樹便可以對(duì)句子成分之間的結(jié)構(gòu)進(jìn)行簡(jiǎn)化，幫助機(jī)器在識(shí)別和理解句子的過程中，對(duì)說話人的真正意圖進(jìn)行識(shí)別。

2.語料庫語言學(xué)在AI領(lǐng)域的應(yīng)用

NLP實(shí)現(xiàn)的前提是對(duì)機(jī)器的大量訓(xùn)練。通過對(duì)自然語言進(jìn)行詞語解析、信息抽取、時(shí)間因果、情緒判斷等技術(shù)處理，最終達(dá)到讓計(jì)算機(jī)“懂得”人類語言認(rèn)知。在NLP的底層數(shù)據(jù)層，語料庫功不可沒。例如，作為NLP基本步驟之一的分詞就需要語料庫技術(shù)的支持：

a.她憑她的才能得到了這份工作。

b.她這樣的人才能夠留下來，是我們的幸運(yùn)。

在上述兩個(gè)句子中，a句中的“才能”明顯是一個(gè)詞，而b句中的“人才”和“能夠”卻應(yīng)該分開。在訓(xùn)練分詞模型的過程中，針對(duì)固定詞表進(jìn)行“一刀切”顯然不可取。這時(shí)就需要大量的語料輸入幫助模型達(dá)到更好的準(zhǔn)確率。與之類似，現(xiàn)行的聊天機(jī)器人、機(jī)器翻譯等基于NLP開發(fā)的人工智能，在建設(shè)初期都離不開語料庫作為語義識(shí)別的基礎(chǔ)。

總而言之，生成語法和語料庫語言學(xué)在人工智能的發(fā)展過程中均發(fā)揮著重要作用。一方面，基于語料庫訓(xùn)練的機(jī)器，學(xué)到的是大概率下最可能的說法，因而生成的語言常常令人感到乏善可陳，丟失了人類語言的創(chuàng)造性。另一方面，純粹依靠生成語法的人工智能，雖然能生成無限多的句子，卻無法保證句子的正確性。由此可見，生成語法和語料庫在人工智能領(lǐng)域，尤其是NLP技術(shù)層面，存在互補(bǔ)的作用。

三、結(jié)論

本文通過分析生成語法和語料庫語言學(xué)在研究范圍、研究方法和研究思路上的差異，解釋了生成語法和語料庫語言學(xué)的對(duì)抗關(guān)系。同時(shí)，本文以生成語法和語料庫語言學(xué)在人工智能領(lǐng)域，尤其是自然語言處理層面的互補(bǔ)關(guān)系，厘清了兩者的聯(lián)結(jié)關(guān)系。因而，生成語法和語料庫語言學(xué)并非傳統(tǒng)觀點(diǎn)中單純對(duì)立關(guān)系，而是既對(duì)立又統(tǒng)一的復(fù)雜關(guān)系，共同寓于語言學(xué)研究中。

事實(shí)上，許多語料庫語言學(xué)家積極投入語言理論的研究，而許多生成語法學(xué)家也十分關(guān)注作為理論研究基礎(chǔ)的數(shù)據(jù)。而其在人工智能領(lǐng)域的聯(lián)結(jié)或?qū)㈩A(yù)示著生成語法和語料庫語言學(xué)將在更多領(lǐng)域碰撞出意想不到的火花。

參考文獻(xiàn)：

[1]Botha，R.The Conduct of Linguistic Inquiry[M].The Hague：Mouton，1981.

[2]Chomsky，N.Aspect of the Theory of Syntax[M].Massachusetts：The MIT Press，1965.

[3]Hunston，S.Corpora in Applied Linguistics[M].Cambridge：Cambridge University Press，2002.

[4]Sinclair，J.Corpus，Concordance，Collocation[M].Oxford：Oxford University Press，1991.

[5]何安平.語料庫語言學(xué)[J].中國外語，2012（5）：19.

[6]沈家煊.人工智能中的“聯(lián)結(jié)主義”和語法理論[J].外國語，2004（3）：2-9.

[7]王琦.語料庫語言學(xué)的發(fā)展及其與生成語法的關(guān)系[J].西北師大學(xué)報(bào)（社會(huì)科學(xué)版），2007（6）：110-114.

[8]徐烈炯.生成語法理論[M].上海：上海外語教育出版社，1988.

[9]徐愚.機(jī)器與語言——對(duì)人工智能語義問題的探尋[D].北京：中共中央黨校，2016.