方明之
摘 要 自然語言處理技術是人工智能領域重要的研究方向之一。隨著技術的不斷進步,計算機已經(jīng)能夠在一定程度上理解人類的語言表達,并完成相應的工作。目前,自然語言處理技術已經(jīng)在信息檢索、機器翻譯、智能問答等領域有著廣泛的應用,顯著降低了人機交互的難度。文章對自然語言處理技術的發(fā)展和未來進行了簡要介紹。
關鍵詞 自然語言處理;機器翻譯;語義消歧
中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2019)231-0143-02
隨著科技的發(fā)展,人們對計算機的研究越來越深刻,生活中計算機的使用也越來越普及。進入信息時代后,互聯(lián)網(wǎng)中有著海量的信息,而這些信息很多都是用自然語言表示的。同時,搜索引擎是人們獲取信息的主要來源,各大搜索引擎開始應用自然語言處理來實現(xiàn)機器翻譯;而帶有智能語音助手的手機也都占據(jù)了市場的主流,這些語音助手能方便我們的生活、學習和工作。文章對自然語言處理的概述、自然語言處理的發(fā)展歷史、自然語言處理的難點及自然語言處理的發(fā)展趨勢進行綜述。
1 自然語言處理技術簡述
自然語言指的是日常使用的語言,如漢語、英語和日語等。而自然語言處理(Natural?Language? Processing,?NLP)則是指運用計算機技術對自然語言進行處理、理解并運用,它是人工智能和語言學的分支學科。作為人工智能領域研究的重要方向之一,自然語言處理的主要目的是通過自然語言的形式實現(xiàn)人和計算機之間的交互。
語言是人類所特有的交流及表述思維的工具,因此,只有在計算機真正能掌握處理自然語言的能力時,才具有真正的智能。自然語言處理包括多個方面,大體上有認知、理解和生成3個部分。認知和理解就是讓計算機把輸入的語言變成有意義的符號和聯(lián)系,然后再根據(jù)目的進行處理,生成則是指將計算機中的數(shù)據(jù)信息轉(zhuǎn)化為自然語言。如此一來,計算機用戶不必投入巨大的精力去學習生澀難懂的計算機語言,通過自然語言便能輕松和計算機系統(tǒng)進行交互,這也是研究自然語言處理技術的重要原因和目的。
如今,自然語言處理技術研究的主要內(nèi)容有語義分析、語法分析及篇章理解等。從具體應用的角度來說,目前自然語言處理技術主要運用于機器翻譯、信息搜索及篩選與過濾、字符識別和語音識別、觀點分析、多語種數(shù)據(jù)庫等,具有廣泛的研究和應用前景[1]。
2 自然語言處理的發(fā)展歷史
早在20世紀50年代,自然語言處理的概念就已經(jīng)被提出。1950年,艾倫·圖靈發(fā)表論文《計算機器與智慧》,文中提出了著名的“圖靈測試”——一種用來檢驗計算機是否具有人類智能的測試。值得一提的是,在人工智能這一研究課題被提出來時,人們就把國際象棋和機器翻譯看作體現(xiàn)計算機智能的兩大任務。而1997年,IBM公司發(fā)明的深藍超級計算機已經(jīng)打敗了國際象棋界的世界冠軍卡斯帕羅夫,而機器翻譯的水平到現(xiàn)在都無法與人工翻譯相媲美,可見自然語言處理是一項非常困難的任務。
1954年,美國喬治城大學與IBM公司合作,成功將60句俄語全部自動翻譯成英語。雖然當時機器翻譯的系統(tǒng)比較簡單,但是研究人員還是十分激動,并且聲稱能在三到五年內(nèi)解決機器翻譯的全部問題。不過實際上進展卻遠低于預期,1966年的ALPAC報告顯示,他們的研究在10年內(nèi)沒有取得預計成果,導致機器翻譯的研究經(jīng)費被大幅削減。一直到20世紀80年代末期,統(tǒng)計機器翻譯的發(fā)展,才使得機器翻譯的研究更上一層樓。
20世紀60年代出現(xiàn)一些較為成功的NLP系統(tǒng),其中包括SHRDLU。該系統(tǒng)能夠?qū)τ脩舻拿钸M行分析,辨別積木的形狀并完成移動工作。1964至1966年,約瑟夫·維森鮑姆模擬“個人治療中心”設計了ELIZA——幾乎未運用人類的思想感情的信息,卻能實現(xiàn)類似人與人之間的交互方式。但是當使用者提問的內(nèi)容超過ELIZA極小的知識范圍時,會得到一些很空泛的回答。例如:當提問“我的頭很痛”時,得到回答“為什么說你的頭痛”[2]。
在20世紀80年代前,大部分自然語言處理系統(tǒng)都基于人工制定的復雜規(guī)則,自然語言處理技術的發(fā)展也一度陷入停滯。80年代末期,自然語言處理引入了機器學習算法,使得自然語言處理技術得到了進一步的發(fā)展和進步。隨著計算機制造成本的下降和計算機運算能力的提升,研究者逐漸將機器學習算法作為自然語言處理技術研究的重點,研究者開始傾向于建立自然語言處理的語料庫,這是機器學習處理自然語言方法的基礎。同時,研究者意識到:機器翻譯必須保證譯文和原文在語義上表述準確無誤,因此,語義分析逐漸成為了自然語言處理的核心研究問題。研究表明,通過對大量的語言文本數(shù)據(jù)進行學習和統(tǒng)計,可以更好地解決計算機處理語言的問題,這一方法被稱為統(tǒng)計學習模型。至此,自然語言處理又重新進入飛速發(fā)展的階段。
3 自然語言處理的難點
自然語言處理的困難有很多,但造成困難的根本原因無外乎是自然語言的文本和對話中廣泛存在的各種歧義性或多義性。歧義性指在語義分析等處理語言過程中存在的歧義問題,而消除歧義則需要大量知識。例如:當進行人工語言翻譯時,翻譯者需要具有一定的語言學知識和背景知識。例如在英語中,“Would?you?like?some?water?”的回答“Oh? thanks”實際意為拒絕,對機器來說也是一樣,翻譯時計算機必須擁有一定的背景知識庫。
自然語言中充滿了大量的歧義,人類的活動和表達十分復雜,而語言中的詞匯和語法規(guī)則又是有限的,這就導致了同一種語言形式可能表達了多種不同含義。以漢語為例,漢語一般由字組成詞,由詞組成句,由句子組成段落,其中含有多層意思的轉(zhuǎn)換。同樣形式的語句在不同的語境中可能含有不同的意義,反過來,同樣的意思也可以用不同形式的語句表示,這正是語言的魅力所在,卻也給自然語言處理帶來了困難。
在漢語中,分詞問題便屬于消歧任務之一。單詞是承載語義最小的單元,因此自然語言處理中分詞問題是急需解決的。在口語表述中,詞和詞之間是連貫的,在書寫中也是如此。由于漢語不像英語等語言具有天然分詞,中文的處理就多了一層障礙。在分詞過程中,計算機會在每個單詞后面加入分隔符,而有些時候語義有歧義,分隔符的插入就變得困難。如“南京市長江大橋”一詞,既可以理解為位于南京的跨長江大橋,也可以理解為一名叫江大橋的南京市長。要想實現(xiàn)正確分詞,就需要結合語境,對文本語義充分理解,這顯然對計算機來說是個挑戰(zhàn)。在短語層面上的語言問題也依舊存在,例如“控制電腦”,既可以理解為動賓關系:我控制了這臺電腦,也可以理解成偏正關系:具有控制功能的電腦??梢姡绻荒苷_處理各級語言單位的歧義問題,計算機就不能準確理解自然語言表達的含義[3]。
其次,上下文內(nèi)容的獲取問題對機器翻譯來說也是一種挑戰(zhàn)。在理解一句話的時候,通常會根據(jù)句子所處語境的前后關系來推理其準確含義。以代詞為例,要理解代詞指代的是什么,就要靠前一句說了什么來推斷,如“我從小亮手里拿走一塊糖果給小明,他可高興了?!边@后一句話中,要想知道“他”指代的是小亮還是小明,就要理解前一句話,小明得到糖果而小亮失去了糖果,高興的應為小明,所以“他”指代了小明。
4 自然語言處理的發(fā)展趨勢
近年來,隨著技術的發(fā)展,人們意識到傳統(tǒng)的基于句法-語義規(guī)則的理性主義方法太過復雜,基于統(tǒng)計的經(jīng)驗主義也只能有限地獲取數(shù)據(jù)。而隨著語料庫的建設,大規(guī)模的語言數(shù)據(jù)處理成為了自然語言處理的主要發(fā)展趨勢。與此同時,統(tǒng)計數(shù)學方法而越來越受到重視,自然語言處理中機器自動學習來獲取語言知識的方法也越來越廣泛。另外,自然語言處理也越來越重視詞匯的作用,并出現(xiàn)了“詞匯主義”,詞匯知識庫的建立已經(jīng)成為自然語言處理發(fā)展中的熱點問題[4]。目前,自然語言處理的研究領域已經(jīng)從文字拓展到語音識別、句法分析、機器翻譯、機器學習和信息檢索等多個方面,在自然語言處理在不斷被應用的同時,它也在促進其他新興學科如生物信息學等的發(fā)展。提升計算機處理語言的能力,已經(jīng)成為了未來人們研究的焦點。
5 結論
自然語言處理是一門新興學科,同時也是一個發(fā)展迅速的學科。自然語言處理技術的發(fā)展充滿了機遇與挑戰(zhàn)、困難與挫折,各種模型的建立和各種方法的提出,為自然語言處理帶來了活力;雖然目前的機器翻譯、語音識別等系統(tǒng)尚處在不成熟的階段,但是自然語言處理越來越廣泛的應用,證明了其在計算機領域乃至整個科技領域的重要地位[5]。相信在不久的將來,自然語言處理會有著更加光明的未來。
參考文獻
[1]妮魯帕爾·艾山江.自然語言處理技術綜述[J].商情,2013(39):326.
[2]閆偉玲.自然語言處理在信息檢索中的應用綜述[J].商品與質(zhì)量,2015.
[3]姜倩盼.自然語言處理的挑戰(zhàn)與未來[J].信息與電腦(理論版),2013(7):219-221.
[4]王挺,麥范金,劉忠.自然語言處理及其應用前景的研究[J].桂林航天工業(yè)學院學報, 2006,11(4):19-21.
[5]林奕歐,雷航,李曉瑜,等.自然語言處理中的深度學習:方法及應用[J].電子科技大學學報,2017(6):115-121.