連誼慧
編者的話:人工智能近年來的飛速發展離不開自然語言處理技術,即讓機器理解人類的語言。自然語言處理技術的發展和應用正在改變著人類的生存方式。它既是語言生活的重要組成部分,也是推動語言發揮社會功能的重要動力。8月28日,中國中文信息學會和中國計算機學會聯合主辦的“首屆語言與智能高峰論壇”在北京召開。在論壇的討論環節中,八位專家就“語言與智能技術的未來發展”發表看法,分別探討了類人語言理解系統的特點、深度學習的原理及應用、AlphaGo成功的啟示、未來五年語言理解領域關鍵技術和研究方向等問題。本期我們整理了這部分發言,以饗讀者。
關注人類學習語言的過程
孫 樂(中國科學院軟件研究所) 人類智能的演化歷經猿腦到人類祖先的進化,靈巧手及簡單工具的使用,基因遺傳智力的發展,大腦容量持續增加以及語言的出現。其中基因遺傳智力、大腦容量的增大以及語言的出現,是人類智能發展的幾個關鍵節點。
人類語言不同于動物語言的地方在于:人類的語言單位是非常明晰的,音義結合具有任意性,語言具有結構性、開放性、可傳授性,不受時間、地點的約束,我們可以看到,人類語言的句子可以進行切分,而且可以依據語法把切分得到的成分重新進行組合,生成新的語言片斷,從而能夠用有限的符號表達出無限的意義。
以色列歷史學家尤瓦爾·赫拉利在《人類簡史》中提到,距今7萬年前智人的認知能力發生了革命性的變化,智人在與其他人類物種的競爭中勝出的原因,最有可能的是智人擁有獨特的語言。這本書給出了幾個例子,當智人會講述河邊有只獅子的時候,實際上是具有了傳達身邊環境信息的能力,而進一步能夠規劃并執行復雜的計劃,比如狩獵。此外,智人逐漸具備了另外一個能力,就是八卦,這實際上是人和人之間對社會關系的信息的傳遞,也意味著人類開始有了能夠傳達虛構概念信息的能力。有了虛構故事以后,就可以組織更大更有凝聚力的團體,也可以開展陌生人之間的分工合作和協同創新。
當代最有影響力的哲學家卡爾波普爾教授提出了三個世界的理論。他把世界分成客觀世界、精神世界和知識世界,而這三個世界之間是交互的,進而形成了人類社會與自然界之間錯綜復雜的關系。自然語言正是對這三個世界的描述。隨著語言研究的深入,我們越來越認識到問題并不僅僅在于語言的復雜性,而在于整個世界的復雜性。
在人類語言的習得過程中最關鍵的是出生后五年的時間,從牙牙學語到單個詞的發音,到兩個詞的組合,最后到短語、復雜句子的掌握。對這個過程的論述有兩種傳統論點:一是喬姆斯基的先天論,語言功能被編碼于人類大腦之中;二是斯金納的后天論,語言通過學習原理獲得。
如今的AI(Artificial Intelligence,人工智能)大勢,涉及從邏輯推理到規則專家系統,到深度學習、機器學習的大數據智能。可以說,大數據時代代表的人工智能系統,不但要有數據、模型,還需要有大規模的知識和強大的計算能力。在這一主題下,我們應重點關注人類學習語言的過程,并研究如何構建一個類人的語言理解系統。未來五年,語言理解領域中需重點突破哪些關鍵技術、拓展哪些研究方向,還有待學界共同探索。
從“遷移學習”反觀人類如何學習語言
楊 強(香港科技大學) 人是否能夠從少量的樣本學習語言,這是關系到人工智能發展的一個核心命題。對此,我們目前還不知道人是怎么學習語言的,而更多的只是知道如何讓機器學習語言。但是,我們會從一些現象中看出這一點:我有很多朋友在美國,也在做自然語言處理研究,但是當他們有了小孩子以后,觀察自己的孩子學習語言,會發現語言學可能“白費了”。孩子往往能舉一反三,不知道哪一天就學會了語言,他們就覺得非常的驚喜。
從機器智能的角度有幾個方面可以作為研究的入口,比如“遷移學習”。在“深度學習”和“強化學習”策略的基礎上,把模型從一個通用的場景遷移到一個個性化的場景,遷移到小數據以及有冷啟動需求的場景,就可以引入“遷移學習”。我認為人類正是在大腦已經有了很多固定的模型的基礎上,再借助其中一些可以改變的地方,通過“遷移學習”,加上環境影響以及初始幾年的觀察去學習語言。
腦科學研究也呼應了這一假設。中國科學院外籍院士蒲慕明教授在第二屆人工智能大會上表示,人類在一開始確實存在很多神經網絡,留給后天學習的空間,但是隨著年齡增長,很多又被遺忘,遺忘的速度和人類的疾病又直接相關。如果遺忘得太多就變成老年癡呆,如果遺忘得比較慢就會變成自閉癥。這完全是從生物學角度來觀察,卻給了我們新的啟發。
語言理解領域未來五年的機遇和挑戰
胡 郁(科大訊飛股份有限公司) 在語言理解領域,研究需要和工業應用緊密結合,但二者卻有著各自的特點。
首先,是它們關注的領域不同,分工也不一樣,而且各自的發展是交錯遞進的。比如說,做語音識別的黃金時間是20世紀90年代,有大量的文章建立在隱馬爾可夫模型基礎上,建立在貝葉斯網絡的基礎上,取得了不少研究成果。然而最終這方面的技術在工業上的應用卻比較有限。事實證明,近十年來深度神經網絡方面的研究成果卻被工業界所廣泛使用。
其次,對于同樣的領域,學術研究和工業應用的出發點和研究路徑也不同。以深度神經網絡為例,可以通過它很簡單地用大數據去凝練一個東西。從工業界的角度來說,這沒有問題,因為工業界要看最終結果,只要能夠為我所用,整合起來用到產品上并產生效益即可。而研究不是這樣的套路,研究需要去了解其背后的模型以及方法,包括其內部的結合規律。學術研究需要“積累一桶水”,而工業生產可能“只取一瓢飲”。從技術發展的角度講,技術總要從初步研究階段到達技術爆炸階段,然后躍過技術爆炸,再到技術普及的階段。
未來五年,學術界應主要做兩方面的事情,一是進行更加前瞻性的研究。比如腦科學領域,它對人工神經網絡到底會產生什么影響。二是深度神經網絡的應用型研究。在這方面,工業界的廣泛應用已經形成了大數據。學術界需要在此基礎上深入發掘,看看里面還有沒有其他的機器學習規律和需要解決的問題。對于工業界,目前有兩大挑戰。一是在技術還不完美的情況下將其充分應用,如何揚長避短、取長補短,并通過產品設計和場景設計讓技術真正有用。二是對技術本身的拓展,如何充分發揮已有的大數據和人工智能成果,聯合學術界進行深入研究。
什么是“語言的理解”
聶建云(加拿大蒙特利爾大學) 什么是語言的理解?在不同的時期談到的語言理解,意義不一樣。過去,某個人對語言的理解就是會用這個語言,比如寫一個句子可能沒有語法錯誤等,據此可以認定他已對該語言有一定的理解能力。而現在我們講的語言理解更多是從語義角度來說的,比如說話人所講的一些概念、所要說的內容,我們能否完整地理解。
此外,語言的理解存在不同的層次。舉一個例子,某人寫了一篇英語文章,但其英語不是很好,叫一個人去改英語。修改者對文章的內容或許并不理解,但他完全可以從語言的角度進行修改。這時候我們說他對文章有一定的理解,并非意味著對其內容有完整的理解,而是對語言本身有一定的理解。而更深入的層次,應該是對語言本身和文章內容的雙重理解。
因此,我們考慮建立一個完整的語言理解體系,必須明確目標,即做到哪一個層次。對于相關領域的企業,有哪些任務,需要用什么手段去完成,這和語言理解到什么程度,針對哪個方向、哪個方面的理解密切相關。某個方面的運用可能并不需要對語言里的每一個層次都去理解,可能只需要某一個方面的理解。比如,我們對英語的改錯,可能對內容不需要理解,只需對表面的現象做一些修改即可。
另外,在促進語言理解方面,少量樣本學習非常重要。目前,我們尚未充分發揮其作用。學界做了很多知識圖譜,重點關注如何將其從大數據里挖出來并形成規律,然而對這些知識如何運用卻挖掘得比較少。究其原因,我們從文本里挖掘知識的前提是描述知識本身,而要去描述對知識的應用則困難得多。從這個角度上來說,少量樣本學習的研究有更加廣闊的空間,應引起更多的關注。
如何構建一個類人的語言理解系統
王海峰(百度公司) 構建類人的語言理解系統,首先要確定“類”的內涵。比如,我問一個人他專業領域之外的問題,他能聽清楚我說的每一個字卻無法回答我的問題。如果我去問這個領域的專家,專家一定可以回答。然而,若一個90后的小朋友用網絡語言的表達方式來問他,他則不一定能聽懂,從而也無法回答。反過來,如果他聽懂了問題并用一種專業的表述來回答,這個小朋友也聽不懂。
這里涉及一系列的問題。以問答系統為例,一是要有對人類語言的理解,二是要有對知識的掌握和運用,三是要有語言的生成,這樣一個問答系統才能夠形成。這是計算機模擬人的問答交流的過程,而模擬人的翻譯過程又是另一套方法。因此到目前為止,我們還無法去建立一個完全通用的“類人”系統,“類人”和目標設定密切相關。
對語言的理解,對知識的掌握和運用,其背后是什么?我認為是基于大規模數據的深入挖掘。不管是挖掘語言規律,還是挖掘知識,或是運用這些知識去推理,都需要從海量數據中做數據挖掘。目前,從完成任務的角度來說,在某些方面,計算機的水平甚至比人的水平還要高,比如“百度翻譯”,可以翻譯幾十種語言,很多場景下翻譯結果基本是可靠的,從某種程度上來說這超出了一個人的能力。
人和機器的不同在于,人可以去舉一反三,或采用這樣一種學習模式,而機器不是“看到一個反三個”,而是可以直接看到一百個、一千個,甚至更多,進而去學習、整理。比如,一個翻譯系統,我們可以用數以億計的人翻譯過的、從互聯網中挖掘出來的雙語數據去訓練它。再比如,AlphaGo之所以可以戰勝李世石,正是因為它能夠利用計算機的優勢看到更多的棋譜,從而進行學習。因此,機器和人的學習機理不一樣,這也正是計算機進行語言理解的優勢,是我們構建“類人”的語言理解系統的基礎。
從技術向原理回歸
邢 波(美國卡耐基梅隆大學) 這幾年在機器學習以及NLP(Natural Language Processing, 自然語言處理)領域,刷比分的文章層出不窮,我對此比較擔憂。我認為,學者們應有自覺的沖動和熱情去關注技術的原創性和原理的突破。
從我個人的觀察以及與很多同行的交流來看,很多談論都集中在對于問題的描述或者宏觀性的展望,少有對于技術性或者原理性的執著。很多知名學者和研發領袖的大量言論、頻繁演說都集中在這個層面。近幾年,這種情況在機器學習領域中非常突出。甚至還有一些近乎輕浮的觀點,諸如建議初學者不要從理論開始入手,不要在算法上花費太多時間,甚至無需懂線性代數這樣的誤導性極強的、來自個別新潮明星應用工程師們的論調在公共論壇中大行其道,被奉為圭臬。
特別是當有一個“大錘子”,像深度學習這樣的方法出現之后,就更加速了大家去“摘果子”的熱情,對原創性、原理性的熱情便減弱了。原創性研究和對原理的探索非??菰?,回報周期長,但卻是任何一個學科發展的必要環節。此外,這樣的工作不是某個人、某部分人或者某個團體能夠獨立完成的,它需要學術界和工業界共同合作完成。
一個好的研究環境不存在學校和企業、工程和理科的區別,一個好的學者必須擁有融會貫通的能力,能夠在對實際問題進行深入理解的同時充分地掌握原理。而這往往是我們在現代科學環境里缺乏的一種學術品位。
舉個例子,如果在原理不明的情況下去推動一個產品,你是否敢用,如何介紹給別人用呢?原理不清,就表示你對其結果沒有十分的把握,在這種情況下售賣產品有極大的風險性。就最近的特斯拉自動駕駛車事故來說,一個機器視覺或者機器人專家絕不會在自動車上把手離開方向盤去睡覺,因為他知道這個系統其實沒有那么可靠。但是由于過度的宣傳以及社會對人工智能的依賴和期待,人們往往忽視了它的局限和缺陷。這就需要學者和工程師對產品的原理和透明度有執著的追求,也需要媒體、政府對人工智能應用開發的理性和冷靜,對基礎研究的理解和重視。
在常規的人工智能開發中去做任何一個突破性的判斷,都值得研發者充分思考。希望大家更冷靜一些,去關注數學原理,重視枯燥的基礎性的工作,在實現的形式和算法的保障方面多下功夫。
語言理解的數據、方法和應用
周 明(微軟亞洲研究院) 關于語言理解領域,我特別關注三方面的問題:
一是數據。過去幾年無論是做搜索還是做語音,方法在一定水平情況下動不了的時候,誰有大數據誰就最厲害,比如搜索,學術界玩兒了半天IR(Information Retrieval,信息檢索),沒有大規模的用戶搜索的日志和反饋數據,水平根本上不去。語音也一樣,像Siri,把海量用戶的每天使用的語音數據拿過來重新訓練系統,Siri的語音就提高了很多。似乎數據工作包括獲得數據、整理數據,從數據中做出一些歸類、聚類,發現知識和規律,似乎是很煩瑣的工作,但卻是我們這個學科的根本。在今年的ACL(Annual Meeting of the Association for Computational Linguistics,計算語言學年會)上,少有學者談數據的問題。我認為數據是值得大家好好討論的問題,尤其是對中國學者而言,如果狠抓各類有用數據,包括無標注、有標注的數據,就很有希望實現趕超。
二是方法。將“遷移學習”演繹一下,就是將在A領域好用的方法,放到B領域去研究、繼承和發展。通過應用可以發現有什么更好的方法,會遇到哪些挑戰,遇到挑戰后如何調整?這樣又會產生新的方法。遷移的概念,推而廣之,其實就是跨學科合作或跨領域合作的問題。目前神經網絡機器翻譯很熱,可是我們從中發現了很多問題,比如丟詞特別厲害,或者翻出了多余的片段?,F在大家都在把統計機器翻譯的方法一點點放到神經網絡中去。現在神經網絡機器翻譯中的Attention 模型,它是概率分布式的,對每個詞的翻譯,要利用所對應的源語句子的詞匯,按照不同的概率發生作用。統計機器翻譯中的成分,比如翻譯概率和詞匯對齊,通過這種方式融入到神經網絡中,我認為就是一種有效的方法的遷移和融合,只不過上升到了一個新的概念。目前,多數文章都從自己的角度闡述了應用神經網絡改進某些NLP(自然語言處理)任務,但是少有將領域有關的知識、規則和深度學習相融合的研究。我認為這兩者融合未來非常重要。
三是應用。自然語言處理是一個應用學科,要由應用來牽動科研的發展,如果沒有應用驅動,可以天天談腦科學的問題,談50年、500年也還是這些問題。通過應用將研究的長遠目標和短期目標結合起來,是學科發展的關鍵。
最后談談NLP未來的研究重點,我比較關注如下兩個方面。一是上下文建模和多輪對話。我們做機器翻譯,做問答系統,做聊天系統,目前面臨的最大問題就是對上下文建模的能力不足,而且多輪對話能力不足。隨著手機的應用越來越普及,NLP工作者渴望解決口語現象和多輪對話問題。也許深度學習和強化學習會有很好的用武之地。二是神經網絡機器翻譯。目前已有很好的進展,但是方興未艾。其中探討神經網絡機器翻譯和統計翻譯各種形式(模型、特征)的結合,將會有很大的發展前途。
AlphaGo的成功對語言理解有何啟發
馬少平(清華大學) AlphaGo(一款圍棋人工智能程序,由Google旗下的DeepMind公司研發)到底成功在哪里?從原理上說,其核心是深度學習、左右手互搏以及強化學習,但如果從方法策略上來說,它與以前的成果,比如深藍(IBM公司生產的一臺超級國際象棋電腦),存在很大的不同。
兩者之不同和圍棋本身的特點有關。圍棋感性的東西多,模樣怎么樣,是厚還是薄,這些東西很難描述,過去之所以認為計算機下圍棋存在困難,正是因為這一點。深藍采用α-β剪枝的辦法,有一套評價體系,評價完全是靠知識。IBM在研發時請了很多下棋高手、國際大師幫他們總結各種知識,最后再結合搜索來實現。 而多年來圍棋的評價一直沒有得到解決。AlphaGo靠深度學習來解決了評價的問題。它有四個網絡,包括快速網絡、兩個策略網絡和估值網絡。其中,快速網絡嚴格來說不是深度的,是很淺的,甚至就是一個回歸,是根據人的知識在幾萬個模式的基礎上構成的。它在AlphaGo中起了很大的作用,然而單靠它可能打不過李世石。它的網絡速度非常快,比第二、第三個網絡快一千倍左右,在蒙特卡羅樹搜索(Monte Carlo Tree Search)時用于模擬,可以在同等時間內快一千倍。這對最終勝負起到了關鍵作用。
因此,AlphaGo既有人的知識,又有深度學習感性的東西,同時又借助了蒙特卡羅樹搜索。知識和搜索都是傳統的基于符號主義人工智能的精髓,而深度學習是所謂的連接主義。這樣,AlphaGo把符號主義的方法跟連接主義的方法很好地融合在一起。這是他成功的地方。
現在大家都運用深度學習,靠數據驅動,把知識完全拆解掉了。然而,我們應該深入思考如何把規則和知識,即傳統的符號主義思想和深度學習的連接主義思想結合到自然語言處理中,這樣才能夠解決問題。兩者通常是互補的。舉個例子,AlphaGo跟李世石比賽第四盤下輸了,源于一步錯著,至少到7月份距離比賽已經過去了4個月的時候,AlphaGo也未能解決這個問題,即便經過長時間訓練,仍然沒有解決。基于深度學習大量數據的訓練方法,想把一個錯誤改掉是很難的,而且改正以后其他問題不一定不出現。而基于知識和規則,就很容易避免。
將知識、規則與深度學習相結合,AlphaGo給予我們很深的啟示。這也應該是自然語言處理領域今后努力的方向。
責任編輯:劉玥妍