+ 張鈸
大家“金句”
· 滿足這五個限制條件的工作,總有一天會被計算機取代,也就是那些照章辦事,不需要任何活性的工作。
· 現在的人工智能基本方法有缺陷,我們必須走向具有理解的AI,這才是真正的人工智能。
· 只依靠深度學習很難到達真正的智能。在決策系統里不能使用這樣的系統,因為它會犯大錯人類最大的優點是“小錯不斷、大錯不犯”,機器最大的缺點是“小錯不犯,一犯就犯大錯
我們現在離真正的人工智能還有一段很長的路。為了清晰地闡述這個思想,必須回答下面三個問題:
第一,什么叫做真正的人工智能?我們的目標是什么?
第二,為什么我們需要真正的人工智能?
第三,我們如何走向真正的人工智能?
如何評價目前人工智能取得的成果,主要針對下面的五件事:①深藍打敗人類國際象棋冠軍;②IBM的Watson機器人在電視知識競賽中打敗了美國的前兩個冠軍;③2015年微軟在ImageNet上做圖象識別,它的誤識率略低于人類;④百度、訊飛都宣布,在單句的中文語音識別上,人工智能的誤識率略低于人類;⑤AlphaGo打敗了圍棋世界冠軍李世石。這五件事情都是機器在一定的范圍內超過了人類,我們如何來評價?
大家一致認為,這五件事得以發生的三要素是:大數據、算力的提升和非常好的人工智能算法。但我認為大家忽略了一項因素,就是這所有的成果必須建立在一個合適的場景下。這五件事雖然領域很不一樣,但是它們都滿足完全一樣的條件,必須有豐富的數據或者豐富的知識,如果沒有或者很少,要實現人工智能相當于“無米之炊”。或滿足下面的五個限制條件:確定性信息、完全信息、靜態的、單任務和有限領域。任何一個條件不滿足,現在的人工智能就會遇到很大困難。
這五個限制條件下的應用場景是什么?就是照章辦事,不需要任何靈活性,這顯然不是智能的核心。
下象棋是完全信息博弈,信息完全和確定;其次,它遵循著完全確定的游戲規則演化,滿足靜態條件。Watson機器人也是這樣,知識競賽提的問題都沒有二義性,所以這樣的問答對機器人來講是非常容易的;它涉及的領域雖然比較寬,但也是有限的。圍棋也完全符合上面五個條件,所以對計算機來說也是很容易的。目前計算機打麻將就不行,因為牌類是不完全信息博弈,所以比棋類要難??傊?,對目前人工智能取得的成果要有一個正確的評價。
目前的人工智能技術在交通、服務、教育、娛樂等等領域開展了應用。但這些領域里面只有滿足上述五個條件的事情,計算機的工作才會容易。如果不滿足這些條件,計算機的工作就困難了。
大家常常關心什么樣的工作會被機器所替代,滿足這五個限制條件的工作,總有一天會被計算機取代,也就是那些照章辦事,不需要任何靈活性的工作,比如說出納員、收銀員等等。不滿足這五個條件的工作,不排斥有一部分會被計算機取代,但不可能被完全代替,例如老師、企業家。
為什么有這五個限制條件?原因在于現在的人工智能是沒有理解能力的人工智能。
首先看符號模型,理性行為的模型。Watson是個對話系統,我們現在所有做的對話系統都和它近似。但是Watson做得更好些,它有知識庫、有推理機制。它的知識庫包含百科全書、有線新聞、文學作品等等,所有的知識用紙質來表示有2億頁,用存儲量表示達到了4TB。它能回答什么問題呢?第一個問題,1974年9月8日誰被總統赦免?這對美國人來講很好回答,同樣對計算機來講也非常容易,用這幾個關鍵字“1974年9月8日”、“被總統赦免”,就能在文獻里查出來是尼克松。也就是說根據問題中的關鍵字,可以在已有的文獻中直接找到答案。第二個問題,熒光粉受到電子撞擊以后,它的電磁能以什么方式釋放出來?用“熒光粉”、“電子撞擊”、“釋放電磁能”等關鍵詞,也可以找到答案:光或者光子。這種方法就是平時網絡搜索的原理,應該說沒有什么智能。
回答下面的問題就需要“智能”了:智利陸地邊界最長的是哪個國家?跟智利有陸地邊界的國家可以檢索到,它們是阿根廷和玻利維亞,但是誰的邊境長?通常查不到。Watson具備一定的推理能力,它從邊界間發生的事件、邊界的地理位置等等,經過分析推理以后就可以找出答案,是阿根廷。
下一個問題也屬于這類性質:跟美國沒有外交關系的國家中哪個最靠北?檢索可知,跟美國沒有外交關系的國家有4個。哪個國家最靠北,沒有直接答案。但可以從其它信息中推導出來,比如各個國家所處的緯度、氣候寒冷的程度等等分析出來,答案是朝鮮。
又如全球有名的索菲亞機器人,她的對話是面向開放領域,人可以隨便提問,這樣問題就暴露出來了。大家在電視上看到索菲亞侃侃而談,問什么問題都能答得很好。其實這些問題都是預先準備的,有明確答案,以便在電視上演示出最佳效果。
如果臨時提問題,索菲亞的缺陷就暴露了。一個中國記者給索菲亞提的四個問題中,它只答對了一個?!澳銕讱q了?”這個問題很簡單,但它答不上來,它的回答是“你好,你看起來不錯”,答非所問,因為它不理解所問的問題。只有第二個問題“你的老板是誰”它是有準備的,所以答得很好。第三個問題,“你能回答多少問題呢?”它說“請繼續”,沒聽懂!第四個問題“你希望我問你什么問題呢?”它說“你經常在北京做戶外活動嗎?”

索菲亞(Sophia)是美國公司Hanson Robotics制造的機器人,擁有橡膠皮膚,能夠表現出超過62種面部表情,“她”的“大腦”中的計算機算法能夠識別面部,并與人進行眼神接觸。她甚至在2017年10月,獲得了沙特阿拉伯授予的公民身份。
智能體現在推理能力上。但是很不幸,以上兩個例子充分表明,當前的對話系統推理能力都很差,基本上沒有理解能力。Watson系統稍好,但也比較有限。換句話說,我們現在的對話系統離真正的智能還很遠。
為什么會這樣?也就是說現在的人工智能基本方法有缺陷,我們必須走向具有理解的AI,這才是真正的人工智能。什么是真正的人工智能?與目前的“強人工智能”概念有什么區別?首先,我們都試圖去準確地描述人類的智能行為,希望人工智能跟人類的智能相近。但是強人工智能只是提出概念,并沒有從方法上提出怎么解決。這一理念提出的最核心的概念就是“通用人工智能”,怎么個通用法?沒有答案?,F在我們提出“有理解的人工智能”,是可操作的,不只是概念。
人機對話的時候,機器為什么不能理解人們提的問題??匆粋€例子就可以知道。在計算機的知識庫里把“特朗普是美國總統”這個事實,以“特朗普-總統-美國”三元組的形式儲存。如果提的問題是“誰是美國總統?”機器馬上回答:“特朗普。”但是如果問其它有關的問題,如“特朗普是一個人嗎?”“特朗普是一個美國人嗎?”“美國有沒有總統?”它都回答不了。
機器為什么回答不了后面的三個問題呢?因為這個系統沒有常識,也沒有常識推理。既然特朗普是美國的總統,美國當然有總統,但是它連這一點常識的推理能力都沒有。所以要解決這個問題,必須在系統中加上常識庫、常識推理,沒有做到這一步,人機對話系統中機器不可能具有理解能力。
但是大家知道,建立常識庫是一項“AI的曼哈頓工程”。美國在1984年就開始建造這樣的常識庫,現在還沒有完全實現??梢姡呦蛘嬲娜斯ぶ悄埽欣斫獾娜斯ぶ悄?,是一條很漫長的路。
我國在這方面也已有研究進展,基本做法是建立一個常識圖譜,用圖譜幫助理解提出的問題,同時利用常識圖譜幫助產生合適的答案。結果表明,有了常識以后,系統性能有了顯著的改善,對話的質量顯著提高。
另一方面是準符號模型。深度學習、神經網絡主要用來模擬感性行為,感性行為一般很難采用符號模型,因為感性(感覺)無法精確描述。
比如,如何告訴計算機什么樣才叫做“馬”?說馬有四條腿,什么叫做腿?細長的叫做腿,什么叫細?什么叫做長?非定量的概念機器是無法識別的。
目前的解決辦法是神經網絡或者準符號模型,也就是用與人類相同的模式去學習、訓練。不告訴機器什么叫做馬,只是給它提供不同的馬的圖像進行訓練。然后再用其它馬的圖片給它看,如果回答正確就是識別正確。如果90%是對的,就說明識別率是90%。
目前,淺層的神經網絡已發展到多層的神經網絡。從淺層到多層有兩個本質性的變化,一是輸入信息的不同,深層網絡一般不需要人工選擇的特征,用原始數據就可以。所以深度學習的應用門檻降低了,操作者不需要有專業知識,只需要把原始數據輸進去。二是多層神經網絡與淺層相比,性能有明顯提升。因此深度學習得以大量應用。
通過數據驅動建立的系統能不能算是有智能呢?這是存疑的。即使人臉識別系統的識別率比人還高,也不能說它有智能。因為這種通過數據驅動實現的系統,性能與人類智能差別非常大,魯棒性很差、容易受干擾,會發生重大的錯誤,需要大量的訓練樣本。
前文說到,給定一個圖像庫,機器的識別率比人還要高。但是這樣的系統,如果輸入噪音,就會把馬識別成為知更鳥,換一個噪音又可能把馬識別成為獵豹。這樣的系統只是一個機械的分類器,根本不是感知系統。盡管把各種各樣動物分得很清楚,但是它不認識這個動物,只到達了“感覺”的水平,并沒有達到“感知”。
我們的結論是,只依靠深度學習很難到達真正的智能。這是很嚴峻的結論。在決策系統里不能使用這樣的系統,因為它會犯大錯。人類的最大的優點是“小錯不斷、大錯不犯”,機器最大的缺點是“小錯不犯,一犯就犯大錯”。
人們一度對自動駕駛很樂觀,但目前發現存在不少問題。一般的實現方法是通過數據驅動的學習方法,學習不同場景下的圖象分割,并判別車輛、行人、道路等,然后建立三維模型,在三維模型上規劃行駛路徑。現在用硬件已經可以做到實時。如果路況比較簡單,行人、車輛很少,勉強可以實現自動駕駛。但復雜的路況就無法奏效了。很多人總結經驗說,行人或者司機都會有意無意地破壞交通規則,無論國內國外都一樣。這就使得數據驅動方法失效。
如何解決這個問題?實際上就是要解決從“Without”到“With”理解的問題。人工智能現在有兩種基本方法,一種是用符號模型來模擬理性行為。但是非常不幸,離散的符號表示很難用上很多數學工具,所以發展很慢。在模擬感性行為的時候,使用特征空間的向量,可以使用所有的數學工具。所以數據驅動方法這幾年發展非???。但是它有一個非常大的缺陷,它是在特征空間里,缺乏語義。我們用數據去訓練一個模型,即所謂“黑箱學習法”,如果數據質量不高,很難學出有用的東西。什么叫概率統計?重復多了就是真理。如果數據質量差,充滿了“謊言”。謊言重復多了,就變成真理了。
我們現在給出的解決辦法是,把這兩個空間投射到一個空間里,叫做語義的向量空間。也就是說把符號變成向量,同時把特征空間的向量變成語義空間的向量。具體方法,一是通過Embedding(嵌入)把符號變成向量,盡量保持語義不變,但現在的方法都會引起語義的丟失。第二方面就是Raising(提升),把特征空間提升到語義空間去,這主要靠學科交叉,靠跟神經科學的結合。只有這些問題解決以后,才能夠建立一個統一的理論。但是這項工作是非常艱巨的。
為什么人工神經網絡不能得到語義信息,而人腦的神經網絡可以呢?差別就在于目前的人工神經網絡太簡單了,人們正設法把腦神經網絡的許多結構與功能加入人工智能。
還可以把數據驅動跟知識驅動結合起來。加上知識,讓人工智能有推理的能力和決策的能力,這樣就能解決突發事件。
“我們正在通往真正AI的路上”,現在走得并不遠,在出發點附近。而人工智能永遠在路上。這些問題一旦解決了,人類的社會進步、人類的生活就會發生本質上的改變。
人工智能剛剛起步,離真正的AI還很遙遠,我們任重道遠。