摘 ?要:本文論述AI目前的智能水平,及AI智能的正確研究思路和方向。
關(guān)鍵詞:AI智能;智能感知;智能認(rèn)知;智能決策
近幾年AI圈熱鬧非凡,各種新聞令人眼花繚亂。但冷靜下來想想,圖像識(shí)別是個(gè)黑盒子,自動(dòng)駕駛常出事故,重大災(zāi)難發(fā)生時(shí)機(jī)器人救援效果不佳,萬眾期待的AI智能遲遲不撩開面紗。那么AI什么時(shí)候能擁有智能,并且這種智能是我們?nèi)祟惪梢岳斫猓梢韵嘈诺哪兀?/p>
在此描述一下AI智能的正確打開方式,首先從計(jì)算機(jī)視覺開始討論。實(shí)驗(yàn)心理學(xué)家赤瑞特拉做過心理實(shí)驗(yàn)證實(shí):人類獲取的信息83%來自視覺,11%來自聽覺,這兩個(gè)加起來就有94%。其它途徑是嗅覺、觸覺和味覺。在人工智能領(lǐng)域,計(jì)算機(jī)視覺的重要性不言而喻。
現(xiàn)在主流的卷積神經(jīng)網(wǎng)絡(luò),從AlexNet,GoogLeNet,ResNet,到DenseNet,不停變化的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),不管有多復(fù)雜,整體來看其實(shí)只有兩層:各個(gè)神經(jīng)元之間的回歸函數(shù)層,及最后的分類層。回歸函數(shù)層起到的作用是提取不同層次的特征,最后由分類函數(shù)進(jìn)行相似度計(jì)算,得出分類結(jié)果。由于提取特征的過程不透明,不可解釋,與人類的思考方式不一致,自然就不容易相信。
我們?nèi)祟愑^察一個(gè)物體或一張圖片,歷史的經(jīng)驗(yàn)會(huì)起到很重要的參考作用,而對(duì)于沒有見過的物體通過想象來推理其用處。這是一種學(xué)習(xí)和推理能力,是智能的一部分,而神經(jīng)網(wǎng)絡(luò)顯然不是這樣的工作方式。
例如看到一張從未見過的貓的圖片,我們是從有皮毛的動(dòng)物,有四肢,有尾巴,臉部形狀等來推測(cè)。那么AI能不能用類似的方法呢?答案是可以的,已經(jīng)有團(tuán)隊(duì)在嘗試。具體請(qǐng)參考[1802.00121] Interpreting CNNs via Decision Trees。
智能的整體架構(gòu)
對(duì)于AI智能,僅僅擁有可解釋的觀察能力是不夠的。整體的AI智能架構(gòu)包括七層,分別是初始任務(wù)、知識(shí)和常識(shí)、感知和認(rèn)知、學(xué)習(xí)人類的價(jià)值函數(shù)、決策機(jī)制、頭腦和語言。我們一層一層來解釋。
初始任務(wù)
初始任務(wù)就是AI智能努力的目標(biāo)。以自然界的一只小松鼠為例,首先要解決的是活下來,要有食物,不要被其它天敵吃掉,長(zhǎng)大成熟后找到配偶,撫育下一代,這些就是小松鼠的初始任務(wù)。那么一個(gè)智能機(jī)器人的初始任務(wù)可以是家務(wù)機(jī)器人,可以是運(yùn)動(dòng)陪伴機(jī)器人,可以是溺水救援機(jī)器人等等。這是智能的起點(diǎn)。
知識(shí)和常識(shí)
常識(shí)就是我們?cè)谶@個(gè)世界和社會(huì)生存的最基本的知識(shí)。它使用頻率最高,并且它可以舉一反三,推導(dǎo)出并且?guī)椭@取其它知識(shí)。包括社會(huì)常識(shí)和物理常識(shí)/視覺常識(shí),例如房間內(nèi)的物體可以是被地板支撐,可以掛在墻上,可以吊在頂棚等。
感知和認(rèn)知
在AI智能領(lǐng)域,研究最多的就是智能識(shí)別和感知。與當(dāng)前CV領(lǐng)域三大基本能力不同,智能感知并不是從目標(biāo)識(shí)別、目標(biāo)定位和目標(biāo)分割三方面去努力,而是選擇了完全不同的道路。
AI智能要做的第一步是二維圖像的三維重建,而且是基于單張二維圖像的三維重建。這在數(shù)學(xué)上很難做到,因?yàn)槿S重建需要雙視角的信息輸入。但是我們?nèi)祟愑羞@種能力,看到一張照片就能在腦海里進(jìn)行三維還原,基本原理就是我們知道每件物品在現(xiàn)實(shí)社會(huì)里的大小。例如門高80英寸,椅子和小腿高度一樣,約16英寸等。
3D重建完成后,對(duì)于每一個(gè)物品的識(shí)別,并不是依賴大量標(biāo)注好的圖片訓(xùn)練,而是從人類視角,推測(cè)這個(gè)物品我們?nèi)绾问褂谩H绻梢源娣盼锲罚⑶腋叨仁侨搜鄣母叨龋螤钍橇⒎襟w,那就是壁櫥。如果從力學(xué)角度人坐上去會(huì)感覺舒服,那就是椅子,以此類推,而不是簡(jiǎn)單貼上標(biāo)簽。
識(shí)別物體之后,還要理解物體的擺放是否合理和安全。這會(huì)影響之后的動(dòng)作決策。
對(duì)于各種容器內(nèi)的物體或液體,要根據(jù)人類的動(dòng)作和容器的狀態(tài)進(jìn)行推理。如果在倒水,那壺里一定是有水的。這里漸漸能看到智能的影子。
對(duì)于各種可見不可見的物體識(shí)別完之后,如果圖像里有人或動(dòng)物,就可以觀察他/她/它在關(guān)注什么,知道什么,喜歡什么,猜測(cè)之后可能的動(dòng)作是什么。
上面是對(duì)單張圖片的感知內(nèi)容。如果是視頻,可以了解更多的信息。
學(xué)習(xí)人類的價(jià)值函數(shù)
在一定時(shí)間的觀察之后,可以得到被觀察者做事方式的價(jià)值函數(shù),例如喜歡喝啤酒還是飲料?喜歡多互動(dòng)還是少打擾?喜歡每天掃地一次還是只要有臟東西就要清理?等等。
決策機(jī)制
了解了各種物體,了解了被觀察者的喜好,為了達(dá)成初始任務(wù),AI智能體就能決定自己的具體任務(wù)鏈,例如去開門,去拿啤酒,去打開電視等等。隨著仿生機(jī)器人的快速發(fā)展,已經(jīng)可以完美寫成這些動(dòng)作。
頭腦
為了更好地完成任務(wù),AI智能體需要理解被觀察者知道什么,正在做什么,打算做什么等等。還要清楚對(duì)方知道什么,對(duì)方知道自己知道什么,雙方共同知道什么,這是溝通和決定下一步行動(dòng)的基礎(chǔ)。在這個(gè)過程中,需要進(jìn)行溝通,而語言是溝通的一種主要方式。
語言
人類用語言溝通的基礎(chǔ)是要完成共同的任務(wù),所以語言是任務(wù)驅(qū)動(dòng)的。通過觀察和認(rèn)知,了解這個(gè)世界,并且知道自己能做什么,就可以對(duì)具體任務(wù)進(jìn)行溝通。這是基于理解的語言,而不是為了說而說。現(xiàn)在自然語言處理領(lǐng)域基本上是從語言開始,到語言結(jié)束,與現(xiàn)實(shí)社會(huì)脫節(jié),成為無源之水。
總結(jié)
上面說明的智能,并不是紙上談兵,已經(jīng)有很多國際團(tuán)隊(duì)在2010年之在致力于AI智能體的實(shí)現(xiàn)。電影中描繪的強(qiáng)人工智能離我們還很遙遠(yuǎn),但是通用人工智能(Artificial General Intelligence,AGI)時(shí)代已經(jīng)來臨!
在通用人工智能時(shí)代,計(jì)算機(jī)視覺、自然語言處理、機(jī)器學(xué)習(xí)都是融為一體的,這個(gè)融合劑就是感知(Recognition)和認(rèn)知(Congnition),或者叫做理解和推理。
讓我們擁抱這個(gè)時(shí)代!
參考文獻(xiàn)
[1] ?M. S. Arulampalam,S. Maskell,N. Gordon,and T. Clapp. A tutorial on particle filters for online nonlinear/non-gaussian bayesian tracking. IEEE TSP,50(2):174–188,2002.
[2] ?A. Belardinelli,O. Herbort,and M. V. Butz. Goal-oriented gaze strategies afforded by object interaction. Vision Re-search,106:47–57,2015.
[3] ?A. Borji,D. N.Sihite,and L. Itti. Probabilistic learning of task-specific visual attention. In CVPR,pages 470–477,2012.
[4] ?A. Borji,D. N. Sihite,and L. Itti. What/where to look next? modeling top-down visual attention in complex interactive environments. IEEE TSMCS.,44(5):523–538,2014.
作者簡(jiǎn)介:王悅林(1973.2—),男,漢族,黑龍江人,本科生,現(xiàn)任職于聯(lián)想數(shù)據(jù)智能事務(wù)部,研究方向是人工智能。