淺談AI何時(shí)擁有智能

2019-09-10 07:22:44王悅林

科學(xué)導(dǎo)報(bào)·學(xué)術(shù) 2019年21期

摘 ?要：本文論述AI目前的智能水平，及AI智能的正確研究思路和方向。

關(guān)鍵詞：AI智能;智能感知;智能認(rèn)知;智能決策

近幾年AI圈熱鬧非凡，各種新聞令人眼花繚亂。但冷靜下來想想，圖像識(shí)別是個(gè)黑盒子，自動(dòng)駕駛常出事故，重大災(zāi)難發(fā)生時(shí)機(jī)器人救援效果不佳，萬眾期待的AI智能遲遲不撩開面紗。那么AI什么時(shí)候能擁有智能，并且這種智能是我們?nèi)祟惪梢岳斫猓梢韵嘈诺哪兀?/p>

在此描述一下AI智能的正確打開方式，首先從計(jì)算機(jī)視覺開始討論。實(shí)驗(yàn)心理學(xué)家赤瑞特拉做過心理實(shí)驗(yàn)證實(shí)：人類獲取的信息83%來自視覺，11%來自聽覺，這兩個(gè)加起來就有94%。其它途徑是嗅覺、觸覺和味覺。在人工智能領(lǐng)域，計(jì)算機(jī)視覺的重要性不言而喻。

現(xiàn)在主流的卷積神經(jīng)網(wǎng)絡(luò)，從AlexNet，GoogLeNet，ResNet，到DenseNet，不停變化的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，不管有多復(fù)雜，整體來看其實(shí)只有兩層：各個(gè)神經(jīng)元之間的回歸函數(shù)層，及最后的分類層。回歸函數(shù)層起到的作用是提取不同層次的特征，最后由分類函數(shù)進(jìn)行相似度計(jì)算，得出分類結(jié)果。由于提取特征的過程不透明，不可解釋，與人類的思考方式不一致，自然就不容易相信。

我們?nèi)祟愑^察一個(gè)物體或一張圖片，歷史的經(jīng)驗(yàn)會(huì)起到很重要的參考作用，而對(duì)于沒有見過的物體通過想象來推理其用處。這是一種學(xué)習(xí)和推理能力，是智能的一部分，而神經(jīng)網(wǎng)絡(luò)顯然不是這樣的工作方式。

例如看到一張從未見過的貓的圖片，我們是從有皮毛的動(dòng)物，有四肢，有尾巴，臉部形狀等來推測(cè)。那么AI能不能用類似的方法呢？答案是可以的，已經(jīng)有團(tuán)隊(duì)在嘗試。具體請(qǐng)參考[1802.00121] Interpreting CNNs via Decision Trees。

智能的整體架構(gòu)

對(duì)于AI智能，僅僅擁有可解釋的觀察能力是不夠的。整體的AI智能架構(gòu)包括七層，分別是初始任務(wù)、知識(shí)和常識(shí)、感知和認(rèn)知、學(xué)習(xí)人類的價(jià)值函數(shù)、決策機(jī)制、頭腦和語言。我們一層一層來解釋。

初始任務(wù)

初始任務(wù)就是AI智能努力的目標(biāo)。以自然界的一只小松鼠為例，首先要解決的是活下來，要有食物，不要被其它天敵吃掉，長(zhǎng)大成熟后找到配偶，撫育下一代，這些就是小松鼠的初始任務(wù)。那么一個(gè)智能機(jī)器人的初始任務(wù)可以是家務(wù)機(jī)器人，可以是運(yùn)動(dòng)陪伴機(jī)器人，可以是溺水救援機(jī)器人等等。這是智能的起點(diǎn)。

知識(shí)和常識(shí)

常識(shí)就是我們?cè)谶@個(gè)世界和社會(huì)生存的最基本的知識(shí)。它使用頻率最高，并且它可以舉一反三，推導(dǎo)出并且?guī)椭@取其它知識(shí)。包括社會(huì)常識(shí)和物理常識(shí)/視覺常識(shí)，例如房間內(nèi)的物體可以是被地板支撐，可以掛在墻上，可以吊在頂棚等。

感知和認(rèn)知

在AI智能領(lǐng)域，研究最多的就是智能識(shí)別和感知。與當(dāng)前CV領(lǐng)域三大基本能力不同，智能感知并不是從目標(biāo)識(shí)別、目標(biāo)定位和目標(biāo)分割三方面去努力，而是選擇了完全不同的道路。

AI智能要做的第一步是二維圖像的三維重建，而且是基于單張二維圖像的三維重建。這在數(shù)學(xué)上很難做到，因?yàn)槿S重建需要雙視角的信息輸入。但是我們?nèi)祟愑羞@種能力，看到一張照片就能在腦海里進(jìn)行三維還原，基本原理就是我們知道每件物品在現(xiàn)實(shí)社會(huì)里的大小。例如門高80英寸，椅子和小腿高度一樣，約16英寸等。

3D重建完成后，對(duì)于每一個(gè)物品的識(shí)別，并不是依賴大量標(biāo)注好的圖片訓(xùn)練，而是從人類視角，推測(cè)這個(gè)物品我們?nèi)绾问褂谩Ｈ绻梢源娣盼锲罚⑶腋叨仁侨搜鄣母叨龋螤钍橇⒎襟w，那就是壁櫥。如果從力學(xué)角度人坐上去會(huì)感覺舒服，那就是椅子，以此類推，而不是簡(jiǎn)單貼上標(biāo)簽。

識(shí)別物體之后，還要理解物體的擺放是否合理和安全。這會(huì)影響之后的動(dòng)作決策。

對(duì)于各種容器內(nèi)的物體或液體，要根據(jù)人類的動(dòng)作和容器的狀態(tài)進(jìn)行推理。如果在倒水，那壺里一定是有水的。這里漸漸能看到智能的影子。

對(duì)于各種可見不可見的物體識(shí)別完之后，如果圖像里有人或動(dòng)物，就可以觀察他/她/它在關(guān)注什么，知道什么，喜歡什么，猜測(cè)之后可能的動(dòng)作是什么。

上面是對(duì)單張圖片的感知內(nèi)容。如果是視頻，可以了解更多的信息。

學(xué)習(xí)人類的價(jià)值函數(shù)

在一定時(shí)間的觀察之后，可以得到被觀察者做事方式的價(jià)值函數(shù)，例如喜歡喝啤酒還是飲料？喜歡多互動(dòng)還是少打擾？喜歡每天掃地一次還是只要有臟東西就要清理？等等。

決策機(jī)制

了解了各種物體，了解了被觀察者的喜好，為了達(dá)成初始任務(wù)，AI智能體就能決定自己的具體任務(wù)鏈，例如去開門，去拿啤酒，去打開電視等等。隨著仿生機(jī)器人的快速發(fā)展，已經(jīng)可以完美寫成這些動(dòng)作。

頭腦

為了更好地完成任務(wù)，AI智能體需要理解被觀察者知道什么，正在做什么，打算做什么等等。還要清楚對(duì)方知道什么，對(duì)方知道自己知道什么，雙方共同知道什么，這是溝通和決定下一步行動(dòng)的基礎(chǔ)。在這個(gè)過程中，需要進(jìn)行溝通，而語言是溝通的一種主要方式。

語言

人類用語言溝通的基礎(chǔ)是要完成共同的任務(wù)，所以語言是任務(wù)驅(qū)動(dòng)的。通過觀察和認(rèn)知，了解這個(gè)世界，并且知道自己能做什么，就可以對(duì)具體任務(wù)進(jìn)行溝通。這是基于理解的語言，而不是為了說而說。現(xiàn)在自然語言處理領(lǐng)域基本上是從語言開始，到語言結(jié)束，與現(xiàn)實(shí)社會(huì)脫節(jié)，成為無源之水。

總結(jié)

上面說明的智能，并不是紙上談兵，已經(jīng)有很多國際團(tuán)隊(duì)在2010年之在致力于AI智能體的實(shí)現(xiàn)。電影中描繪的強(qiáng)人工智能離我們還很遙遠(yuǎn)，但是通用人工智能（Artificial General Intelligence，AGI）時(shí)代已經(jīng)來臨！

在通用人工智能時(shí)代，計(jì)算機(jī)視覺、自然語言處理、機(jī)器學(xué)習(xí)都是融為一體的，這個(gè)融合劑就是感知（Recognition）和認(rèn)知（Congnition），或者叫做理解和推理。

讓我們擁抱這個(gè)時(shí)代！

參考文獻(xiàn)

[1] ?M. S. Arulampalam，S. Maskell，N. Gordon，and T. Clapp. A tutorial on particle filters for online nonlinear/non-gaussian bayesian tracking. IEEE TSP，50（2）：174–188，2002.

[2] ?A. Belardinelli，O. Herbort，and M. V. Butz. Goal-oriented gaze strategies afforded by object interaction. Vision Re-search，106：47–57，2015.

[3] ?A. Borji，D. N.Sihite，and L. Itti. Probabilistic learning of task-specific visual attention. In CVPR，pages 470–477，2012.

[4] ?A. Borji，D. N. Sihite，and L. Itti. What/where to look next？ modeling top-down visual attention in complex interactive environments. IEEE TSMCS.，44（5）：523–538，2014.

作者簡(jiǎn)介：王悅林（1973.2—），男，漢族，黑龍江人，本科生，現(xiàn)任職于聯(lián)想數(shù)據(jù)智能事務(wù)部，研究方向是人工智能。

科學(xué)導(dǎo)報(bào)·學(xué)術(shù)2019年21期

科學(xué)導(dǎo)報(bào)·學(xué)術(shù)的其它文章: 醫(yī)療設(shè)備維修中的安全防護(hù); 煤礦安全生產(chǎn)活動(dòng)中職業(yè)衛(wèi)生管理的探討; 5.1聲道WIFI吉它功放（系統(tǒng)）的設(shè)計(jì); 水利工程施工管理中存在的問題與改進(jìn)對(duì)策; 天津港第一港埠有限公司視頻監(jiān)控系統(tǒng)的改造; 淺析農(nóng)村農(nóng)業(yè)技術(shù)推廣面臨的困境與對(duì)策