李生 蘇功臣
算法、數據、算力三方面相關技術不斷進展,最終促成了最近一次人工智能大發展。人工智能的四個方面,計算、感知、認知、決策,“我中有你、你中有我”,連續向前。從宏觀上看,現在人工智能正在從感知走向認知,通過深度學習的算法,感知智能已經有了很大突破,但是對于認知智能,它還剛剛開始或者說還在路上。
人工智能從1956年達特茅斯會議之后經歷了三起兩落。2016年AlphaGo人機大戰轟動世界,迎來了人工智能第三次高潮。這一輪高潮的興起得益于基于多層人工神經網絡的深度學習算法,使得在感知智能上取得突破,并在產業界的多種場景下廣泛應用。但是,當前的人工智能還稱不上真正的人工智能。未來必須加強基礎理論研究,以求在認知智能方面取得技術突破,開辟一條人工智能發展新路徑。
一、人工智能的“三叉戟”
這輪人工智能高潮的到來,主要依賴三個方面的進步:算法、數據、算力。在這三個方面中,算法是工具,數據是原材料,以及把原材料送到算法工具里面加工所需的動力能源——算力。
目前作為工具的算法,采用了基于多層人工神經網絡的深度學習。這種深度學習結構受人的大腦工作機理和結構的啟發,方法上是對數據進行概率統計分析。
大數據的出現使得深度學習算法的準確率大幅提升。大數據是由于計算機特別是互聯網的興起之后,包括各種企業事業各種數據、社會科學人際交往的信息,被記錄保存起來,用于社會計算。但是,用于人工智能對大數據也有較高要求。首先數據是經過標注的大數據,比如有一張圖片標注這是個貓,另外圖片標注是個狗,等等。其次數據標注的質量要高,質量不高、標注不準確,就容易造成最后結論偏差。再次是標準的數據分布的面要廣泛、合理。比如一個動物標注的顏色過多了,但是對其它方面比如眼睛、耳朵什么的標注少了,就容易產生偏差。最后要求標注的數據量要大,經常是幾千萬上億的數據量。
數據在算法加工過程當中需要強大的計算能力和存儲空間,也就是需要強大的算力。早先計算機主要的功能是計算和存儲,CPU芯片主要為計算服務。現在進入人工智能階段之后,它涉及的計算量大,而且主要是矩陣運算,而CPU在線性的加減乘除運算表現出色,但微分積分、矩陣運算就相對比較困難了。所以現在是借用了游戲當中的處理矩陣運算的GPU器件進行運算。另外,云計算的出現,也提高了計算能力。它實際上是一種虛擬計算,是把多臺計算機聯網之后,分配任務,進行分布式運算,完成之后匯總再由一臺計算機呈現結果。
二、人工智能四階段
算法、數據、算力三方面相關技術不斷進展,最終促成了最近一次人工智能大發展。往前回溯,人工智能的起源在于人的智能。那么,什么是人的智能?
我們知道,人類是人、機、物三元世界的核心。人類的生活、生存要依賴物(物質、環境等),欲提高生活生存的質量需要機(工具、蒸汽機、電動機、計算機、互聯網、人工智能等)的輔助。從歷史上看,工業社會減輕了人的體力勞動;未來高度智能化的社會必將減輕和拓展人的腦力勞動。人類所具有的智能,來源于知識,而知識在于學習。智能則是學習和求解問題的能力。這是推動人類進步和社會發展的強大動力,也是人具有的區別于其他動物的能力。
簡單說,人工智能就是模仿或者模擬人類智能的能力,是用計算機來模仿人類學習和求解問題的能力?!翱础焙汀奥牎睂θ祟愓J識世界具有決定性作用,但是看到的和聽到的并不一定都是真實的——這里存在知覺偏差的問題。所以我們強調要透過現象看本質,也就是說存在著“感知—現象”“認知—本質”兩對相應的概念。認知的核心是反饋,是一個“抽象迭代——思維推理”的過程,所以才有“學而不思則罔”“不是收到籃子里的都是菜”的說法。
因此,人工智能仿照人的智能從根本上來說有兩項大任務,一項是模式識別,采用統計方法得到感知,從經驗當中學習;一項是語義理解,用邏輯推理或知識推理的方法以求解決“認知”的問題。
具體說來,人工智能包含四個方面,計算、感知、認知、決策。計算機于1946年問世,當時的主要功能是數值計算,當然也就具備計算智能。到1956年,在達特茅斯會議上提出讓計算機來模擬人的智能,才正式出現了“人工智能”的概念。人憑借著五官感覺外部事物,感覺、感知周圍環境,那么機器就通過傳感器來模仿人的感覺器官,來感知世界和外部環境,所產生的信息經過機器的中樞進行加工,實際上是對感知階段感知到世界和外部的信息進行深層次的加工和處理,這就是機器智能的認知階段,然后再產生決策。這其中最重要的是感知和認知。
人工智能這幾個方面有什么區別和聯系?計算智能的實現,首先需要問題的數據化,才能有計算智能可以處理的“原材料”。另外,問題的解決還需要一定的方法、策略和步驟,這個步驟就是程序,即用計算機語言編程。這些程序告訴機器,解決和處理問題的過程,先做哪個,后做哪個。但是在計算智能階段,這個程序需要人工編寫,涉及到的工作量很大。發展到感知智能之后,解決了由人來編程工作量大的問題,程序的編制由機器自己自動完成了。程序自動化從發展來看也是經歷了從機器學習到深度學習的階段。數據特征在機器學習階段是靠人工提取的,而發展到現在用深度學習的方法,數據特征實現了由機器自動提取。
需要強調的是,人工智能發展的這四個階段并不是截然分開的,而是既有階段性又有連續性。在發展感知智能的過程中,就在為認知智能做相應的工作。當初馮·諾伊曼和圖靈同時發明了計算機的體系結構,計算機問世,主要解決的是計算智能的問題。但是圖靈在那個時代,已經為人工智能做起了儲備,已經提出著名的“圖靈測試”問題,預測了下一個階段的實踐,推動了第二個階段的發展。感知智能、認知智能有階段性,但是階段也是“我中有你、你中有我”,之間存在著連續性。
三、深度學習的崛起
深度學習是機器學習的一種。機器學習是先用數據訓練(學習)模型,獲得規律(知識),再用訓練好的模型去預測未知數據。運用數據訓練好了的算法,叫模型,無須人工預先編程。在學習的過程中,算法、數據、算力三個要素,核心是算法。
現在感知智能階段采用了深度學習的算法。這種算法的設想在上個世紀五六十年代就已經有了,但設想還不完善,另外還沒有數據的支撐和算力的支持。直到2006年,Hinton,這位被譽為深度學習之父的大師,提出了反向傳播(BP)算法,解決了訓練誤差的問題,深度學習才開始嶄露頭角。2012年,在BP算法基礎上發展起來的CNN算法,在世界圖像識別大賽上,與世界各地的學者推出的各色算法、模型一較高低,成績突出,其準確率高出第二名10%左右,準確率達到85%,一舉拔得頭籌。這種新算法于是被世界各國的學者青睞。時隔四年,2016年,計算機AlphaGo和韓國圍棋大師人機大戰,取得了4勝1負的成績,引起人們廣泛關注和高度重視,直接助推第三次人工智能高潮的到來。
深度學習的多層人工神經網絡是由一個輸入層一個輸出層及若干個隱含層所組成,每層中的人工神經元與相鄰層中的神經元相連接。隱含層一步一步對數據進行逐層深加工。腦科學研究表明,人類大腦大約由850億個神經元組成,每個神經元約有1000個突觸與其相連。當神經元受到刺激而興奮時,就會向與其相連接的神經元傳遞脈沖,從而改變這些神經元中的電位,超過某一“閾值”的話,該神經元就會被“激活”,即也隨之“興奮”,興奮起來的神經元又會向與其連接的神經元傳遞神經脈沖。大腦皮層的神經元通過突觸相連,分層分區形成神經網絡。深度學習的結構是受腦啟發的多層人工神經網絡,信息處理過程是分層的,具有非線性處理、自動提取特征的特點,高層特征是底層特征的組合,從底層到高層特征的表示越來越抽象,越來越能表現語義或意圖。 深度學習算法尤其是與大數據結合之后,把其他人工智能技術遠遠拋在了后面,成為引領人工智能發展的核心技術。
深度學習在感知上已經有重大突破,特別在識別上,現在刷臉隨處可見,語音識別在同聲傳譯上取得很大成就,在自然語言處理(NLP)也取得了進步。在NLP上,用深度學習的辦法,把一個句子或者一個短語、詞組投影到一個向量空間當中的詞(句子)嵌入法來識別。2017年谷歌公司推出一款軟件BERT,其思路就是把算法編制過程所涉及到的通用部分,單獨拿出來,預先做好,做成一個網上開放的公用平臺。其他開發者下載這個通用平臺,通過預留的接口再和自己專用的部分進行微調,完成自己開發任務。這種“預訓練+微調”范式就是利用了深度學習的辦法而取得的重大突破。
四、當前深度學習的局限性
隨著研究和應用的不斷深入,人們也發現目前感知智能采用的深度學習算法有其局限性。人具有意識,有情感,能夠進行思維,能夠推理。與之相比,目前人工智能沒有意識,沒有情感,不會思維,不會推理。人類的學習在于,能從僅有的少數幾個例子中,快速掌握新的知識(小樣本學習),并利用先前已有的知識進行歸納推理(歸納與演繹方法結合),提高對問題的理解和認知能力。這種推理和知識也是滾雪球的,有個積累的過程。機器就沒有這種功能,所以深度學習有其局限性。
局限性主要體現在四個方面。一個是“貪婪”,也即要求標注的數據越多越好,但標注成本太大也太難。第二個是“脆弱”,就是抗干擾能力低,容易被虛假數據欺騙,比如一個面包烤箱,如果前面給放上一塊香蕉皮,這個烤箱就不能準確識別出來,可能識別是一個面包機。所以從這點說,深度學習的辦法是從眾的,運用概率統計的方法,講的是少數服從大多數,但是真理往往掌握在少數人手里,少的也可能是正確的。所以這種算法的“脆弱”有的時候導致一百個謬誤就可能變成真理。第三個局限性是它不透明,暗箱操作,出錯了,但不知錯在哪兒,沒法回溯去找。第四個就是它不具備思考和知識推理能力,所以“淺薄”,只知道“什么”,不知道“為什么”,知其然不知其所以然。這就是目前人工智能主流的深度學習算法有其不足、有局限性的地方。
針對這些存在的局限,今后人工智能發展的方向是從感知走向認知,從識別走向理解。
五、從計算機視覺(CV)到自然語言處理(NLP)
人類對世界的認識可分成感性認識和理性認識兩種。感性認識只能看到事物的表象,理性認識才能察覺到事物的本質。感性認識是認識的基礎,是認識的初級階段,理性認識是認識的高級階段。只有理性認識才能透過現象看到本質,更深刻、更全面、更可靠地反映事物的本來面目,引導人們按規律辦事,有效改造世界。
人工智能是對人類智能的模擬,感知智能對應著感性認識(識別),認知智能則對應著理性認識(理解)。
計算機的感知智能,目前通過深度學習方法,具備了圖像識別、物體識別或語音識別的能力,能“看”出有這么個形狀、這個樣子,從邊框到形狀,能將人說的話識別成文本,完成這些任務機器都可以靠從數據(經驗)中學習,搜索(比對),獲取知識(還是處于感知階段)不需要真正的理解(認知)。由于目前的人工智能還不具備真正的理解能力,對識別出的結果到底是什么,可以發揮什么作用不清楚。由感知到認知,需要解決的重點和難點在于語義的理解,或者叫做意圖的理解,這主要涉及到自然語言處理。
人的語言具有歧義性(一詞多義)和多樣性(一義多詞),比如說一個“打”字就可以表達多個意思,打醬油、打乒乓球、打架、打黑等;一個詞組也存在多意性的問題,比如“打傘”既可以是打開雨傘,也可以是打擊黑惡勢力的保護傘;同一句話也有不同的意思,比如說“中國這個球隊誰也打不過”,既可以理解是世界無敵,誰也贏不了這支球隊,也有可能是自身很弱,遇誰輸誰。同時,語義理解高度依賴知識,除上下文之外,還有語言知識(語法結構)、專業知識、背景知識、常識性知識和先驗知識等。此外,語言存在著高度的開放性(新詞不斷涌現)和高度的靈活性(隨意組合)。因此,Hinton說:“深度學習下一個大的進展應該是讓神經網絡真正理解文檔的內容”。比爾·蓋茨說:“語言理解是人工智能領域皇冠上的明珠”。
現在人工智能正在從感知走向認知,通過深度學習的算法,感知智能已經有了很大突破,但是對于認知智能,它還剛剛開始或者說還在路上。
六、人工智能的未來
人工智能進一步的發展必須逾越人類大腦思維能力鴻溝,解決不了推理問題,機器就難以實現真正的認知。不具有完全推理的人工智能還不是真正的人工智能。人工智能的未來應該是逐漸逼近人類智能,可能會有人腦思維和電腦思維兩種途徑。要從二者的差異入手,找出人工智能未來發展的出路。因此,深度學習未必是人工智能發展的唯一。要突破當前的人工智能只歸類、不了解其中內涵的局限性,既要統計,也要推理。
人工智能未來要實現可持續發展,需要“兩個加強、三個結合”,具體來說,一是加強基礎理論研究,其中包括對腦科學和認知科學的研究,對微積分、線性代數概率統計邏輯推理等方面的數學研究,對算法、結構等在內的計算機科學研究。二是加強基礎設施建設,包括芯片、傳感器、公共通用的算法、平臺,等等。三個結合指的是軟件算法與硬件芯片結合,知識推理與數據統計結合,機器計算與人類認知結合。
因此,技術理論上要學科交叉,用腦科學帶動數學和計算機科學,核心在算法。只有在基礎理論研究上取得根本性突破,打造專用芯片,使硬件與算法結合;突破知識推理,統計與推理結合,人工智能才能避免走進死胡同。
總之,機器永遠是人類的助手和工具。面對它,掌握它,用好它,人機融合才是發展的出路。
(蘇功臣為哈爾濱工業大學離退休工作處處長)
責任編輯:王卓