自2006年以來,深度學習算法的突破,加上GPU等并行計算方式和海量數據的加持,AI在圖像、視覺和語音等方面表現出了超越人類的能力。
但深度學習的效果取決于網絡結構和節點的設計、訓練數據的質量和訓練方法的合理性等,還存在不少瓶頸,可能存在天花板。
算法方面存在問題
一是無論深度學習還是黑盒子,缺乏理論指導,對神經網絡內部涌現出的所謂“智能”還不能做出合理解釋。二是事先無法預知學習的效果。為了提高訓練的效果,除了不斷增加網絡深度和節點數量、為更多數據和增加算力,然后反復調整參數基本就沒別的招數了。三是調參還是在碰運氣。還沒有總結出一套系統經驗做指導,完全依賴個人經驗,甚至靠運氣。四是通用性仍有待提高,沒有記憶能力。目前幾乎所有的機器學習系統都是被訓練于執行單一任務,做之前任務的記憶。
計算能力仍處于初級階段
我們今天的人工智能其實還是一種蠻力計算,靠無數的計算資源解決一些問題,今天所有的技術都是開源的,開源的重要特征就是希望根據我的開源搞一套生態,這是高手的玩法,就是一開始就要玩生態,要玩生態必須開源,讓大家跟著你一塊走。我們今天說大數據,大數據是石油,石油在地球上存在多少萬年了,為什么以前不是戰略資源,現在才是戰略資源,就跟數據一樣,因為我們處理石油的成本降低了,經濟上劃算了,同樣我們處理數據的成本降低了。另外我們在GPU等并行式計算硬件取得了巨大進步,但算力仍然是性能的限制性瓶頸,并且能夠大幅提高算力的硅芯片已逼近物理和經濟成本上的極限,摩爾定律即將失效,計算性能的增長曲線變得不可預測。
數據的處理仍落后
首先我們數據的透明度不夠高,雖然深度學習方法是公開透明的,但是訓練用的數據往往是不透明的,在利益方的誘導下容易出現數據改變信仰的情況。其次如果輸入的數據細微抖動就可能導致算法的失效,如果發起對抗性樣本攻擊,系統很容易被“洗腦”癱瘓。最后深度學習需要海量的大數據,并且需要打上標簽進行監督學習,而目前給海量的大數據都打上標簽幾乎不可能。
AI進步需要各方面大融合
目前AI取得的進步屬于“連接主義學派”(基于神經生物學和認知科學)。在對智能的基本認知方面,缺乏與具有邏輯推理能力的“符號主義學派”(認為智能源于數理邏輯)等的融合能力。比如,還無法理解實體的概念,無法分析因果關系,無法識別關鍵影響因素,不會直接學習知識,不善于解決復雜數學運算,缺乏倫理道德等方面的常識等。
到2017年,機器學習的神經網絡已具有數千到數百萬個神經元和數百萬個的連接。這樣的復雜度還只相當于一個蠕蟲的大腦,與有1000億神經元和10000億連接的人類大腦,差了N個數量級。但盡管如此,神經網絡下圍棋的能力已遠高于一只蠕蟲。與此同時,一只蠕蟲所具有的自繁衍、捕食和躲避天敵等智能,無論是人類智能還是人工智能,都還望塵莫及。
人工智能的發展需要依托三大基礎力量,新數據、新硬件、新算法。我們以前用CPU,后來有GPU,今天谷歌說我們需要給人工智能設計專用的硬件,所以硬件技術的進步使得它的算法或者能力提高了,當然算法的改進也是很重要的,但是所有的事情都是兩面性的,進入深度的時候一定是把廣度縮小了。
AI仍處于新一輪技術發展的初期,現在很多的突破并不是顛覆性的,是很穩定的一個增長,主要靠的是蠻力,今天如果你不說大數據,人工智能就是算法。
到2017年,機器學習的神經網絡已經具有數千到數百萬個神經元和數百萬個鏈接,這樣的復雜程度相當于一個蠕蟲的大腦,為此大家很擔心隨著人工智能的發展其會不會控制人類,顛覆人類,但我認為是不會的。我們的IT行業有三個教父級的人物,我們今天使用的計算機是馮·諾依曼算法。比特的定義,是香農定義的,他說比特是剝離了語義的。有些事情,是不可計算,這是阿蘭·圖靈講的,從三位教父的觀點我們可以得出一個結論,我個人的觀點是至少我們這一代的IT技術,基于我們這一代IT技術的人工智能是不可能超過人類的,人工智能只是我們的工具,我們需要新的技術理論,技術架構,技術突破,這一代的技術是往南走的,人工智能會往北走,走是可以走的,大家會非常累。(本文根據2017年8月13日何寶宏公開發表文章進行整理,有刪節,未經本人確認。)