樊瑞
中國在AI領域正在蓄勢,逐步成長為中堅力量,但在基礎性、原創性研究、創新土壤、人才儲備層面,中國相較美國還存在不小的差距。
作為人工智能國際頂級會議,由美國人工智能協會(American Association for Artificial Intelligence)組織的AAAI大會在美國舊金山召開,在2017年的大會上中國面孔成為不可忽視的力量。在2571篇投稿論文中,中國和美國的投稿數量分別占到31%和30%,雖然在被接收論文數量上,中國還是低于美國,但數量已經大幅提升。
可見,中國在AI領域正在蓄勢,逐步成長為中堅力量。據《烏鎮指數:全球人工智能發展報告》,在全球人工智能專利數量方面,中國以15745個緊跟在美國26891個之后位列第二,日本以14604個排名第三。值得一提的是,三國占總體專利的73.85%。
華人勢力
“不僅僅是學者,來參會的中國公司也變多了?!睏顝姳硎荆茿AAI Fellow、AAAI現任執委。從去年的活動贊助商角度而言,百度、騰訊和亞馬遜、IBM一并成為金牌贊助商,小i機器人、今日頭條也躋身銀牌贊助商之列。在去年收錄的論文中,百度、騰訊、華為、360、今日頭條、攜程等中國公司的人工智能團隊也有出現。
“這一輪人工智能并不是一個新的革命,而是18世紀工業革命自動化的一個延續,技術一旦掌握到手里,可以迅速擴展到做全世界的生意,所以這對于中國起到了一個彎道超車的作用。”楊強表示。
中國人數學好、刻苦努力無疑為中國發展人工智能提供了良好的基礎,但更大的驅動力在于產業需求。一方面對于傳統企業而言,需要新技術來推動產業變革,“中國的經濟結構還有很多不合理、低效率的地方,通過人工智能浪潮,就形成了一種新的競爭。”楊強強調。
對于互聯網巨頭或新興獨角獸公司而言,同樣需要借助人工智能技術,激發已經存儲的海量數據,提升服務精準度,創造潛在盈利機會。
“全世界只有中美兩國有如此大量的數據、大規模的計算和應用場景,在應用層面中美基本處于同一起跑線。”地平線機器人技術創始人兼首席執行官余凱稱。余凱曾擔任百度研究院副院長、深度學習實驗室(IDL)主任,帶領的團隊將深度學習技術成功應用于廣告、搜索、圖像、語音等方面,
“最大的優勢是人多,這種優勢體現在三個層面,人多意味著市場大,有更強的驅動力去把這件事情做好。其次針對社會服務層面,需要很多數據。第三,人才基數比較大,冒出頂尖人才相對多一些。”第四范式創始人、首席執行官戴文淵稱,“從數據量、投入的人力財力來看,中美之間沒有多少差距,且中國更有優勢。”
中美差異
但將論文數量視為中國人工智能發展水平有失公允,雖然在靠近商業價值應用層面中美并駕齊驅,但在基礎性、原創性研究、創新土壤、人才儲備層面,中國相較美國還存在不小的差距。
“國內更多是技術的落地、產業化和應用,國外仍然有很多人在公司和研究院做前沿研究,包括尋求方法論上的突破,我們擅長把事情做得更細致,相對而言突破性和奠基性的工作還不夠多。”地平線機器人技術聯合創始人、算法副總裁黃暢表示。在他看來,做研究無外乎尋找新的問題和研究新的方法,而在這兩方面國內和國外相比還存在不小的差距。
楊強認為,深度學習是不斷發展的,研究領域的領導者應該是開拓新的領域,而不是在原有的基礎上深挖。“把一個10層的深度模型拓展到100層甚至1000層,我覺得這個確實是一個進步,中國人目前是這個層次,但這些在我看來并不是一個原創?!睏顝娕e例說道。
余凱認為,有一些中國學生很擅長“刷分”“刷榜”,“別人做到99.5%,我做了99.7%,并不一定有實質性突破,世界也沒有因為這個刷分而變得不一樣。原創性的創新需要不一樣的思考,現在講深度學習比較多,所有的人都進行深度學習,而不是思考What is wrong ?How to be different?”
回歸至深度學習的歷史發展脈絡來看,正是一個邊緣化課題走向主流技術的路徑。早在上世紀80年代初期,深度學習學派的開山人物Hinton一直堅持神經網絡的探索,但受限于當時的電腦速度、數據量等問題,深度學習理論是一項邊緣化的研究,當時AI的主流研究方向與之截然相反,推崇小樣本學習,主推SVM學習。
正是以深度學習學派的開山人物Hinton為代表的一群人對深度學習的堅持,才一步步將邊緣課題變成人工智能核心技術。
人工智能挑戰
一派繁榮之下,正視人工智能的作用變得更為重要。“相較于告訴人們人工智能能做什么,目前更重要的反倒是告訴人們,人工智能不能做什么?!庇鄤P笑著說道。結合當下的發展情況人工智能仍然面臨諸多挑戰。
首要挑戰就是數據不足的問題。眾所周知,人工智能建立在海量數據基礎之上,通過大數據訓練,來優化算法模型,以人臉識別技術為例,訓練這一算法模型需要至少百萬級別的圖片數據。
目前人工智能主要是監督式學習,有監督的訓練就需要帶標簽的數據,因此數據的質量和精準度及輸出結果密切相關?!叭绾翁蕹龜祿械脑胍?、垃圾信息,獲取優質且帶有標簽的數據成為新挑戰,也正是因為這個原因,半監督式甚至無監督式學習方法必然成為未來的研究熱點。”黃暢說道。
另一大挑戰在于深度學習的推廣和場景遷移能力不足,每個領域的數據都需要重新收集、標準和再訓練,很難進行跨領域推廣。這些挑戰也是人工智能工業界和學術界急需突破的問題。“在招聘的過程中,學習深度學習的人很多,而懂得遷移學習、具備思辨能力的人很少?!贝魑臏Y表示。反映到人才培養和教育而言,如何引導并鼓勵學生進行跨領域、原創性的探索研究尤為重要。
例如去年AAAI最佳論文來自斯坦福大學計算機科學系的Russell Stewart、Stefano Drmon,他們所撰寫的論文《用物理和特定領域知識讓神經網絡進行不帶標簽的監督學習》,就是將物理知識與深度學習相結合,通過跨領域研究給AI帶來新的啟發。