
海量的應用場景、超大的市場規模,人工智能領域正迎來一場由AI大模型引領的爆發式發展。
AI大模型在千行百業落地過程中會帶來哪些新的可能性?具身智能如何成為人工智能的下一個浪潮?就AI大模型領域熱點問題,《瞭望東方周刊》近日專訪了中國工程院院士、中國圖像圖形學學會理事長、湖南大學教授、機器人視覺感知與控制技術國家工程研究中心主任王耀南。
《瞭望東方周刊》:以AI大模型為代表的新一輪人工智能技術浪潮洶涌澎湃,AI大模型這一輪發展對培育發展新質生產力有怎樣的重要意義?
王耀南:技術革命性突破、生產要素創新配置、產業深度轉型升級,這三個因素催生了新質生產力。培育發展新質生產力,具體特征就是高科技投入、高效能、高質量,重點是要擺脫現在傳統產業存在的問題,即擺脫傳統經濟增長方式(增長效率低),擺脫傳統生產力發展路徑(高耗能、產品質量不高)。
多模態大模型正助力新質生產力的培育和發展。
推進數字經濟高質量發展,核心在于“人工智能+行動”,即推動人工智能賦能各行各業,幫助各行各業擺脫增長效率低和高能耗等問題,最終實現生產力三要素的躍升:勞動者躍升為更高素質的勞動者,培養出戰略人才、應用型人才等;勞動資料躍升為更高技術含量的勞動資料,通過新一代信息技術、先進制造技術、工業互聯網、工業軟件、AI大模型等,產出先進制造的優質產品;勞動對象躍升為更廣范圍的勞動對象,深度融合到生產的各個方面,開辟如戰略性新興產業、未來產業等新賽道。
作為新一輪產業變革的核心驅動力,人工智能將進一步釋放歷次科技革命和產業革命所積蓄的巨大能量。

《瞭望東方周刊》:如何理解當前人工智能發展的程度和水平?
王耀南:經過數十年演進,人工智能各方面都取得了突出成績。特別是在移動互聯網、大數據、超級計算、傳感網、腦科學等新理論、新技術以及經濟社會發展強烈需求的共同驅動下,人工智能加速發展,呈現出深度學習、跨模態、人機協同、自主操控等新特征,但坦白說,目前人工智能還處于發展的“孩童期”。
回顧人工智能的螺旋式發展史,可以看出其經歷了大起大落三次迭代:第一次是20世紀50年代的計算智能時代,特點是重視邏輯,忽略知識;第二次是20世紀70年代感知智能時代,特點是重視知識,學習不足;第三次自20世紀80年代到現在,特點是走向認知智能。
2017年,谷歌提出基于自注意力機制的神經網絡結構Transformer 架構,奠定了大模型預訓練算法架構的基礎;2018年OpenAI和谷歌分別發布GPT-1和BERT大模型,預訓練大模型成為自然語言處理的主流;2022年,OpenAI推出ChatGPT,其擁有強大的自然語言交互與生成能力;2023年,OpenAI多模態預訓練大模型GPT-4發布,其具備多模態理解與多類型內容生成能力;2024年,OpenAI發布視頻生成大模型Sora,提出時空碎片概念。
當前,AI大模型熱潮主要由語言大模型相關技術引領。語言大模型通過在海量無標注數據上進行大規模的預訓練,讓模型學習大量知識,并進行微調,指定的回調,從而獲得面向多任務的通用求解能力。大模型從過去的單一的自然語言處理能力和文本解答能力,走向了圖像視頻語音的融合化、多模態的能力。Transformer架構是目前語言大模型采用的主流架構,大模型的多模態生成能力進一步成熟。
從發展進程看,AI大模型并不是終點,今天的語言大模型也只是人工智能的一個過渡神經網絡推理模型,未來我們還有很多工作要做。
未來,人類更需要服務機器人,而服務機器人最重要的能力就是與人類交互,要實現語言、視覺、動作、圖像、視頻等全方位的交互,多模態大模型的發展將極大助力這些目標的實現。
《瞭望東方周刊》:當前熱議最多的多模態、人機協同、巡視開放和自主操控等特征,是人工智能發展的前沿體現。具身智能如何借助AI大模型的發展變得更加智能化?
王耀南:人工智能的三大基石,即模型算法、算力、數據,其中模型算法是核心,主要應用領域包括計算機視覺、自然語言處理、智能機器人等。
回顧過去人工智能發展取得的成績,主要體現在計算機視覺、自然語言處理、工業智能機器人等方面。
在計算機視覺中,過去人工智能更多作用在目標檢測、目標跟蹤、虛擬現實和三維重建,通常都采用小的模型算法、小的模型來解決相關領域的問題。今天AI大模型大大提升了語音識別、文字識別、機器翻譯和信息檢索等能力,因此在計算機視覺領域出現了不少視覺大模型的技術突破。
智能機器人是當下熱點。業界普遍認為,2024年可以稱為“AI大模型+人形機器人元年”。
具身智能是實現思考、感知、行動三個空間有機智能融合的機器或系統,既具有人機交互與自然語言理解的能力,又可以通過感知、認知、決策能力與時空環境及對象進行實時校準互動,協助機器人作出決策、完成行動任務。
“具身智能”這一概念,最早是1950年由英國科學家圖靈提出的,然而真正引起廣泛重視卻是因為近年來AI大模型的發展與應用。過去,人形機器人發展非常緩慢。我們沒有多模態模型,用小模型,一個模型解決一個問題,編好一些固定程序,通過小腦芯片控制機器人的抓取、行走、搬運等單一動作。現在,通過多模態大模型訓練學習迭代(大腦芯片),可以實現人形機器人與環境的交互、理解、判斷、規劃等,機器人的自主性得到很大提升,應用場景也在不斷拓展。
未來,人類更需要服務機器人,而服務機器人最重要的能力就是與人類交互,要實現語言、視覺、動作、圖像、視頻等全方位的交互,多模態大模型的發展將極大助力這些目標的實現。
《瞭望東方周刊》:機器人之外,AI大模型還有哪些典型應用場景?
王耀南:人工智能產業生態的三層基本架構為:基礎底座技術支撐、人工智能技術、人工智能應用。其中,基礎資源層主要是計算平臺和數據中心,屬于計算智能;技術層主要通過機器學習建構,開發面向不同領域的模型算法和技術,包含感知智能和認知智能;應用層主要是實現人工智能在不同場景下的應用。
第一步是模型架構,第二步是訓練,第三步才是測試應用。我們研究多模態大模型、跨模態大模型,最關鍵的是這些模型能不能落地到實際場景。
比如,應用到科學領域。AI大模型+5G技術,可以賦能基礎數學、通信工程、電子科學、數據科學等多學科交叉領域,提供更多科研和就業創業機會。
具體到AI+生物科研領域,由Google DeepMind和Isomorphic Labs研究團隊推出的革命性AI模型ALFHAFOLD 3 ,以前所未有的精確度預測了所有生命分子(蛋白質、DNA、RNA、配體等)的結構和相互作用,有助于改變人類對生物世界和醫藥研發的理解,進而開啟人工智能細胞生物學的新時代。
再如,多模態大模型推動智能網聯汽車產業迅速發展,尤其是在環境感知、傳感器融合、規劃決策、地圖構建定位、V2X通信、車輛控制等方面;在智能無人機方面,有助于更高效地完成測繪、救援等任務,形成真正的具身智能無人系統;在智能水下機器人方面,有助于為航行器提供位置、航向、深度、速度和姿態等信息,滿足無人自主導航、長時間科考工作、高精度定位、實時準確導航等需求;在智慧能源領域,有助于建設更加開放、共享的能源信息平臺,提高能源生產和利用效率,實現能源的優化決策和廣域協調。
AI大模型+制造業是一個特別值得關注的重要應用場景。智能制造是融合信息與通信技術、人工智能技術、自動化技術、現代企業管理技術等多個大領域的全新制造模式。AI大模型通過對傳統生產制造全流程、全要素、各環節的賦能改造,將極大推動提質增效和降本降耗,助力制造業高質量發展。
從現在起,中國企業要為未來人形機器人大發展搭建一個大模型數智底座。
《瞭望東方周刊》:基于AI大模型的未來發展趨勢,您對我國人工智能產業有哪些建議?
王耀南:首先,我對具身智能的發展充滿信心。AI大模型的一個發展趨勢就是在具身智能機器人領域實現重大突破。
隨著技術不斷進步、應用場景不斷拓展,具身智能將在各個領域發揮越來越重要的作用。未來的具身智能人形機器人將更加智能、高效、安全、可靠,會逐漸成為人類生活中不可或缺的一部分。
開發人形機器人的過程,其實就是用開源大模型軟件、算法來推動整個機器人產業發展的過程。從現在起,中國企業要為未來人形機器人大發展搭建一個大模型數智底座,這個底座包括機器人硬件和軟件,要從計算智能、感知智能、認知智能、決策智能、行為智能走向具身智能,真正實現AI大模型與通用機器人的深度融合。
人工智能發展趨勢是從計算智能(能存會算)到感知智能(能聽會說、能看會認),再到認知決策智能(能理解、會思考),我們要明確,未來要走的道路,依然是基于大數據、大模型驅動的新一代AI技術方向。
人工智能發展過程中所面臨的困難和挑戰還有很多。比如,怎樣在提高AI大模型訓練算力的前提下降低能耗?如何開發出計算效率高的計算架構芯片?怎樣解決現有AI大模型的可解釋性、安全性和可靠性?怎樣讓AI大模型在遇到各種復雜干擾時,仍能保證穩定運行?如何保障數據安全,如何在數據挖掘、數據分析、數據安全隱私以及數據提取方面找到解決方案,等等。
眼下,通用大模型、行業大模型、端側大模型如雨后春筍般涌現,下一步大模型產業應用落地將進一步提速。總體來看,作為新一代人工智能產業的核心驅動力,AI大模型正在廣泛賦能我國經濟社會的多個領域,助力打開邁向通用人工智能的大門,推動新一輪科技革命和產業變革。但同時,產業發展越成熟,問題也會暴露更多,要在應用中發現問題,解決不足,一起努力。