黃鐵軍:耕耘不輟，開拓人工智能新賽道

2024-10-22 00:00:00勒川

中關村 2024年9期

“作為我國大模型發源地，智源人工智能研究院正在全力訓練多模態大模型和機器人大腦，努力實現人工智能認知能力達到國際領先水平，支撐國家智力基礎設施建設，繪制中國式現代化的新華章！”

在北京海淀，有這樣一群人，他們以螢螢之光，繪就時代的璀璨星空。他們當中，有的扎根基層，全心全意為人民服務；有的愛崗敬業，在專業領域作出了突出貢獻；有的熱心公益，用愛心善舉傳遞著人間溫暖……他們有一個共同的名字——“感動海淀”文明人物。

4月22日下午，“感動海淀”2023年度暨第十三屆年度人物頒獎典禮在國圖音樂廳舉行。北京大學計算機學院教授、多媒體信息處理全國重點實驗室主任、北京智源人工智能研究院理事長、創始院長黃鐵軍位列其中。

從ChatGPT到視頻生成大模型Sora，“大模型”成為科技行業的一個熱門詞語。黃鐵軍研究AI超過30年，擅長智能視覺信息處理技術，終結了國外向我國視頻行業索取高額專利費的歷史。2020年，在大多數人對大模型還一無所知的時候，他掌舵北京智源研究院智源研發大模型，并在2021年上半年推出了開創“中國首個”“世界最大”的大模型悟道1.0和悟道2.0。黃鐵軍培養了一批大模型人才，當前大模型創業公司、大廠，從事研發的CTO或首席科學家中，參加過悟道項目的人不在少數，這里被稱為大模型的“黃埔軍校”。如今，他瞄準打造開源開放的人工智能大模型體系，緊緊抓住創新這個“牛鼻子”，加快關鍵核心技術攻關，搶占人工智能新賽道。

志存高遠

1970年，黃鐵軍出生在河北省邯鄲市大名縣的一個普通村莊。1985年，剛剛上高中的他就趕上“電腦要從娃娃抓起”的東風，跟隨班主任霍振祥老師學習Basic語言。在學校微機課程中第一次接觸到蘋果電腦，他很是興奮，因為進步很快，霍老師把自己大學期間的計算機教材都給他自學，黃鐵軍對油印教材中的流程圖至今記憶猶新。

1988年，黃鐵軍報考北京大學，數分之差未能如愿，被武漢工業大學（現武漢理工大學）計算機應用專業錄取。大學畢業那一年，他后來的碩士導師申請到863計劃課題，研究手寫體漢字識別，需要新生力量，鑒于他當時成績優秀，就被免試進入課題組讀碩士。1995年他入讀華中理工大學（現華中科技大學）模式識別與智能控制專業攻讀博士學位，期間研究虛擬現實，主要是基于雙目立體視覺的場景建模，如此算來從事計算機視覺已近三十年。

1999年，黃鐵軍進入中國科學院計算技術研究所進行博士后研究，研究方向為圖像識別技術，合作導師是時任所長、現北京大學教授、中國工程院院士高文。本來他以為自己會沿著計算機視覺這條路走下去，但命運卻把他引向了岔路口——視頻編碼。

2002年，數萬臺我國制造出口的DVD，由于未支付專利許可費，在歐盟地區被海關扣押。在專利大棒的打壓下，集中在廣東地區的相關生產工廠大量倒閉。

“那是改革開放后，我國首次遭遇重大知識產權問題。”黃鐵軍說，制定中國自主知識產權音視頻壓縮標準，擺脫受制于人的困境，在當時變得十分迫切。

博士后剛出站的黃鐵軍，便協助高文教授組織成立數字音視頻編解碼技術標準工作組。對他而言，視頻編碼是個“從未涉足過的領域”。“既然是國家需要，自己接下了任務，就得好好干。”黃鐵軍說，此后他的研究重心逐漸向視頻編碼方向傾斜，也開啟了視頻編碼標準突圍和超越之路。

2002年至今擔任國家數字音視頻編解碼標準工作組（AVS）秘書長20年，牽頭或作為主要起草人制定三代國家標準，編碼效率實現了對同期國際標準的趕超。2008年上海東方明珠采用AVS1轉播奧運會，2012年中央電視臺采用AVS+播出高清電視，之后國內外上千路電視頻道采用，2018年中央電視臺采納AVS2進行4K超高清播出，保障2019年國慶70周年直播，2022年中央廣播電視總臺采用AVS3對北京冬奧會8K播出。擔任國際標準化組織MPEG中國代表團團長10年，起草ISO/IEC國際標準4項，獲ISO和IEC秘書長聯名簽發證書。

2007年，黃鐵軍開始研究監控視頻編碼，2010年研究視覺特征編碼，創立了以特征分析與壓縮為中心的視頻大數據高效處理技術體系，發明了視覺特征高效壓縮、場景視頻建模壓縮、對象精準分析識別等技術并成為國際標準，實現了識別精度和壓縮效率提升，在百度、騰訊、海信產品中被數億用戶使用，2017年獲得國家技術發明二等獎。

悟道出世

人工智能是新一輪科技革命和產業變革的重要驅動力量。黃鐵軍從2016年開始全程參與國家新一代人工智能發展規劃的建議、起草和實施。2017年7月國務院印發《新一代人工智能發展規劃》，11月“科技創新2030”新一代人工智能重大科技項目啟動，黃鐵軍擔任專家組副組長，負責基礎軟硬件板塊，主導建立了覆蓋芯片、系統軟件、算法框架、開發環境和應用編程接口的全棧技術體系，對我國新一代人工智能技術生態建設作出了突出貢獻。

2018年北京市發布支持建設世界一流新型研發機構實施辦法，北京智源研究院成立，首任院長便由黃鐵軍擔任，提出自由探索與目標導向相結合的創新機制，實施智源學者計劃，緊密團結高校院所和優勢企業，探索人工智能前沿。“智源研究院定位為人工智能領域新型研發機構，密切關注人工智能技術發展，基于對未來產業的判斷，2020年決定集中主要精力資源做大模型方向。”

2021年3月20日，悟道1.0橫空出世。這是我國首個超大規模智能模型系統，取得了多項國際領先的AI技術突破，形成超大規模智能模型訓練技術體系，訓練出包括中文、多模態、認知、蛋白質預測在內的系列模型，勇闖通用智能發展前沿，構建我國人工智能應用基礎設施。在發布會上，黃鐵軍說“人工智能發展已經從‘大煉模型’轉入‘煉大模型’的新階段”，大模型一代從此登上歷史舞臺。三個月后，悟道2.0再次驚艷亮相，模型參數規模達到1.75萬億，打破了之前由谷歌預訓練模型創造的1.6萬億參數記錄，并在多個國際人工智能基準測試榜單的9項任務上取得領先。

“目前，布局大模型已成為世界性趨勢。未來，人工智能大模型時代即將到來。”黃鐵軍說。2023年6月9日，黃鐵軍在北京智源大會上發布悟道3.0大模型系列，并宣布進入全面開源的新階段。

“從夢想角度來說，智源期望不同于前兩個技術路線，從‘第一性原理’出發。從原子到有機分子、到神經系統、到身體，構建一個完整的智能系統AGI。這是一個大概20年才可能實現的目標，所以智源作為新型研發機構平臺，在三個方向都在開展工作。”黃鐵軍的這段描述也梳理了此次發布的背后邏輯，分別包括大模型方向、具身方向，以及智源自己期望方向的進展。

開源開放

“智源研究院在今年5月正式推出了智源大模型評估體系，并對國內外140余個開源和商業閉源的語言及多模態大模型進行了全方位的能力評估。評估結果顯示，在中文語境的條件下，國內頭部大模型的能力已接近國際一流水平，但存在能力不均衡的情況。”黃鐵軍表示，“中國大模型的發展，需要解決算力資源短缺和高質量中文數據語料庫短缺和使用難的問題。隨著算力和數據問題的解決，中國大模型的發展有望迎來能力的躍升。”

在數據方面，黃鐵軍指出，目前在開源語料中，中文語料占比不足十分之一，今年6月，智源研究院推出了多行業中英雙語數據集IndustryCorpus1.0和千萬級指令微調數據集InfinityInstruct，解決數據量少和質量不高的問題。智源研究院正在牽頭與多家單位共同建設北京市人工智能數據運營平臺，支持開源開放、積分共享、數算一體三種模式，解決數據使用難的問題。

“今天互聯網產生了海量的數據，這些數據被大模型轉換成了智能、轉換成了智力，智力像電一樣會iQJToPl6jrXVn5Sz0fo1DA==流通，為每個人、千家萬戶提供服務。”黃鐵軍說：“2030年之前，我們每個人都會像今天用電、用網一樣方便，以很低的成本用智力，這是一個新的時代。”

對于人工智能大模型的未來發展路線，黃鐵軍認為，未來3年，大模型將擴展到視覺、聽覺、具身、行動等通用智能，規模變大，尺寸變小，成為具身智能的“大腦”，普通語言升級為科學語言，人工智能將解決重大科學問題；未來10年，人類全面進入智力時代，就像工業革命解放體力、電力革命解決能源流通，以智力為核心的科技、經濟、社會生態構建完成；未來20年，行為主義（強化學習）和類腦智能（徹底連接主義）發揮更大作用。

如今，黃鐵軍在抓住科技創新的“牛鼻子”，打造新質生產力的路上耕耘不輟。他說：“人工智能是新一輪科技革命的核心力量。作為我國大模型發源地，智源人工智能研究院正在全力訓練多模態大模型和機器人大腦，努力實現人工智能認知能力達到國際領先水平，支撐國家智力基礎設施建設，繪制中國式現代化的新華章！”

中關村2024年9期

中關村的其它文章: 智慧城市構建中的公共管理創新研究; 戲曲表演中演員的藝術修養及其提升; 文旅培訓提升講解員、導游員傳播群眾文化能力的作用研究; 探究國家級自動站現場校準方法; 數字媒體技術讓傳統媒體煥發新生; 數字經濟時代商務英語人才培養轉型策略