平穩行走、連續奔跑、抓取物品……國家地方共建具身智能機器人創新中心(以下簡稱“國創中心”)展示大廳內,全球首個純電驅擬人奔跑的全尺寸人形機器人“天工”正自主完成一系列動作。
“人輕而易舉完成的動作,對于機器人來說并不容易,這通常涉及精確的環境感知、決策制定以及運動控制等多項技術?!眹鴦撝行钠放乒P負責人魏嘉星對《中國報道》記者表示。
近年來,人工智能的迅猛發展推動了大模型與機器人技術的深度融合,顯著提升了機器人的自主決策能力和環境交互水平。從能夠負重登山、執行垃圾清運任務的“機器狗”,到進入汽車制造企業完成零部件安裝和高精度操作的人形機器人,具身智能機器人已然進入大眾視野。
回顧機器人的發展歷程,機器人經歷了從“機械自動化”到“環境感知”再到“認知決策”的智能化演進。
早在20世紀50年代,第一代工業機器人已經實現了依靠預編程就能完成任務指令。20世紀90年代,麻省理工學院(MIT)的Genghis六足仿生機器人可以依靠傳感器反饋實現自適應行走。進入21世紀后,強化學習正式用于機器人控制。深度學習、大語言模型與多模態融合,機器人具備了“理解指令—規劃任務—執行動作”的能力,并進一步向通用場景邁進。
“能夠像人類一樣與物理世界產生交互的智能體”是受訪專家們對于具身智能機器人達成的普遍共識,其中人形機器人被認為是具身智能的最佳載體。
傳統工業機器人作為智能化水平較低的機器人早已在制造業領域廣泛應用,其本質是“固定程序”與“機械臂本體”的組合,而具身智能機器人則在于其“多模態感知”與“大腦決策”的進一步迭代。
形象來說,假設需要機器人將兩種水果放入對應顏色的盤子中,傳統機器人會嚴格按照預設路徑執行任務,一旦水果位置被移動,它就無法感知變化,仍按照預設指令完成任務,最終導致任務失敗。而具身智能機器人則能夠實時觀察周圍的環境,隨即調整自己的行為,重新規劃路徑并完成任務。
2024年世界機器人大會上發布的《具身智能產業發展報告(2024年)》中提到,具身智能的技術體系可分為“感知—決策—行動—反饋”4個模塊,而其核心三要素包括本體、環境和智能。
魏嘉星指出,具身智能機器人由“大腦”(智能)、“小腦”(具身操作+具身運控)和“硬件身體”三部分構成,圍繞這三部分展開的技術攻關被認為是當前行業的關鍵共性技術,這些技術的突破是推動具身智能產業發展的關鍵動力。
“從當前‘大腦’‘小腦’和‘身體’三大技術的發展水平來看,‘大腦’的進展是顯著的。”巨深智能科技董事長、科大訊飛前高級副總裁杜蘭向《中國報道》記者分析道,從2022年ChatGPT的橫空出世到如今的DeepSeek,大語言模型的飛速發展為具身智能注入了全新動力,推動著機器人從傳統的規則控制模式向自主學習模式轉變。
杜蘭進一步指出,大模型對世界理解不斷加深的同時,也間接推動了“小腦”技術的進化,也就是機器人運動控制系統的進步。當前,通過引入機器學習技術后,運動控制系統能實時分析環境并自動調整參數。現在的機器人已經能夠更加精準地感知、采集和理解周圍的環境信息,實時構建更高精度的空間模型。

聰明的大腦還要搭配發達的四肢?;谥袊I制造和產業鏈優勢,在核心零部件以及材料方面的本體技術更是發展迅速。北京工業大學教授、北京智同精密傳動科技有限責任公司首席科學家張躍明告訴《中國報道》記者:“減速機是連接機器人動力源和執行機構的中間裝置,相當于人體的‘關節’,主要用于幫助機器人完成高精度的控制動作。以RV減速機為例,原先這部分基本被日本壟斷,但如今我們已經能夠基本實現國產化。不管是內部齒輪的精度和組合的創新設計,還是耐用性上都有了提升?!?/p>
受訪專家們紛紛表示,整體來看,中國的具身智能機器人無論是在技術還是產業方面都正走在世界前列。
僅僅3年時間,ChatGPT已迭代至4.0版本;而DeepSeek上線一個月便成為全球用戶增速最快的AI應用。盡管AI技術突飛猛進,但具身智能機器人并未迎來屬于它的“iPhone”時刻。
“即便現在將最聰明的大模型裝入機器人的大腦,它仍難以適應復雜多變的環境,無法立即解決現實中的實際問題?!倍盘m說,具身智能機器人“大小腦”智能化水平不足是當前技術發展進程中面臨的主要瓶頸。
“近年來,大模型雖進展迅速,但其本質仍是‘語言’層面的智能,與‘世界的語言’有本質區別。具身智能機器人需要的是世界模型,其不僅包含語言知識,還須具備空間感知能力、交互能力以及在復雜環境中的推理能力?!笨焖悸胙芯吭涸洪L、原商湯智能產業研究院創始院長田豐告訴《中國報道》記者,任何一方面能力出現短板都會限制具身智能機器人的發展。
人類對于機器人的期待從不止于能跑、能跳、炒菜做飯等,問題并非出在能不能上,而在好不好上。干活不夠迅速、不夠敏捷、不夠靈活才是普遍問題。
“人能夠自如控制身體,得益于四肢和軀干的標準化結構。然而,具身智能機器人形態多樣,包括兩足人形、四足、六足以及輪式機器人,本質上它們屬于非標準化結構,這就對機器人的運動控制系統提出了更高要求。”田豐指出,這需要機器人在物理世界中進行大量測試,尤其是在工業、農業、服務業等實際場景中的不斷驗證。高質量數據與專業場景的匱乏是具身智能機器人不夠聰明的核心痛點。
未形成標準化模塊則是具身智能機器人在硬件層面的一大技術難題。田豐告訴記者,具身智能機器人領域還未實現硬件的標準化和通用化。就硬件設計來看,仍缺乏統一的模塊體系,不同廠家的產品之間未能形成類似手機或PC的標準化生態,盡管已有部分模塊化嘗試,但這些模塊多為非標準化設計。
如今,中央廚房機器人、工業重型機器人和家庭機器人等不同類型的機器人,其硬件模塊之間仍無法通用。此外,行業內也尚未找到最優的硬件架構標準。
張躍明認為,以人形機器人為代表的具身智能機器人本體制造上也存在剛性過大、能量利用率低等問題,與人類運動相比有較大差距。此外,由于應用場景有限、需求不明確,人形機器人模型數量少,結構創新也明顯不足。
“實際上,具身智能還沒有邁過通用智能的門檻,具身智能機器人也面臨同樣的問題。未來,在標準化基礎上允許微創新,同時確保整體設計的通用性和泛化性,將是機器人硬件發展的重要方向?!碧镓S補充道。
位于國創中心三層和四層的采集場內,一位工程師正通過操作機械臂在虛擬環境中模擬機器人抓取物品的動作,以此來捕捉機器人每個關節用力時傳感器的角度、速度、角速度等動作數據。另一位工程師則正通過遠程遙控設備指導機器人進行真機訓練,完成相應動作的學習和數據抓取。
“這里就像一個‘學?!?,具身智能機器人在不同場景中‘上課’,通過學習告訴機器人怎樣做是對的,怎么做會更好,在實踐中鍛煉機器人的各項技能?!蔽杭涡钦f。
魏嘉星認為,機器人想要變得智能,離不開持續學習與訓練。在人類為主體的結構性社會中,存在眾多場景和角色,要求機器人至少掌握一定比例的特定技能,并具備一定的泛化能力才能全面勝任各種任務。
自動駕駛技術的快速發展,也正是得益于車廠、自動駕駛公司以及實際道路上海量的測試數據積累。工業機器人也已廣泛應用于工廠,如機械臂、四足機器人等,它們在專業場景中積累了豐富的數據,為智能化奠定了基礎。
獲取高質量和多樣化的智能體與復雜物理空間進行交互的數據集,尤其是真實物理世界數據,對提升具身智能機器人的泛化能力和通用性,實現機器人在全場景下的靈活應對至關重要。
據介紹,國創中心數據采集場為機器人搭建了工業、家庭、高危巡檢、辦公及零售等多種應用場景。這些場景伴隨著多樣化的任務需求,例如打掃衛生(如掃地、洗碗、倒茶)和物料分揀等。此外,采集場內還采用了包括單臂機器人、雙臂機器人、人形機器人等多種形態的機器人本體進行數據采集,以滿足不同機器人在不同場景下的特定任務要求。
當前,國創中心數據采集涵蓋6類本體七大典型場景,日產數據已達10TB。“國創中心不僅自主進行數據采集,還引領整個行業制定相關標準,明確哪些數據是高質量、可用且適合行業發展的。搭建起生態,讓大家真正把數據用起來。此外,我們在不斷攻克關鍵共性技術問題的同時,也在不斷深入研究各個細分領域進行場景落地的探索示范?!蔽杭涡钦f。
據了解,去年年底,全球首個基于全域真實場景、全能硬件平臺、全程質量把控的百萬真機數據集開源項目 AgiBot World 發布。參與這一數據集項目的香港大學助理教授李弘揚在接受媒體采訪時提到,“我們還希望通過數據集推動硬件形態逐步收斂,并將其應用于靈巧手、視觸覺系統以及輪式機器人上”。

李弘揚認為,具身智能的終極發展方向在材料科學。這不僅關乎視觸覺等傳感器在穩定性和可靠性的提升,還涉及下一代硬件的研發與設計階段,要求對各類傳感器形態進行前瞻性的考量與規劃。硬件的創新將帶來全新的應用場景,這些場景能夠進一步賦能機器人技術發展。
近期,中國科學技術大學研發了一款類似章魚觸手的新型螺旋軟體機器人,該機器人依據多種生物柔性肢體(如章魚觸手)的原理設計而成,具備小到足以抓取螞蟻、大到提起水桶的多功能性。在多尺度、多材質、多維度和協作交互等拓展應用場景中,這些創新的柔性機械構造以及先進的驅動技術,極大地增強了機器人在應對復雜作業場景時的靈活表現與安全性能。
“只有軟硬件協同進化,具身智能行業才能真正取得突破性進展。”李弘揚說。