作為在國內第一波具身智能熱潮中創立的公司,星海圖四個創始人,少見地全是“90后”,都有海外學習或工作經驗。2023年,他們合力開啟學生時期就想做的機器人事業,并把這當作可以“做一輩子的事”。盡管當下,通用人形機器人的技術路線還未聚合,距離終點有多久還很不明朗。但我們想記錄下,在對技術的信仰下,人類通往機器人之夢的一個側面。
人均“90后”
3月中旬的一天傍晚,接近7點,北京市海淀區東升大廈6樓,星海圖人工智能科技有限公司(簡稱“星海圖”)里的燈還全亮著。公司最左側搭建了一個廚房場景,兩個灰黑色的人形機器人靜靜站在飲水機和櫥柜前。右側辦公區,三四個員工坐在電腦前打字,還有幾個人站在一塊白板后的窗邊閑聊。他們看起來都很年輕,讓人分不清是剛畢業工作,還是在校實習生。
“看起來大家都下班了,只有幾個人在加班。”帶著這樣的想法,我走進會議室見到了我的第一位采訪對象,星海圖聯合創始人許華哲。兩個小時后,臨近晚上9點,我從會議室出來,燈依然全亮著,但幾乎每臺電腦前都坐著人,盯著滿是代碼的屏幕,空氣似乎都變稠了一些。左側一個數據采集室里,年輕的員工把手放在類似游戲手柄的裝置上,遙控操縱著前方一米外的機器人手臂,戴著夾爪的機械臂跟著他的動作向前伸出一道弧線,然后落下,瞄準目標方塊后抓取、放到另一個指定位置,如此不斷重復——原來機器人和人類都在加班,傍晚只是中場休息。
這種加班場景,在創業公司十分常見。聯合創始人許華哲也經常在辦公室待到晚上11點多。許華哲今年32歲,微胖,嘴角總帶著笑意。他正被北京春天的圓柏花粉過敏折磨,大部分時間戴著口罩。他告訴我,公司員工、包括四位創始人在內,基本都是“90后”,這是一家以年輕人為主的創業公司。但早在10年前,幾位創始人就有了機器人、人工智能相關的海外學習、工作經驗。
以CEO高繼揚為例,他2015年在清華大學電子工程系本科畢業后,用了三年半時間,獲得美國南加州大學計算機視覺博士學位,之后在Waymo(威馬)和國內北京初速度科技有限公司兩家行業領先的自動駕駛公司工作。另外兩位聯合創始人趙行、李天威分別是高繼揚在兩家智駕公司時的同事。其中趙行離職威馬后,進入清華大學交叉信息研究院擔任助理教授,之后與加州大學伯克利分校博士畢業、回清華任教的許華哲成為同事。四人因為工作,在不同階段結識,有相似的創業目標,又有各自擅長的技術方向,因此在2023年年初,高繼揚提出創業后,幾人陸續加入,當年9月注冊了星海圖。
如今,這家成立一年半的公司,發布了自研的三款機械臂,兩款仿人形機器人R1、R1pro,融資總額接近10億元人民幣,成為當下這波具身智能(Embodied"Intelligence)創業熱潮中,融資排名靠前的一員。日常,許華哲和趙行除了在清華教課、做科研和實驗,其余時間就在北京海淀區的辦公室,負責機器人的算法、軟件類研究。CEO高繼揚和李天威在蘇州總部,負責機器人供應鏈、本體交付的硬件工作。
許華哲記得,就在三年前,他剛回國任教不久,具身智能還不是一個被廣泛接受的詞。他寫論文用中文提到“具身智能”概念時,還有人認為這是硬造詞。如同1956年,“人工智能(Artificial"Intelligence,AI)”這個概念第一次被約翰·麥卡錫提出時的質疑一樣——“當時沒人真正喜歡這個名字,畢竟我們的目標是‘真正的’智能,而非‘人工的’智能,但是我必須給它起個名字,所以我稱之為‘人工智能’。”麥卡錫在傳記中回憶。
而當下,具身智能越來越熱,尤其是今年全國兩會期間,具身智能首次被寫入《政府工作報告》,與量子科技、生物制造、6G等產業一同列入未來重要的產業方向。近兩年,與星海圖相似的初創具身智能公司大量出現,被稱為第一波具身智能創業熱潮。根據科技智庫“甲子光年”的統計報告,截至2024年年底,國內有超100家具身智能相關企業,融資總額超過百億元。
“我覺得現在提起具身智能,大家都興高采烈。”許華哲說,他看到幾乎所有以前做AI的,包括算法模型和自動駕駛車廠的人都想要加入進來,人才密度特別高。2025年剛過去三個月,又有一撥公司成立,“比想象中要擁擠”。這讓他想起自動駕駛出現后的2016年、2017年,當時他剛去加州大學伯克利分校讀博不久,自動駕駛是學界、業界一個熱門方向。也在那幾年前后,他和星海圖其他幾位聯合創始人,慢慢明確了各自的創業想法。
創業夢
如果你讀過美國作家艾薩克·阿西莫夫的科幻小說,一定有印象,他的小說里,機器人會以動物、汽車或人形等各種形態的高智能體出現,跟人類的關系密切而微妙。許華哲第一次對智能機器人產生興趣,就是高中時接觸阿西莫夫的小說。“我覺得如果能做一個書里那樣的智能機器人出來會非常有趣,但當時我根本不認為自己有生之年能看到這樣的智能機器人,我以為要等100年。”
第二次接近智能機器人,是他2015年在清華大學電子工程系讀大三,有機會去多倫多大學交換一學期。當時他的導師剛從麻省理工學院(Massachusetts"Institute"of"Technology,MIT)畢業,年輕的女老師帶他做項目,比如拍一張照片,讓計算機去數照片中的大樓有多少扇窗;比如用計算機做“汽車品位的排序”,通過人工智能算法,給不同特點用戶推薦不同顏色和外形的汽車。這些項目讓許華哲意識到計算機神經網絡的強大,它有能力做出判斷、選擇。那是不是說明,機器也可以通過訓練,做出智慧的決策?
那次交換的經歷,開闊了許華哲的視野,影響了他之后的選擇。他從那些技術反饋中,感受到一種興奮和模糊的未來。“原來代碼不僅能寫什么圖書館管理系統,不只是無聊排序,竟然還能在圖片、視頻上有這么生動的呈現。”許華哲說,那是他除了刷題得高分外,第一次在技術應用上感到如此直接的快樂。他決定去國外讀博,研究人工智能。
2016年,許華哲到了加州大學伯克利分校。加州大學伯克利分校是研究人工智能、機器人學習的重地,當年剛好成立了人工智能研究實驗室(Berkeley"Artificial"Intelligence"Research,BAIR)。許華哲的導師特雷弗·達雷爾(Trevor"Darrell)就是BAIR的發起人之一,主要研究方向是計算機視覺語言。博士一年級時,特雷弗鼓勵許華哲開辟新的方向,研究自動駕駛。幾個月后,許華哲作為第一作者,寫了一篇如何從視覺角度,通過深度學習實現自動駕駛的論文,被錄取為2017年計算機視覺領域的最高級別會議之一IEEE國際計算機視覺與模式識別會議(IEEE"Conference"on"Computer"Vision"and"Pattern"Recognition,CVPR)的Oral論文(最高級別論文)。
2016年是自動駕駛熱度最旺的時期,國際上各大車企都在做自動駕駛技術研發。包括網約車平臺,Uber與老牌的戴姆勒汽車集團共同開發無人駕駛汽車;國內的滴滴出行也開始組建自動駕駛公司。在學術界,各個高校實驗室也積極投入研究,認為自動駕駛是當年人工智能起來后,最重大的可落地智能應用。不少人把自動駕駛,當作四個輪子的路面機器人,因為它可以借助視覺、傳感器等技術理解路面環境智能移動,有很大的產業空間——如同今天的具身智能熱潮。
同一時期,星海圖另外幾位聯合創始人,正充滿信心地投入自動駕駛研究。
比許華哲大兩歲的趙行告訴我,他2014年開始在MIT讀博,做計算機視覺和多模態研究,同時接觸了機器人和自動駕駛方向。2015年,趙行聯合導師開發了校內第一門自動駕駛課程,之后課程被推廣到其他十余所高校。“我覺得自動駕駛是非常好的行業,雖然它后來的發展起起伏伏,但從社會價值來看,無論是政府、學界還是產業界都認可這件事。一項技術驅動的產品,有商業價值,并且長期有社會價值,這就是我想做的事情。”因此,2019年博士畢業前,盡管有Facebook、OpenAI等機構邀請趙行,他還是決定投入產業,加入知名的自動駕駛公司威馬做研究科學家,他在那里認識了高繼揚。
至于創業這件事,幾位創始人都是在學生時期萌生的想法。高繼揚接受媒體采訪時曾說過,他在清華讀本科時,就“一直琢磨屬于我們這代人的機會到底是什么”。當時(2011—2015年)是國內移動互聯網最風生水起的時候,“看著互聯網巨頭覺得很牛,但也明顯感覺到互聯網不是我這一代人的機會,直到大四接觸到AI深度學習,我很感興趣,覺得這能徹底改變世界,因為它跟互聯網不一樣,互聯網改變了生產關系,而AI讓生產力再次得到提高。”
“想要改變世界、實現個人價值”,類似的話,我也在許華哲和趙行口中聽過。這群來自中國頂尖高校的學生,似乎更自然地擁有這樣的熱情和沖動。尤其在2015年前后,國家出臺政策,鼓勵大眾創業、萬眾創新,鼓勵運用互聯網和開源技術,構建創新創業平臺,也引導機構投資科技型中小企業。清北校園里,常有學生在大大小小、不同的領域創業。
稍有區別的是,星海圖這幾位聯合創始人更在意技術驅動的長期創業,而不是以產品是否有噱頭為先。趙行曾在讀博士的頭兩年,以首席科學家的身份與同學聯合創立一家人臉情緒識別的公司。用計算機視覺技術,判斷、搜集人在觀看廣告時的反應,據此數據對廣告內容做評分,再把這個數據反饋賣給廣告公司。大約一年后,趙行離開了公司。“我覺得技術太薄了,我還是對硬科技有向往,希望能做長期規劃、技術支撐的事業。”之后,四人陸續回國,想在國內最大化實現個人價值。
做技術驅動下的“鏈主”
最先感到創業時機來了的是高繼揚。1992年出生的他看起來沉穩老練,說話語速很快,左側頭發常年有一縷自然白。高繼揚很早就在為創業做準備,他用極快的速度,三年半讀完博士,畢業后在威馬和北京初速度科技有限公司的兩段工作都有明確的目標——威馬鍛煉技術能力,后者學習量產交付和管理團隊的能力。隨后他也確實完成了目標,有自己的技術成果和管理百人團隊的經驗。
2022年年底,高繼揚覺得做AI機器人的時機來了。這除了與他自身能力提升有關,也有大環境的因素。那一年,國際上先是有Figure"AI這樣致力于通用人形機器人的公司成立,迅速獲得關注和融資,特斯拉也在9月發布第一代人形機器人Optimus(擎天柱)。而年底ChatGPT(聊天生成預訓練轉換器)的爆火,讓世界看到大語言模型的成功,似乎只要數據量增大,模型的智能程度就跟著增大,有無窮上限。而在國內,關鍵零部件供應鏈不斷成熟,價格優勢等正在縮小中美差距。高繼揚決定,在Momenta(北京初速度科技有限公司)做完最后一個產品交付后離職創業。
幾個月后的2023年,徹底解除疫情封控后不久,趙行和許華哲也有了迫切想要創業、時不我待的心情。許華哲記得,他在加州大學伯克利分校的導師經常說,“不要等待一艘已經離開的船”。意思是無論做研究還是創業,不要做別人已經做到頂點的事。而2023年,具身智能的船可能剛開始搭建。許華哲回看2016年前后國內成立的自動駕駛公司,雖然也經過寒冬淘汰了一批企業,但最終活到現在且活得不錯的幾家,還是最先開局就進來的人。“他們做得早,積累了各種數據、客戶壁壘,寒冬一過可以迅速復活,具身智能也是一樣,再等幾年,機會就少了。”所以在2023年,高繼揚陸續找到互相認識的幾人討論創業后,幾乎沒什么猶豫,四個“90后”創業團隊就成形了。
“從成立開始,我們就有共識,要以技術驅動為核心,做一家‘鏈主’企業。”許華哲向我解釋,“鏈主”意味著全產業鏈的主人,星海圖希望最終能自研本體的各個零部件、制造本體,同時研發出算法模型,訓練機器人在物理世界做各項任務,有直接把整機產品交付給客戶的能力,不被產業鏈上任何環節鉗制。“就像汽車行業里的比亞迪、特斯拉,而不僅是供應商。”
但剛開始創業,距離“鏈主”還有很長一段路,要先從哪兒開始?星海圖經歷了兩三個月的探索期。
作為CEO的高繼揚是四人中最有產業管理經驗的角色。他務實,非常在意商品的成本、收益,以及可落地性。他在不同場合對外提到過“失效成本”的概念。他常用Robotaxi(自動駕駛出租車,類似于國內的“蘿卜快跑”)舉例,假設它失效一次,發生碰撞,大概要賠償幾萬到幾十萬美元不等,而ChatGPT失效一次,成本僅僅是浪費了用戶20秒的時間,失效成本很低,收益才能為正。
而星海圖剛注冊時,具身智能創業熱潮還未顯現,加上疫情后經濟大環境欠佳,高繼揚和伙伴們不確定市場是否看好具身智能,所以選擇偏保守,決定先發揮自動駕駛背景優勢,在小區、園區內做一個有手臂的物流機器人,幫助用戶送餐、送貨上門,獲取收益,同時有數據反饋。做通這個場景之后,再擴大業務。但很快,他們發現具身智能“是一個比想象中更大的事業”。首先是融資市場反饋很好。2024年1月,星海圖完成天使輪第二輪投資,獲得IDG資本、BV百度風投等機構投資的幾千萬美元。另外,他們發現美國新成立了一家叫作Physical"Intelligence的、致力于機器人大腦研究的公司。創始人中,加州大學伯克利分校教授謝爾蓋·萊文(Sergey"Levine)、前谷歌AI研究員切爾西·芬恩(Chelsea"Finn)都是他們當年在海外讀書時非常熟悉的師長級別人物,這給了他們更多開拓的信心。
星海圖迅速轉變。2024年年初,他們決定不局限于一個業務,同步研發機器人本體、算法模型和擴大商業場景。同年3月,北京辦公室投入使用。“終局來看,我們想做出一個通用具身大模型VLA(Vision"Language"Action),類似于現在的ChatGPT,你輸入一個文字或圖片指令,機器人能直接做出反饋,不過是動作上的反饋。”趙行說。
數據閉環
“放可樂。”
“放雪碧。”
“拿最近的碗。”
“清掃垃圾。”
在一個廚房桌面前,工作人員直接跟機器人說話、下指令,機器人一邊語音回復“好的”,一邊完成任務,在聽到“停止工作”的聲音后,垂下雙臂靜立。
這是星海圖今年3月下旬發布的一則一鏡到底視頻,視頻中灰黑色的機器人R1,是去年初公司決定轉向后,花了半年左右做出來的完整本體,除了芯片外,90%以上全自主研發。R1不同于雙足人形機器人,下肢選用了輪式360度底盤。“我們現階段客戶所在的工廠、園區,絕大部分都是硬化路面,輪式可以走得更穩、更快。而且目前對機器人上半身操作能力需求更大,這樣的輪式便宜、落地快,是現階段最理想的商品形態。”許華哲說。
如果仔細看這則視頻,會發現左上角備注“端到端VLA模型驅動”。這是星海圖的技術目標,希望研發出一個類似于大語言模型,但能讓機器人在物理世界執行任務的具身智能大模型。換句話說,只要有了這個模型,未來智能體可以是任意形態——人形、輪式、四足……
那么,什么是端到端的方法?許華哲以機器人伸手抓水瓶為例解釋,傳統的分層方法,可能是把這個行為分為四步:機器人先檢測水瓶在哪兒,再判斷位置,然后伸手到附近,最后抓取。每一步都需要寫一個規則,這很容易造成規則的堆疊,從而每一步都產生小的誤差。而端到端的方法,不去寫過多規則操縱機器人,而是讓它通過大量數據學習,最終直接執行抓瓶子的任務。雖然作為觀眾,我們看到這個動作都是一樣的,但端到端的上限更高,機器人可以自動校正誤差,有點類似ChatGPT與人聊天時,可以不斷校準自己的回答。
聽起來,端到端是一種萬能方法,但要實現這個結果,需要大量的數據和模型訓練。同樣以ChatGPT為例,訓練出如今大語言模型的互聯網文本數據在千億級,圖片和視頻數據在百億級,而機器人這樣一個幾乎需要物理世界所有數據的平臺,目前僅有幾百萬個數據片段。所以,目前行業內公認的難題之一就是數據采集。趙行告訴我,現在大概有四種方式獲取數據,分別是真人遙控操作、VR操作、仿真器模擬學習、視頻學習,其中數據最精準、成本也最高的是真人遙操,也是星海圖目前主要的數據采集方式。
“這里容易有個誤解,并不是說大家都‘燒錢’找真人遙操采集數據,就一定能做到行業領先。如何采集高質量的、機器人能學會的數據?如何降低采集數據的成本?采集數據后如何訓練模型?這些問題都很重要。”趙行說,目前機器人依然在練習認識這個世界,它所依賴的除了數據,還有人的干預和解釋,這就進一步需要優秀的訓練模型——越好的模型,越能使用較少的數據,完成低錯誤率的任務。
2024年11月,許華哲帶領團隊發布了具身基礎VLA模型Efm-1,這個模型僅需大約50條真人演示數據就能學習數據中的動作,成功率達85%。同時還能簡單地泛化,比如不僅能學習數據演示中的抓玻璃杯,還可以在完全沒訓練過的情況下,抓取跟玻璃杯大小、形狀相似的其他杯子。
趙行團隊也在同一時期發現一種擴充數據的方式。原本,訓練機器人的方式之一是在仿真器中建構出一個虛擬環境,然后在真實場景中部署。但這種方案往往因為虛擬和真實世界中的誤差,導致機器人學習效率很低。而趙行團隊借助最新的可微分渲染算法,用相機拍攝一條真實世界中的視頻進行三維重建、渲染,再在仿真器中對這些真實數據做增廣,訓練機器人。能有效縮小虛擬和真實世界的鴻溝,還能把一條真實數據擴充成上千條,這成為星海圖訓練算法模型的數據補充方式。
有了基礎的VLA模型和數據增廣方式后,星海圖更在意通過數據閉環來迭代模型。趙行告訴我,目前世界上最成功的數據閉環方式是特斯拉的。“他們把車賣給用戶前,就在車內裝上了自己的芯片和一套算法,幾百萬個車主開車的時候,算法就在后臺對比人與人之間的駕駛差異,便于之后優化自動駕駛算法,特斯拉是第一家這樣做的,所以后來誰也趕不上它的速度。”而具身智能領域,目前還沒有一套這樣公認的數據閉環方式。星海圖能做的,就是在把機器人交付給車企、物流園這樣的客戶后,依然擁有數據自主權,在后臺獲取機器人執行工業任務的所有數據,實現小型閉環。“有了數據反饋,我們再改進算法,這就是數據驅動。”
一輩子的目標
許華哲經常用機器人做飯的例子,描述他心中理想的具身智能大模型能達到的程度。
“我最想讓機器人做的是一道松鼠鱖魚,為什么?首先因為我很喜歡吃松鼠鱖魚,其次因為這足夠難。想象一下,魚是活的,能動、又滑又黏,還有顆粒狀的鱗片,外硬內軟。處理完活魚,還要會改刀、油炸、炒糖色、澆汁、擺盤等,如果一個機器人能做完這些,一定程度上能證明它的智慧程度非常高。”許華哲說,他一度把這當成“一輩子的目標”。最近一年多資本、人才的不斷涌入,讓他稍微樂觀了一點,覺得也許十幾二十年就能吃到機器人做的魚。
但另一方面,目前關于通用具身智能大模型這個被稱為機器人大腦的研究,在行業內還只是開始,星海圖的Efm-1模型還需要不斷進化。不久前,同在2023年成立的上海智元新創技術有限公司(簡稱“智元”)也發布了自研的具身模型。“大家的目標沒有太多差別。”趙行告訴我,行業內不少公司也跟星海圖一樣在做大模型,同時研發機器人本體。只是現在還處于早期階段,沒有一個統一的標準評判誰的模型更好。連互聯網大廠也少有下場做機器人的,更多只是投資。“大廠更適合做迭代速度快的軟件,而具身智能目前整體技術路線還沒有收斂,在通往終點的路上,很難講我們現在走了多遠。”趙行說。
這樣一個長期的賽道,初創年輕公司要怎么活下去?會不會又像自動駕駛行業一樣,融資跟不上的時候倒下一片?長期關注具身智能領域的藍馳創投投資人告訴我,他們看重兩類創業團隊:一類是既懂算法數據,也有硬件能力,同時能商業落地的“六邊形戰士”,具有長期優勢和競爭門檻;另一類是有一技之長,在某些方面有明顯差異化優勢、特色的公司。“比如銀河通用公司的算法能力非常強,也很受資本市場青睞。”高瓴創投的創始合伙人李良更關注具身智能領域的大模型技術,先后投資了智元、星海圖、靈初智能等多家公司。他更看好“技術極客與行業老兵”的組合,認為這樣才能深刻了解產業鏈,同時做出顛覆性的技術創新。他舉了智元的例子,認為智元不僅有技術極客團隊,另外,“智元的董事長兼CEO鄧泰華,曾是華為副總裁,計算產品線的總裁,有豐富的管理經驗、商業化資源積累以及產業整合經驗,加速智元從實驗室創新走向規模化應用。而且公司位于長三角的上海,供應商都集中在兩三百平方千米內,在產業鏈協同上非常高效”。
但一個共識是,路途遙遠,現在誰都無法說自己能安全到岸。雖然星海圖也擁有“六邊形戰士”團隊,自主研發的具身基礎模型也在迭代,10億元人民幣左右的融資總額算得上行業前列。但在不斷有新公司涌入的背景下,幾位聯合創始人都能感受到融資方面的競爭壓力。高繼揚說,公司目前能做的是“沿途下蛋”,盡早盈利,要一直留在第一梯隊。
但當下,最基礎且必不可少的工作之一還是數據采集。3月底,星海圖蘇州和北京加起來有80名員工,其中近20名在做數據采集工作,在行業內不算大規模。我見過這些年輕的數據采集員,他們大多本科剛畢業,有些還在試用期,看起來青澀、聽話。我想到兩年多前,我去黃土高原采訪一群做數據標注的“寶媽”。她們當時正在為大語言模型、人工智能服務。那份工作無須太多技能,“寶媽”們基本是小學、中學學歷,只要學會使用電腦,然后整日坐在桌前,從數不完的文字、圖片和視頻數據中,標注出“什么是梨子、蘋果?”“什么是憤怒情緒?”之類的問題。
這群年輕、成天加班的大學生做的工作,當然比數據標注難一個層級。但當他們拿掉VR眼鏡,眼眶上露出兩道紅印,以及傍晚6點半,接到電話,下樓去拿他們的“拼好飯”外賣時,又讓人感到有一種相似。"""""""""""""""""□