當(dāng)做量化對沖基金出身的梁文鋒進(jìn)入人工智能研究領(lǐng)域時(shí),他手里囤了上萬枚英偉達(dá)芯片,組建了一支雄心勃勃的青年才俊隊(duì)伍。兩年后,DeepSeek異軍突起。
2025年1月20日,中國一所不知名的科技初創(chuàng)公司DeepSeek發(fā)布了他們的最新開源模型DeepSeek-R1,并迅速成為硅谷熱議話題。根據(jù)該公司撰寫的一篇論文,DeepSeek-R1在多個(gè)數(shù)學(xué)和推理基準(zhǔn)測試中擊敗OpenAI o1等業(yè)界領(lǐng)先模型。事實(shí)上,從性能、成本、開放性等許多重要維度來看,DeepSeek全方位地讓西方AI巨頭倍感壓力。
DeepSeek的成功表明了中美科技競爭的一個(gè)意外結(jié)果。美國實(shí)施出口管制,試圖重創(chuàng)中國科技公司按照西方模式——通過購買更多芯片、進(jìn)行更長時(shí)間訓(xùn)練來無限擴(kuò)大規(guī)模——發(fā)展AI的能力。因此,大多數(shù)中國企業(yè)只得聚焦下游應(yīng)用,而非構(gòu)建自己的模型。但DeepSeek開辟了另一條取勝之道:改造AI模型的基礎(chǔ)結(jié)構(gòu)并更有效地利用有限的資源。
研究中國創(chuàng)新的澳大利亞悉尼科技大學(xué)副教授瑪麗娜 · 張(Marina Zhang)指出:“與許多高度依賴先進(jìn)硬件的AI企業(yè)不同,DeepSeek專注于最大程度地優(yōu)化軟件驅(qū)動(dòng)資源。DeepSeek擁抱開源方法,匯集專業(yè)知識,促進(jìn)協(xié)作創(chuàng)新。DeepSeek之道,不僅在一定程度上擺脫了資源限制,還加速了尖端技術(shù)發(fā)展,使自己從孤立閉塞的競爭環(huán)境中脫穎而出。”
那么,誰是這家AI初創(chuàng)企業(yè)的掌舵者?他們?yōu)槭裁赐蝗话l(fā)布并選擇免費(fèi)開放這款行業(yè)領(lǐng)先的模型?《連線》(WIRED)雜志的團(tuán)隊(duì)采訪了中國AI行業(yè)的專家,并對此前有關(guān)DeepSeek創(chuàng)始人梁文鋒的訪談內(nèi)容做了梳理,最終拼合出他們視角下的DeepSeek成功秘訣。
明星對沖基金
在中國的AI行業(yè),DeepSeek是“非正統(tǒng)”出身。它最初是對沖基金公司幻方量化(High-Flyer)旗下的一個(gè)深度學(xué)習(xí)研究部門,叫“螢火”(Fire-Flyer)。幻方成立于2015年,后迅速壯大,成為中國第一家募資規(guī)模超過1000億元人民幣的量化對沖基金。
多年來,幻方一直在儲(chǔ)備圖形處理單元(GPU)并構(gòu)建“螢火”超級計(jì)算機(jī)用以開展量化交易。2023年,擁有信息與電子工程學(xué)碩士學(xué)位的梁文鋒決定將基金的資源投入新公司DeepSeek——它要建立自己的尖端模型,并嘗試開發(fā)通用人工智能——就像“簡街資本”(Jane Street)決定成為一家AI初創(chuàng)企業(yè),將資金投入科學(xué)研究一樣。
這是宏偉的愿景,大膽的轉(zhuǎn)型。但最終他們成功了。張說道:“DeepSeek代表了新一代中國科技公司,他們優(yōu)先考慮長期技術(shù)進(jìn)步而非快速商業(yè)化。”
梁文鋒曾向媒體表示,轉(zhuǎn)向開發(fā)AI模型的決定出于科學(xué)好奇心,而非營利的愿望。“如果一定要(為創(chuàng)辦DeepSeek)找一個(gè)商業(yè)上的理由,它可能是找不到的,因?yàn)閯澆粊怼纳虡I(yè)角度來講,基礎(chǔ)研究投入回報(bào)比本就很低。OpenAI早期投資人投錢時(shí),想的一定不是我要拿回多少回報(bào)。當(dāng) OpenAI 的早期投資者給它錢時(shí),他們肯定沒有想過會(huì)得到多少回報(bào),而是真的想做這件事。”
一群渴望證明自己的年輕天才
梁還指出,當(dāng)他組建DeepSeek的研究團(tuán)隊(duì)時(shí),自己并未選擇尋找經(jīng)驗(yàn)豐富的工程師來打造面向消費(fèi)者的產(chǎn)品,而是重點(diǎn)關(guān)注來自中國頂尖學(xué)府,包括北京大學(xué)和清華大學(xué)的博士生,這些年輕人渴望證明自己。據(jù)量子位(QBitAI)報(bào)道,DeepSeek招募的許多人都曾于頂級期刊發(fā)表文章,并在國際學(xué)術(shù)會(huì)議上獲獎(jiǎng),但缺乏行業(yè)經(jīng)驗(yàn)。
梁曾在2023年表示:“我們的核心技術(shù)崗位基本以應(yīng)屆生和畢業(yè)一兩年的人為主。”這種招聘策略有助于建立一種協(xié)作的公司文化,讓員工能自由使用充足計(jì)算資源來開展非正統(tǒng)的研究項(xiàng)目。這與中國成熟的互聯(lián)網(wǎng)公司的運(yùn)轉(zhuǎn)方式截然不同。
梁認(rèn)為,學(xué)生更適合高投入、低利潤的研究。“大部分人在他們年輕的那些年,可以完全不帶功利地投入去做一件事。”他告訴潛在雇員們,DeepSeek的創(chuàng)建旨在“解決世界上最難的問題”。
專家表示,這些年輕研究者幾乎完全在中國接受教育,因此也有了更大的驅(qū)動(dòng)力。用張的話說,“年輕一代有很強(qiáng)的愛國主義情懷,尤其當(dāng)他們看到美國的限制以及關(guān)鍵硬件和軟件技術(shù)的瓶頸時(shí),他們克服重重障礙的信心就更加堅(jiān)定了,這不僅體現(xiàn)其個(gè)人壯志,也反映了他們要將祖國推至全球創(chuàng)新領(lǐng)先者地位的宏大理想”。
危機(jī)孕育創(chuàng)新
2022年10月,美國政府開始制定出口管制措施,嚴(yán)格限制中國人工智能企業(yè)使用英偉達(dá)的H100等尖端芯片。此舉措使DeepSeek遭遇麻煩。公司原本儲(chǔ)備有1萬枚A100芯片,但后續(xù)要與OpenAI和Meta等公司競爭,就必須獲得更多芯片。梁在2024年接受采訪時(shí)表示:“我們面臨的問題從來都不是錢,而是高端芯片被禁運(yùn)。”
DeepSeek必須想出更有效的方法來訓(xùn)練模型。墨卡托中國研究中心(MERICS)政策分析師、軟件工程師出身的溫迪 · 張(Wendy Chang)表示:“他們利用一系列工程技巧優(yōu)化了模型架構(gòu)。這些技巧包括定制的芯片間通信方案、減小字段大小以節(jié)省內(nèi)存,以及創(chuàng)新地使用混合模型方法等。其中許多方法并非新概念,但它們被成功地組合在一起,進(jìn)而創(chuàng)建出最先進(jìn)的模型。這是一項(xiàng)非凡的工作。”
DeepSeek還在多頭潛在注意力機(jī)制(MLA)和混合專家模型(MoE)方面取得了重大進(jìn)展,這兩項(xiàng)技術(shù)設(shè)計(jì)使DeepSeek模型更有性價(jià)比,因?yàn)橛?xùn)練所需的計(jì)算資源更少了。事實(shí)上,根據(jù)研究機(jī)構(gòu)Epoch AI的數(shù)據(jù),DeepSeek最新模型高效到了只需要Meta的Llama 3.1模型1/10的計(jì)算能力即可。
DeepSeek愿意與公眾分享自己的創(chuàng)新,這為其在全球人工智能研究界贏得了極大聲譽(yù)。對于許多中國AI公司來說,研發(fā)開源模型是趕超西方同行的唯一路徑,因?yàn)檫@樣可以吸引更多用戶和貢獻(xiàn)者,從而幫助模型成長。
資料來源 Wired