
2024年末,一個中國AI小廠,憑借過硬的技術,獲得了全球鋪天蓋地的關注。
圣誕節過后,海外社交媒體以及技術論壇Github都在討論一個最新發布的開源大模型,DeepSeek-V3。它被外國網友冠以名號——“來自東方的神秘力量”。
多個評測報告里,DeepSeek-V3在世界開源模型之中處在第一梯隊,超過扎克伯格的LLaMa3.1。拿它比GPT-4o以及Claude3.5兩個最頂尖大模型也毫不遜色,甚至,其在數學推理、代碼生成和長文本處理等指標上,表現更強。
這還不是中國AI公司DeepSeek(中文名:深度求索)全部的“拿手好戲”。更讓美國硅谷等同行摸不著頭腦的是,DeepSeek公布的53頁技術報告顯示,其訓練頂尖大模型只用了2048張H100的GPU集群,花費53天,共計耗費557.6萬美元。有專業人員指出,同等水平之下,世界AI大廠至少要用1.6萬張以上的GPU,有的甚至需要10萬張GPU并行訓練。
OpenAI早期成員安德烈·卡帕西感慨,DeepSeek-V3的出現意味著,今后也許不需要大型GPU集群來訓練前沿的大語言模型了。ScaleAI的華裔CEO亞歷山大·王更感慨道,DeepSeek-V3帶給美國最大的教訓是,“當美國人休息時,中國正在努力工作,最終以更低的成本、更快的速度迎頭趕上,變得更強”。
這一以低成本聞名的小團隊顛覆了國外AI巨頭發展的固定范式,是被外界認為最像(早期)OpenAI的開源機構。事實上,這家小廠位于杭州,創始人從浙江大學畢業,2015年創立了公司幻方量化,幾年之間,成為中國少有的突破千億規模的量化私募機構。
一家金融公司搞出了一個最有氣質的AI大模型公司,本身已經令人稱奇。與此同時,DeepSeek堅持技術開源,每次模型發布后,都會公布細節滿滿的技術報告。……