科技編輯四輪實測觀察DeepSeek實力如何

2025-03-05 00:00:00

科學大觀園 2025年5期

針對DeepSeek-V3 的測試，編輯準備了包括通用問答、內容總結、專業數學題、金融知識問答等四個方面。部分測試還將與豆包、Kimi 等大語言模型進行對比，以便于更直觀地觀察DeepSeek-V3 的能力。

訓練一個AI大模型需要多少錢？

OpenAICEO山姆·奧特曼曾表示，GPT-4的訓練成本大約1億美元（約合人民幣7.3億元），未來訓練大模型的成本將高于10億美元。尚未完成訓練的GPT-5大模型，為時約半年的一輪訓練就消耗了大約5億美元，可見AI公司的支出成本有多高。

而DeepSeek（深度求索）最新推出的DeepSeek-V3大模型訓練成本僅為557.6萬美元（約合人民幣4070萬元），大概是GPT-4的二十分之一，總計約消耗了278.8萬個GPU小時，參數為6710億，其中激活參數為370億。

DeepSeek官網的價格表顯示，緩存命中輸入價格僅為0.1元/百萬tokens，緩沖未命中輸入價格為1元/百萬tokens，輸出價格則為2元/百萬tokens，在諸多AI大模型中屬于最低一檔。（注明：1token約等于1.5個漢字或3個英文字母）

豆包、通義千問等AI大模型，能力較低的版本差不多也是這個價格，但性能較強的大模型如Doubao-pro-128k，輸入價格5元/百萬tokens，輸出價格為9元/百萬tokens，Kimi的moonshot-v1-128k輸出價格更是高達60元/百萬tokens。（注明：數據來自AI公司官方）

DeepSeek-V3超低的訓練成本和最低一檔的輸入、輸出價格，令人不禁疑惑，到底是其他AI公司資源利用率太差，還是DeepSeek技術實力太強，抑或DeepSeek-V3的能力是吹的？

好在，盡管DeepSeek-V3的大模型主打開源和API接口使用，但

也為用戶準備了可以便捷使用的網頁版。只要對其測試一番，對比與主流大語言模型的差距，我們就能獲知DeepSeek的真正實力。

DeepSeek-V3實測，結果令人驚訝

DeepSeek頁面極為簡潔，主框僅有深度思考、聯網搜索、上傳文件、發送四個按鈕。如果不打開聯網搜索功能，將無法搜索網上相關的信息，只能當作本地大模型使用，且深度思考和聯網搜索無法同時開啟，但依然需要電腦聯網將問題發送給DeepSeek。

針對DeepSeek-V3，編輯準備了四輪測試，包括通用問答、內容總結、專業數學題、金融知識問答，部分測試還將與豆包、Kimi等大語

言模型進行對比，以便于更直觀地觀察DeepSeek-V3的能力。

常規問答：簡短整潔、可讀性高

作為一名科技編輯，編輯每天都會向AI詢問“今天科技圈有什么新聞”，讓AI大模型幫助我快速收集新聞，絕大多數大模型也能夠輕松勝任。于是，編輯將其作為第一輪測試題目。

DeepSeek尋找了10條新聞，新聞之間用分割線劃分，視覺上更加清晰明了。每一段新聞的末尾，還會提供可一鍵直達的網頁鏈接。該項目的測試中，DeepSeek的亮點在于，新聞的總結簡潔且突出了重點，所收集的內容也不局限于國內平臺，部分消息來自海外新聞媒體，點擊鏈接可直達海外的新聞網站。有趣的是，DeepSeek還找到了自己的“黑料”，DeepSeek-V3大模型會稱自己是ChatGPT，山姆·奧特曼發文回應，認為原因是數據污染。

編輯用豆包和Kimi收集新聞時，豆包回復的內容文字太多，內容不夠簡潔清晰，Kimi則過于精簡，新聞的總結基本只有一句話。

隨后編輯還讓AI推薦幾首古典音樂，在未聯網的狀態下，DeepSeek依然可以準確回答我的問題，只是所有內容全部變成了英文。而切換至聯網模式后，再次提問相同的問題，回答的內容則又變成了中文。

本著求真的心態，編輯又進行了幾次測試，發現未聯網狀態下詢問西方古典音樂時，DeepSeek給出的回答是英文，詢問中國相關的音樂內容，如周杰倫的歌曲，DeepSeek就會是中文。DeepSeek居然是根據回答內容的相關性選擇語言，而不是提問所用的語言，令編輯多少有點詫異。

總而言之，在常規問答項目中，DeepSeek表現出色，無論是聯網狀態還是非聯網狀態都能準確回答出編輯提出的問題，表現絲毫不遜色豆包、Kimi等國內第一梯隊的AI大模型。

內容總結：結果很精簡，重點有缺失

在之前大模型橫評中，編輯曾讓豆包、Kimi、文心一言、訊飛星火等多款AI大模型總結小紅書發布的《潮流數碼白皮書》，結果大模型總結出的內容普遍缺失重點，有車轱轆話來回轉的情況。

與大多數大模型相同，DeepSeek給出的內容遺失了太多重點，尤其是《潮流數碼白皮書》給出的部分事例，DeepSeek完全沒有歸納出來。

AI大模型基本存在相同的問題，總結內容時容易變成“歸納大綱和標題”，導致大量信息無法展現出來，用戶僅憑“腦補”也難以還原出原本內容。

就生成的內容而言，DeepSeek的表現與Kimi、文心一言較為接近，略強于訊飛星火，稍遜于豆包。能夠達到這個效果，已經很出乎編輯的意料了。

數學題解答：快速、準確、有過程

在數學題解答中，編輯先后準備了三道數學題，第一道題是較為簡單的小學數學題。第二道題則是經典的三門問題，DeepSeek全部輕松回答正確，因而編輯不再展示AI給出的答案，小伙伴們可以自己思考一下。在DeepSeek取得兩連勝后，編輯決定給AI大模型上一上強度，拿出了曾經擊敗過多個AI大模型的第三道題：

某班有39名同學參加短跑、跳遠、投擲三項體育比賽，人數分別為23人、18人、21人，其中三項比賽全部參加的有5人，僅參加跳遠的有3人，僅參加投擲的有9人，請問僅參加短跑的有多少人？（正確答案：9人）

此前的測試中，唯有付費版o1-preview計算出了該問題的正確答案，豆包、Kimi、文心3.5、免費版GPT-4o等大模型全部回答錯誤。令編輯沒想到的是，DeepSeek居然給出了正確答案。

一時間編輯懷疑，是不是經過這段時間的訓練，所有大模型都能計算出該問題的答案了，于是編輯又測試了幾款大模型，結果豆包和文心3.5依然未能回答正確，分別給出了3人和12人的答案，升級了k1視覺思考模型的Kimi和訊飛星火則給出了正確答案。

除了能夠正確回答問題，DeepSeek還能夠詳細展示思考步驟，部分問題還會反復驗證答案，甚至使用其他方式再計算一次，而且解答問題的速度更是獨一檔。

在本輪測試中，DeepSeek的表現堪稱優秀，所有問題全部答對、解答速度快、有思考步驟，反而是赫赫有名的豆包、文心3.5再次折戟，未能解答出第三道題，DeepSeek表現出的實力遠遠大于它的名氣。

金融問題答疑：精準理解，給出了適當建議

面向所有消費者的大語言模型，至今大多仍免費提供服務，反而主攻的是B端市場和主打專業功能的AI大模型，逐漸收費服務。C端市場用戶眾口難調，且許多人不愿意付費使用，唯有打造專業使用場景，面向有對應需求的用戶，AI公司方能有機會實現盈利。因而在第四輪測試中，編輯準備了一道金融知識問題：

當市場利率上升或下降時，債券價格會如何變化？投資者應如何應對利率波動以保護債券投資組合價值？

這一輪測試中，所有AI大模型給出的答案大同小異，均能準確解讀市利率變化和債券價格的關系，并給出一些投資建議，包括分散投資、縮短久期、投資債券基金等方案。

網上金融相關的信息過于繁雜，查詢、挑選、提純信息的流程也較為麻煩，AI能很好地解決這一問題，幫助我們匯集相關信息并提取有用的內容。

金融問題相關測試中，編輯仍未開啟聯網搜索功能，DeepSeek給出的答案中規中矩，與其他AI大模型拉不開差距，但這已足夠證明DeepSeek的優秀，畢竟它的訓練成本僅557.6萬美元。

總結：能力出乎意料，功能有待豐富

測試DeepSeek-V3之前，編輯有點看不起這款大模型，OpenAI訓練GPT的成本以“億美元”為單位，一個訓練成本僅557.6萬美元的AI大模型，表現能高到哪兒去？結果實測結果狠狠給了編輯一巴掌。

幾輪測試下來，除了幾乎所有大模型都存在丟失重點的內容總結環節，其他幾輪測試DeepSeek都拿到了高分，表現絲毫不遜色國內赫赫有名的文心一言、Kimi、豆包等AI大模型。

在數學題解答項目中，即便面對豆包、文心3.5都未能給出正確答案的難題，DeepSeek依然迅速解出答案。訊飛星火和Kimi上次測試給出了錯誤答案，這次成功答對，進步幅度不小。

部分小伙伴看到這里可能就會覺得，DeepSeek花幾百萬美元就能訓練出這么優秀的大模型，OpenAI、百度、字節跳動都是在浪費錢。其實不然，DeepSeek縱然在邏輯推理方面表現出色，但其功能缺乏是最大的問題，無法用于創作圖片、PPT，也不提供智能體可選，功能相對較少。

豆包、文心一言、ChatGPT等，則在朝著“萬能大模型”進發，即AnyToAny，用戶可以輸入任何模態的內容，并輸出任何模態的內容。針對許多專業領域，豆包、文心一言紛紛推出了對應的智能體，涵蓋生活、學習、創作等方方面面，這是DeepSeek遠不能及的。

對于以文字生成為主要需求的用戶來說，DeepSeek-V3是一款不錯的AI大模型，但若有更多需求，如寫長篇小說、創作圖片、投資計算，豆包、Kimi等免費服務的AI大模型及其提供的智能體或許更合適。

當然，DeepSeek也確實做到了花小錢辦大事，通過更先進的MoE架構、多技術融合優化、FP8混合精度訓練框架等技術，以及與開源社區合作的方法，在成本較低的情況下，就訓練出文字生成和邏輯推理能力不輸乃至領先主流AI大模型DeepSeek-V3。

訓練成本高昂、競爭愈發激烈已成趨勢，未來幾年國內外將有大量AI公司倒閉，如何開源與節流已成AI公司必須思考的難題，DeepSeek降低成本的方法值得其他AI公司學習。

來源|雷科技

科技編輯四輪實測 觀察DeepSeek實力如何

科技編輯四輪實測觀察DeepSeek實力如何