999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

科技編輯四輪實測 觀察DeepSeek實力如何

2025-03-05 00:00:00
科學大觀園 2025年5期
關鍵詞:內容模型

針對DeepSeek-V3 的測試,編輯準備了包括通用問答、內容總結、專業數學題、金融知識問答等四個方面。部分測試還將與豆包、Kimi 等大語言模型進行對比,以便于更直觀地觀察DeepSeek-V3 的能力。

訓練一個AI大模型需要多少錢?

OpenAICEO山姆·奧特曼曾表示,GPT-4的訓練成本大約1億美元(約合人民幣7.3億元),未來訓練大模型的成本將高于10億美元。尚未完成訓練的GPT-5大模型,為時約半年的一輪訓練就消耗了大約5億美元,可見AI公司的支出成本有多高。

而DeepSeek(深度求索)最新推出的DeepSeek-V3大模型訓練成本僅為557.6萬美元(約合人民幣4070萬元),大概是GPT-4的二十分之一,總計約消耗了278.8萬個GPU小時,參數為6710億,其中激活參數為370億。

DeepSeek官網的價格表顯示,緩存命中輸入價格僅為0.1元/百萬tokens,緩沖未命中輸入價格為1元/百萬tokens,輸出價格則為2元/百萬tokens,在諸多AI大模型中屬于最低一檔。(注明:1token約等于1.5個漢字或3個英文字母)

豆包、通義千問等AI大模型,能力較低的版本差不多也是這個價格,但性能較強的大模型如Doubao-pro-128k,輸入價格5元/百萬tokens,輸出價格為9元/百萬tokens,Kimi的moonshot-v1-128k輸出價格更是高達60元/百萬tokens。(注明:數據來自AI公司官方)

DeepSeek-V3超低的訓練成本和最低一檔的輸入、輸出價格,令人不禁疑惑,到底是其他AI公司資源利用率太差,還是DeepSeek技術實力太強,抑或DeepSeek-V3的能力是吹的?

好在,盡管DeepSeek-V3的大模型主打開源和API接口使用,但

也為用戶準備了可以便捷使用的網頁版。只要對其測試一番,對比與主流大語言模型的差距,我們就能獲知DeepSeek的真正實力。

DeepSeek-V3實測,結果令人驚訝

DeepSeek頁面極為簡潔,主框僅有深度思考、聯網搜索、上傳文件、發送四個按鈕。如果不打開聯網搜索功能,將無法搜索網上相關的信息,只能當作本地大模型使用,且深度思考和聯網搜索無法同時開啟,但依然需要電腦聯網將問題發送給DeepSeek。

針對DeepSeek-V3,編輯準備了四輪測試,包括通用問答、內容總結、專業數學題、金融知識問答,部分測試還將與豆包、Kimi等大語

言模型進行對比,以便于更直觀地觀察DeepSeek-V3的能力。

常規問答:簡短整潔、可讀性高

作為一名科技編輯,編輯每天都會向AI詢問“今天科技圈有什么新聞”,讓AI大模型幫助我快速收集新聞,絕大多數大模型也能夠輕松勝任。于是,編輯將其作為第一輪測試題目。

DeepSeek尋找了10條新聞,新聞之間用分割線劃分,視覺上更加清晰明了。每一段新聞的末尾,還會提供可一鍵直達的網頁鏈接。該項目的測試中,DeepSeek的亮點在于,新聞的總結簡潔且突出了重點,所收集的內容也不局限于國內平臺,部分消息來自海外新聞媒體,點擊鏈接可直達海外的新聞網站。有趣的是,DeepSeek還找到了自己的“黑料”,DeepSeek-V3大模型會稱自己是ChatGPT,山姆·奧特曼發文回應,認為原因是數據污染。

編輯用豆包和Kimi收集新聞時,豆包回復的內容文字太多,內容不夠簡潔清晰,Kimi則過于精簡,新聞的總結基本只有一句話。

隨后編輯還讓AI推薦幾首古典音樂,在未聯網的狀態下,DeepSeek依然可以準確回答我的問題,只是所有內容全部變成了英文。而切換至聯網模式后,再次提問相同的問題,回答的內容則又變成了中文。

本著求真的心態,編輯又進行了幾次測試,發現未聯網狀態下詢問西方古典音樂時,DeepSeek給出的回答是英文,詢問中國相關的音樂內容,如周杰倫的歌曲,DeepSeek就會是中文。DeepSeek居然是根據回答內容的相關性選擇語言,而不是提問所用的語言,令編輯多少有點詫異。

總而言之,在常規問答項目中,DeepSeek表現出色,無論是聯網狀態還是非聯網狀態都能準確回答出編輯提出的問題,表現絲毫不遜色豆包、Kimi等國內第一梯隊的AI大模型。

內容總結:結果很精簡,重點有缺失

在之前大模型橫評中,編輯曾讓豆包、Kimi、文心一言、訊飛星火等多款AI大模型總結小紅書發布的《潮流數碼白皮書》,結果大模型總結出的內容普遍缺失重點,有車轱轆話來回轉的情況。

與大多數大模型相同,DeepSeek給出的內容遺失了太多重點,尤其是《潮流數碼白皮書》給出的部分事例,DeepSeek完全沒有歸納出來。

AI大模型基本存在相同的問題,總結內容時容易變成“歸納大綱和標題”,導致大量信息無法展現出來,用戶僅憑“腦補”也難以還原出原本內容。

就生成的內容而言,DeepSeek的表現與Kimi、文心一言較為接近,略強于訊飛星火,稍遜于豆包。能夠達到這個效果,已經很出乎編輯的意料了。

數學題解答:快速、準確、有過程

在數學題解答中,編輯先后準備了三道數學題,第一道題是較為簡單的小學數學題。第二道題則是經典的三門問題,DeepSeek全部輕松回答正確,因而編輯不再展示AI給出的答案,小伙伴們可以自己思考一下。在DeepSeek取得兩連勝后,編輯決定給AI大模型上一上強度,拿出了曾經擊敗過多個AI大模型的第三道題:

某班有39名同學參加短跑、跳遠、投擲三項體育比賽,人數分別為23人、18人、21人,其中三項比賽全部參加的有5人,僅參加跳遠的有3人,僅參加投擲的有9人,請問僅參加短跑的有多少人?(正確答案:9人)

此前的測試中,唯有付費版o1-preview計算出了該問題的正確答案,豆包、Kimi、文心3.5、免費版GPT-4o等大模型全部回答錯誤。令編輯沒想到的是,DeepSeek居然給出了正確答案。

一時間編輯懷疑,是不是經過這段時間的訓練,所有大模型都能計算出該問題的答案了,于是編輯又測試了幾款大模型,結果豆包和文心3.5依然未能回答正確,分別給出了3人和12人的答案,升級了k1視覺思考模型的Kimi和訊飛星火則給出了正確答案。

除了能夠正確回答問題,DeepSeek還能夠詳細展示思考步驟,部分問題還會反復驗證答案,甚至使用其他方式再計算一次,而且解答問題的速度更是獨一檔。

在本輪測試中,DeepSeek的表現堪稱優秀,所有問題全部答對、解答速度快、有思考步驟,反而是赫赫有名的豆包、文心3.5再次折戟,未能解答出第三道題,DeepSeek表現出的實力遠遠大于它的名氣。

金融問題答疑:精準理解,給出了適當建議

面向所有消費者的大語言模型,至今大多仍免費提供服務,反而主攻的是B端市場和主打專業功能的AI大模型,逐漸收費服務。C端市場用戶眾口難調,且許多人不愿意付費使用,唯有打造專業使用場景,面向有對應需求的用戶,AI公司方能有機會實現盈利。因而在第四輪測試中,編輯準備了一道金融知識問題:

當市場利率上升或下降時,債券價格會如何變化?投資者應如何應對利率波動以保護債券投資組合價值?

這一輪測試中,所有AI大模型給出的答案大同小異,均能準確解讀市利率變化和債券價格的關系,并給出一些投資建議,包括分散投資、縮短久期、投資債券基金等方案。

網上金融相關的信息過于繁雜,查詢、挑選、提純信息的流程也較為麻煩,AI能很好地解決這一問題,幫助我們匯集相關信息并提取有用的內容。

金融問題相關測試中,編輯仍未開啟聯網搜索功能,DeepSeek給出的答案中規中矩,與其他AI大模型拉不開差距,但這已足夠證明DeepSeek的優秀,畢竟它的訓練成本僅557.6萬美元。

總結:能力出乎意料,功能有待豐富

測試DeepSeek-V3之前,編輯有點看不起這款大模型,OpenAI訓練GPT的成本以“億美元”為單位,一個訓練成本僅557.6萬美元的AI大模型,表現能高到哪兒去?結果實測結果狠狠給了編輯一巴掌。

幾輪測試下來,除了幾乎所有大模型都存在丟失重點的內容總結環節,其他幾輪測試DeepSeek都拿到了高分,表現絲毫不遜色國內赫赫有名的文心一言、Kimi、豆包等AI大模型。

在數學題解答項目中,即便面對豆包、文心3.5都未能給出正確答案的難題,DeepSeek依然迅速解出答案。訊飛星火和Kimi上次測試給出了錯誤答案,這次成功答對,進步幅度不小。

部分小伙伴看到這里可能就會覺得,DeepSeek花幾百萬美元就能訓練出這么優秀的大模型,OpenAI、百度、字節跳動都是在浪費錢。其實不然,DeepSeek縱然在邏輯推理方面表現出色,但其功能缺乏是最大的問題,無法用于創作圖片、PPT,也不提供智能體可選,功能相對較少。

豆包、文心一言、ChatGPT等,則在朝著“萬能大模型”進發,即AnyToAny,用戶可以輸入任何模態的內容,并輸出任何模態的內容。針對許多專業領域,豆包、文心一言紛紛推出了對應的智能體,涵蓋生活、學習、創作等方方面面,這是DeepSeek遠不能及的。

對于以文字生成為主要需求的用戶來說,DeepSeek-V3是一款不錯的AI大模型,但若有更多需求,如寫長篇小說、創作圖片、投資計算,豆包、Kimi等免費服務的AI大模型及其提供的智能體或許更合適。

當然,DeepSeek也確實做到了花小錢辦大事,通過更先進的MoE架構、多技術融合優化、FP8混合精度訓練框架等技術,以及與開源社區合作的方法,在成本較低的情況下,就訓練出文字生成和邏輯推理能力不輸乃至領先主流AI大模型DeepSeek-V3。

訓練成本高昂、競爭愈發激烈已成趨勢,未來幾年國內外將有大量AI公司倒閉,如何開源與節流已成AI公司必須思考的難題,DeepSeek降低成本的方法值得其他AI公司學習。

來源|雷科技

猜你喜歡
內容模型
一半模型
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
內容回顧 溫故知新
科學大眾(2021年21期)2022-01-18 05:53:48
內容回顧溫故知新
科學大眾(2021年17期)2021-10-14 08:34:02
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
一個相似模型的應用
主站蜘蛛池模板: 欧美中文字幕在线播放| 亚洲色欲色欲www在线观看| 亚洲Va中文字幕久久一区| 国产大全韩国亚洲一区二区三区| 久久久久久久97| 国产欧美精品午夜在线播放| 亚洲性影院| 亚洲精品日产AⅤ| 亚洲欧美不卡| 一区二区欧美日韩高清免费| 欧美成人精品在线| 91免费在线看| 一本色道久久88综合日韩精品| 国产精品视频免费网站| 欧美国产日产一区二区| 午夜日b视频| 欧美中文一区| 亚洲青涩在线| 国产一区二区三区在线无码| 亚洲 欧美 日韩综合一区| 国产激情国语对白普通话| 国产精品国产三级国产专业不| 国产乱人伦偷精品视频AAA| 国产精品网址你懂的| 在线精品亚洲国产| 香蕉视频在线观看www| 欧美一区二区福利视频| 99视频在线免费| 浮力影院国产第一页| 国产精品深爱在线| 国产精品综合色区在线观看| 亚洲欧美日韩综合二区三区| 国产亚洲精品91| 六月婷婷综合| 国产福利拍拍拍| 久久精品人妻中文系列| 久久精品人人做人人综合试看| 精品久久人人爽人人玩人人妻| 国产一区成人| 亚洲欧美成人在线视频| 天天爽免费视频| 一本二本三本不卡无码| 毛片免费高清免费| 国产精品免费露脸视频| 成人福利在线看| 国产三级国产精品国产普男人| 国产精品高清国产三级囯产AV| 久久99国产综合精品1| 热久久综合这里只有精品电影| 亚洲无线视频| 日韩午夜福利在线观看| 亚洲精品色AV无码看| jijzzizz老师出水喷水喷出| 色视频国产| 国产尹人香蕉综合在线电影| 亚洲国产黄色| 成人午夜久久| 人妻无码中文字幕一区二区三区| 国产原创第一页在线观看| 午夜性刺激在线观看免费| 欧美另类一区| 网友自拍视频精品区| 国产色婷婷| 精品少妇人妻一区二区| 日韩a在线观看免费观看| 毛片在线播放a| 国产精品无码制服丝袜| 97综合久久| 国产成人高清亚洲一区久久| a级毛片网| 日韩中文字幕亚洲无线码| 国产精品福利导航| 国产高清在线观看91精品| 亚洲欧美h| 国产69精品久久久久孕妇大杂乱 | 成人午夜视频网站| 亚洲最新在线| 香蕉久久国产超碰青草| 亚洲二区视频| 91黄色在线观看| 久久综合色视频| 国产亚洲精品97在线观看|