-
DeepSeek首度公開R1模型訓練成本僅為29.4萬美元,“美國同行開始質(zhì)疑自己的戰(zhàn)略”
【文/觀察者網(wǎng) 王一】DeepSeek今年年初以高性價比、高性能、開源驅(qū)動等特點驚艷了世界。其團隊近日在英國《自然》雜志發(fā)表論文首次披露,DeepSeek-R1模型的訓練成本僅為29.4萬美元,構(gòu)建基礎(chǔ)大語言模型也只花費了約600萬美元,這一成本已遠遠低于美國同行透露的數(shù)字,而那還只是美國公司公布出來的大概成本。
英國路透社9月18日指出,DeepSeek的成本遠低于美國競爭對手此前透露的數(shù)字,這一信息可能會再次引發(fā)外界圍繞中國在全球人工智能(AI)領(lǐng)域地位的討論。印度新聞網(wǎng)站“Devdiscourse”19日也稱,DeepSeek首次提供成本數(shù)據(jù),引發(fā)了美國公司對自己戰(zhàn)略的質(zhì)疑。
美國有線電視新聞網(wǎng)(CNN)、美國彭博社等美媒19日都對DeepSeek的29.4萬美元訓練成本感到驚訝。美國消費者新聞與商業(yè)頻道(CNBC)評價說,考慮到OpenAI花了多少錢,DeepSeek的成本簡直“驚人(astonishing)”,他們的模型已經(jīng)推翻了只有擁有最先進、最快芯片的國家才能在AI競賽中占據(jù)主導地位這一假設,現(xiàn)在他們甚至用數(shù)字對此進行了量化。
17日,《自然》雜志刊登了由DeepSeek團隊共同完成、梁文鋒擔任通訊作者的DeepSeek-R1推理模型研究論文。與今年1月發(fā)布DeepSeek-R1時的初版論文相比,最新的論文披露了更多模型訓練的細節(jié),也標志著該模型成為全球首個經(jīng)過同行評審的主流大語言模型。
最新的論文披露,DeepSeek-R1模型使用了512塊英偉達H800芯片,訓練成本僅為29.4萬美元。
路透社稱,今年1月的早期論文并未包含相關(guān)信息。大型語言模型的訓練成本通常是指,用高性能芯片集群處理海量文本和代碼所產(chǎn)生的巨額費用。OpenAI首席執(zhí)行官薩姆·奧爾特曼2023年曾透露,基礎(chǔ)模型訓練成本“遠超”1億美元,但他的公司從未公布過具體的數(shù)據(jù)。
當期《自然》雜志封面
該論文還對之前美國官員的一些毫無根據(jù)的質(zhì)疑做出了回應。為打壓中國AI發(fā)展,美國政府2022年就禁止英偉達向中國出口具備先進性能的H100和A100芯片。DeepSeek的AI大模型公布后,美國官員不相信中企可以用被“閹割”過的、英偉達專為中國市場設計的H800芯片訓練出如此高性能的AI模型。
于是,今年6月,美國官員污稱,DeepSeek在美國出口管制后違規(guī)獲取了“大量” H100芯片并將其用于大模型訓練。英偉達當時回應稱,DeepSeek所使用的是合法采購的H800芯片,而非H100芯片。
在《自然》論文的補充材料中,DeepSeek首次承認其確實擁有A100芯片,稱曾在研發(fā)前期使用這些芯片“為較小模型的實驗做準備”,但在這之后,R1模型在512塊H800芯片集群上進行了總計80個小時的訓練。
DeepSeek還在論文中首次間接回應了今年1月來自白宮高級顧問和部分美國AI業(yè)內(nèi)人士的指控——他們聲稱DeepSeek通過“蒸餾”技術(shù)“違規(guī)復制”O(jiān)penAI產(chǎn)品功能,并宣稱已經(jīng)發(fā)現(xiàn)“證據(jù)”。但此后,這些所謂的“證據(jù)”從未被公開。
蒸餾的理論核心是,讓一個龐大且復雜的預訓練AI模型充當“教師”,來訓練一個較小的“學生模型”,后者從“教師模型”學習知識,以獲得類似性能,但計算成本更低。不少專家表示,蒸餾在AI業(yè)內(nèi)是一種常見的做法,但若涉及直接復制閉源專有模型的輸出結(jié)構(gòu)或參數(shù),可能構(gòu)成侵權(quán)。
DeepSeek一直為蒸餾技術(shù)辯護,認為該方法不僅能提升模型性能,還能顯著降低訓練和運行成本,從而擴大AI技術(shù)的普及范圍。今年1月,該公司就提過,他們使用了美國科技公司Meta的開源AI模型Llama來構(gòu)建其模型的部分精簡版本。
在9月17日的論文中,DeepSeek表示,其V3模型的訓練數(shù)據(jù)來源于網(wǎng)絡爬取,其中包含“大量由OpenAI模型生成的回答,這可能會導致基礎(chǔ)模型間接從其他強大模型中獲得知識”。不過,DeepSeek強調(diào)這并非刻意為之,而是無意中的結(jié)果。
參與審閱該論文的Hugging Face機器學習工程師路易斯·湯斯頓(Lewis Tunstall)認為DeepSeek的解釋有道理,其他實驗室后來用類似的方法成功復制了R1模型的效果,這表明其他AI模型不需要所謂來自OpenAI的秘密數(shù)據(jù)就可以獲得極高的推理能力。
科技咨詢網(wǎng)站“Tech Space 2.0”也分析稱,DeepSeek的數(shù)據(jù)策略是使用最大量的免費數(shù)據(jù)進行預訓練,并巧妙使用自己生成的數(shù)據(jù)進行微調(diào),只在計算上花錢,這種節(jié)儉的策略是其他公司目前正在深入研究的模板。
該網(wǎng)站指出,DeepSeek-R1在同類產(chǎn)品中脫穎而出,是因為他以極低的成本實現(xiàn)了最先進的成果。OpenAI的GPT-4和谷歌的AI模型“雙子座(Gemini)”在某些方面仍然處于領(lǐng)先地位且享有強大的企業(yè)支持,但R1以一種此前從未見過的方式實現(xiàn)了“高端AI的民主化”——開放、復制成本相對低廉、高度注重效率。Meta的Llama2和法國科技初創(chuàng)企業(yè)米斯特拉爾AI公司(Mistral AI)的模型都秉承開放理念,但R1通過實現(xiàn)頂級性能將這一理念推向了新的高度。
“Tech Space 2.0”總結(jié)道:“這些比較強調(diào)了一個關(guān)鍵點:AI競爭不再僅僅關(guān)乎誰擁有最多的圖形處理器(GPU),現(xiàn)在還關(guān)乎誰能用更少的資源實現(xiàn)更多的目標。從這個角度來看,DeepSeek已經(jīng)改變了游戲規(guī)則?!?
本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責任編輯: 賴家琪 
-
越南最高領(lǐng)導層“擴員”了
2025-09-19 18:35 -
九一八當天,中國學者敦促日方直面歷史,不要玩概念模糊
2025-09-19 16:14 -
特朗普碰瓷,中方回應
2025-09-19 15:54 -
簽了!“中國發(fā)動機替代德國產(chǎn)品”
2025-09-19 15:53 -
中國貨輪將試航北極航道,外交部回應
2025-09-19 15:53 -
“對農(nóng)民來說,無異于千刀萬剮!好好和中國談吧”
2025-09-19 15:37 中美關(guān)系 -
中美元首今天將通話?外交部回應
2025-09-19 15:31 中美關(guān)系 -
英軍情六處要用暗網(wǎng)招間諜,重點瞄準...
2025-09-19 15:28 不列顛 -
印媒越吹越離譜:陣風領(lǐng)先殲-35A...
2025-09-19 14:44 印度驚奇 -
中美高層本月頻繁互動,什么信號?
2025-09-19 14:29 中美關(guān)系 -
白宮AI顧問急了:這正中華為下懷,居心何在?
2025-09-19 14:23 中美關(guān)系 -
日本空自一架搜救機降落時沖出跑道,暫無人員傷亡
2025-09-19 13:48 日本 -
在緬北修建租用14個園區(qū),詐騙數(shù)額11億,徐發(fā)啟犯罪集團案一審開庭
2025-09-19 13:36 打擊網(wǎng)絡詐騙 -
針對個別“反華”集會,韓總理緊急指令
2025-09-19 13:15 三八線之南 -
“為跟中方談,特朗普拒批4億美元對臺軍援”
2025-09-19 12:14 觀察者頭條 -
美財長:人民幣匯率對歐洲是個事,對我們不是
2025-09-19 12:03 中美關(guān)系 -
柯克遭槍擊前去了日韓,挑唆“擺脫中國”
2025-09-19 10:55 美國政治 -
“吃了會不會長瘡”,美國運動員道歉了
2025-09-19 10:42 美國一夢 -
馬克龍將向美國法院提交“照片與科學證據(jù)”,證明妻子是女性
2025-09-19 10:25 -
罕見!普京長期盟友主動辭職
2025-09-19 10:14 俄羅斯之聲
相關(guān)推薦 -
“訓練成本才這么點?美國同行陷入自我懷疑” 評論 84中美高層本月頻繁互動,什么信號? 評論 66“為跟中方談,特朗普拒批4億美元對臺軍援” 評論 117特朗普碰瓷:奪回阿富汗空軍基地,離中國太近 評論 273最新聞 Hot
-
美媒挑事:巴基斯坦與中國很鐵,你細品…
-
“訓練成本才這么點?美國同行陷入自我懷疑”
-
普京罕見透露前線俄軍人數(shù)
-
加拿大饞哭了:中國又從澳方買了,一買就是9船…
-
以防長威脅:胡塞,你的死期到了
-
主謀已落網(wǎng)
-
簽了!“中國發(fā)動機替代德國產(chǎn)品”
-
“對農(nóng)民來說,無異于千刀萬剮!好好和中國談吧”
-
印媒越吹越離譜:陣風領(lǐng)先殲-35A...
-
白宮AI顧問急了:這正中華為下懷,居心何在?
-
“為跟中方談,特朗普拒批4億美元對臺軍援”
-
針對個別“反華”集會,韓總理緊急指令
-
日本空自一架搜救機降落時沖出跑道,暫無人員傷亡
-
獨山縣委書記李景寬任上被查
-
特朗普碰瓷:奪回阿富汗空軍基地,離中國太近
-
熱搶!部分民營銀行大額存單,年化利率超2%
-