-
DeepSeek-R1開創(chuàng)歷史,梁文鋒論文登上《自然》封面
最后更新: 2025-09-18 15:52:56據(jù)國際權(quán)威期刊《自然(Nature)》雜志網(wǎng)站9月17日消息,由DeepSeek團隊共同完成、梁文鋒擔任通訊作者的DeepSeek-R1推理模型研究論文被《自然》雜志刊載,并登上了當期《自然》的封面。
當期《自然》雜志封面
與今年1月發(fā)布的DeepSeek-R1的初版論文相比,本次論文披露了更多模型訓練的細節(jié),并正面回應了模型發(fā)布之初的蒸餾質(zhì)疑。DeepSeek-R1也是全球首個經(jīng)過同行評審的主流大語言模型。Nature評價道:目前幾乎所有主流的大模型都還沒有經(jīng)過獨立同行評審,這一空白“終于被DeepSeek打破”。
《科技日報》則在報道中介紹稱,梁文鋒參與的研究表明,大語言模型的推理能力可通過純強化學習來提升,從而減少增強性能所需的人類輸入工作量。訓練出的模型在數(shù)學和STEM領(lǐng)域研究生水平問題等任務(wù)上,比傳統(tǒng)訓練的大語言模型表現(xiàn)更好。
DeepSeek-R1包含一個在人類監(jiān)督下的深入訓練階段,以優(yōu)化推理過程。梁文鋒團隊報告稱,該模型使用了強化學習而非人類示例來開發(fā)推理步驟,減少了訓練成本和復雜性。DeepSeek-R1在被展示優(yōu)質(zhì)的問題解決案例后,會獲得一個模板來產(chǎn)生推理過程,即這一模型通過解決問題獲得獎勵,從而強化學習效果。在評估AI表現(xiàn)的各項測試中,DeepSeek-R1-Zero和DeepSeek-R1的表現(xiàn)都十分優(yōu)異。
梁文鋒團隊總結(jié)說,未來研究可以聚焦優(yōu)化獎勵過程,以確保推理和任務(wù)結(jié)果更可靠。
本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責任編輯: 胡致 
-
“如果沒有中國,美國將獨霸AI”
2025-09-18 15:36 人工智能 -
事關(guān)祖國統(tǒng)一,國防部長最新表態(tài)
2025-09-18 14:26 觀察者頭條 -
四川一高校通報“保安亂丟外賣”處理結(jié)果:賠償損失,保衛(wèi)處處長停職
2025-09-18 07:54 -
勿忘歷史,警鐘長鳴!
2025-09-18 07:23 -
黑龍江省委書記現(xiàn)場觀看《731》
2025-09-17 23:12 中國電影 -
警方通報:“嘎子哥”被行拘7天
2025-09-17 22:47 依法治國 -
北京大學:堅決擁護黨中央決定
2025-09-17 20:01 中西教育 -
多所高校宣布取消績點制
2025-09-17 19:59 中西教育 -
8月不含在校生16-24歲失業(yè)率達18.9%
2025-09-17 19:59 中國經(jīng)濟 -
-
北大副校長任羽中,主動投案
2025-09-17 16:10 廉政風暴 -
工信部就智能網(wǎng)聯(lián)汽車組合駕駛輔助相關(guān)標準公開征求意見
2025-09-17 15:19 -
抗戰(zhàn)勝利80周年紀念活動總結(jié)會議在京舉行,習近平親切接見各方面代表
2025-09-17 13:41 抗戰(zhàn)勝利80周年 -
在英特爾工作近20年后,芯片架構(gòu)師蘇菲回清華任教
2025-09-17 13:40 -
以史為鑒,共話和平——“戰(zhàn)爭、和平與和解”國際專家論壇在京舉行
2025-09-17 09:15 -
干部鄧某誣陷22人貪污受賄、存不正當男女關(guān)系等,被起訴
2025-09-17 08:25 -
李強在甘肅、青海調(diào)研
2025-09-16 20:54 -
豫鄂交界水域有人違法淘金?官方通報
2025-09-16 20:05 黃金游戲 -
10月1日起,貴州實施境外旅客購物離境退稅政策
2025-09-16 17:58 -
受賄超5506萬元,中宣部原副部長張建春一審被判14年
2025-09-16 17:14 廉政風暴
相關(guān)推薦 -
特朗普碰瓷:奪回阿富汗空軍基地,離中國太近 評論 184“美國農(nóng)民面臨金融災難”,特朗普終于扛不住了 評論 133最新聞 Hot
-
特朗普碰瓷:奪回阿富汗空軍基地,離中國太近
-
熱搶!部分民營銀行大額存單,年化利率超2%
-
美財長:人民幣匯率對歐洲是個事,對我們不是
-
“嘎子哥”謝孟偉抖音、快手賬號均被封禁
-
柯克遭槍擊前去了日韓,挑唆“擺脫中國”
-
“索要千萬逼死前夫”,翟欣欣一審被判12年
-
罕見!普京長期盟友主動辭職
-
全球5月以來最大規(guī)模IPO,紫金黃金國際將在香港上市
-
民生銀行再領(lǐng)148萬元罰單,今年累計被罰約2700萬
-
必勝客19元橙汁是3元果粒橙加冰?客服回應:確實
-
馬克龍將向美國法院提交“照片與科學證據(jù)”,證明妻子是女性
-
“吃了會不會長瘡”,美國運動員道歉了
-
美國,一裂再裂…
-
特朗普:俄烏?;稹斑€沒到時候”
-
“歐盟比中國更能拿捏美國,馮德萊恩本該更強硬,結(jié)果…”
-
首批“歐洲買單”的美國武器運抵烏克蘭
-