-
GPT-5大提升,o3對抗賽奪冠,但OpenAI越來越難讓人驚艷了?
-
張廣凱13764468101
(文/觀察者網(wǎng) 張廣凱 編輯/呂棟)
北京時間8月8日凌晨,備受期待的OpenAI最新大模型ChatGPT-5終于正式發(fā)布,就在同時,谷歌舉辦的首屆大模型國際象棋對抗賽中,o3也以4-0完勝Grok 4奪冠。這本該是對OpenAI雙喜臨門的一天,但作為一款關(guān)注度如此之高的產(chǎn)品,網(wǎng)友也很快發(fā)現(xiàn)了GPT-5的一些小小的瑕疵。
盡管大模型的能力仍然在快速進步,但其進步幅度越來越難以給人帶了驚艷感了。這不是OpenAI自己的問題,甚至某種意義上,這也不是一件壞事,因為是之前人們的預(yù)期已經(jīng)被拉到過高。但無論如何,在現(xiàn)有的算法范式下,AI大模型或許也離瓶頸越來越近了。
GPT-5水平如何?
作為OpenAI今年最受期待又屢屢跳票的重磅產(chǎn)品,ChatGPT-5今天的確給出了一些頗具說服力的測評數(shù)據(jù),證明其推理能力有著顯著進步。
例如,在數(shù)學(xué)能力測試AIME 2025上,GPT-5 Pro在開啟推理模式并調(diào)用工具(Python)的情況下,拿下滿分成績。即使不調(diào)用工具,GPT-5 Pro仍能拿下96.7的高分,GPT-5標準版也能拿到94.65分,顯著高于o3的88.9分。
編程方面,GPT-5在SWE-bench Verified上得到74.9分,高于o3的69.1和4o的30.8分。
博士水平的科學(xué)知識測試GPQA Diamond中,不調(diào)用工具的GPT-5 Pro推理模式拿到88.4分,創(chuàng)造新紀錄。
多模態(tài)方面,GPT-5得到84.2分,比o3的82.9分有小幅提升。
高難度的Humanity's Last Exam(人性終極測試)上,GPT-5 Pro和GPT-5在不調(diào)用工具時分別得到30.7和24.8分,較o3的14.7分大幅提升。
大模型競技場LM Arena的評分也已經(jīng)出爐,GPT-5橫掃所有單項的第一名。
此外,GPT-5推理模式的幻覺數(shù)量比o3少了六倍,成本方面則可以減少50-80%的token輸出量。
這些數(shù)據(jù)都證明,GPT-5算得上是一次成功的大版本升級。
但另人尷尬的是,在發(fā)布會后,網(wǎng)友迅速發(fā)現(xiàn)GPT-5在解一道極其簡單的方程時又犯了計算錯誤:
看起來,GPT-5還是沒能解決小數(shù)比大小的問題。
而OpenAI發(fā)布會PPT里的小瑕疵,也引起了網(wǎng)友熱議。大家發(fā)現(xiàn)在這張圖表里,柱狀圖的高度出現(xiàn)了明顯錯誤,但并不知道這是人為錯誤還是由AI生成。
有網(wǎng)友指出,在關(guān)于機翼升力原理的回答中,GPT-5也引用了一個廣為流傳的錯誤觀點。當然,這樣的問題歸咎于AI未免過于苛刻。
馬斯克則“嘴硬”稱,Grok 4在ARC-AGI測試中仍然打敗了GPT-5。
做題好是不是真的好?
那么,如何評價GPT-5的真實水平,或許日前的大模型國際象棋對抗賽恰好給我們提供了一個很好的參考。
同樣在今天凌晨結(jié)束的對抗賽上,OpenAI旗下的o3以4-0完勝Grok 4,奪得最終冠軍。盡管Grok 4在此前兩輪中都表現(xiàn)出色,但在決賽中,隨著對局長度增加,Grok 4也開始表現(xiàn)出棋力下降。
例如在第一局中,Grok 4莫名其妙地放棄了自己的象,并且沒有獲得任何明顯的回報,而Grok 4也并未在推理中說明理由。
o3盡管表現(xiàn)相對出色,在昨天的半決賽中還下出過正確率評分100%的棋局,但縱觀整個比賽過程,也不乏低級失誤。
或許有人會質(zhì)疑,讓AI下棋究竟能證明什么?AI對抗賽的勝負,是不是僅僅取決于它們使用了多大規(guī)模的訓(xùn)練數(shù)據(jù)?DeepSeek下棋不好,但是作詩是不是更好?
事實上,如果只糾結(jié)于下棋或者作詩的技能水平,說明并未理解谷歌采用這種比賽形式的邏輯。
此次國際象棋比賽的意義,并非考驗大模型的算力,而是考驗其推理能力。
如果大模型在接受了大量棋譜訓(xùn)練之后,體現(xiàn)出高超棋力,這只能證明AI的記憶力或者算力強大,而這件事在2017年就已經(jīng)被AlphaGo證明過了。
但是由于這些通用大模型都沒有接受過專門的棋譜訓(xùn)練,因此往往只能在開局階段憑借記憶下出經(jīng)典開局。在幾個回合之后,大模型已經(jīng)無法找到人類棋譜作為參考,它們的思維結(jié)構(gòu)也并非像AlphaGo那樣專為下棋設(shè)計。因此,這時候的AI推理,是跟人類相同的推理方式,通過語言邏輯來推演棋盤變化。
上述無工具的數(shù)學(xué)測試,起到的也是類似作用:考驗AI用人類邏輯進行計算的能力,而不是使用專門的機器算法。
因為無論是AlphaGo也好,還是計算工具也好,這樣的AI在特定任務(wù)中無比強大,但是卻毫無泛化性,不能解決任何其它問題。只有使用人類邏輯推理的模型,才能在人類世界中擁有最好的泛化性。
而在這個維度上,我們可以看到,無論是o3、Grok 4,還是最新升級的GPT-5,哪怕他們大部分時間都能夠解決復(fù)雜問題,但也還會犯下對人類來說的低級錯誤。這是現(xiàn)有的Next Token Predicting范式下仍然難以完全克服的問題,也說明它們或許離AGI的最終形態(tài)還有遙遠距離。
OpenAI顯然也不再希望把外界的胃口掉得過高。在本次發(fā)布會上,我們可以看到OpenAI花了更多時間介紹GPT-5在垂直場景應(yīng)用的能力,例如生成小游戲、回答健康問題的能力,這都是為了讓AI與人類更好地共存與協(xié)作。
- 責任編輯: 張廣凱 
-
增收不增利大跌8%,中芯國際稱國內(nèi)客戶需求猛漲
2025-08-08 16:16 觀網(wǎng)財經(jīng)-科創(chuàng) -
AR創(chuàng)業(yè)者親述:在美國做中國的事情,成本將暴漲好幾倍
2025-08-08 14:42 觀網(wǎng)財經(jīng)-科創(chuàng) -
臺積電2nm泄密,日企光速解雇一人
2025-08-08 14:02 觀網(wǎng)財經(jīng)-科創(chuàng) -
華為Mate70最高降價1000,Mate80或支持eSIM
2025-08-08 11:46 觀網(wǎng)財經(jīng)-科創(chuàng) -
-
特朗普:英特爾CEO必須立即辭職
2025-08-08 06:30 觀網(wǎng)財經(jīng)-科創(chuàng) -
伊朗放棄GPS全面轉(zhuǎn)向,有力證明了北斗這個優(yōu)勢
2025-08-07 22:53 觀察者頭條 -
RWA代幣化規(guī)模激增410%,真實世界資產(chǎn)或成加密領(lǐng)域下一個風口
2025-08-07 22:38 金融觀察 -
“秋天第一杯奶茶”爆單,有消費者苦等1.5小時
2025-08-07 22:33 觀網(wǎng)財經(jīng)-消費 -
女玩家情感投入反遭套路?多款頭部乙游頻發(fā)大規(guī)模投訴
2025-08-07 18:59 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
安踏收購銳步被否認,ABG公司稱沒有出售打算
2025-08-07 18:54 觀網(wǎng)財經(jīng)-消費 -
小米手機歐洲份額超蘋果,全球出貨受印度拖累
2025-08-07 17:06 觀網(wǎng)財經(jīng)-科創(chuàng) -
蘋果:將與三星合作推出創(chuàng)新芯片制造技術(shù)
2025-08-07 16:34 觀網(wǎng)財經(jīng)-科創(chuàng) -
極兔搶灘巴西,也在悄然改變巴西貧民窟
2025-08-07 16:21 -
庫克瘋狂示好特朗普:1000億美元+24K金底座擺件
2025-08-07 14:13 觀網(wǎng)財經(jīng)-科創(chuàng) -
88VIP權(quán)益再升級,新增超10項權(quán)益
2025-08-07 12:08 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
盒馬宣布今年將開100家新店,門店總數(shù)預(yù)計超過500家
2025-08-07 12:04 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
深度對話:小米阿里引爆智能眼鏡,AI耳機還是個好賽道嗎?
2025-08-07 10:06 觀網(wǎng)財經(jīng)-科創(chuàng) -
-
怎樣才是一次理想的道歉?
2025-08-06 22:50
相關(guān)推薦 -
-
美媒挑事:巴基斯坦與中國很鐵,你細品… 評論 35“訓(xùn)練成本才這么點?美國同行陷入自我懷疑” 評論 108中美高層本月頻繁互動,什么信號? 評論 80“為跟中方談,特朗普拒批4億美元對臺軍援” 評論 121最新聞 Hot
-
美媒挑事:巴基斯坦與中國很鐵,你細品…
-
“中方最嚴厲的公開回應(yīng)”
-
“挑戰(zhàn)中國主導(dǎo),美國把手伸向贊比亞”
-
“訓(xùn)練成本才這么點?美國同行陷入自我懷疑”
-
普京罕見透露前線俄軍人數(shù)
-
加拿大饞哭了:中國又從澳方買了,一買就是9船…
-
以防長威脅:胡塞,你的死期到了
-
主謀已落網(wǎng)
-
簽了!“中國發(fā)動機替代德國產(chǎn)品”
-
“對農(nóng)民來說,無異于千刀萬剮!好好和中國談吧”
-
印媒越吹越離譜:陣風領(lǐng)先殲-35A...
-
白宮AI顧問急了:這正中華為下懷,居心何在?
-
“為跟中方談,特朗普拒批4億美元對臺軍援”
-
針對個別“反華”集會,韓總理緊急指令
-
日本空自一架搜救機降落時沖出跑道,暫無人員傷亡
-
獨山縣委書記李景寬任上被查
-