測試「天下最聰明」的Grok3:它真的是模型邊際效應的終點嗎?
Image source: Generated by AI
北京时間2月18日,馬斯克與xAI團隊,在直播中正式發佈了Grok最新版本Grok3。
早在本次發佈會之前,依靠著種種相關資訊的拋出,加上馬斯克本人24/7不間斷的預熱炒作,讓全球對Grok3的期待值被拉到了空前的程度。 在一周前,馬斯克在直播中評論DeepSeek R1時,還信心滿滿地表示「xAI即將推出更優秀的AI模型」。
從現場展示的數據來看,Grok3在數學、科學與程式設計的基準測試上已經超越了現時所有的主流模型,馬斯克甚至宣稱Grok 3未來將用於SpaceX火星任務計算,並預測「三年內將實現諾貝爾獎級別突破」。
但這些現時都只是馬斯克的一家之言。 筆者在發佈後,就測試了最新的Beta版Grok3,並提出了那個經典的用來刁難大模型的問題:「9.11與9.9哪個大?」
遺憾的是,在不加任何定語以及標注的情况下,號稱現時最聰明的Grok3,仍然無法正確回答這個問題。
Grok3並沒準確識別出這個問題的含義|圖片來源:極客公園
在這個測試發出之後,很短的時間內迅速引發了不少朋友的關注,無獨有偶,在海外也有很多類似問題的測試,例如「比薩斜塔上兩個球哪個先落下」這些基礎物理/數學問題,Grok3也被發現仍然無法應對。 囙此被戲稱為「天才不願意回答簡單問題」。
Grok3在實際測試中的許多常識問題上出現「翻車」 |圖片來源: X
除了網友自發測試的這些基礎知識上Grok3出現了翻車,在xAI發佈會直播中,馬斯克演示使用Grok3來分析他號稱經常玩的Path of Exile 2(流放之路2)對應的職業與昇華效果,但實際上Grok3給出的對應答案絕大部分都是錯誤的。 直播中的馬斯克並沒有看出這個明顯的問題。
Grok3在直播中也出現給出數據大量錯誤的情况 |圖片來源: X
囙此這個失誤不僅成為了海外網友再次嘲諷馬斯克打遊戲「找代練」的實錘證據,同時也為Grok3在實際應用中的可靠性,再次打上了一個大大的問號。
對於這樣的「天才」,無論實際能力幾何,未來被用於火星探索任務這樣的極度複雜的應用場景,其可靠性都要打上一個大大的問號。
現時,眾多在幾周前獲得Grok3測試資格、以及昨天剛剛用上幾個小時的模型能力測試者,對於Grok3當前的表現,都指向了一個相同的結論:
「Grok3是很好,但它並不比R1或o1-Pro更好」
「Grok3是很好,但它並不比R1或o1-Pro更好」 |圖片來源: X
Grok3在發佈中官方的PPT中,在大模型競技場Chatbot Arena中實現「遙遙領先」,但這其實也應用了一些小小的作圖技巧:榜單的縱軸僅列出了1400-1300分段的排名,讓原本1%的測試結果差距,在這個PPT展示中都變得异常明顯。
官方發佈PPT中的「遙遙領先」效果|圖片來源: X
而實際的模型跑分結果,Grok3其實也只比DeepSeek R1以及GPT4.0實現了不到1-2%的差距:這對應了不少用戶在實際測試中「並無明顯差別」的體感效果。
實際上的Grok3,只比後來者高了1%-2% |圖片來源: X
此外雖然在分數上,Grok3超過了現時公開測試的所有模型,但這一點並不被很多人買帳:畢竟xAI在Grok2時代就有在這個榜單中「刷分」,隨著榜單對回答長度風格做降權處理而大幅降低分數的情况,囙此經常被業內人士詬病「高分低能」。
無論是榜單「刷分」,還是配圖設計上的「小技巧」,都展示出的是xAI以及馬斯克本人對於模型能力「遙遙領先」這件事的執念。
而為了這些差距,馬斯克所付出的代價堪稱高昂:在發佈會中,馬斯克用近乎炫耀的口吻表示,用了20萬張H100(馬斯克直播中表示使用「超過10萬」張)訓練Grok3,總訓練小時數達到兩億小時。 這讓一部分人覺得這是對GPU行業的又一個重大利好,並認為DeepSeek給行業帶來的震動是「愚蠢」的。
不少人認為堆砌算力將會是模型訓練的未來 |圖片來源: X
但實際上,有網友對比了使用2000張H800訓練兩個月得出的DeepSeek V3,計算出Grok3其實際的訓練算力消耗是V3的263倍。 而DeeSeek V3在大模型競技場榜單上與得分1402分的Grok3的差距,甚至還不到100分而已。
從這些數據出爐之後,就有不少人快速意識到,在Grok3登頂「世界最强」的背後,其實是模型越大,效能越强的邏輯,已經出現了明顯的邊際效應。
即使是「高分低能」的Grok2,其背後也有著X(Twitter)平臺內海量的高品質第一方數據作為支撐來使用。 而到了Grok3的訓練中,xAI自然也會遇到OpenAI當前同樣遇到的「天花板」——優質訓練數據的不足,讓模型能力的邊際效應迅速曝光。
對於這些事實,最早意識到並且也是最深刻理解的人,肯定是Grok3的開發團隊與馬斯克,囙此馬斯克也在社交媒體上不斷表示當前用戶體驗到的版本「還僅僅只是測試版」「完整版將在未來幾個月推出」。 馬斯克本人更是化身Grok3產品經理,建議用戶直接在評論區迴響使用時所遇到的各種問題。
他大概是地球上粉絲數量最多的產品經理 |圖片來源: X
但不到一天之內,Grok3的表現,無疑給寄希望依靠「大力飛磚」訓練出能力更强的大模型的後來者敲響了警鐘:根據微軟公開的資訊推測,OpenAI GPT4參數體積為1.8萬億參數,相比GPT3已經提升了超過10倍,而傳聞中的GPT4.5的參數體積甚至還會更大。
模型參數體積飛漲的同時訓練成本也在飆升 |圖片來源: X
有Grok3在前,GPT4.5以及更多想要繼續「燒錢」,以參數體積來獲得更好模型效能的選手,都不得不考慮到已經近在眼前的天花板,應該怎樣突破。
此時此刻,OpenAI的前首席科學家Ilya Sutskever在去年12月曾表示「我們所熟悉的預訓練將會結束」,又被人重新記起來,並試圖從中找到大模型訓練的真正出路。
Ilya的觀點,已經為行業敲響了警鐘 |圖片來源: X
彼時, Ilya準確預見到了可用的新數據接近枯竭,模型難以再繼續通過獲取數據來提升效能的情况,並這種情況形容為化石燃料的消耗,表示「正如石油是有限資源一樣,互聯網中由人類生成的內容也是有限的」。
在Sutskever預測中,預訓練模型之後的下一代模型將會有「真正的自主性」。 同時將具備「類似人腦」的推理能力。
與如今預訓練模型主要依賴的內容匹配(基於模型此前學習的內容)不同,未來的AI系統將能够以類似於人腦「思維」的管道,來逐步學習並建立起解决問題的方法論。
人類對某一個學科做到基本的精通,只需要基本專業書籍即可實現,但AI大模型卻需要學習數以百萬計的數據才能實現最基礎的入門效果,甚至當你換了個問法之後,這些基礎的問題也無法正確理解,模型在真正的智慧上並沒有得到提升:文章開頭提到的那些基礎但Grok3仍然無法正確回答的問題,就是這種現象的直觀體現。
但在「力大飛磚」之外,Grok3如果真的能向行業揭示「預訓練模型即將走到盡頭」這個事實,那它對行業仍然稱得上有著重要的啟發意義。
或許,在Grok3的狂潮逐漸褪去之後,我們也能看到,更多類似李飛飛「在特定數据集的基礎上50美元微調出高性能模型」的案例出現。 並在這些探索中,最終找到真正通向AGI的道路。
原文網址:https://zh.gushiio.com/ai/2048.html