馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的

馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的插图1Image source: Generated by AI

馬斯克口中的“地球上最聰明的AI”Grok 3來了。

在一場上百萬人觀看的直播中,馬斯克發佈了Grok 3,和他一起參與發佈的還有兩位華裔研究員,分別是xAI聯合創始人Tony Wu、 Jimmy Ba。 從基準測試來看,Grok 3確實强得驚人,而從資本投入看,背後那20萬塊GPU的算力集羣也令人咋舌。

Grok 3的發佈包括一系列的模型: Grok 3, Grok 3 mini, 以及推理模式(Think)、DeepSearch、Big Brain等更新。

#01、“最聰明AI”之名來自榜單,實測如何

馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的插图3

基準評測方面,Grok 3在數學推理、STEM與科學領域的基準測試中表現優於GPT-4o、Gemini-2 Pro、Claude3.5 Sonnet、DeepSeek-V3等其他模型。 即便是小版本的Grok 3 Mini,也處於頂尖水准。

馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的插图5

Grok 3的早期版本在大模型競技場Chatbot Arena中也取得了高分,這是一個眾包測試平臺,不同AI模型相互競爭,用戶投票選出最佳答案,Grok-3是首個突破1400分的模型,在所有類別中排名第一。

馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的插图7

Grok自2023年發佈以來MMILU得分快速提升,尤其在2024年達到Grok 2的顯著突破,顯示出與GPT系列相比的快速追趕與進步。

馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的插图9

“Grok 3具備非常强大的推理能力,囙此在我們迄今為止進行的測試中,Grok 3的表現超越了我們已知的任何已發佈產品,這是一個好迹象,”馬斯克上周在迪拜舉行的世界政府峰會上通過視頻通話表示。

Grok 3也推出了推理模式(Think),通過Grok 3 Reasoning和Grok 3 mini Reasoning,能够像DeepSeek- R1等推理模型一樣進行思考。 Grok 3的模型可以通過考慮所有可能的解決方案、自我批判、驗證解決方案、回溯、從第一性原理思考等管道來解决複雜的問題。 不過為了防止蒸餾,模糊化了Grok 3的部分推理過程。

馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的插图11

Grok 3 Reasoning在多個流行基準測試中超越了o3-mini的最佳版本——o3-mini-high,其中包括新的數學基準AIME2025。

馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的插图13

團隊演示了用Grok 3的Think模式生成一個關於從地球發射到火星再返回地球的動畫3D繪圖,展示下一次發射視窗的軌跡。

在演示中,Grok 3提供了一個使用Matplotlib的Python腳本,並解釋了程式碼。 程式碼似乎是通過數值管道解决開普勒定律。 程式碼運行後,Grok動畫化了地球和火星兩顆行星,用綠色小球表示航天器在它們之間的旅程。

馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的插图15

演示是在現場生成的,囙此沒有驗證解決方案是否完全正確,但佩戴著一個展示地球火星轉移軌道的吊墜的馬斯克表示與實際解法接近。

馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的插图17

提前體驗了Grok 3的Andrej Karpathy表示Grok 3的Think模式實現了DeepSeek-R1、Gemini 2.0 Flash Thinking和Claude均未能實現的任務,但他表示頂尖的OpenAI模型,比如o1-pro同樣也能做到。

馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的插图19

在OpenAI、Gemini和perplexity之後,Grok也推出了自己的深度蒐索Deep Search。 xAI團隊將Deep Search定位為“下一代搜尋引擎”,是Grok Agent的第一代產品。 它不僅僅是一個簡單的資訊檢索工具,旨在幫助程式設計、研究和解答日常問題。

從演示來看,Grok 3的Deep Search也並未有太多獨特之處,更多強調它不同於傳統搜尋引擎的關鍵字匹配模式,能深入理解用戶査詢的語義和意圖,並從多個信息源獲取內容,交叉驗證以確保準確性,比傳統搜尋引擎更具可調控性,允許用戶指定來源。

馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的插图21

xAI團隊特別提到了Deep Search蒐索過程對用戶透明,能讓用戶瞭解AI的“思考”過程。

Andrej Karpathy認為Grok 3的DeepSearch大致相當於Perplexity的DeepResearch,但尚未達到OpenAI最近發佈的Deep Research的水准。

#02、滿血“Big Brain”模式

對於更複雜的査詢,利用“Big Brain”模式用更多的計算進行推理。 xAI將這些推理模型描述為最適合數學、科學和程式設計問題,看上去像是“滿血版”的另一種說法。

馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的插图23

xAI團隊演示了Grok 3在Big Brain模式下創造融合了Tetris(俄羅斯方塊)和Bejeweled(寶石迷陣)的全新遊戲。 xAI團隊解釋說,由於是在直播中即興生成,Grok有可能會犯一些小的編碼錯誤,導致遊戲運行不完全符合預期。。 在直播的測試中,生成的遊戲能够正常運行,但遊戲的顏色顯示有些問題,另外不清楚是否實現了俄羅斯方塊清除一整行的機制。

xAI團隊也在直播中坐實了將推出一個AI遊戲工作室的計畫,馬斯克在前一天也曾在X上發表了相關推文。

馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的插图25

#03、有錢可以任性,但想成為“最强”要做的還有很多

馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的插图27

Grok 3基於xAI的Colossus集羣,一期10萬張卡只用了122天建設,又用了92天擴張到20萬張,並使用了約20萬塊GPU來訓練Grok 3,並於一月初完成了預訓練。 此前馬斯克在X平臺上發帖稱,Grok 3的開發使用了比其前身Grok 2多“10倍”的計算資源,並且訓練數据集得到了擴展,據稱包括了法庭案件的檔案。 在直播中他表示,Grok 3的計算資源大約是Grok 2的15倍左右。

馬斯克還透露,xAI正在建設新的AI集羣,其功率將是當前集羣的五倍。

馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的插图29

另外關於語音模式,團隊沒有給出具體的發佈日期,但馬斯克表示“大概一周左右就會發佈”。

具體細節上,語音將直接由類似於Grok的模型生成,該模型能够理解所說的話並直接生成音訊。 這種管道使得AI能够記住細節,並更自然地繼續對話。 語音模式功能將在應用和API中同時提供。

xAI計畫在未來幾周內推出Grok-3的API。 這個API將包括Grok-3的推理模型和Deep Search功能。 xAI團隊對企業級應用場景非常期待,認為Grok-3的强大能力和Deep Search的加入,將為企業用戶帶來巨大價值。

馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的插图31

值得注意的是,xAI在近期還推出了只要同意共亯數據,最低充值5美元,就贈送150美元的API額度的活動。 顯然,xAI不在乎讓出這點羊毛,更看重的是通過這種管道獲取用戶和數據。

關於開源計畫,馬斯克表示將延續此前的策略,當Grok 3成熟且穩定時(大概會在幾個月內實現)將開源Grok 2。

馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的插图33

現時,用戶可以通過X和Grok的網站和App進行體驗,並非所有Grok 3的模型及相關功能都已上線(部分處於測試階段)。 Grok 3將首先向X平臺的Premium+訂閱者推出,此外還將推出一個名為Super Grok的獨立訂閱服務,為Grok用戶提供最先進的功能和最早的存取權限,每月30美元或每年300美元,SuperGrok解鎖了DeepSearch中更多査詢次數等功能,還提供了無限量的影像生成服務。

Grok 3的發佈標誌著xAI在AI領域的激烈競爭,不僅包括OpenAI和穀歌競爭,還面臨著來自新興中國企業的壓力。 比如,DeepSeek讓全球的AI公司調整策略,讓深度思考模型成為“標準”,還促使OpenAI最近免費開放了其推理模型,並且也開始放出開源的訊號。

馬斯克的Grok 3還不是“地球最聰明”的,但確實是最有錢的插图35

而對於馬斯克來說,OpenAI或許是xAI最大宿敵。 馬斯克於2023年創立了xAI,旨在成為OpenAI的替代者,並公開批評OpenAI計畫將自己重組為一家盈利性企業。

馬斯克還對OpenAI提起了兩項訴訟,指控其偏離了最初的創立原則,並提出以974億美元收購OpenAI的非營利部門,但該提案上周遭到了OpenAI董事會的拒絕。 薩姆·奧特曼表示,這一收購報價是“拖慢我們步伐”的策略。 儘管馬斯克曾參與OpenAI的創立,但自2018年離開董事會後,他對公司一直持責備態度。

而這兩家公司都在進行驚人的融資,估值不斷飆升。 據彭博社上周報導,馬斯克的xAI正在進行約100億美元的融資洽談,融資完成後,公司的估值將達到750億美元,而xAI上一次的估值為510億美元。 與此同時,OpenAI正在洽談籌集最多400億美元的資金,預計其估值將提升至3000億美元。

兩者借助資本所帶來的“財大氣粗”的特點也很明顯。 軟銀、 OpenAI、 甲骨文及阿布達比支持的MGX已於一月聯合宣佈計畫,在美國投資1000億美元,最終將投入5000億美元,用於建設資料中心及其他人工智慧基礎設施。 同時,戴爾科技公司也接近完成一項價值超過50億美元的交易,為xAI提供專為人工智慧優化的服務器。

從當前情况來看,OpenAI確實是xAI最主要的競爭對手。 兩者在科技、市場定位和融資策略上都存在直接競爭關係。 OpenAI憑藉其成熟的產品線和强大的市場份額仍然處於領先地位。 儘管Grok 3的發佈在某些名額上有所優勢,但從整體演示來看,並沒有太多創新,更多是補齊和追上行業頭部企業。 真正支撐Grok 3的,似乎更多是那20萬張GPU和源源不斷的資本支持,而非真正的科技突破。 這次發佈也並非馬斯克口中所說的“也許這是AI超越Grok的最後一次機會了。”

Grok 3發佈的開場,馬斯克再次介紹了xAI與Grok的使命:理解宇宙的本質,弄清楚正在發生的事情,尋找外星人的踪迹,探索生命的意義,瞭解宇宙的起源,並確定其終結管道。 xAI以追求真理為動力,成為終極的求真人工智慧。

然而,無論是實現這些宏大願景,還是面對更現實層面的競爭,僅憑“鈔能力”和榜單上的“最强”頭銜,顯然是不够的,要成為真正的“地球上最聰明AI”,馬斯克和它的xAI還有很長的路要走。

原文網址:https://zh.gushiio.com/ai/2313.html

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *