拿20萬塊GPU,馬斯克上演「AI復仇記」
他的野心能成嗎?
文|矽基研究室kiki
「一個追求極致真理的AI。」
北京时間2月18日中午,馬斯克和xAI發佈了其最新旗艦模型Grok-3系列和最新聊天機器人Grok,憑藉著馬斯克的强大光環,儘管xAI作為這場AI競賽中的後發者,但其一舉一動都備受關注。
在不到一個小時、百萬人圍觀的發佈會中,xAI展現了Grok-3令人印象深刻的模型能力—& mdash; 從馬斯克的最强數據集羣到直接的評測資料對比,似乎在回應他此前對Grok-3的評估—& mdash; 「地表最强AI」。
馬斯克和xAI發佈最新旗艦模型圖源: xAI
但據前OpenAI聯合創始人Anderj Karpathy的評估,「Grok-3+Thinking」感覺與OpenAl最强模型o1-pro相差無幾,但取得同等能力需要加上一個前提:Grok-2和Grok-3之間,才過去了六個月而已。& ldquo; 達到最先進領域的時間表是前所未有的”。 Anderj Karpathy說。
Grok-3的發佈符合馬斯克的競爭觀—& mdash; 他總是習慣用最快的時間表、推動團隊完成創新,這也是他擅長講述的故事—& mdash; 用巨大的算力(20萬張GPU,Grok-3使用了超出DeepSeek-V3百倍的算力)、規模小的團隊(xAI最初成立只有12人),做不下牌桌的人。
一、「地表最强AI」Grok 3表現如何?
直播中xAI團隊將Grok-2形容為「玩具」,這當然是為了突出Grok-3的强大。
xAI發佈的Grok-3是一個模型系列,包括了推理模型和mini模型。
在模型能力上,Grok-3在推理、數學、程式碼、數學等多方面,都取得了新的突破,Grok-3的推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在AIME上取得了96分,在GPQA上取得了85分,跑贏了o3 mini、DeepSeek-R1等。
Grok-3在數學、科學和程式碼領域的表現圖源: xAI
在AIME 2025最新的數學基準測試中,Grok-3 Reasoning超越了o3-mini的最佳版本o3-mini high。
Grok-3在AIME 2025最新的數學基準測試的表現圖源: xAI
在大模型競技場LMSYS上,Grok-3早期版本(巧克力)在總榜上位列排名第一,也是首個評分突破1400分的模型,尤其在「編碼」類別中,Grok-3超越了o1和Gemini-thinking等頂級推理模型。
Grok-3位列LMSYS第一圖源: lmarena.ai
xAI現場演示了Grok-3的推理和創意程式設計能力,例如讓Grok-3生成一段從地球發射、著陸火星再到返回地球的3D動畫程式碼,還有涉及推理能力的升級版俄羅斯方塊小遊戲。
用Grok生成程式碼圖源: xAI
這些模型核心能力陞級也被馬斯克融進了新的Grok應用中,以Agent形式集成了DeepSearch、Think和Big Brain三種模式,針對用戶蒐索場景,提供程式設計、數學等高階能力。 DeepSearch可以聯網和掃描X來分析資訊、提供査詢和摘要,Big Brain則可以進行更多、更仔細的分佈推理程式設計。
Grok具備DeepSearch、Think和Big Brain三種模式圖源: xAI
除此以外,馬斯克還透露後續語音互動、多模態互動等新功能將上線,xAI還將成立一個AI遊戲社區,馬斯克此刻曾透露將開設AI遊戲工作室。
Grok-3不會馬上向所有用戶開放,針對X的Premium+訂閱用戶就首先獲解鎖,在Grok獨立的APP端也會推出會員服務「SuperGrok」—& mdash; 價格為每月30美元或每年300美元。
會員服務「SuperGrok」圖源: xAI
今天早些時候獲得Grok-3的早期使用權的前OpenAI聯合創始人Anderj Karpathy表示Grok-3是擁有最先進的思考模型之一,效能與o1-pro相當,& ldquo; 我們需要實際的、真實的評估來觀察。& rdquo; 他舉了一個例子,他通過Grok-3 Think模式上傳了GPT-2論文,在問了一堆簡單的查找問題,要求其估計訓練GPT-2所需的訓練flops數量,這考驗模型將查找、數學和知識相結合,根據他的測試結果,GPT-4o未能完成這項任務,o1 pro也失敗了,但Grok-3 with Thinking很好地解决了這個問題。
Anderj Karpathy的評估圖源:@ Anderj Karpathy
過去,Grok還給人留下的印象是,更幽默的,有意思的AI,直播中xAI也強調了這一點,但據Anderj Karpathy測試,模型的幽默感似乎沒有明顯改善,對「複雜的倫理問題」也過於敏感。
客觀來看,作為後發者,xAI用不到一年時間推出Grok-3,再度印證了馬斯克「大力出奇迹」的優勢,但評估模型實際能力和落地依舊要看後續的產品功能情况。
二、馬斯克的AI籌碼
在全球大模型的競逐中,馬斯克寄希望於xAI走一條典型的「後發先至」路線。
在發佈Grok-3前,xAI在過去兩年之間內對Grok系列的旗艦模型進行了三次大反覆運算,在模型能力上,Grok系列在推理、閱讀理解、數學、科學、寫程式碼等方面都呈現出不錯的表現。 而在模型輕量化、多模態方向上,xAI也曾發佈首個多模態模型Grok-1.5V和Grok-2mini,不斷豐富其模型家族。
在產品互動形式和商業模式上,馬斯克也一直針對Grok進行優化,在產品互動形式上,一方面更新介面、功能和產品組件。 如將X的實时洞察和網絡蒐索結合,推出新的引文功能,提升回答的準確性。 今年1月,不同於內嵌於X內部,xAI還宣佈上線獨立的iOS應用程序,並圍繞體育、金融等場景推出新內容組件,提升用戶內容體驗。
而在商業模式上,通過免費和開放API,降低模型使用門檻,去年年底,xAI宣佈Grok-2模型對X平臺用戶免費開放(當然也有使用限制),同步推出了企業API公開測試版。 「矽基研究室」査詢發現,現時xAI提供Grok-2-1212和Grok-2-vision-1212兩種模型調用,以Grok-2-1212為例,其API定價為2.00美元/百萬輸入、10美元/百萬輸出,同時xAI還推出了資料共用計畫,為參與團隊提供每月獲得150美元的免費API積分。
xAI API定價圖源: xAI
直播中,xAI稱Grok-3模型將與DeepSearch功能一起出現在xAI的企業API中,對於人們關注的開源問題上,當Grok-3成熟穩定時,可能在幾個月內會開源Grok -2。
在大模型競爭、估值水漲船高的今天,堅信Grok和馬斯克能突圍的人,相信的是Grok自身的獨特優勢,即數據、卡、錢和「反OpenAI故事」。
首先,是數據。 Grok與X高度綁定,是一個閉環的內容生態,高品質的數據和穩定的場景,這本身就是先天優勢。 馬斯克多次強調,Grok通過合成數據,繞過了困擾其他AI模型的數據隱私和知識產權相關的法律挑戰,同時確保用戶的數據隱私安全。
其次,是卡,即算力。 特斯拉和xAI儲備了大量的英偉達H100系列晶片,馬斯克此前曾質疑機构給將「Meta列為囤積全球最多的H100 GPU」的排行榜,指出「如果計算正確,特斯拉應該是第二名,xAI將是第三名」,他還用122天將一個家電廠房改造為集合10萬張H100晶片的超級算力集羣,就連英偉達創始人黃仁勳也忍不住感歎:& ldquo; 在如此短的時間裏內完成,這簡直是超人的成就”。
直播演示中,馬斯克在Grok-3發佈前,也率先展示他的最强數据集群,團隊表示,他們在今年2月遇到很多問題,如冷卻和能耗等,也浪費了很多算力,但最終還是以Grok-2的10倍算力資源,用六個月時間推出了Grok-3。
馬斯克的數據集羣圖源: xAI
xAI也似乎不缺錢,據彭博社報導,xAI正以750億美元的估值籌集100億美元,紅杉資本、Andreessen Horowitz和Valor Equity Partners等現有投資者,均參與了此次談判。
再者,還有「人」,xAI的團隊核心成員曾在Google DeepMind、特斯拉、OpenAI和微軟等公司工作。
出現在直播中的兩位華人為Jimmy Ba和Yuhuai Wu圖源: xAI
最後,馬斯克「反OpenAI」的故事也得到了不少人的擁躉。 一直以來,馬斯克的人工智慧觀就是反OpenAI而行,他頻繁以政治中立、安全來強調xAI的不同。
三、Grok野心能成嗎?
不過,馬斯克野心勃勃的計畫背後,Grok也面臨「內憂外患」。
首先,就Grok自身而言,一方面,就B端,企業API調用上,Grok現時還沒有完備的服務企業的能力,而我們看到在服務企業上,用編碼等能力吸引企業級客戶,OpenAI和Anthropic均有更快的進展。 據The information此前報導,Anthropic從使用其模型進行軟體發展和程式碼生成的客戶那裡獲得的年化收入增長了10倍。 另一方面在C端,現時Grok和X的集成度還不够多,特別是尚未上線的語音、視頻等功能。
有業內人士產生的困惑是,在OpenAI已集成了語音、視頻等功能下,包括豆包在內的中國公司也做得不錯,Grok還能在這方面和X聯合作出哪些新的創意?& ldquo; 如果只是一個TTS(文字轉語音技術),那不會有改變”。 (雖然直播中,xAI說不會是TTS)。
其次,在外部,在DeepSeek等中國模型公司的衝擊下,更激烈的競爭已經開啟,OpenAI已發佈GPT-4.5和GPT-5路線圖,Anthropic也宣佈將推出Claude 4系列。
某種程度上,在AI上的探索和嘗試反映出的是馬斯克從一而終的「競爭觀」—& mdash; 用令人驚訝的時間表,推著團隊不顧一切的前進,從而逼近自己的預期目標,這在特斯拉、SpaceX身上都有過驗證。
在社交媒體上,人們大多對馬斯克的嘗試表示興奮,這也發生在DeepSeek所掀起的浪潮中—& mdash; 一比特人工智慧創業者這樣寫:& ldquo; 新的LLM比賽已經火爆起來了,一周後誰會贏?& rdquo;
未經授權不得隨意轉載,藍鯨號保留追究相應責任的權利
原文網址:https://zh.gushiio.com/gushi/1976.html