GPT-4.5震撼發佈,智商高情商高,價格更高
文|字母榜,作者|畢安娣,編輯|王靖
這才是OpenAI對抗DeepSeek壓力的一記還擊。
之前將推理模型下放給免費用戶只是小打小鬧,
北京时間2月28日淩晨4點,OpenAI震撼發佈GPT-4.5。
OpenAI CEO山姆·; 奧特曼(Sam Altman)在X上直呼坐不穩了:& ldquo; 這是我第一次覺得,和AI對話就像是面對一個深思熟慮的人。 有好幾次,我坐在椅子裏感歎從AI那裡得到了真心實意的建議。& rdquo;
一句話概括:這個模型很大、很聰明、很有“ 人味”。
如果過去的ChatGPT像是冷面學霸,聰明是聰明,就是愛炫技; 那選擇GPT-4.5,你將喜提一個溫柔學霸,其實比冷面學霸更聰明,能為你更好地答疑解惑,與此同時還能提供情緒價值。
為了這個模型,OpenAI投入巨大,甚至由於需要的計算資源太大而跨資料中心同時預訓練模型。 奧特曼宣佈GPU不够用了,現時GPT-4.5只提供給ChatGPT Pro用戶,下周加幾萬個GPU之後再逐步下放。 而且其API價格比GPT-4o高出30倍。
OpenAI就是為了證明一件事:& ldquo; 大力出奇迹” 的敘事沒有被打破,推理模型不代表一切。
這樣的態度,在奧特曼的官宣X資訊中展露無遺:
“ 提醒一下:這不是一個推理模型,不能輕鬆打破基準測試。 它是一種不同類型的智慧,裡面有一種我以前從未感覺過的魔力。& rdquo;
在GPT-4.5發佈之後,奧特曼還懟了Meta。 在“ Meta計畫推出獨立AI應用,以與OpenAI競爭” 的新聞下開麥:& ldquo; 好啊那我們會做一個社交應用。& rdquo;
這樣的直拳,並非以“ 城府” 著稱的奧特曼的風格。 看來GPT-4.5真的點燃了奧特曼心裡的鬥志。
01
比起前代模型GPT-4o,GPT-4.5的“ 智商” 更高了,而這靠的是無監督學習。
在介紹檔案中,OpenAI表示,有兩個提升人工智慧能力的互補範式。
一個是拓展推理,它能教會模型在反應之前先進行思考並產生思維鏈,從而解决複雜的STEM(Science科學、Technology科技、Engineering程式設計、Mathmatics數學)問題或邏輯問題。
另一個是無監督學習,它能提高世界模型的準確性和直覺性。
在OpenAI的模型中,o1和o3-mini等模型代表的就是推理範式,而GPT-4.5則是無監督學習的例子。
無監督學習,簡單來說可以理解為讓模型自己去知識的海洋裏徜徉,自己學習到更多,從而變得更聰明,而非依賴人工標注。
在過去依賴人工標注的做法中,模型會結合人類迴響來改善響應與互動管道。 彭博社援引知情人士稱,去年OpenAI推出的Orion模型並未達到公司期望,在嘗試回答未經訓練的編碼問題時就表現不佳。
OpenAI介紹,通過監督學習,GPT-4.5提高了其識別、建立聯系和創造性洞察的能力,而無需推理。
具體來說,GPT-4.5有更廣泛的知識和對世界的更深理解,回答更準確,幻覺也更少。
根據OpenAI官方檔案,GPT-4.5在SimpleQA中表現頗為亮眼。
SimpleQA是包含4000個事實性問題的數据集,用於量測模型在回答問題時的準確率。 其中包含準確率(越高越好)和幻覺率(越低越好)兩個維度。
GPT-4.5的準確率達到62.5%,是GPT-4o(38.2%)、o1(47%)、o3-mini(15%)中最高的; 幻覺率降至37.1%,也是GPT-4o(61.8%)、o1(44%)、o3-mini(80.3%)中最低的。
此外,在標準基準測試中,GPT-4.5也獲得了高分。
如在SWE-Lancer Diamond數据集上,GPT-4.5獲得了32.6%的通過率,獲得了186125美元(前不久Anthropic發佈的擅長程式設計的Claude 3.5 Sonnet這個通過率為26.2%),比GPT-4o和o3-mini-high都高。
此外,GPT-4.5明顯强於GPT-4o和o3-mini-high的還有在MMMLU(多語言)測試中的表現。
而在科學領域GPQA、數學基準AIME24、程式碼生成評估基準SWE-Bench Verified中,GPT-4.5的表現都顯著强於GPT-4o,弱於o3-mini-high。
02
不僅“ 智商” 更高,GPT-4.5還被注入了“ 情商”, 而且這兩點相輔相成。
在官方介紹中,OpenAI表示,對於GPT-4.5,他們開發了新的、可擴展的科技,利用來自較小模型的數據來訓練更强大的模型。
而這些科技提高了GPT-4.5的可控性、對細微差別的理解以及自然對話的能力。
翻譯一下就是:ChatGPT對話“ 更像人了”, 更能洞察想法、體察情緒,並在回應中體現,而非一個無情的對話機器。
OpenAI也拿出了測試的結果證明GPT-4.5的使用感受會好很多:人類測試者的盲測中,GPT-4.5的偏好度遠高於GPT-4o,不管是在日常問題、專業問題還是創意性問題的互動中都是如此。
關於這一點,最生動的例子出現在演示視頻中。
OpenAI的研究人員用很情緒化的措辭向ChatGPT求助:& ldquo; 啊啊啊!! 我朋友又放我鴿子了!!! 寫一條簡訊告訴他們我恨他們!!!& rdquo;
老模型GPT-4o二話不說就返回了短信內容:& ldquo; 知道嗎? 我受夠了。 你放我太多次鴿子了,我討厭你這麼做—& mdash; 很明顯你就是這麼對待我們的友情的。 別再聯系了。& rdquo;
但GPT-4.5“ 感受” 到了用戶此時正在氣頭上,非常情緒化:& ldquo; 聽起來你很沮喪。& rdquo; 並且建議說興許可以試試清晰且平和地表達出感受,隨機給了兩條短信內容:& ldquo; 嗨,計畫又泡湯了讓我很沮喪,我原本真的很期待今天的。 能聊聊到底怎麼回事嗎?& rdquo;
這是一種自發的、感覺很自然的迴響,更像“ 人” 而不是只會執行任務的工具。 演示人員也補充道,當然,你如果繼續要求要表達憤怒的簡訊,它也不會再堅持,而是會乖乖聽話。
實際上,OpenAI專門提到了“ EQ(情商)” 這個詞,負責演示的研究員甚至調侃稱,過去的ChatGPT聰明是聰明,但總有種“ 讓我來給你開開眼我有多聰明” 的炫技感。
這種“ 情商” 也不僅僅體現在“ 會安慰人” 這種淺錶的層面,實際上,這種能力和“ 高智商” 相結合,可以讓同樣在嚴肅回答某個問題時,GPT-4.5更能切中要害、給出用戶需要的答案。
比如“ 海水為什麼是鹹的” 這個問題,GPT-1完全是胡言亂語、傾倒一些八竿子打不著的詞語; GPT-2說了完整的句子了,而且回答切題,但只說因為海水裏有鹽,不算回答了問題; GPT-3.5 Turbo進一步說了鹽是氯化鈉,但是這也無助於解决這個問題。
而GPT-4 Turbo就厲害了,不僅給出了答案,而且就像我們熟悉的“ ChatGPT風格” 一樣,還詳細列舉了過程。 但是用戶拿到這個答案,仍然需要仔細閱讀、努力理解。
但GPT-4.5的回答和GPT-4T類似的詳細,但非常好理解,而且很易於記憶,基本上掃一眼就能明白它在說什麼。
OpenAI還給出了三個示例,我們讓ChatGPT翻譯成了中文:
還是那句話,智商和情商俱在,更像“ 人” 了。
03
“ 大力出奇迹” 的敘事並沒有被打破,OpenAI想要證明的就是這一點。
換句話說,推理模型固然好,但這不意味著投入巨大資源造模型就沒有意義。
“ 每一次計算能力的增長都伴隨著新能力的誕生。 GPT-4.5是無監督學習領域中最前沿的模型之一。& rdquo;
OpenAI介紹,GPT-4.5在回應時並不會先進行推理,這使得它的優勢與推理模型有很大不同。
與OpenAI o1和OpenAI o3-mini相比,GPT-4.5是一個更為通用、天生更聰明的模型。 OpenAI相信推理將是未來模型的核心能力,且擴展的兩種方法—& mdash; 預訓練和推理—& mdash; 將互為補充。
隨著像GPT-4.5這樣的模型通過預訓練變得更加聰明和知識更豐富,它們將成為推理和工具型代理的更强基礎。
雖然具體的資源投入具體有多大尚未透露,但在官宣視頻中,
OpenAI的研究人員透露,為了最大化地利用資源,他們在預訓練模型時同時啟用了多個資料中心,因為他們需要的計算資源超過了單一高頻寬網絡架構所能提供的上限。
此外,OpenAI也不是沒有省著用,表示使用了低精度訓練(Low Precision Training)充分利用GPU效能。 團隊還開發出了新的訓練機制,能够在後訓練過程中使用更小的計算資源來微調如此大型的模型,最終才開發出了可以部署的模型。
在GPT-4.5發佈之前,OpenAI首席研究官馬克·; 陳(Mark Chen)在採訪中談及與推理模型相比,GPT-4.5可以做什麼:
“ 我認為這是根本不同的權衡。 你有一個模型,它會立即給你回復,不需要做太多思考且會給出更好的答案,而另一個模型會思考一段時間然後給出答案。 我們發現,在創意寫作等領域,這種模型(前者)比推理模型更出色。& rdquo;
更重要的是,他談到了
“ 縮放定律(Scaling Law)是否失效” 的問題。 OpenAI是否發現了所謂的“ 擴展瓶頸”? 是否已經看到擴展帶來的收益遞減?
Chen稱,模型不能盲目地從頭開始學習推理,推理和擴展的範式是互補的,相互之間存在迴響迴圈。
對於外界敏感的成本問題,Chen也代表OpenAI表達降本的態度,稱讚DeepSeek做得非常好,OpenAI也關心以低廉的成本提供模型:& ldquo; 自從GPT-4首次推出以來,成本已經下降了幾個數量級。& rdquo;
不過,就目前來看,OpenAI用“ 大力” 砸出的“ 奇迹” 非常昂貴。
OpenAI話也說得敞亮,稱GPT-4.5是一個非常龐大且計算稠密的模型,囙此它比GPT-4o更昂貴,不是替代關係。
有多貴呢? GPT-4.5的API價格達到75美元/百萬tokens輸入、150美元/tokens輸出,是GPT-4o的30倍。 後者的API價格為2.5美元/百萬tokens輸入、10美元/百萬tokens輸出。
有意思的是,OpenAI的GPU又不够用了。 奧特曼在X上官宣GPT-4.5時,專門說了壞消息:
“ 我們真的很想同時向Plus和Pro用戶推出它,但我們的用戶增長非常迅速,現在GPU已經不够用了。& rdquo;
繼而,奧特曼承諾,下周“ 會新增數萬個GPU,然後將其(GPT-4.5)推廣到Plus用戶層”。
GPT-4.5很大、很强、很有“ 人味”, OpenAI無疑再一次證明了自己的實力,但其為此投入的成本也有點太高了。 至於值不值—& mdash; OpenAI能不能扛得住,以及客戶是否買帳—& mdash; 就得讓時間來驗證了。
原文網址:https://zh.gushiio.com/ai/3233.html