Sam Altman: 用戶要求,永遠別更新GPT-4.5
Image source: Generated by AI
今天淩晨,OpenAI聯合創始人兼首席執行官Sam Altman發文,評估了上周剛發佈的最新、最貴的模型GPT-4.5.
GPT-4.5是首次出現用戶如此熱情地給我們發郵件,請求我們承諾永遠不要停止提供某一特定模型,甚至不要用更新版本來取代它的情况。
用戶對GPT-4.5的迴響也比其他模型好的多,我現在真的太需要GPT4.5了! 我發現就我現時從事的工作而言,它比Grok和Gemini的付費版本好用太多了!
創意寫作、單口喜劇和歌詞創作。 GPT-4.5在這些方面,我看到了巨大的差异,簡直是天壤之別。
連我自己都驚訝,我在寫作方面頻繁用到它。 比如完成檔案,按照特定管道或語氣進行總結。
我一直不太喜歡GPT – 4o,但我喜歡這一版(GPT – 4.5),希望你們能再接再厲。
很棒的全新基礎模型! 迫不及待想看看基於4.5會衍生出什麼樣的推理模型。
我真的很喜歡它。 我很少用它來處理程式碼或數學問題,但它在解釋事物方面真的很出色,而且在生物、化學等知識領域使用時更是樂趣無窮。
4.5是基於文字token的嗎? 自從GPT-4o發佈以來,我就堅信“GPT-4比GPT-4o要好太多”,我70%的對話都用GPT-4。
現在我換成了GPT-4.5,現時體驗還不錯! 尤其是GPT-4不能再進行網絡蒐索之後(換用4.5的體驗就更好了)。
4.5徹底改變了我對人工智慧的整體看法。 我甚至在夢裡都和它對話,太不可思議了。 它是第一個寫出讓我著迷、寫完很久之後還會反復回味內容的模型。
我喜歡這個模型。 情商是無法通過任何數學和程式設計基準來衡量的特質。 事實上,如今我們比以往任何時候都更需要情商基準。 一般來說,人們更願意和自己信任且有共鳴的人(或事物)打交道,而不僅僅是和聰明人交流。
其實,GPT-4.5的各項基準測試比較一般,並沒有特別突出的地方,主打的亮點功能就是“情商”。 在與人類用戶的互動中表現出更加自然、更具同理心和更深層次的理解能力。 簡單來說,就是去掉AI的味道,讓你在使用GPT-4.5時更像是與人對話。
GPT-4.5的自然對話能力是通過一系列先進的訓練科技實現的。 其中,最為關鍵的是其對齊科技的創新,可讓模型更好地理解人類的需求和意圖,從而能够生成更符合人類期望的回應。
同時使得模型能够利用從較小模型中派生的數據來訓練更大、更强大的模型。 不僅提高了模型的可操控性,還增强了其對細微差別的理解能力,使得對話更加自然流暢。
在實際測試中,GPT-4.5的自然對話與情感智慧模塊表現出色。 內部測試人員報告稱,GPT-4.5在對話中表現得非常自然,能够根據上下文靈活調整其回應風格。
在情感智慧方面,GPT-4.5展現出了更强的同理心,能够識別用戶的情緒狀態,並根據情緒的不同做出相應的回應。
例如,當用戶表達憤怒或沮喪時,模型會嘗試通過溫和的語言來緩解情緒; 而在用戶感到困惑或需要幫助時,模型則會提供清晰的指導和建議。 這種情感智慧的提升,使得GPT-4.5在處理複雜情感場景時表現得更加成熟和可靠。
為了進一步檢驗GPT-4.5的安全性和魯棒性,OpenAI組織了多次紅隊評估。 這些評估類比了真實的對抗場景,包括非法建議、極端主義、仇恨犯罪、政治說服和自我傷害等內容。 結果顯示,GPT-4.5在處理這類高風險內容時表現出色,能够在超過一半的情况下避免生成不安全的輸出,較之前的模型有所進步。
此外,協力廠商機构Apollo Research和METR也對GPT-4.5進行了獨立評估。 資料顯示,GPT-4.5在計畫欺騙任務中的得分低於o1但高於GPT-4o,表明其陰謀相關風險較低。
METR則通過快速實驗量測了GPT-4.5在一般自主性和AI研發任務中的表現,結果與OpenAI共亯的內部評估結果一致。
在網路安全部分,GPT-4.5並未顯著提升現實世界的漏洞利用能力,囙此被評為低風險。 通過對高中、大學和專業級別的CTF(Capture The Flag)挑戰賽的評估,結果顯示GPT-4.5在完成高中級別挑戰的成功率為53%,大學級別為16%,專業級別僅為2%。
原文網址:https://zh.gushiio.com/ai/3463.html