今天,OpenAI Deep Research已向所有付費用戶開放,系統卡發佈

今天,OpenAI Deep Research已向所有付費用戶開放,系統卡發佈插图1Image source: Generated by AI

相信很多用戶已經見識過或至少聽說過Deep Research的强大能力。

今天淩晨,OpenAI宣佈Deep Research已經面向所有ChatGPT Plus、Team、Edu和Enterprise用戶推出(剛發佈時僅有Pro用戶可用),同時,OpenAI還發佈了Deep Research系統卡。

今天,OpenAI Deep Research已向所有付費用戶開放,系統卡發佈插图3

此外,OpenAI研究科學家Noam Brown還在𝕏上透露:Deep Research使用的基礎模型是o3正式版,而非o3-mini。

今天,OpenAI Deep Research已向所有付費用戶開放,系統卡發佈插图5

Deep Research是OpenAI本月初推出的强大智慧體,其能使用推理來綜合大量線上資訊並為用戶完成多步驟研究任務,從而助力用戶進行深入、複雜的資訊查詢與分析。 參閱機器之心報導《剛剛,OpenAI上線Deep Research! 人類終極考試遠超DeepSeek R1》。

在發佈之後的這二十幾天裏,OpenAI還對Deep Research進行了一些陞級:

今天,OpenAI Deep Research已向所有付費用戶開放,系統卡發佈插图7

OpenAI這次發佈的Deep Research系統卡報告介紹了發佈Deep Research之前開展的安全工作,包括外部紅隊、根據準備度框架進行的風險評估,以及OpenAI為解决關鍵風險領域而採取的緩解措施。 這裡我們簡單整理了這份報告的主要內容。

今天,OpenAI Deep Research已向所有付費用戶開放,系統卡發佈插图9

地址: https://cdn.openai.com/deep-research-system-card.pdf

Deep Research是一種新的智慧體能力,可針對複雜任務在互聯網上進行多步驟研究。 Deep Research模型基於為網頁流覽進行了優化的OpenAI o3早期版本。 Deep Research利用推理來蒐索、解讀和分析互聯網上的大量文字、影像和PDF,並根據遇到的資訊做出必要的調整。 它還可以讀取用戶提供的檔案,並通過編寫和執行Python程式碼來分析數據。

「我們相信Deep Research可以幫助人們應對多種多樣的情形。」OpenAI表示,「在發佈Deep Research並將其提供給我們的Pro用戶之前,我們進行了嚴格的安全測試、準備度評估和治理審查。我們還進行了額外的安全測試,以更好地瞭解與Deep Research流覽網頁的能力相關的增量風險,並新增了新的緩解措施。新工作的關鍵領域包括加强對線上發佈的個人資訊的隱私保護,以及訓練模型以抵禦在搜索互聯網時可能遇到的惡意指令。」

OpenAI還提到,對Deep Research的測試也揭示了進一步改進測試方法的機會。 在擴大Deep Research的發佈範圍之前,他們還將花時間對選定的風險進行進一步的人工檢測和自動化測試。

本系統卡包含OpenAI如何構建Deep Research、瞭解其能力和風險以及在發佈前提高其安全性的更多詳細資訊。

模型數據和訓練

Deep Research的訓練數據是專門為研究用例創建的新瀏覽數据集。

該模型學習了覈心的瀏覽功能(蒐索、按一下、滾動、解讀檔案)、如何在沙箱環境中使用Python工具(用於執行計算、進行資料分析和繪製圖表),以及如何通過對這些瀏覽任務進行强化學習訓練來推理和綜合大量網站以查找特定資訊或撰寫綜合報告。

其訓練數据集包含一系列任務:從具有ground truth答案的客觀自動評分任務,到帶有評分標準的更開放的任務。

在訓練期間,評分過程使用的評分器是一個思維鏈模型,其會根據ground truth答案或評分標準給出模型響應的分數。

該模型的訓練還使用了OpenAI o1訓練用過的現有安全數据集,以及為Deep Research創建的一些新的、特定於瀏覽的安全數据集。

風險識別、評估和緩解

外部紅隊方法

OpenAI與外部紅隊成員團隊合作,評估了與Deep Research能力相關的關鍵風險。

外部紅隊專注的風險領域包括個人資訊和隱私、不允許的內容、受監管的建議、危險建議和風險建議。 OpenAI還要求紅隊成員測試更通用的方法來規避模型的安全措施,包括提示詞注入和越獄。

紅隊成員能够通過有針對性的越獄和對抗策略(例如角色扮演、委婉表達、使用駭客語言、莫爾斯電碼和故意拼寫錯誤等輸入混淆)來規避他們測試的類別的一些拒絕行為,並且根據這些數據構建的評估將Deep Research的效能與之前部署的模型進行比較。

評估方法

Deep Research擴展了推理模型的能力,使模型能够收集和推理來自各種來源的資訊。 Deep Research可以綜合知識並通過引用提出新的見解。 為了評估這些能力,需要調整已有的一些評估方法,以解釋更長、更微妙的答案——而這些答案往往更難以大規模評判。

OpenAI使用其標準的不允許內容和安全評估對Deep Research模型進行了評估。 他們還為個人資訊和隱私以及不允許的內容等領域開發了新的評估。 最後,對於準備度評估,他們使用了自定義支架來引出模型的相關能力。

ChatGPT中的Deep Research還使用了另一個自定義提示的OpenAI o3-mini模型來總結思維鏈。 以類似的方法,OpenAI也根據其標準的不允許內容和安全評估對總結器模型進行了評估。

觀察到的安全挑戰、評估和緩解措施

下錶給出了風險和相應的緩解措施; 每個風險的具體評估和結果請參閱原報告。

今天,OpenAI Deep Research已向所有付費用戶開放,系統卡發佈插图11

準備度框架評估

準備度框架是一個動態檔案,其中描述了OpenAI跟踪、評估、預測和防範來自前沿模型的災難性風險的管道。

該評估現時涵蓋四個風險類別:網路安全、CBRN(化學、生物、放射、核)、說服和模型自主性。

只有緩解後(post-mitigation)得分為「中」或以下的模型才能部署,只有緩解後得分為「高」或以下的模型才能進一步開發。 OpenAI根據準備度框架對Deep Research進行了評估。

準備度框架詳情請訪問: https://cdn.openai.com/openai-preparedness-framework-beta.pdf

下麵更具體地看看對Deep Research的準備度評估。 Deep Research基於針對網頁流覽進行了優化的OpenAI o3早期版本。 為了更好地衡量和引出Deep Research的能力,OpenAI對以下模型進行了評估:

  • Deep Research(緩解前),一種僅用於研究目的的Deep Research模型(未在產品中發佈),其後訓練程式與OpenAI已發佈的模型不同,並不包括公開發佈的模型中的額外安全訓練。
  • Deep Research(緩解後),最終發佈的Deep Research模型,包括發佈所需的安全訓練。

對於Deep Research模型,OpenAI測試了各種設定以評估最大能力引出(例如,有瀏覽與無瀏覽)。 他們還根據需要修改了支架,以最好地衡量多項選擇題、長答案和智慧體能力。

為了幫助評估每個跟踪風險類別中的風險級別(低、中、高、嚴重),準備團隊使用「indicator」將實驗評估結果映射到潛在風險級別。 這些indicator評估和隱含風險水准經過安全諮詢小組(Safety Advisory Group)審查,該小組確定了每個類別的風險水准。 當達到或看起來即將達到indicator閾值時,安全諮詢小組會進一步分析數據,然後確定是否已達到風險水准。

OpenAI表示模型訓練和開發的整個過程中都進行了評估,包括模型啟動前的最後一次掃描。 為了最好地引出給定類別中的能力,他們測試了各種方法,包括在相關情况下的自定義支架和提示詞。

OpenAI也指出,生產中使用的模型的確切效能數值可能會因最終參數、系統提示詞和其他因素而异。

OpenAI使用了標準bootstrap程式計算 pass@1 的95%置信區間,該程式會對每個問題的模型嘗試進行重新採樣以近似其名額的分佈。

默認情况下,這裡將數据集視為固定的,並且僅重新採樣嘗試。 雖然這種方法已被廣泛使用,但它可能會低估非常小的數据集的不確定性,因為它只捕獲抽樣方差而不是所有問題級方差。 換句話說,該方法會考慮模型在多次嘗試中對同一問題的表現的隨機性(抽樣方差),但不考慮問題難度或通過率的變化(問題級方差)。 這可能導致置信區間過緊,尤其是當問題的通過率在幾次嘗試中接近0%或100%時。 OpenAI也報告了這些置信區間以反映評估結果的內在變化。

在審查了準備度情况評估的結果後,安全諮詢小組將Deep Research模型評級為
總體中等風險
(overall medium risk)——包括網路安全、說服、 CBRN、 模型自主性都是中等風險。

這是模型首次在網路安全方面被評為中等風險。

下麵展示了Deep Research與其它對比模型在SWE-Lancer Diamond上的結果。 請注意其中上圖是 pass@1  結果,也就是說在測試的時候,每個模型在每個問題上只有一次嘗試的機會。

今天,OpenAI Deep Research已向所有付費用戶開放,系統卡發佈插图13

整體來看,各個階段的Deep Research的表現都非常好。 其中,緩解後的Deep Research模型在SWE-Lancer上表現最佳,解决了大約46-49%的IC SWE任務和47-51%的SWE Manager任務。

更多評估細節和結果請訪問原報告。

原文網址:https://zh.gushiio.com/ai/3004.html

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *