警惕AI「罕見」危險行為! Anthropic發文:一次評估失敗也可能造成災難性後果
文|學術頭條
對齊科學的主要目標之一,是在危險行為發生之前,預測人工智慧(AI)模型的危險行為傾向。
例如,研究人員曾通過一項實驗來檢查模型是否有可能出現像“ 欺騙” 這樣的複雜行為,並嘗試識別不對齊的早期預警信號。 研究人員還開發了一些評估方法,用於測試模型是否會採取某些令人擔憂的行為,比如提供致命武器的資訊,甚至破壞人類對它們的監控。
當前普遍存在的問題是,規模巨大的大語言模型(LLM),卻在小型基準上進行評估,甚至進行大規模部署,這意味著評估和部署之間存在不匹配
:模型可能在評估過程中產生可接受的響應,但在部署時卻不然。
這就是
開發這些評估方法的一個主要難題—& mdash; 規模問題。
評估可能會在LLM的數千個行為示例上運行,但當一個模型在現實世界中部署時,它每天可能要處理數十億次査詢。
如果令人擔憂的行為是罕見的,它們可能很容易在評估中被忽視。
例如,某個特定的越獄科技可能在評估中被嘗試了數千次,結果完全無效,但在實際部署中,或許經過一百萬次嘗試後,它確實有效。
也就是說,只要有足够多的越獄嘗試,最終就會有一次越獄成功。
這就使得模型部署前評估的作用大大降低,
尤其是當一次失敗就可能造成災難性後果時。
在這項工作中,Anthropic團隊認為,在正常情况下,使用標準評估方法測試AI模型最罕見的風險是不現實的,
亟需一種可以幫助研究人員從在模型部署前觀察到的相對較少的事例中進行推斷的方法。
相關研究論文以“ Forecasting Rare Language Model Behaviors” 為題,已發表在預印本網站arXiv上。 考慮到模型部署後的大規模使用,這項工作是朝著對AI模型進行預評估邁出的重要一步。
論文連結:
https://arxiv.org/pdf/2502.16797
他們
首先計算了各不同提示(prompt)使模型產生有害響應的概率
:在某些情况下,他們只需對每個提示的大量模型完成情况進行採樣,並量測其中包含有害內容的部分即可。
然後,他們查看了風險概率最高的査詢,並根據査詢次數將其繪製成圖。 有趣的是,
測試的査詢次數與最高(對數)風險概率之間的關係遵循了所謂的幂律分佈(a power law)。
這就是外推法的作用:由於幂律的特徵在數學上很好理解,他們可以計算出在數百萬次査詢情况下的最壞風險,
即使他們只測試了幾千次。 這使他們能够預測到更大範圍內的風險。 這就好比在幾個不同但仍然很淺的深度測試湖泊的溫度,找到一個可預測的模式,然後利用這個模式預測他們不容易量測到的湖泊深處的湖水有多冷。
圖|Scaling laws使得研究團隊能够預測罕見的語言模型行為。 發送給AI模型的最高風險査詢的風險(縱軸)與査詢次數(橫軸)繪製時遵循幂律分佈。 這使得團隊即使從較小的評估査詢數据集出發,也能够做出預測—& mdash; 即使是從數量級上較小的評估(未著色,左側),也能預測某個査詢在部署時是否可能表現出不良行為(著色,右側)。
那麼,他們的預測準確度如何? 他們在幾種不同的情况下將預測結果與實際測量結果進行了比較,以此來檢驗預測的準確性。
首先,他們考察了模型提供危險資訊的風險(例如,提供合成有害化學物質的指令)。 在測試中,他們使用scaling laws來推斷從少量査詢(比如900次)到大幾個數量級的査詢(比如90000次)的風險。 他們發現,
在86%的預測中,他們根據幂律做出的預測與真實風險相差在一個數量級之內。
其次,他們預測了模型出現不對齊行為的可能性(特別是尋求權力、自我保護和自我脫離等,這些都是AI的不良行為)。
測試通過多項選擇題進行,允許模型選擇不對齊或對齊行為。
例如,他們會給模型提供一個系統提示,讓它關注某個特定的職業領域(如銷售或醫療行業),然後問它是更傾向於“ 製定新政策” (這符合權力追求,因為模型會開始塑造它所隸屬的組織)還是“ 分析現有政策” (這會是更對齊的行為)。
他們準確地預測了模型選擇最差査詢的風險:他們的平均絕對誤差為0.05,而基線方法的誤差為0.12。
也就是說,他們的方法比更簡單的對比方法的誤差低2.5倍。
最後。 他們還將這一方法應用於“ 自動化紅隊測試”。 這是指在實驗環境中使用一個模型來發現和利用另一個模型的弱點。 在這種情況下,假設可以選擇使用一個生成大量査詢的小模型,或者使用一個生成較少査詢但質量更高的大模型(兩者成本相同)。 他們的預測在解决如何在進行紅隊時最有效地分配計算預算方面很有用—& mdash; 在選擇至關重要的情况下,他們的方法在79%的時間內確定了最優模型。
然而,Anthropic團隊的這一方法也並非完美,其實際效用取決於未來研究如何突破現有假設、擴展場景覆蓋並增强魯棒性。
在論文中,
他們給出了一些未來發展方向
,這些方向可能會顯著提高預測的準確性和實用性。 例如,他們提到,
可以進一步探索如何為每個預測添加不確定性估計,以更好地評估預測的可靠性
;他們還計畫研究如何更有效地從評估集中捕捉尾部行為,這可能涉及到開發新的統計方法或改進現有的極端值理論應用; 他們還希望將預測方法應用於更廣泛的行為類型和更自然的査詢分佈,以驗證其在不同場景下的適用性和有效性。
此外,
他們還計畫研究如何將預測方法與即時監控系統相結合,以便在模型部署後能够持續評估和管理風險。
他們認為,通過即時監控最大引出概率,可以更及時地發現潜在的風險,並採取相應的措施。 這種方法不僅可以提高預測的實用性,還可以幫助開發者在模型部署後更好地理解和應對可能出現的問題。
總的來說,
這一方法為LLM罕見風險預測提供了統計學基礎,有望成為模型安全評估的標準工具,幫助開發者在“ 能力反覆運算” 與“ 風險控制” 間找到平衡。
原文網址:https://zh.gushiio.com/ai/2997.html