讓AI程式設計去幹活能掙到40萬美元?! OpenAI推出最新評估測試基準,結果令人詫異

文章來源:頭部科技

讓AI程式設計去幹活能掙到40萬美元?! OpenAI推出最新評估測試基準,結果令人詫異插图1Image source: Generated by AI

大型語言模型(LLM)正在改變軟體發展管道,AI現在能不能大規模替代人類程式師成為一個備受行業關注的話題。

在短短兩年時間裏,AI大模型已經從解决基礎計算機科學問題,發展到在國際程式設計競賽中與人類高手一較高下的程度,例如OpenAI o1曾在與人類參賽者相同的條件下參加2024國際信息學奧林匹克競賽(IOI)並成功獲得金牌,展現了强大的程式設計潜力。

同時,AI反覆運算速率也在加快。 在程式碼生成評估基準SWE-Bench Verified上,2024年8月GPT-4o的得分是33%,但到了新一代o3模型得分已翻倍為72%。

讓AI程式設計去幹活能掙到40萬美元?! OpenAI推出最新評估測試基準,結果令人詫異插图3

為了更好衡量AI模型在現實世界中的軟體工程能力,今天,OpenAI開源推出了一個全新的評估基準
SWE-Lancer
,首次將模型效能與貨幣價值掛上了鉤。

SWE-Lancer是一個包含1400多個來自Upwork平臺自由軟體工程任務的基準測試,這些任務在現實世界中的總報酬價值約100萬美元,讓AI去程式設計能掙到多少錢?

新基準的“特色”

SWE-Lancer基準任務價格反映真實的市場價值情况,任務越難,報酬越高。

其中既包括獨立工程任務,也包括管理任務,可在科技實施方案之間進行選擇,該基準不僅針對程式師,也針對整個開發團隊,包括架構師和管理人員。

讓AI程式設計去幹活能掙到40萬美元?! OpenAI推出最新評估測試基準,結果令人詫異插图5

相較於此前的軟體工程測試基準,SWE-Lancer具有多項優勢,例如:

1、全部1488個任務代表了雇主向自由工程師支付的真實報酬,提供了自然的、由市場决定的難度梯度,報酬從250美元到3.2萬美元不等,可謂相當可觀。

其中35%的任務價值超過1000美元,34%的任務價值在500美元到1000美元之間。
個體貢獻者(IC)軟體工程(SWE)任務
這一組包含了764個任務,總價值41.4775萬美元;
SWE管理任務
這一組包含724個任務,總價值58.5225萬美元。

2、現實世界中的大規模軟體工程,不僅需要具體敲程式碼可開發,還需要有能力的科技統籌管理,該基準測試使用真實世界的數據評估模型充當SWE“科技首長的”角色。

讓AI程式設計去幹活能掙到40萬美元?! OpenAI推出最新評估測試基準,結果令人詫異插图7

3、具備高級全棧工程評測能力。 SWE-Lancer代表現實世界的軟體工程,因為其任務來自擁有數百萬真實用戶的平臺。

其中的任務涉及移動和網頁端的工程開發、與API、瀏覽器和外部應用程序的互動,以及複雜問題的驗證和複現。

例如,有的任務是花費250美元提高可靠性(修復雙觸發的API調用問題)、1000美元修復漏洞(解决許可權差异問題)和1.6萬美元實現新功能(在網頁、iOS、安卓和案頭端添加應用內視頻播放支持等)。

4、領域多樣性。 74%的IC SWE任務和76%的SWE管理任務都涉及應用邏輯,而17%的IC SWE任務和18%的SWE管理任務涉及UI/UX開發。

就任務難度而言,SWE-Lancer選取的任務非常具有挑戰性,開源數據集中的任務平均需要26天才能在Github上解决。

此外,OpenAI表示無偏數據收集情况,它們從Upwork上選擇了具有代表性的任務樣本,並聘請了100名專業軟體工程師為所有任務編寫和驗證了端到端測試。

AI編碼賺錢能力PK

儘管很多科技大佬不斷在文宣中聲稱AI模型可以取代“低級”工程師,但企業是否完全能用LLM取代人類軟體工程師仍然要打個大大的問號。

首批評測結果顯示,在完整的SWE-Lancer數据集上,現時被測試的AI金牌選手模型收益都遠低於100萬美元的潜在總報酬。

讓AI程式設計去幹活能掙到40萬美元?! OpenAI推出最新評估測試基準,結果令人詫異插图9

整體來看,
所有模型在SWE管理任務上的表現都會優於IC SWE任務
,而IC SWE任務在很大程度上仍未被AI模型充分攻克,現時受測模型表現最好是OpenAI競爭對手Anthropic開發的Claude 3.5 Sonnet。

在IC SWE任務上,所有模型單次通過率和收益率均低於30%,在SWE管理任務上,表現最佳的模型Claude 3.5 Sonnet得分是45%。

Claude 3.5 Sonnet在IC SWE和SWE管理任務上均表現出強勁效能,在IC SWE任務上比表現第二好的模型o1高出路9.7%,在SWE管理任務上高出3.4%。

如果轉換成收益,表現最佳的Claude 3.5 Sonnet在完整數据集上總收入超過40萬美元。

讓AI程式設計去幹活能掙到40萬美元?! OpenAI推出最新評估測試基準,結果令人詫異插图11

值得關注的一點是,
更高的推理計算量會對“AI賺錢”大有幫助。

IC SWE任務上,研究人員對啟用了深度推理工具的o1模型進行的實驗表明,更高的推理計算量能將單次通過率從9.3%提升至16.5%,收益也相應從1.6萬美元增至2.9萬美元,收益率從6.8%提高到12.1%。

讓AI程式設計去幹活能掙到40萬美元?! OpenAI推出最新評估測試基準,結果令人詫異插图13

研究人員總結,最佳模型Claude 3.5 Sonnet雖然解决了26.2%的IC SWE問題,但剩下的大多數解決方案仍存在錯誤,想實現可靠部署還需要許多完善工作。 其次是o1,然後是GPT-4o,並且管理任務的單次通過率通常是IC SWE任務單次通過率的兩倍以上。

這也意味著,即便AI代理取代人類軟體工程師的觀點被炒作得非常火,但企業當下仍需三思而行,AI模型可以解决一些“低級”編碼問題,但還不能取代“低級”軟體工程師,因為它們無法理解一些程式碼錯誤存在的原因,並繼續犯了更多延伸錯誤。

現時的評估框架尚不支持多模態輸入,此外,研究人員還沒有對“投資回報率”進行評估,例如完成一項任務時,對支付給自由職業者的報酬與使用API的成本進行對比,這會是該基準下一步完善的重點。

做一個“AI增强型”程式師

就目前來看,AI要真正替代人類程式師還有很長一段路要走,畢竟開發一個軟體工程項目,不光是按要求生成程式碼那麼簡單。

例如,程式師常常會遇到極為複雜、抽象、模糊的客戶需求問題,這需要對各種科技原理、業務邏輯和系統架構有深入理解,在優化複雜的軟件架構時,人類程式師能够綜合考慮系統未來的可擴展性、可維護性和效能等因素,而AI可能難以做出全面的分析判斷。

此外,程式設計不僅僅是實現現有邏輯,還需要大量的創造力和創新思維,程式師需要構思新算灋、設計獨特的軟件介面和互動管道等,這種真正新穎的想法和解決方案是AI的短板。

讓AI程式設計去幹活能掙到40萬美元?! OpenAI推出最新評估測試基準,結果令人詫異插图15

程式師通常還需要與團隊成員、客戶及其他利益相關者進行溝通與合作,需要理解各方需求和可實現程度,清晰表達自己的觀點,並與他人協同完成項目,此外,人類程式師具備持續學習並適應新變化的能力,他們能快速掌握新知識和技能,並將其應用到實際項目中,而一款成功的AI模型還需要各種訓練測試。

軟體發展行業也受到各種法律和監管約束,如知識產權、數據保護和軟件許可等,人工智慧可能難以完全理解並遵守這些法律法規要求,從而埋下法律風險或責任糾紛。

長期來看,AI技術進步帶來的程式師崗位替代性依然存在,但短期來看,“AI增强型程式師”才是主流,掌握對最新AI工具的使用是優秀程式師的覈心技能之一。

原文網址:https://zh.gushiio.com/ai/2314.html

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *