DeepSeek們的成本,是怎麼計算的?
大模型混戰,一邊卷能力,一邊卷“成本”。
 ; 作者|
定焦One
王璐 ;
DeepSeek徹底讓全球都坐不住了。
昨天,馬斯克攜“ 地球上最聰明的AI”& mdash;& mdash; Gork 3在直播中亮相,自稱其“ 推理能力超越現時所有已知模型”, 在推理-測試時間得分上,也好於DeepSeek R1、 OpenAI o1。 不久前,國民級應用微信宣佈接入DeepSeek R1,正在灰度測試中,這一王炸組合被外界認為AI蒐索領域要變天。
如今,微軟、英偉達、華為雲、騰訊雲等全球多家科技大廠都已接入DeepSeek。 網友也開發出了算命、預測彩票等新奇玩法,其熱度直接轉化成了真金白銀,助推DeepSeek估值一路上漲,最高已經達到了千億美金。
DeepSeek能出圈,除了免費和好用之外,還因為其僅以557.6萬美元的GPU成本,就訓練出了與OpenAI o1能力不相上下的DeepSeek R1模型。 畢竟,在過去幾年的“ 百模大戰” 中,國內外AI大模型公司都砸了幾十億甚至上百億美元。 Gork 3成為“ 全球最聰明AI” 的代價也是高昂的,馬斯克稱Gork 3訓練累計消耗20萬塊英偉達GPU(單塊成本大約在3萬美元),而業內人士估計DeepSeek僅在1萬多張。
但也有人在成本上卷DeepSeek。 近日李飛飛團隊稱,僅花費不到50美元的云計算費用,就訓練出了一款推理模型S1,其在數學和編碼能力測試中的表現媲美OpenAI的o1和DeepSeek的R1。 但需要注意的是,S1是中型模型,與DeepSeek R1的上千億參數級別存在差距。
即便如此,從50美元到上百億美元的巨大訓練成本差异,還是讓大家好奇,一方面想知道DeepSeek的能力有多强,為什麼各家都在試圖趕上甚至超過它,另一方面,訓練一個大模型究竟需要多少錢? 它涉及哪些環節? 未來,是否還有可能進一步降低訓練成本?
被“ 以偏概全” 的DeepSeek
在從業者看來,在解答這些問題前,得先捋清幾個概念。
首先是對DeepSeek的理解“ 以偏概全”。 大家驚歎的是它眾多大模型之中的一個—& mdash; 推理大模型DeepSeek-R1,但它還有其他的大模型,不同大模型產品之間的功能不一樣。 而557.6萬美元,是其通用大模型DeepSeek-V3訓練過程中的GPU花費,可以理解為淨算力成本。
簡單對比下:
- 通用大模型:
接收明確指令,折開步驟,用戶要把任務描述清楚,包括回答順序,比如用戶需要提示是先做總結再給出標題,還是相反。
回復速度較快,基於概率預測(快速反應),通過大量數據預測答案。
- 推理大模型:
接收簡單明瞭、聚焦目標的任務,用戶要什麼直接說,它可以自己做規劃。
回復速度較慢,基於鏈式思維(慢速思考),推理問題步驟得到答案。
兩者主要的科技差別在於訓練數據,通用大模型是問題+答案,推理大模型是問題+思考過程+答案。
第二,由於Deepseek的推理大模型DeepSeek-R1關注度更高,很多人錯誤地認為推理大模型一定比通用大模型高級。
需要肯定的是,推理大模型屬於前沿模型類型,是大模型預訓練範式撞牆後,OpenAI推出的在推理階段新增算力的新範式。 相比通用大模型,推理大模型更燒錢,訓練時間也更長。
但並不意味著,推理大模型一定比通用大模型好用,甚至對於某類問題,推理大模型反而顯得雞肋。
大模型領域知名專家劉聰對「定焦One」解釋,比如問某個國家的首都/某個地方的省會城市,推理大模型就不如通用大模型好用。
DeepSeek-R1面對簡單問題時的過度思考
他表示,面對這類比較簡單的問題,推理大模型不僅回答效率低於通用大模型,消耗的算力成本也比較昂貴,甚至會出現過度思考等情况,最後可能給出錯誤答案。
他建議,完成數學難題、挑戰性編碼等複雜任務時使用推理模型,總結、翻譯、基礎問答等簡單任務,通用模型使用效果更佳。
第三是DeepSeek的真正實力到底如何。
綜合權威榜單和從業者的說法,「定焦One」分別在推理大模型和通用大模型領域,給DeepSeek排了個位。
推理大模型第一梯隊主要有四家:國外OpenAI的o系列模型(如o3-mini)、Google的Gemini 2.0; 國內的DeepSeek-R1、阿裡的QwQ。
不止一比特從業者認為,雖然外界都在討論DeepSeek-R1作為國內頂尖的模型,能力趕超OpenAI,但從科技角度看,相比OpenAI最新的o3,還有一定的差距。
它更重要的意義是,大大縮小了國內外頂尖水准之間的差距。& ldquo; 如果說之前的差距是2-3代,DeepSeek-R1出現後已經縮小到了0.5代。& rdquo; AI行業資深從業者江樹表示。
他結合自身使用經驗,介紹了四家的優缺點:
在通用大模型領域,根據LM Arena(用於評估和比較大型語言模型(LLM)效能的開源平臺)榜單,排在第一梯隊的有五家:國外Google的Gemini(閉源)、OpenAI的ChatGPT、Anthropic的Claude; 國內的DeepSeek、阿裡的Qwen。
江樹也列舉出了使用它們的體驗。
不難發現,儘管DeepSeek-R1震驚了全球科技圈,其價值毋庸置疑,但每家大模型產品都有自身的優劣勢,DeepSeek也不是所有大模型都完美無缺。 比如劉聰就發現,DeepSeek最新發佈的專注於影像理解和生成任務的多模態大模型Janus-Pro,使用效果一般。
訓練大模型,要花多少錢?
回到訓練大模型的成本問題,一個大模型究竟是如何誕生的?
劉聰表示,大模型誕生主要分為預訓練-後訓練兩個階段,如果把大模型比作小孩,預訓練和後訓練要做的是,讓小孩從出生時的只會哭,到懂得大人講的內容,再到主動和大人講話。
預訓練主要指訓練語料。 比如將大量的文字語料投給模型,讓小孩完成知識攝取,但此刻他只是學了知識還不會用。
後訓練則要告訴小孩,如何去用學了的知識,包含兩種方法,模型微調(SFT)和强化學習(RLHF)。
劉聰表示,無論是通用大模型還是推理大模型、國內還是國外,大家遵循的都是這一流程。 江樹也告訴「定焦One」,各家都用的是Transformer模型,囙此在最底層的模型構成和訓練步驟上,無本質區別。
多位從業者表示,各家大模型的訓練成本差別很大,主要集中在硬體、數據、人工三大部分,每一部分也可能採取不同的管道,對應的成本也不同。
劉聰分別舉例,比如硬體是買是租,兩者間的價格相差很大,如果是買,前期的一次性投入很大,但後期會大幅降低,基本只用交電費,如果是租,可能前期投入不大,但這部分成本始終無法省去。 所使用的訓練數據上,是直接購買現成數據,還是自己人工爬,也差別很大。 每次的訓練成本也不太一樣,像第一次要寫爬蟲、做數據篩選,但下一個版本由於可使用上個版本的重複操作,成本會有所降低。 以及在最終展現模型前,中間反覆運算了多少版本,也决定著成本高低,但大模型公司對此諱莫如深。
總之,每個環節都涉及很多高額的隱形成本。
外界曾按照GPU估算,在頂尖模型中,GPT-4的訓練成本大約為7800萬美元,Llama3.1超6000萬美元,Claude3.5約為1億美元。 但由於這些頂尖大模型都是閉源,以及各家是否存在算力浪費現象,外界很難知曉。 直到同梯隊的DeepSeek以557.6萬美元出現。 需要注意的是,557.6萬美元是DeepSeek科技報告中提到的基座模型DeepSeek-V3的訓練成本。& ldquo; 關於V3版本的訓練成本只能代表最後一次成功訓練的成本,前期的研究、架構及算灋的試錯等成本都沒有包含在內; 而R1的具體訓練成本,論文中沒有提到。& rdquo; 劉聰表示。 也就是說,557.6萬美元僅為模型總成本的一小部分。
電晶體市場分析和預測公司SemiAnalysis指出,考慮到服務器資本支出、運營成本等因素,DeepSeek的總成本在4年內可能達到25.73億美元。
從業者認為,相較其他大模型公司百億美元的投入,即便按25.73億美元計算,DeepSeek的成本也是低的。
而且,DeepSeek-V3的訓練過程僅需2048張英偉達GPU、所用GPU小時僅為278.8萬,相比之下,OpenAI耗費了上萬張GPU,Meta訓練模型Llama-3.1-405B所用的GPU小時為3084萬。
DeepSeek不僅在模型訓練階段效率更高,在調用推理階段也更高效、成本更低。
從DeepSeek給出的各大模型API定價(開發者可以通過API調用大模型,實現文字生成、對話互動、程式碼生成等功能),能看出成本其低於“ OpenAI們”。 通常認為,高開發成本的API通常需要通過較高的定價來回收成本。
DeepSeek-R1的API定價為:每百萬輸入tokens1元(緩存命中),每百萬輸出tokens16元,反觀OpenAI的o3-mini,輸入(緩存命中)、輸出每百萬tokens的定價,分別為0.55美元(4元人民幣)、4.4美元(31元人民幣)。
緩存命中,即從緩存中讀取數據而非重新計算或調用模型生成結果,可以减少資料處理的時間、降低成本。 行業通過區分緩存命中和緩存未命中,從而提高API定價的競爭力,低價也讓中小企業也更容易接入。
近期結束了優惠期的DeepSeek-V3,雖然從原來的每百萬輸入tokens0.1元(緩存命中)、每百萬輸出tokens2元,分別上調到了0.5元、8元,價格仍然低於其他主流模型。
雖然大模型總訓練成本很難預估,但從業者一致認為,DeepSeek可能代表的是現時一流大模型的最低成本,未來各家應該會參照DeepSeek往下降。
DeepSeek的降本啟示
DeepSeek的錢省在哪了? 綜合從業者的說法,從模型結構-預訓練-後訓練,每個方面都做了優化。
比如為了保證回答的專業性,很多大模型公司採用的是MoE模型(混合專家模型),即面對一個複雜難題,大模型會將其折開為多個子任務,然後將不同子任務交給不同專家解答。 雖然很多家大模型公司都曾提到過這一模型,但DeepSeek達到了終極專家專業化水准。
秘訣是採用了細粒度專家分割(對專家在同一類別中再進行子任務細分)和共亯專家隔離(隔離部分專家減輕知識冗餘),這樣做的好處是,能大幅提高MoE參數效率和效能,做到更快更準確給予答案。
有從業者估算,DeepSeekMoE相當於僅用大約40%的計算量,便達到了與LLaMA2-7B差不多的效果。
資料處理也是大模型訓練的一道坎,各家都琢磨著如何提高計算效率,同時還能降低記憶體和頻寬等硬體需求。 DeepSeek找到的方法是,在處理數據時用FP8低精度訓練(用於加速深度學習訓練),& ldquo; 此舉在已知開源模型中比較領先,畢竟大多數大模型使用的是FP16或BF16混合精度訓練,FP8的訓練速度比它們快很多。& rdquo; 劉聰表示。
後訓練中的强化學習上,策略優化是一大難點,可以理解為讓大模型更好地進行過決策,比如AlphaGo通過策略優化學會了如何在圍棋中選擇最優的落子策略。
DeepSeek選擇GRPO(分組相對策略優化)而非PPO(近端策略優化)算灋,兩者的主要區別在於在進行算灋優化時,是否借助價值模型,前者通過組內相對獎勵來估計優勢函數,後者用的是單獨的價值模型。 少一個模型,算力要求自然更小,也會節省成本。
以及推理層面上,用多頭潜在注意力機制(MLA)而非傳統的多頭注意力(MHA),顯著降低了顯存佔用和計算複雜度,最直接的好處是,API介面費用下降。
不過,這次DeepSeek給劉聰的最大啟發是,可以從不同角度提升大模型推理能力,純模型微調(SFT)和純强化學習(RLHF)都可以做出不錯的推理大模型。
也就是說,現時做推理模型,可以有四種管道:
第一種:純强化學習(DeepSeek-R1-zero)
第二種:SFT+强化學習(DeepSeek-R1)
第三種:純SFT(DeepSeek蒸餾模型)
第四種:純提示詞(低成本小模型)
“ 之前圈內都是標注SFT+强化學習,大家都沒有想到,原來做純SFT和純做强化學習,也能得到很好的效果。& rdquo; 劉聰表示。
DeepSeek的降本不僅給從業者帶來了科技上的啟發,也影響著AI公司的發展路徑。
英諾天使基金合夥人王晟介紹,AI產業在跑通AGI方向上往往有兩種不同的路徑選擇:一個是“ 算力軍備” 範式,堆科技堆錢堆算力,先把大模型效能拉至一個高點,再考慮產業落地; 另外一個是“ 算灋效率” 範式,一開始就以產業落地為目標,通過架構創新和工程化能力,推出低成本高性能模型。
“ DeepSeek的一系列模型證明了,在天花板漲不動的情况下,把重點放在優化效率而非能力增長上的範式具有可行性。& rdquo; 王晟稱。
從業者們相信,未來隨著算灋的進化,大模型的訓練成本還會進一步降低。
方舟投資管理公司的創始人兼CEO“ 木頭姐” 曾指出,在DeepSeek之前,人工智慧訓練成本每年下降75%,推理成本甚至下降85%到90%。 王晟也曾表示,年初發佈的模型到年底再發佈同樣的模型,成本都會有大幅度下降,甚至有可能降至1/10。
獨立研究機構SemiAnalysis在最近一篇分析報告中指出,推理成本的下降是人工智慧不斷進步的標誌之一。 原來需要超級電腦、多張GPU才能完成的GPT-3大模型效能,現在一些安裝在筆記型電腦上的小模型也能實現同樣效果。 而且成本也下降了很多,Anthropic首席執行官Dario認為,算灋定價成朝著GPT-3質量發展,成本已經降低1200倍。
未來,大模型的降本速度還會越來越快。
未經授權不得隨意轉載,藍鯨號保留追究相應責任的權利
原文網址:https://zh.gushiio.com/gushi/1980.html