DeepSeek來了,萬卡還是AI入場券嗎?

文|半導體產業縱橫

人工智慧的極限就是拼卡的極限。 頂級AI公司為這場“ 暴力美學” 競賽設定了單點集羣萬卡的門檻。

OpenAI的單點集羣5萬張卡,穀歌2.6萬張卡,Meta2.45萬張卡。 摩爾線程創始人兼CEO張建中曾在發佈會上表示,
“ AI主戰場,萬卡是最低標配。& rdquo;

而隨著DeepSeek的橫空出世,一場關於AI規則重寫的大戲正在上演。

01 
萬卡集羣還是AI入場券嗎?

2020年,微軟率先構建了萬卡智算中心用來其AI佈局,隨後各大科技巨頭競相投入萬卡集羣的智算中心建設,例如亞馬遜、穀歌、 Meta、 特斯拉、 xAI, 國內科技公司位元組跳動、百度、螞蟻、華為、科大訊飛、小米都建設了萬卡集羣,騰訊、阿裡已經卷向十萬卡集羣。

搭建萬卡集羣的智算中心需要耗費巨大的財力,單是GPU的採購成本就高達幾十億元。 儘管造價高昂,但“ 萬卡集羣” 智算中心使得訓練複雜的大模型成為可能,囙此被業界視作AI競賽的“ 入場券”。

長江證券在其研報中指出,& ldquo; 模型大小和訓練數據量大小成為决定模型能力的關鍵因素。 在同等模型參數和數据集下,集羣訓練時間有望顯著縮短。 更大、更先進的集羣能及時對市場趨勢作出反應,快速進行反覆運算訓練。 整體上超萬卡的集羣將有助於壓縮大模型訓練時間,實現模型能力的快速反覆運算,並及時對市場趨勢作出應對,實現大模型科技上的追趕和領先。& rdquo;

而DeepSeek-V3在訓練時僅僅使用了2048個H800 GPU,但是在多個標準測試中卻獲得了很不錯的消息,在數學基準測試GSM8K和MATH、算灋類程式碼LiveCodeBench等測試中超越此前的大模型拔得頭籌。 這不由引發了一個思考,
DeepSeek支持千卡級集羣訓練,那麼萬卡智算中心還是AI入場券嗎?

首先,我們必須要承認萬卡集羣在大模型訓練端仍有必要性,其次,大模型私有化部署已成業內共識,企業私有部署小型資料中心市場將會爆發。

DeepSeek出現之後,眾多公司都在爭相接入,做自己的本地部署。
企業建設“ 自己的小型智算中心”, 部署1~10臺服務器(百卡之內),或10來20臺服務器(百卡規模)
,也可以實現高效的AI業務。 這無疑讓AI入場券發生了變化,& ldquo; 暴力堆卡” 不再是唯一進場管道,更多的企業可以通過算灋優化參與到這場AI熱潮中。

以華為和瑞金醫院合作發佈的臨床級多模態互動式病理大模型RuiPath為例,僅僅使用了16張算力卡,就學習了300餘本病理診斷書籍,在病理醫生整理的常用問題測試中問答準確率可到90%。

高通科技認為,當前先進的AI小模型已具有卓越性能。 模型蒸餾和新穎的AI網絡架構等新技術能够在不影響質量的情况下簡化開發流程,讓新模型的表現超越一年前推出的僅能在雲端運行的更大模型。

除此之外,
企業部署小型智算中心也為四大運營商和鐵塔公司帶來了新的機遇。
小型資料中心的部署需要穩定的場地、電力、網絡等基礎設施,而運營商和鐵塔公司的物理機房資源是現成的,以中國鐵塔為例,現時擁有210萬站址資源、能源設施和近百萬處機房,並有22萬& ldquo; 通信塔” 已陞級為“ 數位塔”。 另外,小型資料中心靠近數據產生源頭,可實現數據的快速處理和分析,對於邊緣算力的需求新增,現時中國鐵塔算力正從集中式向“ 雲邊端” 分佈式範式轉變,每個資料中心每日新增數據量數十T,預計2025年每資料中心接入約二十萬站,未來數據規模將達數十PB級別。

根據Gartner預測,2025年75%的企業數據將在邊緣側處理,邊緣資料中心數量將超過傳統資料中心的3倍。

02 
資料中心晶片變革:訓練降速,推理崛起

DeepSeek採用純强化學習訓練路徑,擺脫了對監督學習微調階段的依賴,同時採用全新的GRPO算灋讓模型群體相互學習,將記憶體消耗降低至傳統PPO算灋的三分之一,可在更少硬體資源下完成訓練; FP8混合精度訓練,記憶體佔用减少50%,計算輸送量提升30%; 其數據蒸餾科技,將無效數據比例從行業平均15%降至3%以下; NVLink+InfiniBand雙通道傳輸科技使得集羣內部的GPU通信效率提升了65%。

DeepSeek這些創新性的方法降低了訓練成本,使得資料中心晶片發生變革,未來訓練端的高端GPU需求增速可能放緩,而推理端的算力需求將長期呈增長趨勢。

對此,各大研究機構的判斷不謀而合。 其中,Gartner預測2025年推理的集羣算力規模將超過訓練,IDC預測到2025年用於推理的工作負載的晶片將達到60.8%。 TrendForce集邦諮詢分析師龔明德指出:& ldquo; DeepSeek的驅動將促使雲服務商更積極投入低成本的自有ASIC方案,並從AI訓練重心轉向AI推理。 預計到2028年,推理晶片占比將提升至五成。& rdquo;

顧名思義,訓練晶片是應用在AI模型的訓練階段,需要通過大量標記過的數據來訓練系統以適應特定功能,囙此更強調計算效能和存儲能力,而推理晶片在模型訓練完成後,負責使用新數據進行預測和推斷,更注重組織能耗算力、時延和成本的綜合名額。

與英偉達市占率98%的訓練晶片市場不同,推理晶片市場還未成熟,更加百花齊放。 此前在網上掀起一陣熱潮的美國人工智慧晶片公司Groq,其成立於2016年,到目前為止已經獲得了5輪融資,2024年8月Groq完成6.4億美元的最新一輪融資後,估值達到28億美元。 Groq專為大語言量身定制的新型AI加速晶片LPU,效能表現比常規的GPU和TPU提升10到100倍,推理速度達到了英偉達GPU的10倍。

在國外市場,博通和Marvell是主要的推理晶片供應商。 其中,博通與穀歌合作設計了六代TPU,預計將在2026、2027年推出的第七代TPU,同時其與Meta在AI基礎設施方面的合作可能會達到數十億美元; Marvell則是與亞馬遜、穀歌和微軟合作,目前正在生產亞馬遜5nm Tranium晶片和穀歌5nm Axion Arm CPU晶片,同時預計在2025年啟動亞馬遜Inferentia晶片項目,2026年啟動微軟Maia晶片項目。

在國內市場,各大科技公司也在積極佈局AI推理晶片市場。

  • 達摩院推出的含光800 AI晶片,單晶片效能是穀歌TPU v3的8.5倍、英偉達T4的12倍。
  • 百度昆侖系列AI晶片,率先支持8bit推理,百舸DeepSeek一體機搭載昆侖芯P800,推理延遲低,平均50毫秒以內,其中昆侖3A超越英偉達A800。
  • 寒武紀的思元590智慧晶片,幾乎支持所有主流模型,單卡算力超過英偉達A100,集羣算力接近A100水准,千卡互聯的集羣會再損失一些效能。

現時,大模型推理階段面臨很多優化挑戰,首先就是KV Cache管理,推理過程會產生大量中間結果用於降低計算量。 如何管理這些數據很關鍵,例如採用頁面式管理,但頁面大小是固定還是根據負載特徵動態調整,都需要仔細設計。 其次是多卡協同:當模型較大時需要多GPU配合,例如在8個GPU上進行大模型推理,如何優化卡間並行也是一大挑戰。 最重要的就是算灋優化:如何從量化等角度進行優化,充分發揮底層算力效能。

03 
算灋補效能:晶片競爭開始卷“ 軟硬協同”

DeepSeek之所以能够以2048個H800晶片驚豔世界,其中的重要原因之一是其對硬體進行了極致工程化改造,通過自定義CUDA內核和運算元融合科技,將H800 GPU的MFU(模型FLOP利用率)提升至23%,遠超行業平均15%的水准,在相同硬體條件下可完成更多計算任務,提升訓練效率,並且在GPU集羣上實現了98.7%的持續利用率。

這種創新性的用算灋補效能管道,被復旦大學複雜體系多尺度研究院院長、上海人工智慧實驗室領軍科學家、國際著名計算生物學家馬劍鵬教授稱為“ 中國AI的換道超車”。 同時,這種管道也將
倒逼晶片廠商從“ 拼制程” 轉向“ 算灋適配性” 設計
,預留更多介面支持動態算灋反覆運算,如可程式設計NPU架構。

眾所周知,AI用例正在不斷演進,要在功能完全固定的硬體上部署這些用例顯然是不切實際的。 而可程式設計NPU架構提供豐富程式設計介面和開發工具,支持多種程式設計語言和框架,開發者可方便地根據新算灋需求進行程式設計和配寘。 同時,支持根據不同算灋需求動態重構計算資源,如計算單元、存儲單元等等。

最重要的是,晶片研發成本高,預留介面支持動態算灋反覆運算可使晶片在較長時間內保持競爭力,面對新算灋無需重新設計硬體,而是通過軟體升級等管道來適配新算灋,再也不懼算灋更新反覆運算。

DeepSeek V3中使用了相比CUDA更底層的PTX來優化硬體算灋,繞過了CUDA的高層API,直接操作PTX指令集進行更細粒度的硬體優化,能在一定程度上擺脫對CUDA高層框架的依賴,為開發者提供了不依賴CUDA進行GPU資源優化的途徑。 同時,DeepSeek GPU程式碼使用了OpenAI提出的Triton程式設計語言來編寫,而Triton的底層可調用CUDA,也可調用其他GPU語言,為適配更多類型的算力晶片奠定了基礎。

因而,我們會看到很多報導中都寫道,& ldquo; DeepSeek突破英偉達CUDA技術壁壘”。 事實上,DeepSeek的這一舉動證明晶片競爭從一開始的粗暴卷硬體進入到更新的“ 軟硬協同” 內卷之中。 而開源框架與國產晶片結合會是突破口,DeepSeek既能在英偉達晶片上運行,也能在華為升騰、AMD等非主流晶片上高效運行。

更為深遠的影響是AI晶片領域不再是英偉達“ 一家獨大”, 更多的晶片公司可以參與進來。 而
處在英偉達上游的存儲晶片公司,例如三星電子、SK海力士等可能也要被迫進行轉型。

此前,三星電子、SK海力士等電晶體巨頭的發展戰略一直是採用以通用記憶體為重點的量產模式,其業務也很大程度上依賴於對英特爾、英偉達和AMD等主要客戶的批量供應,此前美銀分析預測SK海力士可能獲得2025年英偉達Blackwell GPU的60%以上訂單。

DeepSeek發佈使得科技公司對英偉達高端晶片需求會减少,但是市場對於AI晶片的總需求卻不一定會减少。 正如經濟學家傑文斯所言:技術進步雖然提高了資源的使用效率,但需求的新增常常會導致總消耗量反而新增。

亞馬遜首席執行官安迪・賈西曾表示,DeepSeek科技突破反而會推動人工智慧整體需求的增長。 人工智慧推理等科技成本的下降,並不意味著企業會减少在科技上的投入。 相反,成本降低讓企業能够開發此前因預算受限而擱置的創新項目,最終反而加大了整體科技支出。

這無疑是三星電子、SK海力士轉型的巨大機會,擺脫對英偉達的依賴,擁抱更廣闊的市場。 HBM需求從高端GPU轉向定制化存儲方案,為AI服務提供多樣化的產品陣容。

原文網址:https://zh.gushiio.com/ai/2998.html

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *