DeepSeek扔的第二枚開源王炸到底是什麼?
文章來源:鳳凰網科技
Image source: Generated by AI
2月25日,開源放福利的DeepSeek甩出了一張王炸——開源全球首個面向MoE模型的全棧通信庫DeepEP。 因為直接解决了AI算力焦慮,GitHub瞬間飆出1500星(指收藏量),圈內集體炸鍋,其重要性可見一斑。
很多人好奇DeepEP意味著什麼? 想像一下雙十一的快遞驛站:2048個快遞小哥(GPU)在200個倉庫(服務器)間瘋狂搬運包裹(AI數據),傳統運輸系統就相當於讓小哥們蹬三輪送貨,而DeepEP直接給全員配上了“磁懸浮+量子傳送”套裝,穩定高效的傳遞資訊。
特點一:直接改變運輸規則
在2024年8月29日的英偉達電話會議上,黃仁勳曾經專門強調了NVLink(英偉達開發的一種讓GPU之間直接互連的科技,雙向互傳速度可達1.8TB/S)對於低延遲、高輸出和大型語言模型的重要性,認為它是推動大模型發展的關鍵技術之一。
然而這個被吹爆的NVLink科技,這次直接被中國團隊玩出了新高度。 DeepEP玄妙之處就在於對NVLink的優化,這意味著在同個倉庫的快遞員之間,用磁懸浮軌道運輸,速度高達每秒158個集裝箱(GB/s),相當於把北京到上海的距離縮短到喝一口水的時間。
黑科技二是其所包含的RDMA科技的低延遲內核,試想下,不同都市的倉庫之間,貨物直接“量子傳送”,每架飛機(網卡)運力達每秒47個集裝箱,還能讓飛機一邊裝貨一邊飛行,計算與通信重疊,徹底告別停機等待。
特點二:智慧分揀黑科技:AI版“最强大腦”
當貨物需要分發給不同專家(MoE模型中的子網絡)時,傳統分揀員要逐個拆箱檢查,而DeepEP的“調度-組合”系統就像擁有預知能力:在訓練預填充模式,4096個數据包同時走智慧傳送帶,自動識別同城或跨城件; 在推理預填充模式,128個加急包裹走VIP通道,163微秒送達比人類眨眼快5倍。 與此同時採用動態變軌科技,遇到流量洪峰秒切傳輸模式,完美適配不同場景需求。
特點三:FP8“縮骨術”
普通貨物用標準箱子(FP32/FP16格式)運輸,而DeepEP能把貨物壓縮成微型膠囊(FP8格式),同樣卡車能多裝3倍貨物。 更神奇的是,這些膠囊到達目的地後會自動恢復原狀,既省郵費又省時間。
這套系統已在DeepSeek自家倉庫(H800 GPU集羣)實測:同城貨運速度提升3倍,跨城延遲降低到人類難以感知的程度,而最顛覆性的是它實現了真正的"; 無感傳輸";—— 就像快遞小哥邊騎車邊往快遞櫃裏塞包裹,整個過程行雲流水。
現在DeepSeek把這張王牌開源,相當於把順豐的無人分揀系統圖紙公之於眾,原本需要2000臺GPU的重型任務,現在幾百臺就能輕鬆拿捏。
在更早之前,DeepSeek發佈了其“開源周”的第一項成果:FlashMLA(直譯為快速多頭潜在注意力機制)的程式碼,同樣是减少大模型訓練過程中成本的關鍵技術之一。 為了緩解產業鏈上下游的成本焦慮,DeepSeek正在傾囊相授。
此前潞晨科技創始人尤洋在社交媒體發文表示,“短期內,中國的MaaS模式可能是最差的商業模式”,其簡單估算,
如果每日輸出1000億token,基於DeepSeek的服務每月的機器成本是4.5億元,虧損4億元; 用AMD晶片月收入4500萬元,月機器成本2.7億元,這意味著虧損也超過2億元。
原文網址:https://zh.gushiio.com/ai/3002.html