豆包的壓力才剛剛開始

文章來源：財聯社ai daily

豆包的壓力才剛剛開始插图1 image source: generated by ai

今日，字節跳動豆包大模型團隊提出了全新的稀疏模型架構 ultramem，該架構有效解決了moe推理時高額的訪存問題，推理速度較 moe 架構提升2-6倍，推理成本最高可降低83%。

目前，國內外大模型領域的競爭愈發激烈，已然進入白熱化階段。豆包在ai基礎層和應用層上均進行了全面布局，並持續疊代升級。

根據豆包大模型團隊的研究，在transformer架構下，模型的性能與其參數數量和計算複雜度呈對數關係。隨著llm規模不斷增大，推理成本會急劇增加，速度變慢。

儘管moe（混合專家）架構已經成功將計算和參數解耦，但在推理時，較小的batch size就會激活全部專家，導致訪存急劇上升，進而使推理延遲大幅增加。

字節跳動豆包大模型foundation團隊提出了ultramem，這是一種同樣將計算和參數解耦的稀疏模型架構，在保證模型效果的前提下解決了推理的訪存問題。

實驗結果表明，在參數和激活條件相同的情況下，ultramem在模型效果上超越了moe，並將推理速度提升了2-6倍。此外，在常見batch size規模下，ultramem的訪存成本幾乎與同計算量的dense模型相當。

可以看到，不論是訓練端還是推理端，大模型廠商均在力爭降本增效。核心原因是隨著模型規模的擴大，推理成本和訪存效率已成為限制大模型規模應用的關鍵瓶頸，而deepseek已經走通了“低成本高性能”突破的這條路。

岩芯數智ceo劉凡平在接受《科創板日報》記者採訪分析認為，降低大模型的成本，業內更傾向於從技術和工程層面進行突破，實現架構優化的“彎道超車”。基礎架構，如transformer架構成本依舊高企，新的架構研究必須要有;基礎算法，主要是反向傳播算法，這類算法可能是深度學習的瓶頸。

在劉凡平看來，短期內，高端晶片市場仍然還是會由英偉達主導。推理應用市場需求在增加，國產gpu公現在也有機會。從長期來看，算法一旦創新出的結果，還是比較驚人，整個算力市場需求後期有待觀察。

在剛剛過去的春節，deepseek以其低廉的訓練成本和高效的運算效率迅速火爆全球，成為ai領域的黑馬。目前，國內外大模型領域的競爭愈發激烈，已然進入白熱化階段。

deeseek是目前國內大模型中，豆包最強勁的對手，前者在1月28日的日活躍用戶數首次超越後者。目前deepseek的日活數據已經突破4000萬，成為中國移動網際網路歷史上第一個上線不足一個月，但闖進全網日活top50的應用。

近幾日，豆包大模型團隊連續發力。兩天前，其剛剛發布視頻生成實驗模型“videoworld”，不同於 sora 、dall-e 、midjourney 等主流多模態模型，videoworld 在業界首次實現無需依賴語言模型，即可認知世界。

目前，豆包在ai基礎層和應用層進行了全面布局，並持續疊代升級。其ai產品矩陣已涵蓋多個領域，如ai聊天助手豆包、貓箱、即夢ai、星繪、豆包marscode等。

2月12日，豆包概念股午後快速走高。據wind數據顯示，抖音豆包指數2月以來累計漲幅已超15%。個股方面，博彥科技強勢漲停，漢得信息快速拉升一度漲停，廣和通、先進數通等盤中沖高。

中信證券此前發布研報認為，豆包ai的生態擴張將引發新一輪巨頭的技術投資周期。ai產業具有強網絡效應和規模效應，當頭部ai應用獲得用戶領先優勢後，其模型精準度、邊際成本以及用戶粘性等競爭優勢將逐漸加強。

豆包用戶數持續增長，基於豆包ai的應用生態將有望加速，一方面，將催化公司對ai訓練及推理算力基礎設施投資，另一方面，豆包ai的快速增長將刺激其它巨頭廠商加大對ai基礎設施投資。

但是對於豆包自己而言，與尖子生deepseek的較量或許才剛剛開始。

作為一個開源模型，deepseek的低成本和高性能正在改變不少公司的模型選擇策略。目前，華為、百度等公司旗下的不少ai應用都宣布了接入deepseek，甚至字節跳動自己，旗下的飛書的多維表格功能已接入deepseek-r1模型，火山引擎也做了適配。

據《科創板日報》記者了解，目前，豆包團隊內部還在討論豆包app是否要接入deepseek，從用戶體驗的角度來講，選擇一個效果更優的模型無可厚非，但是放棄自家模型選擇友商，也很難向股東交代。這還不考慮，新增模型接入，增加適配負擔等問題。

原文網址：https://zh.gushiio.com/ai/1406.html