豆包的壓力才剛剛開始

文章來源:財聯社ai daily

豆包的壓力才剛剛開始插图1image source: generated by ai

今日,字節跳動豆包大模型團隊提出了全新的稀疏模型架構 ultramem,該架構有效解決了moe推理時高額的訪存問題,推理速度較 moe 架構提升2-6倍,推理成本最高可降低83%。

目前,國內外大模型領域的競爭愈發激烈,已然進入白熱化階段。豆包在ai基礎層和應用層上均進行了全面布局,並持續疊代升級。

大模型持續降本增效

根據豆包大模型團隊的研究,在transformer架構下,模型的性能與其參數數量和計算複雜度呈對數關係。隨著llm規模不斷增大,推理成本會急劇增加,速度變慢。

儘管moe(混合專家)架構已經成功將計算和參數解耦,但在推理時,較小的batch size就會激活全部專家,導致訪存急劇上升,進而使推理延遲大幅增加。

字節跳動豆包大模型foundation團隊提出了ultramem,這是一種同樣將計算和參數解耦的稀疏模型架構,在保證模型效果的前提下解決了推理的訪存問題。

實驗結果表明,在參數和激活條件相同的情況下,ultramem在模型效果上超越了moe,並將推理速度提升了2-6倍。此外,在常見batch size規模下,ultramem的訪存成本幾乎與同計算量的dense模型相當。

可以看到,不論是訓練端還是推理端,大模型廠商均在力爭降本增效。核心原因是隨著模型規模的擴大,推理成本和訪存效率已成為限制大模型規模應用的關鍵瓶頸,而deepseek已經走通了“低成本高性能”突破的這條路。

岩芯數智ceo劉凡平在接受《科創板日報》記者採訪分析認為,降低大模型的成本,業內更傾向於從技術和工程層面進行突破,實現架構優化的“彎道超車”。基礎架構,如transformer架構成本依舊高企,新的架構研究必須要有;基礎算法,主要是反向傳播算法,這類算法可能是深度學習的瓶頸。

在劉凡平看來,短期內,高端晶片市場仍然還是會由英偉達主導。推理應用市場需求在增加,國產gpu公現在也有機會。從長期來看,算法一旦創新出的結果,還是比較驚人,整個算力市場需求後期有待觀察。

豆包的壓力才剛剛開始

在剛剛過去的春節,deepseek以其低廉的訓練成本和高效的運算效率迅速火爆全球,成為ai領域的黑馬。目前,國內外大模型領域的競爭愈發激烈,已然進入白熱化階段。

deeseek是目前國內大模型中,豆包最強勁的對手,前者在1月28日的日活躍用戶數首次超越後者。目前deepseek的日活數據已經突破4000萬,成為中國移動網際網路歷史上第一個上線不足一個月,但闖進全網日活top50的應用。

近幾日,豆包大模型團隊連續發力。兩天前,其剛剛發布視頻生成實驗模型“videoworld”,不同於 sora 、dall-e 、midjourney 等主流多模態模型,videoworld 在業界首次實現無需依賴語言模型,即可認知世界。

目前,豆包在ai基礎層和應用層進行了全面布局,並持續疊代升級。其ai產品矩陣已涵蓋多個領域,如ai聊天助手豆包、貓箱、即夢ai、星繪、豆包marscode等。

2月12日,豆包概念股午後快速走高。據wind數據顯示,抖音豆包指數2月以來累計漲幅已超15%。個股方面,博彥科技強勢漲停,漢得信息快速拉升一度漲停,廣和通、先進數通等盤中沖高。

中信證券此前發布研報認為,豆包ai的生態擴張將引發新一輪巨頭的技術投資周期。ai產業具有強網絡效應和規模效應,當頭部ai應用獲得用戶領先優勢後,其模型精準度、邊際成本以及用戶粘性等競爭優勢將逐漸加強。

豆包用戶數持續增長,基於豆包ai的應用生態將有望加速,一方面,將催化公司對ai訓練及推理算力基礎設施投資,另一方面,豆包ai的快速增長將刺激其它巨頭廠商加大對ai基礎設施投資。

但是對於豆包自己而言,與尖子生deepseek的較量或許才剛剛開始。

作為一個開源模型,deepseek的低成本和高性能正在改變不少公司的模型選擇策略。目前,華為、百度等公司旗下的不少ai應用都宣布了接入deepseek,甚至字節跳動自己,旗下的飛書的多維表格功能已接入deepseek-r1模型,火山引擎也做了適配。

據《科創板日報》記者了解,目前,豆包團隊內部還在討論豆包app是否要接入deepseek,從用戶體驗的角度來講,選擇一個效果更優的模型無可厚非,但是放棄自家模型選擇友商,也很難向股東交代。這還不考慮,新增模型接入,增加適配負擔等問題。

原文網址:https://zh.gushiio.com/ai/1406.html

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *