deepseek,能顛覆ai競賽規則嗎?

一家中國大模型公司,如何另闢蹊徑,改變牌局?

作者|豹變 周可

這個春節假期,無論你是不是科技新聞的長期讀者,大概率逃不過一款名為 deepseek的ai產品相關資訊持續刷屏。

一切始於1月20日,中國科技公司深度求索推出推理模型deepseek-r1,僅用 openai十分之一的成本就達到其最新模型gpt-o1同級別的表現。

此前,深度求索宣布其推出的deepseek-v3僅花費558萬美金,不到國外公司十分之一的gpu晶片和訓練時長,就實現了與gpt-4o和claude sonnet 3.5等花費數億美金訓練的頂尖模型相當的性能。這一消息迅速激起全球科技界持續關注。

r1發布後的十天內,deepseek先後登上中國、美國等70多個國家蘋果應用商店下載榜榜首。這是全球範圍內,首次有產品超越openai的chatgpt。幾年來,ai競賽的焦慮第一次傳導到美國科技公司。

deepseek火爆之下,對算力需求是否產生負面影響的討論,也引發了華爾街恐慌。1 月27日,美國主要科技股市值開盤縮水超1萬億美金,英偉達股價帶頭跳水 16.86%,市值蒸發5890億美金,相當於跌沒了兩個阿里巴巴。甲骨文下跌 13.78%,超微電腦下跌 12.49%,晶片製造商博通下跌 17.4%,台積電跌 13%。

科技股股價暴跌的同時,美國科技公司開始研究、模仿中國對手。據報導,meta已成立四個小組專門研究deepseek。同時,更多質疑和圍剿也接踵而至。

過去幾年的ai競賽中,中國網際網路和科技公司始終是美國公司的跟隨者,中國公司只能寄希望於用更多的資源投入追趕對手,但風向始終由openai、meta為代表的美國公司掌握。2022年起,美國政府宣布升級晶片出口管制,此後多次更新出口限制清單,限制高算力晶片出口,中國ai企業普遍陷入算力焦慮。

deepseek最新模型的出現,打破了大模型發展淪為巨頭與資本遊戲的行業共識,為業內追趕美國大模型的中國公司們提供一條新的思路:繞過美國堆算力的技術路徑,優化算法、探索效率優先,走一條“低成本高產出”一路,也可以實現彎道超車。

deepseek,能顛覆ai競賽規則嗎?插图

量化基金背景的大模型,如何彎道超車?

在本次新模型發布引發全球關注後,一些國外媒體和投資者一度將deepseek稱為一家不知名的中國公司。這種描述並不準確。

deepseek背後的深度求索是一家創立於2023年的年輕公司,但其母公司幻方量化,是管理了超過1000億元資產的國內頭部量化交易公司,在多年前就開始涉足ai 研究。

deepseek創始人梁文鋒最早開啟ai研究的初衷是,用gpu計算交易倉位,訓練量化交易模型。此後,出於探索ai能力邊界的好奇,他們囤積了過萬塊先進gpu晶片開始訓練agi模型,儲備量接近國內一線網際網路公司,高於大模型創業六小龍。這為deepseek日後的模型進展打下了基礎。

deepseek也不是突如其來地“驚艷”所有人,在近期推出的v3和r1模型之前,它就曾以帶頭打響大模型價格戰而在國內ai行業引發關注。2024年5月,deepseek發布deepseek-v2 ,價格僅為gpt-4-turbo的近百分之一。

此後的30天,字節、百度、阿里等公司的大模型相繼降價,deepseek更是一年內3次降價,每次降幅超過85%。

降價,來自訓練和推理成本的持續降低。相比openai和它的中國效仿者們用數億美金訓練大模型,deepseek選擇了一條更“摳門”,更“極致”的路線。

它的研究人員提出的一種新的mla(一種新的多頭潛在注意力機制)架構,與 deepseek moesparse (混合專家結構)結合,把顯存占用降到了其他大模型最常用的mha架構的5%-13%。

行業通常用數萬億token(文本單位)訓練模型,但deepseek通過“數據蒸餾”技術,即用一個高精度的通用大模型當老師,而不是用題海戰術來更高效訓練學生“模型”,把數據計算最大程度降低,僅用1/5的數據量達到同等效果,促成了成本的下降。

一個通俗的舉例可幫助我們理解這種變化,傳統大模型每次處理問題都需激活全部參數,而普通用戶提出的問題可能並不需要如此多的資源投入,這如同讓一家醫院的全部科室去會診一個普通感冒;而deepseek-r1會先判斷問題類型,再精準調用對應模塊——數學題交給邏輯推理單元,寫詩則由文學模塊處理。這種設計讓模型響應速度提升3倍,能耗也更低。

更快速度和更低能耗,建立在“低成本、高性能”的初始規劃上。deepseek通過算法優化顯著降低訓練成本。r1 的預訓練費用只有557.6萬美金,在2048塊英偉達h800 gpu(針對中國市場的低配版gpu)集群上運行55天完成。此前,openai等企業訓練模型,都需要數千甚至上萬塊高算力的nvidia a100、h100等頂級顯卡,花費數億美金的訓練成本。

並非 openai 或者中國大公司的大模型開發者們沒有想到過此類模塊化方案的可能性,而是他們權衡利弊,選擇了更適合自身發展情況的方案。

deepseek選擇從垂直場景切入,從 all in 特定領域開始,追求在部分領域(如數學、代碼)的表現更優,再逐步分階段完善其他領域的能力。

deepseek,能顛覆ai競賽規則嗎?插图1

deepseek r1 與 openai o1正式版在數學、代碼、自然語言推理等任務下的測試成績相當。

這種另闢蹊徑意味著更高難度,更高風險。若路由錯誤(例如將詩歌創作誤判為數學題),輸出質量將會暴跌;模塊間的知識隔離(如用數學公式寫情書),可能導致跨領域任務失敗。如果未能開發出足夠優異的模塊化模型,前期的投入可能浪費。大多數公司受限於路徑依賴或資源約束,難以接受all in這一高風險路線。

這並不容易。早期deepseek的moe模型誤判率普遍在15%以上,團隊通過引入強化學習優化路由決策,長期訓練後模型在測試中將誤判率控制在個位數的低位。

多位行業人士將deepseek的脫穎而出理解為“模塊化特種兵”,在與openai等“通用巨獸”的比賽中,在部分領域展現出同等能力甚至略微領先。儘管deepseek的整體技術與openai等美國企業存在差距,但其已經足以被視為一個實力逐漸接近的競爭對手。

更關鍵的是, deepseek 跳過了美國開發者們認為必不可少的步驟,這意味著在資金、算力晶片劣勢的情況下,中國乃至世界各地的ai創業公司也有可能彎道超車,不必活在大公司的陰影之下,垂直領域的專注也能幫助他們在特定場景中形成優勢,避免與巨頭正面競爭,找到屬於自己的立足之地。

deepseek,能顛覆ai競賽規則嗎?插图2

開源模型,deepseek的選擇與壁壘

deepseek引起轟動,除了模型本身的優異表現,還來自其堅持的免費開源主張,公開模型的原始碼、權重和架構。這意味著,無論是個人還是開發者,或是企業用戶都可以免費使用其最新模型,並在此基礎上開發更多應用。

這一決策得到了許多行業專家和投資者的讚許。

英偉達高級研究科學家jim fan評論稱,“我們生活在這樣一個時代,一家非美國公司正在讓openai的初衷得以延續,即做真正開放、為所有人賦能的前沿研究。& rdquo;

矽谷風投a16z創始人marc andreessen也發表評論稱,deepseek-r1 是他見過的最令人驚嘆且令人印象深刻的一個突破,作為開源的模型,它的面世給世界帶來了一份禮物。

openai最初是為了對抗谷歌在ai領域的壟斷地位,旨在通過開源的方式促進ai技術的發展,避免谷歌在ai領域的過度控制‌,因此命名為“openai”以體現其開源的願景‌。但在gpt-3發布,接受微軟投資後,openai 出於訓練成本、收益和維持其競爭力的考慮走向閉源。

目前表現強勁的其他大模型,如meta的llama號稱選擇了開源路線,但許可證需要申請訪問權限,限制部分商業用途,且只公開了部分架構細節,不公開具體的訓練數據構成,不提供完整的訓練腳本。這樣的開源對於ai產業的進步意義十分有限。

大多數中國大公司開發的大模型,如百度的文心一言、華為的盤古大模型等產品都選擇了閉源路線,它們往往是基於商業化和競爭考量,平台型公司有足夠多的資源,掌握了大量的用戶數據,可以依靠自身的內部循環完成模型的訓練和疊代。閉源可以讓他們在模型專長的領域保持優勢,避免被競爭對手趕超。

deepseek選擇開源,既是出於對傳統大廠的技術壟斷的挑戰,也是基於自身發展情況的考量。創業公司可能在資源和算力上處於劣勢,但通過開源策略,可以快速建立生態,獲得更多的用戶和開發者支持。

deepseek創始人梁文鋒此前談及對於開源的構想是,成為更多公司的模型底座。哪怕一個小 app都可以低成本去用上大模型,而不是技術只掌握在一部分人和公司手中,形成壟斷。

在他看來,deepseek未來可以只負責基礎模型和前沿的創新,其他公司在 deepseek的基礎上構建to b、to c的業務。如果能形成完整的產業上下游,就沒必要自己做應用。

deepseek所選擇的模塊化模型設計,如同精密的鐘表——單個齒輪的工藝或許可複製,但整體協同需要長期試錯與生態積累。競爭對手並不能依靠簡單照搬就能複製其原始模型,越多的用戶和開發者使用,則意味著模型得到更多訓練。

當下,deepseek背靠千億量化基金,在免去資金的後顧之憂後,選擇了一條頗顯理想主義的路徑,即只做模型研究,不考慮商業變現,通過開源基礎模型吸引開發者,未來再逐步通過企業版工具鏈(如模塊訓練平台)推進商業化。

今天的ai競爭格局之下,對於一家創業公司,開源不僅是技術策略,更是參與制定行業規則的關鍵落子。在模型能力逐漸透明的未來,真正的競爭優勢將來自構建數據反饋閉環的能力,以及將技術影響力轉化為商業生態的能力。

這本質上是一場關於"標準制定權"的爭奪——誰的開源協議能成為行業事實標準,誰就能在下一代ai基礎設施中占據核心位置。中國科技公司與美國科技公司之間的差距,不是時間維度,而是創新和模仿的差別。

這一次,deepseek 代表的中國科技公司給出的方案不再是模仿跟隨,而是創新。

參考資料:

暗涌 waves:揭秘deepseek:一個更極致的中國技術理想主義故事

騰訊科技:deepseek除夕發布新模型,多模態大一統的革命來了?

雷鋒網:moe 高效訓練的 a/b 面:與魔鬼做交易,用“顯存”換“性能”

nyt:how chinese a.i. start-up deepseek is competing with silicon valley giant

 

聲明:本文內容僅代表該投稿文章作者觀點,不代表藍鯨號立場。
未經授權不得隨意轉載,藍鯨號保留追究相應責任的權利

原文網址:https://zh.gushiio.com/gushi/193.html

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *