哪吒、deepseek，2025年的兩大理想主義者

文|節點財經，作者| 一燈

過年這陣子最火熱的話題，恐怕要數《哪吒2》和deepseek。

一個是中國古代神話傳說人物，另一個是ai領域的後起之秀。本來八竿子打不著的兩家，卻在這個春節意外地“相映成趣”。

哪吒、deepseek，2025年的兩大理想主義者插图

圖源：deepseek官網

不少人這陣子可能一直有在關注deepseek的進展，也包括那83個小時的保衛戰。當他們坐在電影院，看到十二金仙對龍族的爭議，看到“捕妖隊”抓無辜妖眾去煉丹，看到龍族退無可退後的反擊，心中或許會十分感慨：果然藝術來源於生活，而生活更加殘酷且沒有道理。

所以，儘管已經有不少媒體報導過了deepseek，但《節點財經》在這裡還是想再講一講自己所看到的deepseek，以及該公司模型以外的事。

01 繞過三座山，打開ai新世界

這陣子有關deepseek公司和旗下ai大模型的居間已有很多，因此這裡我們不再贅述其成績，就簡單聊一聊它對行業的一些啟示。

首先，可以“繞過”算力，用算法彎道超車。

以往，大家普遍認為算力是ai的核心，發展ai就是要不斷的堆算力、堆gpu。於是我們看到，openai興起的時候，不僅英偉達（nvidia）因此受益，美國也通過禁售英偉達gpu來遏制中國ai發展。

而就在大家燒錢堆算力的時候，deepseek選擇燒腦改算法。

mla（多頭潛在注意力機制）技術大幅降低了長文本推理成本，moe（混合專家模型）創新解決了路由崩潰難題，多令牌預測（mpt）顯著提升推理速度，這三大創新分別針對 transformer 架構中的不同瓶頸，成為deepseek能夠以小博大的關鍵所在。

哪吒、deepseek，2025年的兩大理想主義者插图1

deepseek v3架構概覽圖，圖源：csdn

這裡舉個簡單的例子，傳統的大模型就好比一家擁有眾多服務員和廚師的餐廳，每個服務員從頭到尾獨立負責自己客人的記菜單、傳菜、結帳、清潔等工作。當複雜的菜品出現時，全部廚師都圍上來討論誰能做、怎麼做。

這就可能會出現多個服務員重複記錄相同訂單、傳菜時堵在廚房門口、廚師資源浪費等重複勞動和效率低下的問題。

而在deepseek的模型設計中，mla技術讓所有服務員共享一個智能平板，能實時同步訂單、桌號、菜品狀態（省去重複記錄）;上菜時，只有負責上菜的服務員工作，其他人在需要時才會介入（按需分工）。這樣既能更快地完成任務，又能保證每部分任務的完成質量。

同時，多令牌預測能讓服務員在顧客點主菜後，立馬建議甜點和飲料，提前準備服務，而不是等顧客一個個點完，從而使服務更加流暢、體驗更好。

moe模型則清楚每個廚師都擅長的菜系，在面對複雜的菜品時，模型能夠根據菜品的特點，智能地將其分配給最合適的廚師處理，從而提高處理效率，減少不必要的資源浪費。

這些創新技術與架構的運用，讓deepseek-r1的預訓練在2048塊英偉達h800 gpu（性能受限版本）集群上就能完成，費用只有557.6萬美金。而openai等企業訓練模型，則需要數千乃至上萬塊nvidia a100、h100等頂級顯卡，動輒數億美金的訓練成本。

可見，當ai行業普遍沉迷於“算力軍備競賽”時，deepseek的“出圈”證明：與其瘋狂堆伺服器，不如優化算法結構，針對技術瓶頸實施“靶向治療”，才能讓大模型甩掉”耗電怪獸”的帽子，開啟低成本高性能的新紀元。

其次，可以“繞過”通用，從垂直場景切入。

根據deepseek公布的跑分數據顯示，deepseek-r1在培訓後階段大規模使用強化學習技術，在數學、代碼、自然語言推理和其他任務上，其性能可與openai o1正式版本媲美，而價格僅為o1的3%。

哪吒、deepseek，2025年的兩大理想主義者插图2

圖源：deepseek

但這並不意味著deepseek-r1超越了openai o1，畢竟openai優先追求的是“通用智能”，投入大量資金人力，想要的是全能通才的效果。國內企業開發ai大模型也大都沿用這一思路，希望自家大模型沒有什麼明顯的能力短板，快速達到可商用水平。

而deepseek選擇從垂直場景切入，先追求在部分領域（如數學、代碼）的表現更優，再逐步分階段完善其他領域的能力。這是一種能夠快速成長和建立差異化優勢的發展策略。

值得一提的是，文心一言作為紮根於中國市場的大語言模型，根據百度官方的居間，在多項中文評測中，文心一言4.0的表現已經超越了目前最強的gpt-4模型。這意味著在理解和生成中文內容方面，文心一言也已成為了全球最頂尖的ai模型之一。

因此，《節點財經》認為，中國ai企業尤其是創業公司，不必都扎堆死磕“全能大模型”，可選擇垂直場景靶向爆破：這樣既能規避與通用模型的算力絞殺戰，又能通過構建起數據護城河，進而在細分領域闖出一片天。

最後是，可以“繞過”商業，堅持對技術求索。

這次deepseek之所以能引起這麼大的轟動，除了模型本身表現優異、開發和訓練成本大幅降低，還有較為重要的一點是，deepseek主張免費開源。

要知道，目前比較知名的其他大模型，無論是國內百度的文心一言、華為的盤古大模型，還是海外的openai、llama等產品，都基於商業化和競爭考量，要麼一開始選擇了閉源路線，要麼逐漸走向閉源，要麼雖宣稱開源，但卻設立了不少限制，並未做到真正意義上的開源。

相比之下，deepseek不僅完全開放代碼，還放出了詳細的技術報告;不僅開源了自己最大的 671b r1 模型，還幫大家蒸餾量化好了 1.5b~70b 多個尺寸的模型;不僅提供所有的訓練數據、訓練腳本、論文等，還選擇了最寬鬆的 mit license 協議，允許任何人免費使用、修改、分發，包括用於商業用途。

deepseek創始人梁文鋒此前談及對於開源的構想是，deepseek未來可以只負責基礎模型和前沿的創新，其他公司在 deepseek的基礎上構建to b、to c的業務。& ldquo;這一波浪潮里，我們的出發點，就不是趁機賺一筆，而是走到技術的前沿，去推動整個生態發展。& rdquo;

哪吒、deepseek，2025年的兩大理想主義者插图3

圖源：“湛江發布”微信公眾號

在《節點財經》看來，或許是因為背靠千億量化基金，也或許就是純粹的理想主義，至少從目前來看，deepseek團隊重技術突破多過商業變現，要行業繁榮不要壟斷優勢。

正如英偉達高級研究科學家jim fan評論的那樣：“我們生活在這樣一個時代，一家非美國公司正在讓openai的初衷得以延續，即做真正開放、為所有人賦能的前沿研究。& rdquo;

02 明槍與暗箭，暴露了誰在心虛

1月28日，多位美國官員指出，deepseek是“偷竊”，正對其影響開展國家安全調查。隨後，部分國家和組織也開始“重點關注”deepseek：

● 愛爾蘭數據保護委員會向deepseek發出信函，要求其提供有關如何處理愛爾蘭公民數據的詳細信息;

● 義大利數據保護機構也採取了類似措施，他們認為deepseek對義大利數百萬人數據造成風險，deepseek需要在20天時間裡作出回應;

● 歐洲消費者組織還認為，deepseek在保護和限制未成年人方面的做法還不夠健全，從年齡驗證到未成年人數據處理都沒有明確的強制執行方案;

……

而據彭博社報導，近期openai與微軟展開了一項聯合調查，針對deepseek去年使用openai api接口的帳戶進行審查，並以涉嫌違反服務條款的模型蒸餾為由，取消了他們的訪問權限。

在國內輿論場，也有一些所謂的“極客”開始對deepseek的技術細節發起攻擊，聲稱deepseek涉嫌“抄襲”或“技術不透明”，並試圖通過論文和數據來證明這一點。

當然，以美國為首的西方國家在意的不止deepseek。

華爾街日報日前曾發布報導《it’ s not just deepseek. a guide to the chinese ai companies you need to know》，提醒美國人要注意哪些中國大模型公司，並著重指出，百度在中國最早推出面向公眾的生成式ai文心一言，如今已經擁有4.3億用戶。& nbsp;

哪吒、deepseek，2025年的兩大理想主義者插图4