ai顛覆者:deepseek的過去、現在與未來
文|窄播,作者|余智敏
2025年開年,ai行業迎來了一場出乎意料的“地震”——國內的deepseek以顛覆性姿態炸裂出圈,短短數日登頂全球應用下載榜榜首,日活用戶迅速突破1500萬。
中美科技界對deepseek進行了激烈的爭論,觀點交鋒,有人高度認可,有人冷嘲熱諷,更有人陷入恐慌。anthropic ceo達里奧·阿莫迪萬字長文呼籲進一步加強對華的晶片封鎖;openai ceo山姆·奧特曼罕見認錯,並且承認openai的領先性被削弱。不僅是科技行業,美國總統川普也指出deepseek給美國敲響了警鐘。
deepseek到底做了什麼?為何會引發全球性的轟動?deepseek的出現,打破了哪些行業共識?如何理解deepseek帶來的機會以及未來的挑戰?本文將會逐個探討這些問題。
deepseek做了什麼?
deepseek引發ai行業地震的前提包含三個基礎事實:模型能力追平行業領先水平;在算法和工程上有核心創新;產品引發全球關注。
第一,模型能力上,r1追平行業領先水平。
關於年初發布的deepseek r1模型能力,相信大家已經看到足夠多的信息,或者也自己體驗過了,測評層面,deepseek r1在數學、代碼、自然語言推理等任務上,性能比肩 openai o1正式版。
對於大語言模型,邏輯能力和語文能力是最直觀可以感受到的。claude 3.5 sonnet去年發布之後,這兩項能力是非常突出的,個人體感是比gpt還優秀,尤其是語文能力,最近半年多最主要使用的也是claude。
如今的deepseek r1在邏輯和語文能力上也是非常突出,結合外顯的思考過程,給用戶的衝擊非常強烈。小紅書上出現了大量deepseek的“銳評帖”、“情感貼”,因其詳實全面的思考過程,被網友戲稱為“最內耗的ai”。並且,deepseek針對法律、市場營銷等專業領域的問題,也能給出全面、有洞察,甚至是讓業者“不寒而慄”的回答。
總的來說,目前deepseek r1在基礎能力上,明確地屬於第一梯隊。
第二,核心創新上,v3在算法和工程上圍繞moe進行了大膽嘗試。
關於deepseek模型的爭議有很多,r1雖然效果很亮眼,有很好地運用了強化學習的範式,但是這個算是在行業中已經被運用的方法,deepseek進行了很好的實踐,更像是對openai的o1進行復現,有不同的地方是,deepseek把思考的過程給用戶呈現了。
deepseek在算法和工程方面最具創新性的突破在於moe(混合專家模型)的規模化應用。從v2開始,deepseek將專家數量從傳統的8或16個擴展到160個;到v3時期,更是突破性地達到256個專家數量,實現了671b參數量下僅需激活37b參數的高效運算。
moe模型的效率優勢正源於其選擇性激活機制。與傳統模型(如llama)需要激活全部網絡權重不同,moe通過對計算網絡進行“分類”,只激活相關專家進行運算,顯著降低計算成本。類似分成8個專家,運算的時候激活1個,這樣運算量就只有八分之一,剩下的7個專家都是和輸入八竿子打不著的部分,沒必要進行運算。
那如果moe這麼高效,為什麼此前行業沒有大規模運用呢?
moe模型此前未被廣泛應用的主要障礙是訓練難度大,容易出現信息分類不當。deepseek v3通過創新性的算法和工程優化,成功突破這一限制,在保證模型效果的同時,實現了僅需激活5%參數的高效運算,開創了大規模moe的先河。
第三,產品表現上,引發全球轟動,日活迅速超1500萬。
模型能力、技術創新引發全球性討論的同時,deepseek的app也陸續在全球100多個國家登頂下載榜榜首,日活很快超過了1500萬。矽谷一線風投a16z的創始人marc andreessen也轉發了相關的對比數據,顯示deepseek日活已經達到了chatgpt的23%。實際上公司因為遭受了不明原因的大規模攻擊,不得不暫停了海外新用戶的註冊,不然這個增長勢頭可能會更猛烈。
deepseek為什麼能引發全球轟動?
列完這三個基礎的事實,不知道大家有沒有發現,deepseek產品表現上只是追趕到第一梯隊,並不是超越當前市面上的產品,也不是底層的範式創新。要說模型能力,其實anthropic的claude 3.5 sonnet真的也很能打,都半年多了,但是看數據就知道和chatgpt的聲量(日活)是完全沒法比的,除了ai的從業者,外部的討論微乎其微。
相較而言,deepseek的新模型發布之所以能在ai領域掀起驚濤駭浪,是因為有三點遠超大家預期。
第一個遠超預期的點是deepseek r1做到了又好又便宜。
在模型效果追平第一梯隊的情況下,deepseek的訓練成本不到600萬美金,而meta開源的llama3-405b訓練成本超6000萬美金,deepseek用不到meta十分之一的訓練成本,實現了更好的模型表現。
在推理的api定價的層面,與能力相當的openai o1模型進行對比,deepseek的定價約為o1的三十分之一。參考deepseek去年推出的v2模型,如果效果不好,但是便宜,不會引起這麼大轟動;參考anthropic的claude 3.5 sonnet,如果效果好,但是不便宜,也不會有這麼大的轟動。
如果要給好和便宜排個序,肯定是便宜更超預期。因為好的層面,已經有gpt和claude,其他的也在追趕。好到追平第一梯隊,不能說太超預期。但是在好的基礎上,還便宜這個點,是全世界沒有其他團隊做到的。因此給了業界極大的衝擊。
至於團隊是如何做到如此大幅度的降成本,重要原因是剛才提到的算法和工程的創新,moe大膽地拓到了256個,實際運行只需要激活5%左右的參數,極大地提升了運算的效率。
第二個遠超預期的點是deepseek做到了完全開源。
第一梯隊的模型gpt和claude都是閉源的,開源的llama效果要比gpt和claude遜色一些。現在deepseek在比肩第一梯隊的情況下,還做到了開源,而且是在論文中公布了詳實的模型細節。openai沒能做到的open和開源,反而讓來自中國的deepseek做到了。
第三個遠超預期的點是deepseek的成果由中國團隊做出。
一直以來都被認為是追趕者的中國公司,第一次在ai行業中站上世界舞台的中心,給到全球一個又好又便宜,還開源的大模型。而且deepseek的核心研究員都是中國本土培養的博士,沒有海外留學的背景。
deepseek打破了哪些共識?
deepseek打破的第一個共識是:美國引領一切。
ai科技領域,美國長期以來都是創新的引領者,中國企業往往扮演跟隨者的角色,更擅長技術的應用場景拓展。現在竟然有中國的團隊,在ai技術領域,做出了像消費電子般的中國“智造”模型,又好又便宜,在一定程度上打破了技術創新只能在美國出現的刻板印象。
圖靈獎得主lecun也藉此痛批矽谷傲慢病:患有這種病症的人認為自己所在的小圈子壟斷了好想法,甚至認為其圈子以外的所有創新都是通過“作弊手段”得來的。
第二個被打破的共識是:資金密集投入,大力出奇蹟,壟斷市場就能獲得超額收益。
deepseek的全球熱議還帶來了美股的驚天震動,英偉達單日大跌近17%,市值蒸發5950億美金,近6000億美金,相當於人民幣4.3萬億,創美股單日跌幅最高記錄。
二級市場短期是情緒的體現,大家恐慌性地拋售,原因不僅是因為deepseek訓練成本下降,帶來了晶片算力需求可能會下降的恐慌,也源自傳統的美國科技資本邏輯受到的衝擊。
傳統邏輯是:在行業中進行密集的資金投入,寡頭的幾家企業獲得壟斷性的資金優勢,進而大力出奇蹟,帶來技術成果後獲得壟斷市場的主導地位。簡單來說,就是大資金、大投入、長周期帶來超額回報。從網際網路時代開始,到移動網際網路已經多次印證了這個邏輯。
在ai的時代,由於算力成本高昂,這個邏輯更是被放大。像是最近公布的有川普站台的“星際之門”(stargate)計劃,由openai、孫正義(softbank 軟銀掌門人)以及中東基金共同推動,宣稱要在4年內投入5000億美金,打造“全球算力中心”,想要依靠大規模投入建立算力優勢。
deepseek的出現,給這個資本邏輯一記重拳——在ai領域大資金、大投入並不意味著一勞永逸。實現領先有可能根本不需要這麼大資金的投入,抑或是這麼大資金的投入之後,即使是閉源,也無法保證壟斷。假如基本的邏輯開始面臨挑戰,逐利的資本顯然需要重新思考自己的投資思路。
第三個被打破的共識是:閉源始終領先。
關於ai開源閉源領先性的討論,其實一直爭論不斷。deepseek r1的出現,是一個巨大的變量。模型追上了閉源的openai和anthropic,而且進行了開源,為整個ai行業注入新的動力。openai ceo山姆·奧特曼也罕見認錯,認為openai在是否開源上,站在了歷史錯誤的一面。
關於開源閉源之爭,還有兩點值得關注。
ai語言模型vs傳統開源技術差異:
–技術同源而非分叉:對比android與ios的生態隔離,開源與閉源大模型均基於transformer架構,差異是在數據、算法運用、工程等維度,並非是截然不同的技術路線。
–企業主導型開源:meta、deepseek、openai等公司掌握開源與否的節奏,社區更多是參與者而非主導者,而傳統linux更像是社區驅動的模式。
ai多模態模型現狀:
–圖像生成:開源stable diffusion相關的生態繁榮,閉源的midjourney等企業也有很好的商業化。
–音樂生成:閉源的suno相對領先。
–視頻生成:閉源的runway、快手的可靈、生數科技的vidu等相對領先。
我們在討論deepseek開源的時候,語境都是llm大語言模型。但是除了語言模型,ai還有非常重要並行的領域是多模態模型。deepseek也在近期發布了圖像模型janus pro,但是效果一般。在多模態的領域,開源還有更長的路要走。
未來展望:機會與挑戰
首先,deepseek會給ai應用的發展帶來長期利好。
應用對基礎服務的需求,從來都是“又好又快又便宜”。如果要排序,好>便宜>快。不好的東西可以不用,同樣好用的產品,便宜當然是有優勢,然後速度快,服務穩定。deepseek當前的語言模型,做到了又好又便宜。
對於現有的ai應用來說,已經接入語言模型的應用,可以替換成價格是三十分之一的api,顯著降低的成本,可以更好地探索pmf(product market fit),有更大的空間進行嘗試。這個是第一步最直接的影響。
關於能否因此出現新的killer app,我的答案是:短期否定,長期肯定。
短期來看,ai的killer app需要的不只是pmf,在pmf之前,還有技術。技術在細分場景是不是足夠好用,是killer app的必要條件。而這個和模型的能力直接掛鈎,最早就有提到這次的出圈,並不是模型能力的突破,所以短期這個必要條件沒有變化。
長期來看,會利好ai應用的發展。原因在於deepseek這次的開源,讓行業最領先的水平平權了,會加速推動ai進化的速度,進而推動必要條件的成熟,帶來新的應用機會。
其次,推理晶片和雲服務也有望受益。
一方面,好用便宜,所以多用。會讓推理的市場需求加速擴大,對應的推理晶片和配套的雲服務市場也擴大。英偉達在訓練晶片上的優勢是更顯著的,推理晶片層面相對而言,國內頭部晶片代差會小一些。
另一方面,亞馬遜和微軟都已經接入deepseek,國內的百度雲、騰訊雲、阿里雲也都已經接入。上文提到的ai應用企業,使用api的選擇之一也是從雲服務接入。
當然,deepseek在未來也會面臨來自模型技術發展和地緣因素的雙重挑戰。
雖然這次deepseek給ai行業帶來一股強心劑,但是沒有改變是當前模型發展的困境。對於語言模型,還有類似幻覺這樣的問題難以解決,可能需要更底層的範式創新才能突破;對於多模態的模型,考驗就更多,圖片的指令遵循效果差,細節控制差。
視頻生成模型在過去半年,進展速度非常快,但是指令遵循、一致性等都還有很大空間,並且成本很高,非常需要像deepseek v3一樣能把價格打下來的模型。
同時,deepseek的出現給了中國企業更大的信心去做創新性的嘗試,也給美國敲響了警鐘。可以預見的是,中美的科技冷戰會進一步加劇。晶片的限制可能會進一步加強,中國企業的國際化也會面臨比以往更大的壓力。
道路難免崎嶇,前行必有曙光。
在通往agi的征程上,deepseek的崛起不僅打破了閉源壟斷的舊秩序,更以開源民主化的方式推動重構著ai領域的競爭規則。從“美國引領”到“中國創新”,從“資本密集”到“人人可及”,從“閉源壟斷”到“開放共享”,這些根本性的改變,正在塑造ai發展的新秩序。
原文網址:https://zh.gushiio.com/ai/172.html