deepseek掀翻“ai牌桌”,三大拐點決定大模型未來
文|極智geetech
2025年伊始,大模型已經站在新周期的起點上。
幻方量化旗下ai初創公司deepseek成功“破圈”,憑藉基於深度學習的量化交易模型“掀翻”了全球人工智慧市場的牌桌。這也成為美國、日本進一步加緊對中國半導體產業實施出口管制的誘因之一。
如果以openai為代表的大語言模型進一步催化了具身智能的發展,那麼deepseek的出現,證明了在“大力出奇蹟”的規模定律(scaling law)之外,ai大模型還有另一條制勝之道:調整大模型的基礎結構+有效利用有限資源。
我們清晰地看到,以往靠堆算力和一味追求擴大模型尺寸的疊代路徑已經被打破。大模型正在從“唯規模論”轉向“性價比”,用更低的能耗和資源實現更高的效能;從海量數據轉向高質量數據,提高大模型解決垂直行業問題的能力。
過去一年,ai智能體、aigc、多模態塑造了大模型的應用場景;新一年,由deepseek 引發的技術拐點將變得更加明顯,全球大模型市場競爭格局有望被改寫。
站在ai門口的“圈外人”
作為一家成立不到兩年的大模型公司,無論在融資、技術進展還是輿論層面,deepseek一向都名不見經傳。而它背後的母公司幻方量化,在此之前也僅在私募圈出名。
出人意料的是,一家私募和一家大模型初創公司,這樣少見的組合演繹了“deepseek神話”,原本用於量化投資的大模型,沒想到卻震動了全球科技行業。
對於身處人工智慧行業的公司而言,“圈外人”deepseek的破門而入,真應了那句話:“即將消滅你的那個人,迄今還沒有出現在你的敵人名單上。& rdquo;
2023年,梁文鋒宣布正式進軍通用人工智慧(agi)領域,創辦深度求索(deepseek),僅有139名工程師和研究人員。相比之下,openai有1200名研究人員,開發claude模型的anthropic則有500多名研究人員。
雖然團隊規模不大,deepseek在此後一年多里取得了令人矚目的成果。2024年5月,deepseek發布deepseek-v2模型,採用了注意力機制方面的mla(多頭潛在注意力)、前饋網絡方面的deepseekmoe等創新的架構,以實現具有更高經濟性的訓練效果和更高效的推理。api定價為每百萬tokens輸入1元、輸出2元,價格僅為美國openai gpt-4 turbo的百分之一。
去年12月,deepseek-v3模型發布。官網信息顯示,deepseek-v3多項評測成績超越了qwen2.5-72b和llama-3.1-405b等其他開源模型,甚至可以與gpt-4o、claude 3.5-sonnet等頂級閉源模型一較高下。
值得關注的是,deepseek-v3依舊走了一條極高性價比的路徑,其僅使用2048顆算力稍弱的英偉達h800 gpu,成本約為557.6萬美金。相比之下,openai的gpt-4o訓練成本高達7800萬美金。這意味著,deepseek-v3以十分之一的成本實現了足以與gpt-4o較量的水平。
今年1月20日,deepseek進一步取得突破,正式發布deepseek-r1模型。該模型在數學、代碼、自然語言推理等任務上,性能比肩openai o1正式版。該模型在後訓練階段大規模使用強化學習(rl)技術,在僅有極少標註數據的情況下,極大提升了模型推理能力。
對此,美國openai創始成員之一的安德烈·卡帕西(andrej karpathy)表示:“deepseek在有限資源下展現了驚人的工程能力,它可能重新定義大模型研發的規則。& rdquo;著名投資公司a16z創始人馬克·安德森(marc andreessen)稱讚這是“最令人驚嘆的突破之一,給世界的一份意義深遠的禮物”。
在deepseek爆火背後,“通專融合、邏輯推理、輕量化”三大技術拐點打亂了全球既有的ai市場牌局,動搖了英偉達的“算力信仰”,就像突然殺進牌局的一張王炸,讓人不得不重新審視整個ai市場的遊戲規則。
通用與專家的融合
過去兩年,以chatgpt為代表的大模型引領了通用人工智慧的高速發展。一方面,大模型的確在智能湧現能力上不斷提升,並從語言快速向多模態、具身智能發展;另一方面,大模型帶來了算力、數據、能耗的挑戰,在應用上泛化能力、幻覺問題仍然是很大的兩個瓶頸。
在2017年transformer提出以後,大模型在泛化能力上“狂飆”,但此前擅長的專業能力進步緩慢。
openai執行長sam altman曾坦言,gpt-4的專業能力大概相當於10%-15%的專業人士,即使疊代到gpt-5,其專業能力預計也只會提高4-5個百分點。這意味著,openai將用指數級的能源消耗增長換來緩慢的專業能力提升。
如果一直順著通用大模型這條路線往前走,基本上是沿著包括meta、谷歌等企業的既有路徑,朝著幾十萬卡的規模去購買顯卡,那意味著中國企業要與這些企業進行資源競爭,這不見得是一條最合適的路。
至今,大模型本身存在的專業性、泛化性和經濟性“不可能三角”問題依然未被有效解決,導致目前行業實際落地應用進程並不快。
“通專融合”是通往agi的戰略路徑,也被業界視為更適合未來大模型的發展之路,即構建一個既具有泛化性又具備專業能力的人工智慧系統。與目前的大模型相比,這種系統可以更高效、更好地適應並解決現實世界中的複雜問題。
deepseek-v3以6710億的總參數規模成為目前最大的開源模型,但其真正的創新之處在於,每個token僅激活370億參數,這種靈活的資源管理顯著降低了計算成本,提升了資源的利用效率。
這種設計恰如其分地展示了深度學習領域的一種新趨勢——資源優化與算法創新的完美結合。如何有效管理和調度計算資源,已經成為提升ai模型性能的關鍵所在,而deepseek-v3的混合專家架構(mixture of experts,moe)則為此提供了一個極具參考價值的範例。
moe架構將複雜問題分解為多個子任務,由不同的“專家”網絡處理。這些專家是針對特定領域或任務訓練的小型神經網絡,例如語法、事實知識或創造性文本生成。
與傳統模型對每個輸入激活所有參數不同,moe僅激活與當前任務相關的專家。這種選擇性激活顯著降低了計算資源的需求,同時保持了高性能。通過“專家選擇”路由算法,deepseek-v3任務在各個專家間的負載均衡,避免某些專家過載或閒置。
這使得deepseek-v3的適用性大幅提升,不僅適合高性能計算環境,也能在資源有限的條件下實現出色的表現。
“通專融合”必須實現“通用泛化性”“高度專業性”“任務可持續性”三者兼得。
關於通專融合的目標,一方面,隨著合成數據飛輪效應的加速,過去一年基礎模型獲取通用能力的難度顯著降低;另一方面,在世界知識的壓縮能力上,開源模型的性能已無限逼近閉源模型。
然而,不管是開源還是閉源模型,在專業化能力方面仍存在顯著瓶頸。例如,在實際的軟體工程環境中,gpt-4僅能解決github中1.74%的人類提出的問題。即便通過引入大量工具、結合基礎模型與工具型agent的方式,這一比例也僅提升至13.85%。
可以看到,目前對於世界知識進行壓縮的發展路徑正在自然演進,但這之上的專業能力,才是現階段agi皇冠上的明珠。因此,“通專融合”將是一條必然的路徑。
從“快思考”到“慢思考”
在卡尼曼的《思考,快與慢》一書中,他對人類的兩種思維方式進行了精妙的剖析:快速直觀的感性思考與深入細緻的理性思考。
快思考如同靈光一閃,迅如閃電,主導著我們的日常判斷與決策,猶如舞台上的主角,使生活這部大戲得以流暢進行。然而,這種快速反應有時卻像被霧氣籠罩的鏡子,容易受到情感和刻板印象的影響,導致決策失誤。
相比之下,慢思考則如同精雕細琢的匠人,需要我們投入更多的認知資源和努力。它如同沉穩的智者,通過深入的、有意識的思考,能夠避免快思考中的偏見和誤判,使我們更有可能做出理性、周全的決策。
如今,大模型的發展也走到了思考“快”與“慢”的十字路口。當靠推數據、堆算力形成的快思考正在出現邊際遞減效應,依靠邏輯能力沉澱而成的慢思考能力將成為大模型的“第二增長曲線”。
2024年最重要的模型更新莫過於openai的o1,以前稱為q*,也稱為strawberry。這是第一個具備真正通用推理能力的大模型,而實現這一點靠的是推理時間計算(推理時間計算是指在人工智慧和機器學習中,通過增加額外的計算時間來優化模型在解決特定問題時的表現)。
以前,預訓練模型是通過對大量數據的學習,進而實現後續內容的預測。這背後依賴於大量的模型訓練時間,但這種推理能力很有限。
現在,通過推理時間計算,模型會在給你答覆之前停下來思考,這需要在推理時進行更多的計算。& ldquo;停下來思考”的部分就是推理。
這意味著,人工智慧的發展方向發生了重大變化,即從預訓練所帶來的“快速思考”,向基於強化學習的“慢速思考”發展,這一演變將解鎖更多新的ai代理應用。對此有人預言,大模型的預訓練時代即將終結。
當前,大模型的發展路徑遵循一個易於理解的擴展定律:在預訓練模型上花費的計算和數據越多,模型性能就越好。o1則為擴展計算帶來了另一種可能:即給模型推理時間的越長,其推理效果就越好。
openai的最新o1模型標誌著使用諸如思維鏈和強化學習等技術向推理時間的邏輯推演轉變。o1模型通過試錯學習最優路徑,就像人類解決問題時涉及大量的自我反思和錯誤糾正。這使得模型在複雜的推理任務中表現出色,例如數學、編程和科學查詢。
然而,這種能力是有代價的,o1的每token價格比gpt-4o高3-4倍。另一個類似的模型是deepseek的r1-lite-preview。與o1的簡明摘要不同,r1-lite-preview會實時向用戶展示其完整的鏈式思維過程。這種對推理時邏輯推演的日益重視可能會增加對低延遲計算的需求。
在提升模型推理能力方面,目前主要的難點是高密度監督數據,例如高難度的問題和更詳細的思維鏈,這些數據在自然文本中占比很小,需要研究有效的構造方法。
此外,推理能力目前的提升路徑依賴有效的強化學習,在強化學習中如何提升模型的搜索效率,如何訓練泛化且可靠的獎勵模型以便於獲取反饋也是難點。
傳統上,監督微調(supervised fine-tuning,sft)作為大模型訓練的核心環節,需要先通過人工標註數據進行監督訓練,再結合強化學習進行優化,這一範式曾被認為是chatgpt成功的關鍵技術路徑。
但是,deepseek-r1-zero是首個完全摒棄了監督微調環節、而完全依賴強化學習訓練的大語言模型,證明了無監督或弱監督學習方法在提升模型推理能力方面的巨大潛力。
deepseek極低的訓練成本預示著ai大模型的算力需求會加速從預訓練向推理側傾斜,推理有望接力訓練,成為下一階段算力需求的主要驅動力。
作為一種新的人工智慧發展範式,“快慢結合”的背後是模擬人腦的系統1與系統2——系統1是人腦的快速決策,反映的是長期訓練下的專業能力;系統2是慢系統,體現的是深度思考下的泛化能力。
從“快思考”到“慢思考”,為大模型scaling law帶來了新的範式轉換。過去大模型的路徑是next token prediction(這是一種自監督學習技術,模型被給予一系列token,並預測下一個。這種方法通過訓練模型來學習語言中的統計規律,從而生成或理解自然語言文本),但預測下一個詞有局限性,是一個靜態的數據集,沒辦法探索更難的任務,接下來大模型的目標是通過強化學習讓人工智慧具備更強的思考能力。
大模型“瘦身”進行時
openai的火爆來自“大力出奇蹟”路線,以規模作為大模型的制勝法寶可謂屢試不爽。但這也讓ai大模型的發展陷入了一個怪圈:為追求更高的性能,模型體積不斷膨脹,參數規模呈現指數級增長,算力和成本消耗驚人。
受大模型訓練的高昂成本拖累,openai在2024年的虧損額可能達到50億美金,業內專家預計到2026年其虧損將進一步攀升至140億美金。
而中國人工智慧公司運用剪枝、量化、知識蒸餾等一系列創新技術,降低大模型的實際運算負擔,開啟了大模型“瘦身”之路。
然而,這樣的策略也帶來了一個悖論:若大幅度削減大模型的參數量以適應有限的計算資源,那麼其原有的規模優勢和豐富的表達能力將會削弱,從嚴格定義上可能就不再符合大模型的標準。
因此,如何在保持大模型強大功能的同時,有效平衡算力需求與效率之間的關係,成為了該領域未來發展的重要課題。
以deepseek為例,r1在多個基準測試中與美國openai公司的o1持平,但成本僅為o1的三十分之一。模型性能的追趕速度也很快,openai推出正式版o1模型是在2024年12月,僅僅1個多月後,deepseek就發布了性能相當的r1模型。
在訓練過程中,deepseek採用了推理數據集,進一步篩選和提升了數據質量,為模型提供了可靠的推理基礎。訓練後期,通過蒸餾技術對模型進行輕量化處理,使得模型更適合在消費級顯卡上進行本地部署,降低了對高端算力的需求,同時保留了較強的推理能力。
deepseek的成功證明,大模型創新不一定要依賴最先進的硬體,而是可以通過聰明的工程設計和高效的訓練方法實現。
與傳統的預訓練不同,“知識蒸餾技術”是使用一個大型的“教師模型”來指導一個小型的“學生模型”的訓練。用“蒸餾”方式訓練小模型,不再直接從訓練大模型時會用到的那些巨量數據中學習。
通俗來講,就像上課的時候老師講了一道爆難的題目,全班除了學霸以外,其他人因為腦子的軟硬體配置不足,都沒搞懂。之後學霸在老師思路的基礎上,簡化了若干個參數和步驟,使其對大腦軟硬體配置的要求下降,成功教會了全班大部分人。學霸做的這件事,就叫做蒸餾。
不過,蒸餾技術存在一個巨大缺陷,就是被訓練的“學生模型”沒法真正超越“教師模型”。因為簡化會損失部分信息,如果損失的是關鍵信息那整個系統就崩塌了。實際上,全球幾乎所有大模型都試圖在做蒸餾,但效果都不太好,而deepseek可能是第一個效果良好接近原版的。
從信息技術發展歷史看,“輕量化”進程也是大勢所趨。計算機曾是占據整個房間的大型機,後來發展成可作為桌面設備的電腦,又進化為可攜式筆記本。手機從早期的磚頭式“大哥大”,改進為小巧的功能機,又進化至如今的智能終端。
大模型正在經歷類似的進化過程。事實上,模型並非越大越好,而是越精越妙,把一些劣質的數據從數據集中拿掉,模型性能可能會表現更好。
為了在減少參數的同時保持甚至提升模型性能,研究人員不得不深入挖掘模型架構的優化空間,探索更高效的算法和訓練方法。這一過程推動了人工智慧基礎理論的發展,也為相關技術的跨領域應用開創了新局面。
如今,大模型的架構正從大型單體系統演變為輕量化、專業化的模型組成的分布式網絡,這涉及到一個主模型協調這些專用模型之間的任務。而更好的壓縮技術和高質量合成數據的使用,將有助於未來模型的輕量化和ai的普惠化。
meta最近的研究表也表明,平行使用多個較小的模型可以持續超越單一的大型模型。這種方法類似於人腦,人腦不是一個單一的均勻結構,而是由海馬體(記憶)、額葉(邏輯)和枕葉(視覺)等專業化區域組成。
deepseek事件標誌著中美科技戰進入“深水區”,這場博弈的終局或將決定未來數十年全球科技權力的格局。
在這樣的現象級產品出現之前,過去兩年多時間,由於ai業界對高性能顯卡的追逐,英偉達被一路推上王座。無論在資本市場還是產業鏈,這個邏輯似乎已經確立,沒人料到deepseek橫空出世,硬生生攪了局。
這場衝擊波能持續多久,還是個未知數。deepseek的勢頭固然很猛,但能否彌合國產大模型與國際先進水平之間的技術代差,仍然值得商榷。另外,deepseek通過算法優化提升效率,是否就意味著對算力需求的明顯減弱,下結論也還太早。
不過,deepseek的抗爭,無疑是一個打破技術壟斷、重建數字秩序、重塑科技自信的重要機會窗口。我們既要肯定其取得的成就,但也要在狂熱中保持一份清醒。
在任何一個領域裡,但凡有所成就者,都是長期主義者,因為他們敢進窄門,願走遠路。只有突破“拿來主義”的慣性束縛、摒棄“先模仿再創新”的抄近路心態,不再沉醉於短期泡沫帶來的快感,將技術原創奉為圭臬,才是中國人工智慧企業需要走好的“華山一條路”。
原文網址:https://zh.gushiio.com/ai/260.html