deepseek“盜竊”openai?更像是賊喊捉賊
文章來源:智能湧現
image source: generated by ai
2025年春節期間,最紅的不止是哪吒2,還有一個名為deepseek的應用–這個勵志故事被傳頌多次:1月20日,位於杭州的ai初創公司deepseek(深度求索)發布了新模型r1,對標openai如今最強的推理模型o1,真正意義上做到了引爆全球。
上線僅僅一周,deepseek app已經斬獲超2000萬的下載量,在超過140個國家排名第一。其增長速度超越了2022年時上線的chatgpt,目前已是後者的約20%。
火到什麼程度?截至2月8日,deepseek的用戶數已經超過1億,覆蓋的人群遠不止ai極客,而是已經從中國,延伸到全球。從老人、兒童到脫口秀演員、政客,人人都在談論deepseek。
直到現在,deepseek帶來的震動還在持續。過去兩周,deepseek走馬燈似地演完了tiktok的劇本–爆火和高速增長,打敗美國諸多對手,甚至讓deepseek迅速站到地緣政治的懸崖上:美國和歐洲開始討論”影響國家安全”,許多地區迅速頒髮禁止下載或安裝的命令。
a16z合伙人marc andreessen甚至驚嘆:deepseek的出現,是又一個“斯普尼克時刻”(sputnik moment)。
(一個源於冷戰時期的說法,蘇聯在1957年成功發射全球首顆人造衛星“斯普特尼克一號”,引起了美國社會的恐慌,意識到自身地位受到挑戰,技術優勢可能被傾覆)
但人紅是非多,在技術圈內,deepseek同樣也陷入“蒸餾”、“盜竊數據”等等爭議中。
截至目前,deepseek沒有任何公開回應,這些爭論也隨之落入兩個極端:狂熱的追捧者,將deepseek-r1上升至“國運級”創新;也有科技從業者,對deepseek的超低訓練成本、以及蒸餾訓練方式等等提出質疑,認為這些創新被過於追捧。
deepseek“盜竊”openai?更像是賊喊捉賊
幾乎從deepseek爆火開始,包括openai、微軟等矽谷ai巨頭就相繼公開發聲,控訴重點都落在deepseek的數據上。美國政府ai和加密主管大衛·薩克斯也公開表示,deepseek通過一種稱為蒸餾的技術,“吸取”chatgpt的知識。
openai在英國《金融時報》的報導中表示,已經發現了deepseek“蒸餾”chatgpt的跡象,並表示這違反了openai的模型使用條約。不過,openai並沒有給出具體的證據。
事實上,這是一則站不住腳的指控。
蒸餾是正常的大模型訓練技術手段。這常發生在模型的訓練階段–通過使用更大、更強大的模型(教師模型)的輸出,來讓較小模型(學生模型)學習更好的性能。在特定任務上,較小的模型能夠以更低的成本,獲得類似的結果。
蒸餾也並不是抄襲。用通俗的話解釋,蒸餾更像是讓一位老師刷完所有難題,整理出完美的解題筆記–這本筆記里不是僅有答案,而是寫著各種最優解法;普通學生(小模型)只需要直接學習這些筆記,然後輸出自己的答案,對照筆記看看是否符合老師筆記中的階梯思路。
而deepseek最突出的貢獻在於,在這個過程中更多地使用了無監督學習–就是讓機器自我反饋,減少人類反饋(rlhf)。最直接的結果就是,模型的訓練成本大大下降–這也是不少質疑聲的由來。
deepseek-v3論文曾提及其v3模型的具體訓練集群規模(2048塊h800晶片)。不少人按市場價格估算,這個金額大約在550萬美金左右,相當於meta、google等模型訓練成本的數十分之一。
但需要注意的是,deepseek早已在論文中註明,這僅是最後一次訓練的單次運行成本,沒有將前期的設備、人員、訓練耗損包括在內。
在ai領域,蒸餾不也是新鮮事,不少模型廠商都曾披露過自家的蒸餾工作。比如,meta就曾公布過自家模型是怎麼蒸餾出來的–llama 2就用更大、更聰明的模型生成包含思考過程、思考方法的數據,然後放到自家更小規模的推理模型中,進行微調。
△來源:meta fair
但蒸餾也有其弊端。
一位大廠ai應用從業者告訴《智能湧現》,蒸餾能夠快速讓模型能力快速上升,但其弊端是在於“教師模型”生成的數據過於乾淨,缺乏多樣性。學習這類數據,模型會更像一道中規中矩的“預製菜”,其能力也沒有辦法超過教師模型。
數據質量很大程度上決定了模型訓練的效果。如果選擇用蒸餾完成大部分的模型訓練,反而會讓模型顯得過於同質化。如今全球的大模型已經琳琅滿目,各家的模型也都會提供自己模型的“精華版”,蒸餾一個一模一樣的模型,並無太大意義。
更致命的問題在於,幻覺問題或許會更加嚴重。這是因為小模型某種程度上只模仿大模型的“皮”,難以深入理解背後的邏輯,容易導致在新任務上表現下降。
所以,如果要讓模型有自己的特點,ai工程師需要從數據階段就開始介入–選擇什麼樣的數據、數據配比,以及訓練方法,都會讓最終訓練出來的的模型非常不一樣。
典型例子是如今的openai和anthropic。openai和anthropic是最早做大模型的一批矽谷公司,雙方都沒有現成的模型可供蒸餾,而是直接從公開網絡和數據集爬取、學習。
不同的學習路徑,也導致兩個模型現在的風格有顯著不同–如今,chatgpt更像是一個板正的理工生,擅長解決生活工作中的各類問題;而claude則更擅長於文科,在寫作任務上是公認的口碑王,但代碼任務也並不遜色。
openai指控的另一諷刺之處在於,用一個邊界模糊的條款來指控deepseek,即使自己也做了類似的事情。
成立之初,openai一直是一個開源為導向的組織,但在gpt-4之後轉向閉源。openai的訓練幾乎爬遍了全球公開網際網路的數據。因此在選擇閉源後,openai也一直深陷於和新聞媒體、出版商的版權糾紛中。
openai對deepseek的“蒸餾”指控,被諷刺為“賊喊捉賊”就在於,無論是openai o1還是deepseek r1,在論文中都沒有披露自己在數據準備上的細節,這個問題還是羅生門一樣的存在。
更何況,deepseek-r1發布時甚至是選擇了mit開源協議–幾乎是最寬鬆的開源協議。deepseek-r1允許商用、允許蒸餾,還為公眾提供了六個蒸餾好的小模型,用戶可以直接部署到手機、pc中,是極有誠意的回饋開源社區的行為。
2月5日,原stability ai研究主管tanishq mathew abraham也專門撰文,指出這個指控踩在了灰色地帶:首先,openai並沒有拿出證據,顯示deepseek直接利用gpt蒸餾。他所猜測的一種可能的情況是,deepseek找到了利用chatgpt生成的數據集(市面上已有很多),而這種情況並沒有被openai明令禁止。
蒸餾是判斷做不做agi的標準嗎?
在輿論場上,如今不少人用“是否蒸餾”這一步來劃定是否抄襲、是否做agi,這未免過於武斷。
deepseek的工作重新帶火了“蒸餾”這個概念,事實上這是在近十年前就已經出現的技術。
2015年,由幾位ai大牛hinton、oriol vinyals、jeff dean聯合發布的論文《distilling the knowledge in a neural network》裡,就正式提出了大模型里的“知識蒸餾”技術,這也成為了後續大模型領域的標配。
對於鑽研特定領域、任務的模型廠商而言,蒸餾是其實一條更加現實主義的路徑。
一名ai從業者告訴智能湧現,國內幾乎沒有多少大模型廠商不做蒸餾,這幾乎是公開的秘密。“現在公開網絡的數據已經幾乎消耗殆盡,從0到1做預訓練、數據標註的成本,即使是大廠,也很難說可以輕鬆承擔。”
一個例外是字節跳動。在近期發布的豆包1.5 pro版本中,字節明確表示“在訓練過程中從未使用過任何其他模型生成的數據,堅決不走蒸餾捷徑”,表示其追求agi的決心。
大廠選擇不蒸餾有其現實考慮,比如可以規避許多後續的合規紛爭。在閉源的前提下,這也會為模型能力建造一定壁壘。據《智能湧現》了解,字節如今的數據標註成本,已經是對標矽谷的水平–最高可達200美金一條,這種高質量數據,就需要各個特定領域的專家,比如碩士、博士以上級別的人才,進行標註。
對ai領域中更多的參與方而言,無論是用蒸餾還是其他工程手段,本質上都是一種對scaling law(規模效應法則)邊界的探索。這是探索agi的必要條件,而非充分條件。
大模型爆火的前兩年,scaling law通常被粗暴地理解為“大力出奇蹟”,即堆算力、參數,就能讓智能湧現,這更多是在預訓練階段。
如今“蒸餾”被火熱討論的背後,暗線其實是大模型發展範式發生演變:scaling law依然存在,但從預訓練階段,真正轉移到了後訓練和推理階段。
△來源:中科院軟體所博士張俊林專欄文章
openai的o1在2024年9月發布,被認為是scaling law轉向後訓練和推理的標誌,目前仍是全球最領先的推理模型。但問題在於,openai從未對外公開其訓練方法和細節,應用成本還持續停留在高位:o1 pro的成本高達200美金/月,而且推理速度還慢,這也被認為是ai應用開發的一大桎梏。
這段時間ai圈內的工作,大部分都是在復現o1的效果,同時還需要將推理成本降低,這才能在更多場景中進行應用。deepseek的里程碑意義,不僅來自於大大縮短了開源模型追趕頂尖閉源模型的時間–僅僅用了三個月左右,就幾乎追趕上o1的多個指標;更重要的是在找到了o1的能力躍升關鍵訣竅,並將其開源。
不可忽視的一個大前提是,deepseek是站在巨人的肩膀之上完成的這次創新。僅僅將“蒸餾”等工程手段視作抄近路就過於狹隘了,這更多是開源文化的勝利。
deepseek所帶來的生態共榮和開源效應,已經迅速顯現。在其爆火後不久,“ai教母”李飛飛的一項新工作也迅速刷屏:讓谷歌旗下的gemini作為“教師模型”,微調後的阿里qwen2.5作為“學生模型”,通過蒸餾等方式,用不到50美金的費用,訓練出了推理模型s1,復現了deepseek-r1和openai-o1的模型能力。
英偉達也是典型案例。在deepseek-r1發布後,雖然英偉達市值一夜之間爆跌約6000億美金,創造了史上最大單日蒸發規模,但在第二天很快就強勢反彈,上漲了約9%–市場普遍對r1帶來的強大推理需求依然抱有期待。
可以預見,大模型領域上的各方吸收r1能力之後,一波ai應用創新熱潮也會隨之而來。
原文網址:https://zh.gushiio.com/ai/1048.html