楊植麟和梁文鋒,論文撞車了
Image source: Generated by AI
一
在馬斯克發佈了他用20萬張卡訓出的Grok3的同一天,兩篇與馬氏大力出奇迹“相反”路線的論文也發表在了科技社區。
在這兩篇論文的作者名目裏,各自有一個大家熟悉的名字:
梁文鋒,楊植麟。
2月18日,DeepSeek和月之暗面幾乎同時發佈了他們各自最新的論文,而主題直接“撞車”——都是挑戰Transformer架構最覈心的注意力機制,讓它能更高效的處理更長的上下文。 而更有趣的是,兩家公司的科技派藝員創始人的名字出現在各自的論文和科技報告裏。
DeepSeek發佈的論文,標題名為: 《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。
根據論文,它提出的新架構NSA(原生稀疏注意力)在基準測試中,與全注意力機制相比,準確率相同或更高; 處理64k標記序列時,速度可提高至11.6倍,訓練也更高效,所需算力更少; 在處理超長上下文的任務(如書籍摘要、程式碼生成、推理任務)中表現出色。
與此前人們津津樂道的算灋上的創新相比,DeepSeek這一次把手伸向了最覈心的注意力機制(attention)的改造上。
Transformer是今天所有大模型繁榮的基礎,但它的覈心算灋注意力機制依然有先天的問題:拿讀書做比喻,傳統的“全注意力機制”為了理解和生成,會閱讀文字裏的每個詞,並拿它與其他所有詞作比較。 這樣導致處理文字越長它越複雜,科技越卡,甚至崩潰。
此前學術界一直在提供各種解决的思路,NSA通過真實環境的工程優化和實驗,組裝出了一個由三個環節組成的可以用在訓練階段的架構方案:
它包括,1)語義壓縮——不再是看每個詞,而是分成一個組,也就是“塊”,在保留全域語義的同時將序列長度縮減至1/k,同時引入位置編碼來降低資訊的損耗,進而將計算複雜度從O(n²)降為O(n²/k)。
2)動態選擇——模型以某種得分判斷機制,從文字中挑出最多關注的詞,對它們進行細粒度的計算。 這種重要性採樣策略在减少75%計算量的情况下仍能保持98%的細粒度資訊。
3)滑動窗口——前兩者是摘要和劃重點的話,滑動窗口就是查看最近的上下文資訊,這樣可以保持連貫性,而通過硬體級顯存複用科技可以將記憶體訪問頻次降低40%。
這些思路每一個都不是DeepSeek的發明,但可以把它想像成ASML式的工作——這些科技元素已經存在,散落在各處,但工程上把它們組合在一起成為一個可以規模化的方案,新的算灋架構,還沒人做過。 現在有人通過强大的工程能力做出來了一臺“光刻機”,其他人可以用這個來在真實工業環境裏訓練模型。
而月之暗面在同天發佈的論文,提出了一個在覈心思想上非常一致的架構: MoBA。 (MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS)
從它的名字就可以看到,它同樣使用了把“詞”變成塊的方法。 在“切塊”後,MoBA裏有個像“智慧篩選員”一樣的門控網絡,它負責挑選與一個“塊”最相關的Top-K個塊,只對這些選中的塊計算注意力。 在實際實現過程中,MoBA還結合了FlashAttention(能讓注意力計算更高效)和MoE(專家混合模型)的優化手段。
與NSA相比,它更強調靈活性,沒有完全離開現在最主流的全注意力機制,而是設計了一套可以自由切換的管道,讓這些模型可以在全注意力和稀疏注意力機制之間切換,給已有的全注意力的模型更多的適配空間。
根據論文,MoBA的計算複雜度隨著上下文長度新增而優勢明顯。 在1M token的測試中,MoBA比全注意力快了6.5倍; 到10M token時,則提速16倍。 而且,它已經在Kimi的產品中使用,用來處理日常用戶們的超長上下文的處理需求。
楊植麟最初創辦月之暗面受到關注的一個重要原因,是他的論文影響力和引用量,但K1.5論文之前,他最後一篇論文類的研究停留在2024年1月。 而梁文鋒雖然作為作者出現在DeepSeek最重要的模型科技報告裏,但這些報告的作者名錄幾乎相當於DeepSeek的員工名錄,幾乎所有人都列在裡面。 而NSA的論文作者則只有幾人。 由此可以看出這兩個工作對這兩家公司創始人來說的重要性,以及對瞭解這兩家公司技術路線的意義。
另一個可以為這種重要性做注腳的細節是,有網友發現,arxiv上NSA這篇論文的提交記錄顯示,它在2月16日提交,提交者正是梁文鋒自己。
二
這不是月之暗面和DeepSeek第一次“撞車”。 在R1發佈的同時,Kimi難得的發佈了K 1.5的科技報告,此前這家公司並不以對外展示它的科技思考為優先重點。 當時這兩篇論文同時把目標瞄準了RL推動的推理模型。 事實上,仔細閱讀這兩篇科技報告,在K1.5的論文裏,月之暗面對如何訓練一個推理模型做了更詳細的分享,甚至單從資訊度和細節程度上,它是高過R1論文的。 但之後DeepSeek的風潮掩蓋掉了不少對這篇論文本身的討論。
一個可以作為印證的,是OpenAI最近難得發佈的一篇對其o系列模型推理能力講解的論文裏,同時點了DeepSeek R1和Kimi k1.5的名字。 “DeepSeek-R1和Kimi k1.5通過獨立研究顯示,利用思維鏈學習(COT)方法,可顯著提升模型在數學解題與程式設計挑戰中的綜合表現。” 也就是說,這是OpenAI自己選來用來對比的兩個推理模型。
“大模型這套架構最神奇的一點我感覺就是它似乎自己就指出了前進的路線,讓不同的人從不同的角度得出了相似的前進方向。”
參與了MoBa覈心研究的清華大學教授章明星在知乎上分享。
他還提供了一個很有趣的對比。
“DeepSeek R1和Kimi K1.5都指向了ORM based RL,不過R1從Zero開始,更加“存粹”或者說“less structure”一些,上線更早,同步開源模型。
Kimi MoBA和DeepSeek NSA再一次都指向了可以反向傳遞的learned sparse attention,這一次MoBA更加less structure一些,上線更早,同步開源程式碼。”
這兩家的連續“撞車”有助於人們對比著更好理解强化學習的科技發展,以及更高效更長文字的注意力機制的進化方向。
“結合R1和K1.5一起看能更好的學習Reasoning Model怎麼訓一樣,結合MoBA和NSA一起看能從不同側面更好的理解我們對於——Attention中sparsity應當存在而且可以通過端到端訓練習得——的相信。”章明星寫到。
三
在MoBA發佈後,月之暗面的許欣然也在社交媒體上稱,這是一個做了一年半的工作,現在開發者可以開箱即用。
而選擇此刻開源註定還是會被放在DeepSeek的“陰影”裏討論。 有意思的是,在各家積極接入DeepSeek和開源自己的模型的今天,外界似乎總在第一時間想到月之暗面,對於Kimi是否會接入、模型是否會開源的討論不停,月之暗面和豆包似乎成了兩個僅剩的“异類”。
而現在看來,DeepSeek對月之暗面的影響相比其他玩家是更加持續的,它帶來了從技術路線到用戶爭奪全方位的挑戰:一方面它證明了哪怕是進入到產品的競爭上,基礎模型能力也依然是最重要的; 另外,今天越來越清晰的另一個連鎖反應是,騰訊的微信蒐索和元寶的組合拳,正借DeepSeek R1的勢頭補上一次它之前錯過的行銷投放戰,最終也是沖著Kimi和豆包而來。
月之暗面的應對思路也就變得引人注目。 其中開源是必須要做的一步。 而看起來月之暗面的選擇,是想要真正匹配DeepSeek的開源思路——現時在DeepSeek後出現的諸多開源大部分像是應激反應,它們還是用此前Llama時期的開源思路來跟隨。 事實上DeepSeek的開源與此前的已經不同,不再是Llama似的防守擾亂閉源對手式的開源,而是一種能帶來明確收益的競爭策略。
月之暗面最近傳出內部“把SOTA(state-of-the-art)結果做為目標”,看起來是最接近這種新的開源模式的策略,要開的是最强的模型,最强的架構方法,這樣反而會得到它一直渴望的在應用側的影響力。
根據兩家的論文,MoBA已經用在月之暗面的模型和產品上,NSA也一樣,它甚至讓外界可以對DeepSeek接下來的模型有更明確預期。 於是接下來的看點就是,月之暗面和DeepSeek用MoBA和NSA各自訓練出的下一代模型,要不要再撞車一次,並且還是以開源的管道——這可能也是月之暗面在等待著的那個節點。
原文網址:https://zh.gushiio.com/ai/2049.html