鯨起生萬物:有關deepseek的2期硬核播客總結
文|闌夕
deepseek火出圈的這十幾天,其實也是噪音最多的一段時間,說實話大部分的討論成品都有種加班硬趕kpi的味道,是人是鬼都在掰扯,有留存價值的屈指可數,倒是有兩期播客讓我聽後受益匪淺,非常推薦。
一個是張小珺請來加州伯克利大學ai實驗室博士潘家怡對deepseek論文的逐句講解,接近3個小時的高密度輸出,非常能殺腦細胞,但殺完之後分泌出來的內啡肽,也含量爆炸。
另一個是ben thompson關於deepseek的3集播客合集,加起來1個多小時,這哥們是news letter的開創者,也是全球最懂技術的分析師之一,常年旅居台北,對中國/亞洲的近距離洞察比美國同行要高很多。
先說張小珺的那期,嘉賓潘家怡當時是在讀完deepseek的論文之後,最快開發出了小規模復現r1-zero模型的項目,在github上已經接近1萬stars。
這種薪火相傳式的知識接力,其實是技術領域理想主義的投射,就像月之暗面的研究員flood sung也說,kimi的推理模型k1.5最初就是基於openai放出來的兩個視頻得到了啟發,更早一點,當google發布“attention is all you need”之後,openai立刻就意識到了transformer的未來,智慧的流動性才是一切進步的先決條件。
所以大家才對anthropic創始人dario amodei那番“科學沒有國界,但科學家有祖國”的封鎖表態大為失望,他在否定競爭的同時,也在挑戰基本常識。
繼續回到播客內容上,我還是試著劃些重點出來給你們看,推薦有時間的還是聽完原版:
–openai o1在驚艷登場的同時做了非常深厚的隱藏工作,不希望被其他廠商破解原理,但從局勢上有點像是在給行業提了一個謎語,賭的是在座各位沒那麼快解出來,deepseek-r1是第一個找出答案的,而且找答案的過程相當漂亮;
–開源能夠比閉源提供更多的確定性,這對人力的增長和成果的產出都是很有幫助的,r1相當於把整個技術路線都明示了出來,所以它在激發科研投入上的的貢獻要勝過藏招的o1;
–儘管ai產業的燒錢規模越來越大,但事實上就是我們已經有接近2年時間沒有獲得下一代模型了,主流模型還在對齊gpt-4,這在一個主張“日新月異”的市場裡是很罕見的,即便不去追究scaling laws有沒有撞牆,openai o1本身也是一次新的技術線嘗試,用語言模型的方式讓ai學會思考;
–o1在基準測試里重新實現了智力水平的線形提升,這很牛逼,發的技術報告裡沒有披露太多細節,但關鍵的地方都講到了,比如強化學習的價值,預訓練和監督微調相當於是給模型提供正確答案用來模仿,久而久之模型就學會依葫蘆畫瓢了,但強化學習是讓模型自己去完成任務,你只告訴它結果是對還是不對,如果對就多這麼幹,如果不對就少這麼幹;
–openai發現強化學習可以讓模型產生接近人類思考的效果,也就是cot(思維鏈),它會在解題步驟出錯時回到上一步嘗試想些新辦法,這些都不是人類研究員教出來的,而是模型自己為了完成任務被逼,哦不,是湧現出來的能力,後來當deepseek-r1也復現出了類似的“頓悟時刻”,o1的核心堡壘也就被實錘攻破了;
–推理模型本質上是一個經濟計算的產物,如果強行堆砌算力,可能到了gpt-6仍然可以硬懟出類似o1的效果,但那就不是大力出奇蹟了,而是奇蹟出奇蹟,可以但沒必要,模型能力可以理解為訓練算力x推理算力,前者已經太貴了,後者還很便宜,但乘數效應是差不多相等的,所以現在行業都開始扎走搞性價比更優的推理路線;
–上個月末o3-mini的發布和deepseek-r1可能關係不大,但o3-mini的定價降到了o1-mini的1/3,肯定是受到了很大的影響,openai內部認為chatgpt的商業模式是有護城河的,但賣api沒有,可替代性太強了,國內最近也有關於chatbot是不是一門好生意的爭議,甚至deepseek很明顯都沒有太想明白怎麼承接這波潑天流量,做消費級市場和做前沿研究可能是有天然衝突的;
–在技術專家看來,deepseek-r1-zero要比r1更加漂亮,因為人工干預的成分更低,純粹是模型自己摸索出了在推理幾千步里尋找到最優解的流程,對先驗知識的依賴沒那麼高,但因為沒有做對齊處理,r1-zero基本上沒法交付給用戶使用,比如它會各種語言夾雜著輸出,所以實際上deepseek在大眾市場得到認同的r1,還是用了蒸餾、微調甚至預先植入思維鏈這些舊手段;
–這裡涉及到一個能力和表現並不同步的問題,能力最好的模型未必是表現最好的,反之亦然,r1表現出色很大程度上還是因為人工使勁的方向到位,在訓練語料上r1沒有獨占的,大家的語料庫里都會包含古典詩詞那些,不存在r1懂得更多,真正的原因可能在於數據標註這塊,據說deepseek找了北大中文系的學生來做標註,這會顯著提高文采表達的獎勵函數,一般行業里不會太喜歡用文科生,包括梁文鋒自己有時也會做標註的說法不只是說明他的熱情,而是標註工程早就到了需要專業做題家去輔導ai的地步,openai也是付100-200美金的時薪去請博士生為o1做標註;
–數據、算力、算法是大模型行業的三個飛輪,這一波的主要突破來自算法,deepseek-r1發現了一個誤區,就是傳統算法里對於價值函數的重視可能是陷阱,價值函數傾向於對推理過程的每一步去做判斷,由此事無巨細的把模型向正確的道路上引導,比如模型在解答1+1等於幾的時候,當它產生1+1=3的幻覺了,就開始懲罰它,有點像電擊療法,不許它犯錯;
–這種算法理論上沒毛病,但也非常完美主義,不是每道題目都是1+1這樣簡單的,尤其是在長思維鏈里動輒推理幾千個token序列的情況下,要對每一步都進行監督,投入產出比會變得非常低,所以deepseek做出了一個違背祖訓的決定,不再用價值函數去滿足研究時的強迫症,只對答案進行打分,讓模型自己去解決怎麼用正確的步驟得到答案,即便它存在1+1=3的解題思路,也不去過度糾正,它反而會在推理過程里意識到不對勁,發現這麼算下去得不出正確答案,然後做出自我糾正;
–算法是deepseek之於整個行業的最大創新,包括要怎麼分辨模型是在模仿還是推理,我記得o1出來後有很多人聲稱通過提示詞讓通用模型也能輸出思維鏈,但那些模型都沒有推理能力,實際上就是模仿,它還是按照常規模式給出了答案,但是因為要滿足用戶要求,又回過頭基於答案給出思路,這就是模仿,是先射箭後畫靶的無意義動作,而deepseek在對抗模型破解獎勵方面也做了很多努力,主要就是針對模型變得雞賊的問題,它逐漸猜到怎麼思考會得到獎勵,卻沒有真的理解為什麼要這麼思考;
–這幾年來行業里一直在期待模型誕生湧現行為,以前會覺得知識量足夠多了,模型就能自然演化出智慧,但o1之後發現推理好像才是最關鍵的那塊跳板,deepseek就在論文裡強調了r1-zero有哪些行為是自主湧現而非人為命令的,像是當它意識到生成更多的token才能思考得更加完善、並最終提高自己的性能時,它就開始主動的把思維鏈越變越長,這在人類世界是本能——長考當然比快棋更有策略——但讓模型自個得出這樣的經驗,非常讓人驚喜;
–deepseek-r1的訓練成本可能在10萬-100萬美金之間,比起v3的600萬美金更少,加上開源之後deepseek還演示了用r1去蒸餾其他模型的結果,以及蒸餾之後還能繼續強化學習,可以說開源社區對於deepseek的擁戴不是沒有理由的,它把通往agi的門票從奢侈品變成了快消品,讓更多的人可以進來嘗試了;
–kimi k1.5是和deepseek-r1同時發布的,但因為沒有開源,加上國際上積累不足,所以雖然也貢獻了類似的算法創新,影響力卻相當有限,再就是kimi因為受到2c業務的影響,會比較突出用短思維鏈實現接近長思維鏈的方法,所以它會獎勵k1.5用更短的推理,這個初衷雖然是迎合用戶——不想讓人在提問後等太久——但好像有些事與願違的回報,deepseek-r1的很多出圈素材都是思維鏈里的亮點被用戶發現並傳播,對於頭一次接觸推理模型的人來說,他們似乎並不介意模型的冗長效率;
–數據標註是全行業都在藏的一個點,但這也只是一項過渡方案,像是r1-zero那種自學習的路線圖才是理想,目前來看openai的護城河還是很深,上個月它的web流量達到了有史以來的最高值,deepseek的火爆客觀上會為全行業拉新,但meta會比較難受,llama 3實際沒有架構層的創新,也完全沒有預料到deepseek對開源市場的衝擊,meta的人才儲備非常強大,但組織架構沒有把這些資源轉化成技術成果。
再說ben thompson的播客,他在很多地方交叉驗證了潘家怡的判斷,比如r1-zero在rlhf里去掉了hf(人類反饋)的技術亮點,但更多的論述則是放在了地緣競爭和大廠往事,敘事的觀賞性非常流暢:
–矽谷過度重視ai安全的動機之一在於可以藉此把封閉行為合理化,早在gpt-2的協議里就以避免大語言模型被利用拿去生成“欺騙性、帶偏見”的內容,但“欺騙性、帶偏見”遠未達到人類滅絕級別的風險,這本質上是文化戰爭的延續,而且基於一個“倉廩實而知禮節”的假設上,即美國的科技公司在技術上擁有絕對的優勢,所以我們才有資格分心去討論ai有沒有種族歧視;
–就像openai決定隱藏o1思維鏈時說得義正辭嚴——原始思維鏈可能存在沒有對齊的現象,用戶看到後可能會感覺到被冒犯,所以我們決定一刀切,就不給用戶展示了——但deepseek-r1一舉證偽了上面的迷之自信,是的,在ai行業,矽谷並沒有那麼穩固的領先地位,是的,暴露的思維鏈可以成為用戶體驗的一部分,讓人看了之後更加信任模型的思考能力;
–reddit的前ceo認為把deepseek描述為斯普特尼克時刻——蘇聯先於美國發射第一顆人造衛星——是一個強行賦予的政治化解讀,他更確定deepseek位於2004年的google時刻,在那一年,google在招股書里向全世界展示了分布式算法是如何把計算機網絡連接在一起,並實現了價格和性能的最優解,這和當時所有的科技公司都不一樣,它們只是購買越來越貴的主機,並甘願身處成本曲線最昂貴的前端;
–deepseek開源r1模型並透明的解釋了它是怎麼做到這一點的,這是一個巨大的善意,若是按照繼續煽動地緣政治的路數,中國公司本來應該對自己的成果保密的,google時刻也確實為sun這樣的專業伺服器製造商劃定了終點線,推動競爭移動到商品層;
–openai的研究員roon認為deepseek為了克服h800晶片所作出的降級優化——工程師用不了英偉達的cuda,只能選擇更低端的ptx——是錯誤的示範,因為這意味著他們浪費在這上面的時間無法彌補,而美國的工程師可以毫無顧慮的申請h100,削弱硬體無法帶來真正的創新;
–如果2004年的google聽取了roon的建議,不去“浪費”寶貴的研究人員構建更經濟性的數據中心,那麼也許美國的網際網路公司今天都在租用阿里巴巴的雲伺服器,在財富湧入的這二十年裡,矽谷已經失去了優化基礎設施的原動力,大廠小廠也都習慣了資本密集型的生產模式,樂於提交預算表格去換取投資,甚至把英偉達的晶片干成了抵押物,至於如何在有限的資源里儘可能多的交付價值,沒人在乎;
–ai公司當然會支持傑文斯悖論,也就是更便宜的計算創造更大量的使用,但過去幾年裡的實際行為卻是出心口不一的,因為每家公司都在表現出研究大於成本的偏好,直到deepseek把傑文斯悖論真正帶到了大家的眼皮底下;
–英偉達的公司變得更有價值,和英偉達的股價變得更有風險,這是可以同時存在時發展,如果deepseek能在高度受限的晶片上達到如此成就,那麼想像一下,如果當他們獲得全功率的算力資源後,技術進步會有多大,這對整個行業都是激勵性的啟示,但英偉達的股價建立在它是唯一供給方這個假設上,這可能會被證偽;
–中國和美國的科技公司在ai商品的價值判斷上出現了顯性分歧,中國這邊認為差異化在於實現更優越的成本結構,這和它在其他產業的成果是一脈相承的,美國這邊相信差異化來自產品本身以及基於這種差異化創造的更高利潤率,但美國需要反思通過否定創新——比如限制中國公司取得ai研究所需的晶片——來贏得競爭的心態;
–claude在舊金山的口碑再怎麼好,也很難改變它在銷售api這種模式上的天然弱點,那就是太容易被替換掉了,而chatgpt讓openai作為一家消費科技公司擁有更大的抗風險能力,不過從長遠來看,deepseek會讓賣ai的和用ai的都有受益,我們應該感謝這份豐厚的禮物。
嗯,差不多就是這些,希望這篇作業可以幫你們更好的理解deepseek出圈之後對ai行業產生的真實意義。
原文網址:https://zh.gushiio.com/ai/1032.html