何必把deepseek推上神壇?
過年期間沉迷休息,心懷愧疚地無視了讀者催我們寫deepseek的要求。後來我發現,這催更不僅適用於科技博主,比如在一個跟ai毫無關係的搞笑博主評論區里,我看見有網友說,“你怎麼還不講deepseek?他血洗美國股市,干碎了美國人的幻想。那些歐美科技公司全都坐不住了”。
接下來這種“熱情”愈演愈烈。什麼“科技巨頭全報廢了”“agi馬上實現”“普通人再不學deepseek就晚了”,種種言論層出不窮。甚至還有deepseek受到境外大規模網絡攻擊,各大科技公司頂尖高手聯手隱跡江湖的中國紅客出手相救的爽文劇情。
輿論場到這裡愈發離譜了起來。談到deepseek,我們好像會自動陷入某種彌散性的狂熱情緒。其中當然有deepseek足夠出色的原因,有近幾年ai大熱的加持,但很難否認的是,其中也有地緣因素的推動。很多人迫切需要一個“歪果仁怕了、服了”的故事,在科技領域尤其如此。
為了迎合這種情緒,媒體與公眾人物傾向於推波助瀾。比如將對deepseek的討論,推到哲學、國運、歷史走向的高度。而這些討論又會在流量的折射與層層斷章取義之下被無盡放大,很快讓一款ai模型承受了它本不該承受的地位、責任與期待。這就是所謂的“推上神壇”。
但神壇之上風景並不好。因為以往經驗提醒我們,往往下一步就是“傷仲永”“泡沫破裂”等輿論反噬。對於初露鋒芒的deepseek與研發團隊來說,這種走向應該是弊大於利的。
因此我們想要討論一下,目前階段可以基於哪些共識來客觀討論deepseek。或者說,不妨試著拆掉輿論神壇,還原一個更真實也更樸素的deepseek。
不妨先釋放一個“爆論”。那就是跟社交媒體發散的觀點截然不同,deepseek其實並沒有完成從0到1的核心技術突破。
deepseek大火之後,其研發團隊與科技產業相關人士都在討論中國ai不能只是跟隨,必須完成從0到1。這個觀點絕對正確,但目前的deepseek可能還不能成為這個觀點的作證。
所謂核心技術突破,應該是主要技術路徑的變化,或者達成效果的巨大升級。而deepseek目前最讓人經驗的技術能力,一個是r1模型帶火的思維鏈推理過程,另一個是其聯網檢索的rag效果表現出色。
但這兩條技術路徑都不是deepseek開創的。思維鏈的興起一般認為是openai發布的o1模型。去年9月o1模型公布後,全球主流大模型紛紛跟進了思維鏈、推理大模型等能力。各家名稱不同,但整體技術路線是非常一致的。deepseek確實把思維鏈的過程更完整、詳細展示了出來,但其實也很容易看到其中大模型幻覺還很嚴重。
而在聯網檢索方面,其他廠商也早有布局,也就是所謂的rag檢索-增強-生成機制。這項技術最開始是為了解決大模型不具備實時信息的問題,並且幫助矯正大模型幻覺。早在2023年,百度發布文心一言時,rag就已經是其核心能力的組成部分。
但要注意的是,沒有從0到1的創新,不等於沒有創新。deepseek在模型能力的優化上做了大量開拓性工作,比如通過grpo算法讓模型更加高效。或許可以說,deepseek集成了業界主流的,被驗證過的技術路線。在其基礎上完成了模型優化、能力加強與用戶體驗升級。
我們總是渴望從0到1,總是期待石破天驚。但客觀來看,第一步和第一萬步,邁出的距離是一樣的。
那麼,deepseek真正引發全球關注的價值在哪裡?在短短一個春節的發酵之後,可能很多人都忘記了它最早出圈的原因是通過軟體和架構創新,用非常低的算力成本完成了deepseek-v3模型的訓練。
deepseek-v3是我們今天用到的r1模型的基礎模型。在研發團隊發表的論文中,可以看到其僅僅使用了550萬美金的算力訓練成本就完成了6710億參數大模型的訓練。即使這項統計僅僅局限於基礎模型訓練的算力成本這一項,沒有包含後續應用模型的強化學習、模型推理,以及人才成本、綜合成本等項目,但也是毫無疑問顛覆了大模型訓練的主流成本模型。
而最終deepseek實現的效果,也基本達到了o1為代表的主流大模型水平。雖然在模型效果上很難說有全面的超越,但其確實以軟體算法的革新實現了硬體成本的下降。讓低成本模型的效果不差於高成本,讓開源模型的效果追趕閉源模型。
而deepseek“降低ai算力成本”的突破,又恰好發生在全球主流ai玩家囤積高端gpu,以此築造產業護城河,以及美國對中國禁售高端ai晶片,希望以此打壓中國ai的關鍵節點上。於是也就有了deepseek實現ai民主化,甚至助力打破地緣科技壟斷的意味,從而產生了一款中國ai大模型讓整個美國股市遭遇震盪的戲劇性一幕。
deepseek實現的訓練效率提升與訓練成本下降,在特殊的產業環境與國際環境下造成了連鎖反應。但問題是很多平時不關注ai的朋友,可能並不知道ai大模型算力越大效果越好的scaling laws,也不知道算力壟斷和禁售的背景信息,只知道短視頻上說deepseek橫空出世,歪果仁都慌了、怕了。這種缺乏前因後果的聯想,給deepseek憑空造出了一座不應屬於它的神壇。
推而廣之,我們很多人都喜歡那些天才式的、戲劇化的創新。但在現實中,往往只有通過工程化能力,不斷調優,降本,提效,技術創新才有應用和普及的可能。
比如我們都知道愛迪生發明了電燈,但容易忽略大規模電網實現了電力成本的極大下降。如果每家都要自己發電,那世界將一片漆黑。
“我們把成本打下來了。”
這句有點荒誕、俗套,略帶反諷意味的話,其實才是中國產業化能力的縮影。
我們也不妨大大方方承認,包括deepseek在內的中國ai,在未來很長一段時間裡最擅長的就是把成本給狠狠打下來。
deepseek爆火之後,很多人都說這是技術的巨大勝利。預言ai的崛起會讓人文學科和人文工作喪失價值。甚至“deepseek來了,學文科還有意義嗎?”登上了熱搜。
但如果我們多使用deepseek,仔細分析它與其他模型的區別,會發現一個相反的觀點:deepseek恰好證明了文科與人文能力,在ai時代有多麼的重要。
我們隨機問一些人,對deepseek的使用體驗是怎樣的。他們應該會說跟deepseek對話感覺更有人味。
但這種人味,在很大程度上並不是理解、推理等ai技術層面的“人味”,而是模型在對話過程中展露出來了大量的幽默感、網感,以及更加符合年輕群體的對話習慣。還有就是deepseek具有相對更精妙的修辭能力,優美的文筆,還有不錯的綜合人文素養。
這些能力,讓deepseek更貼近年輕用戶的對話習慣和審美需求,並且能夠給出更有話題度和傳播度的回答。但問題是,這些能力其實都與技術的關係不大,而是很大程度上與訓練語料的選取等人文能力緊密相關。
比如說,你讓deepseek寫首詩,它能夠寫出文藝青年熱愛的語調與修辭。但其他主流國內大模型,也能寫得平仄工整、辭藻華麗,但一眼看去就是酷似打油詩的“老乾體”。
再比如,讓deepseek預測一些未來趨勢之類的問題,它的回答會特別類似網絡科幻小說。雖然經不起推敲,但就是能讓年輕人有種非常厲害,特別燃的感覺。
這些優點的來源不是技術,而是在於研發團隊的年輕化、高審美,並且重視模型訓練過程中的人文要素。反觀很多主流大模型,由於最終聽取匯報的領導層普遍是大於45歲,缺乏人文學科背景的中年男士,最終導致大模型對話也是班味十足,打起官腔來一套又一套。與其說年輕人在支持deepseek,不如說年輕人在支持自己的話語權和審美權。
順便一提,deepseek的另一個人文優勢,是它目前還有些“百無禁忌”。然而監管的鐵拳雖遲但到,大家不必對ai的犀利和大膽有任何幻想。
deepseek以一種很巧妙的方式,實現了用戶對話體驗更好,傳播效果更優秀。這些在技術層面之外,或許能夠引起ai公司對產品體驗的反思,以及對人文能力的重視。
如果我們狂吹deepseek的技術,導致對其人文體驗的忽略,那其實也挺可惜的。
綜合以上這些側面,我們可以拼湊出一個比較完整,且不帶神聖光暈效果的deepseek:
它是一次綜合的突破。這種突破由技術創新,人文素養、開源和低成本策略等要素所構成,並且在特殊的產業周期與國際環境背景下被發酵。
deepseek不是石破天驚的技術革命,但它足夠成熟,足夠有新意。這也在某種程度上解釋了,為什麼歐美的ai大佬與專家,對其比較一致的觀點是“令人印象深刻”。
deepseek沒有一步登天,我們也不必幻想一步登天。
它就是前進了一大步,而我們也足可為邁出了這一步而自信和驕傲。
我也十分反對中國只有deepseek的言論。事實上,中國有清晰的ai產業格局,有堅實的自主化ai軟硬體體系,有數十萬ai開發者,有非常積極的ai政策導向。這些都是更多deepseek的土壤。有這些因素在,我十分篤定地認為會有更多deepseek出現在這裡。直到ai工業革命的開啟,直到agi的曙光。
何不把deepseek帶下神壇?理性從容地看待它,用好它,用好中國ai事業的一切造物,才是ai在中國真正成熟的表現。
王陽明說,山高萬仞,只登一步。deepseek這一步有它的意義,邁出這一步後,也不妨停下來聽聽山風,淺斟低唱一番。但也要清醒地知道,我們還在山間。
休息好了,高興夠了,也只有一件事要做。那就是邁出下一步。
原文網址:https://zh.gushiio.com/ai/1046.html