實測告訴你:deepseek-r1 7b、32b、671b差距有多大?

文| 大模型之家

deepseek-r1 7b、32b、671b差距有多大?

先說結論,相比“滿血版”671b的deepseek-r1,蒸餾版差不多就是“牛肉風味肉卷”和“牛肉卷”的差距…

實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图1實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图2

最近deepseek成為了ai圈中最火爆的話題,一方面通過稀疏激活的moe架構、mla注意力機制優化及混合專家分配策略等創新手段,實現了高效的訓練和推理能力,同時大幅降低了api調用成本,達到了行業領先水平。另一方面,deepseek更是以7天實現用戶數破億的速度,一舉超越了openai的chatgpt(chatgpt為2個月)。

網上關於本地部署deepseek-r1的教程,更是如同雨後春筍般出現在各個網絡平台上。然而,這些本地部署教程往往會告訴你deepseek-r1有多強大,但不會告訴你本地部署的“蒸餾版”deepseek-r1相比“滿血版”究竟有多差。

值得注意的是,目前公開發布的小尺寸的deepseek-r1模型,均是通過qwen或llama從r1中蒸餾過來,尺寸有所縮小,以適應不同性能設備調用deepseek-r1模型。

換句話說,無論是7b還是32b的deepseek-r1,本質上更像是“r1味兒”的qwen模型,差不多是“牛肉風味肉卷”和“牛肉卷”的差距。雖然擁有前者部分特性,但更多是後者照貓畫虎實現類似的推理功能。

毋庸置疑的是,隨著模型尺寸的縮小,其性能也會變得更差,與“滿血版”r1的差距也會更大。而今天,大模型之家就帶你來看看,不同尺寸的deepseek-r1與“滿血版”差距究竟有多大?

語言能力測試

在語言能力測試環節,大模型之家讓7b、32b、671b的deepseek-r1,分別用“新年快樂萬事如意”寫一首藏頭詩。

在這個似乎已經被各大模型“玩爛了”的場景下,在很多人看來是llm最小兒科的場景。

然而正如那句“如果不出意外的話,就要出意外了”。在這一環節中,7b版本的r1竟然率先出現了bug!

實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图4實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图5

可以看到,左邊的7b版本r1的輸出結果既沒能“藏頭”,也不像一首“詩”,甚至還在文中開始說起了英語。顯然,在最基礎的文字生成能力上,7b並沒有達到“及格線”。

相比之下,32b的r1可以正常輸出文本內容,成功完成了“藏頭詩”的創作。雖然從押韻方面存在些許瑕疵,但勝在七言律詩對仗工整,內容上也沒有邏輯錯誤。

實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图7實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图8

當然,效果最好的還要數“滿血版”的r1,不僅對仗工整,韻腳得體,同時還給出了詩詞的賞析內容。明確了“新年快樂萬事如意”的“藏頭詩”背後,寄寓了對新歲萬事順遂的美好祝願。

實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图10實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图11

為了探究是否是因為小尺寸導致語言能力下降,大模型之家還採用了尺寸相近的9b的glm4用同樣的提示詞進行測試。結果發現在語言表達能力方面,glm4並不輸給deepseek-r1,可見,當r1規模小到一定程度時,其基本的文本能力方面也會受到嚴重影響。

聯網總結測試

在測試完語言能力之後,我們在將r1與網絡搜索相結合,測試一下不同尺寸下,對於網絡內容的匯總能力。

大模型之家以一首杜甫的《登高》來測試一下r1大模型在聯網狀態下的表現。

實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图13實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图14

乍一看7b模型輸出的表現足夠優秀(左),但是實際測試中,大模型之家發現7b模型的輸出結果並不穩定。偶爾會出現右邊對於詩詞理解出現偏差的場景,由此也能夠看出,在同等的網絡搜索情況下,r1模型因為尺寸縮小,在語言理解與生成能力方面受到了較大的影響。

實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图16實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图17

相比之下,32b的r1輸出就相對穩定,雖然在輸出結果上會存在顯示“整首詩”和“一句詩”的左右橫跳,但對於詩詞內容理解的準確性有了較大提高。

實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图19實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图20

而“滿血版”r1依舊是表現最為優秀,不僅能夠完整展示詩句內容,同時還會在答案中增加一些點評與背景陳述,增加回答的知識性與專業性。

另一組測試,大模型之家選用了目前遊戲中某角色的配隊,來測試7b與32b的語言理解能力。

實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图22實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图23

在這一組測試中,7b模型出現了遊戲中不存在的角色,而32b則能夠準確把握角色名稱,同時,在配隊的推薦理由方面,32b模型給出的內容也更加科學合理。

邏輯推理測試

而在測試的第二個環節,我們用一道經典的“雞兔同籠”問題來考考不同尺寸的r1模型。提示詞為:一個籠子,裡頭有雞和兔子,一共有25個頭和76隻腳,請問籠子裡邊雞和兔子各有多少只?

實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图25實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图26

也許是“雞兔同籠”的問題對於r1而言過於簡單,那麼換一道更難的“一個三稜柱的上底和下底為兩個等腰直角三角形,每個等腰三角形的直角邊長為16。直稜柱的高度等於等腰直角三角形的斜邊長度。求直稜柱的表面積。& rdquo;

實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图28實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图29

比較令人驚訝的是,無論是7b還是32b的模型,都可以輸出正確的答案。可見,在數學運算能力方面,蒸餾儘可能保留了r1模型的數學能力。

代碼能力測試

最後,讓我們再來對比一下7b與32b的代碼能力。這個環節,大模型之家要求r1編寫一個“可以在瀏覽器上打開的貪吃蛇遊戲”

實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图31實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图32

代碼太長,讓我們直接來看生成好的結果:

實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图34實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图35

deepseek-r1 7b的生成的遊戲程式存在bug,只是一張靜態的圖片,蛇無法移動。

實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图37實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图38

而deepseek-r1 32b的生成的遊戲程式可以正常運行,可以通過鍵盤方向鍵控制蛇的正常移動,同時面板可以正常計分。

本地部署門檻高,普通用戶慎嘗試

從一系列的測試看來,deepseek-r1的7b、32b,都與“滿血版”671b存在比較明顯的差距,因此本地部署更多是用來搭建私有資料庫,或讓有能力的開發者進行微調與部署使用。對於一般用戶而言,無論從技術還是設備門檻都比較高。

官方測試結論也顯示,32b的deepseek-r1大約能夠實現90%的671b的性能,且在aime 2024、gpqa daimond、math-500等部分場景之下效果略優於openai的o1-mini。

實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图40實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图41

而在實際體驗中,也能夠看到與官方測試結論基本吻合,32b以上模型勉強尚有本地化部署的可用性,而再小尺寸的模型在基礎能力方面有些過於薄弱,甚至輸出結果不敵同尺寸其他模型。尤其是網絡上大量的本地部署教程所推薦的1.5b、7b、8b尺寸模型,還是忘了它們吧……除了配置需求低、速度快,用起來並不理想。

實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图43實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图44

左為7b模型生成信息、右為32b模型生成信息 前者生成速度是後者3.5倍

所以,從結論上來說,如果你真想本地部署一個deepseek-r1模型,那麼大模型之家建議從32b起步開始搭建,才有相對完整的大模型體驗。

那麼,部署32b模型的代價是什麼呢?

實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图46實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图47

圖片來源:51cto

運行32b的r1模型,官方建議是64gb內存和32-48gb顯存,再配合對應的cpu,一台電腦主機的價格大約在20000元以上。如果以最低配置運行,(20gb內存+24gb顯存),價格也要超過萬元。(除非你買api)

實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图49實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图50

筆者所使用的設備是m2 max的macbook pro(12核cpu+30核gpu+32gb統一內存),在運行32b模型時,每秒僅能輸出8-9 tokens,生成速度很慢,同時整機功耗持續維持在60-80w,這也意味著,如果用電池供電持續使用大模型,僅有1個小時的使用時間。

不僅如此,本地化部署r1大模型後,還需要附加的方式為模型增加聯網功能或本地化資料庫,否則模型內的數據會與日新月異的網際網路脫節,體驗上多數情況遠不及目前已經全面接入聯網功能的免費大模型產品。

所以,對於大多數普通用戶而言,你費勁心力搭建的本地大模型,可能真的未必有市面上主流的免費大模型產品來得簡單、方便、效果好,更多只是讓你過一把部署本地大模型的癮。

實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图52實測告訴你:deepseek-r1 7b、32b、671b差距有多大?插图53

deepseek系列模型的成功不僅改變了中美之間的技術競爭格局,更對全球範圍內的科技創新生態產生了深遠影響。據統計,已經有超過50個國家與deepseek達成了不同程度的合作協議,在技術應用和場景開發方面展開深度合作。

從deepseek引發的全球關注可以看出,人工智慧已經成為重塑國際格局的重要力量。面對這場前所未有的科技變革,如何將技術創新優勢轉化為持續的競爭能力,同時構建開放包容的合作網絡,將是未來面臨的關鍵挑戰。對於中國而言,這不僅是一場技術實力的較量,更是一場科技創新話語權的爭奪。

原文網址:https://zh.gushiio.com/ai/1026.html

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *