deepseek的“伺服器繁忙”讓所有人抓狂，背後究竟是怎麼回事

deepseek的“伺服器繁忙”讓所有人抓狂，背後究竟是怎麼回事插图1 image source: generated by ai

deepseek頻頻回復的“伺服器繁忙，請稍後再試”，正在讓各地用戶抓狂。

此前不太被大眾所知的deepseek，因2024年12月26日推出對標gpt 4o的語言模型v3而聲名鵲起。在1月20日deepseek又發布對標openai o1的語言模型r1，之後因為“深度思考”模式生成的答案優質度高，以及其創新揭示出模型訓練前期成本可能驟降的積極信號，令該公司和應用徹底出圈。之後，deepseek r1就一直在經歷擁堵，它的聯網搜索功能間歇性癱瘓，深度思考模式則高頻率提示“伺服器繁忙”，此類現象讓大量用戶倍感困擾。

十幾日前，deepseek開始經歷伺服器中斷，1月27日中午，deepseek官網已數次顯示“deepseek網頁/api不可用”，當日，deepseek成為周末期間iphone下載量最高的應用程式，在美區下載榜超越了chatgpt。

deepseek的“伺服器繁忙”讓所有人抓狂，背後究竟是怎麼回事插图3

2月5日，deepseek移動端上線26天，日活突破4000萬，chatgpt移動端日活為5495萬，deepseek為chatgpt的74.3%。幾乎在deepseek走出陡峭增長曲線的同時，關於其伺服器繁忙的吐槽紛至沓來，全世界用戶都開始遭遇問幾個問題就發生宕機的不便，各類替代訪問也開始出現，比如deepseek的平替網站，各大雲服務商、晶片廠商和基礎設施公司都紛紛上線，個人部署教程也到處都是。但人們的抓狂卻沒有緩解：全球幾乎所有重要廠商都宣稱支持部署了deepseek，但各地用戶卻依然在吐槽服務的不穩定。

這背後到底發生了什麼？

1、習慣了chatgpt的人們，受不了打不開的deepseek

人們對“deepseek伺服器繁忙”的不滿，來自於此前以chatgpt為主的ai頂流應用們，甚少出現卡頓。

自openai服務推出以來，chatgpt雖然也經歷了幾次p0級別（最嚴重的事故級別）宕機事故，但總體來說，它相對可靠，已然在創新和穩定性之間找到平衡，並逐步成為類似傳統雲服務的關鍵組成部分。

deepseek的“伺服器繁忙”讓所有人抓狂，背後究竟是怎麼回事插图5

chatgpt大範圍宕機次數並不算多

chatgpt的推理過程相對穩定，包括編碼和解碼兩個步驟，編碼階段把輸入文本轉換成向量，向量包含輸入文本的語義信息，解碼階段，chatgpt使用先前生成的文本作為上下文，通過transformer模型生成下一個單詞或短語，直到生成符合需求的完整語句，大模型本身屬於decoder（解碼器）架構，解碼階段就是一個個token（大模型處理文本時的最小單位）的輸出過程，每向chatgpt提問一次，就啟動一次推理流程。

舉例來說，如果向chatgpt提問，“你今天心情如何”，chatgpt會對這句話進行編碼，生成每層的注意力表示，根據之前所有token的注意力表示，預測得到第一個輸出token"我"，之後進行解碼，將“我”拼接到“你今天心情如何？”，後面得到“你今天心情如何？我”，得到新的注意力表示，然後預測下一個token :"的"，之後按照第一步，第二步循環，最終得到“你今天心情如何？我的心情很好。”

編排容器的工具kubernetes是chatgpt的“幕後指揮官”，它負責調度和分配伺服器資源。當湧入的用戶承載完全超出kubernetes控制平面的承受能力時，就會導致chatgpt系統的全面癱瘓。

chatgpt發生癱瘓的總次數不算太多，但這背後是它依靠的強大資源作為支撐，維持穩定運轉背後是強大算力，而這是人們忽視的地方。

一般而言，由於推理處理的數據規模往往較小，因此對算力的要求不如訓練般高。有業界人士估算指出，在正常大模型推理過程中，顯存的主要占用模型參數權重占大頭，大概占比在80%以上。現實情況是，在chatgpt內置的多個模型中，裡面默認模型尺寸都比deepseek-r1 的671b要小，加上chatgpt擁有比deepseek多得多的gpu算力，自然展現出比ds- r1更為穩定的表現。

deepseek-v3與r1都是一個671b的模型，模型啟動過程就是推理的過程，推理時的算力儲備需要與用戶量相襯，比如有1億用戶量就需配備1億用戶量的顯卡，不僅龐大，且與訓練時的算力儲備獨立開來，並不相關。從各方信息看，ds的顯卡和算力儲備明顯不足，於是頻頻卡頓。

這種對比讓適應了chatgpt絲滑體驗的用戶並不習慣，特別是他們對r1的興趣愈發高漲的當下。

2、卡，卡，還是卡

而且，仔細對比，openai和deepseek遇到的情況是很不同的。

前者有微軟做後盾，作為openai的獨家平台，微軟azure雲服務搭載了chatgpt、dalle-e 2圖像生成器、github copilot自動編碼工具，此後，這一組合成為了雲+ai的經典範式，並快速普及成為業界標配;後者雖是初創，卻大部分情況下依靠自建數據中心，與谷歌類似，而不依賴第三方雲計算提供商。矽星人查閱公開信息後發現，deepseek在任何層面都沒有跟雲廠商晶片廠商開啟合作（雖然春節期間雲廠商紛紛宣布讓deepseek模型跑在其上，但他們並沒有開展任何真正意義的合作）。

而且，deepseek遇到了史無前例的用戶增長，這意味著它對應激情況的準備時間也比chatgpt更少。

deepseek的良好性能來自其在硬體和系統層面做出的整體優化。deepseek的母公司幻方量化，早在2019年就花了2億打造螢火一號超算集群，到22年就默默存儲萬張a100顯卡，為了更高效的並行訓練，deepseek自研了hai llm訓練框架。業界認為，螢火集群可能採用了數千至數萬張高性能gpu（如英偉達a100/h100或國產晶片），以提供強大的並行計算能力。目前螢火集群支撐了deepseek-r1、deepseek-moe等模型訓練，這些模型在數學、代碼等複雜任務中表現接近於gpt-4水平。

螢火集群代表著deepseek在全新架構和方法上的探索歷程，也讓外界認為，通過這類創新技術，ds降低了訓練的成本，可以僅需西方最先進模型幾分之一的算力，就訓練出與頂級ai模型性能相當的r1。semianalysis經推算指出，deepseek實際擁有龐大的算力儲備：deepseek共堆砌了6萬張英偉達gpu卡，其中包括1萬張a100、1萬張h100、1萬張“特供版”h800以及3萬張“特供版”h20。

這似乎意味著r1的卡量比較充足。但實際上，作為推理模型的r1，對標的是openai的o3，這類推理模型需要部署更多算力用於應答環節，但ds在訓練成本側節約的算力，與推理成本側驟增的算力，孰高孰低，目前並不明確。

值得一提的是，deepseek-v3和deepseek-r1都是大語言模型，但運作方式有差。deepseek-v3 是指令模型，類似chatgpt，接收提示詞生成相應文本進行回復。但deepseek-r1是推理模型，用戶向r1提問時，它會首先進行大量的推理過程，然後再生成最終答案。r1生成的token中首先出現的是大量的思維鏈過程，模型在生成答案之前，會先解釋問題，分解問題，所有這些推理過程都會以token的形式快速生成。

在耀途資本副總裁溫廷燦看來，前述deepseek龐大的算力儲備是指訓練階段，訓練階段算力團隊可規劃，可預期，不容易出現算力不足，但推理算力則不確定性較大，因為主要取決於用戶規模和使用量，相對來說彈性較大，“推理算力會按照一定規律增長，但隨著deepseek成為現象級產品，短時間內用戶規模和使用量爆炸性增長，這導致推理階段算力需求爆炸性增長，所以出現卡頓。”

即刻上活躍的模型產品設計師，獨立開發者歸藏認同卡量是deepseek卡頓的主因，他認為ds作為當前在全球140個市場下載量最高的移動應用，現在的卡無論如何都撐不住，哪怕用新的卡也不行，因為“新的卡做雲是需要時間”。

“英偉達a100、h100等晶片運行一個小時的成本有公允的市場價格，deepseek從輸出token的推理成本上看是比openai同類模型o1便宜90%以上，這個跟大家的計算偏差不大，因此模型架構moe本身不是最主要問題，但ds擁有的gpu數量決定了他們每分鐘最多可以生產提供的token數，即便可以把更多gpu用來做推理服務用戶，而不用於預訓練研究，但上限在那擺著。”ai原生應用小貓補光燈的開發者陳雲飛持類似觀點。

也有業界人士向矽星人提到，deepseek卡頓本質在於私有雲沒有做好。

黑客攻擊則是r1卡頓另一驅動因素。1月30日，媒體從網絡安全公司奇安信獲悉，針對deepseek線上服務的攻擊烈度突然升級，其攻擊指令較1月28日暴增上百倍。奇安信xlab實驗室觀察到至少有2個殭屍網絡參與攻擊。

但這種r1自身服務的卡頓，有一個看起來比較顯然的解決方案，是第三方提供服務。這也是我們在春節期間目睹的最為熱鬧的景觀–各家廠商紛紛部署服務，承接人們對deepseek的需求。

1月31日，英偉達宣布，nvidia nim已經可以使用deepseek-r1，此前英偉達受deepseek影響，一夜市值蒸發近6000億美金。同天，亞馬遜雲aws的用戶可以在其人工智慧平台，amazon bedrock和amazon sagemaker ai中部署deepseek最新r1基礎模型。隨後，包括perplexity，cursor在內的ai應用新貴，也批量接入deepseek。微軟則搶在亞馬遜、英偉達之前，率先把deepseek-r1部署在了雲服務azure和github上。

2月1日大年初四開始，華為雲，阿里雲，字節跳動旗下的火山引擎和騰訊雲也加入其間，他們一般提供的是deepseek全系、全尺寸模型部署服務。再之後是壁仞科技、瀚博半導體、升騰、沐曦等ai晶片廠商，他們自稱適配了deepseek原版或更小尺寸的蒸餾版本。軟體公司方面，用友、金蝶等是在部分產品中接入deepseek模型，增強產品力，最後是終端廠商如聯想、華為、榮耀旗下部分產品接入deepseek模型，用作端側個人助手和汽車智能座艙。

迄今，deepseek依靠自身價值吸引來了全面龐大的朋友圈，囊括海內外雲廠商、運營商、券商和國家級平台國家超算網際網路平台。由於deepseek-r1是完全開源的模型，接入的服務商都成為了ds模型的受益方。這一方面極大抬高了ds的聲量，也同時造成了更為頻繁的卡頓現象，服務商和ds自身越來越受困於蜂擁而至的用戶，竟都沒有找到解決穩定使用問題之關鍵竅門。

考慮到deepseek v3與r1兩個模型原版都高達6710億參數，適合跑在雲上，雲廠商本身具備更充足的算力和推理能力，他們上線deepseek相關部署服務是為降低企業使用的門檻，其部署deepseek模型後對外提供ds模型的api，相比ds自己提供是的api，本被認為是可以提供比ds官方更好的使用體驗。

但現實中，deepseek-r1模型自身運行的體驗問題，在各家服務中都沒有得到解決，外界認為服務商們並不缺卡，但實際上他們部署的r1，開發者們對反應體驗不穩定的反饋，頻度完全與r1相當，這更多在於能分配給r1進行推理的卡量也並不太多。

deepseek的“伺服器繁忙”讓所有人抓狂，背後究竟是怎麼回事插图7

“r1熱度保持在高位，服務商需要兼顧接入的其他模型，能提供給r1的卡很有限，r1的熱度又高，誰家一上r1，又以相對較低的價格提供，就會被衝垮。”模型產品設計師，獨立開發者歸藏對矽星人解釋了原因。

模型部署優化是一個涵蓋眾多環節的寬泛領域，從訓練完成到實際硬體部署，涉及多層面工作，但對於deepseek的卡頓事件來說，原因可能更為簡單，比如太大的模型和上線之前的優化準備不足。

一個熱門大模型上線之前，會遇到涉及技術、工程、業務等多方挑戰，比如訓練數據與生產環境數據的一致性，數據延遲與實時性影響模型推理效果，線上推理效率和資源占用過高，模型泛化能力不足，以及工程方面像服務穩定性、api與系統集成等方面。

很多當紅大模型上線之前都高度重視做好推理優化，這是因為計算耗時和內存問題，前者是指推理時延太長，造成用戶體驗差，甚至不能滿足延遲需求，也就是卡頓等現象，後者是指模型參數量多，耗費顯存，甚至單張 gpu 卡放不下，也會導致卡頓。

溫廷燦對矽星人解釋了原因，他稱服務商提供提r1服務遇到挑戰，本質是ds模型結構特殊，模型太大+moe（專家混合結構，一種高效計算的方式）架構，“（服務商）優化需要時間，但是市場熱度是有時間窗口的，所以都是先上再優化，而不是充分優化後上線。”

r1要想穩定運行，如今核心在於推理側的儲備和優化之能力。deepseek需要做的是，找到方式把推理的成本降下來，把卡的輸出，單次輸出token的數量降下來。

與此同時，卡頓也說明ds本身的算力儲備很可能也沒有semianalysis所述龐大，幻方基金公司要用卡，deepseek訓練團隊也要用卡，能排出來給用戶的卡一直不多。按照目前發展情形看，短期內deepseek未必有動力花錢租服務，繼而免費提供給用戶更好的體驗，他們更可能等到第一波c端商業模式梳理清晰之後，再考慮服務租賃的議題，這也意味著，卡頓還會持續不短的時間。

“他們大概需要兩步動作：1）做付費機制，限制免費用戶模型用量;2）找雲服務廠商合作，用上別人的gpu資源。”開發者陳雲飛給出的臨時解法在業界頗有共識。

但目前來看，deepseek對自己這個“伺服器繁忙”問題顯得並不太著急。做為一家追逐agi的公司，deepseek似乎不願太著眼於這蜂擁而來的用戶流量。可能用戶們在未來不短時間裡還是要習慣面對“伺服器繁忙”的界面了。

原文網址：https://zh.gushiio.com/ai/1526.html