中美 ai 創業者閉門討論：deepseek-r1 之後，ai 創業的變化和新趨勢

chatbot 不一定會是用戶的第一款 ai 產品。

文章來源：founderpark

中美 ai 創業者閉門討論：deepseek-r1 之後，ai 創業的變化和新趨勢插图1

圖片來源：由無界ai生成

deepseek 無疑是 2025 年春節期間的焦點，從 app 登頂蘋果商店免費榜、到各個雲廠商爭相部署 deepseek-r1，deepseek 甚至成了很多人第一次體驗的 ai 產品。而對於創業者來說，從技術創新點的討論、訓練和推理成本的分析到對整個 ai 行業的影響等，大家都在聊。

2 月 2 日，founder park 和同為極客公園旗下的全球化閉門社區 global ready 組織了一場閉門討論，邀請了矽谷、國內、倫敦、新加坡、日本等地 ai 公司的 60 余位創始人與技術專家，從技術創新、產品落地、算力緊缺等角度，對 deepseek 引發的技術新方向和產品趨勢，進行了一場深度探討。

中美 ai 創業者閉門討論：deepseek-r1 之後，ai 創業的變化和新趨勢插图3

在脫敏處理後，我們整理了本次閉門討論的要點內容。

01 deepseek 的創新在哪裡？

deepseek 於 12 月底發布了 v3 基座模型，是業界目前開源的最強大的模型之一，包含 37b 激活參數，整體參數規模為 671b，是一個大型 moe（混合專家）模型。

2025 年 1 月份發布的 r1 模型的“aha moment”指的是當模型在進行推理時能夠表現出一定的反思能力。例如，在解決問題過程中，模型可能會意識到某種方法不再適用，並在過程中調整為更有效的方法。這種反思能力源自強化學習（rl）。

r1 是 deepseek 的旗艦模型，r1 在推理能力方面與 openai o1 相當，具體的實現方法可以總結為：r1 通過兩步強化學習和兩步 sft，前兩步的 rl 和 sft 主要用於構建一個數據生成的教師模型，去指導第三步的數據生成。這個模型致力於成為目前最強大的推理模型。

deepseek r1-zero 模型的核心創新在於跳過了傳統的微調（sft）過程，直接通過強化學習（rl）進行推理優化。此外，用 deepseek r1 作為教師模型，去蒸餾一個開源的中小模型（如 qwen1.7b/7b/14b/32b），能夠顯著提升小模型的能力。
代碼能力，deepseek 的 r1 和 openai 剛出的 o3 mini 不相上下，整體能力 o3 mini 稍強一些。不同之處在於 r1 是開源的，會刺激更多應用方使用 r1。
deepseek 成功的核心在於用一個高度集成化的工程方案把價格打下來。把他們的方法拆開來看，每個方法都能夠在去年的論文上找到，而 deepseek 則會非常激進地使用最新的方法。這些方法本身其實會有副作用，會帶來額外的存儲開銷，但對降低集群的空轉率有極大提升。
如果不是一個大規模集群，去給大規模的人服務的模型，mla 架構反而會有副作用。deepseek 大量的方法如果不在特定的場景和環境下去做，達不到最大的性能優化，單獨使用這些技術反而會有副作用。他們的系統設計是非常精巧的，精巧到但凡把這些技術單獨拿出來做，都產生不了他們這樣的效果。
不應該僅僅訓練一個過程獎勵模型（process reward model），因為如果只訓練這種模型，最終的效果可能無法達到預期，甚至會導致過擬合。deepseek 選擇了最原始的強化學習方法，通過啟發式規則來對最終結果進行評分，然後利用傳統的強化學習方法對過程進行修正。他們選擇的這種方法也是在不斷的試錯中做出來的，這得益於 deepseek 有足夠高效的 infra。
即使 deepseek 沒有公開其推理代碼，其他團隊也可以大概推出來用了哪些方法。開源的模型權重已經足夠讓其他團隊復現其性能，但困難在於怎麼把裡面的一些特殊配置試出來，這個需要時間。
只依賴數據標註的獎勵模型，很難達到 super human intelligence 的能力。需要一個基於真實數據或真實環境反饋的真實獎勵模型，才能實現更高級的獎勵優化，從而產生超人類智能的能力。
技術角度的推測：如果基座模型本身具有較強的通用性，再加上數學和代碼的能力，兩個部分的結合就會產生更強的泛化能力。比如有一個比較智能的基座模型，假設這個模型在寫作方面已經不錯了，那麼結合一些數學和代碼的強化學習，它有可能實現良好的泛化，最終產生一些非常強的能力。具體表現為它能寫出從駢文到絕句律詩等各種體裁的作品，而其他幾家模型在這個方面則不太行。

02 為什麼 deepseek 的成本這麼低？

模型的稀疏度非常高。儘管這是一個超過 600b 參數的大模型，但在推理的時候，每個 token 的實際激活參數非常小，只有 37b，意味著它在推理時的速度和資源消耗相當於一個 37b 參數的模型。但要實現這一點，需要對整個系統進行大量的設計改動。
在 deepseek v3 中，moe 架構包含 256 個專家模塊，但每次推理時只激活其中的一小部分。在高負載情況下，它可以動態調整資源使用率，理論上可以將成本壓縮到原來的 1/256。這種設計體現了 deepseek 在軟體架構上的前瞻性。如果系統優化做的足夠好，在同樣的量級下，價格就能大幅降低。
模型訓練時一般會有三把斧，也就是在三個維度上做並行切分。第一個是數據層面做切分並行，這個叫 data parallelism。第二個是在模型層面，因為模型的各層之間是相互獨立的，所以會在這方面做切分，這個叫 pipeline parallelism。第三個是對模型的權重做切分，分配到不同的 gpu 上，這個叫 tensor parallelism。為了配合稀疏模型設計，deepseek 對訓練框架和管線做了大量調整，在訓練過程中摒棄了 tensor parallelism，只使用了 data parallelism 和 pipeline parallelism，並在此基礎上進行了更為精細的專家並行（expert parallelism）。通過對專家數量（多達 256 個專家）進行精細劃分，將不同的專家分配到不同的 gpu 上。此外，deepseek 捨棄了 tensor paralleism，可以繞過硬體限制，使得 h800 和 h100 在訓練效能上接近。
在模型部署方面，實驗表明，其算力成本可控，且技術難度並不高，通常只需一到兩周的時間就能完成復現，這對於許多應用開發者來說是非常有利的。
一個可能的模型架構：讓 reasoning rl 不再局限於大語言模型本身，而是在外面加一個 thinking machine，來完成整個推理能力，這樣整體成本還能下降好幾個數量級。

03 chatbot 不一定會是用戶的第一款 ai 產品

deepseek r1 的成功不僅在於其推理能力，還在於其結合搜索功能，reasoning model+搜索某種程度上相當於一個 micro agent 的框架。對於大多數用戶來說，這是他們第一次體驗推理模型。對於已經使用過其他推理模型（如 openai 的 o1）的用戶來說，結合搜索功能的 deepseek r1 又是一種全新的體驗。
對於沒有使用過 ai 產品的用戶，他們的第一款 ai 產品不一定是 chatgpt 這樣的語言交互類產品，可能是由模型驅動的另外一個場景下的產品。
ai 領域應用型公司的競爭壁壘在於產品體驗。誰能做得更快、更好，提供讓用戶覺得更舒適的功能，誰就能在市場中占據競爭優勢。
目前能夠看到模型呈現出的思考過程是一個令人滿意的設計，但它更像是用強化學習（rl）來提升模型能力的一個比較早期的工作。推理過程的長度並不是衡量最終結果正確性的唯一標準，未來會從複雜的長推理過程轉向更簡潔的短推理過程。

04 垂直場景 ai 落地更容易了

對於相對垂直的任務（vertical task），任務評估可通過規則系統（rule system）完成，不需要依賴複雜的獎勵模型（rewarding model）。在設定好的垂直任務上，類似 tiny zero 或者是 7b 的模型能夠快速得到可用結果。
在一個設定好的垂直任務上，用 deepseek 蒸餾過的 70 億參數或更大的模型做訓練，能夠快速得到“aha moment”。從成本角度看，在 7b 模型上做簡單算術題或 21 點等有明確答案的任務，只需要 2-4 張 h100 或 h200，花不到半天時間，模型即可收斂到可用狀態。
使用監督微調（sft）或類似方法時，很難解決耗時的數據集查詢，且這些數據集的領域分布（domain distribution）往往難以全面覆蓋任務的所有層級。現在有了一個新的、更好的工具庫，配備一個高質量模型，可以解決過去數據收集困難和有明確答案的垂直任務。
僅僅基於規則系統（rule-based），雖然數學和代碼可以定義出比較明確的規則，但如果要應對更複雜或者更開放的任務，依賴規則系統會變得非常困難。所以大家最終可能會探索出更合適的模型，用來評估這些複雜場景的結果。可能會採用 orm（結果導向的獎勵函數）而不是 prm（過程導向的獎勵函數）的方法，或者探索其他類似的方法。最終，可能會構建出類似“世界模型”的模擬器，為各種模型的決策提供更好的反饋。
用小模型去訓練推理能力的時候，甚至不需要依賴基於 token 的解決方案。在某個電商方向的解決方案中，直接將整個推理能力從基於 transformer 的模型中剝離出來，使用另一個小模型來完成所有的推理工作，結合 transformer 來實現整個任務。
對於那些研發模型是為自己所用的公司（如對沖基金），挑戰在於成本問題。大公司可以通過拉客戶攤平成本，但小團隊或公司難以承受高昂的研發成本。deepseek 的開源對他們的意義重大，相當於之前無法承擔高昂研發成本的團隊現在也能夠搭建模型了。
在金融領域，尤其是量化基金中，通常需要分析大量財務數據，例如公司財報和 bloomberg 數據等。這些公司通常會構建自己的數據集並進行監督訓練（supervised training），但數據標註的成本非常高。對於這些公司而言，強化學習（rl）在微調（fine-tuning）階段的應用，可以顯著提升模型性能，實現質的飛躍。

05 國產晶片有望解決推理算力問題

國內現在對標 a100、a800 晶片還是挺多的，但國產晶片最大的瓶頸不在於晶片設計，而是在於流片。deepseek 去適配華為也是因為後者相對而言能穩定出片，在後續更嚴苛的制裁下也能夠保證穩定的訓推。
英偉達往後發展，從單卡訓練的角度來看，這些高端晶片在某些應用場景下存在算力過剩的情況。例如，單卡的算力在訓練階段可能因額外的緩存和內存限制而無法充分發揮，導致其並非最適合訓練任務。
國內晶片市場，如果完全專注於 ai 應用，不考慮科學計算，將高位浮點運算能力大幅削減，只專注於 ai 任務，可以在部分性能指標上追趕英偉達的旗艦晶片。

06 更強大的 agent 、以及跨應用調用能力

對於很多垂直領域來說，agent 的能力會有較大的提升。可以先拿出一個基礎模型，把一些規則做成規則模型（rule model），這個規則模型可能是一個純粹的工程解決方案（pure engineering solution）。然後，可以用這個工程解決方案來讓基礎模型在上面進行疊代（iteration）和訓練（training）。你可能會得到一個結果，這個結果已經出現一些超人類智能（super human intelligence）的能力。在這個基礎上，再進行一些偏好調整（preference tuning），讓它的回答更加符合人類的閱讀習慣（human-readable），這樣你可能就能得到一個在某個垂直領域上更強大的推理 agent;
這可能會帶來一個問題，你可能無法擁有在所有垂直領域都具有很強泛化能力的 agent。在一個特定領域訓練出一個 agent 後，它只能在那個領域工作，而無法泛化到其他垂直領域。但這是一個可能的（落地）方向，因為 deepseek 本身帶來的推理成本（inference cost）很低，可以選擇一個模型，然後進行一系列強化訓練，訓練完成後，它只服務於某個垂直領域，不再關心其他垂直領域。對於垂類 ai 公司來說，這是一個可以接受的解決方案。
從學術視角來看，未來一年的一個重要趨勢是，強化學習中的一些既有方法將會被轉移到大模型的應用中，解決當前泛化性不足或評估不準確的問題。通過這種方式，可以進一步提升模型的性能和泛化能力。隨著強化學習的應用，結構化信息輸出的能力將大大提升，最終能夠更好地支持各類應用場景，尤其是提高圖表和其他結構化內容的生成效果。
越來越多人可以用 r1 做 post training，每個人都可以做出自己的 agent。模型層會變成不同的 agent model，用不同的工具來解決不同領域的問題，最終實現 multi agent system。
2025 年可能成為智能體（agent）元年，許多公司將推出具備規劃任務能力的智能體。然而，目前缺乏足夠的數據來支持這些任務。例如，規劃任務可能包括幫助用戶點外賣、預訂旅行、判斷景點門票的餘量等。這些任務需要大量的數據和獎勵機制來評估模型的準確性，例如規划去張家界的行程，如何判斷正確與錯誤，以及如何進行模型學習。這些問題將成為下一步的研究熱點，推理能力最終將用於解決實際問題。
2025 年跨應用調用的能力將成為一個熱點。在安卓系統中，由於其開源特性，開發者可以通過底層權限實現跨應用操作，agent 未來能夠控制你的瀏覽器、手機、電腦等設備。然而在蘋果生態中，由於嚴格的權限管理，agent 要完全控制設備上的所有應用還面臨很大困難，蘋果必須自主開發能夠控制所有應用的智能體。安卓系統雖然是開源的，但仍需與 oppo、華為等廠商合作，才能在手機、平板和電腦等設備上實現底層權限的開放，從而獲取數據並支持智能體的發展。