李飛飛團隊花146元復現ai模型,性能比肩deepseek
(圖片來源:the verge)
中國開源 ai 公司深度求索(deepseek)熱潮不斷加劇,已成為全民熱議的話題,同時也掀起一股新的ai熱潮。而當前,美國企業界、學術界、政府機構紛紛開啟“反擊”熱潮。
首先是美國企業層面,gushiio.com股市智能agi獲悉,2月7日凌晨,美國openai公司宣布對o3-mini和o3-mini high模型進行更新,為免費和付費用戶增強推理步驟的透明度,同時為gpt服務增加內存,以及公開o3-mini推理思維鏈。
前一日,谷歌則發布“滿血版”gemini 2.0模型,將推理ai模型gemini 2.0 flash thinking引入應用以回答覆雜問題。谷歌ceo皮查伊(sundar pichai)表示,其計劃2025財年投資750億美金用於發展ai技術,以對抗deepseek和openai等競爭對手。
其次是學術界,近期一份模型研究論文引發關注。美國史丹福大學教授李飛飛等ai研究人員,僅花費不到50美金(約合人民幣364.61元)雲計算資源,以阿里通義qwen2.5-32b-instruct為基礎模型,通過sft監督微調方式,最終訓練出開源ai“推理”模型s1,在數學和編碼能力測試中與openai的o1和deepseek的r1等尖端推理模型不相上下。該論文作者表示,訓練s1所需的租用計算成本最終僅大約在20美金(約合146元)。
最後是立法機構。據報導,美國眾議員拉胡德(r-ill.)和戈特海默(d-n.j.)以數據安全為由,這兩天將在美國國會出台一項針對deepseek的法案,禁止在聯邦政府的設備上使用該產品。更早之前,美國參議員josh hawley提出《美國ai能力與中國脫鉤》法案,稱任何下載或使用deepseek的行為將被定性為犯罪,最高可判處20年監禁。
很顯然,隨著deepseek熱度提升,從美國民間到國會機構,從學術界到產業界,都在尋找對抗deepseek解決方案。同時,義大利、澳大利亞、韓國等國家相繼出台政策,對deepseek進行限制和封殺。
國內ai行業人士李丹(化名)2月6日對gushiio.com股市智能agi表示,deepseek的成功至少證明現階段美國無法通過限制晶片出口卡死中國ai發展,通過開源技術和有限的算力仍能追上,但長期來看,算力和數據限制下,未來中國ai創新技術依然“無法超越”美國技術,中國需要在商業化應用層面做更多的工作。
中國常駐聯合國代表傅聰表示:“永遠不要低估中國科研人員的聰明才智。deepseek引發全球轟動和一些人的焦慮恐慌,說明技術遏制和技術限制無法奏效,這是全世界、特別是美國需要學習的一課。& rdquo;
不到50美金,李飛飛團隊給deepseek一記重拳
“ai 界拼多多”deepseek熱潮帶來的擁抱、恐慌和對抗仍在持續。
在國內,短短六天內,騰訊雲、阿里雲、華為雲、百度智能雲、火山引擎等數十家雲計算服務龍頭,華為升騰、沐曦、摩爾線程、壁仞等10多家國產ai晶片企業,國內三大運營商移動、聯通、電信相繼宣布適配、上架或接入deepseek模型服務。
然而,這種全民使用造成了deepseek平台伺服器算力不足問題。2月6日,deepseek證實已暫停api服務充值,“當前伺服器資源緊張,為避免對您造成業務影響,我們已暫停api服務充值。存量充值金額可繼續調用,敬請諒解!& rdquo;
官方價目表顯示,deepseek-chat 模型優惠期至2月8日24時,優惠結束後將按每百萬輸入tokens達2元,每百萬輸出tokens計費8元;deepseek-reasoner輸入4元、輸出16元。
同日晚間,deepseek發文強調:近期注意到部分與 deepseek 有關的仿冒帳號和不實信息對公眾造成了誤導和困擾。& ldquo;目前除 deepseek 官方用戶交流微信群外,我們從未在國內其他平台設立任何群組,一切聲稱與 deepseek 官方群組有關的收費行為均系假冒,請大家仔細辨別,避免財產損失。感謝大家一如既往的支持與關心,我們將再接再厲研發更加創新、專業、高效的模型,並持續與開源社區分享。& rdquo;
相較於國內欣欣向榮,美國則開始復現模型,呈現成本更低的ai創新發展模式。
2月初,華裔科學家李飛飛等史丹福大學和華盛頓大學的研究人員以不到50美金的雲計算費用,僅僅用了 1000 個樣本,用了 16 塊 h100,在 26 分鐘就訓練完成了可以匹敵 o1-preview、deepseek r1的開源 ai 推理模型s1,具有320億規模參數。
根據論文,這個模型以阿里通義團隊的qwen2.5- 32b-instruct作為基礎模型,通過蒸餾、sft等多個技術方式谷歌deepmind的推理模型gemini 2.0 flash thinking實驗版,最終得到了s1模型,而其在數學和編碼能力測試中的表現確實不俗。s1模型作者之一表示,訓練s1所需的計算資源,在當下使用約合146元就能租到。
目前,項目論文《s1: simple test-time scaling》已經登上arxiv,模型s1也已在github上開源,研究團隊提供了訓練它的數據和代碼。
gushiio.com股市智能agi根據論文分析,需要特別分享三個新的技術點:蒸餾、sft和測試時干預 (test-time intervention)。
所謂蒸餾模型,是一種通過模型數據蒸餾技術得到的模型,核心原理是將大型複雜的教師模型知識傳遞給小型簡單的學生模型,涉及溫度參數調整輸出概率分布及多種損失函數來實現知識遷移,有知識、特徵、關係蒸餾等方法,以及離線、在線、自蒸餾等策略,廣泛應用於移動端部署、實時推理、邊緣計算等場景,能在減少模型計算成本和存儲需求的同時保持較好性能,包括deepseek r1、s1等模型都採用了“蒸餾”策略。
在矽谷投資人王維嘉博士看來,“蒸餾”技術就是“用大模型教小模型”,實際上是把某一方向的垂直知識從大模型里提煉出來,放到一個小模型裡面,這樣就不用從頭訓練小模型。& ldquo;就像蘇格拉底、亞里士多德全、達文西可以培養出一個數學老師,一個物理老師,一個化學老師,這就是蒸餾。說蒸餾一般人不是特別理解,你說師傅帶徒弟就全明白了。& rdquo;
根據論文,在s1模型當中,研究人員從 16 個不同來源收集59,029個問題,包括numinamath、math、olympicarena(全是數學)以及一些原創數據集,隨即去重、去污染處理,最終減少到51581個樣本,以及高質量的384個樣本,且使用阿里通義的qwen2.5-7b-instruct 和 qwen2.5-32b-instruct 兩個模型來評估每個問題的難度。
因此,最終s1數據集包含各種數學和其他科學領域的難題,並具有高質量的推理軌跡(抽數、蒸餾),數據集進一步減少到24496個樣本,實現模型訓練、推理。
而sft,即監督微調技術,是機器學習領域的常用技術,先在大規模無監督數據集上對基礎模型預訓練,讓其掌握數據基本結構和知識,接著收集特定任務的標註數據集,將預訓練模型在標註數據上進一步訓練,通過計算預測結果與正確標註間的損失值,用優化算法調整模型參數,讓模型在特定任務上的預測更精準。該技術在自然語言處理的文本分類、對話系統,以及圖像處理、推薦系統等領域都有廣泛應用。
s1模型論文上,研究人員大量使用監督微調技術,用篩選出的樣本與阿里通義模型進行評估和反饋,利用sft讓s1模型達到一個比較好的目標。
最後需要關注的是測試時干預時間,這將決定模型推理的最終性能和目標。
通過各種方法對模型的輸出或決策過程進行調整、優化或影響,“測試時干預”可以改善模型在測試時的性能表現、提高預測準確性、增強模型的穩定性或可解釋性等,這些方法可能包括對輸入數據進行特定的預處理、引入額外的信息或約束、調整模型的參數或超參數、應用特定的後處理策略等。在s1模型當中,測試時干預主要通過 “預算強制 (budget forcing)” 和 “拒絕採樣 (rejection sampling)” 兩種方法來實現,最終讓s1模型擁有更好的思維鏈(cot)能力,以及能夠更好地控制推理行為,提高問題解決能力。
所以,正如論文所講,s1模型的作用在於,具有強大推理能力的語言模型有可能極大地提高人類的生產力,實現從協助複雜的決策到推動科學突破。然而,推理領域的最新進展,例如 openai 的 o1,缺乏全面的透明度,限制了更廣泛研究進展。因此,我們需要以完全開放的方式推動推理領域的發展,促進創新和協作,以加速最終造福社會的進步。
不過,s1模型局限性也不容忽視,其基於阿里通義模型進行“蒸餾”,無法保證模型可控,而且1000高質量的樣本無法滿足解決複雜問題能力。所以,如何保證模型性能提升,同時降低訓練成本,這是ai 技術研究的一個重要課題。未來,隨著技術的進步和算法的優化,或許我們真的能夠看到更多低成本、高性能的ai模型問世。
全球限制deepseek,但華爾街市場質疑科技巨頭ai投資作用
2月7日,韓國兩大能源國企宣布禁止使用deepseek,韓國代理總統崔相穆將deepseek稱之為“新的衝擊”,並直接公布34萬億韓元(約合1710億元人民幣)新基金用於支持ai和半導體技術發展。
他提出,韓國的目標是成為世界三大ai領先國家之一。不過韓媒認為,韓國僅擁有2000多張gpu顯卡,算力資源嚴重不足。
更早之前的2月4日,澳大利亞、愛爾蘭、法國、義大利都宣布全面限制使用deepseek ai服務。此外,從美國國會、五角大樓、nasa到海軍,都考慮或已開始禁止使用deepseek,德克薩斯州則成為美國第一個禁止在政府設備上使用deepseek的州。
白宮新聞發言人卡洛琳·萊維特(karoline leavitt)表示,美國目前正在研究可能的安全影響。
2月7日凌晨,美國眾議員、伊利諾州共和黨眾議員達林·拉胡德 (darin lahood)和新澤西州民主黨眾議員喬希·戈特海默 (josh gottheimer),以所有安全為由提出一項法案,稱deepseek公司的技術存在風險,“與中國的技術競賽不是美國輸得起的,deepseek對美國令人擔憂。& rdquo;
拉胡德早前在美國參議院會議中表示,“最新deepseek被稱為ai 對美國的sputnik時刻。deepseek幾乎證明中國正在ai上趕超美國,中國與deepseek的創新令人震驚,但與agi的最終目標擊敗美國相比還沒有出現,所以我們不能允許這種情況發生。這就是為什麼我將ai作為國會的重中之重的原因。美國的創新是我的北極星,我將繼續這樣做,我希望我們對ai的投資努力將不斷強大,通過立法投資更多用以發展 ai 技術。& rdquo;
很顯然,以美國為首的國家對deepseek帶來的中國 ai 創新熱潮進行質疑和考驗。但與此同時,meta、谷歌等美國科技巨頭不斷進行更大規模的 ai 投資正面臨華爾街的“拷問”。
截至目前,meta、微軟、谷歌、亞馬遜四大科技巨頭已經宣布,2025年將總計投入超過3200億美金,用於發展 ai 技術。
其中,meta計劃2025年資本投入600億-650億美金,比2024年提高約40%,用以 ai 技術投入;微軟計劃投入800億美金用於ai基礎設施;谷歌預計2025年將在資本支出方面投入750億美金,較去年激增逾42.7%;亞馬遜投資1000億美金,公司cfo表示支出主要包括 ai 服務需求以及aws雲服務業務設施等。
然而,futurum group 分析師丹尼爾·紐曼認為:“考慮到這些巨額開支,他們(美股科技巨頭們)急需提高ai的收入回報,但目前發生的事情(deepseek)對美國來說是一個警鐘……就目前而言,ai 的資本支出實在太多,但消費卻不足。& rdquo;
數據顯示,deepseek-v3這個參數量高達671b的大模型,在預訓練階段僅使用2048塊gpu訓練了2個月,且只花費557.6萬美金,最終性能卻超越openai-o1等模型。
direxion資本市場主管jake behan認為,現在的問題不在於 ai 支出何時能夠盈利,而在於它是否能夠合理化。
“我們不認為所有公司都會立即轉向deepseek,但deepseek發布的低成本、低資源消耗的ai模型表明,ai在未來將變得更加商品化。真正的差異化在於支持更高準確性、安全性和滿足特定需求定製化的平台功能,這也是微軟需要投資的方向。& rdquo;valoir分析師 rebecca wettemann表示。
不過,另一方面也有分析認為,deepseek依然證明算力需求旺盛,ai 需要大量基礎設施的投入,以滿足市場需求。
2月1日,橋水聯席首席投資官(cio)詹森(greg jensen)與橋水運用ai進行市場交易的內部團隊“aia實驗室”首席科學家jas sekhon發文稱,deepseek的成就重要且令人印象深刻,他們在極短時間內發展出了排在全球前五的ai實驗室。其成果僅比前沿模型落後數月,成本卻大幅降低。目前,deepseek已超越meta,成為開源大語言模型(llm)中的領先者。
“需要承認的是,600萬美金這一數字確實展現了顯著進步。& rdquo;該文寫道,“然而,隨著時間推移,由於ai軟體及硬體的進步,這種效率提升是可以預見的。& rdquo;
橋水進一步分析稱,推理效率的提高意味著人們會購買更多的推理能力 ,而當前還未達到推理需求曲線的收益遞減點。例如,大量對 ai的需求並不來自直接使用大模型,而是來自生成式ai的其他用途,如機器人、自動駕駛、晶片設計和生物學。llm模型通常是這些更廣泛應用的一種輸入。隨著llm的改進,算力瓶頸轉移到其他環節,對這些應用的需求會被釋放出來。
橋水指出,deepseek的成果表明,ai的發展和效率正在加速,這對整個ai生態系統的大部分參與者來說是個好消息,也有利於新的 ai投資。這意味著對算力的需求並未放緩,反而可能加速,像微軟和谷歌這類公司將不惜投入一切必要資源以確保自己處於領先地位,這些超大規模雲服務提供商將受益於大模型成本下降和推理需求上升。
meta ceo扎克伯格表示,他仍然相信大力投資公司的人工智慧基礎設施會成為戰略優勢。& ldquo;現在就對基礎設施和資本支出的走勢做出判斷可能還為時過早。長期來看,大力投資資本支出和基礎設施將成為一種戰略優勢。& rdquo;
微軟ceo納德拉(satya nadella)則認為,增加ai支出將有助於緩解限制公司 ai 產能問題。他補充說,隨著 ai 變得更加高效和廣泛可用,“我們將看到需求呈指數級增長。& rdquo;
圖靈獎得主、meta ai科學家楊立昆(yann lecun)強調,deepseek崛起後,投資者對美國科技巨頭股票的拋售,其實是源於對ai基礎設施投資的“重大誤解”。這些數十億美金的資金中,很大一部分都投入到了推理基礎設施中,而不是訓練。數十億人運行 ai 助手服務需要大量的計算,一旦你將視頻理解、推理、大規模內存和其他功能納入 ai 系統,推理成本就會增加。
當前,deepseek已經成為 ai 行業不可缺少的關鍵力量。
開源證券發布研報稱,deepseek發布並開源的推理模型deepseek-r1,為行業發展注入全新變量。該模型在智能駕駛與智能座艙等應用領域的潛在價值,deepseek的發布和開源有望推動相關產業升級加速。
中信建投研報表示,deepseek在保持模型優異性能指標的同時大幅降低訓練和推理成本,同時,高性能、輕量化、低成本的模型能力將顯著推動端側ai產業發展。
原文網址:https://zh.gushiio.com/ai/361.html