DeepSeek破局AI,這些希望之門即將改變世界

DeepSeek能够屹立於AI舞臺的中央,不僅在於其在大語言模型(LLM)上所取得的突破,更在於為AI開啟了希望之門,而這也正是最大的懸念所在。

文|數據猿

DeepSeek能够屹立於AI舞臺的中央,不僅在於其在大語言模型(LLM)上所取得的突破,更在於為AI開啟了希望之門,而這也正是最大的懸念所在。

憑藉其一系列大模型,DeepSeek打破了AI大模型發展的傳統範式—& mdash; 使用昂貴的GPU,消耗大量電力和資源,通過訓練更大的模型,換取AI效能的線性增長。 而DeepSeek R1則另闢蹊徑,借助强化學習科技在微調環節讓模型效能實現超越。 未來AI的競爭不再單純取決於資金投入,而是更注重成本效益,開啟了AI新的發展方向。

DeepSeek的崛起表明,規模並非衡量模型優劣的唯一標準,較小規模、更靈活的模型也能有出色表現,為企業提供效能更優的選擇。

DeepSeek的成功也表明,未來表現最好的模型將是開源的,對客戶和AI開發者都有利的,有助於實現AI的大眾化。 而國內外企業紛紛接入DeepSeek大模型,熱衷於用DeepSeek R1等開源模型取代OpenAI等昂貴的封閉大模型。

正像美國總統特朗普而言,DeepSeek的出現不是威脅,而是一個“ 巨大” 的機會,為用戶、模型推理、模型訓練、模型小型化、AI應用等創造更多的機會。 未來的AI競爭可能不再僅僅是“ 誰有更多的錢,誰就能訓練更强的模型”, 而是“ 誰能用更少的錢,達到相同甚至更好的效果”。

1.星火燎原,更多企業與服務接入DeepSeek開源大模

千千萬萬的應用都以DeepSeek為基座,由此構建的生態將重塑AI產業格局。

開源就是原始程式碼在Web上免費提供,可以進行修改和重新分發。 與OpenAI等競爭對手的大模型不同,DeepSeek的模型是開源的,其中DeepSeek R1在MIT許可下開源使用。

DeepSeek開源特性和低計算要求大大降低了成本,加速了AI的採用。 用戶可以在Web、 iPhone/iPad、Android、 云計算、各種軟件等上免費獲得DeepSeek應用。 雲服務商可以免費接入,甚至可以推出自己的AI大模型服務。

開源模型不存在硬體和軟件護城河,開發人員非常熱衷於用DeepSeek R1等開源模型取代OpenAI昂貴的封閉模型。

“ DeepSeek强大的新人工智慧模型不僅是中國的勝利,也是Databricks、Mistral、Hugging Face等開源科技的勝利。& rdquo; 開源人工智慧“ 不再只是一個非商業研究計畫,而是像OpenAI GPT等封閉模型的可行、可擴展的替代方案”。

DeepSeek迅速成為全球下載量最大的應用。 Gartner預測,到2026年,超過80%的企業將使用GenAI或部署GenAI應用。 組織同時利用數百個模型,並面臨著為其各種使用案例選擇最佳模型的壓力。 而選擇正確的AI模型並快速部署對於獲得市場優勢至關重要。

在不同平臺上,DeepSeek下載量都取得突破,其用戶正在日益新增。 在蘋果的App Store上,DeepSeek取代了競爭對手OpenAI,成為下載量最大的免費應用程序。 在另一個移動應用商店Google Play中,自1月28日以來DeepSeek下載量一直保持領先,在短短18天的下載量達到了1600萬次,幾乎是OpenAI ChatGPT剛發佈時900萬次下載量的兩倍。

開放AI模型的支持者對DeepSeek充滿熱情。 基於DeepSeek-V3和R1的700多個模型現已在AI社區平臺HuggingFace上提供,下載超過了500萬次。

QuestMobile資料顯示,DeepSeek在2月1日突破3000萬大關,成為史上最快達成這一里程碑的應用。

在國外,包括英偉達、微軟、亞馬遜在內的多家美國公司紛紛搶先採用DeepSeek-R1模型,為用戶提供服務。

微軟最早將DeepSeek-R1模型被納入微軟平臺Azure AI Foundry和GitHub的模型目錄,開發者將可以在Copilot +PC上本地運行DeepSeek-R1精簡模型,以及在Windows上龐大的GPU生態系統中運行。

隨後亞馬遜雲科技AWS也宣佈,用戶可以在Amazon Bedrock和Amazon SageMaker AI兩大AI服務平臺上部署“ 功能强大、成本效益高” 的DeepSeek-R1模型。

英偉達1月30日宣佈,DeepSeek-R1模型可作為NVIDIA NIM微服務預覽版使用。 NVIDIA NIM是NVIDIA AI Enterprise的一部分,為跨雲、資料中心和工作站的自託管GPU加速推理微服務提供容器,用於預訓練和自定義AI模型。

而一些規模較小的美國科技公司也採用了DeepSeek模型。 美國AI初創公司Perplexity宣佈接入了DeepSeek模型,將其與OpenAI的GPT-o1和Anthropic的Claude-3.5並列作為高性能選項。

New Relic公司通過DeepSeek集成擴展AI可觀測性,以幫助客戶降低開發、部署和監控生成式AI應用的複雜性和成本。

DeepSeek自1月初推出以來,印度下載量驚人。 印度的Yotta Data Services推出了“ myShakti”, 就基於DeepSee開源AI模型構建,竟被稱為是印度第一個完全主權的B2C生成式AI聊天機器人。 另一家印度公司Ola的AI平臺Krutrim將DeepSeek模型集成到其雲基礎設施中。

開源的DeepSeek之所以受到國外用戶與服務商的歡迎,源於:模型開源,可以免費獲得,部署算力需求低; API價格比GPT-4便宜10倍,甚至比Claude便宜15倍; 速度極快,並且在某些基準測試中與GPT-4相當,甚至更好等。

中國雲服務商、軟件企業等接入DeepSeek,作業系統、網路安全、應用軟體、雲服務等不同領域都集成了DeepSeek,為軟件和應用帶來AI能力。

騰訊雲、百度智慧雲、阿裡雲、京東雲、青雲等,以及三家基礎電信企業都先後接入DeepSeek大模型,麒麟軟件、金蝶、用友、釘釘、南威軟件、遠光軟件、萬興科技、超圖軟件等先後宣佈已完成對DeepSeek的適配、接入。

例如,中國電子雲CECSTACK智算雲平臺正式上線MoE架構的671B全量DeepSeek-R1/V3模型,以及DeepSeek-R1的蒸餾系列Qwen/Llama模型,並提供私有化部署方案,為關鍵行業用戶提供安全可靠、智慧集約的智能化解決方案。

現時,中國電子雲已在湖北機場集團進行了DeepSeek-R1私有化部署,依託DeepSeek-R1大模型服務湖北機場集團打造企業知識庫等智慧應用。

DeepSeek大模型已與銀河麒麟智算作業系統V10、銀河麒麟高級服務器作業系統V10完成相容適配,可實現本地部署,支持通過Chatbox AI用戶端使用DeepSeek,通過vscode集成DeepSeek實現輔助程式設計。 銀河麒麟高級服務器作業系統V10作為雲底座基礎設施已全面支持各大雲廠商,實現DeepSeek的雲端部署與使用。

天融信發佈的DeepSeek安全智算一體機以“ 算力硬體平臺+智算平臺” 為基座,集成DeepSeek大模型,融合“ 計算、存儲、網絡、安全、智慧” 五大能力,旨在為客戶提供高性能、安全可靠的一體化智算中心建設方案。

中國電動汽車巨頭比亞迪近將為其汽車發佈“ DiPilot” 輔助駕駛系統,正在將DeepSeek的人工智慧集成到最先進的新駕駛員輔助系統中。

DeepSeek大模型的開源,為AI科技的普及和行業應用帶來了新的機遇和動力。 據賽迪預測,到2035年,我國人工智慧覈心產業規模將達到1.73萬億元,全球占比將超過30%。

企業和服務商為什麼願意接入DeepSeek? 一是提高工作效率。 DeepSeek能够顯著縮短推理時間,對用戶問題給出答案。 如在內容創作部門,通過輸入關鍵資訊和要求,短時間內就能生成初稿,從而加快市場響應速度。

二是降低人力成本。 DeepSeek可以自動完成數據標注任務,减少對基礎、重複性工作的依賴,同時通過智慧客服系統,7*24小時不間斷地為客戶解答常見問題,節省人力開支並提升服務的及時性和穩定性等。

三是支持資料分析與決策。 DeepSeek對海量的市場數據、用戶回饋數據進行快速分析,挖掘潜在規律和趨勢,幫助企業製定科學合理的戰略規劃和市場行銷策略。

四是提供個性化服務。 DeepSeek科技能够根據用戶的需求和偏好提供定制化的服務,如在電商領域推動個性化推薦系統的普及,提高購物體驗和滿意度等。

2.推理模型興起,晶片有望百花齊放

DeepSeek R1的迅速崛起,使一種被稱為推理模型的新興AI模型成為人們關注的焦點。 隨著生成式AI應用超越對話介面,推理模型的功能和使用可能會新增。

DeepSeek R1推理模型的不同之處在於做到了將預訓練模型,變成一個功能更强大的推理模型,而且成本更低,資源利用效率更高,其運行成本只有普通LLM三十分之一。 就像在PC和互聯網市場,產品價格下跌有助於推動應用一樣,DeepSeek R1同樣以更低的模型運行成本,把人工智慧市場推上了長期增長的道路,堪稱一個具有里程碑意義的時刻。

DeepSeek R1成功表明,有了足够强大的基礎模型,强化學習就足以在沒有任何人工監督的情况下從語言模型中引出推理。 隨後在通用大模型GPT-3、GPT-4(OpenAI)、BERT(Google)等之後,出現了像OpenAI o1-mini、OpenAI o3-mini、Gemini 2.0 Flash Thinking等推理模型。

發展推理模型成為AI發展的一個重要機會。 推理大模型是指能够在傳統的大語言模型基礎上,强化推理、邏輯分析和決策能力的模型。 它們通常具備額外的科技,如强化學習、神經符號推理、元學習等,以增强其推理和問題解决能力。 如DeepSeek-R1、GPT-o3在邏輯推理、數學推理和實时問題解决方面表現突出。

而非推理大模型如OpenAI、 Gemini、 阿裡巴巴的Qwen等適用於大多數任務,主要用於語言生成、語言理解、文字分類、翻譯等任務。 此類模型通常通過對大量文字數據的訓練,一般側重於語言生成、上下文理解和自然語言處理等,而不強調深度推理能力。

與可能直接生成答案的通用LLM不同,推理模型經過專門訓練以展示他們的工作,並遵循更結構化的思維過程。 一些模型不顯示它們的邏輯推理階段,而另一些模型則明確顯示它們的邏輯推理階段。 推理階段展示了模型如何將所述問題分解為較小的問題(分解),嘗試不同的方法(構思),選擇最佳方法(驗證),拒絕無效方法(可能回溯),並最終選擇最佳答案(執行/求解)。

推理模型與通用模型比較

DeepSeek破局AI,這些希望之門即將改變世界插图1

資料來源:微軟

隨著核心技術日益商品化和廉價化,推理模型和一般的LLM將變得多樣化並專門用於更狹窄的任務。

現時,AI企業推出了各種構建和改進推理模型的科技,也為其他企業提供技術創新的機會。

提高LLM的推理能力的方法在不斷發展,如推理時擴展(在推理過程中新增計算資源以提高輸出質量)、純强化學習(RL)、監督微調和强化學習(SFT + RL)等。 據介紹,DeepSeek R1採用不同的科技,引入了三個不同的推理模型變體:

DeepSeek-R1-Zero基於2024年12月發佈的671B預訓練DeepSeek-V3基礎模型,使用具有兩種獎勵的强化學習(RL)對其進行訓練,被稱為“ 冷開機” 訓練。

DeepSeek-R1是DeepSeek的旗艦推理模型,基於DeepSeek-R1-Zero構建,通過額外的SFT階段和進一步的RL訓練進一步完善,改進了“ 冷開機” R1-Zero模型。

DeepSeek-R1-Distill, 利用前面步驟生成的SFT數據,DeepSeek團隊對開源的Qwen和Llama模型進行了微調,以增强其推理能力。 雖然不是傳統意義上的蒸餾,但這個過程涉及在更大的DeepSeek-R1 671B模型的輸出上訓練較小的模型(Llama 8B和70B以及Qwen 1.5B-30B)。

DeepSeek和推理模型的興起也將對處理器需求產生影響,推動推理晶片市場的增長。 推理是指使用和應用AI根據新資訊做出預測或決策的行為,而不是構建或訓練模型。 簡而言之,AI訓練是構建工具或算灋,而推理是實際部署此工具以用於實際應用程序。

AI訓練是計算密集型的,但推理可以使用功能較弱的晶片,經過程式設計可以執行範圍更窄的任務。 隨著客戶採用和構建DeepSeek的開源模型,對推理晶片和計算的需求將新增。

DeepSeek的測試表明,華為的HiSilicon Ascend 910C處理器的推理效能超出了預期。 此外,通過對CUNN內核的手動優化,可以進一步提高其效率。 DeepSeek對Ascend處理器及其PyTorch存儲庫的原生支持,允許以最少的工作量實現無縫的CUDA到CUNN轉換,從而更輕鬆地將華為的硬體集成到AI工作流中。

新的Ascend 910C採用小晶片封裝,其主計算SoC擁有約530億個電晶體,是由中芯國際採用其第二代7nm級工藝科技製造的。

AWS推出的推理晶片主要為Inferentia系列,在提升推理效率與降低成本方面表現出色。 AWS推理晶片有Inferentia和Inferentia2兩代。 第一代Inferentia為EC2 Inf1實例提供支援,輸送量提升2.3倍,推理成本降70%,搭載多個NeuronCore,支持多種資料類型。

第二代Inferentia2效能飛躍,輸送量提高4倍,延遲降低,記憶體和頻寬大幅提升,支持更多資料類型。 搭配AWS Neuron SDK可集成熱門框架,助力AI應用。

寒武紀在推理晶片領域成果顯著,思元370晶片表現亮眼。 它基於7nm制程工藝,是首款採用chiplet科技的AI晶片,集成390億電晶體,最大算力256tops(int8),相較思元270算力翻倍,基於mluarch03架構,實測效能出色。 它也是國內首款公開發佈支持lpddr5記憶體的雲端AI晶片,記憶體頻寬為上一代3倍,訪存能效高。

思元370搭載mlu – link多芯互聯科技,在分佈式任務中為多晶片提供高效協同,每顆晶片有200gb/s額外跨晶片通訊能力。 軟體平臺上,寒武紀基礎軟體平臺陞級,新增推理加速引擎MagicMind,實現訓推一體,提升開發部署效率,降低成本。 MagicMind對標英偉達TensorRT,架構和功能更優,優勢是效能極致、精度可靠、程式設計介面簡潔,挿件化設計還能滿足客戶差异化需求。

3.更小的成本也能訓練大模型,AI訓練晶片走向多樣化

DeepSeek最突出的是模型效率、訓練精度和軟件優先的創新,設計了更快、更精簡、更智慧的模型。 DeepSeek的模型通過證明效率可以與原始計算能力相媲美,挑戰了傳統的AI基礎設施依賴。

DeepSeek也有通用的大模型DeepSeek-V3、DeepSeek-R1等,其中DeepSeek-V3包含670億參數,在2萬億token的中英文數据集上訓練,可用於語義分析、計算推理、問答對話等,在推理、編碼、數學和中文理解等方面超越Llama2 70B base,展現出顯著的泛化能力。 DeepSeek V3的基準測試分數與OpenAI GPT-4o和Anthropic Claude 3.5 Sonnet相當或擊敗對手。

DeepSeek-R1總參數671億,主要用於數學推理、程式碼生成、自然語言推理等需要深度邏輯分析的任務,在數學、編碼等任務中效能對標OpenAI o1,但API成本僅為後者的1/30。 推理模型DeepSeek-R1思維鏈推理類似於OpenAI o1。 雖然R1不是第一個開放推理模型,但它比以前的模型功能更强大。

DeepSeek R1是一款開源LLM,與OpenAI的最佳產品相比,擁有卓越的效能的同時需要的計算和訓練資源大大减少,囙此在科技領域掀起了波瀾。 早些時候微軟表示,在2025年將在AI基礎設施上花費800億美元,而Meta CEO紮克伯格表示,計畫在2025年投資600億至650億美元的資本支出,作為其AI戰畧的一部分。

在DeepSeek的示範下,未來越來越多的LLM將商品化。 隨著大模型訓練科技變得越來越先進,以及培訓和運行LLM所涉及的成本不斷下降,預計LLM將在不久的將來成為一種商品。

DeepSeek R1模型的問世被一些科技公司CEO視為LLM正變得越來越商品化的進一步名額。

Hugging Face是開源AI項目的常用程式碼倉庫。 Hugging Face的聯合創始人兼首席科學官Thomas Wolf表示,LLM將更多地集成到與公司自己的資料庫相連的智慧系統中。 人工智慧的Airbnb、人工智慧的Stripe將出現,他們與模型無關,而是使模型對任務有用。

微軟CEO Satya Nadella認為,隨著人工智慧變得更加高效和可及,我們將看到LLM的使用量猛增,將其變成我們可能無法完全滿足其需求的商品。

與此同時,美國軟體公司Appian CEOMatt Calkins說,DeepSeek的成功表明AI模型在未來將更多地成為一種商品。 許多公司將實現有競爭力的AI,而高成本必然會影響大模型的銷售。

顯然,英偉達在大模型訓練的AI晶片市場佔據主導地位,但競爭比以往任何時候都更加激烈。 瑞穗證券估計,英偉達控制著70%到95%的AI晶片市場,用於訓練和部署LLM。 78%的毛利率凸顯了英偉達的定價能力。 競爭對手晶片製造商英特爾和AMD報告的最新季度毛利率分別為41%和47%。

英偉達旗艦AI GPU如H100,再加上該公司的CUDA軟件,使其在競爭中領先一步,以至於切換到替代方案似乎幾乎是不可想像的。

儘管英偉達GPU市場從30億美元膨脹到約900億美元。 英偉達承諾每年發佈一種新的AI晶片架構,而不是像歷史上那樣每隔一年發佈一次,並推出可以更深入地將其晶片融入AI軟件的新軟件。

從跨國公司到新興初創公司都在爭奪AI晶片市場的份額,未來五年市場規模可能達到4000億美元。

AMD生產用於遊戲的GPU,並且與英偉達一樣,正在將其應用於資料中心內的AI。 它的旗艦晶片是Instinct MI300X。 AMD CEO蘇姿豐博士強調了該晶片在推理方面的卓越表現,而不是與英偉達競爭訓練。 微軟正在使用AMD Instinct GPU為其Copilot模型提供服務。 今年AMD的人工智慧晶片銷售額可能超過40億美元。

英特爾最近宣佈了其AI加速器的第三個版本Gaudi 3。 英特爾將其直接與競爭對手進行了比較,將其描述為更具成本效益的替代方案,在運行推理方面優於英偉達H100,同時在訓練模型方面速度更快。 英特爾擁有不到1%的AI晶片市場份額。

更廣泛採用的主要障礙可能是軟件。 AMD和Intel都參與了一個名為UXL基金會的大型行業組織,該組織正在努力創建Nvidia CUDA的免費替代品,用於控制AI應用的硬體。

英偉達未來將與其最大的客戶在晶片上翟看競爭。 雖然包括Google、 Microsoft、 亞馬遜、甲骨文在內等的雲服務GPU的採購額占到英偉達收入的40%以上,但都在構建供內部使用的處理器。

除了推理晶片Inferentia外,AWS首次推出了針對大模型訓練的AI晶片Tranium。 客戶以通過AWS租用該晶片。 該晶片首個用戶是蘋果公司。

Google自2015年以來,一直在使用所謂的張量處理單元(TPU)來訓練和部署AI模型。 已經有六個版本的Trillium晶片,用於開發其模型包括Gemini和Imagen。 穀歌還使用英偉達晶片並通過其雲提供它們。

微軟正在構建自己的AI加速器和處理器,名為Maia和Cobalt。 OpenAI的定制晶片設計已接近完成,與Broadcom合作設計,由台積電製造,使用其3納米工藝科技,以確保晶片可以進行大規模生產。 如果成功,該晶片將於2026年在台積電開始量產。

摩根大通分析師估計,為大型雲提供商構建定制晶片的市場價值可能高達300億美元,每年可能增長20%。

開發人員越來越多地將AI工作從服務器轉移到個人擁有的筆記型電腦、PC和手機。 像OpenAI開發的大模型需要大量强大的GPU集羣來進行推理一樣,像Apple和微軟這樣的公司正在開發“ 小模型”, 需要更少的電力和數據,並且可以在電池供電的設備上運行。 Apple和Qualcomm正在更新他們的晶片,以更有效地運行AI,為AI模型添加了神經處理器的專門部分。

4.讓模型變小有章可循,小模型應用前景喜人

越來越多的企業正在推出SLM,挑戰AI模型開發中“ 越大越好” 的流行觀念。 而DeepSeek R1推理模型在首次亮相後,以低廉的訓練成本展示了領先的效能。 DeepSeek的崛起表明,規模更大並不意味著更好,規模更小、更靈活的玩家可以與AI巨頭大模型相媲美,並有可能戰勝它們。

SLM以更低的成本,更高的效率,可能會改變企業AI部署的格局,使預算有限的中小企業企業更容易獲得AI模型的高級功能。

DeepSeek也有許多小模型。 如DeepSeek-Coder,由一系列程式碼語言模型組成,從1B到33B版本不等,在2萬億token上訓練,數据集含87%程式碼和13%中英文自然語言。 主要用於程式碼編寫等任務,在多種程式設計語言和基準測試中達開源程式碼模型先進效能。

DeepSeek-VL則是開源視覺-語言模型,採用混合視覺編碼器,能處理高解析度影像。 有1.3B和7B模型,在視覺-語言基準測試中效能出色,可用於視覺問答等多種視覺與語言結合的任務。

DeepSeek衍生和蒸餾的小模型,包括Qwen系列蒸餾模型、Llama系列蒸餾模型、DeepSeek-R1-Distill模型等,如DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Llama-70B。 前者在多個推理基準測試中超越同規模模型,後者推理速度大幅提升,在GSM8K和HumanEval等領域接近頂級閉源模型。 它們的參數量在15B到70B範圍內,相比大模型計算和記憶體消耗顯著降低。 這些小模型繼承了大模型的覈心推理能力,可在教育領域自動批改數學工作、醫療領域輔助快速診斷等。

DeepSeek衍生和蒸餾的小模型在多個領域具有廣泛的應用價值,具有很强的示範價值。 未來,AI企業可以通過發展不同的小模型,推動AI的應用。

蒸餾模型通過减少參數量和計算複雜度,顯著提升了推理速度。 例如,DeepSeek-R1-Distill-Qwen-7B的推理速度比原始模型提高了約50倍,使其能够在資源受限的設備上高效運行。

小模型的部署成本大幅降低,適合在計算資源有限的場景中使用。 DeepSeek的蒸餾模型在保持高性能的同時,訓練和推理成本顯著降低,推動了AI科技的普及。

多工適應性。 蒸餾模型通過多工適應性機制,能够根據不同任務優化其效能,適用於自然語言處理、程式碼生成、數學推理等多種應用場景。 如小模型的輕量化設計使其能够在智能手機、智慧手錶等邊緣設備上運行,實現實时決策和低能耗操作,適用於自動駕駛、健康監測等需要快速回應的場景。

將小模型應用等不同的行業。 如在教育領域,蒸餾模型可以提供個性化的學習推薦和智慧輔導,幫助學生製定個性化的學習路徑,提升學習效率。 蒸餾模型在醫療影像分析和疾病預測中表現出色,能够提供實时的醫療建議和輔助診斷,提升醫療服務的效率和質量。 在金融領域,蒸餾模型可以用於市場趨勢分析、風險評估和智慧投顧,提供個性化的投資建議和風險管理方案。

現時,市場上已經出現不少創新技術,通過開源模型和創新技術,大幅降低模型訓練成本和模型小型化成本。

如來自斯坦福大學和華盛頓大學的聯合團隊已經訓練了一個以數學和編碼為重點的大型語言模型,該模型的效能與OpenAI o1和DeepSeek R1推理模型一樣好,構建它只需50美元的云計算積分。

該團隊使用了一個現成的基礎模型,然後將Google Gemini 2.0 Flash Thinking Experimental模型提煉到其中。 提煉AI的過程包括從較大的AI模型中選取相關資訊以完成特定任務,並將其傳輸到較小的AI模型。

又如Hugging Face發佈OpenAI Deep Research和Google Gemini Deep Research工具的競爭對手,稱為Open Deep Research,利用免費開源LLM,大約需要20美元的云計算積分,並且只需不到30分鐘即可完成訓練。

Hugging Face的模型隨後在通用AI助手(GAIA)基準測試中獲得了55%的準確率,該基準測試用於測試代理AI系統的能力。 相比之下,OpenAI Deep Research得分在67– 73%的準確率之間,具體取決於響應方法。

阿裡的李飛飛團隊基於阿裡雲通義千問(Qwen)模型進行監督微調,成功開發出s1模型。 訓練該模型僅花費不到50美元,使用16張英偉達H100 GPU,僅耗時26分鐘。 DeepSeek通過蒸餾科技將大模型能力傳遞給小模型,而李飛飛團隊則是微調現有大模型,借助高品質數據和測試時拓展科技,實現低成本、高性能的模型訓練。

以DeepSeek為代表的開源模型憑藉低廉API服務費用,對傳統閉源大模型發起挑戰,未來可能重塑AI市場格局。

低成本高效能大模型的出現,給AI應用公司、雲廠商、用戶帶來新機遇。 AI應用公司可基於新模型開發創新產品,提高資本回報率; 雲廠商則加速佈局開源大模型生態服務,搶佔算力需求市場; 用戶可以基於開源大模型,訓練和部署自己專屬的大模型。

聲明:本文內容僅代表該投稿文章作者觀點,不代表藍鯨號立場。
未經授權不得隨意轉載,藍鯨號保留追究相應責任的權利

原文網址:https://zh.gushiio.com/gushi/1743.html

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *