deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?

deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?插图1image source: generated by ai

2025年開年,deepseek在國內外大模型行業掀起了地震。除了深度推理模型deepseek-r1在回答問題上的表現優異之外,deepseek的存在,給國內大模型圈注入了緊張又鮮活的空氣。

其一,憑藉技術優勢,deepseek一舉進入國際大模型頭部梯隊,這給國內大模型公司看到了彎道超車的可能性。

其二,deepseek的訓練成果,打破了算力受限的問題,證明通過算法優化,同樣可以以低算力訓練出高質量的模型。

當算力“卡脖子”的隱憂被放下,兼顧能耗和精度的大模型應該解決哪些問題?在這個層面上,國內大模型公司紛紛交出了各自的答卷。

最近,由中國科學院自動化所孵化的ai企業中科聞歌發布的雅意大模型旗艦版–yayi-ultra在破解大模型落地"精度-能耗"困局前給出了自己的答案。

作為覆蓋全球100+模型的權威評測體系,opencompass榜單歷來是觀察大模型技術路線的"晴雨表",在其近日發布的opencompass大模型公開學術榜單中,中科聞歌yayi-ultra,以64.5分首次闖入前十,成為top10中五個中國大模型之一。

deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?插图3

在opencompass最新大語言模型公開學術實時榜單中,yayi-ultra排名綜合得分64.5,排名第十,其中:

代碼生成:livecodebench排名第五,表現優於gpt-4o-20241120版本

複雜指令理解:ifeval排名第九

知識推理能力:mmlu-pro排名第九

deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?插图5

在側重中文理解的c-eval評測中,yayi-ultra在允許自主驗證的公開訪問榜單位列第二,展現了在中文場景下的技術優勢。

deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?插图7

一手實測:超長文輸出

複雜任務規劃精準拿捏

根據官方信息,yayi-ultra在圖表理解、複雜任務、長文理解與生成方面表現突出,我們立馬上手從六個維度(多模態圖表深度理解、複雜圖像理解、複雜任務智能規劃(function call)、數據統計分析及超長文本理解與生成)實測下yayi-ultra表現到底如何。

01 視覺理解再升級:懂語言,更懂圖表

上來我們先來讀個圖表試試。

prompt:2000年前後,哪個價格區間的物業費占比變化最多?

deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?插图9

deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?插图11

yayi-ultra可以準確識別柱狀圖中的不同顏色和數字,充分理解圖表並給出回答。

除了中文場景外,在多語言場景中,yayi-ultra也能夠準確理解並遵循用戶指令,提供跨語言的精準回復。

prompt:how did the distribution of agriculture-related employment change between 2012 and 2022? did it increase or decrease, and by what percentage or amount? answer in chinese。

deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?插图13

deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?插图15

可以看到,在視覺理解方面,針對跨語言多模態對齊、多圖推理、可變解析度等技術難點,yayi-ultra全面升級,增強了模型在跨語言圖表理解、多圖表問答、多模態指令遵循等方面的能力,不僅能輕鬆應對堆積條形圖、散點圖、混合圖表等複雜圖表場景,在圖表重繪、圖錶轉換等任務上也表現突出。

02 表格智解:萬千表格不在話下

在工作中,複雜報告統計費時又費力,我們“餵”給yayi-ultra一張包含行業普通報告、行業深度報告、公司普通報告三種類型交替出現的表格,yayi-ultra準確統計出不同類型報告的數量。

prompt:每種報告類型的數量是多少?

deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?插图17

deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?插图19

當涉及不規則表格時,yayi-ultra依然能夠精準解析並提取關鍵數據。以下表格包含總分結構及複雜數據表述,yayi-ultra能夠準確理解表格中的模型類型、方法及局部性指標變化數值,並完成對比分析。

prompt:哪個基座模型使用ike方法後局部性下降最多?

deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?插图21

deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?插图23

在統計數據理解方面,可以看出yayi-ultra重點增強了表格問答中複雜排版理解、跨語言問答等能力。

從金融報告、學術論文,到包含嵌套結構的複雜表格,yayi-ultra都能精準定位信息、理解用戶意圖;同時,模型也能夠在跨語言表格問答場景中,提供高效、清晰的解答。

03 function call:複雜任務智能規劃

繼續上難度,我們讓yayi-ultra繪製一下去年奧運會中國隊金、銀、銅獎牌數量折線圖(隨時間變化)

deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?插图25

首先可以看到,yayi-ultra準確理解了用戶意圖,確定“去年奧運會”指的是巴黎奧運會,並制定出詳細的任務規劃;接下來,模型通過搜尋引擎獲取巴黎奧運會中國隊金、銀、銅牌相關數據(包括91枚獎牌的類型及獲得時間);再將這些獎牌數據進行梳理,歸類分組、按時排序,並生成代碼,通過調用代碼解釋器,完成折線圖繪製。

yayi-ultra之所以能夠完成這一系列的複雜任務拆解與規劃,離不開其增加的工具調用能力,主要包含搜尋引擎、代碼解釋器、圖像解析、天氣等基礎工具;新聞熱榜追蹤、傳播影響力分析等特色垂直領域工具。

模型顯著增強了在多工具串行調用場景下的規劃合理性,同時提升了複雜搜索場景下的信息收集能力。

04 多模態輸出:圖文並茂,直觀簡潔

在文獻閱讀或者信息收集過程中,我們通常需要從多篇文檔中查找、分析特定信息(如數值變化、實驗結果等),現在一句話就能找到想要的內容,並且yayi-ultra在文字分析描述的基礎上,可同步給出對應的圖片內容。

比如,提問:the percentage of different behaviors under different collaborative strategies

yayi-ultra根據問題,從用戶構建的“人工智慧論文知識庫”中識別相關的多篇人工智慧論文,並據此進行回答。答案中不僅有文字,還在對應的引用位置給出了原始圖片,大大提升了閱讀體驗及答案可靠性。

05 全棧長文:吞吐萬言,下筆如神

最讓人眼前一亮的要屬超長文輸出,yayi-ultra支持最長20萬字輸入和10萬字超長輸出,形成從“輸入理解”到“內容創作”的全鏈路長文本能力閉環。

yayi-ultra支持聯網智能創作與文獻錨定創作雙模式,並將長文寫作任務拆解為更小、更可控的子任務(先生成大綱,再根據大綱生成全文),這樣有效保證了文本結構,提升長文生成質量。

聯網智能創作:聯網收集信息完成創作

prompt:寫一篇30000字的中國儒家文化發展歷史分析報告

deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?插图27

文獻錨定創作:劃定知識邊界精準寫作

prompt:請根據參考資料寫一篇長文,寫作的主題是“通用人工智慧解決方案:創新與效率的完美結合”

06 數據分析:精準求解,可視交互

最後,我們也針對基礎的數據分析和可視化圖表繪製進行了實測,yayi-ultra準確完成分析、計算和圖表繪製任務。

prompt:根據表格,計算人均月收入,然後計算月收入與人均月收入的差值,繪製一個柱形圖,橫軸是名字,縱軸是差值,標題是“每人收入與平均值差距”。

deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?插图29

yayi-ultra根據用戶要求,通過python of thought(pot)能力,生成python代碼並執行,精準完成了統計推斷、矩陣運算、數值優化等數值密集型任務。

從“大水漫灌”到“精準匹配”

yayi-ultra用靈活專家配置

突破大模型落地瓶頸

當前,ai大模型落地正面臨“能力-成本”剪刀差擴大的關鍵節點。

據idc最新報告顯示,企業在ai大模型落地過程中,面臨模型精度不能完全滿足業務需求的問題;同時,92%的企業認為在大模型工程化落地階段,缺少算力資源是最大的挑戰。

中科聞歌雅意技術團隊透露,yayi-ultra是以多領域能力為特色的混合專家模型,為了提升在不同領域專業任務上的表現,採用靈活的專家配置模式,支持數學、代碼、金融、輿情、中醫、安全等多種領域專家組合,能顯著緩解稠密模型在垂直領域遷移過程中普遍存在的“蹺蹺板”現象,可針對不同領域需求,為行業提供"高精度、低能耗"的智能化解決方案。

譬如,在媒體領域,中科聞歌推出紅旗3.0融媒體智能平台,基於yayi能力,幫助客戶將內容創作時間縮短30%-50%,內容發布頻率提升了20%-40%,某客戶在引入自動化審核能力後,內容差錯率從5%降至0.5%左右,目前已廣泛應用於新華社、央視、中國日報等頭部媒體。

deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?插图31

中科聞歌紅旗3.0融媒體智能平台

在醫療領域,基於yayi的大醫金匱中醫大模型,可精準診斷500餘種常見病症,為患者提供個性化的治療方案,經臨床專家測評辨證推理準確率高達90%,在中醫師資格考試模擬測試中表現優異,準確率超過94%,並面向c端用戶推出了“大醫金匱”中醫健康管理app。

deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?插图33

中國中醫科學院&中科聞歌 大醫金匱中醫健康管理app

在財稅領域,基於yayi的財稅知識大模型,經專項測評,模型回答準確率90.1%,高於其他同類型模型,在接入大模型後,客戶實現24小時不間斷的諮詢服務,使得用戶減少排隊時間約50%,用戶滿意度提升超過30%。

deepseek掀起低成本革命,這個國產大模型怎麼兼顧高精度、低能耗?插图35

航天信息與中科聞歌聯合研發 財稅知識大模型

當前,yayi-ultra(yayi.wenge.com)已在官網開放數據分析、知識庫文獻解析、超長文寫作功能體驗,感興趣的小夥伴也可以登錄試用。

原文網址:https://zh.gushiio.com/ai/1524.html

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *