實測萬相2.1,全球首個中文文字生成開源模型,吊打Sora了?

實測萬相2.1,全球首個中文文字生成開源模型,吊打Sora了?插图1Image source: Generated by AI

DeepSeek開源周,其他人也沒閑著。

2月25日,淩晨Claude發佈了Sonnet3.7版本,白天的DeepSeek開源了DeepEP代碼庫,晚上阿裡的最新視頻生成模型Wan2.1亮相,真是熱鬧的一天啊!

相比於一個程式碼能力更强的語言模型,一個讓開發者更為興奮的底層的代碼庫,視頻生成模型顯然更讓普通人興奮。

仍然秉持著“能開盡開”的風格,這次萬相開源了14B和1.3B兩個參數的全部推理程式碼和權重,同時支持文生視頻和圖生視頻任務,全球開發者可在Github、HuggingFace和魔搭社區下載體驗。

實測萬相2.1,全球首個中文文字生成開源模型,吊打Sora了?插图3

並且採用了最寬鬆的Apache2.0協定,意思是生成的內容版權完全歸開發者所有,既可以用於免費通路,也可以商用。

在評測集VBench中,萬相2.1超越了Sora、Luma、Pika等國內外開源模型。

實測萬相2.1,全球首個中文文字生成開源模型,吊打Sora了?插图5

它的效果到底如何? 廢話不多說,我們先上評測!

#01、模型實測

現時在通義萬相裏體驗2.1極速版和專業版,兩個版本都是14B的,極速版生成速度約4分鐘左右,專業版的生成速度更慢一些,大概1個小時生成,但效果更穩定一些。

實測萬相2.1,全球首個中文文字生成開源模型,吊打Sora了?插图7

文生視頻2.1專業版相比於極速版對於文字理解更精確,畫面的清晰度也相對高一些。 但兩個版本生成的視頻畫面都存在明顯變形,對於一些物理世界的細節理解有欠缺。

提示詞:參攷盜夢空間拍攝管道,俯拍廣角鏡頭,飯店走廊以每秒15度角持續旋轉,兩位西裝特工在牆壁與天花板間翻滾格鬥,領帶受離心力影響呈45度飄起。 頂燈碎片隨重力方向錯亂飛濺。

實測萬相2.1,全球首個中文文字生成開源模型,吊打Sora了?插图9

專業版

實測萬相2.1,全球首個中文文字生成開源模型,吊打Sora了?插图11

極速版

提示詞:紅裙女孩在蒙馬特階梯跳躍,每級臺階彈出舊物收藏盒(發條玩具/老照片/玻璃彈珠),暖調濾鏡下鴿子群組成心形軌跡,手風琴音階與脚步節奏精確同步,魚眼鏡頭跟拍。

實測萬相2.1,全球首個中文文字生成開源模型,吊打Sora了?插图13

專業版

實測萬相2.1,全球首個中文文字生成開源模型,吊打Sora了?插图15

極速版

萬相2.1是現時全球首個能够直接生成中文文字的開源視頻模型。 雖然能够準確生成指定文字,但只限比較短的文字,超出一定長度就會出現亂碼的情况。

提示詞:狼毫毛筆在宣紙上揮灑,墨蹟暈染時文字“命運”逐筆浮現,字迹邊緣泛起金色微光。

實測萬相2.1,全球首個中文文字生成開源模型,吊打Sora了?插图17

圖生視頻效果比較穩定,人物一致性較高,沒有明顯變形,但對提示詞的理解不完整,缺少細節。 比如案例視頻中珍珠奶茶裏沒有珍珠,石磯娘娘沒有變成大胖丫頭。

提示詞:油畫風格,一比特穿著樸素的少女拿出一杯珍珠奶茶,輕啟朱唇緩緩品嘗,動作優雅從容。 畫面背景是一片深邃的暗色調,僅有的光線聚焦在少女臉上,營造出神秘而寧靜的氛圍。 近景,側臉特寫。

實測萬相2.1,全球首個中文文字生成開源模型,吊打Sora了?插图19

提示詞:石人手臂隨著步伐自然擺動,背景光線逐漸從明亮轉為昏暗,營造出一種時間流逝的視覺效果。 鏡頭始終保持靜止,聚焦於石人的動態變化。 初始畫面中那個小巧的石人,隨著視頻的推進,體型逐漸增大,最終在結尾畫面中,變身成為一個圓潤可愛的石頭女孩。

實測萬相2.1,全球首個中文文字生成開源模型,吊打Sora了?插图21

總的來說,萬相2.1語義理解和物理表現還是有待提高的,但整體審美線上,而且開源後或許會加快優化更新速度,期待後續可以有更好的呈現效果。

#02、低成本、高效果、高可控

在算灋設計上,萬相依然基於主流DiT架構,和線性雜訊軌跡Flow Matching,看著有點複雜,其實大家都差不多是這個思路。

意思是先生成一堆噪點(類似電視雪花屏),直到圖片變成純雜訊,模型再開始“去噪”,將每個噪點放在該放的位置,通過多次反覆運算生成高品質的圖片。

但問題在於,傳統擴散模型生成視頻時計算量極大,需要不停的進行排序優化,這就導致了一生成時間長但視頻時間不够長、二占記憶體耗費算力。

這時候萬相提出了一個新穎的3D時空變分自動編碼器(VAE),稱為Wan-VAE,通過組合多種策略,改進了時空壓縮,减少了記憶體的使用。

這個科技有點類似於《三體》中的“二向箔”,將人從三維變成二維。 時空壓縮的意思就是壓縮視頻的時空維度,比如將視頻分解為低維來表示,從生產一個三維的立方體,到先生成一個二維的立方體再還原成三維,或採用分層生成來提升效率。

舉個簡單的例子,Wan-VAE可以把一本《三國演義》壓縮成大綱,在大綱裏保留恢復內容的方法,大大降低了對記憶體的佔用,同時可以通過此方法,記住更長部頭的小說。

解决了內容佔用問題,就順帶解决了長視頻生產的難題,傳統的視頻模型只能處理固定長度,超過某一長度就卡頓或崩潰,但如果只存儲大綱,並記住前後關聯,那麼在生成每一幀時,臨時存儲前幾幀的關鍵資訊,便可以避免從第一幀開始重新計算。 理論上,按照這種方法,可以對無限長度的1080P視頻進行編碼和解碼,而不會遺失歷史資訊。

實測萬相2.1,全球首個中文文字生成開源模型,吊打Sora了?插图23

這也就是為什麼,萬相可以跑在消費級顯卡上的原因。 傳統的高清視頻(如1080P)數據量太大,普通顯卡記憶體不够用。 但萬相在處理視頻前,先降低分辯率,比如把1080P縮放到720P,减少數據量,生成完成後在用超分模型提升畫質到1080P。

經過萬相的測算,通過將空間降採樣壓縮提前,在不損失效能的情况下進一步减少了29%的推理時記憶體佔用,且生產速度快,畫質不縮水。

實測萬相2.1,全球首個中文文字生成開源模型,吊打Sora了?插图25

這一部分的技術創新,解决的是此前視頻生成模型一直無法大規模應用的工程化難題。 但與此同時,萬相也在生成效果上做了進一步優化。

比如精細化的運動控制,此前Runaway的原生視頻模型的單物體、多物體的相對運動控制都是靠運動筆刷繪製軌跡來完成,而萬相允許用戶通過文字、關鍵點或簡單草圖控制視頻中物體的運動管道(例如指定"蝴蝶從左下角盤旋飛入畫面")。

萬相2.1將用戶輸入的運動軌跡轉化為數學模型,在視頻生成過程中,作為額外條件引導模型。 但這還遠遠不夠,物體的運動要滿足真實世界的物理規律,在數學模型的基礎上,引入了物理引擎的計算結果,以提升運動的真實性。

總的來說,萬相的覈心優勢在於通過工程化能力解决實際生產場景中的難題,同時通過模組化的設計為後續的反覆運算流出了空間。 對於普通用戶來說,實實在在地降低了視頻創作門檻。

全面開源的策略也徹底打破了視頻模型付費的商業模式,萬相2.1的出現,2025年的視頻生成賽道,又有好戲看了!

原文網址:https://zh.gushiio.com/ai/3003.html

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *