昆侖萬維「Matrix-Game 2.0」發(fā)布,國產(chǎn)開源的Genie 3來啦!
2025-08-12 15:00:32AI云資訊2806
8月11日,昆侖萬維SkyWork AI技術(shù)發(fā)布周正式啟動。8月11日至8月15日,我們每天發(fā)布一款新模型,連續(xù)五天,覆蓋多模態(tài)AI核心場景的前沿模型。
DeepMind在一周前為社區(qū)帶來了交互式世界模型的重大更新Genie 3,實現(xiàn)了交互式實時長序列生成,讓世界模型備受關(guān)注,然而Genie 3并沒有開源,讓大家只能猜測這樣的世界模型該如何實現(xiàn)。
8月12日,昆侖萬維為大家?guī)砹俗匝惺澜缒P蚆atrix系列中Matrix-Game交互世界模型的升級版本——「Matrix-Game 2.0」,同樣實現(xiàn)了通用場景下的交互式實時長序列生成的世界模型。并且為促進(jìn)交互式世界模型領(lǐng)域的發(fā)展,「Matrix-Game 2.0」全面開源,是業(yè)內(nèi)首個在通用場景上實現(xiàn)實時長序列交互式生成的世界模型開源方案。
開源地址
技術(shù)報告:
https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-2/assets/pdf/report.pdf
項目主頁:
https://matrix-game-v2.github.io/
HuggingFace地址:
https://huggingface.co/Skywork/Matrix-Game-2.0
GitHub地址:
https://github.com/SkyworkAI/Matrix-Game
「Matrix-Game 2.0」在實時生成和長序列能力上實現(xiàn)了質(zhì)的飛躍。相較于上一版本,2.0版本更加側(cè)重低延遲、高幀率的長序列交互性能,能夠以25 FPS的速度,在多種復(fù)雜場景中穩(wěn)定生成連續(xù)視頻內(nèi)容,且生成時長可擴(kuò)展至分鐘級,大幅提升了連貫性與實用性。
在推理速度顯著提升的同時,模型依然保持了對物理規(guī)律與場景語義的精準(zhǔn)理解,支持用戶通過簡單指令,自由探索、操控并實時構(gòu)建結(jié)構(gòu)清晰、細(xì)節(jié)豐富、規(guī)則合理的虛擬環(huán)境。
這使得「Matrix-Game 2.0」不僅打破了內(nèi)容生成與交互之間的壁壘,也為虛擬人、游戲引擎、具身智能等前沿應(yīng)用打開了新的可能,為構(gòu)建通用虛擬世界提供了強(qiáng)有力的技術(shù)基座。
01 模型架構(gòu)
「Matrix-Game 2.0」提出了一種全新的視覺驅(qū)動交互世界建模方案,徹底擺脫了傳統(tǒng)依賴語言提示的生成模式,專注于通過視覺理解和物理規(guī)律學(xué)習(xí)來構(gòu)建虛擬世界。
與主流依賴文本語義的模型不同,「Matrix-Game 2.0」避免了語言先驗可能帶來的語義偏置,轉(zhuǎn)而關(guān)注圖像中的空間結(jié)構(gòu)和動態(tài)模式,從而更真實、更準(zhǔn)確地理解和生成虛擬世界。
1. 基礎(chǔ)模型架構(gòu)
「Matrix-Game 2.0」采用圖像為中心的感知與生成機(jī)制:
3D CausalVAE壓縮結(jié)構(gòu):通過三維因果變分自編碼器實現(xiàn)空間和時間維度的高效壓縮,提升建模效率與生成能力。
多模態(tài)擴(kuò)散 Transformer (DiT):結(jié)合視覺編碼器與用戶動作指令,逐幀生成物理合理的動態(tài)視覺序列,并通過 3D VAE 解碼成完整視頻。
用戶交互控制:借鑒 GameFactory 與 Genie系列的控制設(shè)計框架,引入“動作模塊”,實現(xiàn)用戶與生成世界之間的交互操作。
2. 實時自回歸視頻生成
「Matrix-Game 2.0」基于Self-Forcing訓(xùn)練策略,通過創(chuàng)新的自回歸擴(kuò)散生成機(jī)制克服了傳統(tǒng)雙向擴(kuò)散模型的延遲和誤差累積問題:
1. 因果擴(kuò)散模型訓(xùn)練:將雙向擴(kuò)散模型蒸餾為因果模型,使用基礎(chǔ)模型初始化生成器,并構(gòu)建小規(guī)模數(shù)據(jù)集,通過近似ODE軌跡進(jìn)行訓(xùn)練,穩(wěn)定自回歸擴(kuò)散過程。通過歷史幀條件生成當(dāng)前幀,減少因依賴未來幀而導(dǎo)致的時序延遲。
2. 分布匹配蒸餾(DMD):通過最小化與基礎(chǔ)模型之間的分布差異,引導(dǎo)學(xué)生模型學(xué)習(xí)生成高質(zhì)量視頻幀,對齊訓(xùn)練與推理階段的分布,顯著緩解誤差積累問題。
3. KV 緩存機(jī)制:引入鍵值緩存機(jī)制(KV-Cache),顯著提升長視頻生成的效率和一致性。該機(jī)制通過維護(hù)固定長度的注意力上下文,實現(xiàn)無縫滾動生成,支持無限時長的視頻輸出,解決了訓(xùn)練與推理場景下上下文不一致的問題?;诖藢崿F(xiàn)長時視頻的高效生成而無需重復(fù)計算,單 GPU 上可實現(xiàn) 25 FPS 實時生成。
「Matrix-Game 2.0」能夠生成跨場景的長時視頻,保持動作和視覺的時序一致性,并且支持用戶在交互過程中的連續(xù)指令輸入,使其成為游戲內(nèi)容創(chuàng)作、虛擬現(xiàn)實和智能交互系統(tǒng)的理想解決方案。這一方案將可控性、靈活性與效率相結(jié)合,推動高質(zhì)量視頻生成技術(shù)邁向更廣泛的實時應(yīng)用場景。
例如在一些無約束、不可控的真實場景,「Matrix-Game 2.0」可根據(jù)用戶輸入的任意控制指令(如鍵盤的 W/A/S/D 方向鍵、鼠標(biāo)用于視角移動),生成對應(yīng)的交互世界視頻,支持角色的前后左右移動以及視角變換等動態(tài)行為。
在GTA游戲場景和Minecraft場景中,「Matrix-Game 2.0」也支持鍵盤與鼠標(biāo)操作,并且能夠生成真實感更強(qiáng)、符合物理邏輯的可交互視頻。
02 三大核心創(chuàng)新突破了傳統(tǒng)模型的瓶頸
現(xiàn)有交互式世界模型普遍面臨數(shù)據(jù)瓶頸、實時性不足、生成序列較短等挑戰(zhàn)?!窶atrix-Game 2.0」通過三大核心創(chuàng)新突破了傳統(tǒng)模型的三重瓶頸:
構(gòu)建了基于Unreal Engine和GTA5的可擴(kuò)展數(shù)據(jù)生產(chǎn)管線,生產(chǎn)約1350小時高質(zhì)量交互式視頻數(shù)據(jù),提供豐富動作覆蓋。
在1.3B小模型基礎(chǔ)上設(shè)計了動作條件控制模塊,支持幀級鍵盤與鼠標(biāo)交互輸入;并采用少步長自回歸擴(kuò)散模型實現(xiàn)實時長序列視頻生成,在單個GPU上可達(dá)25 FPS的生成速度。
基于領(lǐng)先的架構(gòu)設(shè)計和大量不同領(lǐng)域的高質(zhì)量數(shù)據(jù)訓(xùn)練,實現(xiàn)了在多個任務(wù)上的領(lǐng)先模型:
1. Matrix-Game Uni:支持在各種風(fēng)格的靜態(tài)真實場景下,進(jìn)行自由的探索;
2. Matrix-Game TempleRun:提供在神廟逃亡世界中進(jìn)行擬真游戲的能力,具有精確的游戲指令指令響應(yīng)能力;
3. Matrix-Game GTA:支持在GTA場景中模擬車輛運作,和前兩者不同的點在于,GTA模型模擬的世界是一個動態(tài)場景,場景內(nèi)的物體有自身的運動軌跡。
當(dāng)前,「Matrix-Game 2.0」具備三大核心優(yōu)勢:
1. 高幀率實時交互長序列生成:支持前后左右移動和視角轉(zhuǎn)動,用戶可通過指令操控角色在場景中自由行動,系統(tǒng)以25 FPS實時生成連續(xù)畫面,單次交互可生成分鐘級別長交互視頻,動作自然流暢,響應(yīng)精準(zhǔn)。
2. 多場景泛化能力:模型具備出色的跨域適應(yīng)性,不僅適用于特定任務(wù)場景,還支持多種風(fēng)格與環(huán)境的模擬,包括城市、野外等空間類型,以及真實、油畫等視覺風(fēng)格。
3. 增強(qiáng)的物理一致性:對物理規(guī)則的理解進(jìn)一步提升,角色在面對臺階、障礙物等復(fù)雜地形時,能夠展現(xiàn)出符合物理邏輯的運動行為,提升沉浸感與可控性。
03 開源世界模型,昆侖萬維領(lǐng)跑空間智能研究
以谷歌Genie 3等為代表的世界模型,已經(jīng)為我們描繪了一個激動人心的未來藍(lán)圖。它向我們展示了AI不再僅僅是內(nèi)容生成工具,而是可以構(gòu)建和模擬世界的“造物主”。隨著AI技術(shù)的不斷進(jìn)步,可以展望,世界模型將成為我們理解世界、創(chuàng)造未來、并最終實現(xiàn)通用人工智能的關(guān)鍵基礎(chǔ)設(shè)施。
昆侖萬維作為中國領(lǐng)先的人工智能科技公司,不僅打造出天工語言大模型、天工多模態(tài)大模型、SWE代碼大模型、Agent大模型、視頻大模型、音樂大模型、音頻大模型等模型底座矩陣,還推出了火爆全球的AIGC產(chǎn)品,如Skywork超級智能體、Mureka等。
世界模型是邁向具身智能與高級空間推理的下一前沿課題。如今,昆侖萬維Matrix系列世界模型的持續(xù)迭代與開源,代表了中國空間智能方向研究和應(yīng)用的新里程碑。我們相信,「Matrix-Game 2.0」將為具身智能體訓(xùn)練與數(shù)據(jù)生成、虛擬游戲世界快速搭建、影視與元宇宙內(nèi)容生產(chǎn)等領(lǐng)域帶來變革行影響。
相關(guān)文章
- 昆侖萬維「Matrix-Game 2.0」發(fā)布,國產(chǎn)開源的Genie 3來啦!
- 昆侖萬維技術(shù)周啟幕:SkyReels模型重塑內(nèi)容創(chuàng)作基建
- 昆侖萬維天工超級智能體APP上線后爆火!全球首款Office智能體APP,開啟AI辦公新時代
- 昆侖萬維天工超級智能體APP今日正式上線!全球首款Office智能體APP,開啟AI辦公新時代
- 昆侖萬維正式開源Matrix-Game:從圖像出發(fā)構(gòu)建可控交互世界,重塑交互式世界生成標(biāo)桿
- 昆侖萬維開源R1V視覺思維鏈推理模型,開啟多模態(tài)思考新時代
- 昆侖萬維開源中國首個面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1,重塑AI短劇行業(yè)格局
- 昆侖萬維發(fā)布Matrix-Zero世界模型,開啟空間智能新時代
- 昆侖萬維旗下天工AI正式上線DeepSeek R1+聯(lián)網(wǎng)搜索
- 昆侖萬維「天工大模型4.0」o1版(Skywork o1)正式啟動邀請測試
- 昆侖萬維推出「天工大模型4.0」4o版(Skywork 4o),實時語音對話助手Skyo上線在即
- 昆侖萬維重磅發(fā)布天工AI高級搜索功能,做最懂金融投資、科研學(xué)術(shù)的AI搜索
- AI視頻ChatGPT時刻到來,昆侖萬維發(fā)布全球首款A(yù)I短劇平臺
- 全球首發(fā)!昆侖萬維重磅推出AI流媒體音樂平臺Melodio
- 擁抱國產(chǎn)大模型,云捷亮數(shù)AI產(chǎn)品全面遷移至昆侖萬維天工開放平臺
- 昆侖萬維開源2千億稀疏大模型天工MoE,全球首創(chuàng)能用4090推理
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 低空賦能,跨越山河,大疆運載無人機(jī)的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機(jī)新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機(jī)器人將超2000臺,眾擎機(jī)器人與多倫科技達(dá)成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
- 筑牢安全芯基石,紫光同芯無線充電鑒權(quán)芯片T9系列亮相2025(秋季)亞洲充電展
- 中國移動將支持eSIM全系產(chǎn)品,釋放成長新動能
- 晟聯(lián)科:以高速互連接口IP方案賦能Scale-up 生態(tài)
人工智能產(chǎn)業(yè)
更多>>- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案