昆侖萬維正式開源Matrix-Game:從圖像出發(fā)構(gòu)建可控交互世界,重塑交互式世界生成標桿
2025-05-13 11:57:47AI云資訊2519
5月13日,昆侖萬維正式開源(17B+)Matrix-Game大模型,即Matrix-Zero世界模型中的可交互視頻生成大模型。Matrix-Game是Matrix系列在交互式世界生成方向的正式落地,也是工業(yè)界首個開源的10B+空間智能大模型,它是一個面向游戲世界建模的交互式世界基礎模型,專為開放式環(huán)境中的高質(zhì)量生成與精確控制而設計。
空間智能作為AI時代的重要前沿技術,正在重塑我們與虛擬世界的交互方式。通過融合視頻生成、三維建模與交互控制等核心技術,空間智能不僅支持更加自然、直觀、沉浸的體驗,也在具身智能、影視制作、游戲開發(fā)等領域展現(xiàn)出巨大潛力。
昆侖萬維長期關注空間智能的新進展,經(jīng)過不懈的技術研發(fā),今天正式開源Matrix-Game,不僅刷新了交互式世界生成的技術上限,也為構(gòu)建通用虛擬世界基座樹立了全新標桿。
Matrix-Game聚焦于視頻生成與用戶交互的深度融合,讓用戶可以通過簡單直觀的指令,自由探索、操控、甚至創(chuàng)造出細節(jié)豐富、物理規(guī)則合理的虛擬世界。
Matrix-Game由以下三大核心部分構(gòu)成:
1.Matrix-Game-MC數(shù)據(jù)集:自主構(gòu)建的大規(guī)模交互世界數(shù)據(jù)集,包含兩類數(shù)據(jù):一是大規(guī)模無標簽的Minecraft游戲視頻,二是帶有鍵盤與鼠標控制信號的 Minecraft 與 Unreal 可控視頻數(shù)據(jù),具備精細的動作注釋。該數(shù)據(jù)集支持對復雜環(huán)境動態(tài)與交互模式的高效建模與學習。
2.Matrix-Game主模型:基于先進擴散模型技術開發(fā)的圖像到世界生成框架,能夠根據(jù)用戶輸入(鍵盤指令、鼠標移動等)生成連貫、可控的互動視頻,兼顧視覺質(zhì)量、時序一致性與物理合理性。
3.GameWorld Score評測體系:提出統(tǒng)一的游戲交互世界評估標準,從視頻的視覺質(zhì)量、時序質(zhì)量、動作可控性與物理規(guī)則理解四個維度,全面量化模型性能,填補了該領域缺乏系統(tǒng)性評測基準的空白。
通過兩階段訓練策略(無標簽數(shù)據(jù)預訓練 + 標注數(shù)據(jù)可控訓練),參數(shù)規(guī)模達 17B 的 Matrix-Game 世界基座模型在空間理解、用戶指令響應以及物理交互建模等方面取得了顯著提升。具備以下模型優(yōu)勢:
細粒度用戶交互控制:支持前進、跳躍、攻擊、視角移動等細節(jié)操作,根據(jù)用戶輸入響應,操作體驗準確自然。
高保真視覺與物理一致性:生成結(jié)果在保持視覺連貫的同時,遵循自然物理規(guī)律,如重力、碰撞等,顯著提升沉浸感。
多場景泛化能力:具備對多種 Minecraft 游戲場景的泛化能力,涵蓋不同地形、天氣和生物群系,并具備向非 Minecraft 游戲環(huán)境泛化的潛力。
系統(tǒng)化評估體系:提出統(tǒng)一的 GameWorld Score 標準,為交互世界模型的客觀評估與持續(xù)優(yōu)化提供有力支撐。
與知名創(chuàng)業(yè)公司 Decart 開源方案 Oasis 和微軟開源模型 MineWorld 對比,Matrix-Game 在 Minecraft 世界生成任務的各項指標上實現(xiàn)了全面超越,尤其在交互可控性和物理一致性理解方面表現(xiàn)尤為出色。此外,得益于 Unreal 數(shù)據(jù)的融入,Matrix-Game 在泛化到更廣泛的通用游戲場景方面展現(xiàn)出明顯優(yōu)勢。
來源:Matrix-Game技術報告
Matrix-Game能夠在不同Minecraft場景下(如森林、沙灘、沙漠、冰川、河流、平原等)實現(xiàn)可控生成,包括基礎運動、復合運動、視角運動等。例如,在一個沙漠場景中,Matrix-Game 能夠根據(jù)用戶輸入的任意控制指令(如鍵盤的 W/A/S/D 方向鍵、Space 鍵用于跳躍、Attack 鍵用于攻擊,以及鼠標用于視角移動),生成對應的游戲世界視頻,支持角色的前后左右移動、跳躍、攻擊以及視角變換等動態(tài)行為。
在此基礎上,Matrix-Game 支持自回歸式的長視頻生成,不僅能實現(xiàn)動作與視角之間的絲滑銜接,還在時間一致性與環(huán)境適應性方面表現(xiàn)出色,為開發(fā)沉浸式長時體驗、創(chuàng)意內(nèi)容生成及游戲設計等應用奠定了堅實的模型基礎。
不僅如此,在非Minecraft場景泛化上,Matrix-Game表現(xiàn)得也非常出色。
接下來,我們來看看Matrix-Game是如何達到這樣的效果的。
01
數(shù)據(jù)構(gòu)建:大規(guī)模高質(zhì)量Matrix-Game-MC數(shù)據(jù)集
為構(gòu)建能夠理解物理規(guī)則并具備交互生成能力的世界基礎模型,Matrix-Game 自主構(gòu)建了大規(guī)模 Matrix-Game-MC 數(shù)據(jù)集,涵蓋從無標簽預訓練數(shù)據(jù)到精細標注的可控視頻的完整流程,兼顧數(shù)據(jù)規(guī)模與質(zhì)量。
無標簽預訓練數(shù)據(jù)集采用三階段過濾機制從6000小時的MineDojo數(shù)據(jù)中過濾出近千小時高質(zhì)量數(shù)據(jù): (1) 畫質(zhì)與美學過濾;(2) 非游戲內(nèi)容剔除;(3) 動態(tài)與視角穩(wěn)定性過濾。
有標簽數(shù)據(jù)采用兩種策略混合生成數(shù)千小時的可控監(jiān)督數(shù)據(jù):
探索代理(Exploration Agent):借助 VPT agent 在 MineRL 環(huán)境中進行自動探索,生成大規(guī)模、高質(zhì)量的 Minecraft 視頻數(shù)據(jù),數(shù)據(jù)中包含精確的鍵盤與鼠標控制信號,支持可控性學習。
程序化模擬(Unreal Procedural Simulation):基于 Unreal Engine 手動構(gòu)建結(jié)構(gòu)清晰、標簽精確的模擬交互場景,提供位置信息、動作標簽(離散與連續(xù))、以及環(huán)境反饋信號(如方塊是否成功破壞),生成高精度、無噪聲的可控標注數(shù)據(jù),助力高保真動作-響應建模。
02
模型架構(gòu):Matrix-Game從圖像出發(fā)構(gòu)建可控交互世界
Matrix-Game是以圖像為輸入的交互式世界生成基礎模型,整體架構(gòu)圍繞以下幾個核心設計:
圖像到世界建模(Image-to-World Modeling)
強調(diào)空間智能能力:不依賴語言提示,僅基于視覺信號建模空間幾何、物體運動及其物理交互;
輸入形式:以單張參考圖像作為生成交互式視頻的起點;
交互可控生成:融合用戶動作輸入(如鍵盤、鼠標),通過類似 Flux 與 HunyuanVideo 的多模態(tài)擴散模型直接生成虛擬游戲世界的視頻內(nèi)容。
自回歸式視頻生成(AutoregressiveDiffusion Generation)
支持自回歸方式擴展生成長度,可持續(xù)生成高一致性長視頻內(nèi)容;
每次以前一視頻片段的最后 k=5幀作為運動上下文,逐段遞進生成,確保時間上的連貫性;
為緩解時序漂移和誤差累積,訓練中以一定概率針對參考圖像與運動上下文引入隨機擾動、隨機刪除,以及Classifier-free guidance策略。
可控交互設計(Injecting Actions for Controllability)
鍵盤動作(如上下左右、跳躍、攻擊)以離散token表達,視角移動動作(如鼠標pitch角度)則以連續(xù)token表達;
采用GameFactory的控制模塊,并融入多模態(tài)Diffusion Transformer架構(gòu);
使用 Classifier-free guidance策略提升對控制信號的魯棒響應能力。
03
評測體系與模型性能:提出統(tǒng)一基準 GameWorld Score,重塑交互式世界生成標桿
為了系統(tǒng)性評估和比較交互式世界生成模型的性能,Matrix-Game提出了一套專為 Minecraft 世界建模設計的統(tǒng)一評測框架——GameWorld Score。該評測體系彌補了現(xiàn)有基準在交互性、物理一致性等維度的缺失,首次實現(xiàn)了對感知質(zhì)量 + 控制能力 + 物理合理性的全方位衡量。
GameWorld Score 包含四大核心評估維度:
視覺質(zhì)量(Visual Quality):評估每一幀圖像的清晰度、結(jié)構(gòu)一致性與真實感。依據(jù)人類視覺系統(tǒng)(HVS)標準衡量每一幀圖像生成效果。
時序質(zhì)量(Temporal Quality):衡量模型生成視頻的動態(tài)連貫性,包括運動連續(xù)性、節(jié)奏平滑性與時間穩(wěn)定性。
交互可控性(Action Controllability):評估生成結(jié)果是否準確響應用戶輸入的控制信號,涵蓋離散控制(如前進、跳躍)和連續(xù)控制(如視角轉(zhuǎn)換)。
物理規(guī)則理解(Physical Rule Understanding):測試生成視頻是否遵循物理常識與空間一致性。
在GameWorld Score評測系統(tǒng)中,Matrix-Game在視覺質(zhì)量、時間一致性、動作可控性與物理規(guī)則理解四大維度上均取得領先成績,全面超越現(xiàn)有開源基線模型 Oasis 與 MineWorld。
在雙盲人評實驗中,用戶更傾向于選擇 Matrix-Game生成的視頻:
96.3% 總體偏好率,生成效果更真實、連貫、可信;
93.76% 動作控制偏好,準確響應鍵盤與鼠標指令;
98.23% 視覺質(zhì)量得分,單幀畫面更清晰美觀;
89.56% 時間一致性得分,動態(tài)流暢,無閃爍跳變。
在控制性能上,Matrix-Game可實現(xiàn):“運動”“攻擊”等動作高達 90%+ 準確率;細粒度視角控制下依然保持高精度響應。
在 8 大典型 Minecraft 場景中全面領先,展現(xiàn)出卓越的環(huán)境適應性與泛化能力,可廣泛應用于復雜動態(tài)的虛擬世界交互任務。
Matrix-Game用事實證明,它不僅能“看得清”,更能“動得準、控得穩(wěn)”,是當前工業(yè)界最強的交互式世界生成基座模型之一。
04
昆侖萬維引領交互式世界生成新紀元
Matrix-Game作為空間智能領域交互式世界生成的重要里程碑,將潛在為多個領域帶來革命性影響:
虛擬游戲世界快速搭建:借助模型的可控生成能力,可低成本、高效率地創(chuàng)建多樣化、結(jié)構(gòu)合理的游戲地圖與交互環(huán)境,顯著提升關卡設計與任務構(gòu)建的自由度。
影視與元宇宙內(nèi)容生產(chǎn):支持高保真、物理一致的動態(tài)場景合成,為沉浸式體驗開發(fā)與創(chuàng)意內(nèi)容生成提供通用世界建?;A。
具身智能體訓練與數(shù)據(jù)生成:盡管當前模型未直接用于具身智能,Matrix-Game 具備生成大規(guī)模交互視頻的能力,具備擴展至具身智能體訓練與評估的潛力,可為智能體創(chuàng)建多樣復雜的虛擬環(huán)境,輔助其任務執(zhí)行與推理能力的提升。
Matrix-Game讓世界不再只是被觀看,而是被探索、被操控、被創(chuàng)造。昆侖萬維正站在空間智能時代的新起點,邀請每一位探索者一起,用指尖繪制屬于自己的無限虛擬世界。
未來,昆侖萬維將持續(xù)投入前沿技術與基礎模型研發(fā),并且堅定開源SOTA級別模型回歸社區(qū)。我們相信,Matrix系列世界模型將對公司AI短劇生產(chǎn)和編輯以及AI游戲生產(chǎn)等業(yè)務進一步賦能,為用戶和開發(fā)者帶來新的平臺和工具。
相關文章
- 昆侖萬維「Matrix-Game 2.0」發(fā)布,國產(chǎn)開源的Genie 3來啦!
- 昆侖萬維技術周啟幕:SkyReels模型重塑內(nèi)容創(chuàng)作基建
- 昆侖萬維天工超級智能體APP上線后爆火!全球首款Office智能體APP,開啟AI辦公新時代
- 昆侖萬維天工超級智能體APP今日正式上線!全球首款Office智能體APP,開啟AI辦公新時代
- 昆侖萬維正式開源Matrix-Game:從圖像出發(fā)構(gòu)建可控交互世界,重塑交互式世界生成標桿
- 昆侖萬維開源R1V視覺思維鏈推理模型,開啟多模態(tài)思考新時代
- 昆侖萬維開源中國首個面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1,重塑AI短劇行業(yè)格局
- 昆侖萬維發(fā)布Matrix-Zero世界模型,開啟空間智能新時代
- 昆侖萬維旗下天工AI正式上線DeepSeek R1+聯(lián)網(wǎng)搜索
- 昆侖萬維「天工大模型4.0」o1版(Skywork o1)正式啟動邀請測試
- 昆侖萬維推出「天工大模型4.0」4o版(Skywork 4o),實時語音對話助手Skyo上線在即
- 昆侖萬維重磅發(fā)布天工AI高級搜索功能,做最懂金融投資、科研學術的AI搜索
- AI視頻ChatGPT時刻到來,昆侖萬維發(fā)布全球首款AI短劇平臺
- 全球首發(fā)!昆侖萬維重磅推出AI流媒體音樂平臺Melodio
- 擁抱國產(chǎn)大模型,云捷亮數(shù)AI產(chǎn)品全面遷移至昆侖萬維天工開放平臺
- 昆侖萬維開源2千億稀疏大模型天工MoE,全球首創(chuàng)能用4090推理
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案