开源版Genie3世界模型：昆仑万维Matrix - Game 2.0带来新突破 - 专业知识

开源版Genie3世界模型：昆仑万维Matrix - Game 2.0带来新突破

日期：2025-08-19 17:46:14 / 人气：134

在人工智能领域，世界模型技术正迎来重大突破。本月初，Google DeepMind发布的Genie 3因效果惊艳，关注度超越了OpenAI同日发布的GPT - 5。而仅过了两个星期，国产开源的实时世界模型——昆仑万维发布的交互世界模型「Matrix - Game 2.0」就已问世，为该领域带来了新的活力与希望。

开源新模型：实时交互与低成本运行

Matrix - Game 2.0参数量仅有1.8B，能跑在单块GPU上，生成的虚拟环境帧率能达到25FPS。玩家可以用键盘WASD按键进行实时的自由移动和视角控制，实现持续时长达分钟级的互动。并且，它是完全开源的（有权重 + 代码库），任何人都能免费使用和修改，还能自己上传图片进行体验。该项目在多个平台提供了链接，方便开发者获取。

实测效果：高度真实与广泛适用

游戏场景表现卓越

• 《荒野大镖客》：上传该游戏画面后，模型生成的视频展示了细腻的自然景观，能理解海拔高度差异，模拟出流水的动态效果，增加了虚拟世界的真实感与沉浸感。

• 《CS:GO》地图De_Dust2：模型不仅加载现有场景，还能自然拓展额外视角和细节，确保生成视频在场景一致性和时序连贯性上高度可靠。

• 《我的世界》：将静态元素转化为动态场景，生成如同无人机航拍视角的视频，展现山脉、梯田、树木和河流倒影等，极具创造力。

• 《战地6》：复刻该3A游戏精细地图，每次角色移动和视角切换都实时触发新画面生成，高帧率和物理一致性保证了操作与画面的紧密结合，展现出在高复杂度交互场景中的潜力。

现实世界与名画模拟出色

• 自行车骑行：成功复现自行车骑行的第一视角，柏油马路笔直延伸，行道树不断后撤，画面细节丰富、动态感强，精准模拟了现实骑行的空间感与真实感。

• 名画漫游：能生成梵高《星空》的视频，可自定义不同角度观察画作，感受其构图、色彩与氛围的变化；还能生成宫崎骏风格的乡间小道场景，树影等细节都模拟得毫无违和感。

技术突破：全新架构与高效算法

核心技术报告

昆仑万维在开源模型的同时放出了Matrix - Game 2.0的技术报告，其中包含了不少技术细节。
解决实时性能问题

基于扩散模型的方法虽有交互式视频生成潜力，但现有交互式世界模型依赖双向注意力机制和冗长推理步骤，限制了实时性能。昆仑万维提出全新的视觉驱动交互世界建模方案，摆脱依赖语言提示的生成模式，专注于视觉理解和物理规律学习来构建虚拟世界。
模型架构与组件

• 数据生产流水线：适用于虚幻引擎和GTA5环境，可有效生成约1200小时交互式视频数据。在GTA5环境中开发综合记录系统，使用Script Hook V扩展工具同步捕捉视觉内容与用户动作，收集超120万个准确率超99%的视频片段。

• 动作注入模块：支持帧级鼠标和键盘输入交互。

• 少步骤蒸馏：基于自回归扩散模型，用于实时流式视频生成。

生成机制优势

通过少步骤自回归扩散算法实时生成长视频，引入高效框架应对效率和可控性挑战。采用Self - Forcing把双向基础模型转化为高效的自回归变体，解决暴露偏差，减少误差累积问题。与Oasis世界模型对比，在长时间互动视频生成方面效果更好，能保持稳定，在图像质量、时间一致性、控制准确性等方面领先。

昆仑万维：持续发力开源社区

Matrix - Game 2.0并非昆仑万维首次展示实力。今年该公司开源了多款模型，如奖励模型Skywork - Reward - V2、无限时长电影生成模型SkyReels - V2等。在HuggingFace上，其模型热度很高。上周连续五天的技术发布活动，又陆续发布了一系列AI模型和工具，覆盖图像、音频、视频、音乐、智能体等领域，展示了公司持续深耕技术的成果，这些新技术不仅推动技术落地，也反哺了研究社区。

世界模型：走向实用阶段

Genie 3发布后，世界模型的应用潜力逐渐显现。DeepMind希望将其生成的环境对齐到机械臂和具身智能的训练上，世界模型生成的虚拟环境可成为AI的完美训练场，帮助机器人、自动驾驶汽车等进行探索和训练，不仅在娱乐场景，在“物理AI”方面也能发挥作用。而Matrix - Game 2.0等开源技术的出现，将加快世界模型实用化的脚步。

作者：恒盛娱乐

开源版Genie3世界模型：昆仑万维Matrix - Game 2.0带来新突破

新闻资讯 News

案例展示 Case

现在致电 xylmwohu OR 查看更多联系方式 →

现在致电 xylmwohu OR 查看更多联系方式 →