开源版Genie3世界模型:昆仑万维Matrix - Game 2.0带来新突破
日期:2025-08-19 17:46:14 / 人气:7

在人工智能领域,世界模型技术正迎来重大突破。本月初,Google DeepMind发布的Genie 3因效果惊艳,关注度超越了OpenAI同日发布的GPT - 5。而仅过了两个星期,国产开源的实时世界模型——昆仑万维发布的交互世界模型「Matrix - Game 2.0」就已问世,为该领域带来了新的活力与希望。
开源新模型:实时交互与低成本运行
Matrix - Game 2.0参数量仅有1.8B,能跑在单块GPU上,生成的虚拟环境帧率能达到25FPS。玩家可以用键盘WASD按键进行实时的自由移动和视角控制,实现持续时长达分钟级的互动。并且,它是完全开源的(有权重 + 代码库),任何人都能免费使用和修改,还能自己上传图片进行体验。该项目在多个平台提供了链接,方便开发者获取。
实测效果:高度真实与广泛适用
游戏场景表现卓越
• 《荒野大镖客》:上传该游戏画面后,模型生成的视频展示了细腻的自然景观,能理解海拔高度差异,模拟出流水的动态效果,增加了虚拟世界的真实感与沉浸感。
• 《CS:GO》地图De_Dust2:模型不仅加载现有场景,还能自然拓展额外视角和细节,确保生成视频在场景一致性和时序连贯性上高度可靠。
• 《我的世界》:将静态元素转化为动态场景,生成如同无人机航拍视角的视频,展现山脉、梯田、树木和河流倒影等,极具创造力。
• 《战地6》:复刻该3A游戏精细地图,每次角色移动和视角切换都实时触发新画面生成,高帧率和物理一致性保证了操作与画面的紧密结合,展现出在高复杂度交互场景中的潜力。
现实世界与名画模拟出色
• 自行车骑行:成功复现自行车骑行的第一视角,柏油马路笔直延伸,行道树不断后撤,画面细节丰富、动态感强,精准模拟了现实骑行的空间感与真实感。
• 名画漫游:能生成梵高《星空》的视频,可自定义不同角度观察画作,感受其构图、色彩与氛围的变化;还能生成宫崎骏风格的乡间小道场景,树影等细节都模拟得毫无违和感。
技术突破:全新架构与高效算法
核心技术报告
昆仑万维在开源模型的同时放出了Matrix - Game 2.0的技术报告,其中包含了不少技术细节。
解决实时性能问题
基于扩散模型的方法虽有交互式视频生成潜力,但现有交互式世界模型依赖双向注意力机制和冗长推理步骤,限制了实时性能。昆仑万维提出全新的视觉驱动交互世界建模方案,摆脱依赖语言提示的生成模式,专注于视觉理解和物理规律学习来构建虚拟世界。
模型架构与组件
• 数据生产流水线:适用于虚幻引擎和GTA5环境,可有效生成约1200小时交互式视频数据。在GTA5环境中开发综合记录系统,使用Script Hook V扩展工具同步捕捉视觉内容与用户动作,收集超120万个准确率超99%的视频片段。
• 动作注入模块:支持帧级鼠标和键盘输入交互。
• 少步骤蒸馏:基于自回归扩散模型,用于实时流式视频生成。
生成机制优势
通过少步骤自回归扩散算法实时生成长视频,引入高效框架应对效率和可控性挑战。采用Self - Forcing把双向基础模型转化为高效的自回归变体,解决暴露偏差,减少误差累积问题。与Oasis世界模型对比,在长时间互动视频生成方面效果更好,能保持稳定,在图像质量、时间一致性、控制准确性等方面领先。
昆仑万维:持续发力开源社区
Matrix - Game 2.0并非昆仑万维首次展示实力。今年该公司开源了多款模型,如奖励模型Skywork - Reward - V2、无限时长电影生成模型SkyReels - V2等。在HuggingFace上,其模型热度很高。上周连续五天的技术发布活动,又陆续发布了一系列AI模型和工具,覆盖图像、音频、视频、音乐、智能体等领域,展示了公司持续深耕技术的成果,这些新技术不仅推动技术落地,也反哺了研究社区。
世界模型:走向实用阶段
Genie 3发布后,世界模型的应用潜力逐渐显现。DeepMind希望将其生成的环境对齐到机械臂和具身智能的训练上,世界模型生成的虚拟环境可成为AI的完美训练场,帮助机器人、自动驾驶汽车等进行探索和训练,不仅在娱乐场景,在“物理AI”方面也能发挥作用。而Matrix - Game 2.0等开源技术的出现,将加快世界模型实用化的脚步。
作者:恒盛娱乐
新闻资讯 News
- 开源版Genie3世界模型:昆仑万维...08-19
- 中国城市:重新发现水的价值与意...08-19
- 扎克伯格花 14 亿办的学校,倒闭...08-19
- 裁员、搞经销商,快消企业为何从...08-19