谷歌的 Veo 3 会成为可玩世界模型的开始吗?
谷歌人工智能研究机构 DeepMind 的首席执行官德米斯·哈萨比斯 (Demis Hassabis) 周二晚上似乎暗示,谷歌最新的视频生成模型 Veo 3 有可能用于视频游戏。 回应 X 上的一篇帖子恳求谷歌“让我玩我的 veo 3 视频的视频游戏”,并问道:“可玩的世界模型温? 哈萨比斯回答说,“现在那不是很了不起吗。 周三上午,Google AI Studio 和 Gemini API 的首席产品 Logan Kilpatrick 说: 🤐🤐🤐🤐 的两篇帖子都来自谷歌高管的帖子只不过是俏皮的建议,谷歌发言人告诉 TechCrunch,该公司目前没有什么可分享的。 但对于这家科技巨头来说,构建可玩的世界模型并非没有可能性。 现在不是很了不起吗......https://t.co/WBeCMQye91— Demis Hassabis (@demishassabis) 2025 年 7 月 2 日 World 模型与视频生成模型不同。 前者模拟真实世界环境的动态,它允许代理预测世界将如何响应他们的作而演变。 视频生成模型合成逼真的视频序列。 谷歌计划将其多模态基础模型 Gemini 2.5 Pro 转变为模拟人脑各个方面的世界模型。 12 月,DeepMind 推出了 Genie 2,这是一种可以生成“无穷无尽”各种可玩世界的模型。 接下来的一个月,我们报道了 Google 正在组建一个新的团队来工作可以模拟现实世界的 AI 模型。 其他人正在努力构建世界模型 — 最引人注目的是 AI 先驱 Fei-Fei Li。 李去年在 World Labs 中脱颖而出,这是一家初创公司,已经构建了自己的 AI 系统,可以从单个图像生成类似视频游戏的 3D 场景。 Veo 3 仍处于公开预览阶段,可以创建视频和音频以配合剪辑——从语音到配乐的任何内容。 而 Veo 3 通过模拟现实世界来创建逼真的运动物理学,它还不完全是一个世界模型。 相反,它可以用于游戏中的电影故事讲述,如过场动画、预告片和叙事原型 该模型仍然是一个 “被动输出 ”的生成模型,它(或未来的Veo一代)需要转向一个更加主动、互动和预测性的模拟器。 但视频游戏制作的真正挑战不仅仅是令人印象深刻的视觉效果; 它是实时、一致且可控的模拟。 这就是为什么如果谷歌追求视频游戏或可玩世界的开发,那么在未来看到谷歌采取一种利用Veo和Genie的混合方法可能是有意义的。 Google 可能会发现自己与微软、Scenario、Runway、Pika,以及最终的 OpenAI 的视频生成模型 Sora 竞争。 鉴于谷歌在世界模型领域的计划举措,以及它利用其雄厚的财力和分销实力来压制竞争对手的声誉,该领域的竞争对手保持密切联系是明智的看。