图片来源:Google DeepMind
通过简单的文本提示,Genie 3 可以生成数分钟的交互式 3D 环境,分辨率为 720p,每秒 24 帧——从 Genie 2 可以产生的 10 秒到 20 秒有了显着飞跃。 该模型还具有“可提示的世界事件”,即使用提示来更改生成的世界的能力。 也许最重要的是,Genie 3 的模拟随着时间的推移保持物理一致性,因为该模型可以记住它之前生成的内容——DeepMind 表示其研究人员没有明确将此功能编程到模型中。 Fruchter表示,虽然Genie 3对教育体验、游戏或原型设计创意概念有影响,但它真正的解锁将体现在培训代理执行通用任务,他说这对于实现AGI至关重要。 “我们认为世界模型是 AGI 道路上的关键,特别是对于具身代理而言,模拟现实世界的场景特别具有挑战性,”DeepMind 开放式团队的研究科学家杰克·帕克-霍尔德 (Jack Parker-Holder) 在简报。 
图片来源:谷歌 DeepMind据称, Genie 3 旨在解决这一瓶颈。 与 Veo 一样,它不依赖于硬编码的物理引擎; 相反,DeepMind 表示,该模型通过记住它产生的内容并在很长一段时间内进行推理来自学世界是如何运作的——物体如何移动、下落和相互作用。 “该模型是自动回归的,这意味着它一次生成一帧,”Fruchter 在接受 TechCrunch 采访时说。 “它必须回顾之前生成的内容来决定接下来会发生什么。 这是架构的关键部分。 该公司表示,这种记忆有助于 Genie 3 模拟世界的一致性,这反过来又使其能够发展对物理学的掌握,类似于人类理解桌子边缘摇摇欲坠的玻璃即将掉落,或者他们应该躲避掉落的物体。 值得注意的是,DeepMind 表示该模型还有可能将 AI 代理推向极限——迫使他们从自己的经验中学习,类似于人类在现实世界中的学习方式。 举个例子,DeepMind 将其对 Genie 3 的测试与其最新版本的通才可扩展指令可指导多世界代理 (SIMA) 分享,指示其追求一系列目标。 在仓库环境中,他们要求代理执行诸如“接近亮绿色垃圾压实机”或“走到装满的红色叉车前”之类的任务。 “在这三种情况下,SIMA 代理都能够实现目标,”帕克-霍尔德说。 “它只是接收来自代理的作。 因此,智能体采取目标,看到围绕它模拟的世界,然后在世界中采取行动。 Genie 3 模拟向前,它能够实现这一目标的事实是因为 Genie 3 保持一致。 
图片来源:谷歌 DeepMind 也就是说,Genie 3 有其局限性。 例如,虽然研究人员声称它可以理解物理学,但展示滑雪者从山上疾驰而下的演示并没有反映如何雪会相对于滑雪者移动。 此外,代理可以采取的行动范围是有限的。 例如,可提示的世界事件允许进行广泛的环境干预,但它们不一定是由代理本身执行的。 在共享环境中,准确模拟多个独立代理之间的复杂交互仍然很困难。 Genie 3 也只能支持几分钟的连续交互,而几个小时适当培训所必需的。 尽管如此,该模型在教导代理方面向前迈出了令人信服的一步,超越了对输入的反应,让他们有可能通过反复试验来计划、探索、寻找不确定性并改进——许多人认为这种自我驱动的具身学习是迈向通用智能的关键。 “我们还没有真正为具身代理提供 Move 37 时刻,他们实际上可以在现实世界中采取新颖的行动,”Parker-Holder 说,指的是 2016 年 DeepMind 的 AI 代理 AlphaGo 和世界冠军李世石之间的围棋比赛中的传奇时刻,其中 Alpha Go 下了一个非常规的绝妙棋棋,成为 AI 发现超越人类理解的新策略的能力的象征。 “但现在,我们有可能迎来一个新时代,”他说。