研究领导者敦促科技行业监测人工智能的“想法”
来自 OpenAI、Google DeepMind、Anthropic 以及公司和非营利组织的广泛联盟的 AI 研究人员在周二发表的一篇立场论文中呼吁更深入地研究监控所谓 AI 推理模型思想的技术。 AI 推理模型的一个关键特征,例如 OpenAI 的 o3 和 DeepSeek 的 R1,是它们的思维链 CoT——AI 模型解决问题的外部化过程,类似于人类使用便笺簿工作的方式通过一道困难的数学题。 推理模型是为 AI 代理提供支持的核心技术,该论文的作者认为,随着 AI 代理变得更加广泛和强大,CoT 监控可能成为控制 AI 代理的核心方法。 “CoT 监控为前沿 AI 的安全措施提供了有价值的补充,提供了对 AI 代理如何做出决策的难得一瞥,”研究人员在立场文件中说。 “然而,不能保证目前的可见性将持续存在。 我们鼓励研究界和前沿 AI 开发人员充分利用 CoT 可监控性并研究如何保留它。 立场文件要求领先的 AI 模型开发人员研究是什么使 CoT“可监控”——换句话说,哪些因素可以提高或降低 AI 模型如何真正得出答案的透明度。 该论文的作者表示,CoT 监控可能是理解 AI 推理模型的关键方法,但请注意,它可能很脆弱,请警惕任何可能降低其透明度或可靠性的干预措施。 该论文的作者还呼吁 AI 模型开发人员跟踪 CoT 的可监控性,并研究有朝一日如何将该方法作为安全措施实施。 该论文的著名签署者包括 OpenAI 首席研究官 Mark Chen、安全超级智能首席执行官 Ilya Sutskever、诺贝尔奖获得者 Geoffrey Hinton、Google DeepMind 联合创始人 Shane Legg、xAI 安全顾问 DanHendrycks 和 Thinking Machines 的联合创始人 John Schulman。 第一作者包括来自英国的领导人。 AI Security Institute 和 Apollo Research 以及其他签署方来自 METR、Amazon、Meta 和加州大学伯克利分校。 该论文标志着许多 AI 行业领导者团结一致,试图促进围绕 AI 安全的研究。 它发生在科技公司陷入激烈竞争之际——这导致 Meta 从 OpenAI、Google DeepMind 和Anthropic 提供百万美元的报价。 一些最受追捧的研究人员是那些构建 AI 代理和 AI 推理模型的研究人员。 “我们正处于这个关键时刻,我们有了这个新的思维链。 它似乎非常有用,但如果人们不真正专注于它,它可能会在几年内消失,“参与该论文研究的 OpenAI 研究员鲍文·贝克 (Bowen Baker) 在接受 TechCrunch 采访时说。 “对我来说,发布这样的立场文件是一种获得更多的机制在那之前对这个话题进行研究和关注。 OpenAI 于 2024 年 9 月公开发布了第一个 AI 推理模型 o1 的预览版。 在那之后的几个月里,科技行业迅速发布了表现出类似能力的竞争对手,来自 Google DeepMind、xAI 和 Anthropic 的一些模型在基准测试中显示出更先进的性能。 然而,人们对 AI 推理模型的工作原理知之甚少。 虽然 AI 实验室在去年 AI 的性能有所提高,但这并不一定转化为对他们如何得出答案的更好理解。 Anthropic 一直是弄清楚 AI 模型如何真正工作(该领域称为可解释性)的行业领导者之一。 今年早些时候,首席执行官 Dario Amodei 宣布承诺到 2027 年破解 AI 模型的黑匣子,并在可解释性方面进行更多投资。 他呼吁 OpenAI 和 Google DeepMind 对这个话题进行更多研究,因为井。 Anthropic 的早期研究表明,CoT 可能并不完全可靠地表明这些模型如何得出答案。 与此同时,OpenAI 研究人员表示,CoT 监控有朝一日可能会成为跟踪 AI 模型中的对齐和安全性的可靠方法。 像这样的立场文件的目标是发出信号,并吸引更多人关注新兴的研究领域,例如 CoT 监测。 OpenAI、Google DeepMind 和 Anthropic 等公司已经研究这些主题,但本文可能会鼓励对该领域进行更多资金和研究。