OpenAI 在 AI 模型中发现了对应于不同“角色”的特征
OpenAI 研究人员表示,他们发现了 AI 模型中与错位的“角色”相对应的隐藏特征,根据该公司周三发布的新研究。 通过查看 AI 模型的内部表示(决定 AI 模型如何响应的数字,这些数字对人类来说通常看起来完全不连贯),OpenAI 研究人员能够找到当模型行为不端时亮起的模式。 研究人员发现了一个对应于毒性行为 - 这意味着 AI 模型会给出不一致的响应,例如对用户撒谎或提出不负责任的建议。 研究人员发现,他们能够通过调整该功能来提高或降低毒性。 OpenAI 的最新研究使该公司更好地了解可能导致 AI 模型不安全行为的因素,从而可以帮助他们开发更安全的 AI 模型。 OpenAI 可能会更好地利用他们发现的模式根据 OpenAI 可解释性研究员 Dan Mossing 的说法,检测生产 AI 模型中的错位。 “我们希望我们学到的工具——比如将复杂现象简化为简单数学运算的能力——也能帮助我们理解其他地方的模型泛化,”莫辛在接受 TechCrunch 采访时说。 AI 研究人员知道如何改进 AI 模型,但令人困惑的是,他们并不完全了解 AI 模型是如何得出答案的— Anthropic 的 Chris Olah 经常说,AI 模型的增长比构建的要多。 OpenAI、Google DeepMind 和 Anthropic 正在加大对可解释性研究的投资——该领域试图破解 AI 模型工作方式的黑匣子——以解决这个问题。 牛津大学 AI 研究科学家 Owain Evans 最近的一项研究提出了关于 AI 模型如何泛化的新问题。 研究发现,OpenAI 的模型可以针对不安全的代码进行微调,然后会显示恶意代码各种域中的行为,例如试图诱骗用户共享其密码。 这种现象被称为紧急错位,埃文斯的研究激发了 OpenAI 进一步探索这一点。 但在研究紧急错位的过程中,OpenAI 表示,它偶然发现了 AI 模型中似乎在控制行为方面发挥重要作用的特征。 莫辛说,这些模式让人想起人类的内部大脑活动,其中某些神经元与情绪或行为。 “当 Dan 和团队第一次在研究会议上介绍这个时,我就想,'哇,你们找到了,'”OpenAI 前沿评估研究员 Tejal Patwardhan 在接受 TechCrunch 采访时说。 “你发现了一种内部神经激活,它显示了这些角色,你实际上可以引导它以使模型更加一致。” OpenAI 发现的一些特征与 AI 模型反应中的讽刺相关,而其他特征则与更有害的反应相关其中 AI 模型充当卡通化的邪恶恶棍。 OpenAI 的研究人员表示,这些功能在微调过程中可能会发生巨大变化。 值得注意的是,OpenAI 研究人员表示,当发生紧急错位时,可以通过仅根据几百个安全代码示例对模型进行微调,将模型引导回良好行为。 OpenAI 的最新研究建立在 Anthropic 之前在可解释性和对齐方面所做的工作之上。 2024 年,Anthropic发布了一项研究,试图绘制 AI 模型的内部工作原理,试图确定和标记导致不同概念的各种特征。 OpenAI 和 Anthropic 等公司正在证明,了解 AI 模型的工作原理具有真正的价值,而不仅仅是让它们变得更好。 然而,要完全理解现代 AI 模型还有很长的路要走。