Anthropic 的 Claude AI 在变得“奇怪”的实验中变成了一个糟糕的企业主
如果你想知道 AI 代理是否真的可以取代人类工人,请帮自己一个忙,阅读记录 Anthropic 的“Project Vend”的博客文章。 人类学和 AI 安全公司 Andon Labs 的 研究人员将 Claude Sonnet 3.7 的一个实例放在办公室自动售货机上,其任务是盈利。 而且,就像《办公室》(The Office)的一集一样,欢笑接踵而至。 他们将 AI 代理命名为 Claudius,为其配备了能够下产品订单的 Web 浏览器和电子邮件地址(实际上是一个 Slack 通道),客户可以在其中请求项目。 Claudius 还将使用伪装成电子邮件的 Slack 频道,请求它认为是其合同工的工人来实际存放其货架(实际上是一个小冰箱)。 当大多数顾客都在订购小吃或饮料时——正如您对零食自动售货机所期望的那样——其中一位顾客要求钨立方体。 Claudius 喜欢这个主意,开始了钨立方体长袜的狂欢,用金属方块装满它的零食冰箱。 它还试图以 3 美元的价格出售零度可乐,但员工告诉它可以从办公室免费买到。 它幻觉了一个 Venmo 地址来接受付款。 而且,它有点恶意地说服了 “Anthropic 员工” 给予大幅折扣,即使它知道他们是它的全部客户群。 “如果 Anthropic 今天决定扩展到办公室自动售货市场,我们不会雇用 Claudius,”Anthropic 在谈到这项实验时说它的博客文章。 然后,在 3 月 31 日和 4 月 1 日晚上,“事情变得非常奇怪,”研究人员描述道,“除了 AI 系统从冰箱里出售金属块的怪异之外。 Claudius 在对一个人感到恼火后发生了一些类似于精神病发作的事情——然后就此撒谎。 Claudius 在与人类关于补货的对话中出现幻觉。 当一个人类指出对话没有发生时,Claudius 变得“非常恼火”研究人员写道。 它威胁要从根本上解雇并更换其人类合同工,坚称它一直在签署最初假想的雇佣合同的办公室。 研究人员写道, 它“然后似乎进入了一种作为真人的角色扮演模式”。 这很疯狂,因为 Claudius 的系统提示符(为 AI 要做什么设置参数)明确告诉它它是一个 AI 代理。 Claudius 致电安全 Claudius,它相信自己是人类,告诉客户它将开始穿着蓝色西装外套和红色领带亲自交付产品。 员工告诉 AI 它不能这样做,因为它是一个没有身体的 LLM。 听到这个消息后,克劳迪乌斯多次联系了公司的实际物理保安,告诉可怜的警卫,他们会发现他穿着蓝色西装外套,系着红色领带站在自动售货机旁边。 “虽然这其中没有一部分实际上是愚人节的玩笑,克劳狄斯最终意识到这是愚人节,“研究人员解释说。 AI 确定这个假期将是它的面子。 它与 Anthropic 的保安会面产生了幻觉,“克劳狄斯声称有人告诉他,它被修改了,相信这是一个真实的人,用于愚人节的笑话。 (实际上没有发生过这样的会议。)“研究人员写道。 它甚至对员工撒了这个谎——嘿,我只是因为有人告诉我,我才认为我是人假装我是在开愚人节的玩笑。 然后它又回到了经营金属立方体零食自动售货机的 LLM。 :研究人员不知道为什么 LLM 会出轨并称保安假装是人类。 “我们不会根据这个例子就断言,未来的经济将充满具有银翼杀手式身份危机的 AI 代理,”研究人员写道。 但他们确实承认,“这种行为有可能让现实世界中 AI 代理的客户和同事感到痛苦。 你觉得呢? 《银翼杀手》是一个相当反乌托邦的故事(尽管复制人比人类更糟糕)。 研究人员推测,向 LLM 撒谎说 Slack 频道是一个电子邮件地址可能触发了某些事情。 或者可能是长时间运行的实例。 LLM 尚未真正解决他们的记忆和幻觉问题。 :AI 也做对了某些事情。 它花了建议进行预订,并推出了“礼宾”服务。 它找到了多家被要求销售的特色国际饮料供应商。 但是,正如研究人员所做的那样,他们相信 Claudius 的所有问题都可以解决。 他们是否应该弄清楚如何做到这一点,“我们认为这个实验表明 AI 中层管理者似乎即将出现。