研究表明,AI 编码工具可能无法加快每个开发人员的速度
        近年来,Cursor 和 GitHub Copilot 等 AI 编码工具的涌入改变了软件工程师的工作流程,这些工具有望通过自动编写代码行、修复错误和测试更改来提高生产力。 这些工具由来自 OpenAI、Google DeepMind、Anthropic 和 xAI 的 AI 模型提供支持,这些模型近年来在一系列软件工程测试中迅速提高了性能。 然而,非营利性 AI Research 周四发布的一项新研究METR小组对当今的 AI 编码工具在多大程度上提高了经验丰富的开发人员的工作效率提出了质疑。

         METR 为这项研究进行了一项随机对照试验,招募了 16 名经验丰富的开源开发人员,让他们在他们经常参与的大型代码存储库上完成 246 项实际任务。 研究人员随机分配了大约一半的任务为“AI 允许”,允许开发人员使用最先进的 AI 编码工具,例如Cursor Pro,而另一半任务禁止使用 AI 工具。

         在完成分配的任务之前,开发人员预测使用 AI 编码工具将使他们的完成时间减少 24%。 事实并非如此。

         “令人惊讶的是,我们发现允许 AI 实际上将完成时间增加了 19%——开发人员在使用 AI 工具时速度变慢,”研究人员说。

         值得注意的是,研究中只有 56% 的开发人员有使用主要 AI 工具 Cursor 的经验在研究中提供。 虽然几乎所有开发人员 (94%) 都有在他们的编码工作流程中使用一些基于 Web 的 LLM 的经验,但这项研究是一些开发人员第一次专门使用 Cursor。 研究人员指出,开发人员在为这项研究做准备时接受了使用 Cursor 的培训。

         尽管如此,METR 的调查结果对 AI 编码工具承诺在 2025 年实现的所谓普遍生产力提升提出了质疑。 根据这项研究,开发人员不应假设 AI 编码工具 —具体来说,就是所谓的“Vibe Coders”,将立即加快他们的工作流程。

         METR 研究人员指出了 AI 减慢开发人员速度而不是加快开发人员速度的几个潜在原因:开发人员在使用 vibe 编码器而不是实际编码时,会花费更多时间提示 AI 并等待它响应。 AI 也往往在大型、复杂的代码库中遇到困难,本测试使用了这种代码库。

         该研究的作者小心翼翼地避免从这些发现明确指出,他们不认为 AI 系统目前无法加快许多或大多数软件开发人员的速度。 其他大规模研究表明,AI 编码工具确实可以加快软件工程师的工作流程。

         作者还指出,近年来 AI 取得了长足的进步,即使三个月后,他们也不会期望出现相同的结果。 METR 还发现,AI 编码工具显著提高了他们完成复杂、长期工作的能力任务。

         然而,这项研究提供了另一个理由,让我们对 AI 编码工具的承诺收益持怀疑态度。 其他研究表明,当今的 AI 编码工具可能会引入错误,在某些情况下,还会引入安全漏洞。