一项新的人工智能编码挑战赛刚刚发布了第一个结果——而且它们并不漂亮
        一项新的人工智能编码挑战赛揭晓了第一位获胜者,并为人工智能驱动的软件工程师树立了新的标准。

         太平洋标准时间周三下午 5 点,非营利组织 Laude Institute 宣布了 K Prize 的第一位获奖者,这是一项由 Databricks 和 Perplexity 联合创始人 Andy Konwinski 发起的多轮 AI 编码挑战赛。 获胜者是一位名叫 Eduardo Rocha de Andrade 的巴西提示工程师,他将获得 50,000 美元的奖金。 但比胜利更令人惊讶的是他的最终得分:他以仅正确回答了测试中 7.5% 的问题。

         “我们很高兴我们建立了一个实际上很难的基准,”Konwinski 说。 “如果基准很重要,它们应该很难,”他继续说道,并补充道:“如果大型实验室带着他们最大的模型进入,分数会有所不同。 但这就是重点。 K Prize 离线运行,计算有限,因此它更倾向于更小和开放的模型。 我喜欢这一点。 它创造了公平的竞争环境。

         Konwinski 已承诺向 100 万美元第一个在测试中得分高于 90% 的开源模型。

         与著名的 SWE-Bench 系统类似,K 奖根据 GitHub 中标记的问题测试模型,以测试模型处理现实世界编程问题的能力。 但是,虽然 SWE-Bench 基于模型可以针对的一组固定问题进行训练,但 K Prize 被设计为“SWE-Bench 的无污染版本”,使用定时输入系统来防止任何特定于基准的训练。 用于圆形第一,模型截止日期为 3 月 12 日。 然后,K Prize 组织者仅使用该日期之后标记的 GitHub 问题构建了测试。

         7.5% 的最高分与 SWE-Bench 本身形成鲜明对比,SWE-Bench 目前在其较简单的“验证”测试中显示 75% 的最高分,在更难的“完整”测试中显示 34% 的最高分。 Konwinski 仍然不确定这种差异是由于 SWE-Bench 上的污染,还是仅仅是从 GitHub 收集新问题的挑战,但他希望 K Prize 项目能够回答问题很快。

         “随着我们对这个东西的运行越来越多,我们会有更好的感觉,”他告诉 TechCrunch,“因为我们希望人们每隔几个月就能适应一次竞争的动态。

         考虑到已经公开的各种人工智能编码工具,这似乎是一个奇怪的地方——但随着基准测试变得太简单,许多批评者认为像 K 奖这样的项目是解决人工智能日益严重的评估问题的必要步骤。

         “我非常看好为现有基准测试构建新的测试,“普林斯顿大学研究员萨亚什·卡普尔说,他提出了类似的想法在最近的一篇论文中。 “如果没有这样的实验,我们实际上无法判断问题是否是污染,甚至只是针对 SWE-Bench 排行榜,并有人参与。”

         对于 Konwinski 来说,这不仅是一个更好的基准,而且是对行业其他公司的公开挑战。 “如果你听炒作,就好像我们应该看到人工智能医生、人工智能律师和人工智能软件工程师,但事实并非如此,“他说。 “如果我们在无污染的 SWE-Bench 上甚至不能获得超过 10% 的产量,那就是我的现实检验。”