图片来源:OpenAI
在与记者的简报会上,OpenAI 首席执行官 Sam Altman 声称 GPT-5 是“世界上最好的模型”,并表示它代表了该公司在开发人工智能的道路上迈出了“重要一步”,该人工智能可以在最具经济价值的工作(即通用人工智能 (AGI)上超越人类。 “拥有像 GPT-5 这样的东西在历史上任何时候都是几乎不可想象的,”奥特曼说。 从周四开始,GPT-5 将作为默认模型提供给所有免费的 ChatGPT 用户。 OpenAI 的 ChatGPT 副总裁 Nick Turley 表示,这是该公司首次让免费用户访问人工智能推理模型的努力的一部分。 (此前,该公司将这些更先进的型号限制在付费专区后面。 “这只是我很高兴能够履行使命的方式之一,确保这些东西真正造福于人们,”特利在谈到这一决定时说,参考 OpenAI 的长期使命将先进的人工智能分发给尽可能多的人。 对 GPT-5 的期望很高,这是自 ChatGPT 在 2022 年让该公司声名鹊起以来 OpenAI 最受期待的产品发布之一。 从那时起,ChatGPT 已发展成为世界上最受欢迎的消费产品之一,据该公司称,每周覆盖超过 7 亿用户——近全球人口的 10%。 许多人将 GPT-5 视为 AI 进步的风向标从广义上讲,该模型在硅谷的接受可能会对大型科技公司、华尔街和监管技术的政策制定者产生深远影响。 这些利益相关者正在关注 GPT-5 是否会显着提升人工智能的功能,就像其前身 GPT-4 一样,后者挑战了人们对软件功能的期望。 GPT-5 在竞争中略有优势 OpenAI 声称 GPT-5 在多个领域处于领先地位,略高于领先的 AI 模型Anthropic、Google DeepMind 和埃隆·马斯克 (Elon Musk) 的 xAI 在关键基准测试中。 然而,GPT-5 在其他领域的表现略逊于前沿 AI 模型。 该公司表示,GPT-5 在编码方面提供了前沿级的性能; Altman 表示,该模型特别擅长按需启动整个软件应用程序,即所谓的“氛围编码”。 在 SWE-bench Verified(一项从 GitHub 中提取的真实世界编码任务的测试)上,GPT-5 在第一次尝试时得分为 74.9%。 这意味着 GPT-5仅次于Anthropic最新的Claude Opus 4.1型号,得分为74.5%,谷歌DeepMind的Gemini 2.5 Pro得分为59.6%。 On Humanity's Last Exam——一项衡量数学、人文和自然科学领域人工智能模型表现的困难测试——具有扩展推理功能的 GPT-5 版本 (GPT-5 Pro) 在使用工具时得分为 42%。 这略低于 xAI 能够实现的 Grok 4 Heavy,后者在测试中得分为 44.4%。 
图片来源:OpenAI 谈 GPQA 钻石— 博士级科学问题的测试 — GPT-5 pro 在第一次尝试时得分为 89.4%,优于得分为 80.9% 的 Claude Opus 4.1 和得分为 88.9% 的 Grok 4 Heavy。 OpenAI 表示,GPT-5 更适合回答与健康相关的问题。 在一项测量围绕医疗保健主题的人工智能模型响应准确性的测试中, HealthBench Hard Hallucinations,OpenAI 表示 GPT-5(有思维)只有 1.6% 的时间出现幻觉。 这远低于该公司之前的 GPT-4o 和 o3 模型,后者得分分别为 12.9% 和 15.8%。 虽然人工智能聊天机器人不是医疗专业人员,但数百万人正在使用它们来提供健康建议。 针对这一现象,该公司表示,GPT-5 更积极主动地标记潜在的健康问题并帮助用户解析医疗结果。 此外,OpenAI 表示,GPT-5 在更难衡量的主观领域(例如创意设计和写作)优于其他 AI 模型。 特利表示,GPT-5 的响应更自然,并且在创意任务上表现出比其他人工智能模型“更好的品味”。 “这个模型的氛围非常好,”Turley 说。 GPT-5 也比 OpenAI 之前的模型更准确,该公司表示,与其 o 系列模型相比,它遭受幻觉(人工智能模型编造信息的倾向)的困扰要少得多。 幻觉似乎变得更糟在OpenAI最新的人工智能推理模型中,例如o3,OpenAI此前表示,它不太明白为什么会这样发生。 在响应ChatGPT提示时,OpenAI发现GPT-5(有思维)有4.8%的机率出现幻觉,并用不正确的信息做出反应。 这比 o3 和 GPT-4o 显着降低,后者的幻觉率在测试中的得分分别为 22% 和 20.6%。 在衡量 AI 模型完成模拟在线任务的代理能力的基准测试中,Tau-bench,GPT-5 提供了混合的性能。 在测试的一部分中,测量人工智能导航航空公司的能力网站,GPT-5 得分为 63.5%,表现略逊于 o3,后者的得分为 64.8%。 在衡量人工智能浏览零售网站能力的测试的另一部分中,GPT-5 得分为 81.1%,低于 Claude Opus 4.1,后者的得分为 82.4%。 OpenAI 还表示,GPT-5 比之前的模型更安全。 虽然人工智能推理模型偶尔会表现出针对人类的阴谋或撒谎以促进自己的目标,但OpenAI发现GPT-5的欺骗率低于其他模型。 亚历克斯OpenAI 的安全研究负责人 Beutel 表示,减少欺骗不仅可以提高 GPT-5 的安全性,还可以提高用户体验,从而创建一个更加“以用户可以信任的方式透明和诚实”的模型。 Beutel 还指出,GPT-5 更擅长辨别试图滥用 ChatGPT 的不良行为者和提出无害请求的用户。 这导致 GPT-5 能够拒绝更多不安全的问题,同时为寻求无害信息的用户提供更少的拒绝。 面向消费者和开发者的升级 ChatGPT 作为 GPT-5 发布的一部分,正在获得一些用户体验升级。 用户现在可以从 ChatGPT 设置中的四种新个性中进行选择:愤世嫉俗、机器人、倾听者和书。 该公司表示,这些将调整 ChatGPT 的响应,而无需用户特别要求模型以某种方式做出响应。 与免费用户相比,ChatGPT 每月 20 美元 Plus 计划的 订阅者获得更高的 GPT-5 使用限制。 同时,每月 200 美元的专业版订阅者将可以无限制地访问 GPT-5,以及名为 GPT-5 Pro 的增强版本,该版本使用额外的计算资源来生成更好的答案。 OpenAI 的 Team、Edu 和 Enterprise 计划中的组织将在下周获得 GPT-5 作为默认模型的访问权限。 对于开发人员来说,GPT-5 将以三种尺寸进入 OpenAI 的 API——gpt-5、gpt-5-mini 和 gpt-5-nano——它们将花费或多或少的时间通过任务进行“推理”。 开发人员现在还可以控制OpenAI API,决定 AI 模型的响应应该有多长或多短。 GPT-5 的基本模型将花费开发人员每百万个输入代币 1.25 美元(大约 75 万字,比整个《指环王》系列还要长),每百万个输出代币将花费 10 美元。 GPT-5 的推出是在 OpenAI 忙碌了一周之后推出的。 该公司发布了一个开放权重推理模型 gpt-oss,开发人员和企业可以免费下载并以极低的成本运行。 开放式模式几乎与 OpenAI 之前的顶级模型 o3 和 o4-mini 的能力相当,但 GPT-5 在某些领域(例如编码)为前沿性能树立了新标准。 然而,GPT-5 似乎在几个领域与其他前沿 AI 模型大致相当。 当然,基准测试只讲述了任何 AI 模型的部分故事,开发人员将如何在现实世界中使用 GPT-5,以及该模型是否真的在竞争中领先一步,还有待观察。