Apple 升级后的 AI 模型性能不佳
        Apple 宣布对 AI 模型进行更新,这些模型为 iOS、macOS 等平台上的 Apple Intelligence 功能套件提供支持。 但根据该公司自己的基准,这些模型的表现不如竞争对手科技公司(包括 OpenAI)的旧模型。

         苹果周一在一篇博文中表示,人工测试人员对其最新的“Apple On-Device”模型(在包括 iPhone 在内的产品上离线运行)生成的文本质量进行了评分,该模型与来自类似产品的文本“相当”,但并不优于调整 Google 和 Alibaba 型号。 与此同时,这些测试人员对 Apple 功能更强大的新模型进行了评分,该模型称为“Apple Server”,旨在在公司的数据中心运行,落后于 OpenAI 一年前的 GPT-4o。 据 Apple 称,在一项评估 Apple 模型分析图像能力的单独测试中,人类评分者更喜欢 Meta 的 Llama 4 Scout 模型,而不是 Apple Server。 这有点令人惊讶。 在许多测试中,Llama 4 Scout的性能比 AI 实验室的领先模型差比如 Google、Anthropic 和 OpenAI。

         基准测试结果增加了报道的可信度,这些报道表明 Apple 的 AI 研究部门一直在努力在残酷的 AI 竞赛中赶上竞争对手。 近年来,苹果的 AI 功能不堪重负,承诺的 Siri 升级被无限期推迟。 一些客户起诉了苹果,指责该公司为其尚未交付的产品营销人工智能功能。

         除了生成文本外,Apple On-Device(即大约 30 亿个参数大小,驱动摘要和文本分析等功能。 (参数大致对应于模型的问题解决能力,参数较多的模型通常比参数较少的模型表现更好。 截至周一,第三方开发人员可以通过 Apple 的 Foundation Models 框架来利用它。

         Apple 表示,与前代产品相比,Apple On-Device 和 Apple Server 都拥有改进的工具使用和效率,并且可以理解大约 15 个语言。 这在一定程度上要归功于扩展的训练数据集,其中包括图像数据、PDF、文档、手稿、信息图表、表格和图表。