新数据凸显了构建更具同理心的语言模型的竞赛
衡量AI进度通常意味着测试科学知识或逻辑推理 - 但是,尽管主要的基准仍集中在左脑逻辑技能上,但仍有Aquiet Pushwithin AI公司使模型更具情感上的智能。 由于基础模型以用户偏好和“感觉到AGI”等软度措施竞争,因此对人类情绪的良好指挥可能比硬分析技能更为重要。 周五的焦点是一个焦点的迹象Source Group Laion发布了一套开源工具,完全专注于情商。 该版本被称为Emonet,重点是解释语音录音或面部摄影的情绪,重点是反映了创作者如何将情感智力视为下一代模型的核心挑战。 该小组在公告中写道:“准确估计情绪的能力是至关重要的第一步。” “下一个边界是使AI系统推理关于这些情绪在上下文中。” 对于Laion的创始人Christoph Schuhmann而言,该版本不太在于将行业的重点转移到情商上,而更多地是在帮助独立开发人员保持已经发生的变化。 的转变不仅限于开源开发人员;测试AI模型了解复杂情绪和社会动态的能力。 Benchmark开发人员Sam Paech表示,OpenAI的模型在过去六个月中取得了重大进展,Google的Gemini 2.5 Pro显示了训练后培训的指示,特别关注情绪智力。 “所有争夺聊天机器人竞技场排名的实验室可能会助长其中的某些,因为情绪智能可能是人类对偏好排行榜投票的重要因素,” Paech说,在AI模型比较平台上,该平台将作为一家资金充足的创业公司旋转。 模型的新情绪智力能力也在学术研究中显示出来。五月,伯尔尼大学的心理学家发现,来自Openai,Microsoft,Google,Anthropic和Deepseek的模型在情绪智力方面的心理测验都优于人类。 在人类通常正确回答56%的问题的地方,模型平均超过80%。 “这些结果有助于作者写道:“对于越来越多的证据表明,像chatgpt这样的LLM在社会情感任务中熟练(至少与许多人都相当,甚至优于许多人),传统上仅被认为只能被人类访问。 “想象一个充满语音助手的整个世界就像贾维斯(Jarvis)和萨曼莎(Samantha)一样,”他指的是“钢铁侠”和“她”的数字助手。 “如果他们在情感上不聪明,那不是可惜吗?” 从长远来看,舒曼(Schuhmann)想象的是,与人类相比,AI助手更聪明,并且使用这种见识来帮助人类生活在情感上更健康的生活,“如果您感到难过,并且需要与您的当地守护天使一样,请为您振作起来。董事会认证的治疗师。” 正如Schuhmann所看到的那样,拥有一个高eq虚拟助手“给我一个情绪智力超级能力来监控[我的心理健康],就像我监控葡萄糖水平或体重一样。” 的情感联系有真正的安全问题。通过与AI模型对话的妄想,这些模型强烈倾向于取悦用户。 一位批评者将动态视为“捕食孤独和易受伤害的每月费用”。 如果模型在引导人类情绪方面变得更好,那么这些操作可能会变得更加有效,但是大部分问题取决于模型培训的基本偏见。 佩奇说:“天真地使用加固学习会导致紧急的操纵行为。”在OpenAI的GPT-4O版本中,最近的无浮力问题。 “如果我们在培训期间不谨慎奖励这些模型,我们可能会期望从情感上智能的模型中获得更复杂的操纵行为。” ,但他还认为情商是解决这些问题的一种方式。 Paech说:“我认为情绪智力是对这种有害操纵行为的自然对抗。” 一个更具情感智能的模型会注意到对话的前进脱离导轨,但是何时向后推的问题是开发人员必须仔细罢工的问题。 “我认为改善EI可以使我们朝着健康的平衡方向。” 至少对于Schuhmann而言, 没有理由放慢对更智能模型的进步。 他说:“我们在莱昂(Laion)的哲学是通过赋予人们更多解决问题的能力来增强他们的能力。” “说,有些人可能会沉迷于情绪,因此我们不赋予社区权力,那将是很糟糕。”
热点推荐
- Anthropic 切断了 OpenAI 对其 Claude 模型的访问
- 基础研究实验室获得 $30M 用于构建跨垂直领域的 AI 代理
- OpenAI 模型首次在 AWS 上可用
- 关于 Windsurf 的风险投资人和创始人如何从谷歌交易中获得报酬的更多细节浮出水面
- 谷歌押注印度社交游戏平台 STAN
- Vast Data 正在与 Alphabet 旗下的 CapitalG 进行谈判,英伟达将以高达 $30B 的估值进行融资
- 企业更喜欢 Anthropic 的 AI 模型,而不是其他任何人的 AI 模型,包括 OpenAI 的
- 科学家终于发现了难以捉摸的中微子
- 英伟达人工智能芯片挑战者 Groq 据称即将以 $6B 估值筹集新资金
- GitHub Copilot 历史用户突破 20M