图像学分:Mistral
Mistral 表示 Voxtral 可以转录长达 30 分钟的音频。 由于其 LLM 主干 Mistral Small 3.1,它可以理解长达 40 分钟,允许用户询问有关音频内容的问题、生成摘要或将语音命令转换为实时作,例如调用 API 或运行函数。 Voxtral 也是多语言的,能够转录和理解语言,包括英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语。 该公司正在提供其“语音理解模型”的两种变体。 第一个是 Voxtral Small,具有 240 亿个用于生产规模部署的参数,可与 ElevenLabs Scribe、GPT-4o-mini 和 Gemini 2.5 Flash 竞争。 第二个是 Voxtral Mini,有 30 亿个参数用于本地和边缘部署。 还有一个超便宜、精简、快速的 API 版本,这个 30 亿个模型叫做 Voxtral Mini Transcribe,它针对仅转录使用进行了优化案例,并承诺以不到一半的价格超越 OpenAI Whisper。 用户可以通过在 Hugging Face 上下载 API 或在 Mistral 的聊天机器人 Le Chat 中测试模型来免费试用 Voxtral。 据该公司称,将 API 集成到应用程序中的起价为每分钟 0.001 美元。 在 Mistral 宣布推出 Magistral 一个月后推出,这是其第一个推理模型系列,可以逐步解决问题以提高可靠性。 Mistral,顶级 AI 之一公司,以其倡导推动开源 AI 模型而闻名。 本月早些时候,TechCrunch 报道称,该公司正在谈判从阿布扎比的 MGX 基金等投资者那里筹集高达 10 亿美元的股本。