Mistral 发布其第一个开源 AI 音频模型 Voxtral

随着 AI 系统的能力越来越强大，语音正迅速成为我们与机器通信的默认方式。法国 AI 初创公司 Mistralhas 凭借其首个开放式模型加入了音频竞赛，旨在通过开放式替代方案挑战围墙企业系统的主导地位。

周二，Mistral 宣布发布 Voxtral，这是其第一个针对企业的音频模型系列。

该公司将 Voxtral 定位为第一个能够部署“真正在生产中使用语音智能。

换句话说，开发人员将不再需要在一个廉价、开放的系统之间做出选择，该系统会摸索转录并且不会真正理解所说的内容，而另一个系统运行良好但封闭，让开发人员需要支付更高的费用和更少的部署控制权。

对于企业来说，这意味着 Voxtral 提供了一种负担得起的替代方案，该公司声称其“价格不到同类解决方案的一半”。

图像学分：Mistral

Mistral 表示 Voxtral 可以转录长达 30 分钟的音频。由于其 LLM 主干 Mistral Small 3.1，它可以理解长达 40 分钟，允许用户询问有关音频内容的问题、生成摘要或将语音命令转换为实时作，例如调用 API 或运行函数。 Voxtral 也是多语言的，能够转录和理解语言，包括英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语。

该公司正在提供其“语音理解模型”的两种变体。第一个是 Voxtral Small，具有 240 亿个用于生产规模部署的参数，可与 ElevenLabs Scribe、GPT-4o-mini 和 Gemini 2.5 Flash 竞争。

第二个是 Voxtral Mini，有 30 亿个参数用于本地和边缘部署。还有一个超便宜、精简、快速的 API 版本，这个 30 亿个模型叫做 Voxtral Mini Transcribe，它针对仅转录使用进行了优化案例，并承诺以不到一半的价格超越 OpenAI Whisper。

用户可以通过在 Hugging Face 上下载 API 或在 Mistral 的聊天机器人 Le Chat 中测试模型来免费试用 Voxtral。据该公司称，将 API 集成到应用程序中的起价为每分钟 0.001 美元。

在 Mistral 宣布推出 Magistral 一个月后推出，这是其第一个推理模型系列，可以逐步解决问题以提高可靠性。

Mistral，顶级 AI 之一公司，以其倡导推动开源 AI 模型而闻名。本月早些时候，TechCrunch 报道称，该公司正在谈判从阿布扎比的 MGX 基金等投资者那里筹集高达 10 亿美元的股本。

网站 Banner

热点推荐