Mistral lanza Voxtral TTS para desafiar a ElevenLabs y OpenAI

La empresa francesa de inteligencia artificial Mistral lanzó un modelo de texto a voz de código abierto llamado Voxtral TTS, diseñado para asistentes de voz de inteligencia artificial y aplicaciones empresariales como la atención al cliente. Este desarrollo posiciona a Mistral directamente frente a competidores como ElevenLabs, Deepgram y OpenAI.

Voxtral TTS admite nueve idiomas: inglés, francés, alemán, español, holandés, portugués, italiano, hindi y árabe. El modelo tiene como objetivo satisfacer las demandas de los clientes de un modelo de voz flexible adecuado para varios dispositivos de borde, proporcionando una solución rentable que mantenga un alto rendimiento.

Pierre Stock, vicepresidente de operaciones científicas de Mistral AI, dijo: “Nuestros clientes han estado pidiendo un modelo de voz. Así que construimos un modelo de voz de tamaño pequeño que puede caber en un reloj inteligente, un teléfono inteligente, una computadora portátil u otros dispositivos de vanguardia”. Destacó que, si bien el modelo tiene un precio competitivo, ofrece un rendimiento de última generación.

El modelo permite la adaptación de voces personalizadas con muestras de menos de cinco segundos. Capta características sutiles como acentos e irregularidades del habla. Además, Voxtral TTS, basado en Ministral 3B, puede cambiar de idioma sin perder calidad de voz, lo que lo hace adecuado para traducción y doblaje en tiempo real.

Microsoft actualiza 365 Copilot con nuevas herramientas de investigación

Las métricas de rendimiento del modelo son notables. Tiene un tiempo hasta el primer audio (TTFA) de 90 milisegundos para una muestra de 10 segundos de 500 caracteres y un factor de tiempo real (RTF) de 6x, lo que significa que puede renderizar un clip en aproximadamente 1,6 segundos.

Este lanzamiento sigue a la introducción por parte de Mistral de dos modelos de transcripción a principios de 2023, destinados al procesamiento de grandes lotes y casos de uso en tiempo real de baja latencia. Voxtral TTS es parte de la estrategia de Mistral de ofrecer un conjunto integral de productos de voz a las empresas.

Stock describió sus planes futuros y afirmó: “Planeamos tener una plataforma de extremo a extremo que pueda manejar flujos de entrada multimodales, incluidos audio, texto e imágenes”. Esta plataforma tiene como objetivo mejorar la información procesada por los sistemas en los que se integra.

Narwal presenta Flow 2 con monitoreo de mascotas mediante IA en CES 2026

Crédito de imagen destacada

Mistral lanza Voxtral TTS para desafiar a ElevenLabs y OpenAI

Related Stories

Apple trae controles de voz Siri más personales a la beta 3

Un estudio antrópico encuentra que los modelos de Claude forman un espacio de trabajo interno que se asemeja a la conciencia

Apple activa Siri AI en Apple Watch en watchOS 27 beta 3

Midjourney presiona a Disney y otros a revelar el uso interno de IA en la demanda