La empresa francesa de inteligencia artificial Mistral lanzó un modelo de texto a voz de código abierto llamado Voxtral TTS, diseñado para asistentes de voz de inteligencia artificial y aplicaciones empresariales como la atención al cliente. Este desarrollo posiciona a Mistral directamente frente a competidores como ElevenLabs, Deepgram y OpenAI.
Voxtral TTS admite nueve idiomas: inglés, francés, alemán, español, holandés, portugués, italiano, hindi y árabe. El modelo tiene como objetivo satisfacer las demandas de los clientes de un modelo de voz flexible adecuado para varios dispositivos de borde, proporcionando una solución rentable que mantenga un alto rendimiento.
Pierre Stock, vicepresidente de operaciones científicas de Mistral AI, dijo: “Nuestros clientes han estado pidiendo un modelo de voz. Así que construimos un modelo de voz de tamaño pequeño que puede caber en un reloj inteligente, un teléfono inteligente, una computadora portátil u otros dispositivos de vanguardia”. Destacó que, si bien el modelo tiene un precio competitivo, ofrece un rendimiento de última generación.
El modelo permite la adaptación de voces personalizadas con muestras de menos de cinco segundos. Capta características sutiles como acentos e irregularidades del habla. Además, Voxtral TTS, basado en Ministral 3B, puede cambiar de idioma sin perder calidad de voz, lo que lo hace adecuado para traducción y doblaje en tiempo real.
Las métricas de rendimiento del modelo son notables. Tiene un tiempo hasta el primer audio (TTFA) de 90 milisegundos para una muestra de 10 segundos de 500 caracteres y un factor de tiempo real (RTF) de 6x, lo que significa que puede renderizar un clip en aproximadamente 1,6 segundos.
Este lanzamiento sigue a la introducción por parte de Mistral de dos modelos de transcripción a principios de 2023, destinados al procesamiento de grandes lotes y casos de uso en tiempo real de baja latencia. Voxtral TTS es parte de la estrategia de Mistral de ofrecer un conjunto integral de productos de voz a las empresas.
Stock describió sus planes futuros y afirmó: “Planeamos tener una plataforma de extremo a extremo que pueda manejar flujos de entrada multimodales, incluidos audio, texto e imágenes”. Esta plataforma tiene como objetivo mejorar la información procesada por los sistemas en los que se integra.








