Voxtral ha lanzado nuevos modelos de comprensión del habla de código abierto, con el objetivo de revolucionar la interacción humana y la computadora haciendo que las interfaces de voz sean más confiables y accesibles. Estos modelos de vanguardia, disponibles en variantes 24B y 3B bajo la licencia Apache 2.0, ofrecen capacidades excepcionales de transcripción y comprensión profunda, que abordan las limitaciones de los sistemas de código abierto y patentados actuales.
Voxtral une la brecha entre las API cerradas de alto costo y las alternativas de código abierto menos precisos. Proporciona precisión de vanguardia y comprensión semántica nativa a menos de la mitad del precio de las API comparables. Los modelos admiten audio de forma larga hasta 30 minutos para la transcripción y 40 minutos para la comprensión, con una longitud de contexto de token de 32k. También incluyen preguntas y respuestas incorporadas y resumen, detección de idiomas automáticos para idiomas ampliamente utilizados (inglés, español, francés, portugués, hindi, alemán, holandés, italiano) y de llamada directa de los comandos de voz.

En puntos de referencia, Voxtral supera significativamente a los principales modelos de código abierto como Whisper GRAND V3 y compite fuertemente con GPT-4O Mini Transcribe y Gemini 2.5 Flash en la transcripción del habla y la comprensión de audio. Por ejemplo, Voxtral Mini Transcribe es más rentable que Operai Whisper, mientras que Voxtral Small coincide con el rendimiento de Elevenlabs Scribe a un precio más bajo. Los modelos también conservan fuertes capacidades de comprensión de texto de su pequeña columna vertebral 3.1 Mistral.
Los modelos Voxtral están disponibles para descargar local en la cara de abrazo y a través de API, con precios que comienzan en $ 0.001 por minuto. Las características empresariales incluyen implementación privada, ajuste fino específico de dominio y capacidades de contexto avanzadas como la identificación del altavoz y la detección de emociones. Las actualizaciones futuras incluirán la segmentación de los altavoces, los marcos de audio y las marcas de tiempo a nivel de palabra, mejorando aún más su utilidad.
Source: Mistral lanza Voxtral: modelos de comprensión del habla de código abierto





