ElevenLabs ha ampliado significativamente las capacidades del idioma de su modelo de texto a voz de IA (TTS), que ahora admite un total de 70 idiomas. La startup de IA con sede en la ciudad de Nueva York anunció la semana pasada que la adición de 41 nuevos idiomas hace que su modelo sea accesible para aproximadamente el 90% de la población mundial.
La expansión se implementó en el modelo de once V3 (alfa), que ElevenLabs lanzó el 8 de junio, promocionándolo como su “modelo TTS más expresivo”. La compañía hizo el anuncio a través de su cuenta X oficial, anteriormente conocida como Twitter.
Los idiomas recién apoyados incluyen una gama diversa, como árabe, asamés, bengalí, búlgaro, catalán, gujarati, letón, malayo, malayalam, marathi, nepalí, swahili, tamil y telugu. Esto amplía la utilidad del modelo para creadores y empresas de contenido con el objetivo de llegar a audiencias más amplias.
ElevenLabs aconseja a los usuarios que desean generar texto en cualquiera de los nuevos idiomas para grabar un clon de voz instantáneo (IVC) mientras seleccionan el idioma deseado. Además, la compañía planea agregar voces de biblioteca de voz para los idiomas recién compatibles en las próximas semanas.
Once V3 se basa en la base de los modelos multilingües V2 y V2.5 TTS. Una característica clave de Eleven V3 es su soporte para etiquetas de audio en línea, que incluyen “Whispers”, “Emptada” y “Suspiros”. Estas etiquetas permiten a los usuarios infundir matices emocionales y señales no verbales en el audio generado, lo que resulta en una entrega más dramática y atractiva.
Además, el modelo admite interacciones múltiples de altavoces, completa con interrupciones, ritmo natural y diálogos superpuestos, creando una experiencia conversacional más realista. ElevenLabs enfatiza que Once V3 demuestra un manejo mejorado de elementos como el estrés, la cadencia y la conciencia contextual.
Actualmente se puede acceder al modelo Once V3 a través del sitio web y las aplicaciones móviles de la compañía. Sin embargo, aún no está disponible como interfaz de programación de aplicaciones (API).
Antes de esta expansión del idioma, en abril, Elevenlabs introdujo la transferencia de agentes, una nueva característica de agente centrada en la empresa diseñada para la IA conversacional. Esta característica permite que dos agentes de IA se comuniquen entre sí y entreguen las conversaciones sin problemas, junto con los datos de conversación relevantes, a un agente más especializado.





