En un anuncio reciente, Meta dio a conocer su último desarrollo de IA, el innovador Caja de voz meta. Este tecnología innovadora de generación de voz cuenta con impresionantes capacidades que superan a sus competidores.
Sin embargo, Meta ha tomado la decisión de retrasar su lanzamiento debido a las preocupaciones en torno a la mal uso potencial y dañar que podría resultar de su disponibilidad sin restricciones. Especialmente con respecto a la factibilidad de usar Voicebox para la producción de audios deepfake, Meta parece considerar que vale la pena ser cauteloso con el lanzamiento. A continuación, puede consultar los detalles sobre las características de Meta Voicebox y las razones por las que puede ser peligroso.
¿Por qué es arriesgado lanzar Meta Voicebox?
El auge de las tecnologías de inteligencia artificial, incluidos los chatbots y los generadores de voz, ha generado preocupaciones sobre posibles abusos y la creación de falsificaciones profundas. Meta Voicebox, con sus capacidades para imitar voces, presenta un riesgo similar según la empresa. Deepfakes, que involucran la creación de contenido de audio o video falso, pueden dañar la reputación, la privacidad y la credibilidad. Los estafadores pueden hacer mal uso de Meta Voicebox a producir mensajes de correo de voz falsos, hacerse pasar por individuos, o crear videos inventados engañar y manipular a otros.
Al reconocer los riesgos potenciales asociados con Voicebox, Meta optó por compartir muestras de audio y un artículo de investigación en lugar de lanzar la herramienta en un estado completamente operativo. Al hacerlo, Meta pretende fomentar el entendimiento entre los académicos e investigadores sobre el potencial de esta tecnología. La empresa reconoce que Voicebox representa un importante paso adelante en la investigación generativa de IA y espera seguir explorando y colaborando en el dominio del audio.
Meta se compromete con el uso responsable
Meta es consciente de los desafíos que plantean las falsificaciones profundas y el potencial de uso indebido y daño no intencionado asociado con tecnologías como Voicebox. la empresa es trabajando activamente para abordar estas preocupaciones y tiene la intención de liberar un trabajo de investigación junto con una herramienta clasificadora. Esta herramienta te ayudará distinguir entre voz generada por Voicebox y el habla humana genuinaayudando a identificar instancias de posible manipulación.
A pesar de los riesgos, Meta destaca los beneficios potenciales de la generación de voz por IA. Voicebox podría revolucionar la comunicación para individuos que son silenciar o tienen dificultades para expresarse, rompiendo las barreras a la interacción. Además, una traducción en tiempo real podría convertirse en una realidad, acercándonos al concepto de un “traductor universal” representado en la ciencia ficción. Voicebox también ofrece a los creadores de contenido la capacidad de editar y mejorar el discurso grabado, lo que permite eliminar y reemplazar sin problemas los segmentos problemáticos.
¿Qué es Meta Voicebox?
Meta Voicebox introduce una nueva era de generación de voz yendo más allá su formación específica y sobresalir en tareas para las que no fue diseñado originalmente. A diferencia de las plataformas de generación de voz anteriores, Voicebox puede generar voz que suene convincentemente similar a la fuente original, incluso con un contexto mínimo proporcionado. Al utilizar la entrada de texto y un breve clip de audio, Voicebox crea un discurso fresco y con un sonido auténtico, imitando al orador destacado del clip de origen. Aquí hay breves resúmenes de sus características distintivas:
Síntesis de texto a voz en contexto: Voicebox, con su capacidad de síntesis de texto a voz en contexto, puede generar voz utilizando una muestra de audio de solo dos segundos como entrada. Al hacer coincidir el estilo de audio de la muestra, Voicebox sobresale en la generación de texto a voz.
Transferencia de estilo entre idiomas: Una característica intrigante de Voicebox es su capacidad para transferir estilos entre idiomas. Al proporcionar una muestra de voz y un pasaje de texto en inglés, francés, alemán, español, polaco o portugués, Voicebox puede generar una lectura del texto en el idioma especificado.
Eliminación de ruido y edición de voz: El aprendizaje en contexto de Voicebox le permite realizar una edición y eliminación de ruido del habla sin inconvenientes. Puede restaurar efectivamente segmentos de voz corrompidos por ruido de corta duración o reemplazar palabras mal pronunciadas sin requerir una regrabación completa de todo el discurso. Los usuarios pueden identificar y recortar sin esfuerzo los segmentos ruidosos, indicando a Voicebox que regenere esas porciones.
Muestreo de voz diverso: Al extraer información de diversos datos del mundo real, Voicebox produce un discurso que imita de cerca la forma en que las personas hablan naturalmente en los seis idiomas antes mencionados. Esta capacidad abre las puertas a la generación de datos sintéticos para mejorar el entrenamiento de los modelos de asistentes de voz. Los resultados experimentales demuestran que los modelos de reconocimiento de voz entrenados en voz sintética generada por Voicebox exhiben un rendimiento comparable a los entrenados en voz real, con una degradación de tan solo el 1 por ciento en las tasas de error.
Meta text-to-speech AI tiene muchas posibles aplicaciones futuras
Meta visualiza Voicebox como una herramienta multiusos con una amplia gama de aplicaciones. asistentes virtuales y personajes no jugadores en el metaverso podría beneficiarse de las voces de sonido natural generadas por Voicebox. Además, personas con discapacidad visual podrían haber leído mensajes escritos en las voces de sus amigos a través de la asistencia de IA. Los creadores de contenido tendrían acceso a nuevas herramientas para crear y editar fácilmente pistas de audio para videos, abriendo posibilidades para experiencias multimedia mejoradas.
Voicebox posee capacidades notables, incluida la capacidad de editar, muestra, y estilizar el discurso, incluso sin entrenamiento explícito en estas áreas. Puede generar clips de audio de alta calidad y manipular audio pregrabado conservando el estilo y el contenido de la grabación original. Por ejemplo, puede eliminar sonidos no deseados como bocinas de autos o ladridos de perros. La versatilidad lingüística de Voicebox es igualmente impresionante, ya que puede hablar en seis idiomas diferentes e incluso en combinaciones bilingües.
Voicebox de Meta representa un avance significativo en Generación de voz impulsada por IA, prometiendo numerosas aplicaciones y beneficios potenciales. Sin embargo, la decisión de retrasar su lanzamiento refleja el compromiso de Meta con desarrollo responsable y abordar los riesgos asociado a la tecnología. Al adoptar un enfoque cauteloso y trabajar activamente para mitigar el posible uso indebido, Meta tiene como objetivo garantizar que Voicebox contribuye positivamente a la sociedad salvaguardándose al mismo tiempo de las consecuencias nocivas que pueden derivarse de su uso irrestricto.
Si está interesado en los desarrollos futuristas de la empresa, consulte las nuevas herramientas Meta que pueden maximizar su impacto en las redes sociales.
Source: El lanzamiento de Meta Voicebox ha sido cancelado por temores de mal uso y daño