Para desarrollar su modelo de lenguaje avanzado, GPT-4, OpenAI habría utilizado una gran cantidad de datos de vídeos de YouTube.
Se dice que la empresa ha transcrito más de un millón de horas de contenido de vídeo.
Esta noticia llega junto con una tendencia más amplia en la industria de la inteligencia artificial (IA), donde los gigantes tecnológicos están encontrando formas cada vez más creativas (y a veces controvertidas) de reunir el combustible que sus modelos de IA anhelan: los datos.
Por qué los susurros de YouTube son importantes para la IA
El New York Times Recientemente, arrojó luz sobre este desarrollo preocupante cuando YouTube preguntó si los videos en su plataforma se usaban como fuente de datos de entrenamiento para SORA o no hace unos días.
Entonces, ¿por qué recurrir a YouTube para obtener datos de entrenamiento? Es muy sencillo, de verdad. YouTube ofrece un tesoro prácticamente ilimitado de lenguaje hablado. Cada vlog, video de unboxing y tutorial divagante incluye el habla humana en todo su esplendor diverso y desordenado. Dado que los modelos de lenguaje grandes como GPT-4 aprenden “ingeriendo” y analizando grandes cantidades de texto, el audio transcrito de videos se convierte en material invaluable.
Sin embargo, convertir el audio de YouTube en datos de entrenamiento utilizables plantea preguntas complejas. La herramienta de reconocimiento de voz de OpenAI, ‘Whisper’, jugó un papel crucial en la transcripción de la gran cantidad de material de vídeo. Este proceso de transcripción, aunque necesario, pone de relieve las consideraciones de derechos de autor y uso legítimo.
Datos, datos por todas partes… ¿Pero está bien que OpenAI atrape?
La búsqueda de conjuntos de datos sólidos para impulsar la IA no es exclusiva de OpenAI. Los gigantes tecnológicos en todos los ámbitos se enfrentan al mismo desafío. Después de todo, los modelos de IA son notoriamente ávidos de datos. Cuanto más diversos y de mayor calidad sean los datos de entrada, mejor equipados estarán los modelos para manejar la complejidad del mundo real.
La presión para encontrar fuentes de datos creativas es comprensible. En el caso de OpenAI, la compañía supuestamente exploró opciones como podcasts y audiolibros después de enfrentar una escasez de materiales de capacitación más convencionales en 2021. Pero esta búsqueda de datos tiene una desventaja potencial: traspasar los límites de lo que se considera legal y éticamente aceptable.
La zona gris donde chocan los datos de la IA y los derechos de autor
YouTube tiene sus propios términos de servicio claros, que normalmente restringen cómo se puede utilizar su contenido. Si bien existen disposiciones de ‘uso legítimo’ en la ley de derechos de autor (con diferentes interpretaciones según los países), confiar en ellas como justificación para una extracción exhaustiva de datos puede ser una apuesta legal.
La cuestión dista mucho de ser sencilla. Cuando las empresas de tecnología utilizan contenido existente para entrenar sus sistemas de inteligencia artificial, surgen preguntas:
- ¿Limita esto potencialmente la capacidad de los creadores de contenido original de beneficiarse de su trabajo?
- ¿Reciben los creadores una compensación suficiente si su material impulsa el desarrollo de herramientas comerciales de IA?
- ¿Deberían existir directrices o regulaciones más claras para la recopilación de datos de capacitación a gran escala?
El gran apetito de la IA plantea preguntas aún mayores
El caso de OpenAI destaca una tendencia más amplia: la insaciable necesidad de datos en la industria moderna de la IA. A medida que las tecnologías de inteligencia artificial se vuelven más sofisticadas, las preocupaciones éticas y legales sobre cómo se obtienen los datos de capacitación ocuparán un lugar central.
Ya sean videos de YouTube, repositorios de códigos u otros tipos de contenido generado por usuarios, garantizar el uso justo y responsable de los datos será crucial para mantener la confianza del público en esta tecnología en rápida evolución.
Crédito de imagen destacada: Zac Wolff/Unsplash
Source: OpenAI supuestamente utilizó datos de YouTube en el desarrollo de GPT-4