TechBriefly ES
  • Tech
  • Business
  • Geek
  • How to
  • about
    • About Tech Briefly
    • Terms and Conditions
    • Privacy Policy
    • Contact Us
No Result
View All Result
TechBriefly ES
No Result
View All Result
Home Tech
OpenAI supuestamente utilizó datos de YouTube en el desarrollo de GPT-4

OpenAI supuestamente utilizó datos de YouTube en el desarrollo de GPT-4

byEmre Çıtak
08/04/2024
in Tech
Reading Time: 3 mins read
Share on FacebookShare on Twitter

Para desarrollar su modelo de lenguaje avanzado, GPT-4, OpenAI habría utilizado una gran cantidad de datos de vídeos de YouTube.

Se dice que la empresa ha transcrito más de un millón de horas de contenido de vídeo.

Esta noticia llega junto con una tendencia más amplia en la industria de la inteligencia artificial (IA), donde los gigantes tecnológicos están encontrando formas cada vez más creativas (y a veces controvertidas) de reunir el combustible que sus modelos de IA anhelan: los datos.

Por qué los susurros de YouTube son importantes para la IA

El New York Times Recientemente, arrojó luz sobre este desarrollo preocupante cuando YouTube preguntó si los videos en su plataforma se usaban como fuente de datos de entrenamiento para SORA o no hace unos días.

Entonces, ¿por qué recurrir a YouTube para obtener datos de entrenamiento? Es muy sencillo, de verdad. YouTube ofrece un tesoro prácticamente ilimitado de lenguaje hablado. Cada vlog, video de unboxing y tutorial divagante incluye el habla humana en todo su esplendor diverso y desordenado. Dado que los modelos de lenguaje grandes como GPT-4 aprenden “ingeriendo” y analizando grandes cantidades de texto, el audio transcrito de videos se convierte en material invaluable.

  Nvidia Rubin: pionera en la próxima generación de aceleración de IA

Sin embargo, convertir el audio de YouTube en datos de entrenamiento utilizables plantea preguntas complejas. La herramienta de reconocimiento de voz de OpenAI, ‘Whisper’, jugó un papel crucial en la transcripción de la gran cantidad de material de vídeo. Este proceso de transcripción, aunque necesario, pone de relieve las consideraciones de derechos de autor y uso legítimo.

Datos, datos por todas partes… ¿Pero está bien que OpenAI atrape?

La búsqueda de conjuntos de datos sólidos para impulsar la IA no es exclusiva de OpenAI. Los gigantes tecnológicos en todos los ámbitos se enfrentan al mismo desafío. Después de todo, los modelos de IA son notoriamente ávidos de datos. Cuanto más diversos y de mayor calidad sean los datos de entrada, mejor equipados estarán los modelos para manejar la complejidad del mundo real.

  Por el poder de las estrellas Cita de LoL: LoLdle responde 194

La presión para encontrar fuentes de datos creativas es comprensible. En el caso de OpenAI, la compañía supuestamente exploró opciones como podcasts y audiolibros después de enfrentar una escasez de materiales de capacitación más convencionales en 2021. Pero esta búsqueda de datos tiene una desventaja potencial: traspasar los límites de lo que se considera legal y éticamente aceptable.

Openai supuestamente utilizó datos de YouTube
Según se informa, OpenAI utilizó más de un millón de horas de datos de vídeos de YouTube para desarrollar su modelo de lenguaje avanzado, GPT-4. (Credito de imagen)

La zona gris donde chocan los datos de la IA y los derechos de autor

YouTube tiene sus propios términos de servicio claros, que normalmente restringen cómo se puede utilizar su contenido. Si bien existen disposiciones de ‘uso legítimo’ en la ley de derechos de autor (con diferentes interpretaciones según los países), confiar en ellas como justificación para una extracción exhaustiva de datos puede ser una apuesta legal.

La cuestión dista mucho de ser sencilla. Cuando las empresas de tecnología utilizan contenido existente para entrenar sus sistemas de inteligencia artificial, surgen preguntas:

  • ¿Limita esto potencialmente la capacidad de los creadores de contenido original de beneficiarse de su trabajo?
  • ¿Reciben los creadores una compensación suficiente si su material impulsa el desarrollo de herramientas comerciales de IA?
  • ¿Deberían existir directrices o regulaciones más claras para la recopilación de datos de capacitación a gran escala?
  El programa de televisión Fallout da nueva vida a juegos más antiguos

El gran apetito de la IA plantea preguntas aún mayores

El caso de OpenAI destaca una tendencia más amplia: la insaciable necesidad de datos en la industria moderna de la IA. A medida que las tecnologías de inteligencia artificial se vuelven más sofisticadas, las preocupaciones éticas y legales sobre cómo se obtienen los datos de capacitación ocuparán un lugar central.

Ya sean videos de YouTube, repositorios de códigos u otros tipos de contenido generado por usuarios, garantizar el uso justo y responsable de los datos será crucial para mantener la confianza del público en esta tecnología en rápida evolución.


Crédito de imagen destacada: Zac Wolff/Unsplash

Source: OpenAI supuestamente utilizó datos de YouTube en el desarrollo de GPT-4

Related Posts

Whisper Aero presenta el soplador de hojas T1 en CES 2026

Whisper Aero presenta el soplador de hojas T1 en CES 2026

Bluetti presenta el Charger 2 de doble entrada en CES 2026

Bluetti presenta el Charger 2 de doble entrada en CES 2026

Anuncios realizados por Samsung Display en CES 2026

Anuncios realizados por Samsung Display en CES 2026

Spotify lleva la actividad de escucha en vivo a Mensajes

Spotify lleva la actividad de escucha en vivo a Mensajes

Whisper Aero presenta el soplador de hojas T1 en CES 2026
Tech

Whisper Aero presenta el soplador de hojas T1 en CES 2026

Bluetti presenta el Charger 2 de doble entrada en CES 2026
Tech

Bluetti presenta el Charger 2 de doble entrada en CES 2026

Anuncios realizados por Samsung Display en CES 2026
Tech

Anuncios realizados por Samsung Display en CES 2026

Spotify lleva la actividad de escucha en vivo a Mensajes
Tech

Spotify lleva la actividad de escucha en vivo a Mensajes

WhatsApp agrega etiquetas de miembros y pegatinas de texto a los chats grupales
Tech

WhatsApp agrega etiquetas de miembros y pegatinas de texto a los chats grupales

TechBriefly ES

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • About Tech Briefly
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Privacy Policy
  • TechBriefly
  • Terms and Conditions

Follow Us

No Result
View All Result
  • Tech
  • Business
  • Geek
  • How to
  • about
    • About Tech Briefly
    • Terms and Conditions
    • Privacy Policy
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.