Los autores acusaron a NVIDIA de infracción de derechos de autor en una demanda colectiva ampliada presentada recientemente, alegando que la compañía obtuvo millones de libros pirateados de Anna's Archive para capacitación en inteligencia artificial. La denuncia cita documentos internos que indican que NVIDIA buscó acceso de alta velocidad a los datos de la biblioteca oculta. NVIDIA, un fabricante de chips, ha experimentado un aumento de los ingresos del sector de la inteligencia artificial debido a la demanda de sus chips de aprendizaje de IA y servicios de centro de datos. La empresa desarrolla modelos de IA como NeMo, Retro-48B, InstructRetro y Megatron, entrenados utilizando su hardware y amplias bibliotecas de texto. Este desafío legal sigue a demandas anteriores en las que los autores acusaron a las empresas de tecnología de entrenar modelos de inteligencia artificial en libros pirateados. A principios de 2024, los autores demandaron a NVIDIA, alegando que sus modelos de IA fueron entrenados en el conjunto de datos Books3, que incluía obras protegidas por derechos de autor del sitio Bibliotik sin permiso. NVIDIA defendió sus acciones como uso legítimo, afirmando que los libros funcionaban como correlaciones estadísticas para sus modelos de IA. Durante el descubrimiento, los demandantes descubrieron pruebas adicionales. El viernes, los autores presentaron una denuncia enmendada que amplió la demanda. Esta actualización incluyó más libros, autores y modelos de IA, junto con nuevas afirmaciones de “biblioteca en la sombra”. Los autores, incluido Abdi Nazemian, citaron correos electrónicos y documentos internos de NVIDIA, afirmando que la empresa descargó voluntariamente millones de libros con derechos de autor. La denuncia alega que “las presiones competitivas llevaron a NVIDIA a la piratería”, lo que implica lo que se describe como colaboración con Anna's Archive. Según la denuncia enmendada, un miembro del equipo de estrategia de datos de NVIDIA se puso en contacto con Anna's Archive para evaluar las ofertas de datos. La denuncia detalla la interacción: “Desesperada por libros, NVIDIA se puso en contacto con Anna's Archive, la más grande y descarada de las bibliotecas en la sombra que quedan, para adquirir sus millones de materiales pirateados e 'incluir Anna's Archive en los datos previos a la capacitación para nuestros LLM'”. Anna's Archive cobró decenas de miles de dólares por el “acceso de alta velocidad” a sus colecciones pirateadas; NVIDIA investigó los detalles de este acceso. La denuncia afirma que Anna's Archive informó a NVIDIA sobre la naturaleza ilegal de su biblioteca. Luego, la biblioteca pirata preguntó a los ejecutivos de NVIDIA si se les había concedido el permiso interno para continuar. Al parecer, el permiso se concedió en el plazo de una semana, tras lo cual Anna's Archive proporcionó acceso a sus libros pirateados. “Una semana después de contactar con Anna's Archive, y días después de que Anna's Archive le advirtiera sobre la naturaleza ilegal de sus colecciones, la gerencia de NVIDIA dio 'luz verde' para proceder con la piratería. Anna's Archive ofreció a NVIDIA millones de libros pirateados con derechos de autor”, afirma la denuncia. Anna's Archive prometió a NVIDIA acceso a aproximadamente 500 terabytes de datos, que contienen millones de libros que normalmente están disponibles a través del sistema de préstamo digital de Internet Archive, que a su vez se ha enfrentado a un escrutinio legal. La denuncia no especifica si NVIDIA pagó a Anna's Archive por este acceso. Además de la base de datos Books3, la denuncia alega que NVIDIA descargó libros de LibGen, Sci-Hub y Z-Library. Los autores también alegan que NVIDIA distribuyó scripts y herramientas que permitían a los clientes corporativos descargar automáticamente “The Pile”, que contiene el conjunto de datos pirateados de Books3. Estas reclamaciones introducen cargos de infracción indirecta y contributiva, alegando que NVIDIA generó ingresos de los clientes al facilitar el acceso a estos conjuntos de datos. Los autores solicitan una compensación por daños y perjuicios, presentándose a los autores nombrados y potencialmente a cientos más en la demanda colectiva. Esta es la primera divulgación pública de correspondencia entre una importante empresa tecnológica estadounidense y Anna's Archive, lo que podría aumentar la visibilidad de la biblioteca pirata tras las recientes pérdidas de nombres de dominio. Una copia de la primera demanda consolidada y enmendada, presentada ante el Tribunal de Distrito de EE. UU. para el Distrito Norte de California, está disponible en formato PDF. Los autores nombrados incluyen a Abdi Nazemian, Brian Keene, Stewart O'Nan, Andre Dubus III y Susan Orlean.
Source: Los autores acusan a NVIDIA de piratería masiva en el entrenamiento de IA