Empresas tecnológicas como Apple, Nvidia y Anthropic han utilizado una base de datos de EleutherAI, que contiene transcripciones de más de 173.500 vÃdeos de YouTube, para entrenar sus inteligencias artificiales (IA), en contra de las normas de la plataforma de Google y sin el permiso de sus autores.
El director ejecutivo de YouTube, Neal Mohan, aseguró en abril que el uso de los vÃdeos de esta plataforma para entrenar modelos y herramientas de IA supone una violación de sus polÃticas. Se referÃa al supuesto uso que pudiera haber hecho OpenAI con Sora, una IA que crea escenas realistas de vÃdeo a partir de instrucciones de texto.
Mohan explicó entonces que se trata de un uso indebido porque los creadores de contenido que deciden publicar vÃdeos en YouTube esperan que su trabajo esté protegidos por los términos del servicio.
Pese a las polÃticas de la plataforma, parece ser una práctica extendida, como muestra ahora una nueva investigación de Proof News. En este caso, empresas tecnológicas de primera lÃnea, entre las que estarÃan Apple, Nvidia, Salesforce y Anthropic, han entrenados sus IA con transcripciones de miles de vÃdeos de YouTube.
No habrÃan accedido a ellos de manera directa, sino a través de la base de datos facilitada por la firma EleutherAI, en la que el medio citado ha encontrado transcripciones de 173.536 vÃdeos de YouTube, de más 48.000 canales, de autores como MIT, Harvard, The Wall Street Journal, BBC, MrBeast y PewDiePie, entre otros.
Aunque la base de datos no incluye imágenes, solo los textos de los vÃdeos -es decir, subtÃtulos y traducciones a otros idiomas-, los datos se habrÃan recogido y usado para el entrenamiento de IA sin permiso de sus autores, como denuncian en Proof News.
Salesforce y Anthropic confirmaron al medio citado el uso de la base de datos de EleutherAI, que es en realidad parte de una compilación mayor denominada 'Pila' y que también contiene material procedente del Parlamento Europeo, la Wikipedia en inglés y correos corporativos de los empleados de Enron que se hicieron públicos en una investigación federal en Estados Unidos. Gran parte de esta Pila es accesible de manera pública y la usan también académicos e investigadores.