OpenAI, Meta y Google necesitan gran grandes cantidades de datos para entrenar sus modelos de inteligencia artificial (IA), que encuentran en Internet, en servicios como YouTube, arriesgándose a las potenciales violaciones de derechos de autor en las que pueden incurrir.
La carrera por entrenar el modelo de IA más potente lleva a las compañÃas tecnológicas a buscar nuevas fuentes de datos, incluso pasando por alto las polÃticas de los servicios digitales que prohÃben esta práctica.
Uno de los caso es el uso que en OpenAI han hecho de los vÃdeos de YouTube, como informa The New York Times. Fuentes conocedoras de un debate interno han compartido que la firma que dirige Sam Altman creó una herramienta llamada Whisper para transcripción los vÃdeos de esta plataforma propiedad de Google.
Las transcripciones se habrÃan usado para entrenar GPT-4, considerado uno de los modelos de lenguaje grande más avanzados de la actualidad. Este hecho irÃa en contra de las polÃticas de YouTube, como ya ha confirmado recientemente el director ejecutivo de YouTube, Neal Mohan, en referencia a un supuesto entrenamiento de otra IA de OpenAI, Sora.
Sora es una herramienta de IA generativa que crea vÃdeos realistas a partir de una descripción de texto. Según adelantó The Wall Street Journal, OpenAI habrÃa utilizado vÃdeos de YouTube, pese a que la directora de TecnologÃa de esta empresa, Mira Murati, no fue capaz de confirmarlo, y se limitó a indicar que los datos que utilizan para entrenar a Sora son "datos disponibles públicamente y datos con licencia".
Mohan explicó que se trata de un uso indebido porque los creadores de contenido que deciden publicar vÃdeos en YouTube esperan que su trabajo esté protegidos por los términos del servicio.
Sin embargo, y según fuentes conocedoras de las prácticas de Google, la dueña de YouTube también habrÃa usado las transcripciones de los vÃdeos para entrenar sus modelos de IA, especialmente tras un cambio en los términos de uso que introdujo el año pasado, y que se recogen en mensajes internos vistos por The Times.
Meta es otra de las compañÃas tecnológicas que desarrolla modelos de lenguaje grande e inteligencia artificial. En su caso, habrÃa recurrido a Internet para recoger la gran cantidad de datos que necesitan sus modelos, incluso si los contenidos recogidos están protegidos y se enfrentan a acciones judiciales, como se recoge en grabaciones internas a las que ha tenido acceso el medio citado.