Con notable intensidad, se ha instalado en el debate público y académico una tesis que merece examen riguroso: que los sistemas de inteligencia artificial generativa estarían apropiándose gratuitamente del trabajo ajeno mediante procesos de minería de datos sobre contenidos protegidos. Bajo esta construcción, el entrenamiento algorítmico de modelos de lenguaje y de generación de imágenes constituiría una forma de extractivismo digital que vulnera el derecho de autor, distorsiona la competencia y despoja a los creadores del valor económico de sus obras. La tesis tiene atractivo retórico. Carece, sin embargo, de solidez jurídica.
El punto de partida del análisis debe ser la distinción más elemental y estructural del derecho de autor: la que separa la idea de su expresión. El derecho de autor no protege la información en sí misma, ni los hechos, ni los datos, ni los patrones que subyacen a una obra. Protege, con precisión técnica, la forma de expresión original mediante la cual el autor comunica su creación. Esta distinción -consagrada en el Acuerdo sobre los ADPIC y en la legislación de propiedad intelectual de prácticamente todos los ordenamientos modernos no es una sutileza erudita: es el fundamento que permite que el conocimiento circule, que las obras dialoguen entre sí y que la cultura progrese a partir de sus propios acervos.
Cuando un sistema de inteligencia artificial accede a corpus de texto, imágenes o datos disponibles en internet con fines de entrenamiento, lo que realiza es, en su núcleo, un proceso de identificación de patrones, regularidades estadísticas y correlaciones estructurales a partir de grandes volúmenes de información. No hay en esa operación, por definición, una reproducción de obras en el sentido que el derecho de autor sanciona. No hay comunicación pública, no hay distribución, no hay sustitución del mercado de la obra original. Hay, en cambio, un proceso de abstracción que extrae de las obras aquello que el sistema jurídico jamás ha considerado apropiable: la información que contienen, los patrones que exhiben, la estructura que las organiza.
La analogía con el aprendizaje humano es aquí más que ilustrativa: es conceptualmente precisa. Un abogado que estudia miles de sentencias no apropia esas resoluciones: aprende de ellas, abstrae criterios interpretativos, identifica tendencias argumentativas. Un artista que pasa años en museos examinando obras maestras no infringe el derecho de autor de sus autores: incorpora a su propia sensibilidad y técnica los elementos formales y expresivos que aquellas contienen. La inteligencia artificial ejecuta un proceso funcionalmente equivalente. La diferencia radica en la escala y en la velocidad del procesamiento, no en la naturaleza jurídica de la operación. Y la escala, por sí sola, no transforma una conducta jurídicamente lícita en ilícita.
La doctrina y la jurisprudencia comparada han comenzado a explorar estos límites. En los Estados Unidos, múltiples litigios pendientes de resolución plantean si el entrenamiento de modelos generativos sobre obras protegidas constituye uso transformativo en los términos del fair use doctrine. En la Unión Europea, la Directiva sobre derechos de autor en el mercado único digital (2019/790) ha reconocido expresamente una excepción de minería de textos y datos -text and data mining- que ampara el uso de contenidos para el entrenamiento de sistemas de inteligencia artificial, sujeto al respeto de ciertas condiciones. El debate, en consecuencia, no opone el derecho de autor a la inteligencia artificial como si fueran categorías irreconciliables: lo que se discute es dónde trazar, con precisión técnica, la línea entre el uso legítimo de contenidos para aprendizaje y la reproducción indebida de obras protegidas.
Desde la perspectiva del derecho de la libre competencia, la tesis del extractivismo digital presenta debilidades igualmente significativas. El argumento de que las grandes plataformas tecnológicas incurren en abuso de posición dominante al entrenar modelos de IA sobre datos públicos supone que dichos datos constituyen un insumo exclusivo o apropiable, lo que resulta incompatible con su naturaleza abierta y con el principio de libre acceso a la información. Si cualquier actor puede acceder al mismo conjunto de datos -como ocurre, por definición, con los contenidos disponibles públicamente en internet- la ventaja competitiva no deriva del acceso al dato, sino de la capacidad de procesarlo eficientemente. Sancionar esa capacidad como si constituyera una distorsión del mercado equivale a penalizar la eficiencia tecnológica, no proteger la competencia.
El riesgo regulatorio de fondo es, en realidad, el inverso al que describe la tesis crítica. Extender el control autoral sobre los patrones, estructuras o aprendizajes derivados de obras protegidas implicaría reconocer derechos exclusivos sobre elementos que el sistema jurídico ha mantenido deliberadamente en el dominio común: los estilos, los géneros, las convenciones expresivas, las formas de organizar la información. Esa extensión no protegería la creación: la obstaculizaría, al cercar los insumos sobre los que toda obra nueva se construye. La experiencia comparada es elocuente al respecto: los regímenes que han impuesto restricciones amplias al uso de datos para fines tecnológicos han producido, con frecuencia, efectos contraproducentes -aumento de barreras de entrada, concentración en actores con capacidad de costear licencias masivas, desplazamiento de la innovación hacia jurisdicciones más permisivas sin que ello haya redundado en una mejora efectiva de la posición económica de los creadores.
Nada de lo anterior implica que el desarrollo de la inteligencia artificial deba operar en un vacío regulatorio ni que los intereses legítimos de los titulares de derechos de autor sean irrelevantes. Existen cuestiones que sí demandan respuesta jurídica: la transparencia sobre los corpus de entrenamiento utilizados; el tratamiento de obras sujetas a condiciones contractuales de uso; los mecanismos de opt-out para titulares que no deseen que sus obras formen parte de un corpus de entrenamiento; y la atribución de responsabilidad cuando el output generativo reproduce sustancialmente una obra protegida. Estas son las preguntas jurídicamente pertinentes. Son también, significativamente, distintas de la pregunta de si la minería de datos como tal constituye una apropiación indebida.
La inteligencia artificial no sustituye la creación: la presupone, la procesa y la proyecta en nuevas direcciones. Concebir ese proceso como una forma de apropiación equivale a desconocer una verdad que el propio sistema jurídico ha reconocido desde sus orígenes: que el conocimiento es acumulativo, que toda obra nueva se construye sobre el acervo de las anteriores, y que la libertad de acceso a la información no es una amenaza para la creación, sino su condición de posibilidad. El desafío regulatorio no consiste en decidir si las máquinas pueden aprender de la cultura humana -ya lo hacen y lo seguirán haciendo-, sino en diseñar los instrumentos jurídicos precisos que protejan la expresión original sin sacrificar en ese empeño el patrimonio común del conocimiento.
Francisco José Pinochet Cantwell
Doctor en Derecho
Universidad Nacional de Rosario, Argentina
LL.M California Western School of Law, USA