Los editores académicos venden acceso a artículos de investigación a empresas de tecnología para entrenar modelos de inteligencia artificial (IA). Algunos investigadores han reaccionado con consternación ante este tipo de acuerdos, que se realizan sin la consulta de los autores. La tendencia plantea dudas sobre el uso de obras publicadas y, a veces, protegidas por derechos de autor para entrenar al creciente número de chatbots de IA en desarrollo.

Los expertos dicen que es probable que pronto se utilice un trabajo de investigación que aún no se ha utilizado para entrenar un modelo de lenguaje grande. Los investigadores están explorando opciones técnicas para que los autores determinen si se está utilizando su contenido.

El mes pasado se anunció que la editorial científica británica Taylor & Francis, con sede en Milton Park, Reino Unido, había firmado un acuerdo de 10 millones de dólares con Microsoft, lo que permitiría a la empresa tecnológica estadounidense acceder a los datos de la editorial para mejorar sus sistemas de inteligencia artificial. En junio, una actualización para inversores mostró que el editor estadounidense Wiley ganó 23 millones de dólares al permitir que una empresa anónima entrenara modelos de IA generativa en su contenido.

Todo lo que esté disponible en línea, ya sea en un repositorio de acceso abierto o no, "muy probablemente" ya haya sido introducido en un modelo de lenguaje de gran tamaño, afirma Lucy Lu Wang, investigadora de inteligencia artificial de la Universidad de Washington en Seattle. "Y si un documento ya se ha utilizado como datos de entrenamiento en un modelo, no hay forma de eliminar ese documento después de entrenar el modelo", añade.

Conjuntos de datos masivos

Los LLM están capacitados con enormes cantidades de datos, a menudo extraídos de Internet. Identifican patrones entre los miles de millones de fragmentos de voz en los datos de entrenamiento, los llamados tokens, que les permiten generar textos con una fluidez asombrosa.

Los modelos de IA generativa se basan en la ingesta de patrones de estas masas de datos para generar texto, imágenes o código informático. Los artículos científicos son valiosos para los desarrolladores de LLM debido a su extensión y “alta densidad de información”, dice Stefan Baack, que analiza conjuntos de datos de entrenamiento de IA en la Fundación Mozilla en San Francisco, California.

La tendencia a comprar conjuntos de datos de alta calidad está creciendo. Este año tiene laTiempos financierossus materiales materiales Desarrollador de ChatGPT OpenAI ofrecido en un trato lucrativo, al igual que el foro en línea Reddit para Google. Y dado que es probable que los editores académicos vean la alternativa como un desvío ilícito de su trabajo, “creo que habrá más acuerdos como este en el futuro”, afirma Wang.

Secretos de información

Algunos desarrolladores de IA, como la Red de Inteligencia Artificial a gran escala, mantienen abiertos intencionalmente sus conjuntos de datos, pero muchas empresas que desarrollan modelos generativos de IA han mantenido en secreto gran parte de sus datos de entrenamiento, dice Baack. "No tenemos idea de lo que contiene", dice. Los repositorios de código abierto como arXiv y la base de datos científica PubMed se consideran fuentes “muy populares”, aunque es probable que las principales empresas de tecnología desvíen artículos de revistas de pago para obtener resúmenes de lectura gratuita. “Siempre están a la caza de este tipo de información”, añade.

Es difícil demostrar que un LLM utilizó un artículo en particular, dice Yves-Alexandre de Montjoye, informático del Imperial College de Londres. Una opción es confrontar el modelo con una oración inusual de un texto y ver si el resultado coincide con las siguientes palabras del original. Si este es el caso, es una buena señal que el documento esté incluido en el conjunto de formación. Si no, eso no significa que el documento no se haya utilizado, sobre todo porque los desarrolladores pueden programar el LLM para filtrar las respuestas y garantizar que no coincidan demasiado con los datos de entrenamiento. "Se necesita mucho para que esto funcione", dice.

Otro método para comprobar si los datos están incluidos en un conjunto de datos de entrenamiento se denomina ataque de inferencia de membresía. Esto se basa en la idea de que un modelo tendrá más confianza en su resultado cuando vea algo que ha visto antes. El equipo de De Montjoye ha desarrollado una versión de esto, llamada trampa de derechos de autor, para estudiantes de maestría en Derecho.

Para tender la trampa, el equipo genera oraciones plausibles pero sin sentido y las oculta dentro de una obra, como texto blanco sobre un fondo blanco o en un campo que se muestra con ancho cero en una página web. Si un LLM se "sorprende" por una oración de control no utilizada -una medida de su confusión- más que por la oración oculta en el texto, "eso es evidencia estadística de que las trampas se han visto antes", dice.

Problemas de derechos de autor

Incluso si fuera posible demostrar que un LLM fue capacitado en un texto en particular, no está claro qué sucede a continuación. Los editores afirman que el uso de textos protegidos por derechos de autor en la formación sin licencia se considera una infracción. Pero un contraargumento legal dice que los LLM no copian nada: extraen el contenido de la información de los datos de capacitación, los procesan y utilizan el conocimiento aprendido para generar texto nuevo.

Quizás un proceso judicial podría ayudar a aclarar esto. Demandado en un caso de derechos de autor en curso en EE. UU. que podría ser innovadorLos New York TimesMicrosoft y el desarrollador de ChatGPT, OpenAI, en San Francisco, California. El diario acusa a las empresas de utilizar sus contenidos periodísticos para entrenar a sus modelos sin permiso.

Muchos académicos están felices de que su trabajo se incluya en los datos de capacitación de los LLM, especialmente a medida que los modelos se vuelven más precisos. "Personalmente, no me importa si un chatbot escribe en mi estilo", dice Baack. Pero admite que su profesión no se ve amenazada por los gastos de los LLM como lo están las de otras profesiones, como las de artistas y escritores.

Los autores académicos individuales actualmente tienen poca influencia cuando el editor de su artículo vende el acceso a sus obras protegidas por derechos de autor. Para los artículos disponibles públicamente, no existe un medio establecido para asignar crédito o saber si se ha utilizado el texto.

Algunos investigadores, incluido De Montjoye, están frustrados. "Queremos LLM, pero todavía queremos algo que sea justo, y no creo que hayamos inventado cómo se ve todavía", dice.