Editoras acadêmicas vendem acesso a artigos de pesquisa para empresas de tecnologia treinarem modelos de inteligência artificial (IA). Alguns investigadores reagiram com consternação a tais acordos, que ocorrem sem a consulta dos autores. A tendência levanta questões sobre o uso de trabalhos publicados e, às vezes, protegidos por direitos autorais, para treinar o número crescente de chatbots de IA em desenvolvimento.

Especialistas dizem que um trabalho de pesquisa que ainda não foi usado para treinar um grande modelo de linguagem provavelmente será usado em breve. Os pesquisadores estão explorando opções técnicas para os autores determinarem se seu conteúdo está sendo usado.

No mês passado, foi anunciado que a editora científica britânica Taylor & Francis, com sede em Milton Park, Reino Unido, assinou um acordo de 10 milhões de dólares com a Microsoft, permitindo à empresa tecnológica norte-americana aceder aos dados da editora para melhorar os seus sistemas de IA. Em junho, uma atualização para investidores mostrou que a editora norte-americana Wiley ganhou US$ 23 milhões ao permitir que uma empresa não identificada treinasse modelos generativos de IA em seu conteúdo.

Qualquer coisa disponível on-line – seja em um repositório de acesso aberto ou não – “muito provavelmente” já foi inserida em um grande modelo de linguagem, diz Lucy Lu Wang, pesquisadora de IA da Universidade de Washington, em Seattle. “E se um papel já foi usado como dados de treinamento em um modelo, não há como remover esse papel após o treinamento do modelo”, acrescenta ela.

Conjuntos de dados massivos

Os LLMs são treinados em grandes quantidades de dados, muitas vezes desviados da Internet. Eles identificam padrões entre os bilhões de trechos de fala nos dados de treinamento, os chamados tokens, que lhes permitem gerar textos com incrível fluência.

Os modelos generativos de IA dependem da ingestão de padrões dessas massas de dados para produzir texto, imagens ou código de computador. Os artigos científicos são valiosos para desenvolvedores de LLM devido à sua extensão e “alta densidade de informações”, diz Stefan Baack, que analisa conjuntos de dados de treinamento de IA na Mozilla Foundation em São Francisco, Califórnia.

A tendência de adquirir conjuntos de dados de alta qualidade está crescendo. Este ano tem oTempos Financeirosseu material dem Desenvolvedor ChatGPT OpenAI oferecido em um negócio lucrativo, assim como o fórum online Reddit para o Google. E uma vez que os editores académicos provavelmente verão a alternativa como uma exploração ilícita do seu trabalho, “acho que haverá mais negócios como este por vir”, diz Wang.

Segredos de informação

Alguns desenvolvedores de IA, como a Rede de Inteligência Artificial em Grande Escala, mantêm intencionalmente seus conjuntos de dados abertos, mas muitas empresas que desenvolvem modelos generativos de IA mantiveram muitos de seus dados de treinamento em segredo, diz Baack. “Não temos ideia do que há nele”, diz ele. Repositórios de código aberto, como o arXiv e o banco de dados científico PubMed, são considerados fontes “muito populares”, embora os artigos de periódicos com acesso pago provavelmente sejam desviados pelas principais empresas de tecnologia para resumos de leitura gratuita. “Eles estão sempre em busca desse tipo de informação”, acrescenta.

É difícil provar que um LLM usou um artigo específico, diz Yves-Alexandre de Montjoye, cientista da computação do Imperial College London. Uma opção é confrontar o modelo com uma frase incomum de um texto e ver se a saída corresponde às próximas palavras do original. Se for esse o caso, é um bom sinal que o artigo esteja incluído no conjunto de treinamento. Caso contrário, isso não significa que o artigo não foi usado - até porque os desenvolvedores podem programar o LLM para filtrar as respostas e garantir que elas não correspondam muito aos dados de treinamento. “É preciso muito para fazer isso funcionar”, diz ele.

Outro método de verificar se os dados estão incluídos em um conjunto de dados de treinamento é chamado de ataque de inferência de associação. Isto se baseia na ideia de que um modelo ficará mais confiante em relação ao seu resultado quando vir algo que já viu antes. A equipe de De Montjoye desenvolveu uma versão disso, chamada armadilha de direitos autorais, para LLMs.

Para armar a armadilha, a equipe gera frases plausíveis, mas sem sentido, e as esconde dentro de uma obra, como texto branco sobre fundo branco ou em um campo exibido com largura zero em uma página da web. Se um LLM for “surpreendido” por uma frase de controle não utilizada – uma medida de sua confusão – mais do que pela frase escondida no texto, “isso é uma evidência estatística de que as armadilhas já foram vistas antes”, diz ele.

Problemas de direitos autorais

Mesmo que fosse possível provar que um LLM foi treinado num texto específico, não está claro o que acontece a seguir. Os editores afirmam que o uso de textos protegidos por direitos autorais em treinamentos sem licença é considerado violação. Mas um contra-argumento jurídico diz que os LLMs não copiam nada – eles extraem conteúdo informativo dos dados de treinamento, processam-nos e usam o conhecimento aprendido para gerar novo texto.

Talvez um processo judicial possa ajudar a esclarecer isso. Processado em um caso de direitos autorais em andamento nos EUA que pode ser inovadorO jornal New York TimesMicrosoft e desenvolvedor do ChatGPT, OpenAI, em São Francisco, Califórnia. O jornal acusa as empresas de utilizarem o seu conteúdo jornalístico para treinar os seus modelos sem autorização.

Muitos académicos estão satisfeitos por ter o seu trabalho incluído nos dados de formação dos LLMs - especialmente à medida que os modelos se tornam mais precisos. “Pessoalmente, não me importo se um chatbot escreve no meu estilo”, diz Baack. Mas ele admite que a sua profissão não está ameaçada pelas despesas com LLMs como estão as de outras profissões, como artistas e escritores.

Actualmente, os autores académicos individuais têm pouca influência quando o editor do seu artigo vende o acesso aos seus trabalhos protegidos por direitos de autor. Para artigos disponíveis publicamente, não há meios estabelecidos de atribuição de crédito ou de saber se o texto foi utilizado.

Alguns investigadores, incluindo de Montjoye, estão frustrados. “Queremos LLMs, mas ainda queremos algo que seja justo, e acho que ainda não inventamos como isso será”, diz ele.