Os modelos de IA produzem ideias mais originais do que os investigadores?

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Um novo estudo mostra que os modelos de IA podem gerar mais ideias de investigação originais do que 50 cientistas. Especialistas avaliam essas abordagens.

Eine neue Studie zeigt, dass KI-Modelle mehr originelle Forschungsideen generieren können als 50 Wissenschaftler. Experten bewerten diese Ansätze.
Um novo estudo mostra que os modelos de IA podem gerar mais ideias de investigação originais do que 50 cientistas. Especialistas avaliam essas abordagens.

Os modelos de IA produzem ideias mais originais do que os investigadores?

Um sistema gerador de ideias alimentado por inteligência artificial (IA) desenvolveu abordagens de pesquisa mais originais do que 50 cientistas trabalhando de forma independente em uma pré-impressão recente no arXiv 1.

As ideias geradas por humanos e por IA foram avaliadas por revisores que não sabiam quem ou o que criou cada ideia. Os revisores classificaram os conceitos gerados pela IA como mais interessantes em comparação com as ideias de autoria humana, embora as sugestões da IA ​​tenham pontuado um pouco mais baixo em termos de viabilidade.

No entanto, os cientistas salientam que o estudo, que ainda não foi revisto por pares, tem limitações. Concentrou-se numa área específica de investigação e exigiu que os participantes humanos gerassem ideias espontaneamente, o que provavelmente prejudicou a sua capacidade de produzir os melhores conceitos.

Inteligência artificial na ciência

aspirações crescentes, para investigar como grandes modelos de linguagem (LLMs) podem ser usados ​​para automatizar tarefas de pesquisa, como Escrevendo artigos, Gerar código e Pesquisa literária pode ser usado. No entanto, tem sido difícil avaliar se estas ferramentas de IA podem gerar novas abordagens de investigação a um nível semelhante ao dos seres humanos. Isso ocorre porque a avaliação de ideias muito subjetivo e requer especialistas capazes de avaliá-los cuidadosamente, diz Chenglei Si, coautor do estudo e cientista da computação da Universidade de Stanford, na Califórnia. “A melhor maneira de contextualizar essas capacidades é fazer uma comparação lado a lado”, diz Si.

O projeto de um ano é um dos maiores esforços para avaliar se grandes modelos de linguagem - a tecnologia por trás de ferramentas como Bate-papoGPT – podem produzir abordagens de investigação inovadoras, explica Tom Hope, cientista da computação do Instituto Allen de IA em Jerusalém. “É preciso haver mais trabalhos como esse”, diz ele.

A equipe recrutou mais de 100 pesquisadores na área de processamento de linguagem natural, um ramo da ciência da computação que trata da comunicação entre IA e humanos. Quarenta e nove participantes foram encarregados de desenvolver e formular ideias em dez dias com base em um dos sete temas. Como incentivo, os pesquisadores receberam US$ 300 por cada ideia, com um bônus de US$ 1.000 para as cinco melhores ideias.

Ao mesmo tempo, os pesquisadores desenvolveram um gerador de ideias usando Claude 3.5, um LLM desenvolvido pela Anthropic em São Francisco, Califórnia. Os pesquisadores solicitaram que sua ferramenta de IA encontrasse artigos relevantes sobre os sete tópicos de pesquisa por meio do Semantic Scholar, um mecanismo de busca de literatura alimentado por IA. Com base nesses artigos, os pesquisadores pediram ao seu agente de IA que gerasse 4.000 ideias sobre cada tema de pesquisa e avaliasse as mais originais.

Avaliadores humanos

Os pesquisadores então atribuíram aleatoriamente as ideias geradas por humanos e IA a 79 revisores, que avaliaram cada ideia quanto à novidade, entusiasmo, viabilidade e eficácia esperada. Para garantir que os criadores das ideias permanecessem desconhecidos dos revisores, os pesquisadores utilizaram outro LLM para editar os dois tipos de texto, de modo que o estilo e o tom da escrita fossem padronizados sem alterar as próprias ideias.

Em média, os revisores classificaram as ideias geradas pela IA como mais originais e emocionantes do que aquelas escritas por participantes humanos. No entanto, quando analisaram mais de perto as 4.000 ideias produzidas pelo LLM, os investigadores encontraram apenas cerca de 200 que eram verdadeiramente únicas, sugerindo que a IA se tornava menos original quanto mais ideias gerava.

Quando Si entrevistou os participantes, a maioria admitiu que as ideias apresentadas eram apenas medianas em comparação com as ideias produzidas no passado.

Os resultados sugerem que os LLMs podem facilmente gerar ideias mais originais do que a literatura existente, diz Cong Lu, pesquisador de aprendizado de máquina da Universidade da Colúmbia Britânica em Vancouver, Canadá. No entanto, se eles conseguirão superar as ideias humanas mais inovadoras permanece uma questão em aberto.

Outra limitação do estudo é que as ideias escritas comparadas foram editadas por um LLM, o que mudou a linguagem e a duração das submissões, diz Jevin West, cientista da computação em ciências sociais da Universidade de Washington, em Seattle. Essas mudanças podem ter influenciado sutilmente a forma como os revisores perceberam a novidade, acrescenta. West acrescenta que colocar pesquisadores contra um LLM que pode gerar milhares de ideias em poucas horas pode não ser uma comparação completamente justa. “Você tem que comparar maçãs com maçãs”, diz ele.

Si e seus colegas planejam comparar ideias geradas por IA com documentos de conferências importantes para obter uma melhor compreensão de como os LLMs se comparam à criatividade humana. “Estamos tentando encorajar a comunidade a pensar mais profundamente sobre como deverá ser o futuro quando a IA puder assumir um papel mais ativo no processo de pesquisa”, diz ele.

  1. Si, C., Yang, D. & Hashimoto, T. Pré-impressão em arXiv https://doi.org/10.48550/arXiv.2409.04109 (2024).

Baixar referências