Les modèles d’IA produisent-ils plus d’idées originales que les chercheurs ?
Une nouvelle étude montre que les modèles d’IA peuvent générer plus d’idées de recherche originales que 50 scientifiques. Les experts évaluent ces approches.

Les modèles d’IA produisent-ils plus d’idées originales que les chercheurs ?
Un système générateur d'idées basé sur l'intelligence artificielle (IA) a développé des approches de recherche plus originales que 50 scientifiques travaillant indépendamment dans une récente prépublication sur arXiv. 1.
Les idées générées par l’homme et l’IA ont été évaluées par des évaluateurs qui ne savaient pas qui ou quoi avait créé chaque idée. Les évaluateurs ont jugé les concepts générés par l'IA comme plus intéressants que les idées créées par des humains, bien que les suggestions de l'IA aient obtenu des résultats légèrement inférieurs en termes de faisabilité.
Cependant, les scientifiques soulignent que l’étude, qui n’a pas encore été évaluée par des pairs, présente des limites. Il se concentrait sur un domaine de recherche spécifique et exigeait que les participants humains génèrent spontanément des idées, ce qui entravait probablement leur capacité à produire les meilleurs concepts.
L'intelligence artificielle en science
Il y a aspirations croissantes, pour étudier comment les grands modèles de langage (LLM) peuvent être utilisés pour automatiser des tâches de recherche telles que Rédaction d'articles, Générer du code et Recherche littéraire peut être utilisé. Cependant, il a été difficile d’évaluer si ces outils d’IA peuvent générer de nouvelles approches de recherche au même niveau que les humains. C'est parce que l'évaluation des idées très subjectif et nécessitent des spécialistes capables de les évaluer soigneusement, explique Chenglei Si, co-auteur de l'étude et informaticien à l'Université de Stanford en Californie. « La meilleure façon de contextualiser ces capacités est de procéder à une comparaison côte à côte », explique Si.
Ce projet, qui s'étend sur un an, est l'un des plus grands efforts visant à évaluer si les grands modèles de langage - la technologie derrière des outils comme ChatGPT – peut produire des approches de recherche innovantes, explique Tom Hope, informaticien à l’Allen Institute for AI à Jérusalem. « Il faut faire davantage de travail comme celui-ci », dit-il.
L’équipe a recruté plus de 100 chercheurs dans le domaine du traitement du langage naturel, une branche de l’informatique qui traite de la communication entre l’IA et les humains. Quarante-neuf participants ont été chargés de développer et de formuler des idées en dix jours sur la base de l'un des sept thèmes. En guise d'incitation, les chercheurs ont reçu 300 $ pour chaque idée, avec une prime de 1 000 $ pour les cinq meilleures idées.
Parallèlement, les chercheurs ont développé un générateur d'idées utilisant Claude 3.5, un LLM développé par Anthropic à San Francisco, en Californie. Les chercheurs ont demandé à leur outil d’IA de trouver des articles pertinents sur les sept sujets de recherche via Semantic Scholar, un moteur de recherche de littérature alimenté par l’IA. Sur la base de ces articles, les chercheurs ont demandé à leur agent IA de générer 4 000 idées sur chaque sujet de recherche et d’évaluer les plus originales.
Évaluateurs humains
Les chercheurs ont ensuite attribué au hasard les idées générées par l’homme et l’IA à 79 évaluateurs, qui ont évalué chaque idée en termes de nouveauté, d’enthousiasme, de faisabilité et d’efficacité attendue. Pour garantir que les créateurs des idées restent inconnus des évaluateurs, les chercheurs ont utilisé un autre LLM pour éditer les deux types de texte afin que le style et le ton d'écriture soient standardisés sans modifier les idées elles-mêmes.
En moyenne, les évaluateurs ont jugé les idées générées par l’IA comme plus originales et passionnantes que celles écrites par des participants humains. Cependant, lorsqu’ils ont examiné de plus près les 4 000 idées produites par LLM, les chercheurs n’en ont trouvé qu’environ 200 qui étaient vraiment uniques, ce qui suggère que l’IA devenait moins originale à mesure qu’elle générait d’idées.
Lorsque Si a interrogé les participants, la plupart ont admis que les idées qu'ils avaient soumises n'étaient que moyennes par rapport aux idées produites dans le passé.
Les résultats suggèrent que les LLM peuvent facilement générer des idées plus originales que la littérature existante, explique Cong Lu, chercheur en apprentissage automatique à l'Université de la Colombie-Britannique à Vancouver, au Canada. Cependant, la question de savoir si elles pourront surpasser les idées humaines les plus révolutionnaires reste ouverte.
Une autre limite de l'étude est que les idées écrites comparées ont été éditées par un LLM, ce qui a modifié la langue et la longueur des soumissions, explique Jevin West, informaticien en sciences sociales à l'Université de Washington à Seattle. De tels changements peuvent avoir subtilement influencé la façon dont les critiques percevaient la nouveauté, ajoute-t-il. West ajoute que comparer les chercheurs à un LLM capable de générer des milliers d’idées en quelques heures n’est peut-être pas une comparaison tout à fait juste. « Il faut comparer des pommes avec des pommes », dit-il.
Si et ses collègues prévoient de comparer les idées générées par l’IA avec les principaux documents de conférence afin de mieux comprendre comment les LLM se comparent à la créativité humaine. « Nous essayons d’encourager la communauté à réfléchir plus profondément à ce à quoi devrait ressembler l’avenir lorsque l’IA pourra jouer un rôle plus actif dans le processus de recherche », dit-il.
-
Si, C., Yang, D. et Hashimoto, T. Préimpression sur arXiv https://doi.org/10.48550/arXiv.2409.04109 (2024).