Google Scholar peut-il survivre à la révolution de l'IA ?
Google Scholar fête ses 20 ans. Avec la nouvelle concurrence basée sur l’IA, la question est : peut-elle tenir le coup ?

Google Scholar peut-il survivre à la révolution de l'IA ?
Google Scholar, le moteur de recherche universitaire le plus grand et le plus complet, fête cette semaine son 20e anniversaire. Au cours des deux dernières décennies, certains chercheurs ont constaté que cet outil était devenu l’un des outils scientifiques les plus importants. Cependant, ces dernières années, des concurrents sont apparus qui utilisent l'intelligence artificielle (IA) pour améliorer l'expérience de recherche, ainsi que d'autres qui permettent aux utilisateurs de télécharger leurs données.
L'impact de Google Scholar, géré par le géant de l'Internet Google à Mountain View, en Californie, est remarquable, déclare Jevin West, un spécialiste des sciences sociales à l'Université de Washington à Seattle qui utilise quotidiennement la base de données. Mais "s'il y a un moment où Google Scholar pourrait être remplacé en tant que moteur de recherche principal, ce pourrait être maintenant, en raison de certains de ces nouveaux outils et des innovations qui se produisent ailleurs", a déclaré West.
De nombreux avantages de Google Scholar – l'accès gratuit, l'étendue des informations et les options de recherche sophistiquées – « sont désormais partagés par d'autres plateformes », explique Alberto Martín Martín, bibliométricien à l'Université de Grenade en Espagne.
Chatbots alimentés par l'IA tels que ChatGPT et d'autres outils qui utilisent de grands modèles de langage sont devenus des applications privilégiées pour certains chercheurs lors de la recherche, de l'examen et de la synthèse de la littérature. Certains chercheurs ont troqué Google Scholar contre ces outils. "Jusqu'à récemment, Google Scholar était mon moteur de recherche par défaut", explique Aaron Tay, bibliothécaire universitaire à la Singapore Management University. C'est toujours en tête de sa liste, mais "dernièrement, j'ai commencé à utiliser d'autres outils d'IA".
Néanmoins, compte tenu de la taille de Google Scholar et de son ancrage profond dans la communauté scientifique, "il faudrait beaucoup d'efforts pour le détrôner", ajoute West.
Anurag Acharya, co-fondateur de Google Scholar, salue tous les efforts visant à rendre les informations scientifiques plus faciles à trouver, à comprendre et à exploiter. « Plus nous pouvons tous faire, mieux c’est pour le progrès de la science. »
Le plus grand et le plus complet
Google Scholar est entré en jeu 2004 apparaître sur la scène de la recherche littéraire et tout changé. À l’époque, les chercheurs utilisaient les bibliothèques pour trouver des informations ou recherchaient des articles universitaires via des services en ligne payants tels que la base de données de citations Web of Science. Le même mois que le lancement de Google Scholar, Elsevier a également lancé son service payant Scopus, une base de données complète de références et de résumés scientifiques.
Google Scholar a recherché sur le Web des ouvrages scientifiques de toutes sortes, tels que des chapitres de livres, des rapports, des prépublications et des documents Web, y compris ceux rédigés dans des langues autres que l'anglais. L’objectif était de « rendre les chercheurs du monde entier plus efficaces et de permettre à chacun de se situer sur une frontière scientifique commune », explique Acharya.
Les accords de Google Scholar avec les éditeurs lui donnent un accès sans précédent au texte intégral des articles protégés par des paywalls – et pas seulement aux titres et résumés proposés par la plupart des moteurs de recherche. Les articles sont classés en fonction de leur pertinence par rapport à une requête de recherche - généralement les articles les plus cités sont placés en haut - et d'autres requêtes de recherche sont suggérées. La profondeur de la couverture permet des recherches très spécifiques.
Google n'a pas divulgué les données d'utilisation du service, mais selon le compteur de trafic Web Similarweb, Google Scholar reçoit plus de 100 millions de visites par mois.
La base de données est également très efficace pour orienter les utilisateurs vers des versions gratuites d'un article, explique Martín Martín. Cela encourage le mouvement du libre accès, ajoute José Luis Ortega, bibliométricien à l'Institut d'études sociales avancées du Conseil national espagnol de la recherche à Cordoue.
Cependant, Google Scholar est opaque à d’autres égards. Une préoccupation majeure est le manque de visibilité sur le contenu, y compris les revues, qui est recherché et quel algorithme est utilisé pour recommander les articles. Il restreint également les téléchargements massifs de ses résultats de recherche, qui pourraient être utilisés, entre autres, à des fins d’analyse bibliométrique. "Nous n'avons pas beaucoup d'informations sur l'un des outils scientifiques les plus précieux dont nous disposons", déclare West.
Acharya explique que Google Scholar est avant tout un outil de recherche et que son objectif principal est d'aider les chercheurs à trouver les recherches les plus utiles.
Moteurs de recherche mis à jour
Ces dernières années, des concurrents proposant de telles données bibliométriques ont émergé, même si aucun ne peut rivaliser avec la taille de Google Scholar et l'accès aux articles en texte intégral derrière des paywalls. Un exemple notable est OpenAlex, lancé en 2022. L’année précédente, le Microsoft Academic Graph, qui recherchait des informations académiques sur le Web, avait été fermé et l’ensemble de ses données publié. OpenAlex s'appuie sur cette source et sur d'autres sources ouvertes de données scientifiques. Les utilisateurs peuvent rechercher le contenu catalogué par auteur, institution et citation, et peuvent également télécharger l'intégralité du dossier gratuitement. «Ils font ce que nous espérions que Google Scholar fasse», déclare Martín-Martín.
Un autre outil de recherche populaire, Semantic Scholar, lancé en 2015, utilise l'IA pour créer des résumés lisibles d'articles et identifier les citations les plus pertinentes. Un autre outil, Consensus, lancé en 2022, utilise la base de données de Semantic Scholar pour trouver des réponses à des questions fondées sur la recherche (West est un consultant pour Consensus). L'un des favoris de Tay est Sous-estimer, qui utilise une recherche sophistiquée basée sur des agents dans laquelle une entité autonome parcourt la littérature scientifique comme un humain et ajuste la recherche en fonction du contenu trouvé. Il faut quelques minutes – contre quelques secondes sur Google Scholar – pour produire des résultats, mais Tay explique que cela vaut la peine d'attendre. "Je pense que la qualité des résultats qui reviennent est meilleure que celle de Google Scholar."
Acharya affirme que Google Scholar utilise également l'IA pour classer les articles, suggérer des recherches supplémentaires et recommander des articles connexes. Et plus tôt ce mois-ci, la société a introduit des résumés d'articles générés par l'IA pour son lecteur PDF. Acharya ajoute que l'outil de recherche tente de comprendre l'intention et le contexte d'une requête. Cette approche de recherche sémantique est basée sur des modèles linguistiques et est utilisée depuis environ deux ans, dit-il.
Une chose que Google Scholar ne fait pas encore est d'incorporer des aperçus générés par l'IA des réponses à une requête recherchée, similaires à celles que l'on trouve désormais en haut d'une recherche Google typique. Acharya dit qu'il est difficile de résumer les conclusions de plusieurs articles de manière concise et riche en contexte. « Nous n’avons pas encore trouvé de solution efficace à ce défi », ajoute-t-il.