Frembringer AI-modeller mere originale ideer end forskere?
En ny undersøgelse viser, at AI-modeller kan generere flere originale forskningsidéer end 50 videnskabsmænd. Eksperter evaluerer disse tilgange.

Frembringer AI-modeller mere originale ideer end forskere?
Et kunstig intelligens (AI)-drevet idégeneratorsystem har udviklet mere originale forskningstilgange end 50 videnskabsmænd, der arbejder uafhængigt i et nyligt fortryk på arXiv 1.
De menneske- og AI-genererede ideer blev evalueret af anmeldere, der ikke vidste, hvem eller hvad der skabte hver idé. Anmeldere vurderede de AI-genererede koncepter som mere spændende sammenlignet med menneskeskabte ideer, selvom AI's forslag scorede lidt lavere med hensyn til gennemførlighed.
Forskerne påpeger dog, at undersøgelsen, som endnu ikke er blevet peer-reviewed, har begrænsninger. Det fokuserede på et specifikt forskningsområde og krævede, at menneskelige deltagere spontant genererede ideer, hvilket sandsynligvis hindrede deres evne til at producere de bedste koncepter.
Kunstig intelligens i videnskab
Der er stigende forhåbninger, for at undersøge, hvordan store sprogmodeller (LLM'er) kan bruges til at automatisere forskningsopgaver som f.eks At skrive artikler, Generer kode og Litteraturforskning kan bruges. Det har dog været vanskeligt at vurdere, om disse AI-værktøjer kan generere friske forskningstilgange på samme niveau som mennesker. Dette skyldes, at evalueringen af ideer meget subjektivt og kræver specialister, der er i stand til omhyggeligt at vurdere dem, siger Chenglei Si, medforfatter til undersøgelsen og datalog ved Stanford University i Californien. "Den bedste måde at kontekstualisere sådanne kapaciteter er at lave en side-om-side sammenligning," siger Si.
Det årelange projekt er en af de største indsatser for at evaluere, om store sprogmodeller – teknologien bag værktøjer som f.eks ChatGPT – kan producere innovative forskningstilgange, forklarer Tom Hope, en datalog ved Allen Institute for AI i Jerusalem. "Der skal mere arbejde som dette," siger han.
Holdet rekrutterede mere end 100 forskere inden for naturlig sprogbehandling, en gren af datalogi, der beskæftiger sig med kommunikation mellem AI og mennesker. 49 deltagere fik til opgave at udvikle og formulere ideer inden for ti dage baseret på et af syv temaer. Som et incitament modtog forskere $300 for hver idé, med en $1.000 bonus for de fem bedste ideer.
Samtidig udviklede forskerne en idégenerator ved hjælp af Claude 3.5, en LLM udviklet af Anthropic i San Francisco, Californien. Forskerne bad deres AI-værktøj om at finde relevante artikler om de syv forskningsemner gennem Semantic Scholar, en AI-drevet litteratursøgemaskine. Baseret på disse artikler bad forskerne deres AI-agent om at generere 4.000 ideer om hvert forskningsemne og vurdere de mest originale.
Menneskelige bedømmere
Forskerne tildelte derefter tilfældigt de menneskelige og AI-genererede ideer til 79 anmeldere, som vurderede hver idé for nyhed, spænding, gennemførlighed og forventet effektivitet. For at sikre, at skaberne af idéerne forblev ukendte for anmelderne, brugte forskerne en anden LLM til at redigere begge typer tekst, så skrivestilen og -tonen blev standardiseret uden at ændre selve ideerne.
Gennemsnitligt vurderede anmelderne de AI-genererede ideer som mere originale og spændende end dem skrevet af menneskelige deltagere. Men da de så nærmere på de 4.000 ideer produceret af LLM, fandt forskerne kun omkring 200, der var virkelig unikke, hvilket tyder på, at AI’en blev mindre original, jo flere ideer den genererede.
Da Si undersøgte deltagerne, indrømmede de fleste, at de ideer, de indsendte, kun var gennemsnitlige sammenlignet med de idéer, der blev produceret tidligere.
Resultaterne tyder på, at LLM'er nemt kan generere mere originale ideer end den eksisterende litteratur, siger Cong Lu, en maskinlæringsforsker ved University of British Columbia i Vancouver, Canada. Om de kan overgå de mest banebrydende menneskelige ideer er dog stadig et åbent spørgsmål.
En anden begrænsning af undersøgelsen er, at de skrevne ideer, der blev sammenlignet, blev redigeret af en LLM, som ændrede sproget og længden af afleveringerne, siger Jevin West, en samfundsvidenskabelig datalog ved University of Washington i Seattle. Sådanne ændringer kan have subtilt indflydelse på, hvordan anmeldere opfattede nyheden, tilføjer han. West tilføjer, at det måske ikke er en helt fair sammenligning at sætte forskere op imod en LLM, der kan generere tusindvis af ideer på få timer. "Du skal sammenligne æbler med æbler," siger han.
Si og hans kolleger planlægger at sammenligne AI-genererede ideer med førende konferenceartikler for at få en bedre forståelse af, hvordan LLM'er kan sammenlignes med menneskelig kreativitet. "Vi forsøger at opmuntre samfundet til at tænke dybere over, hvordan fremtiden skal se ud, når AI kan tage en mere aktiv rolle i forskningsprocessen," siger han.
-
Si, C., Yang, D. & Hashimoto, T. Fortryk ved arXiv https://doi.org/10.48550/arXiv.2409.04109 (2024).