Gir AI-modeller mer originale ideer enn forskere?

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

En ny studie viser at AI-modeller kan generere mer originale forskningsideer enn 50 forskere. Eksperter vurderer disse tilnærmingene.

Eine neue Studie zeigt, dass KI-Modelle mehr originelle Forschungsideen generieren können als 50 Wissenschaftler. Experten bewerten diese Ansätze.
En ny studie viser at AI-modeller kan generere mer originale forskningsideer enn 50 forskere. Eksperter vurderer disse tilnærmingene.

Gir AI-modeller mer originale ideer enn forskere?

Et kunstig intelligens (AI)-drevet idégeneratorsystem har utviklet mer originale forskningstilnærminger enn 50 forskere som jobber uavhengig i et nylig forhåndstrykk på arXiv 1.

De menneskelige og AI-genererte ideene ble evaluert av anmeldere som ikke visste hvem eller hva som skapte hver idé. Anmeldere vurderte de AI-genererte konseptene som mer spennende sammenlignet med menneskeskapte ideer, selv om AI-forslagene scoret litt lavere når det gjelder gjennomførbarhet.

Forskerne påpeker imidlertid at studien, som ennå ikke er fagfellevurdert, har begrensninger. Den fokuserte på et spesifikt forskningsområde og krevde at menneskelige deltakere genererte ideer spontant, noe som sannsynligvis hindret deres evne til å produsere de beste konseptene.

Kunstig intelligens i vitenskapen

Det finnes stigende ambisjoner, for å undersøke hvordan store språkmodeller (LLM) kan brukes til å automatisere forskningsoppgaver som f.eks Skrive artikler, Generer kode og Litteraturforskning kan brukes. Det har imidlertid vært vanskelig å vurdere om disse AI-verktøyene kan generere nye forskningstilnærminger på lignende nivå som mennesker. Dette er fordi evalueringen av ideer veldig subjektivt og krever spesialister som er i stand til å vurdere dem nøye, sier Chenglei Si, medforfatter av studien og informatiker ved Stanford University i California. "Den beste måten å kontekstualisere slike evner er å gjøre en side-ved-side-sammenligning," sier Si.

Det årelange prosjektet er en av de største innsatsene for å evaluere om store språkmodeller – teknologien bak verktøy som ChatGPT – kan produsere innovative forskningstilnærminger, forklarer Tom Hope, en dataforsker ved Allen Institute for AI i Jerusalem. "Det må være mer arbeid som dette," sier han.

Teamet rekrutterte mer enn 100 forskere innen naturlig språkbehandling, en gren av informatikk som omhandler kommunikasjon mellom AI og mennesker. Førti-ni deltakere fikk i oppgave å utvikle og formulere ideer i løpet av ti dager basert på ett av syv temaer. Som et insentiv mottok forskere $300 for hver idé, med en $1000 bonus for de fem beste ideene.

Samtidig utviklet forskerne en idégenerator ved hjelp av Claude 3.5, en LLM utviklet av Anthropic i San Francisco, California. Forskerne ba AI-verktøyet deres om å finne relevante artikler om de syv forskningsemnene gjennom Semantic Scholar, en AI-drevet litteratursøkemotor. Basert på disse artiklene ba forskerne sin AI-agent om å generere 4000 ideer om hvert forskningstema og vurdere de mest originale.

Menneskelige bedømmere

Forskerne tildelte deretter de menneskelige og AI-genererte ideene tilfeldig til 79 anmeldere, som vurderte hver idé for nyhet, spenning, gjennomførbarhet og forventet effektivitet. For å sikre at skaperne av ideene forble ukjente for anmelderne, brukte forskerne en annen LLM for å redigere begge typer tekst slik at skrivestilen og tonen ble standardisert uten å endre ideene selv.

Gjennomsnittlig vurderte anmelderne de AI-genererte ideene som mer originale og spennende enn de som er skrevet av menneskelige deltakere. Men da de så nærmere på de 4000 ideene produsert av LLM, fant forskerne bare rundt 200 som var virkelig unike, noe som tyder på at AI ble mindre original jo flere ideer den genererte.

Da Si undersøkte deltakerne, innrømmet de fleste at ideene de sendte inn bare var gjennomsnittlige sammenlignet med ideene som ble produsert tidligere.

Resultatene tyder på at LLM-er lett kan generere mer originale ideer enn den eksisterende litteraturen, sier Cong Lu, en maskinlæringsforsker ved University of British Columbia i Vancouver, Canada. Hvorvidt de kan overgå de mest banebrytende menneskelige ideene er imidlertid et åpent spørsmål.

En annen begrensning ved studien er at de skrevne ideene som ble sammenlignet ble redigert av en LLM, som endret språket og lengden på innleveringene, sier Jevin West, en samfunnsvitenskapelig informatiker ved University of Washington i Seattle. Slike endringer kan ha subtilt påvirket hvordan anmeldere oppfattet nyheten, legger han til. West legger til at å sette forskere opp mot en LLM som kan generere tusenvis av ideer på noen få timer, kanskje ikke er en helt rettferdig sammenligning. "Du må sammenligne epler med epler," sier han.

Si og kollegene hans planlegger å sammenligne AI-genererte ideer med ledende konferanseartikler for å få en bedre forståelse av hvordan LLM-er kan sammenlignes med menneskelig kreativitet. "Vi prøver å oppmuntre samfunnet til å tenke dypere på hvordan fremtiden bør se ut når AI kan ta en mer aktiv rolle i forskningsprosessen," sier han.

  1. Si, C., Yang, D. & Hashimoto, T. Preprint at arXiv https://doi.org/10.48550/arXiv.2409.04109 (2024).

Last ned referanser