Ger AI-modeller mer originella idéer än forskare?

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

En ny studie visar att AI-modeller kan generera mer originella forskningsidéer än 50 forskare. Experter utvärderar dessa tillvägagångssätt.

Eine neue Studie zeigt, dass KI-Modelle mehr originelle Forschungsideen generieren können als 50 Wissenschaftler. Experten bewerten diese Ansätze.
En ny studie visar att AI-modeller kan generera mer originella forskningsidéer än 50 forskare. Experter utvärderar dessa tillvägagångssätt.

Ger AI-modeller mer originella idéer än forskare?

Ett artificiell intelligens (AI)-drivet idégeneratorsystem har utvecklat mer originella forskningsmetoder än 50 forskare som arbetar oberoende i ett nyligen förtryck på arXiv 1.

De mänskliga och AI-genererade idéerna utvärderades av granskare som inte visste vem eller vad som skapade varje idé. Granskare bedömde de AI-genererade koncepten som mer spännande jämfört med mänskliga författade idéer, även om AI:s förslag fick något lägre poäng när det gäller genomförbarhet.

Men forskarna påpekar att studien, som ännu inte har granskats av experter, har begränsningar. Den fokuserade på ett specifikt forskningsområde och krävde att mänskliga deltagare spontant genererade idéer, vilket sannolikt hindrade deras förmåga att producera de bästa koncepten.

Artificiell intelligens inom vetenskap

Det finns stigande strävanden, för att undersöka hur stora språkmodeller (LLM) kan användas för att automatisera forskningsuppgifter som t.ex Att skriva artiklar, Generera kod och Litteraturforskning kan användas. Det har dock varit svårt att bedöma om dessa AI-verktyg kan generera nya forskningsmetoder på liknande nivå som människor. Detta beror på att utvärderingen av idéer väldigt subjektivt och kräver specialister som kan noggrant utvärdera dem, säger Chenglei Si, medförfattare till studien och datavetare vid Stanford University i Kalifornien. "Det bästa sättet att kontextualisera sådana förmågor är att göra en jämförelse sida vid sida", säger Si.

Det årslånga projektet är en av de största insatserna för att utvärdera om stora språkmodeller – tekniken bakom verktyg som ChatGPT – kan producera innovativa forskningsmetoder, förklarar Tom Hope, en datavetare vid Allen Institute for AI i Jerusalem. "Det måste finnas mer sådant här arbete", säger han.

Teamet rekryterade mer än 100 forskare inom området naturlig språkbehandling, en gren av datavetenskap som sysslar med kommunikation mellan AI och människor. 49 deltagare fick i uppdrag att utveckla och formulera idéer inom tio dagar utifrån ett av sju teman. Som ett incitament fick forskare $300 för varje idé, med en $1 000 bonus för de fem bästa idéerna.

Samtidigt utvecklade forskarna en idégenerator med hjälp av Claude 3.5, en LLM utvecklad av Anthropic i San Francisco, Kalifornien. Forskarna bad sitt AI-verktyg att hitta relevanta artiklar om de sju forskningsämnena genom Semantic Scholar, en AI-driven litteratursökmotor. Baserat på dessa artiklar bad forskarna sin AI-agent att generera 4 000 idéer om varje forskningsämne och utvärdera de mest originella.

Mänskliga bedömare

Forskarna tilldelade sedan slumpmässigt de mänskliga och AI-genererade idéerna till 79 granskare, som betygsatte varje idé för nyhet, spänning, genomförbarhet och förväntad effektivitet. För att säkerställa att skaparna av idéerna förblev okända för recensenterna använde forskarna en annan LLM för att redigera båda typerna av text så att skrivstilen och tonen standardiserades utan att själva idéerna ändrades.

I genomsnitt bedömde recensenterna de AI-genererade idéerna som mer originella och spännande än de som skrivits av mänskliga deltagare. Men när de tittade närmare på de 4 000 idéer som LLM producerade, fann forskarna bara cirka 200 som var verkligen unika, vilket tyder på att AI blev mindre original ju fler idéer den genererade.

När Si undersökte deltagarna erkände de flesta att idéerna de skickade in endast var genomsnittliga jämfört med de idéer som producerats tidigare.

Resultaten tyder på att LLM:er lätt kan generera mer originella idéer än den befintliga litteraturen, säger Cong Lu, en maskininlärningsforskare vid University of British Columbia i Vancouver, Kanada. Huruvida de kan överträffa de mest banbrytande mänskliga idéerna förblir dock en öppen fråga.

En annan begränsning av studien är att de skrivna idéerna som jämfördes redigerades av en LLM, vilket ändrade språket och längden på inlämningarna, säger Jevin West, en samhällsvetenskaplig datavetare vid University of Washington i Seattle. Sådana förändringar kan ha subtilt påverkat hur recensenter uppfattade nyheten, tillägger han. West tillägger att att ställa forskare mot en LLM som kan generera tusentals idéer på några timmar kanske inte är en helt rättvis jämförelse. "Du måste jämföra äpplen med äpplen", säger han.

Si och hans kollegor planerar att jämföra AI-genererade idéer med ledande konferensbidrag för att få en bättre förståelse för hur LLM:er jämförs med mänsklig kreativitet. "Vi försöker uppmuntra samhället att tänka djupare på hur framtiden ska se ut när AI kan ta en mer aktiv roll i forskningsprocessen", säger han.

  1. Si, C., Yang, D. & Hashimoto, T. Preprint at arXiv https://doi.org/10.48550/arXiv.2409.04109 (2024).

Ladda ner referenser