AI vil snart overtage projekter, der tager mennesker uger

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Kunstig intelligens forbedres hurtigt og kan snart påtage sig projekter, der tager mennesker uger at gennemføre. Ekspertanalyse viser, at førende AI-modeller gør fremskridt og kan udføre opgaver med menneskelig ekspertise på kortere tid inden 2029.

Künstliche Intelligenz verbessert sich rasant und könnte bald Projekte übernehmen, für die Menschen Wochen benötigen. Expertenanalysen zeigen, dass führende KI-Modelle im Fortschritt sind und bis 2029 Aufgaben mit menschlicher Expertise in kürzerer Zeit bewältigen könnten.
Kunstig intelligens forbedres hurtigt og kan snart påtage sig projekter, der tager mennesker uger at gennemføre. Ekspertanalyse viser, at førende AI-modeller gør fremskridt og kan udføre opgaver med menneskelig ekspertise på kortere tid inden 2029.

AI vil snart overtage projekter, der tager mennesker uger

Nutidens kunstig intelligens (AI) systemer kan ikke udkonkurrere mennesker på lange opgaver, men de udvikler sig hurtigt yderligere og kunne lukke hullet hurtigere end mange forventede, ifølge en analyse af førende modeller 1.

Den Berkeley, Californien-baserede nonprofit METR udviklede næsten 170 opgaver i den virkelige verden inden for programmering, cybersikkerhed, generel ræsonnement og maskinlæring, og etablerede derefter en "menneskelig baseline" ved at måle den tid, det tog eksperter at udføre disse opgaver.

Holdet udviklede derefter en metrik til at vurdere fremskridtene for AI modeller, som kaldes "tidshorisonten for færdiggørelse af opgaven." Dette er den tid, det typisk tager for programmører at udføre de opgaver, som AI-modeller kan udføre med en vis succesrate.

I et fortryk offentliggjort i denne uge på arXiv rapporterer METR, at GPT-2, en tidlig storsprogsmodel (LLM) udgivet af OpenAI i 2019, fejlede ved alle opgaver, der tog menneskelige eksperter mere end et minut. Claude 3.7 Sonnet, udgivet i februar af det amerikanske startup Anthropic, fuldførte 50 % af opgaverne, der ville tage mennesker 59 minutter.

Samlet set er tidshorisonten for de 13 førende AI-modeller fordoblet cirka hver syvende måned siden 2019, ifølge undersøgelsen. Den eksponentielle vækst af AI-tidshorisonter accelererede i 2024, hvor de seneste modeller fordoblede deres horisont cirka hver tredje måned. Arbejdet er endnu ikke blevet formelt revideret.

Fremover fra 2019 til 2024 foreslår METR, at AI-modeller vil være i stand til at udføre opgaver, der tager mennesker omkring en måned med 50 % pålidelighed i 2029, måske endda før.

En måneds dedikeret menneskelig ekspertise, foreslår papiret, kan være nok til at starte et nyt firma eller gøre videnskabelige opdagelser.

Joshua Gans, en professor i ledelse ved University of Toronto i Canada, som har skrevet om økonomien ved AI, forklarer dog, at sådanne forudsigelser ikke er særligt nyttige. "Ekstrapolationer er fristende, men der er stadig så meget, vi ikke ved om, hvordan AI rent faktisk vil blive brugt, for at disse forudsigelser giver mening," siger han.

At dømme mennesker versus AI

Teamet valgte succesraten på 50 %, fordi den var mest robust over for små ændringer i datafordelingen. "Hvis du vælger meget lave eller meget høje tærskler, vil tilføjelse eller fjernelse af en enkelt succesfuld eller mislykket opgave i overensstemmelse hermed ændre estimatet meget," forklarer medforfatter Lawrence Chan.

Øget pålidelighed fra 50 % til 80 % reducerede den gennemsnitlige tidshorisont med en faktor på fem – selvom den samlede fordoblingstid og trendlinje var ens.

I løbet af de sidste fem år er der sket forbedringer generelle færdigheder for LLM'er drevet primært af stigninger i skala - mængden af ​​træningsdata, træningstid og antal modelparametre. Papiret tilskriver fremskridt i tidshorisont-metrikken primært til forbedringer i logisk ræsonnement, brug af værktøj, fejlkorrektion og opgavesikkerhed.

METRs tilgang til at vurdere tidshorisonter adresserer nogle af begrænsningerne ved eksisterende AI-benchmarks, som kun løst matcher virkelighedens arbejde og hurtigt bliver "mættet", efterhånden som modeller forbedres. Det giver en kontinuerlig, intuitiv måling, der bedre fanger betydelige fremskridt over tid, siger medforfatter Ben West.

Førende AI-modeller opnår overmenneskelig ydeevne i mange Benchmark test, men har indtil videre haft relativt lille økonomisk effekt, forklarer West. METRs seneste forskning giver et delvist svar på dette puslespil: De bedste modeller viser en tidsramme på omkring 40 minutter, og der er ikke meget økonomisk værdifuldt arbejde, en person kan udføre i den tid, sagde West.

Anton Troynikov, en AI-forsker og iværksætter fra San Francisco, Californien, forklarer dog, at AI ville have en større økonomisk effekt, hvis organisationer var mere villige til at eksperimentere og investere i at bruge modellerne effektivt.

  1. Kwa, T. et al. Fortryk hos arXiv https://doi.org/10.48550/arXiv.2503.14499 (2025).

Download referencer