AI vil snart ta over prosjekter som tar menneskers uker
Kunstig intelligens forbedres raskt og kan snart ta på seg prosjekter som tar mennesker uker å fullføre. Ekspertanalyse viser at ledende AI-modeller gjør fremskritt og kan fullføre oppgaver med menneskelig ekspertise på kortere tid innen 2029.

AI vil snart ta over prosjekter som tar menneskers uker
Dagens systemer for kunstig intelligens (AI) kan ikke utkonkurrere mennesker på lange oppgaver, men de utvikler seg raskt videre og kunne lukke gapet raskere enn mange forventet, ifølge en analyse av ledende modeller 1.
Den Berkeley, California-baserte nonprofit METR utviklet nesten 170 virkelige oppgaver innen programmering, cybersikkerhet, generell resonnement og maskinlæring, og etablerte deretter en "menneskelig grunnlinje" ved å måle tiden det tok eksperter å fullføre disse oppgavene.
Teamet utviklet deretter en beregning for å vurdere fremdriften til AI-modeller, som kalles «tidshorisonten for fullføring av oppgavene». Dette er tiden det vanligvis tar for programmerere å fullføre oppgavene som AI-modeller kan fullføre med en viss suksessrate.
I et forhåndstrykk publisert denne uken på arXiv, rapporterer METR at GPT-2, en tidlig storspråkmodell (LLM) utgitt av OpenAI i 2019, mislyktes i alle oppgaver som tok menneskelige eksperter mer enn ett minutt. Claude 3.7 Sonnet, utgitt i februar av den amerikanske oppstarten Anthropic, fullførte 50 % av oppgavene som ville ta mennesker 59 minutter.
Totalt sett har tidshorisonten til de 13 ledende AI-modellene doblet seg omtrent hver sjuende måned siden 2019, ifølge studien. Den eksponentielle veksten av AI-tidshorisonter akselererte i 2024, med de nyeste modellene doblet horisonten omtrent hver tredje måned. Arbeidet er ennå ikke formelt gjennomgått.
Fremover fra 2019 til 2024 antyder METR at AI-modeller vil være i stand til å fullføre oppgaver som tar mennesker omtrent en måned med 50 % pålitelighet innen 2029, kanskje enda tidligere.
En måned med dedikert menneskelig ekspertise, antyder papiret, kan være nok til å starte et nytt selskap eller gjøre vitenskapelige oppdagelser.
Joshua Gans, professor i ledelse ved University of Toronto i Canada som har skrevet om økonomien til AI, forklarer imidlertid at slike spådommer ikke er spesielt nyttige. "Ekstrapoleringer er fristende, men det er fortsatt så mye vi ikke vet om hvordan AI faktisk vil bli brukt for at disse spådommene skal gi mening," sier han.
Å dømme mennesker versus AI
Teamet valgte suksessraten på 50 % fordi den var mest robust overfor små endringer i datadistribusjonen. "Hvis du velger veldig lave eller veldig høye terskler, vil det å legge til eller fjerne en enkelt vellykket eller mislykket oppgave endre estimatet sterkt," forklarer medforfatter Lawrence Chan.
Å øke påliteligheten fra 50 % til 80 % reduserte den gjennomsnittlige tidshorisonten med en faktor på fem – selv om den totale doblingstiden og trendlinjen var like.
I løpet av de siste fem årene har det blitt gjort forbedringer generelle ferdigheter til LLM-er drevet primært av økninger i skala – mengden treningsdata, treningstid og antall modellparametere. Oppgaven tilskriver fremgang i tidshorisonten primært til forbedringer i logisk resonnement, bruk av verktøy, feilretting og oppgavesikkerhet.
METRs tilnærming til å vurdere tidshorisonter adresserer noen av begrensningene til eksisterende AI-benchmarks, som bare løst samsvarer med det virkelige arbeidet og raskt blir "mettet" etter hvert som modellene forbedres. Det gir et kontinuerlig, intuitivt mål som bedre fanger opp betydelig fremgang over tid, sier medforfatter Ben West.
Ledende AI-modeller oppnår overmenneskelig ytelse hos mange Benchmark testing, men har så langt hatt relativt liten økonomisk innvirkning, forklarer West. METRs siste forskning gir et delvis svar på dette puslespillet: De beste modellene viser en tidsramme på omtrent 40 minutter, og det er ikke mye økonomisk verdifullt arbeid en person kan gjøre på den tiden, sa West.
Anton Troynikov, en AI-forsker og gründer fra San Francisco, California, forklarer imidlertid at AI ville ha en større økonomisk innvirkning hvis organisasjoner var mer villige til å eksperimentere og investere i å bruke modellene effektivt.
-
Kwa, T. et al. Fortrykk på arXiv https://doi.org/10.48550/arXiv.2503.14499 (2025).