AI drīzumā pārņems projektus, kas cilvēkiem aizņem nedēļas
Mākslīgais intelekts strauji uzlabojas un drīzumā varētu uzņemties projektus, kuru pabeigšanai cilvēkiem nepieciešamas nedēļas. Ekspertu analīze liecina, ka vadošie AI modeļi progresē un līdz 2029. gadam varētu paveikt uzdevumus, izmantojot cilvēku zināšanas, īsākā laikā.

AI drīzumā pārņems projektus, kas cilvēkiem aizņem nedēļas
Mūsdienu mākslīgā intelekta (AI) sistēmas nevar pārspēt cilvēkus, veicot ilgus uzdevumus, taču tās attīstās strauji tālāk un varētu novērst plaisu ātrāk, nekā daudzi gaidīja, liecina vadošo modeļu analīze 1.
Bērklijā, Kalifornijā bāzētā bezpeļņas organizācija METR izstrādāja gandrīz 170 reālus uzdevumus programmēšanas, kiberdrošības, vispārējās argumentācijas un mašīnmācīšanās jomā, pēc tam izveidoja "cilvēka bāzes līniju", mērot laiku, kas ekspertiem bija vajadzīgs šo uzdevumu veikšanai.
Pēc tam komanda izstrādāja metriku, lai novērtētu progresu AI modeļi, ko sauc par “uzdevuma pabeigšanas laika horizontu”. Šis ir laiks, kas programmētājiem parasti nepieciešams, lai izpildītu uzdevumus, ko AI modeļi var veikt ar noteiktu panākumu līmeni.
Šonedēļ arXiv publicētajā priekšdrukā METR ziņo, ka GPT-2, agrīnais lielas valodas modelis (LLM), ko OpenAI izlaida 2019. gadā, neizdevās veikt visus uzdevumus, kas cilvēku ekspertiem prasīja vairāk nekā minūti. Claude 3.7 Sonnet, ko februārī izlaida ASV jaunuzņēmums Anthropic, izpildīja 50% uzdevumu, kas cilvēkiem aizņemtu 59 minūtes.
Kopumā 13 vadošo AI modeļu laika horizonts kopš 2019. gada ir dubultojies aptuveni ik pēc septiņiem mēnešiem, liecina pētījums. AI laika horizontu eksponenciālais pieaugums paātrinājās 2024. gadā, un jaunākie modeļi dubultoja savu apvārsni aptuveni ik pēc trim mēnešiem. Darbs vēl nav oficiāli pārskatīts.
Pārejot no 2019. gada līdz 2024. gadam, METR liecina, ka AI modeļi līdz 2029. gadam spēs paveikt uzdevumus, kas cilvēkiem aizņem apmēram mēnesi, ar 50% uzticamību, iespējams, pat ātrāk.
Papīrs liecina, ka viens mēnesis ar īpašu cilvēku pieredzi var būt pietiekami, lai dibinātu jaunu uzņēmumu vai veiktu zinātniskus atklājumus.
Tomēr Toronto Universitātes Kanādā menedžmenta profesors Džošua Ganss, kurš rakstījis par mākslīgā intelekta ekonomiku, skaidro, ka šādas prognozes nav īpaši noderīgas. "Ekstrapolācijas ir vilinošas, taču joprojām tik daudz nezinām, kā AI faktiski tiks izmantots, lai šīm prognozēm būtu jēga," viņš saka.
Cilvēku vērtēšana pret AI
Komanda izvēlējās 50% panākumu līmeni, jo tas bija visizturīgākais pret nelielām izmaiņām datu sadalījumā. "Ja izvēlaties ļoti zemu vai ļoti augstu slieksni, viena veiksmīga vai neveiksmīga uzdevuma pievienošana vai noņemšana attiecīgi ievērojami maina novērtējumu," skaidro līdzautors Lorenss Čans.
Uzticamības palielināšana no 50% līdz 80% samazināja vidējo laika periodu par piecām reizēm, lai gan kopējais dubultošanās laiks un tendences līnija bija līdzīgas.
Pēdējo piecu gadu laikā ir veikti uzlabojumi LLM vispārējās prasmes ko galvenokārt nosaka mēroga pieaugums — apmācības datu apjoms, apmācības laiks un modeļa parametru skaits. Rakstā progress laika horizonta metrikā galvenokārt ir saistīts ar loģiskās domāšanas, rīku izmantošanas, kļūdu labošanas un uzdevumu pārliecības uzlabojumiem.
METR pieeja laika horizontu novērtēšanai pievēršas dažiem esošo AI etalonu ierobežojumiem, kas tikai vāji atbilst reālajam darbam un ātri kļūst "piesātināti", pilnveidojoties modeļiem. Tas nodrošina nepārtrauktu, intuitīvu pasākumu, kas labāk atspoguļo ievērojamu progresu laika gaitā, saka līdzautors Bens Vests.
Vadošie AI modeļi daudzos veidos pārcilvēcisku sniegumu Etalona pārbaude, taču līdz šim tiem bijusi salīdzinoši neliela ekonomiskā ietekme, skaidro Vests. METR jaunākie pētījumi sniedz daļēju atbildi uz šo mīklu: labākie modeļi parāda aptuveni 40 minūšu laika posmu, un šajā laikā cilvēks nevar paveikt daudz ekonomiski vērtīga darba, sacīja Vests.
Tomēr Antons Troiņikovs, mākslīgā intelekta pētnieks un uzņēmējs no Sanfrancisko, Kalifornijā, skaidro, ka mākslīgajam intelektam būtu lielāka ekonomiskā ietekme, ja organizācijas būtu vairāk gatavas eksperimentēt un ieguldīt modeļu efektīvā izmantošanā.
-
Kwa, T. et al. Iepriekšēja drukāšana vietnē arXiv https://doi.org/10.48550/arXiv.2503.14499 (2025).