Dirbtinis intelektas netrukus perims projektus, kuriems žmonėms reikia savaičių

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Dirbtinis intelektas sparčiai tobulėja ir netrukus gali imtis projektų, kuriems įgyvendinti prireiks kelių savaičių. Ekspertų analizė rodo, kad pirmaujantys dirbtinio intelekto modeliai daro pažangą ir iki 2029 m. galėtų atlikti užduotis pasitelkus žmogiškąją patirtį per trumpesnį laiką.

Künstliche Intelligenz verbessert sich rasant und könnte bald Projekte übernehmen, für die Menschen Wochen benötigen. Expertenanalysen zeigen, dass führende KI-Modelle im Fortschritt sind und bis 2029 Aufgaben mit menschlicher Expertise in kürzerer Zeit bewältigen könnten.
Dirbtinis intelektas sparčiai tobulėja ir netrukus gali imtis projektų, kuriems įgyvendinti prireiks kelių savaičių. Ekspertų analizė rodo, kad pirmaujantys dirbtinio intelekto modeliai daro pažangą ir iki 2029 m. galėtų atlikti užduotis pasitelkus žmogiškąją patirtį per trumpesnį laiką.

Dirbtinis intelektas netrukus perims projektus, kuriems žmonėms reikia savaičių

Šiandieninės dirbtinio intelekto (AI) sistemos negali pranokti žmonių atliekant ilgas užduotis, tačiau jos vystosi greitai toliau ir gali sumažinti atotrūkį greičiau, nei daugelis tikėjosi, rodo pirmaujančių modelių analizė 1.

Berklyje, Kalifornijoje, įsikūrusi ne pelno siekianti METR sukūrė beveik 170 realaus pasaulio užduočių programavimo, kibernetinio saugumo, bendrųjų samprotavimų ir mašininio mokymosi srityse, tada nustatė „žmogaus bazinę liniją“, įvertindama laiką, kurio ekspertams prireikė šioms užduotims atlikti.

Tada komanda sukūrė metriką pažangai įvertinti AI modeliai, kuris vadinamas „užduočių atlikimo laiko horizontu“. Tai laikas, kurio programuotojams paprastai reikia atlikti užduotis, kurias AI modeliai gali atlikti su tam tikru sėkmės rodikliu.

Šią savaitę „arXiv“ paskelbtame išankstiniame leidinyje METR praneša, kad GPT-2, ankstyvas didelės kalbos modelis (LLM), kurį OpenAI išleido 2019 m., nepavyko atlikti visų užduočių, kurioms žmogaus ekspertams prireikė daugiau nei minutės. „Claude 3.7 Sonnet“, kurį vasario mėnesį išleido JAV startuolis „Anthropic“, atliko 50% užduočių, kurioms žmonėms prireiktų 59 minutes.

Remiantis tyrimu, 13 pirmaujančių AI modelių laiko horizontas nuo 2019 m. padvigubėjo kas septynis mėnesius. Eksponentinis dirbtinio intelekto laiko horizontų augimas paspartėjo 2024 m., o naujausi modeliai padvigubino savo horizontą maždaug kas tris mėnesius. Darbas dar nebuvo oficialiai peržiūrėtas.

Nuo 2019 m. iki 2024 m. METR siūlo, kad dirbtinio intelekto modeliai iki 2029 m. galės atlikti užduotis, kurios žmonėms užtruks apie mėnesį su 50 % patikimumu, galbūt net greičiau.

Straipsnyje teigiama, kad vieno mėnesio specialios žmogiškosios patirties gali pakakti norint įkurti naują įmonę arba padaryti mokslinius atradimus.

Tačiau Toronto universiteto Kanadoje vadybos profesorius Joshua Gansas, rašęs apie AI ekonomiką, aiškina, kad tokios prognozės nėra itin naudingos. „Ekstrapoliacijos yra viliojančios, tačiau dar tiek daug nežinome, kaip AI iš tikrųjų bus panaudota, kad šios prognozės būtų prasmingos“, – sako jis.

Žmonių ir AI vertinimas

Komanda pasirinko 50 % sėkmės rodiklį, nes jis buvo patikimiausias nedideliems duomenų paskirstymo pokyčiams. „Jei pasirenkate labai žemas arba labai aukštas ribas, atitinkamai pridėjus arba pašalinus vieną sėkmingą arba nesėkmingą užduotį, įvertinimas labai pasikeičia“, – aiškina bendraautorius Lawrence'as Chanas.

Padidinus patikimumą nuo 50 % iki 80 %, vidutinis laiko horizontas sumažėjo penkis kartus – nors bendras padvigubėjimo laikas ir tendencijos linija buvo panašios.

Per pastaruosius penkerius metus buvo padaryta patobulinimų bendrieji LLM įgūdžiai pirmiausia lemia masto padidėjimas – treniruočių duomenų kiekis, treniruočių laikas ir modelio parametrų skaičius. Straipsnyje pažanga laiko horizonto metrikoje pirmiausia priskiriama loginio samprotavimo, įrankių naudojimo, klaidų taisymo ir užduoties pasitikėjimo patobulinimams.

METR požiūris į laiko horizontų vertinimą sprendžia kai kuriuos esamų AI etalonų, kurie tik menkai atitinka realaus pasaulio darbą, apribojimus ir greitai tampa „sotinami“ tobulėjant modeliams. Tai yra nuolatinė, intuityvi priemonė, kuri geriau fiksuoja didelę pažangą laikui bėgant, sako bendraautorius Benas Westas.

Pirmaujantys dirbtinio intelekto modeliai daugeliu atvejų pasiekia viršžmogišką našumą Lyginamasis testavimas, tačiau iki šiol turėjo palyginti nedidelį ekonominį poveikį, aiškina Westas. Naujausiame METR tyrime pateikiamas dalinis atsakymas į šį galvosūkį: geriausi modeliai rodo maždaug 40 minučių laiko tarpą, o per tą laiką žmogus negali atlikti daug ekonomiškai vertingo darbo, sakė Westas.

Tačiau AI tyrėjas ir verslininkas Antonas Troynikovas iš San Francisko, Kalifornijoje, aiškina, kad AI turėtų didesnį ekonominį poveikį, jei organizacijos būtų labiau linkusios eksperimentuoti ir investuoti į efektyvų modelių naudojimą.

  1. Kwa, T. ir kt. Išankstinis spausdinimas svetainėje arXiv https://doi.org/10.48550/arXiv.2503.14499 (2025).

Atsisiųskite nuorodas