AI bo kmalu prevzel projekte, ki ljudem vzamejo tedne

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Umetna inteligenca se hitro izboljšuje in bi lahko kmalu prevzela projekte, za katere ljudje potrebujejo tedne. Strokovna analiza kaže, da vodilni modeli umetne inteligence napredujejo in bi lahko do leta 2029 opravili naloge s človeškim strokovnim znanjem v krajšem času.

Künstliche Intelligenz verbessert sich rasant und könnte bald Projekte übernehmen, für die Menschen Wochen benötigen. Expertenanalysen zeigen, dass führende KI-Modelle im Fortschritt sind und bis 2029 Aufgaben mit menschlicher Expertise in kürzerer Zeit bewältigen könnten.
Umetna inteligenca se hitro izboljšuje in bi lahko kmalu prevzela projekte, za katere ljudje potrebujejo tedne. Strokovna analiza kaže, da vodilni modeli umetne inteligence napredujejo in bi lahko do leta 2029 opravili naloge s človeškim strokovnim znanjem v krajšem času.

AI bo kmalu prevzel projekte, ki ljudem vzamejo tedne

Današnji sistemi umetne inteligence (AI) ne morejo preseči ljudi pri dolgih nalogah, vendar se razvijajo hitro glede na analizo vodilnih modelov bi lahko zapolnil vrzel hitreje, kot so mnogi pričakovali 1.

Neprofitna organizacija METR s sedežem v Berkeleyju v Kaliforniji je razvila skoraj 170 nalog iz resničnega sveta na področju programiranja, kibernetske varnosti, splošnega razmišljanja in strojnega učenja, nato pa je vzpostavila "človeško izhodišče" z merjenjem časa, ki ga strokovnjaki potrebujejo za dokončanje teh nalog.

Ekipa je nato razvila meritev za oceno napredka AI modeli, ki se imenuje "časovni horizont dokončanja naloge". To je čas, ki običajno potrebuje programerji, da dokončajo naloge, ki jih modeli AI lahko opravijo z določeno stopnjo uspešnosti.

V prednatisu, objavljenem ta teden na arXiv, METR poroča, da GPT-2, zgodnji veliki jezikovni model (LLM), ki ga je OpenAI izdal leta 2019, ni uspel pri vseh nalogah, ki so človeškim strokovnjakom vzele več kot minuto. Claude 3.7 Sonnet, ki ga je februarja izdal ameriški startup Anthropic, je opravil 50 % nalog, ki bi ljudem vzele 59 minut.

Glede na študijo se je na splošno časovni horizont 13 vodilnih modelov umetne inteligence od leta 2019 podvojil približno vsakih sedem mesecev. Eksponentna rast časovnih obzorij umetne inteligence se je leta 2024 pospešila, pri čemer najnovejši modeli podvojijo svoje obzorje približno vsake tri mesece. Delo še ni bilo uradno pregledano.

Če se premaknemo naprej od leta 2019 do leta 2024, METR nakazuje, da bodo modeli AI do leta 2029, morda celo prej, sposobni dokončati naloge, ki ljudem vzamejo približno en mesec, s 50-odstotno zanesljivostjo.

En mesec predanega človeškega strokovnega znanja, predlaga časopis, je lahko dovolj za ustanovitev novega podjetja ali znanstvena odkritja.

Vendar Joshua Gans, profesor menedžmenta na Univerzi v Torontu v Kanadi, ki je pisal o ekonomiji umetne inteligence, pojasnjuje, da takšne napovedi niso posebno uporabne. "Ekstrapolacije so mamljive, vendar še vedno ne vemo veliko o tem, kako bo umetna inteligenca dejansko uporabljena, da bodo te napovedi imele smisel," pravi.

Sojenje ljudi v primerjavi z AI

Ekipa je izbrala 50-odstotno stopnjo uspešnosti, ker je bila najbolj robustna na majhne spremembe v distribuciji podatkov. "Če izberete zelo nizke ali zelo visoke pragove, dodajanje ali odstranjevanje posamezne uspešne ali neuspešne naloge ustrezno spremeni oceno," pojasnjuje soavtor Lawrence Chan.

Povečanje zanesljivosti s 50 % na 80 % je zmanjšalo povprečni časovni horizont za faktor pet – čeprav sta bila skupni čas podvojitve in linija trenda podobna.

V zadnjih petih letih je prišlo do izboljšav splošne veščine LLM predvsem zaradi povečanja obsega – količine podatkov o usposabljanju, časa usposabljanja in števila parametrov modela. Prispevek pripisuje napredek v metriki časovnega obzorja predvsem izboljšavam v logičnem razmišljanju, uporabi orodij, odpravljanju napak in zaupanju nalog.

Pristop METR k ocenjevanju časovnih obdobij obravnava nekatere omejitve obstoječih meril uspešnosti umetne inteligence, ki se le ohlapno ujemajo z delom v resničnem svetu in hitro postanejo "nasičene", ko se modeli izboljšajo. Zagotavlja stalno, intuitivno merjenje, ki bolje zajame pomemben napredek skozi čas, pravi soavtor Ben West.

Vodilni modeli AI v mnogih dosegajo nadčloveško zmogljivost Primerjalno testiranje, vendar so doslej imeli razmeroma majhen gospodarski učinek, pojasnjuje West. Najnovejša raziskava METR ponuja delni odgovor na to uganko: najboljši modeli kažejo časovni okvir približno 40 minut in v tem času ni veliko ekonomsko vrednega dela, ki bi ga lahko oseba opravila, je dejal West.

Vendar pa Anton Troynikov, raziskovalec AI in podjetnik iz San Francisca v Kaliforniji, pojasnjuje, da bi imela AI večji gospodarski učinek, če bi bile organizacije bolj pripravljene eksperimentirati in vlagati v učinkovito uporabo modelov.

  1. Kwa, T. et al. Prednatis pri arXiv https://doi.org/10.48550/arXiv.2503.14499 (2025).

Prenesite reference