Inteligența artificială va prelua în curând proiecte care iau oamenilor săptămâni întregi

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Inteligența artificială se îmbunătățește rapid și ar putea prelua în curând proiecte care le ia oamenilor câteva săptămâni pentru a fi finalizate. Analiza experților arată că modelele de IA de vârf înregistrează progrese și ar putea îndeplini sarcinile cu expertiză umană în mai puțin timp până în 2029.

Künstliche Intelligenz verbessert sich rasant und könnte bald Projekte übernehmen, für die Menschen Wochen benötigen. Expertenanalysen zeigen, dass führende KI-Modelle im Fortschritt sind und bis 2029 Aufgaben mit menschlicher Expertise in kürzerer Zeit bewältigen könnten.
Inteligența artificială se îmbunătățește rapid și ar putea prelua în curând proiecte care le ia oamenilor câteva săptămâni pentru a fi finalizate. Analiza experților arată că modelele de IA de vârf înregistrează progrese și ar putea îndeplini sarcinile cu expertiză umană în mai puțin timp până în 2029.

Inteligența artificială va prelua în curând proiecte care iau oamenilor săptămâni întregi

Sistemele de inteligență artificială (AI) de astăzi nu pot depăși oamenii în sarcini lungi, dar ele evoluează rapid mai departe și ar putea reduce decalajul mai repede decât se așteptau mulți, potrivit unei analize a modelelor de vârf 1.

Instituția nonprofit METR din Berkeley, California, a dezvoltat aproape 170 de sarcini din lumea reală în programare, securitate cibernetică, raționament general și învățare automată, apoi a stabilit o „linie de bază umană” prin măsurarea timpului necesar experților pentru a finaliza acele sarcini.

Echipa a dezvoltat apoi o măsurătoare pentru a evalua progresul Modele AI, care se numește „orizontul de timp pentru finalizarea sarcinii”. Acesta este timpul necesar programatorilor pentru a finaliza sarcinile pe care modelele AI le pot îndeplini cu o anumită rată de succes.

Într-o preprint publicată săptămâna aceasta pe arXiv, METR raportează că GPT-2, un model de limbă mare (LLM) timpuriu lansat de OpenAI în 2019, a eșuat la toate sarcinile care au luat experților umani mai mult de un minut. Claude 3.7 Sonnet, lansat în februarie de startup-ul american Anthropic, a finalizat 50% din sarcinile care le-ar dura oamenilor 59 de minute.

În general, orizontul de timp al celor 13 modele de inteligență artificială de top s-a dublat aproximativ la fiecare șapte luni din 2019, potrivit studiului. Creșterea exponențială a orizontului de timp AI sa accelerat în 2024, cele mai recente modele dublându-și orizontul aproximativ la fiecare trei luni. Lucrarea nu a fost încă revizuită oficial.

Mergând mai departe din 2019 până în 2024, METR sugerează că modelele AI vor putea îndeplini sarcini care le ia oamenilor aproximativ o lună cu o fiabilitate de 50% până în 2029, poate chiar mai devreme.

O lună de expertiză umană dedicată, sugerează lucrarea, poate fi suficientă pentru a înființa o nouă companie sau pentru a face descoperiri științifice.

Cu toate acestea, Joshua Gans, profesor de management la Universitatea din Toronto din Canada, care a scris despre economia AI, explică că astfel de predicții nu sunt deosebit de utile. „Extrapolările sunt tentante, dar încă nu știm atât de multe despre cum va fi folosită de fapt AI pentru ca aceste predicții să aibă sens”, spune el.

Judecând oamenii versus AI

Echipa a ales rata de succes de 50% pentru că a fost cea mai robustă la schimbări mici în distribuția datelor. „Dacă alegeți praguri foarte scăzute sau foarte înalte, adăugarea sau eliminarea unei singure sarcini reușite sau eșuate schimbă în consecință estimarea foarte mult”, explică coautorul Lawrence Chan.

Creșterea fiabilității de la 50% la 80% a redus orizontul de timp mediu cu un factor de cinci - chiar dacă timpul general de dublare și linia de tendință au fost similare.

În ultimii cinci ani, au fost aduse îmbunătățiri aptitudini generale ale LLMs determinată în principal de creșterile de scară — cantitatea de date de antrenament, timpul de antrenament și numărul de parametri ai modelului. Lucrarea atribuie progresul în metrica orizontului de timp în primul rând îmbunătățirii raționamentului logic, utilizării instrumentelor, corectării erorilor și încrederii sarcinilor.

Abordarea METR de a evalua orizonturile de timp abordează unele dintre limitările benchmark-urilor existente de AI, care se potrivesc doar vag cu munca din lumea reală și devin rapid „saturate” pe măsură ce modelele se îmbunătățesc. Oferă o măsură continuă, intuitivă, care surprinde mai bine progresul semnificativ în timp, spune coautorul Ben West.

Modelele AI de vârf obțin performanțe supraomenești în multe Testarea de referință, dar până acum au avut un impact economic relativ mic, explică West. Cele mai recente cercetări ale METR oferă un răspuns parțial la acest puzzle: cele mai bune modele arată un interval de timp de aproximativ 40 de minute și nu există prea multă muncă valoroasă din punct de vedere economic pe care o persoană o poate face în acel timp, a spus West.

Cu toate acestea, Anton Troynikov, cercetător și antreprenor AI din San Francisco, California, explică că AI ar avea un impact economic mai mare dacă organizațiile ar fi mai dispuse să experimenteze și să investească în utilizarea eficientă a modelelor.

  1. Kwa, T. şi colab. Preprint la arXiv https://doi.org/10.48550/arXiv.2503.14499 (2025).

Descărcați referințe