AI čoskoro prevezme projekty, ktoré ľuďom trvajú týždne

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Umelá inteligencia sa rýchlo zlepšuje a čoskoro by mohla začať s projektmi, ktorých dokončenie ľuďom trvá týždne. Expertná analýza ukazuje, že popredné modely AI dosahujú pokrok a do roku 2029 by mohli dokončiť úlohy s ľudskou odbornosťou v kratšom čase.

Künstliche Intelligenz verbessert sich rasant und könnte bald Projekte übernehmen, für die Menschen Wochen benötigen. Expertenanalysen zeigen, dass führende KI-Modelle im Fortschritt sind und bis 2029 Aufgaben mit menschlicher Expertise in kürzerer Zeit bewältigen könnten.
Umelá inteligencia sa rýchlo zlepšuje a čoskoro by mohla začať s projektmi, ktorých dokončenie ľuďom trvá týždne. Expertná analýza ukazuje, že popredné modely AI dosahujú pokrok a do roku 2029 by mohli dokončiť úlohy s ľudskou odbornosťou v kratšom čase.

AI čoskoro prevezme projekty, ktoré ľuďom trvajú týždne

Dnešné systémy umelej inteligencie (AI) nedokážu prekonať ľudí pri dlhých úlohách, no vyvíjajú sa rýchlo ďalej a podľa analýzy popredných modelov by mohla medzeru odstrániť rýchlejšie, ako mnohí očakávali 1.

Nezisková organizácia METR so sídlom v Berkeley v Kalifornii vyvinula takmer 170 reálnych úloh v oblasti programovania, kybernetickej bezpečnosti, všeobecného uvažovania a strojového učenia a potom stanovila „ľudskú základnú líniu“ meraním času, ktorý odborníci potrebovali na dokončenie týchto úloh.

Tím potom vyvinul metriku na posúdenie pokroku AI modely, ktorý sa nazýva „časový horizont dokončenia úlohy“. Toto je čas, ktorý zvyčajne trvá programátorom na dokončenie úloh, ktoré modely AI dokážu dokončiť s určitou mierou úspešnosti.

V predtlači zverejnenom tento týždeň na arXiv, METR uvádza, že GPT-2, skorý veľký jazykový model (LLM) vydaný OpenAI v roku 2019, zlyhal pri všetkých úlohách, ktoré ľudským expertom trvali viac ako minútu. Claude 3.7 Sonnet, vydaný vo februári americkým startupom Anthropic, dokončil 50 % úloh, ktoré by ľuďom trvali 59 minút.

Celkovo sa časový horizont 13 popredných modelov AI od roku 2019 zdvojnásobil približne každých sedem mesiacov, uvádza štúdia. Exponenciálny rast časových horizontov AI sa v roku 2024 zrýchlil, pričom najnovšie modely zdvojnásobujú svoj horizont približne každé tri mesiace. Práca ešte nebola formálne posúdená.

METR od roku 2019 do roku 2024 naznačuje, že modely AI budú do roku 2029 schopné dokončiť úlohy, ktoré ľuďom zaberú približne mesiac s 50% spoľahlivosťou, možno ešte skôr.

Jeden mesiac oddanej ľudskej expertízy môže stačiť na založenie novej spoločnosti alebo vedecké objavy.

Joshua Gans, profesor manažmentu na University of Toronto v Kanade, ktorý písal o ekonomike AI, však vysvetľuje, že takéto predpovede nie sú obzvlášť užitočné. "Extrapolácie sú lákavé, ale stále je toho veľa, čo nevieme o tom, ako sa AI skutočne použije na to, aby tieto predpovede dávali zmysel," hovorí.

Posudzovanie ľudí verzus AI

Tím zvolil 50% úspešnosť, pretože bola najodolnejšia voči malým zmenám v distribúcii údajov. „Ak si vyberiete veľmi nízke alebo veľmi vysoké prahové hodnoty, pridanie alebo odstránenie jednej úspešnej alebo neúspešnej úlohy podľa toho výrazne zmení odhad,“ vysvetľuje spoluautor Lawrence Chan.

Zvýšenie spoľahlivosti z 50 % na 80 % znížilo priemerný časový horizont päťkrát – aj keď celkový čas zdvojnásobenia a trendová čiara boli podobné.

Za posledných päť rokov došlo k zlepšeniam všeobecné zručnosti LLM poháňané predovšetkým nárastom rozsahu – množstvom tréningových dát, tréningovým časom a počtom parametrov modelu. Článok pripisuje pokrok v metrike časového horizontu predovšetkým zlepšeniam v logickom uvažovaní, používaní nástrojov, oprave chýb a spoľahlivosti úloh.

Prístup METR k hodnoteniu časových horizontov rieši niektoré z obmedzení existujúcich benchmarkov AI, ktoré sa len voľne zhodujú s prácou v reálnom svete a rýchlo sa „nasýtia“, keď sa modely zlepšujú. Poskytuje nepretržité, intuitívne meranie, ktoré lepšie zachytáva významný pokrok v priebehu času, hovorí spoluautor Ben West.

Popredné modely AI dosahujú v mnohých nadľudský výkon Benchmark testovanie, ale doteraz mali relatívne malý ekonomický dopad, vysvetľuje West. Najnovší výskum METR ponúka čiastočnú odpoveď na túto hádanku: Najlepšie modely ukazujú časový rámec približne 40 minút a človek za ten čas nemôže urobiť veľa ekonomicky hodnotnej práce, povedal West.

Anton Troynikov, výskumník a podnikateľ AI zo San Francisca v Kalifornii, však vysvetľuje, že AI by mala väčší ekonomický dopad, ak by boli organizácie ochotnejšie experimentovať a investovať do efektívneho využívania modelov.

  1. Kwa, T. a kol. Predtlač v arXiv https://doi.org/10.48550/arXiv.2503.14499 (2025).

Stiahnite si referencie