A mesterséges intelligencia hamarosan olyan projekteket vesz át, amelyekhez emberek hetekig tartanak

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

A mesterséges intelligencia rohamosan fejlődik, és hamarosan olyan projektekbe is belefoghat, amelyeknek az elvégzése hetekig tart. Szakértői elemzések azt mutatják, hogy a vezető mesterséges intelligencia modellek előrehaladnak, és 2029-re emberi szakértelemmel rövidebb idő alatt végezhetnek el feladatokat.

Künstliche Intelligenz verbessert sich rasant und könnte bald Projekte übernehmen, für die Menschen Wochen benötigen. Expertenanalysen zeigen, dass führende KI-Modelle im Fortschritt sind und bis 2029 Aufgaben mit menschlicher Expertise in kürzerer Zeit bewältigen könnten.
A mesterséges intelligencia rohamosan fejlődik, és hamarosan olyan projektekbe is belefoghat, amelyeknek az elvégzése hetekig tart. Szakértői elemzések azt mutatják, hogy a vezető mesterséges intelligencia modellek előrehaladnak, és 2029-re emberi szakértelemmel rövidebb idő alatt végezhetnek el feladatokat.

A mesterséges intelligencia hamarosan olyan projekteket vesz át, amelyekhez emberek hetekig tartanak

A mai mesterséges intelligencia (AI) rendszerei nem képesek felülmúlni az embereket hosszú feladatok során, de fejlődnek gyorsan tovább, és gyorsabban zárhatja le a különbséget, mint azt sokan várták – derül ki a vezető modellek elemzéséből 1.

A kaliforniai berkeley-i székhelyű nonprofit METR közel 170 valós feladatot dolgozott ki a programozás, a kiberbiztonság, az általános érvelés és a gépi tanulás területén, majd "emberi alapvonalat" hozott létre azzal, hogy megmérte, mennyi időbe telik a szakértőknek ezeknek a feladatoknak a végrehajtása.

A csapat ezután kidolgozott egy mérőszámot az előrehaladás értékelésére AI modellek, amelyet „feladat befejezési időhorizontnak” neveznek. Általában ennyi időbe telik a programozóknak, hogy elvégezzék azokat a feladatokat, amelyeket az AI-modellek bizonyos sikerarány mellett képesek elvégezni.

Az arXiv ezen a héten közzétett preprintjében a METR arról számol be, hogy a GPT-2, az OpenAI által 2019-ben kiadott korai nagynyelvi modell (LLM) minden olyan feladatban megbukott, amely több mint egy percet vett igénybe az emberi szakértőknek. A Claude 3.7 Sonnet, amelyet februárban adott ki az amerikai Anthropic startup, az embereknek 59 percet igénybe vevő feladatok 50%-át elvégezte.

A tanulmány szerint összességében a 13 vezető mesterséges intelligencia modell időhorizontja 2019 óta körülbelül héthavonta megduplázódott. A mesterséges intelligencia időhorizontjainak exponenciális növekedése 2024-ben felgyorsult, a legújabb modellek körülbelül háromhavonta megduplázták a horizontot. A munkát hivatalosan még nem vizsgálták felül.

2019-ről 2024-re haladva a METR azt sugallja, hogy az AI-modellek 2029-re 50%-os megbízhatósággal képesek lesznek körülbelül egy hónapig tartó feladatokat végrehajtani, de talán még hamarabb is.

A lap szerint egy hónap elhivatott humán szakértelem elég lehet egy új cég alapításához vagy tudományos felfedezésekhez.

Joshua Gans, a kanadai Torontói Egyetem menedzsmentprofesszora azonban, aki az MI gazdaságtanáról írt, kifejti, hogy az ilyen előrejelzések nem különösebben hasznosak. „Az extrapolációk csábítóak, de még mindig nagyon sok mindent nem tudunk arról, hogy az AI-t valójában hogyan fogják felhasználni ezeknek az előrejelzéseknek az értelmességére” – mondja.

Az emberek és az AI megítélése

A csapat az 50%-os sikerarányt választotta, mert ez volt a legrobbantosabb az adateloszlás kis változásaira. „Ha nagyon alacsony vagy nagyon magas küszöbértéket választ, egyetlen sikeres vagy sikertelen feladat hozzáadása vagy eltávolítása ennek megfelelően nagymértékben megváltoztatja a becslést” – magyarázza Lawrence Chan, a társszerző.

A megbízhatóság 50%-ról 80%-ra való növelése ötszörösére csökkentette az átlagos időhorizontot – annak ellenére, hogy az általános megduplázódási idő és a trendvonal hasonló volt.

Az elmúlt öt évben fejlesztések történtek a az LLM-ek általános készségei elsősorban a lépték növekedése – a betanítási adatok mennyisége, a képzési idő és a modellparaméterek száma – vezérli. A cikk az időhorizont metrikájában elért előrehaladást elsősorban a logikus érvelés, az eszközhasználat, a hibajavítás és a feladatbizalom javulásának tulajdonítja.

A METR időhorizontokat értékelő megközelítése foglalkozik a meglévő mesterségesintelligencia-benchmarkok korlátaival, amelyek csak lazán illeszkednek a valós világhoz, és gyorsan „telítődnek” a modellek fejlesztésével. Folyamatos, intuitív mérést biztosít, amely jobban rögzíti a jelentős előrehaladást az idő múlásával, mondja Ben West társszerző.

A vezető mesterséges intelligencia modellek sok esetben emberfeletti teljesítményt nyújtanak Benchmark tesztelés, de eddig viszonylag csekély gazdasági hatásuk volt – magyarázza West. A METR legújabb kutatása részleges választ kínál erre a rejtvényre: a legjobb modellek körülbelül 40 perces időkeretet mutatnak, és ezalatt nem sok gazdaságilag értékes munkát tud elvégezni az ember, mondta West.

Anton Troynikov, a kaliforniai San Francisco-i mesterséges intelligencia-kutató és vállalkozó azonban kifejti, hogy az AI-nak nagyobb gazdasági hatása lenne, ha a szervezetek hajlandóbbak lennének kísérletezni és beruházni a modellek hatékony használatába.

  1. Kwa, T. et al. Előnyomtatás az arXiv-en https://doi.org/10.48550/arXiv.2503.14499 (2025).

Referenciák letöltése