AI скоро ще поеме проекти, които отнемат седмици на хората

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Изкуственият интелект се усъвършенства бързо и скоро може да поеме проекти, чието завършване отнема на хората седмици. Експертният анализ показва, че водещите AI модели отбелязват напредък и биха могли да изпълняват задачи с човешки опит за по-малко време до 2029 г.

Künstliche Intelligenz verbessert sich rasant und könnte bald Projekte übernehmen, für die Menschen Wochen benötigen. Expertenanalysen zeigen, dass führende KI-Modelle im Fortschritt sind und bis 2029 Aufgaben mit menschlicher Expertise in kürzerer Zeit bewältigen könnten.
Изкуственият интелект се усъвършенства бързо и скоро може да поеме проекти, чието завършване отнема на хората седмици. Експертният анализ показва, че водещите AI модели отбелязват напредък и биха могли да изпълняват задачи с човешки опит за по-малко време до 2029 г.

AI скоро ще поеме проекти, които отнемат седмици на хората

Днешните системи с изкуствен интелект (AI) не могат да надминат хората при дълги задачи, но те се развиват бързо по-далеч и може да намали разликата по-бързо, отколкото мнозина очакваха, според анализ на водещи модели 1.

Базираната в Бъркли, Калифорния организация с нестопанска цел METR разработи почти 170 задачи от реалния свят в областта на програмирането, киберсигурността, общите разсъждения и машинното обучение, след което установи „човешка базова линия“ чрез измерване на времето, необходимо на експертите за изпълнение на тези задачи.

След това екипът разработи показател за оценка на напредъка AI модели, което се нарича „времеви хоризонт за изпълнение на задачата“. Това е времето, което обикновено отнема на програмистите да изпълнят задачите, които AI моделите могат да изпълнят с определен процент на успех.

В предпечат, публикуван тази седмица в arXiv, METR съобщава, че GPT-2, ранен голям езиков модел (LLM), пуснат от OpenAI през 2019 г., се е провалил при всички задачи, които са отнели на човешките експерти повече от минута. Claude 3.7 Sonnet, пуснат през февруари от американската стартираща компания Anthropic, изпълни 50% от задачите, които биха отнели на хората 59 минути.

Като цяло времевият хоризонт на 13-те водещи AI модела се удвоява приблизително на всеки седем месеца от 2019 г., според проучването. Експоненциалният растеж на времевите хоризонти на AI се ускори през 2024 г., като най-новите модели удвояват своя хоризонт приблизително на всеки три месеца. Работата все още не е официално прегледана.

Преминавайки напред от 2019 г. до 2024 г., METR предполага, че AI моделите ще могат да изпълняват задачи, които отнемат на хората около месец с 50% надеждност до 2029 г., може би дори по-рано.

Един месец всеотдаен човешки опит, предполага вестникът, може да бъде достатъчен за стартиране на нова компания или за научни открития.

Въпреки това Джошуа Ганс, професор по мениджмънт в университета в Торонто в Канада, който е писал за икономиката на ИИ, обяснява, че подобни прогнози не са особено полезни. „Екстраполациите са изкушаващи, но все още има толкова много неща, които не знаем за това как изкуственият интелект всъщност ще бъде използван, за да имат смисъл тези прогнози“, казва той.

Преценка на хората срещу ИИ

Екипът избра процент на успех от 50%, тъй като беше най-устойчив на малки промени в разпространението на данни. „Ако изберете много ниски или много високи прагове, добавянето или премахването на една успешна или неуспешна задача съответно променя значително оценката“, обяснява съавторът Лорънс Чан.

Увеличаването на надеждността от 50% на 80% намали средния времеви хоризонт с коефициент пет - въпреки че общото време на удвояване и линията на тренда бяха подобни.

През последните пет години бяха направени подобрения в общи умения на LLM водени предимно от увеличения в мащаба - количеството данни за обучение, времето за обучение и броя на параметрите на модела. Документът приписва напредъка в метриката на времевия хоризонт предимно на подобрения в логическото разсъждение, използването на инструменти, коригирането на грешки и увереността на задачите.

Подходът на METR за оценка на времевите хоризонти адресира някои от ограниченията на съществуващите бенчмаркове на AI, които само слабо съответстват на работата в реалния свят и бързо се „насищат“ с подобряването на моделите. Той осигурява непрекъснато, интуитивно измерване, което улавя по-добре значителния напредък във времето, казва съавторът Бен Уест.

Водещите AI модели постигат свръхчовешка производителност в много Бенчмарк тестване, но досега са имали относително малко икономическо въздействие, обяснява Уест. Последното изследване на METR предлага частичен отговор на този пъзел: най-добрите модели показват времева рамка от около 40 минути и няма много икономически ценна работа, която човек може да свърши за това време, каза Уест.

Въпреки това, Антон Тройников, изследовател на ИИ и предприемач от Сан Франциско, Калифорния, обяснява, че ИИ ще има по-голямо икономическо въздействие, ако организациите са по-склонни да експериментират и да инвестират в ефективното използване на моделите.

  1. Kwa, T. et al. Предпечат в arXiv https://doi.org/10.48550/arXiv.2503.14499 (2025).

Изтегляне на препратки