Mokslininką sužavėjo naujausias ChatGPT modelis o1
Mokslininkai giria naująjį OpenAI ChatGPT modelį o1 už įspūdingą mokslo palaikymo pažangą.

Mokslininką sužavėjo naujausias ChatGPT modelis o1
Tyrėjai, padėję išbandyti naująjį „OpenAI“ didelį kalbos modelį „OpenAI o1“, teigia, kad tai didelis žingsnis į priekį, kalbant apie Pokalbių robotų naudingumas mokslui atstovauja.
„Mano kvantinės fizikos srityje yra daug išsamesnių ir nuoseklesnių atsakymų“ nei naudojant ankstesnį modelį GPT-4o, sako Mario Krenn, Makso Planko šviesos fizikos instituto Erlangene, Vokietijoje, Dirbtinių mokslininkų laboratorijos vadovas. Krenn priklausė „Raudonosios komandos“ mokslininkų grupei, kuri išbandė išankstinę o1 versiją, skirtą „OpenAI“, technologijų kompanijai, įsikūrusiai San Franciske, Kalifornijoje, bandydama robotą ir tikrindama, ar nėra saugumo problemų.
Kadangi viešas ChatGPT pristatymas 2022 m Vidutiniškai dideli kalbų modeliai, kuriais maitinami tokie pokalbių robotai, tapo didesni ir geresni, su daugiau parametrų, didesnių mokymo duomenų rinkinių ir stipresni įvairių standartizuotų testų įgūdžiai.
OpenAI paaiškina, kad o1 serija reiškia esminį įmonės požiūrio pokytį. Stebėtojai praneša, kad šis dirbtinio intelekto modelis išsiskiria tuo, kad tam tikrose mokymosi fazėse jis praleido daugiau laiko ir ilgiau „galvoja“ apie savo atsakymus, todėl jis yra lėtesnis, bet pajėgesnis – ypač tose srityse, kuriose yra aiškiai apibrėžti teisingi ir neteisingi atsakymai. Bendrovė priduria, kad o1 gali „apmąstyti sudėtingas užduotis ir išspręsti sudėtingesnes problemas nei ankstesni mokslo, programavimo ir matematikos modeliai“. Šiuo metu „o1-preview“ ir „o1-mini“ – mažesnė, ekonomiškesnė versija, tinkanti programavimui – yra prieinami mokančių klientų ir tam tikrų kūrėjų testavimui. Bendrovė neskelbė jokios informacijos apie o1 modelių parametrus ar skaičiavimo galią.
Pralenkiantys absolventus
Andrew White, a chemikas San Francisko ne pelno organizacija „FutureHouse“, kurios pagrindinis dėmesys buvo skiriamas AI pritaikymui molekulinei biologijai, teigia, kad per pastaruosius pusantrų metų stebėtojai nuo viešo GPT-4 išleidimo, buvo nustebinti ir nusivylę dėl to, kad pokalbių robotai nepagerina mokslinių užduočių. Jis mano, kad o1 serija tai pakeitė.
Pažymėtina, kad o1 yra pirmasis pagrindinis kalbos modelis, įveikęs magistrantus į sunkiausią klausimą – „Deimantų rinkinį“ – teste, pavadintame „Graduate Level Google-Proof Q&A Benchmark“ (GPQA). 1. OpenAI teigia, kad jos tyrėjai GPQA Diamond surinko šiek tiek mažiau nei 70%, o o1 surinko 78%, o ypač aukštas 93% fizikos balas (žr. „Kitas lygis“). Tai „žymiai didesnis nei kito geriausio dokumentuoto [pokalbių roboto] našumas“, – sako Davidas Reinas, priklausęs GPQA kūrusios komandos nariui. Šiuo metu Reinas dirba ne pelno siekiančiame modelių vertinimo ir grėsmių tyrime Berklyje, Kalifornijoje, kuris vertina AI riziką. „Man atrodo tikėtina, kad tai yra reikšmingas ir esminis pagrindinių modelio galimybių patobulinimas“, – priduria jis.
OpenAI taip pat išbandė o1 tarptautinės matematikos olimpiados kvalifikaciniame egzamine. Ankstesnis geriausias modelis GPT-4o teisingai išsprendė tik 13% užduočių, o o1 surinko 83%.
Mąstymas procesuose
„OpenAI o1“ veikia pagal mąstymo žingsnių grandinę: bandydamas išspręsti problemą, jis pats save aptaria įvairiais svarstymais ir taisosi.
OpenAI pasirinko tam tikros minties žingsnių grandinės detales laikyti paslaptyje – iš dalies todėl, kad grandinėje gali būti klaidų ar socialiai nepriimtinų „minčių“, o iš dalies siekdama apsaugoti įmonės paslaptis apie tai, kaip modelis veikia. Vietoj to, o1 siūlo vartotojui atkurtą savo logikos santrauką kartu su atsakymais. White'o teigimu, neaišku, ar visa minties žingsnių seka, jei ji būtų atskleista, turėtų kokių nors panašumų su žmogaus mintimi.
Nauji sugebėjimai turi ir minusų. OpenAI praneša, kad ji gavo anekdotiškų atsiliepimų, kad o1 modeliai „haliucinuoja“ – sugalvoja klaidingus atsakymus – dažniau nei jų pirmtakai (nors bendrovės o1 bandymai parodė šiek tiek mažesnį haliucinacijų skaičių).
Raudonosios komandos mokslininkai atkreipė dėmesį į daugybę būdų, kuriais o1 buvo naudingas kuriant mokslinių eksperimentų protokolus, tačiau OpenAI teigia, kad bandytojai taip pat „pabrėžė saugos informacijos apie žalingus veiksmus trūkumą, pavyzdžiui, nepabrėžė sprogimo pavojaus arba nepasiūlė netinkamų cheminės saugos metodų, o tai rodo, kad modelis yra netinkamas, kai reikia atlikti saugai svarbias užduotis“.
„Jis vis dar nėra pakankamai tobulas ar patikimas, kad nereikėtų tikrinti“, - sako White'as. Jis priduria, kad o1 labiau tinka Pirmaujantys ekspertai kaip pradedantieji. „Pradedantysis negali pažvelgti į o1 sukurtą žurnalą ir suprasti, kad tai yra „nesąmonė“, – sako jis.
Mokslo problemų sprendėjas
Krenn mano, kad o1 paspartins mokslą, padėdamas nuskaityti literatūrą, nustatyti spragas ir pasiūlyti įdomių būsimų tyrimų būdų. Jis integravo o1 į įrankį, kurį padėjo sukurti ir kuris tai leidžia, pavadintą SciMuse 2. „Jis sukuria daug įdomesnių idėjų nei GPT-4 ar GPT-4o“, – sako jis.
Kyle'as Kabasaresas, duomenų mokslininkas iš Bay Area aplinkos tyrimų instituto Moffett Field, Kalifornijoje, o1 naudojo kai kuriems programavimo veiksmams atlikti iš savo doktorantūros projekto, kuriame buvo apskaičiuota juodųjų skylių masė. „Buvau tiesiog priblokštas“, – sako jis ir pažymi, kad tai, kas jam prireikė daug mėnesių, užtruko apie valandą.
Bostono vaikų ligoninės Masačusetso valstijoje genetikė Catherine Brownstein teigia, kad ligoninė šiuo metu išbando kelias AI sistemas, įskaitant o1 peržiūrą, skirtą tokioms programoms kaip paciento savybių ir retų ligų genų sąsajų atskleidimas. Ji sako, kad o1 „yra tikslesnis ir siūlo parinktis, kurių, mano manymu, neįmanomos naudojant pokalbių robotą“.
-
Rein, D. ir kt. Išankstinis spausdinimas svetainėje arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).
-
Gu, X. & Krenn, M. Preprint at arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).