Znanstvenik impresioniran najnovijim ChatGPT modelom o1

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Znanstvenici hvale OpenAI-jev novi ChatGPT model o1 zbog impresivnog napretka u podršci znanosti.

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
Znanstvenici hvale OpenAI-jev novi ChatGPT model o1 zbog impresivnog napretka u podršci znanosti.

Znanstvenik impresioniran najnovijim ChatGPT modelom o1

Istraživači koji su pomogli testirati OpenAI-jev novi veliki jezični model, OpenAI o1, kažu da je to veliki korak naprijed u smislu Korisnost chatbota za znanost predstavlja.

"U mom području kvantne fizike postoje znatno detaljniji i koherentniji odgovori" ​​nego s prethodnim modelom, GPT-4o, kaže Mario Krenn, voditelj laboratorija umjetnih znanstvenika na Institutu Max Planck za fiziku svjetlosti u Erlangenu, Njemačka. Krenn je bio dio skupine znanstvenika u 'Crvenom timu' koji su testirali verziju o1 prije izdanja za OpenAI, tehnološku tvrtku sa sjedištem u San Franciscu u Kaliforniji, testirajući bota i provjeravajući sigurnosne probleme.

Od javno pokretanje ChatGPT-a 2022 U prosjeku, veliki jezični modeli koji pokreću takve chatbotove postali su veći i bolji, s više parametara, većim skupovima podataka za obuku i jače vještine na raznim standardiziranim testovima.

OpenAI objašnjava da je o1 serija predstavlja temeljnu promjenu u pristupu poduzeća. Promatrači navode da se ovaj model umjetne inteligencije ističe jer je proveo više vremena u određenim fazama učenja i dulje "razmišlja" o svojim odgovorima, što ga čini sporijim, ali sposobnijim - posebno u područjima gdje su točni i pogrešni odgovori jasno definirani. Tvrtka dodaje da o1 može "promišljati složene zadatke i rješavati teže probleme od prethodnih modela u znanosti, programiranju i matematici." Trenutačno su o1-preview i o1-mini — manja, isplativija verzija prikladna za programiranje — dostupni u testiranju za korisnike koji plaćaju i određene programere. Tvrtka nije objavila nikakve informacije o parametrima ili računalnoj snazi ​​modela o1.

Najbolji studenti diplomskih studija

Andrew White, a kemičar u FutureHouseu, neprofitnoj organizaciji iz San Francisca koja se usredotočila na to kako se umjetna inteligencija može primijeniti na molekularnu biologiju, kaže da su u posljednjih godinu i pol promatrači od javnog objavljivanja GPT-4, bili su iznenađeni i razočarani općim nedostatkom poboljšanja u tome kako chatbotovi podržavaju znanstvene zadatke. Serija o1 je, smatra on, to promijenila.

Nevjerojatno je da je o1 prvi veliki jezični model koji je pobijedio studente diplomskih studija na najtežem pitanju — skupu „Dijamant” — u testu koji se zove Graduate-Level Google-Proof Q&A Benchmark (GPQA). 1. OpenAI kaže da su njegovi istraživači postigli nešto manje od 70% u GPQA dijamantu, dok je o1 ukupno postigao 78%, s posebno visokim rezultatom od 93% u fizici (vidi "Sljedeća razina"). To je "znatno više od sljedeće najbolje dokumentirane izvedbe [chatbota]", kaže David Rein, koji je bio dio tima koji je razvio GPQA. Rein trenutačno radi u neprofitnoj organizaciji Model Evaluation and Threat Research u Berkeleyju u Kaliforniji, koja procjenjuje rizike umjetne inteligencije. "Čini mi se vjerojatnim da ovo predstavlja značajno i temeljno poboljšanje u temeljnim mogućnostima modela", dodaje.

OpenAI je također testirao o1 na kvalifikacijskom ispitu za Međunarodnu matematičku olimpijadu. Prethodni najbolji model, GPT-4o, točno je riješio samo 13% zadataka, dok je o1 postigao 83%.

Razmišljanje u procesima

OpenAI o1 radi s lancem koraka razmišljanja: govori sam o sebi kroz niz razmatranja dok pokušava riješiti problem, ispravljajući se u hodu.

OpenAI je odabrao tajnost određenog lanca misaonih koraka - djelomično zato što lanac može sadržavati pogreške ili društveno neprihvatljive "misli", a djelomično radi zaštite korporativnih tajni o tome kako model funkcionira. Umjesto toga, o1 nudi korisniku rekonstruirani sažetak svoje logike, zajedno sa svojim odgovorima. Nejasno je, kaže White, hoće li cijeli slijed misaonih koraka, ako se otkrije, imati bilo kakve sličnosti s ljudskom mišlju.

Nove sposobnosti imaju i svoje loše strane. OpenAI izvještava da je primio anegdotske povratne informacije da modeli o1 "haluciniraju" - izmišljaju lažne odgovore - češće od svojih prethodnika (iako je interno testiranje tvrtke za o1 pokazalo nešto niže stope halucinacija).

Znanstvenici Crvenog tima primijetili su brojne načine na koje je o1 bio od pomoći u razvoju protokola za znanstvene eksperimente, ali OpenAI kaže da su testeri također "naglasili nedostatak sigurnosnih informacija o štetnim koracima, kao što je nenaglašavanje opasnosti od eksplozije ili sugeriranje neprikladnih metoda kemijske sigurnosti, što ukazuje na neadekvatnost modela kada se radi o zadacima kritičnim za sigurnost."

"Još uvijek nije savršeno ili dovoljno pouzdano da ne treba ispitivanje", kaže White. Dodaje da o1 bolje odgovara Vodeći stručnjaci kao početnici. "Izvan je njihove neposredne sposobnosti da početnik pogleda zapisnik koji generira o1 i shvati da je to 'glupost'", kaže on.

Rješivač znanstvenih problema

Krenn vjeruje da će o1 ubrzati znanost tako što će pomoći u skeniranju literature, identificirati nedostatke i predložiti zanimljive istraživačke puteve za buduće studije. Integrirao je o1 u alat koji je pomogao razviti i koji to čini mogućim, nazvan SciMuse 2. "Generira mnogo zanimljivije ideje od GPT-4 ili GPT-4o", kaže on.

Kyle Kabasares, podatkovni znanstvenik na Bay Area Environmental Research Institute u Moffett Fieldu, Kalifornija, koristio o1 za izvođenje nekih programskih koraka iz svog doktorskog projekta koji je izračunao masu crnih rupa. "Bio sam jednostavno oduševljen", kaže, napominjući da mu je trebalo oko sat vremena da postigne ono za što je njemu trebalo mnogo mjeseci.

Catherine Brownstein, genetičarka u Bostonskoj dječjoj bolnici u Massachusettsu, kaže da bolnica trenutno testira nekoliko AI sustava, uključujući o1-preview, za primjene kao što je otkrivanje veza između karakteristika pacijenata i gena za rijetke bolesti. Ona kaže da je o1 "precizniji i nudi opcije za koje nisam mislila da su moguće iz chatbota."

  1. Rein, D. i sur. Pretisak na arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).

  2. Gu, X. & Krenn, M. Pretisak na arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).

Preuzmite reference