Az AI-modellek eredetibb ötleteket hoznak létre, mint a kutatók?
Egy új tanulmány szerint az AI-modellek több eredeti kutatási ötletet generálhatnak, mint 50 tudós. A szakértők értékelik ezeket a megközelítéseket.

Az AI-modellek eredetibb ötleteket hoznak létre, mint a kutatók?
Egy mesterséges intelligenciával (AI) hajtott ötletgenerátor rendszer eredetibb kutatási megközelítést fejlesztett ki, mint 50, egymástól függetlenül dolgozó tudós az arXiv legújabb preprintjében. 1.
Az emberek és a mesterséges intelligencia által generált ötleteket értékelők értékelték, akik nem tudták, ki vagy mi alkotta az egyes ötleteket. A bírálók a mesterséges intelligencia által generált koncepciókat izgalmasabbnak értékelték az ember által írt ötletekhez képest, bár az AI javaslatai valamivel alacsonyabb pontszámot értek el a megvalósíthatóság tekintetében.
A tudósok azonban rámutatnak, hogy a még szakértői értékelésen kívüli tanulmánynak korlátai vannak. A kutatás egy meghatározott területére összpontosított, és megkövetelte az emberi résztvevőktől, hogy spontán ötleteket generáljanak, ami valószínűleg akadályozta a legjobb koncepciók előállítását.
Mesterséges intelligencia a tudományban
Vannak emelkedő törekvések, annak vizsgálatára, hogy a nagy nyelvi modellek (LLM) hogyan használhatók olyan kutatási feladatok automatizálására, mint pl Cikkek írása, Kód generálása és Irodalomkutatás használható. Nehéz azonban felmérni, hogy ezek az AI-eszközök képesek-e új, az emberekhez hasonló szintű kutatási megközelítéseket generálni. Ennek oka az ötletek értékelése nagyon szubjektív és olyan szakemberekre van szükség, akik képesek gondosan kiértékelni ezeket – mondja Chenglei Si, a tanulmány társszerzője és a kaliforniai Stanford Egyetem informatikusa. „Az ilyen képességek kontextusba helyezésének legjobb módja az egymás melletti összehasonlítás” – mondja Si.
Az egy éven át tartó projekt az egyik legnagyobb erőfeszítés annak értékelésére, hogy a nagy nyelvi modellek - a technológia mögött eszközök, mint ChatGPT – innovatív kutatási megközelítéseket hozhat létre – magyarázza Tom Hope, a jeruzsálemi Allen Institute for AI informatikusa. „Több ilyen munkára van szükség” – mondja.
A csapat több mint 100 kutatót vett fel a természetes nyelvi feldolgozás területén, amely a számítástechnika egy olyan ága, amely a mesterséges intelligencia és az emberek közötti kommunikációval foglalkozik. Negyvenkilenc résztvevőt bíztak meg azzal, hogy tíz napon belül ötleteket dolgozzanak ki és fogalmazzanak meg a hét téma valamelyike alapján. Ösztönzésként a kutatók ötletenként 300 dollárt kaptak, az öt legjobb ötletért pedig 1000 dollár bónuszt kaptak.
Ezzel egy időben a kutatók egy ötletgenerátort fejlesztettek ki a Claude 3.5, az Anthropic által a kaliforniai San Francisco-ban kifejlesztett LLM segítségével. A kutatók arra kérték mesterségesintelligencia-eszközüket, hogy találjanak releváns cikkeket a hét kutatási témáról a Semantic Scholar, a mesterséges intelligencia által vezérelt irodalmi keresőn keresztül. E cikkek alapján a kutatók arra kérték AI-ügynöküket, hogy minden kutatási témában generáljanak 4000 ötletet, és értékeljék a legeredetibbeket.
Emberértékelők
A kutatók ezután véletlenszerűen kiosztották az emberi és mesterséges intelligencia által generált ötleteket 79 értékelőhöz, akik mindegyik ötletet értékelték újdonság, izgalmasság, megvalósíthatóság és várható hatékonyság szempontjából. Annak érdekében, hogy az ötletek alkotói ismeretlenek maradjanak a lektorok előtt, a kutatók egy másik LLM-et használtak mindkét szövegtípus szerkesztéséhez, így az írásmód és a hangnem egységes lett anélkül, hogy maguk az ötletek változtak volna.
A bírálók átlagosan eredetibbnek és izgalmasabbnak értékelték az AI által generált ötleteket, mint az emberi résztvevők által írottakat. Amikor azonban alaposabban megvizsgálták az LLM által készített 4000 ötletet, a kutatók csak körülbelül 200-at találtak igazán egyedinek, ami arra utal, hogy az AI minél több ötletet generált, annál kevésbé volt eredeti.
Amikor Si megkérdezte a résztvevőket, a legtöbben elismerték, hogy az általuk benyújtott ötletek csak átlagosak a múltban készített ötletekhez képest.
Az eredmények arra utalnak, hogy az LLM-ek könnyen generálhatnak eredetibb ötleteket, mint a meglévő szakirodalom – mondja Cong Lu, a vancouveri British Columbia Egyetem gépi tanulással foglalkozó kutatója. Nyitott kérdés azonban, hogy képesek-e felülmúlni a legáttörőbb emberi elképzeléseket.
A tanulmány másik korlátja, hogy az összehasonlított írott ötleteket egy LLM szerkesztette, ami megváltoztatta a beadványok nyelvét és hosszát – mondja Jevin West, a Seattle-i Washington Egyetem társadalomtudományi informatikusa. Az ilyen változások finoman befolyásolhatták azt, hogy a bírálók hogyan vélekedtek az újdonságról, teszi hozzá. West hozzáteszi, hogy a kutatók szembeállítása egy olyan LLM-mel, amely néhány óra alatt több ezer ötletet generál, nem biztos, hogy teljesen korrekt összehasonlítás. „Az almát az almával kell összehasonlítani” – mondja.
Si és munkatársai azt tervezik, hogy összehasonlítják a mesterséges intelligencia által generált ötleteket vezető konferencia-előadásokkal, hogy jobban megértsék, hogyan viszonyulnak az LLM-ek az emberi kreativitáshoz. „Megpróbáljuk arra ösztönözni a közösséget, hogy mélyebben gondolkodjon el azon, hogyan nézzen ki a jövő, amikor az AI aktívabb szerepet tud vállalni a kutatási folyamatban” – mondja.
-
Si, C., Yang, D. & Hashimoto, T. Preprint at arXiv https://doi.org/10.48550/arXiv.2409.04109 (2024).