Czy modele sztucznej inteligencji generują więcej oryginalnych pomysłów niż badacze?

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Nowe badanie pokazuje, że modele sztucznej inteligencji mogą wygenerować więcej oryginalnych pomysłów badawczych niż 50 naukowców. Eksperci oceniają te podejścia.

Eine neue Studie zeigt, dass KI-Modelle mehr originelle Forschungsideen generieren können als 50 Wissenschaftler. Experten bewerten diese Ansätze.
Nowe badanie pokazuje, że modele sztucznej inteligencji mogą wygenerować więcej oryginalnych pomysłów badawczych niż 50 naukowców. Eksperci oceniają te podejścia.

Czy modele sztucznej inteligencji generują więcej oryginalnych pomysłów niż badacze?

System generowania pomysłów oparty na sztucznej inteligencji (AI) opracował bardziej oryginalne podejścia badawcze niż 50 naukowców pracujących niezależnie w niedawnym przeddruku w arXiv 1.

Pomysły wygenerowane przez ludzi i sztuczną inteligencję zostały ocenione przez recenzentów, którzy nie wiedzieli, kto lub co stworzyło każdy pomysł. Recenzenci ocenili koncepcje generowane przez sztuczną inteligencję jako bardziej ekscytujące w porównaniu z pomysłami stworzonymi przez człowieka, chociaż sugestie sztucznej inteligencji uzyskały nieco niższe oceny pod względem wykonalności.

Naukowcy zwracają jednak uwagę, że badanie, które nie zostało jeszcze poddane recenzji, ma ograniczenia. Koncentrował się na konkretnym obszarze badań i wymagał od uczestników spontanicznego generowania pomysłów, co prawdopodobnie utrudniało im tworzenie najlepszych koncepcji.

Sztuczna inteligencja w nauce

Tam są rosnące aspiracje, aby zbadać, w jaki sposób duże modele językowe (LLM) można wykorzystać do automatyzacji zadań badawczych, takich jak Pisanie artykułów, Wygeneruj kod I Badania literaturowe można używać. Trudno było jednak ocenić, czy te narzędzia sztucznej inteligencji mogą wygenerować nowe podejścia badawcze na poziomie podobnym do ludzkiego. Dzieje się tak dlatego, że ocena pomysłów bardzo subiektywne i wymaga specjalistów, którzy potrafią je dokładnie ocenić – mówi Chenglei Si, współautor badania i informatyk na Uniwersytecie Stanforda w Kalifornii. „Najlepszym sposobem na kontekstualizację takich możliwości jest bezpośrednie porównanie” – mówi Si.

Całoroczny projekt jest jednym z największych wysiłków mających na celu ocenę, czy duże modele językowe – technologia stojąca za narzędziami, np CzatGPT – mogą opracować innowacyjne podejścia badawcze, wyjaśnia Tom Hope, informatyk w Allen Institute for AI w Jerozolimie. „Powinno być więcej takich prac” – mówi.

Zespół zrekrutował ponad 100 badaczy zajmujących się przetwarzaniem języka naturalnego, czyli dziedziną informatyki zajmującą się komunikacją między sztuczną inteligencją a człowiekiem. Czterdziestu dziewięciu uczestników otrzymało zadanie opracowania i sformułowania pomysłów w ciągu dziesięciu dni w oparciu o jeden z siedmiu tematów. W ramach zachęty badacze otrzymywali 300 dolarów za każdy pomysł oraz premię w wysokości 1000 dolarów za pięć najlepszych pomysłów.

W tym samym czasie badacze opracowali generator pomysłów, korzystając z Claude 3.5, narzędzia LLM opracowanego przez firmę Anthropic w San Francisco w Kalifornii. Naukowcy poprosili swoje narzędzie AI o znalezienie odpowiednich artykułów na siedem tematów badawczych za pośrednictwem Semantic Scholar, wyszukiwarki literatury opartej na sztucznej inteligencji. Na podstawie tych artykułów badacze poprosili swojego agenta AI o wygenerowanie 4000 pomysłów na każdy temat badawczy i ocenę najbardziej oryginalnych.

Asesorzy ludzcy

Następnie badacze losowo przydzielili pomysły stworzone przez ludzi i sztuczną inteligencję 79 recenzentom, którzy ocenili każdy pomysł pod kątem nowości, ekscytacji, wykonalności i oczekiwanej skuteczności. Aby mieć pewność, że twórcy pomysłów pozostaną nieznani recenzentom, badacze wykorzystali inny LLM do edycji obu typów tekstu, tak aby styl i ton pisania zostały ujednolicone bez zmiany samych pomysłów.

Recenzenci ocenili średnio pomysły wygenerowane przez sztuczną inteligencję jako bardziej oryginalne i ekscytujące niż te napisane przez uczestników. Jednak gdy przyjrzeli się bliżej 4000 pomysłom opracowanym przez LLM, badacze odkryli tylko około 200 naprawdę wyjątkowych, co sugeruje, że sztuczna inteligencja stawała się mniej oryginalna, im więcej generowała pomysłów.

Kiedy Si przeprowadził ankietę wśród uczestników, większość przyznała, że ​​przedstawione przez nich pomysły były jedynie przeciętne w porównaniu z pomysłami powstałymi w przeszłości.

Wyniki sugerują, że kursy LLM mogą z łatwością generować bardziej oryginalne pomysły niż istniejąca literatura, mówi Cong Lu, badacz zajmujący się uczeniem maszynowym na Uniwersytecie Kolumbii Brytyjskiej w Vancouver w Kanadzie. Otwartym pytaniem pozostaje jednak, czy uda im się przewyższyć najbardziej przełomowe ludzkie pomysły.

Innym ograniczeniem badania jest to, że porównane pomysły pisemne zostały zredagowane przez LLM, co spowodowało zmianę języka i długości zgłoszeń, mówi Jevin West, informatyk zajmujący się naukami społecznymi na Uniwersytecie Waszyngtońskim w Seattle. Dodaje, że takie zmiany mogły w subtelny sposób wpłynąć na odbiór nowości przez recenzentów. West dodaje, że stawianie badaczy przeciwko LLM, który może wygenerować tysiące pomysłów w ciągu kilku godzin, może nie być całkowicie uczciwym porównaniem. „Trzeba porównywać jabłka z jabłkami” – mówi.

Si i jego współpracownicy planują porównać pomysły generowane przez sztuczną inteligencję z wiodącymi artykułami konferencyjnymi, aby lepiej zrozumieć, w jaki sposób LLM mają się do ludzkiej kreatywności. „Próbujemy zachęcić społeczność do głębszego zastanowienia się nad tym, jak powinna wyglądać przyszłość, kiedy sztuczna inteligencja będzie mogła odgrywać bardziej aktywną rolę w procesie badawczym” – mówi.

  1. Si, C., Yang, D. i Hashimoto, T. Preprint w arXiv https://doi.org/10.48550/arXiv.2409.04109 (2024).

Pobierz referencje