Ein von künstlicher Intelligenz (KI) angetriebenes Ideen-Generator-System hat in einem aktuellen Preprint auf arXiv mehr originelle Forschungsansätze entwickelt als 50 Wissenschaftler, die unabhängig voneinander arbeiteten1.
Die von Menschen und von KI generierten Ideen wurden von Gutachtern bewertet, die nicht wussten, wer oder was jede Idee erstellt hat. Die Gutachter bewerteten die KI-generierten Konzepte als aufregender im Vergleich zu den von Menschen verfassten Ideen, obwohl die Vorschläge der KI in Bezug auf die Umsetzbarkeit etwas schlechter abschneiden.
Die Wissenschaftler weisen jedoch darauf hin, dass die Studie, die bislang nicht peer-reviewed ist, Einschränkungen aufweist. Sie konzentrierte sich auf einen bestimmten Forschungsbereich und erforderte von den menschlichen Teilnehmern, dass sie die Ideen spontan entwickeln, was wahrscheinlich ihre Fähigkeit, die besten Konzepte zu produzieren, beeinträchtigte.
Künstliche Intelligenz in der Wissenschaft
Es gibt steigende Bestrebungen, zu untersuchen, wie große Sprachmodelle (LLMs) zur Automatisierung von Forschungsaufgaben wie dem Verfassen von Artikeln, Generieren von Code und Literaturrecherche genutzt werden können. Es war jedoch schwierig zu beurteilen, ob diese KI-Tools frische Forschungsansätze auf ähnlichem Niveau wie Menschen generieren können. Das liegt daran, dass die Bewertung von Ideen sehr subjektiv ist und Spezialisten erfordert, die in der Lage sind, diese sorgfältig zu bewerten, sagt Chenglei Si, Mitautor der Studie und Informatiker an der Stanford University in Kalifornien. „Der beste Weg, um solche Fähigkeiten zu kontextualisieren, besteht darin, einen direkten Vergleich anzustellen“, so Si.
Das einjährige Projekt ist eines der größten Vorhaben zur Bewertung, ob große Sprachmodelle – die Technologie hinter Werkzeugen wie ChatGPT – innovative Forschungsansätze hervorbringen können, erklärt Tom Hope, Informatiker am Allen Institute for AI in Jerusalem. „Es muss mehr solche Arbeiten geben“, sagt er.
Das Team rekrutierte mehr als 100 Forscher im Bereich der natürlichen Sprachverarbeitung, einem Teilgebiet der Informatik, das sich mit der Kommunikation zwischen KI und Menschen beschäftigt. Neunundvierzig Teilnehmer wurden beauftragt, Ideen zu entwickeln und innerhalb von zehn Tagen zu formulieren, basierend auf einem von sieben Themen. Als Anreiz erhielten die Forscher 300 US-Dollar für jede Idee, mit einem Bonus von 1.000 US-Dollar für die fünf besten Ideen.
Gleichzeitig entwickelten die Forscher einen Ideen-Generator mit Claude 3.5, einem LLM, das von Anthropic in San Francisco, Kalifornien, entwickelt wurde. Die Forscher forderten ihr KI-Tool auf, über Semantic Scholar, eine KI-gestützte Literatur-Suchmaschine, relevante Artikel zu den sieben Forschungsthemen zu finden. Auf Grundlage dieser Artikel forderten die Forscher ihren KI-Agenten auf, 4.000 Ideen zu jedem Forschungsthema zu generieren und die originellsten zu bewerten.
Menschliche Gutachter
Anschließend wiesen die Forscher die menschlichen und die KI-generierten Ideen zufällig 79 Gutachtern zu, die jede Idee hinsichtlich Neuheit, Spannung, Machbarkeit und erwarteter Effektivität bewerteten. Um sicherzustellen, dass die Schöpfer der Ideen den Gutachtern unbekannt blieben, verwendeten die Forscher ein weiteres LLM, um beide Texttypen zu bearbeiten, sodass der Schreibstil und der Ton standardisiert wurden, ohne die Ideen selbst zu verändern.
Im Durchschnitt bewerteten die Gutachter die KI-generierten Ideen als origineller und spannender als die von menschlichen Teilnehmern verfassten. Bei einer genaueren Betrachtung der 4.000 von LLM produzierten Ideen fanden die Forscher jedoch nur etwa 200, die wirklich einzigartig waren, was darauf hindeutet, dass die KI weniger originell wurde, je mehr Ideen sie generierte.
Als Si die Teilnehmer befragte, gaben die meisten zu, dass ihre eingereichten Ideen im Vergleich zu den in der Vergangenheit produzierten Ideen nur durchschnittlich waren.
Die Ergebnisse deuten darauf hin, dass LLMs möglicherweise leicht originellere Ideen als die bereits bestehende Literatur generieren können, sagt Cong Lu, Forscher für maschinelles Lernen an der University of British Columbia in Vancouver, Kanada. Ob sie die bahnbrechendsten menschlichen Ideen übertreffen können, bleibt jedoch eine offene Frage.
Eine weitere Einschränkung der Studie besteht darin, dass die verglichenen schriftlichen Ideen von einem LLM bearbeitet wurden, was die Sprache und Länge der Einreichungen veränderte, sagt Jevin West, sozialwissenschaftlicher Informatiker an der University of Washington in Seattle. Solche Änderungen könnten subtil beeinflusst haben, wie die Gutachter die Neuheit wahrnahmen, ergänzt er. West fügt hinzu, dass es möglicherweise keinen völlig fairen Vergleich darstellt, Forscher gegen ein LLM antreten zu lassen, das in wenigen Stunden Tausende von Ideen generieren kann. „Man muss Äpfel mit Äpfeln vergleichen“, sagt er.
Si und seine Kollegen planen, KI-generierte Ideen mit führenden Konferenzbeiträgen zu vergleichen, um ein besseres Verständnis dafür zu erhalten, wie LLMs im Vergleich zur menschlichen Kreativität abschneiden. „Wir versuchen, die Gemeinschaft dazu anzuregen, intensiver darüber nachzudenken, wie die Zukunft aussehen sollte, wenn KI eine aktivere Rolle im Forschungsprozess übernehmen kann“, sagt er.
-
Si, C., Yang, D. & Hashimoto, T. Preprint bei arXiv https://doi.org/10.48550/arXiv.2409.04109 (2024).