Poté, co Google DeepMind porazil lidi ve všem, od Zahrajte si strategické deskové hry Go to,
nyní tvrdí, že je na pokraji překonání nejlepších světových studentů v řešení matematických problémů.

Sídlo v Londýně Strojové učení Společnost 25. července oznámila, že její systémy umělé inteligence (AI) vyřešily čtyři ze šesti problémů, které dostali studenti na Mezinárodní matematické olympiádě (IMO) v roce 2024 v Bath ve Spojeném království. Umělá inteligence poskytla přesné důkazy krok za krokem hodnocené dvěma špičkovými matematiky a dosáhla skóre 28/42 – jen jeden bod z území pro zlatou medaili.

„Je to zjevně velmi významný pokrok,“ říká Joseph Myers, matematik z Cambridge ve Spojeném království, který spolu s Fieldsovým medailistou Timem Gowersem zhodnotil řešení a pomohl vybrat původní problémy pro letošní IMO.

DeepMind a další společnosti se předhánějí v tom, kdo nakonec poskytne strojům důkazy, na kterých záleží Řešit výzkumné otázky v matematice. Problémy prezentované na IMO, přední světové soutěži pro mladé matematiky, se staly měřítkem pokroku směrem k tomuto cíli a jsou považovány za „velkou výzvu“ pro strojové učení, uvedla společnost.

„Je to poprvé, co systém umělé inteligence dosáhl výkonu na medailové úrovni,“ řekl na tiskové konferenci Pushmeet Kohli, viceprezident pro umělou inteligenci ve společnosti DeepMind. "Toto je důležitý milník při budování pokročilých vyšetřovatelů důkazů," řekl Kohli.

Rozšíření

Jen před pár měsíci, v lednu, systém DeepMind Úspěchy na medailové úrovni AlphaGeometry dosažené při řešení jednoho typu problémů IMO, konkrétně těch v euklidovské geometrii. První umělá inteligence, která dosáhne úrovně zlaté medaile v celkovém testu – včetně otázek z algebry, kombinatoriky a teorie čísel, které jsou obecně považovány za náročnější než geometrie – bude mít nárok na cenu 5 milionů dolarů, cenu AI ​​Mathematics Olympiad Prize (AIMO). (Ocenění má přísná kritéria, jako je zveřejnění zdrojového kódu a práce s omezeným výpočetním výkonem, což znamená, že současné úsilí DeepMind by se nekvalifikovalo.)

Ve svém posledním pokusu výzkumníci použili AlphaGeometry2 k vyřešení problému geometrie za méně než 20 sekund; AI ​​je vylepšená a rychlejší verze jejich záznamového systému, říká počítačový specialista DeepMind Thang Luong.

Pro ostatní typy otázek tým vyvinul zcela nový systém nazvaný AlphaProof. AlphaProof vyřešil v soutěži dva problémy z algebry a jeden v teorii čísel, což trvalo tři dny. (Účastníci skutečné IMO mají dvě sezení po 4,5 hodiny.) Nebylo možné vyřešit dva problémy v kombinatorice, další oblasti matematiky.


Nahaufnahme einer Goldmedaille, gewonnen bei der 63. Internationalen Mathematik-Olympiade von einem rumänischen Teilnehmer.

Výzkumníci měli smíšené výsledky, když odpovídali na matematické otázky pomocí jazykových modelů – takových systémů, které pohánějí chatboty, jako je ChatGPT. Někdy modely dají správnou odpověď, ale nedokážou racionálně vysvětlit své úvahy, a někdy chrlí nesmysly.

Zrovna minulý týden použil tým výzkumníků ze softwarových společností Numina a HuggingFace jazykový model, aby vyhrál střední „cenu za pokrok“ AMIO založenou na zjednodušených verzích problémů IMO. Společnosti učinily celé své systémy open source a zpřístupnily je dalším výzkumníkům ke stažení. Ale řekli vítězovéPříroda, že samotné jazykové modely by na řešení složitějších problémů pravděpodobně nestačily.

Pouze třída

AlphaProof kombinuje jazykový model s výukovou technologií, která využívá engine „AlphaZero“, který společnost úspěšně použila pro útočné hry, jako jsou Go a některé další. konkrétní matematické problémy použitý. Při posilovacím učení se neuronová síť učí metodou pokusů a omylů. To funguje dobře, když lze jeho odpovědi vyhodnotit pomocí objektivního standardu. Za tímto účelem byl AlphaProof vyškolen ke čtení a psaní důkazů ve formálním jazyce zvaném Lean, který se používá ve stejnojmenném softwarovém balíku „Proof Assistant“ oblíbeném mezi matematiky. Za tímto účelem AlphaProof otestoval, zda jsou jeho výstupy správné, spuštěním v balíčku Lean, což pomohlo vyplnit některé kroky v kódu.

Trénink jazykového modelu vyžaduje obrovské množství dat, přesto bylo v Lean k dispozici jen málo matematických důkazů. K překonání tohoto problému tým vyvinul další síť, která se pokusila přeložit existující záznam milionu problémů napsaných v přirozeném jazyce, ale bez řešení napsaných člověkem, do Lean, říká Thomas Hubert, výzkumník strojového učení DeepMind, který spoluvedl vývoj AlphaProof. "Náš přístup byl, můžeme se naučit dokazovat, i když jsme původně necvičili na lidsky psaných důkazech?" (Společnost zvolila podobný přístup jako Go, kde se její umělá inteligence naučila hrát hru tak, že hrála sama proti sobě, nikoli podle toho, jak to dělají lidé.)

Magické klíče

Mnoho z Lean překladů nedávalo smysl, ale dost bylo dost dobrých na to, aby dostal AlphaProof do bodu, kdy mohl začít své cykly posilování. Výsledky byly mnohem lepší, než se očekávalo, řekl Gowers na tiskové konferenci. "Mnoho problémů v IMO má tuto vlastnost magického klíče. Problém se zpočátku zdá těžký, dokud nenajdete magický klíč, který jej otevře," řekl Gowers, který pracuje na Collège de France v Paříži.

V některých případech se zdálo, že AlphaProof dokáže poskytnout další krok kreativity tím, že poskytne jeden správný krok z nekonečně velkého možného řešení. Ale je potřeba další analýza, aby se zjistilo, zda byly odpovědi méně překvapivé, než se zdálo, dodal Gowers. Podobný diskurs se objevil po tom překvapivém 'Vlak 37', DeepMinds AlphaGo bot u jeho slavné vítězství v roce 2016 nad nejlepším světovým hráčem Go made – zlomový bod pro AI.

Zda lze techniky zdokonalit tak, aby fungovaly na úrovni výzkumu v matematice, se teprve uvidí, řekl Myers na tiskové konferenci. "Může se rozšířit na další typy matematiky, které nemusí obsahovat miliony problémů?"

"Jsme v bodě, kdy mohou prokázat nejen otevřené výzkumné problémy, ale také problémy, které jsou velmi náročné pro ty nejlepší mladé matematiky na světě," řekl počítačový specialista DeepMind David Silver, který byl v polovině roku 2010 hlavním výzkumníkem vyvíjejícím AlphaGo.