Efter Google DeepMind besejrede mennesker i alt, fra Spil Gå til strategibrætspil,
det hævder nu at være på nippet til at slå verdens bedste elever til at løse matematiske problemer.

Den London-baserede Maskinlæring Virksomheden annoncerede den 25. juli, at dets systemer med kunstig intelligens (AI) løste fire af de seks problemer, der blev givet til studerende ved 2024 International Mathematical Olympiade (IMO) i Bath, Storbritannien. AI leverede strenge, trinvise beviser evalueret af to topmatematikere og opnåede en score på 28/42 - kun et point ud af guldmedaljeområdet.

"Det er naturligvis et meget betydeligt fremskridt," siger Joseph Myers, en matematiker fra Cambridge, Storbritannien, som sammen med Fields-medaljevinderen Tim Gowers gennemgik løsningerne og hjalp med at udvælge de originale problemer til dette års IMO.

DeepMind og andre virksomheder er i kapløbet om i sidste ende at give maskiner beviser, der betyder noget Løs forskningsspørgsmål i matematik. De problemer, der præsenteres på IMO, verdens førende konkurrence for unge matematikere, er blevet et benchmark for fremskridt mod dette mål og betragtes som en "stor udfordring" for maskinlæring, sagde virksomheden.

"Dette er første gang, et AI-system har opnået præstationer på medaljeniveau," sagde Pushmeet Kohli, vicepræsident for AI i videnskab hos DeepMind, i en pressebriefing. "Dette er en vigtig milepæl i opbygningen af ​​avancerede bevisefterforskere," sagde Kohli.

Forlængelse

For blot et par måneder siden, i januar, kom DeepMind-systemet Præstationer på AlphaGeometry-medaljeniveau opnået ved at løse én type IMO-problemer, nemlig dem i euklidisk geometri. Den første AI, der præsterer på guldmedaljeniveau i den overordnede test - inklusive spørgsmål i algebra, kombinatorik og talteori, der generelt anses for mere udfordrende end geometri - vil være berettiget til at modtage en præmie på $5 millioner, AI Mathematics Olympiad Prize (AIMO). (Prisen har strenge kriterier såsom at afsløre kildekode og arbejde med begrænset computerkraft, hvilket betyder, at DeepMinds nuværende indsats ikke ville kvalificere sig.)

I deres seneste forsøg brugte forskerne AlphaGeometry2 til at løse geometriproblemet på under 20 sekunder; AI er en forbedret og hurtigere version af deres journalsystem, siger DeepMind computerspecialist Thang Luong.

Til de andre typer spørgsmål udviklede teamet et helt nyt system kaldet AlphaProof. AlphaProof løste to algebraopgaver i konkurrencen og et i talteori, som tog tre dage. (Deltagere i selve IMO har to sessioner på 4,5 timer hver.) Det var ude af stand til at løse de to problemer i kombinatorik, et andet område af matematik.


Nahaufnahme einer Goldmedaille, gewonnen bei der 63. Internationalen Mathematik-Olympiade von einem rumänischen Teilnehmer.

Forskere har haft blandede resultater, når de besvarede matematiske spørgsmål ved hjælp af sprogmodeller - den slags systemer, der driver chatbots som ChatGPT. Nogle gange giver modellerne det rigtige svar, men kan ikke forklare deres ræsonnement rationelt, og nogle gange de udstøder nonsens.

I sidste uge brugte et team af forskere fra softwarevirksomhederne Numina og HuggingFace en sprogmodel til at vinde en mellemliggende AMIO 'fremskridtspris' baseret på forenklede versioner af IMO-problemer. Virksomhederne har gjort hele deres systemer til open source og gjort dem tilgængelige for andre forskere at downloade. Men vinderne sagdeNatur, at sprogmodeller alene nok ikke ville være nok til at løse sværere problemer.

Kun klasse

AlphaProof kombinerer en sprogmodel med forstærkningslæringsteknologi, der bruger "AlphaZero"-motoren, som virksomheden med succes har brugt til angrebsspil som Go og nogle specifikke matematiske problemer brugt. I forstærkningslæring lærer et neuralt netværk gennem forsøg og fejl. Dette fungerer godt, når hans svar kan evalueres ved hjælp af en objektiv standard. Til dette formål blev AlphaProof uddannet til at læse og skrive korrektur på et formelt sprog kaldet Lean, som bruges i softwarepakken 'Proof Assistant' af samme navn, som er populær blandt matematikere. For at gøre dette testede AlphaProof, om dets output var korrekte ved at køre dem i Lean-pakken, som hjalp med at udfylde nogle af trinene i koden.

Træning af en sprogmodel kræver enorme mængder data, men der var kun få matematiske beviser i Lean. For at overvinde dette problem udviklede holdet et ekstra netværk, der forsøgte at oversætte en eksisterende registrering af en million problemer skrevet i naturligt sprog, men uden menneskeskrevne løsninger, til Lean, siger Thomas Hubert, en DeepMind-maskinlæringsforsker, der var med til at lede udviklingen af ​​AlphaProof. "Vores tilgang var, kan vi lære at bevise, selvom vi ikke oprindeligt trænede på menneskeskrevne beviser?" (Virksomheden tog en lignende tilgang til Go, hvor dens AI lærte at spille spillet ved at spille mod sig selv snarere end fra den måde, mennesker gør det på.)

Magiske nøgler

Mange af Lean-oversættelserne gav ikke mening, men nok var gode nok til at få AlphaProof til det punkt, hvor det kunne starte sine forstærkende læringscyklusser. Resultaterne var meget bedre end forventet, sagde Gowers på pressemødet. "Mange problemer hos IMO har denne magiske nøgleegenskab. Problemet ser hårdt ud i starten, indtil du finder en magisk nøgle, der åbner den," sagde Gowers, der arbejder på Collège de France i Paris.

I nogle tilfælde syntes AlphaProof at være i stand til at give det ekstra skridt af kreativitet ved at give et korrekt skridt fra en uendelig stor mulig løsning. Men yderligere analyse er nødvendig for at afgøre, om svarene var mindre overraskende, end de så ud til, tilføjede Gowers. En lignende diskurs dukkede op efter den overraskende 'Tog 37', DeepMinds AlphaGo-bot hos sin berømt sejr i 2016 over verdens bedste menneskelige Go-spiller lavet – et vendepunkt for AI.

Hvorvidt teknikkerne kan perfektioneres til at fungere på forskningsniveau i matematik, er endnu uvist, sagde Myers på pressemødet. "Kan det udvides til andre typer matematik, som måske ikke har millioner af problemer trænet på?"

"Vi er på det punkt, hvor de ikke kun kan bevise åbne forskningsproblemer, men også problemer, der er meget udfordrende for de allerbedste unge matematikere i verden," sagde DeepMind computerspecialist David Silver, som var den førende forsker, der udviklede AlphaGo i midten af ​​2010'erne.