Etter at Google DeepMind beseiret mennesker i alt, fra Spill Gå til strategi-brettspill,
den hevder nå å være på nippet til å slå verdens beste elever til å løse matematikkoppgaver.

Den London-baserte Maskinlæring Selskapet kunngjorde 25. juli at deres kunstig intelligens (AI)-systemer løste fire av de seks problemene som ble gitt til studenter ved 2024 International Mathematical Olympiad (IMO) i Bath, Storbritannia. AI leverte strenge, trinnvise bevis evaluert av to beste matematikere og oppnådde en poengsum på 28/42 - bare ett poeng utenfor gullmedaljeterritoriet.

"Det er åpenbart et veldig betydelig fremskritt," sier Joseph Myers, en matematiker fra Cambridge, Storbritannia, som sammen med Fields-medaljevinneren Tim Gowers gjennomgikk løsningene og hjalp til med å velge de originale problemene for årets IMO.

DeepMind og andre selskaper er i kappløpet om å gi maskiner bevis som betyr noe Løse forskningsspørsmål i matematikk. Problemene som presenteres på IMO, verdens ledende konkurranse for unge matematikere, har blitt en målestokk for fremgang mot dette målet og anses som en "stor utfordring" for maskinlæring, sa selskapet.

"Dette er første gang et AI-system har oppnådd ytelse på medaljenivå," sa Pushmeet Kohli, visepresident for AI i vitenskap ved DeepMind, i en pressebriefing. "Dette er en viktig milepæl i å bygge avanserte bevisetterforskere," sa Kohli.

Forlengelse

For bare noen måneder siden, i januar, kom DeepMind-systemet Prestasjoner på AlphaGeometry-medaljenivå oppnådd ved å løse en type IMO-problemer, nemlig de i euklidisk geometri. Den første AI-en som presterte på gullmedaljenivå på den samlede testen – inkludert spørsmål i algebra, kombinatorikk og tallteori, generelt sett på som mer utfordrende enn geometri – vil være kvalifisert til å motta en premie på $5 millioner, AI Mathematics Olympiad Prize (AIMO). (Prisen har strenge kriterier som å avsløre kildekode og arbeide med begrenset datakraft, noe som betyr at DeepMinds nåværende innsats ikke vil kvalifisere.)

I sitt siste forsøk brukte forskerne AlphaGeometry2 for å løse geometriproblemet på under 20 sekunder; AI er en forbedret og raskere versjon av platesystemet deres, sier DeepMind-dataspesialisten Thang Luong.

For de andre spørsmålstypene utviklet teamet et helt nytt system kalt AlphaProof. AlphaProof løste to algebraoppgaver i konkurransen og ett i tallteori, som tok tre dager. (Deltakere i selve IMO har to økter på 4,5 timer hver.) Det var ikke i stand til å løse de to problemene i kombinatorikk, et annet område av matematikk.


Nahaufnahme einer Goldmedaille, gewonnen bei der 63. Internationalen Mathematik-Olympiade von einem rumänischen Teilnehmer.

Forskere har hatt blandede resultater når de svarer på matematiske spørsmål ved hjelp av språkmodeller - den typen systemer som driver chatboter som ChatGPT. Noen ganger gir modellene det riktige svaret, men kan ikke forklare resonnementet rasjonelt, og noen ganger de spruter tull.

Bare forrige uke brukte et team av forskere fra programvareselskapene Numina og HuggingFace en språkmodell for å vinne en mellomliggende AMIO 'fremdriftspris' basert på forenklede versjoner av IMO-problemer. Selskapene har gjort hele systemene sine åpen kildekode og gjort dem tilgjengelige for andre forskere å laste ned. Men vinnerne saNatur, at språkmodeller alene sannsynligvis ikke ville være nok til å løse vanskeligere problemer.

Bare klasse

AlphaProof kombinerer en språkmodell med forsterkende læringsteknologi som bruker "AlphaZero"-motoren som selskapet har brukt til angrepsspill som Go og noen spesifikke matematiske problemer brukt. I forsterkningslæring lærer et nevralt nettverk gjennom prøving og feiling. Dette fungerer bra når svarene hans kan evalueres ved hjelp av en objektiv standard. For dette formål ble AlphaProof opplært til å lese og skrive korrektur på et formelt språk kalt Lean, som brukes i programvarepakken 'Proof Assistant' med samme navn som er populær blant matematikere. For å gjøre dette testet AlphaProof om utdataene var riktige ved å kjøre dem i Lean-pakken, som hjalp til med å fylle ut noen av trinnene i koden.

Trening av en språkmodell krever enorme mengder data, men lite matematiske bevis var tilgjengelig i Lean. For å overvinne dette problemet utviklet teamet et ekstra nettverk som forsøkte å oversette en eksisterende oversikt over en million problemer skrevet på naturlig språk, men uten menneskeskrevne løsninger, til Lean, sier Thomas Hubert, en DeepMind-maskinlæringsforsker som var med og ledet utviklingen av AlphaProof. "Vår tilnærming var, kan vi lære å bevise selv om vi ikke opprinnelig trente på menneskeskrevne bevis?" (Selskapet tok en lignende tilnærming til Go, der AI lærte å spille spillet ved å spille mot seg selv i stedet for måten mennesker gjør det på.)

Magiske nøkler

Mange av Lean-oversettelsene ga ikke mening, men nok var gode nok til å få AlphaProof til et punkt hvor den kunne starte sine forsterkende læringssykluser. Resultatene var mye bedre enn forventet, sa Gowers på pressekonferansen. "Mange problemer ved IMO har denne magiske nøkkelegenskapen. Problemet ser hardt ut til å begynne med til du finner en magisk nøkkel som åpner den," sa Gowers, som jobber ved Collège de France i Paris.

I noen tilfeller så det ut til at AlphaProof kunne gi det ekstra trinnet med kreativitet ved å gi ett riktig trinn fra en uendelig stor mulig løsning. Men ytterligere analyse er nødvendig for å avgjøre om svarene var mindre overraskende enn de virket, la Gowers til. En lignende diskurs dukket opp etter den overraskende "Tog 37", DeepMinds AlphaGo-boten på sin berømt seier i 2016 over verdens beste menneskelige Go-spiller laget – et vendepunkt for AI.

Hvorvidt teknikkene kan perfeksjoneres for å fungere på forskningsnivå i matematikk gjenstår å se, sa Myers på pressekonferansen. "Kan det utvides til andre typer matematikk som kanskje ikke har millioner av problemer trent på?"

"Vi er på det punktet hvor de kan bevise ikke bare åpne forskningsproblemer, men også problemer som er svært utfordrende for de aller beste unge matematikerne i verden," sa DeepMind-dataspesialisten David Silver, som var hovedforskeren som utviklet AlphaGo på midten av 2010-tallet.