Enorme databases zetten wiskundigen op het pad naar een bewijs

Wie met een munt werpt, kan de uitkomst niet voorspellen. Er is echter de wet van grote aantallen: bij een groot aantal worpen zullen de aantallen ‘kop’ en ‘munt’ elkaar niet veel ontlopen. In de getaltheorie gaan typische problemen over het gedrag van priemgetallen of de oplosbaarheid van vergelijkingen. Met munten of dobbelstenen heeft dat niets te maken, maar wie vraagt hoe váák iets gebeurt, ziet direct de analogie.

Peter Stevenhagen is hoogleraar getaltheorie aan de Universiteit Leiden en bekleedde de eerste helft van dit jaar een prestigieuze wisselleerstoel op het Centre International de Rencontres Mathématiques in Luminy, nabij Marseille. In zijn semester over het ‘ontdekken en bewijzen van toeval in de getaltheorie’ kwamen tachtig promovendi uit de hele wereld naar een Spring School en was er een groot congres met de helden uit het vak.

Tijdens een Zoomgesprek vanuit Zagreb – waar vakgenoten elkaar hebben bijgepraat bij een conferentie over de nieuwste ontwikkelingen – merkt Stevenhagen meteen op dat het tegenstrijdig klinkt: je wilt ‘willekeurig gedrag’ bewijzen van dingen die helemaal niet toevallig zijn. Priemgetallen zijn immers keurig vastgelegd als getallen die alleen deelbaar zijn door 1 en zichzelf.

Corresponderende emmertjes

Vragen van statistische aard zijn er echter in overvloed. Bijvoorbeeld: komen de eindcijfers 1, 3, 7 en 9 van priemgetallen even vaak voor? Wie alle priemgetallen tussen 10 en 10.000 in vier corresponderende emmertjes gooit, ziet dat die even vol raken: elk emmertje krijgt tussen de 24,9 procent en 25,1 procent. Zal de verdeling uiteindelijk keurig viermaal 25 procent worden, naarmate we steeds meer priemgetallen in de emmertjes gooien?

Daar lijkt het sterk op, maar toch kun je die uitspraak niet zomaar als stelling formuleren. Waarom zouden priemgetallen van meer dan een miljard cijfers niet de wonderlijke eigenschap kunnen hebben dat ze heel vaak op een 7 eindigen? Stevenhagen: „Dat verwacht natuurlijk niemand, maar toch: gelijkverdeling voor de eerste zoveel priemgetallen geeft je geen enkele clue hoe je dit kunt bewijzen voor álle priemgetallen.”

Peter Stevenhagen, hoogleraar getaltheorie aan de Universiteit Leiden.

Foto’s: Andreas Terlaak

In de negentiende eeuw gaf Johann Dirichlet hiervan als eerste een streng wiskundig bewijs. Daarvoor moest hij wel de wiskundige gereedschapskist uitbreiden met zogenaamde ‘L-functies’, die met priemgetallen niet direct iets te maken lijken te hebben.

Een ander getaltheoretisch probleem van statistische aard gaat over gemeenschappelijke delers. In zijn college voor eerstejaarsstudenten geeft Stevenhagen de opdracht om twee random getallen te kiezen van veel cijfers, en daarvan de grootste gemeenschappelijke deler te berekenen. De vraag is dan: hoeveel studenten krijgen het antwoord 1? „Als de groep studenten groot genoeg is, zie je dat dat bij zo’n 60 procent het geval is”, vertelt hij. „Dat strookt precies met de theorie, want een bekende stelling zegt dat die fractie zes gedeeld door pi kwadraat is.”

Beroemde laatste stelling

Sinds Dirichlet is nog veel meer gereedschap ontwikkeld om getaltheoretische vragen te beantwoorden. ‘Getallenringen’ en ‘modulaire vormen’ werden kernbegrippen in wat ‘algebraïsche getaltheorie’ ging heten. Bij een getallenring gaat het om een uitbreiding van de ‘gewone’ gehele getallen – zo’n ring kan ook getallen als de wortel uit -5 of de derdemachtswortel van 2 bevatten. Modulaire vormen zijn speciale functies met symmetrie-eigenschappen; ze speelden dertig jaar geleden een hoofdrol in het bewijs van de beroemde laatste stelling van Fermat, over de vergelijking xn + yn = zn.

Van de zeven millenniumproblemen – de grootste onopgeloste problemen in de wiskunde – zijn er twee die over L-functies gaan: de Riemannhypothese en het vermoeden van Birch en Swinnerton-Dyer. Een miljoen dollar wacht op de persoon die zo’n probleem oplost.


Lees ook
Hoe toevallig is de verdeling van priemgetallen?

Hoe groot zijn de afwijkingen van de Gauss-voorspelling van de verdeling van priemgetallen? Volgens Riemann is het priemgetallencasino eerlijk, mits de ‘nulpunten van de zetafunctie’ op een rechte lijn liggen.

Voor buitenstaanders is het raadselachtig dat voor simpele vragen over gehele getallen zulke abstracte tools uit de kast moeten worden gehaald. Stevenhagen vindt het juist leuk: „In concrete toepassingen ligt hun rechtvaardiging.” Een uitleg zonder jargon is echter niet gemakkelijk.

Stevenhagen: „Iedere vergelijking, zoals de Fermatvergelijking, bekijk je in een bijbehorende getallenring. Die heeft een ‘klassengetal’, een maat voor hoe ingewikkeld die getallenring is.” Zonder in te gaan op de precieze definitie, geeft hij weer een voorbeeld uit zijn lespraktijk. „Als ik studenten zo’n klassengetal laat uitrekenen – iedereen een andere – hoeveel zullen dan 1 vinden? Dat is typisch een vraag uit de aritmetische statistiek.”

Aritmetische objecten

Door de komst van computer­algebra­systemen, vanaf de jaren tachtig, kreeg het vakgebied een enorme boost. Het met de hand berekenen van klassengetallen is best een klus, maar door computeralgebra en steeds slimmere methodes kwamen grote hoeveelheden data beschikbaar. Dat opende een nieuwe wereld. Stevenhagen: „Het werd mogelijk structuren te ontdekken die met het blote oog niet waarneembaar zijn.” Het begrip ‘aritmetische statistiek’ bestaat nog niet zo lang. In 2013 werd het in het Bulletin van de American Mathematical Society nog een neologisme genoemd.

Stevenhagens collega Hendrik Lenstra, inmiddels emeritus hoogleraar in Leiden, ontdekte met zijn Franse vakgenoot Henri Cohen meer ‘structureel toeval’ dan in het pre-computertijdperk zichtbaar was. In een beroemd artikel uit 1984 gaven zij heuristieken om experimentele observaties over klassengetallen te verklaren. Zo’n heuristiek doet op grond van onbewezen aannamen exacte uitspraken die vaak in overeenstemming zijn met alle beschikbare data. Dat maakt ze heel overtuigend, maar ieder bewijs ontbreekt.

Dat zijn geen berekeningen die ik zelf even snel programmeerPeter Stevenhagen wiskundige

Aangespoord door het werk van Cohen en Lenstra verzamelden wiskundigen data met betrekking tot allerlei aritmetische objecten, die leidden tot diverse nog onbewezen uitspraken. Stevenhagen was een van hen; hij formuleerde in 1993 een statistisch vermoeden over de oplosbaarheid van de ‘negatieve Pell-vergelijking’ (zie de inzet onder dit verhaal).

Inmiddels zijn we in een tijd aangekomen waarin wiskundigen databases aanleggen waarin exotische objecten als ‘getallenlichamen’ en ‘abelse variëteiten’ op doorzoekbare wijze bij elkaar staan. Enorm handig voor veel onderzoekers, omdat de vragen in de loop van de tijd steeds complexer zijn geworden. In 2016 werd de L-functions and Modular Forms Database (LMFDB) gelanceerd, die data van tientallen miljoenen objecten bevat. Deze online catalogus maakt het voor wiskundigen makkelijker om patronen te ontdekken, vermoedens te testen, of om te leren hoe objecten aan elkaar gerelateerd zijn.

LMFDB heeft duizenden gebruikers, onder wie Stevenhagen: „Die database is een tool voor mensen zoals ik die zich met dingen als elliptische krommen bezig houden. Ik haal er antwoorden uit die zijn gebaseerd op berekeningen die anderen hebben gedaan en in die database hebben gezet. Dat zijn geen berekeningen die ik zelf even snel programmeer op een zondagmiddag.” Maar, voegt hij er nadrukkelijk aan toe: „Databases leveren geen bewijzen. Ze wijzen je op structuren die je niet direct had vermoed, maar de mens moet de vermoedens bewijzen, alle kunstmatige intelligentie ten spijt. Die database staat vol met vogels van heel verschillende pluimage, dus vragen van het type ‘bestaat er een object dat aan voorwaarden A, B en C voldoet?’ kun je vaak wél makkelijk beantwoorden als het antwoord ja is. Maar als de vogel waarnaar je vraagt er niet in staat, sta je met lege handen.”