‘Ik ben nog steeds een beetje boos op Angola dat het eind december 2023 zonder enige aankondiging uit de OPEC stapte”, zegt Jan Verkade. „Ik deed mee aan een vraag of er dat jaar een land de OPEC zou verlaten. Die actie heeft een deuk in mijn score geslagen.”
Verkade werkt als hydrometeoroloog bij kennisinstituut Deltares en is lid van de crisisadviesgroep rivieren bij het Watermanagementcentrum van Rijkswaterstaat. Hij houdt zich bezig met de vraag hoe de Maas en de Rijn zich de komende uren, dagen en weken gaan gedragen. In zijn vrije tijd doet hij aan forecasting. Daarvoor blikt hij in competitieverband vooruit op allerhande gebeurtenissen van totaal andere aard. Complexe en tamelijk unieke aangelegenheden wereldwijd, meestal op het gebied van geopolitiek en economie.
Hij is onderdeel van een wereldwijde online community. Forecasters – „het Nederlandse ‘voorspellers’ klinkt minder exact dan het is” – buigen zich over vragen als: zal de Europese Raad voor 1 januari 2026 Hongarije het stemrecht ontnemen? Zal SpaceX succesvol een Starship-raket lanceren voor 1 januari 2026? Hoeveel nieuwe elektrische auto’s zullen er in 2025 in China verkocht worden? Hoeveel weken zal het boek Original Sin over Joe Biden in de bestsellerlijst van The New York Times staan?
„Voor mijn baan maak ik voortdurend verwachtingen”, zegt Verkade. „Die zijn gebaseerd op heel veel data en het gaat vrij mechanisch in zijn werk. Dit is een heel andere vorm van vooruitkijken, veel subjectiever. Je zoekt informatie en moet beslissen hoe die te wegen en welke kansen je dan aan de uitkomsten hangt.”
Verkade verdiept zich graag in onderwerpen waar hij anders niet vaak bij stilstaat. „Ooit deed ik mee aan de vraag hoeveel abonnees Netflix in een bepaald jaar zou hebben, het is interessant om te bedenken van welke factoren dat allemaal afhangt. In hoeveel landen is Netflix eigenlijk actief? Is de prijs omhooggegaan? Hebben ze beleid gevoerd om deelaccounts te voorkomen?”
Forecastingcompetities komen voort uit jarenlang onderzoek van Philip Tetlock en zijn vrouw Barbara Mellers, allebei politiek psycholoog en nu verbonden aan de universiteit van Pennsylvania in de VS. Eind vorige eeuw vroegen ze zich af hoe goed de voorspellingen van ‘beroepsvoorspellers’ eigenlijk zijn. Ze vroegen 284 mensen die voor hun werk politieke en economische ontwikkelingen analyseren gedurende enkele jaren voorspellingen te doen. In het boek dat in 2005 hierover verscheen concludeerde Tetlock dat de gemiddelde expert niet beter voorspelde dan „een chimpansee die met dartpijltjes gooit”.
De oorlog in Irak
Naar aanleiding van de oorlog in Irak vanaf 2003, toen na jaren duidelijk werd dat de Amerikaanse inlichtingendiensten fout hadden gezeten met hun inschattingen over massavernietigingswapens, gingen Tetlock en Mellers onderzoek doen samen met een overheidsdienst die de kwaliteit van de inlichtingendiensten moet verbeteren. Ze organiseerden in 2011 het Good Judgement Project: een vier jaar durend geopolitiek voorspellingstoernooi waaraan teams van inlichtingenexperts en door Tetlock gerekruteerde vrijwilligers meededen.
Tetlocks team deed het 30 procent beter dan de inlichtingenteams, terwijl zijn vrijwilligers geen toegang hadden tot geheime informatie die de inlichtingendiensten wel hadden. Het hierover in 2015 verschenen boek is een standaardwerk voor de forecastingcommunity geworden: Superforecasting, the art and science of prediction. In het Nederlands is het verschenen onder de titel Supervoorspellers.

Tetlock, die het samen schreef met collega Dan Gardner maar voortdurend in de eerste persoon enkelvoud schrijft over zijn onderzoek, vond in zijn groep vrijwilligers een aantal mensen die opvallend vaak goed zaten met hun voorspelling, de supervoorspellers. „Zij hebben geen buitengewone ‘gave’, maar wel een bepaalde manier van denken, van informatie verzamelen en van het aanpassen van hun verwachtingen”, schrijft hij. Boven aan zijn rijtje tips staat dan ook: twijfel aan je intuïtie. Verder is het raadzaam om een probleem eerst van grote afstand te bekijken, behapbare deelproblemen te formuleren en jezelf te trainen om te denken in waarschijnlijkheden die fijnmaziger zijn dan ‘zeker wel’ en ‘zeker niet’.
Het Good Judgement Project bestaat nog steeds, op gjopen.com kan iedereen meedoen. Er zijn inmiddels ook andere grote platforms, zoals Metaculus. Hier gaat het om de eer, maar op sites als Kalshi en Polymarkets spelen deelnemers om geld. (Uit recent onderzoek van Tetlock en Mellers blijkt wel dat voorspellers die om het geld spelen minder goed presteren.)
Competitie, en überhaupt de beoordeling van voorspellingen, heeft randvoorwaarden nodig. Een afgebakende tijdsperiode aan een vraag hangen is één. „Een voorspelling zonder tijdsindicatie is absurd”, schrijft Tetlock in Superforecasting. „Het is dan onmogelijk te zeggen of een voorspelling goed was of ernaast zit, iets kan later alsnog gebeuren.”
Kans op een Russische inval
Ook moeten voorspellers kansen hangen aan kwalificaties. Tetlock geeft hierbij als voorbeeld een vergadering van CIA-medewerkers in de jaren 50. Toen werd gezegd dat een Russische militaire inval in Joegoeslavië een ‘serieuze mogelijkheid’ was. Maar wat betekent dat? „De een vatte de ‘serieuze mogelijkheid’ op als een kans van 65 wel, 35 niet, een ander dacht daarbij 80-20 en weer een ander 20-80. Dit schokte het toenmalige hoofd van de CIA”, schrijft Tetlock. „Wat een handige term lijkt, blijkt zo vaag dat het nutteloos is.”
Dan de score. Forecasters kunnen de verdeling van hun kansen gedurende de looptijd van een vraag aanpassen, maar hoe eerder je goed zit hoe beter de score die je krijgt als de termijn om de vraag te beantwoorden is afgelopen. Die score, waarvan de wiskunde in de jaren 50 al is uitgedacht door statisticus en meteoroloog Glenn Brier, wordt op het platform van Tetlock uitgedrukt in een getal tussen de 0 en de 2, waar 0 de score is voor de perfecte voorspelling en 2 er helemaal naast zit.
Supervoorspellers zitten volgens Tetlock langere tijd rond de 0,25 of lager. GJ Open-deelnemer Lou DeMarco is zo iemand. Na 1.308 vragen heeft DeMarco een score van 0,197. Anne-in-Alaska zit na 760 vragen op van 0,22, zij is actief in de community en geeft vaak commentaar bij de redeneringen die andere gebruikers delen. Jim Kent („boring retired professor and all-around arrogant jerk”, volgens zijn profiel) doet aan vrijwel alle vragen mee, en zit na maar liefst 3.539 vragen op een score van 0,313.
Verkade, die na 24 beantwoorde vragen een Brier-score van 0,25 heeft, doet op GJ Open op dit moment onder meer mee aan de vraag of er in 2025 een complex coordinated terrorist attack zal plaatsvinden in Europa. „Geen gezellige vraag, wel een interessante. Wat zijn hiervoor de voorspellende factoren? Over dit onderwerp zijn vast historische gegevens beschikbaar, dacht ik, en dat bleek een universiteit inderdaad online te hebben staan.” In Europa bleken er niet veel aanslagen te zijn geweest die aan de criteria voldeden, minder dan Verkade intuïtief had gedacht.
De wijsheid van de massa
„Ik heb me afgevraagd of zoiets als de NAVO-top misschien de kans zou kunnen verhogen”, zegt Verkade. „Maar elk jaar zijn er wel van die bijeenkomsten in Europa. Ik heb er in dit geval dus voor gekozen om alleen op die historische data af te gaan. Ik heb de gegevens geplot per jaar, en daar komt een kans uit voor dit jaar. Ik stel mijn antwoord af en toe bij, omdat de kans dat het dit jaar gebeurt elke maand iets afneemt.”
Ook bedrijven zien de waarde van de wijsheid van de massa. Op GJ Open heeft farmaceut Roche een (door hen betaalde) challenge lopen met een set van zes vragen over de nabije toekomst van kunstmatige intelligentie (AI) in het farmaceutische werkveld. Ze stellen vragen als: zal de Amerikaanse Food and Drug Administration tussen 2 juni en 30 september met nieuwe richtlijnen komen voor het gebruik van AI bij het analyseren van klinische testen? Welke van de vier farmaceuten met het grootste onderzoeksbudget zal voor 1 oktober de overname aankondigen van een AI-start-up voor geneesmiddelenontwikkeling?
Het ligt voor de hand dat Roche een kijkje in de toekomst wil hebben, want de ontwikkeling van geneesmiddelen verandert door AI revolutionair en dat heeft grote invloed op hun bedrijfsvoering. Geldt dat niet ook voor het forecasten zelf? AI blinkt immers uit in statistiek en het zien van patronen.
Die vraag stelde Tetlock in 2015 al. „Maar het gaat uiteindelijk om subjectieve dingen: mensen denken en nemen een besluit”, schrijft hij. „Statistiek is vaak wel een betere voorspeller dan een expert, maar de vraagstukken die voorgelegd worden zijn niet helemaal statistisch van aard. Ze gaan niet over vastomlijnde patronen. Inschatten en afwegen is niet waar AI goed in is.”
Voorspellers doen wel betere voorspellingen als zij zich laten assisteren door AI, blijkt uit een onderzoek van Tetlock dat afgelopen februari verscheen. Een superforecasting AI-assistent verhoogde de nauwkeurigheid van voorspellingen met maar liefst 40 procent. Of het de diversiteit van voorspellingen vermindert en of het minder bekwame voorspellers of juist bekwame voorspellers meer voordeel biedt blijft nog onduidelijk.
Verkade is ondertussen zo enthousiast dat hij binnen Deltares en Rijkswaterstaat een eigen competitie is begonnen. „Twee jaar geleden ben ik begonnen met het stellen van dit type vragen over ons vakgebied binnen onze crisisadviesgroep waarbij de antwoorden in kansen gegeven moesten worden. Als er een hoogwatergolf op de Rijn of de Maas aankwam, dan vroeg ik bijvoorbeeld wanneer de piek zou komen en hoe hoog die zou zijn. De winnaar kreeg een fles wijn. Dat sloeg aan, dus zijn we het vaker gaan doen.”
Dit jaar heeft hij het enigszins geformaliseerd, door het softwareplatform van GJ Open te gaan gebruiken. „Ik ben nu aan het testen of dat goed gaat”, zegt Verkade. „Rijkswaterstaat moedigt mijn initiatief aan, omdat deze manier van denken goed is voor de organisatie. Het dwingt deelnemers om buiten onze normale systemen en gegevens voor verwachtingen te denken. Het is zinvol om verder vooruit te kijken dan we normaal doen, ons te verdiepen in langdurige laag- of hoogwaterstatistieken en te kijken welke voorspellende factoren er misschien zijn. Dat levert nieuwe kennis op. En het is ook gewoon leuk om dit met collega’s te doen.”
