Verkeerd begrip van statistiek leidt tot foute wetenschap. De p-waarde is dood. Leve de e-waarde!

Rianne de Heide is statisticus aan de Vrije Universiteit Amsterdam. Terwijl ze haar onderzoek uitlegt moet ze meerdere keren de neiging onderdrukken om op het bord te tekenen, die in de kamer aan de VU in Amsterdam ontbreekt. Ze wil wiskundige definities en grafieken laten zien. Want dit is er wel voor nodig om de p-waarde echt te begrijpen. De p-waarde is dé standaard die in de wetenschap geldt om een verband aan te tonen. „Het probleem is dat het moeilijk blijkt voor onderzoekers om te snappen wat een p-waarde eigenlijk is.”

P-waardes worden veel gebruikt. Vooral bij geneeskunde, psychologie en economie. Een p-waarde geeft de kans dat de resultaten die wetenschappers in een onderzoek hebben gekregen een verkeerd beeld geven van de werkelijkheid. Dat de data die gevonden zijn heel toevallig zijn, een uitzondering. Als de kans kleiner is dan 0,05, neemt men aan dat de resultaten wél kloppen. Om bijvoorbeeld aan te tonen dat een medicijn werkt is een p-waarde van kleiner dan 0,05 vastgelegd als officiële standaard, gehanteerd door de Amerikaanse Food and Drug Administration (FDA) en het Europees Geneesmiddelenbureau (EMA).

Voor dokters, psychologen en wie nog meer de p-waarde wil gebruiken, blijkt het moeilijk om in te zien hoe de p-waarde precies werkt. Er worden nog weleens fouten mee gemaakt. De Heide heeft daarom samen met andere wiskundigen gewerkt aan een vervanging voor de p-waarde: de ‘e-waarde’.

In januari presenteerde ze het onderzoek waaraan ze – met Peter Grünwald en Wouter Koolen – sinds 2016 heeft gewerkt aan de Royal Statistical Society in Londen, een belangrijke organisatie voor statistiek. „Al jaren is het duidelijk dat die p-waarde eigenlijk niet goed werkt. Het is een hele eer dat ik hier mijn werk mag komen presenteren.”

Het gebeurt nu vaak dat als onderzoek opnieuw wordt gedaan, er andere resultaten uit komen

Waarom is het zo belangrijk om de p-waarde te vervangen?

„In zowel de medische als de sociale wetenschap hebben onderzoekers het over de replicatiecrisis. Het gebeurt nu vaak dat als onderzoek opnieuw wordt gedaan, er andere resultaten uit komen. Dat één onderzoek bijvoorbeeld wel een positief effect vindt van een medicijn en de ander helemaal niet.

„Het blijkt dat veel onderzoek dus gewoon niet klopt. Een beroemd geworden artikel over dit probleem in de medische wetenschap heet ook: ‘Why Most Published Research Findings are False’. En hetzelfde wordt gezegd over sociale wetenschap. Het gebruik van de p-waarde is één van de oorzaken van dit probleem.”

Wat gaat er mis met de p-waarde?

„Er zitten allerlei haken en ogen aan het gebruiken van een p-waarde als manier om een hypothese te toetsen. Het onderzoek moet daarvoor volgens strikte regels verlopen. Wetenschappers houden zich hier niet altijd aan, omdat ze niet precies begrijpen hoe de p-waarde werkt.

„Er zijn vragenlijsten gestuurd naar onder andere dokters en psychologen, waaruit blijkt dat heel veel eigenlijk niet weten wat je berekent met de p-waarde. En je moet bedenken: dokters lezen elke week artikelen over hun vakgebied. Die staan vol met uitspraken over p-waarden. Toch gaf minder dan de helft van de dokters het goede antwoord op de vraag wat de p-waarde betekent. Zelfs wiskundeleraren weten het goede antwoord vaak niet.”

Iets wat onderzoekers vaak doen, maar wat eigenlijk niet mag, is dat ze achteraf extra data toevoegen

Wat doen wetenschappers dan verkeerd als het op statistiek aankomt?

„Iets wat onderzoekers vaak doen, maar wat eigenlijk niet mag, is dat ze achteraf extra data toevoegen. Stel: onderzoekers kijken of een medicijn bloeddruk kan verlagen en ze onderzoeken dit bij een groep van dertig proefpersonen. Het kan zijn dat bij veel proefpersonen de bloeddruk wel naar beneden gaat, maar dat het net niet genoeg is om een p-waarde te krijgen die kleiner is dan 0,05. Vaak denken onderzoekers dan: laten we nog wat proefpersonen toevoegen om het resultaat statistisch significant te maken.”

„Dit heet ‘optional stopping’. In principe is het een logische intuïtie dat je de hoeveelheid data wil vergroten. Maar met de p-waarde mag dit niet op deze manier. Het is wiskundig te bewijzen dat de kans op een foutpositief heel groot wordt. Dus dat je na het toevoegen van proefpersonen een p-waarde onder 0,05 vindt en de conclusie trekt dat er een effect is, maar eigenlijk is dit effect er helemaal niet. In sommige gevallen is de kans zelfs 100 procent.”

Dat klinkt gek. Als je proefpersonen toevoegt ben je er zeker van onjuiste resultaten te krijgen?

„Ja, in sommige gevallen wel. Als je alles volgens het boekje doet, is de kans op een foutpositief maar 5 procent, omdat de p-waarde 0,05 is. Maar als je doet aan optional stopping en je voegt na één groep te hebben bekeken nog een paar personen toe, stijgt deze kans. Vaak vermelden onderzoekers niet dat ze dit hebben gedaan, of zijn ze zich er niet eens van bewust dat het niet mag.

„Soms willen wetenschappers bewust aan optional stopping doen. Dat je bijvoorbeeld per proefpersoon onderzoek doet en stopt als je geen effect ziet. Dat is minder duur en vaak ook ethischer. Bijvoorbeeld als je wilt onderzoeken of een vaccin werkt. Als je hierbij de p-waarde zou gebruiken, dan wordt de kans op een foutpositief echt 100 procent.”

Een handige eigenschap is dat je e-waardes ook kan combineren

Bestaat dit probleem niet bij de nieuwe e-waarde die jullie voorstellen?

„Nee, met de e-waarde mag je gewoon aan optional stopping doen. Het is ook al gebruikt voor een onderzoek naar de effectiviteit van een vaccin. We denken daarnaast dat de e-waarde in het algemeen makkelijker te begrijpen is dan de p-waarde en dus tot minder problemen zal leiden.”

Hoe werkt deze e-waarde?

„De e-waarde geeft aan hoe groot de verwachting is dat een hypothese klopt. De ‘e’ staat voor ‘expectation’, maar ook voor ‘evidence’, omdat het ook een maat is voor hoeveel bewijs je onderzoek geeft voor een hypothese.

„Als je bijvoorbeeld onderzoek doet naar het medicijn dat bloeddruk moet verlagen, dan geeft de e-waarde aan hoe groot de verwachting is dat het medicijn ook echt bloeddruk verlaagt. Net als bij de p-waarde is er een ondergrens. Als de e-waarde groter is dan 20 kan je spreken van een statistische significantie, en er in dit voorbeeld dus van uitgaan dat het medicijn bloeddruk verlaagt. Een e-waarde is dus geen kans, zoals de p-waarde, maar een positief getal.

„Een handige eigenschap is dat je e-waardes ook kan combineren. Hiermee kan je aangeven hoe twee onderzoeken het bewijs voor een hypothese versterken. Simpelweg door de e-waardes te vermenigvuldigen. Als één onderzoeksgroep een e-waarde van 5 vindt en de ander een waarde van 10, dan kunnen ze samen zeggen dat ze een waarde van 50 hebben. Bij de p-waarde kan dit niet.”

In dit zonnige zomerweekend deel ik graag felicitaties uit. Allereerst aan president Trump die door zijn vriend Netanyahu is voorgedragen voor de Nobelprijs voor de Vrede. De manier waarop Bibi dit grote geschenk aan Donald gaf was teder en oprecht. Wat mij vooral raakte was de ontroerende reactie van de onschuldige Donald, die door dit aanbod volledig overvallen werd en daardoor zeer spontaan en oprecht aangedaan reageerde. Toen ik dit zag dacht ik: de Derde Wereldoorlog is voorlopig nog ver weg.

En ik feliciteer voormalig NSC-Kamerlid Jelle Soepboer die net op tijd van het zinkende partijschip is gesprongen, waardoor hij de totale ondergang van deze splinter eind oktober niet hoeft mee te maken.

Ook proficiat voor de gemeente Coevorden die de komst van veertien minderjarige meisjes heeft weten tegen te houden met brandbommen en openlijke geweldpleging. Echt fantastisch. Zo doen we dat. Ik feliciteer ook de vluchtelingetjes dat hen een verblijf in deze ongeletterdenstam bespaard is gebleven.

Verder feliciteer ik de Turkse president Erdogan, die het wederom gelukt is om in zijn land een aantal corrupte burgemeesters achter de tralies te krijgen zonder dat een westers land daar tegen protesteert. Echt heel knap.

En natuurlijk gaan mijn felicitaties ook naar Vieze Jeroentje Rietbergen die definitief niet vervolgd gaat worden voor verkrachting van de toen negentienjarige Nienke Wijnhoven. Het met lenige pianovingers betasten van een minderjarig meisje door een vunzige muzikant op leeftijd is inderdaad iets heel anders dan verkrachten en daarom inderdaad niet strafbaar.

Wie ik niet mag vergeten te feliciteren is de redactie van het NOS Journaal, die waren deze week zo vriendelijk om het wederom gênante nieuws over hun directeur Renate Eringa, de Geitenpaadjeskoningin des Vaderlands, niet uit te zenden en te gunnen aan hun collega’s van RTL. Echt een journalistiek hoogstandje. Ik denk dat jullie op opslag kunnen rekenen. En jullie weten: Renate is niet lullig met salarissen. Uiteraard feliciteer ik Renate zelf ook omdat ze ondanks alles schaamteloos aan het omroeppluche blijft plakken. Dat noem ik pas karakter lieverd.

En ik feliciteer een straatje in Zwolle omdat het gelukt is om het studentenhuis van Noor Visser tegen te houden. Noor is een meisje dat niet zo lang geleden haar vader verloor en van de erfenis een huis kocht. Daar wilde ze met een paar vriendinnetjes in gaan wonen. De buren kregen daar lucht van en maakten bezwaar bij de gemeente. De argumenten waren uiteraard: overlast, lawaai, drukte, feestjes. Allemaal vrolijkheid waardoor de zure zulten in Noor haar straatje te veel herinnerd zouden worden aan hun eigen baldadige jeugd. Dit soort zit liever gezapig te dommelen in hun verantwoorde laadpalenjungle terwijl het denkt aan de hypotheekrenteaftrek, de zonnepanelenweelde, de elektrieke bakfietsen en het heerlijke verkeersdrempelsucces. Ze willen niet geconfronteerd worden met hun eigen vroeger. Toen hun leven nog leuk was en zin had.

De gemeente verbood het studentenhuis, waarop Noor naar de rechter stapte. Dat leek mij een gelopen koers voor onze Noor. Wie bepaalt wie je in je eigen huis haalt? Zeker bij rechters die zelf ook gestudeerd hebben en daardoor alles weten van alcohol, grensoverschrijdend gedrag en nachtelijke lol. Dus die gaven Noor vast gelijk. Ik rekende op een studentikoos briefje van de president van de rechtbank aan de Zwolse reservaatbewoners waarin uitgelegd werd hoe gezond het is om wakker gehouden te worden door jong spul dat de nachten nog gebruikt voor vrijen en dromen. En niet door snurkende zoutzakken die over relatietherapie liggen na te denken.

Maar helaas. De licht demente rechters zijn hun eigen jeugd vergeten. Dus Noor verloor.

En daarom feliciteer ik ook Noor Visser. Al is het maar omdat ze op tijd gewaarschuwd is. Ik mag hopen dat ze het huis kan verkopen aan een of ander aanleunechtpaar dat in het zeikerige straatje zielsgelukkig gaat worden.

En ik ga de jongens en meisjes van de studentenhuizen hier om mij heen feliciteren met de zomer waarin ze op afgetrapte bankstellen op de stoep bier kunnen drinken. Koud bier. Kortom: proost!

Related Posts

De Haagse Zaken zomer Q&A

Dit is ons land 4: Masoud strijdt tegen kolonisten die zijn stuk land innemen

Column | Zomerse felicitaties