Verkeerd begrip van statistiek leidt tot foute wetenschap. De p-waarde is dood. Leve de e-waarde!

Rianne de Heide is statisticus aan de Vrije Universiteit Amsterdam. Terwijl ze haar onderzoek uitlegt moet ze meerdere keren de neiging onderdrukken om op het bord te tekenen, die in de kamer aan de VU in Amsterdam ontbreekt. Ze wil wiskundige definities en grafieken laten zien. Want dit is er wel voor nodig om de p-waarde echt te begrijpen. De p-waarde is dé standaard die in de wetenschap geldt om een verband aan te tonen. „Het probleem is dat het moeilijk blijkt voor onderzoekers om te snappen wat een p-waarde eigenlijk is.”

P-waardes worden veel gebruikt. Vooral bij geneeskunde, psychologie en economie. Een p-waarde geeft de kans dat de resultaten die wetenschappers in een onderzoek hebben gekregen een verkeerd beeld geven van de werkelijkheid. Dat de data die gevonden zijn heel toevallig zijn, een uitzondering. Als de kans kleiner is dan 0,05, neemt men aan dat de resultaten wél kloppen. Om bijvoorbeeld aan te tonen dat een medicijn werkt is een p-waarde van kleiner dan 0,05 vastgelegd als officiële standaard, gehanteerd door de Amerikaanse Food and Drug Administration (FDA) en het Europees Geneesmiddelenbureau (EMA).

Voor dokters, psychologen en wie nog meer de p-waarde wil gebruiken, blijkt het moeilijk om in te zien hoe de p-waarde precies werkt. Er worden nog weleens fouten mee gemaakt. De Heide heeft daarom samen met andere wiskundigen gewerkt aan een vervanging voor de p-waarde: de ‘e-waarde’.

In januari presenteerde ze het onderzoek waaraan ze – met Peter Grünwald en Wouter Koolen – sinds 2016 heeft gewerkt aan de Royal Statistical Society in Londen, een belangrijke organisatie voor statistiek. „Al jaren is het duidelijk dat die p-waarde eigenlijk niet goed werkt. Het is een hele eer dat ik hier mijn werk mag komen presenteren.”

Het gebeurt nu vaak dat als onderzoek opnieuw wordt gedaan, er andere resultaten uit komen

Waarom is het zo belangrijk om de p-waarde te vervangen?

„In zowel de medische als de sociale wetenschap hebben onderzoekers het over de replicatiecrisis. Het gebeurt nu vaak dat als onderzoek opnieuw wordt gedaan, er andere resultaten uit komen. Dat één onderzoek bijvoorbeeld wel een positief effect vindt van een medicijn en de ander helemaal niet.

„Het blijkt dat veel onderzoek dus gewoon niet klopt. Een beroemd geworden artikel over dit probleem in de medische wetenschap heet ook: ‘Why Most Published Research Findings are False’. En hetzelfde wordt gezegd over sociale wetenschap. Het gebruik van de p-waarde is één van de oorzaken van dit probleem.”

Wat gaat er mis met de p-waarde?

„Er zitten allerlei haken en ogen aan het gebruiken van een p-waarde als manier om een hypothese te toetsen. Het onderzoek moet daarvoor volgens strikte regels verlopen. Wetenschappers houden zich hier niet altijd aan, omdat ze niet precies begrijpen hoe de p-waarde werkt.

„Er zijn vragenlijsten gestuurd naar onder andere dokters en psychologen, waaruit blijkt dat heel veel eigenlijk niet weten wat je berekent met de p-waarde. En je moet bedenken: dokters lezen elke week artikelen over hun vakgebied. Die staan vol met uitspraken over p-waarden. Toch gaf minder dan de helft van de dokters het goede antwoord op de vraag wat de p-waarde betekent. Zelfs wiskundeleraren weten het goede antwoord vaak niet.”

Iets wat onderzoekers vaak doen, maar wat eigenlijk niet mag, is dat ze achteraf extra data toevoegen

Wat doen wetenschappers dan verkeerd als het op statistiek aankomt?

„Iets wat onderzoekers vaak doen, maar wat eigenlijk niet mag, is dat ze achteraf extra data toevoegen. Stel: onderzoekers kijken of een medicijn bloeddruk kan verlagen en ze onderzoeken dit bij een groep van dertig proefpersonen. Het kan zijn dat bij veel proefpersonen de bloeddruk wel naar beneden gaat, maar dat het net niet genoeg is om een p-waarde te krijgen die kleiner is dan 0,05. Vaak denken onderzoekers dan: laten we nog wat proefpersonen toevoegen om het resultaat statistisch significant te maken.”

„Dit heet ‘optional stopping’. In principe is het een logische intuïtie dat je de hoeveelheid data wil vergroten. Maar met de p-waarde mag dit niet op deze manier. Het is wiskundig te bewijzen dat de kans op een foutpositief heel groot wordt. Dus dat je na het toevoegen van proefpersonen een p-waarde onder 0,05 vindt en de conclusie trekt dat er een effect is, maar eigenlijk is dit effect er helemaal niet. In sommige gevallen is de kans zelfs 100 procent.”

Dat klinkt gek. Als je proefpersonen toevoegt ben je er zeker van onjuiste resultaten te krijgen?

„Ja, in sommige gevallen wel. Als je alles volgens het boekje doet, is de kans op een foutpositief maar 5 procent, omdat de p-waarde 0,05 is. Maar als je doet aan optional stopping en je voegt na één groep te hebben bekeken nog een paar personen toe, stijgt deze kans. Vaak vermelden onderzoekers niet dat ze dit hebben gedaan, of zijn ze zich er niet eens van bewust dat het niet mag.

„Soms willen wetenschappers bewust aan optional stopping doen. Dat je bijvoorbeeld per proefpersoon onderzoek doet en stopt als je geen effect ziet. Dat is minder duur en vaak ook ethischer. Bijvoorbeeld als je wilt onderzoeken of een vaccin werkt. Als je hierbij de p-waarde zou gebruiken, dan wordt de kans op een foutpositief echt 100 procent.”

Een handige eigenschap is dat je e-waardes ook kan combineren

Bestaat dit probleem niet bij de nieuwe e-waarde die jullie voorstellen?

„Nee, met de e-waarde mag je gewoon aan optional stopping doen. Het is ook al gebruikt voor een onderzoek naar de effectiviteit van een vaccin. We denken daarnaast dat de e-waarde in het algemeen makkelijker te begrijpen is dan de p-waarde en dus tot minder problemen zal leiden.”

Hoe werkt deze e-waarde?

„De e-waarde geeft aan hoe groot de verwachting is dat een hypothese klopt. De ‘e’ staat voor ‘expectation’, maar ook voor ‘evidence’, omdat het ook een maat is voor hoeveel bewijs je onderzoek geeft voor een hypothese.

„Als je bijvoorbeeld onderzoek doet naar het medicijn dat bloeddruk moet verlagen, dan geeft de e-waarde aan hoe groot de verwachting is dat het medicijn ook echt bloeddruk verlaagt. Net als bij de p-waarde is er een ondergrens. Als de e-waarde groter is dan 20 kan je spreken van een statistische significantie, en er in dit voorbeeld dus van uitgaan dat het medicijn bloeddruk verlaagt. Een e-waarde is dus geen kans, zoals de p-waarde, maar een positief getal.

„Een handige eigenschap is dat je e-waardes ook kan combineren. Hiermee kan je aangeven hoe twee onderzoeken het bewijs voor een hypothese versterken. Simpelweg door de e-waardes te vermenigvuldigen. Als één onderzoeksgroep een e-waarde van 5 vindt en de ander een waarde van 10, dan kunnen ze samen zeggen dat ze een waarde van 50 hebben. Bij de p-waarde kan dit niet.”