‘Belangrijkste Nederlandse bron voor trainen ChatGPT staat bol van nepnieuws en privégegevens’

Chatbots Uit onderzoek van De Groene Amsterdammer blijkt dat ChatGPT waarschijnlijk put uit tal van Nederlandse websites vol nepnieuws en complottheorieën. Bovendien schendt de chatbot massaal auteursrechten en maakt de AP zich zorgen over de omgang met persoonsgegevens.

OpenAI-topman Sam Altman tijdens een speech in Parijs, in mei dit jaar. Altman lanceerde ChatGPT in november vorig jaar.
OpenAI-topman Sam Altman tijdens een speech in Parijs, in mei dit jaar. Altman lanceerde ChatGPT in november vorig jaar. Foto Joel Saget/AFP
Techbedrijf OpenAI gebruikt zeer waarschijnlijk tal van Nederlandse websites vol nepnieuws, privégegevens en complottheorieën om de systemen achter chatbot ChatGPT te trainen. Ook schendt het bedrijf auteursrechten door zonder toestemming teksten van de sites van onder andere NRC, De Telegraaf en de Volkskrant te gebruiken.

Dat concludeert De Groene Amsterdammer na eigen onderzoek. De belangrijkste Nederlandse bron voor ChatGPT blijkt docplayer.nl, een website die rondslingerende documenten op het internet verzamelt. Eerder kwam de Russische site al in opspraak, omdat er onder meer belastingaangiftes, vergadernotulen en sollicitatiebrieven op te vinden waren. Ook de rechts-extremistische website Stormfront (plek 165) en Marktplaats.nl (plek 22), waar veel Nederlanders hun telefoonnummer achterlaten, staan hoog genoteerd in de lijst van meestgebruikte bronnen.

In de top-100 staan verder opvallend veel nieuwsmedia. Daarbij is NRC (plek 4) met 594.000 gebruikte artikelen het populairst. Uit onderzoek van The Washington Post bleek eerder al dat de websites van The New York Times, The Guardian en de LA Times fanatiek door OpenAI worden gebruikt. NRC-hoofdredacteur René Moerland geeft in een reactie aan in gesprek te willen met de rest van de sector over hoe de journalistiek zich tegen zulke praktijken kan verweren. „Techbedrijven moeten transparant zijn over wat ze doen.”

In reactie op het onderzoek heeft de Autoriteit Persoonsgegevens (AP) OpenAI per brief om opheldering gevraagd. De AP wil onder meer weten hoe OpenAI omgaat met persoonsgegevens bij het trainen van het onderliggende systeem. OpenAI heeft nog niet op de brief gereageerd. De toezichthouder zegt verder dat er nog meer acties zullen volgen. Welke dat zijn, is onduidelijk.

Blauwdruk van het internet

Om goed te begrijpen hoe mensen communiceren, wordt het geavanceerde taalmodel GPT dat schuilgaat achter ChatGPT getraind met grote hoeveelheden tekst op het internet. Hierbij zijn met name openbare sites met veel informatie (Wikipedia) en discussiefora (Reddit) populair. Sociale netwerken als Facebook en Twitter zijn door de bedrijven zelf afgeschermd. Zij verbieden andere partijen om informatie van profielpagina’s geautomatiseerd binnen te halen.

OpenAI geeft zelf niet prijs hoe zijn chatbot ChatGPT, die in november vorig jaar werd gelanceerd, precies aan zijn antwoorden komt. Duidelijk is wel dat de meeste AI-modellen worden getraind met teksten afkomstig uit de database Common Crawl, in feite een blauwdruk van het complete internet.

Om te ontdekken op welke Nederlandse bronnen ChatGPT zich precies baseert, vergeleek De Groene Amsterdammer het filter dat Google toepast op Common Crawl met het filter van GPT-3, de technologie achter ChatGPT. Daarbij zagen ze „geen belangrijke verschillen”, schrijven de onderzoekers. „Ze gebruiken dus waarschijnlijk bijna dezelfde bronnen.”

Daarbij moet gezegd dat OpenAI – net als Google – zelf filters heeft ingebouwd, die onder meer moeten voorkomen dat ChatGPT discriminerende of racistische teksten produceert of assisteert bij het plegen van strafbare feiten. Wie bijvoorbeeld aan ChatGPT vraagt hoe een molotovcocktail te maken, krijgt als antwoord dat de chatbot „daarbij niet assisteert”.