Een Nederlands, ethisch AI-model bouwen? ‘Moeilijk, maar we geloven dat het gaat lukken’

Het is even zoeken, maar daar staan ze toch echt. Drie zwarte serverkasten, in Zone 2 van het zwaarbeveiligde Digital Realty-datacenter op Amsterdam Science Park. In de hoek van de volledig witte, zwaar gekoelde ruimte bieden de servers onderdak aan GPT-NL, het Nederlandse antwoord op de AI-modellen van Google en OpenAI.

In Zone 2 staat, verdeeld over een handvol ruimtes van elk zo’n twintig vierkante meter, de meest geavanceerde computertechnologie van Nederland. Met als ster van de show: supercomputer Snellius, vernoemd naar wis- en natuurkundige Willebrord Snel van Royen (1580-1626). De nationale supercomputer – 38 ‘petaflops’, ofwel: 38 biljard (vijftien nullen) berekeningen per seconde – is bedoeld voor wetenschappers die ingewikkelde berekeningen uitvoeren. En voor GPT-NL, dat Snellius gebruikt om data te verwerken.

Anderhalf jaar geleden kondigde het vorige kabinet op de top van de AI-hype een ambitieus project aan. Een Nederlands AI-model, ontwikkeld door TNO, samen met non-profitpartijen NFI en SURF. Een Nederlands tegenwicht voor de AI-modellen van Google, Meta en OpenAI, die taalmodellen trainen met data van eindeloos veel websites, nieuwsartikelen, boeken en sociale media. Zonder dat ze daarvoor vooraf toestemming hebben gevraagd of auteursrecht hebben afgedragen.

Eind 2025 moet een eerste versie van GPT-NL beschikbaar zijn. Dat is een jaar later dan gepland.

Foto Olivier Middendorp

Simpel AI-werk

GPT-NL pakt het anders aan. Het gebruikt alleen Nederlandse data die met toestemming zijn verkregen en die geen privacygevoelige informatie bevatten. Onder meer de Koninklijke Bibliotheek, de Tweede Kamer en museum Naturalis hebben hun openbare data ter beschikking gesteld. Wie liever niet te afhankelijk wil zijn van Amerikaanse technologie, kan straks GPT-NL gebruiken om relatief simpel AI-werk te doen. Denk aan: teksten schrijven of documenten samenvatten.

De vraag is of GPT-NL enigszins in de buurt kan komen van wat ChatGPT nu al behoorlijk foutloos doet, ook in het Nederlands. Want het project loopt stroef, zo blijkt. GPT-NL is vanwege een gebrek aan goede data nog altijd niet begonnen met ‘trainen’, een maandenlang proces waarbij GPT-NL door Snellius leert om patronen in tekst te herkennen.

De training zou vorig jaar zomer van start gaan, maar begint nu in juni van dit jaar. Eind 2025 moet een eerste versie van GPT-NL beschikbaar zijn. Dat is een jaar later dan gepland.

Voor het GPT-NL-project is 12,5 miljoen euro uitgetrokken, verspreid over vijf jaar.

Foto Olivier Middendorp

Te ambitieus

Ja, de oorspronkelijke doelen waren „te ambitieus”, geeft Saskia Lensink toe. De projectleider van GPT-NL zit in een vergaderruimte met uitzicht op de GPT-NL-servers in het Digital Realty datacenter. Ze maakt zich zorgen. „Ja, het is zwaar. Moeilijk. Frustrerend ook”, zegt ze. „Maar we geloven dat dit gaat lukken.”

Organisaties hebben nog tot eind april om data aan GPT-NL te doneren. Iedereen met meer dan 10 miljoen woorden op een computer kan zich melden. Nu nog moet het model het doen met 50 miljard Nederlandstalige ‘tokens’ (stukjes tekst), aangevuld met Engelse tekst tot in totaal 900 miljard tokens. Ter vergelijking: Meta’s AI-model Llama werkt met 15.000 miljard tokens. Lensink hoopt dat een eerste versie van GPT-NL desondanks goed genoeg zal zijn om meer dataleveranciers over de streep te trekken.

Duidelijk is dat Lensink een ongelijke strijd voert. „David tegen Goliath”, zoals ze het zelf zegt. Waar Amerikaanse en Chinese techgiganten miljarden investeren in AI-modellen, doet GPT-NL het met 25 werknemers en een budget van 12,5 miljoen euro, verspreid over vijf jaar. Daarnaast moet GPT-NL zichzelf via licenties terugverdienen. Om die reden komt GPT-NL niet volledig open source (voor iedereen) beschikbaar, Dat maakt het voor buitenstaanders moeilijker aan de ontwikkeling ervan bij te dragen.

Taalmodellen die overal data vandaan hebben geplukt zijn er al genoeg. Daar onderscheid je je niet mee

Arnoud Engelfriet
ict-jurist

Toch is de aanpak van GPT-NL – je onderscheiden op gebied van privacy en ethiek – de juiste keuze, denkt ict-jurist Arnoud Engelfriet. „Taalmodellen die overal data vandaan hebben geplukt, zijn er al genoeg. Daar onderscheid je je niet mee”, zegt hij. Dat GPT-NL daardoor een groot tekort aan data heeft, is volgens Engelfriet onontkoombaar. „Dat is inherent aan het netjes doen.”

Supercomputer Snellius kan 38 ‘petaflops’, ofwel: 38 biljard (vijftien nullen) berekeningen per seconde uitvoeren.

Foto Olivier Middendorp

Schone data

GPT-NL hoopt dat organisaties uiteindelijk alsnog hun archieven, boeken, protocollen en artikelen afgeven. Op zichzelf is die bereidheid er bij veel organisaties heus wel, legt Lensink uit, vooral binnen de overheid. Totdat blijkt wat het afgeven van de data daadwerkelijk inhoudt. Alle data moeten namelijk ‘schoon’, ofwel geanonimiseerd, worden aangeleverd worden. En veel data bij organisaties bestaan uit pdf’s of – nog erger – papieren archieven. Dat bruikbaar maken voor GPT-NL betekent: veel werk én daarmee hoge kosten.

Boekenuitgeverijen of nieuwsorganisaties zijn om een andere reden terughoudend. Zij weten dat hun teksten voor AI-bedrijven in potentie miljoenen waard zijn. Dat kan GPT-NL niet betalen.

Maar de huidige spanningen tussen de Verenigde Staten en Europa bieden hoop, volgens Lensink. „Iedereen weet nu zeker hoe belangrijk het is dat we onze technologie ontwikkelen.” En ook het succes van het Chinese AI-model DeepSeek heeft geholpen scepsis over het geldgebrek van GPT-NL te overwinnen. DeepSeek slaagde er met relatief weinig middelen in een model te bouwen dat de prestaties van de beste AI-modellen van OpenAI en Google benadert.

Een goed Nederlands taalmodel kán, wil Lensink maar zeggen. Mits er genoeg gegevens voor zijn. „We willen laten zien dat het mogelijk is een AI-model te bouwen zonder de wet te overtreden”, zegt ze. „Doe mee. Help ons. Neem je verantwoordelijkheid. Alleen zó bouwen we een volwaardig alternatief voor Big Tech.”