Bijna alle Nederlandse nieuwsbedrijven stellen een belangrijk deel van hun archief beschikbaar aan onderzoeksinstituut TNO, voor de ontwikkeling van een Nederlands antwoord op AI-modellen als ChatGPT. TNO en mediabedrijven hebben daar een overeenkomst voor getekend, zo is deze donderdag bekendgemaakt.
Het project, dat voorlopig GPT-NL heet, is daarmee een grote stap dichter bij verwezenlijking gekomen. Eind dit jaar of begin volgend jaar moet het volgens TNO, dat samenwerkt met medeoprichters SURF en NFI, gebruiksklaar zijn.
TNO kan nu voor de training van de kunstmatige intelligentie van GPT-NL artikelen gebruiken uit alle kranten en sites van onder meer de grote mediabedrijven DPG en Mediahuis (waaronder NRC), van andere leden van branche-organisatie NDP Nieuwsmedia en stukken van nieuwsdienst ANP. Daarmee is in één klap de hoeveelheid Nederlandse data verdubbeld waarmee het nieuwe AI-taalmodel ontwikkeld wordt.
Het gaat om bijna alle artikelen van de afgelopen twintig jaar, uitgezonderd die van de laatste zes maanden. Alleen de publieke omroep doet (nog) niet mee. Volgens een woordvoerder is die wel „in gesprek met GPT-NL over de mogelijke levering van data voor het AI-model”.
Diefstal
Het ministerie van Economische Zaken financiert het project met 13,5 miljoen euro, om in Nederland te komen tot „een transparant, eerlijk en toetsbaar gebruik van artificiële intelligentie (AI)”. GPT-NL moet het Nederlandse alternatief worden voor de taalmodellen die internationale AI-bedrijven als Google, Meta en OpenAI de afgelopen jaren hebben ontwikkeld. Die hebben enorme hoeveelheden data gebruikt waarvoor zij geen toestemming hadden gevraagd aan de eigenaars van de auteursrechten, laat staan dat ze ervoor betaalden. Onlangs noemde topman Christian Van Thillo van DPG, het grootste mediabedrijf in Nederland, deze manier om kunstmatige intelligentie te ontwikkelen in NRC nog „de grootste diefstal ooit van auteursrechtelijk beschermd materiaal”.
Internationaal hebben mediabedrijven verschillend gereageerd op het feit dat AI-bedrijven op die manier hun journalistiek hebben gebruikt. The New York Times heeft een proces aangespannen tegen OpenAI, het bedrijf achter ChatGPT, wegens inbreuk op zijn auteursrechten. Maar sinds een klein jaar zijn enkele andere internationale nieuwsbedrijven (waaronder de Financial Times, The Guardian, Le Monde, Axel Springer en persbureau AP) begonnen hun data tegen betaling beschikbaar te stellen aan AI-bedrijven.
Big Tech
In Nederland heeft geen van de nieuwsuitgevers op eigen houtje zo’n akkoord gesloten. Omdat vooral gróte nieuwsbedrijven afspraken kunnen maken met AI-bedrijven, en kleinere uitgevers dan achter het net vissen, wilde de sector in Nederland zo veel mogelijk samen optrekken om de dominantie van Big Tech het hoofd te bieden. Zo’n gezamenlijke aanpak levert ook een grotere dataset op, wat aantrekkelijk is voor AI-makers.
De nieuwsbedrijven krijgen nu nog geen geld voor de data die ze TNO leveren. Maar als GPT-NL op de markt komt, delen ze allemaal in de eventuele opbrengsten. Nu de afspraak met TNO rond is, willen de nieuwsbedrijven ook gezamenlijk in gesprek met Big Tech over een licentie voor de beschikbaarstelling van hun data tegen betaling.
Herman Wolswinkel, directeur van NDP Nieuwsmedia: „Big Tech-bedrijven stellen regelmatig dat uitgevers AI-innovatie in de weg staan, omdat het niet te doen zou zijn met alle rechthebbenden afspraken te maken. Dat argument telt in Nederland niet meer: er is nu één loket waar AI-makers, ook de grote technologiebedrijven, terecht kunnen voor een grote, hoogkwalitatieve en Nederlandstalige dataset voor de training van AI.”
Artikelen van de afgelopen zes maanden zijn uitgesloten van het akkoord, omdat de nieuwsbedrijven de AI-makers niet willen voorzien van actuele informatie waarmee ze zich tot concurrenten kunnen ontwikkelen. „Eén op de twintig Nederlanders gebruikt nu al een chatbot voor nieuws, en één op de negen jongeren doet dat”, zegt Wolswinkel. „Terwijl uit onderzoek blijkt dat chatbots in veel dingen goed zijn, maar niet in het brengen van betrouwbaar nieuws. Voor ons staat voorop dat de nieuwsmedia zélf de bron blijven waar het publiek komt om betrouwbaar nieuws te lezen, te bekijken of beluisteren.”
Bronnen
In meerdere opzichten zal het Nederlandse taalmodel verschillen van ChatGPT, Gemini of Grok. Niet alleen worden auteursrechten gerespecteerd, ook is TNO transparant over de data waarmee het model wordt getraind. Die zijn niet zomaar her en der van het internet geplukt, maar afkomstig van gezaghebbende bronnen als de Tweede Kamer, website rechtspraak.nl, Het Utrechts Archief, museum Naturalis – en nu dus ook van de gevestigde nieuwsbedrijven. Persoonlijke gegevens worden uit de data gefilterd, zodat de chatbot die niet kan verspreiden. Daardoor kan GPT-NL (anders de Amerikaanse en Chinese modellen) voldoen aan de Europese privacywetgeving, in Nederland de AVG.
GPT-NL zal niet gratis zijn en is in eerste instantie ook niet bedoeld voor individuele gebruikers. Doelgroep vormen bedrijven, instellingen en overheden, die op basis van GPT-NL hun eigen chatbot kunnen bouwen, bijvoorbeeld als vraagbaak voor hun klantenservice.
„Met ons budget van 13,5 miljoen euro kunnen we niet hetzelfde ontwikkelen als de grote techbedrijven, die miljarden tot hun beschikking hebben”, zegt Selmar Smit, grondlegger van GPT-NL en manager science and technology bij TNO. „Vergelijk GPT-NL met een middelbare scholier. Die moet je ook nog een vervolgopleiding geven voor je hem aan het werk kan zetten.” Voor onderzoekers komt er een aparte licentie, met een zo laag mogelijk tarief, zegt Smit.
Heeft dit relatief kleine, Nederlandse project kans van slagen in de concurrentie met de AI-modellen van Big Tech? Smit ziet zeker goede kansen, om te beginnen met de overheid als klant. „Ambtenaren mogen eigenlijk niet werken met systemen die niet in overeenstemming zijn met de AVG. Ook Nederlandse multinationals kunnen het eigenlijk niet maken om niet AVG-proof te werken. Als wij met GPT-NL een veilig alternatief kunnen aanbieden, is er eigenlijk geen reden meer om ChatGPT te blijven gebruiken. Voor de consument is dat nog acceptabel, maar niet voor grote organisaties.”
Lees ook
Lees ook: Een Nederlands, ethisch AI-model bouwen? ‘Moeilijk, maar we geloven dat het gaat lukken’
Het idee voor GPT-NL, zegt Smit, kwam voort uit de wens niet afhankelijk te zijn van „een aantal grote, Amerikaanse spelers” en hun taalmodellen. Die zijn nuttig, maar onduidelijk is waarmee ze getraind zijn. „Als je kijkt wat er nu gebeurt in de wereld, kan je niet helemaal uitsluiten dat zulke grote bedrijven er materiaal in stoppen dat hun belang dient, en niet dat van ons. Ons doel is een AI-model te bouwen volgens de Europese normen en waarden, met respect voor de auteursrechten en de privacy.”
