N.B. Het kan zijn dat elementen ontbreken aan deze printversie.
Kunstmatige intelligentie OpenAI bouwde met ChatGPT de grootste datastofzuiger ter wereld en belooft nu juridische hulp tegen copyrightclaims. De hele AI-sector zet zich schrap voor een golf aan rechtszaken.
Wegens gebrek aan rekenkracht tijdelijk gesloten. Dat bordje hing deze week aan de deur van ChatGPT. Opeens telde OpenAI, het bedrijf achter deze slimme chatbot, zo overweldigend veel extra gebruikers dat er niet genoeg servercapaciteit was om de nieuwkomers te bedienen.
De aanleiding voor die stormloop was de aankondiging die OpenAI vorige week deed: er komt een opgevoerde ‘turbo’-versie en een GPT-winkel waar je je eigen chatbot kunt verkopen. Ontwikkelaars ruiken geld. Ze hopen dat deze marktplaats net zo succesvol wordt als de Apple App Store, de downloadwinkel voor mobiele apps waarin in 2022 1.100 miljard dollar omging.
Een jaar na de overrompelende introductie van ChatGPT staat de teller op 100 miljoen gebruikers en wordt de waarde van OpenAI geschat op 90 miljard dollar. Nu moet er geld verdiend worden; de AI-trein begint te rijden en iedereen wil in de voorste coupé zitten. Vandaar die drukte.
Sam Altman, oprichter en topman van OpenAI, beloofde de juridische kosten te dekken van klanten die worden aangeklaagd wegens het schenden van copyright. Dat kan gebeuren als ze hun zelfgebouwde ‘GPT’s’ trainen met data waarop auteursrecht rust. Die garantie moet de drempelvrees wegnemen om AI commercieel in te zetten. Ook andere AI-aanbieders, zoals Adobe, Google en Microsoft, beloven juridische back-up. Het is een vrijbrief om te blijven datagraaien; met de machtige advocaten van Silicon Valley achter je valt er niets te vrezen.
De taalmodellen waarop bijvoorbeeld GPT gebouwd is, vreten rekenkracht, energie en vooral data. Voed je zo’n zelflerend systeem genoeg voorbeelden, dan kun je het daarna opdracht geven om antwoorden te genereren (in tekst, beeld of code) die afgeleid zijn van de originele data. Net echt.
De taalmodellen zijn getraind op alles wat er online te vinden is: foto’s, video’s, fora, boeken, nieuwsartikelen, software. Betaalmuren lijken niet te bestaan; krantenarchieven worden onder het mom van ‘fair use’ opgezogen om de chatbots wat benul bij te brengen.
In hun datazucht letten de AI-ontwikkelaars niet of nauwelijks op auteursrechten. En meer niet dan nauwelijks, zo blijkt uit de rechtszaken die OpenAI en andere AI-bedrijven boven het hoofd hangen. Zo overweegt The New York Times juridische stappen en verbiedt de krant dat nieuwsverhalen nog worden gebruikt om AI te trainen. Universal Music klaagt AI-start-up Anthropic aan omdat chatbot Claude vrijwel identieke liedjes uitspuugt als die van Katy Perry of The Rolling Stones. Er loopt ook een rechtszaak van Amerikaanse schrijvers zoals Sarah Silverman tegen Meta en OpenAI; die bedrijven gebruikten ongevraagd een database met 191.000 elektronische boeken die van een illegale site geplukt waren. Het is AI met de bijsmaak van piraterij.
Opgevoerde knipselkrant
Als het gaat om piraterij, dan moet je bij Pascal Hetzscholdt zijn. Hij is een expert in contentbescherming: in een vorig leven vocht hij tegen streamingsites en illegale dvd’s, uit naam van de filmindustrie. En in het leven dáárvoor joeg hij op cybercriminelen bij de Nederlandse politie, toen ruilnetwerk KaZaa het web nog onveilig maakte. Tegenwoordig werkt hij bij de Amerikaanse wetenschappelijk uitgever Wiley en worstelt met de (on-)mogelijkheden van AI. Ook Wiley’s werken zijn gebruikt om taalmodellen te trainen.
„Bij copyright gaat het om exacte reproducties en dat is bij ChatGPT en soortgelijke technieken lastig”, legt Hetzscholdt uit aan de telefoon. „Een chatbot geeft meestal geen exacte reproductie van tekst, beeld of muziek. Er worden stukjes en beetjes gebruikt, en is er sprake van ‘inspiratie’, maar geen letterlijke kopie.”
Hij heeft het onderzocht, net als veel andere uitgevers, en concludeert dat de taalmodellen, mits je de juiste opdrachten geeft, wel degelijk inhoud reproduceren. Ook al zeggen de techbedrijven dat hun modellen daar niet voor gebouwd zijn. Uiteindelijk is generatieve AI een opgevoerde knipselkrant die elementen uit eerdere verzamelingen combineert op basis van kansberekening. En ook al zijn er geen oorspronkelijke onderdelen herkenbaar, dan nog zie je herkomst terug in composities, in stijl of in structuren.
Hoe zit het met het auteursrecht op de beelden en teksten die de AI-modellen creëren? Een Amerikaanse rechter oordeelde in augustus dat AI geen copyright kan claimen. Het zal sowieso lastig zijn om een vergoeding te verdelen onder de oorspronkelijke aanbieders waarop het model getraind is.
Stel dat een chatbot een artikel genereert over de situatie in Gaza, op basis van meerdere artikelen: een beetje NRC, een toefje Telegraaf en een scheut Volkskrant. Omdat in het eindresultaat de bewoordingen door elkaar zijn gegooid, kan niemand zeggen ‘dat deel is van mij’. Het eindresultaat: iedereen voelt zich bestolen. Want je kunt geen journalisten blijven betalen als alle informatie die ze vergaren en verifiëren, gratis beschikbaar is.
Big tech in een nieuwe jas
Voor uitgevers is de AI-hausse een déjà-vu. Het is big tech in een nieuwe jas; zo vochten ze ook tegen de Amerikaanse techreuzen die nieuwsberichten en boeken opslurpten. Dit jaar sloot Google eindelijk een licentiedeal met driehonderd uitgevers in de EU. Video ging ook al zo moeizaam: tv-bedrijf Viacom procedeerde zeven jaar tegen Google-dochter YouTube, waar massaal tv-programma’s geüpload werden.
Voor uitgevers als Wiley, waar Pascal Hetzscholdt werkt, is AI niet alleen een bedreiging. Het is mogelijk een verdienmodel: je kunt zelf een slimme assistent bouwen op basis van wetenschappelijke uitgaven. Dat levert geld op, hoewel je ermee in de problemen kunt komen als blijkt dat je de strenge Europese regels overtreedt.
De AI-wereld lijkt nu nog op het Wilde Westen; alles mag maar straks vliegen de kogels om je oren. Geen plek voor gerenommeerde instituten. Dat geldt ook voor de Nederlandse overheid, die volgens de Volkskrant overweegt om ambtenaren te verbieden AI-software in te zetten. Ze kunnen ongemerkt auteursrechten of privacyregels schenden, omdat niet helder is waar data bewaard of verwerkt worden.
De verantwoordelijke staatssecretaris, Alexandra van Huffelen, reageerde meteen dat het slechts ging om een conceptrapport, waarbij de soep niet te heet gegeten en het kind niet met het badwater weggegooid dient te worden. Want er is één argument om niet al te rigide met auteursrechten en privacy om te gaan: de vooruitgang.
Generatieve AI is een automatiseringsslag die veel kan opleveren. Rem je die innovatie af, dan missen we de AI-trein, is China ons de baas en wordt Ajax nooit kampioen. Tot die tijd bouwt OpenAI de grootste datastofzuiger ter wereld. Altman zet de turbo alvast aan, met of zonder permissie.