Niet voor het eerst trof auteur Anja Sicking haar werk aan in een illegale database. Haar meest recente roman, en een Engelse vertaling van een ouder boek, zijn waarschijnlijk door Meta gebruikt voor de training van AI-model Llama. Al zou ze ervoor betaald krijgen, ze wil met haar werk niet bijdragen aan de ontwikkeling van taalmodellen. „Dat moet elke schrijver voor zichzelf bepalen.”
Probleem: die keuze hébben auteurs niet kunnen maken. Meta maakte voor de training van zijn AI-model Llama gebruik van de illegale database Library Genesis (LibGen). Het Amerikaanse tijdschrift The Atlantic publiceerde een doorzoekbare inventaris van die door Meta gedownloade database. Er staan zo’n 7,5 miljoen boeken en 81 miljoen wetenschappelijke publicaties in.
De Nederlandse Auteursbond wil nu weten: van hoeveel Nederlandse auteurs staat het werk in de database? Er staat nu een week een oproep online, ruim 360 auteurs hebben zich sinds 2 april gemeld bij de beroepsorganisatie.
De Auteursbond overweegt om vervolgens samen met de European Writers’ Council „actie te ondernemen” tegen Meta. Een rode draad in het aanbod van de illegale database lijkt nog niet te ontwaren: zowel zelf-uitgegeven auteurs, boeken van onafhankelijke uitgeverijen, en boeken die binnen grote concerns zijn uitgegeven, zijn in de database gevonden. Ter illustratie: Etty Hillesum staat er in met veertien resultaten in zes talen, Lucas Rijneveld met dertien resultaten in zeven talen, Harry Mulisch 61 resultaten in zeven talen.
Een disclaimer die The Atlantic plaatst: de inventaris is een momentopname van januari 2025, nadat Meta bewezen gebruik maakte van de database. Het is niet te zeggen van welke selectie aan werken het techbedrijf gebruik heeft gemaakt.
‘Rechtse wind’
Sicking, die haar werk aantrof in de database, ziet haar boeken natuurlijk niet graag „gestolen”, zoals de Auteursbond het formuleert. Maar haar bezwaar gaat verder: „Ik ben geen voorstander van de taalmodellen, omdat ik denk dat het beter is als mensen zelf nadenken over wat ze schrijven, in plaats van dat ze Amerikaanse bedrijven hun pen laten vasthouden.” Het onderwerp gaat haar aan het hart, ze neemt deel aan de AI-werkgroep van de Auteursbond. Nu veel van de AI-bedrijven „zich aan Trumps zijde scharen, meewaaien met de rechtse wind”, wordt volgens Sicking des te meer duidelijk dat de bedrijven „geen duidelijke ideeën hebben over goed en kwaad”. Maar: ze bepalen wel welke verhalen er via de taalmodellen worden verteld.
Het is beter als mensen zelf nadenken over wat ze schrijven, in plaats van dat ze Amerikaanse bedrijven hun pen laten vasthouden
Dat AI-modellen op heel grote illegale databases worden getraind, is een ‘publiek geheim’, zegt Dirk Visser, hoogleraar intellectueel eigendomsrecht aan de Universiteit Leiden. Maar dat er nu eens bewijs voor is, dat is nieuw. Mark Zuckerberg zou persoonlijk toestemming hebben gegeven voor het gebruik van de database met op illegaal verkregen wijze boeken en artikelen. LibGen is de grootste in zijn soort, en in veel landen, waaronder Nederland, is toegang tot de site opgeschort.
Licenties kopen om werk te gebruiken zou te duur zijn, en bovendien een precedent scheppen. Het lijkt erop, zegt Visser, dat AI-bedrijven dat risico nu nemen, omdat ze inschatten dat eventuele schadevergoedingen niet opwegen tegen de winst die het ze oplevert in ontwikkeling en tijd. Dát auteurs hun werk aantreffen in de illegale database LibGen, betekent nog niet dat de werken ook gevoerd zijn aan het AI-model van Meta, zegt Visser. Maar het is wel „aannemelijk”.
Rechtszaak
De zaak lijkt simpel. Auteursrechtelijk beschermde werken zijn zonder toestemming gebruikt, aldus de Auteursbond. „Van sommige auteurs is het hele oeuvre gebruikt, daar word je moedeloos van”, zegt Noor van der Heijden, woordvoerder van de Auteursbond.
/s3/static.nrc.nl/images/gn4/stripped/data130725090-63674b.jpg|https://images.nrc.nl/OtfpS5XIgb8m938IJ43eDJLog6U=/1920x/filters:no_upscale()/s3/static.nrc.nl/images/gn4/stripped/data130725090-63674b.jpg|https://images.nrc.nl/-WNDCjfUy4t4EdWlzYrA37w7LHo=/5760x/filters:no_upscale()/s3/static.nrc.nl/images/gn4/stripped/data130725090-63674b.jpg)
Foto Bart Maat
Maar als het tot een rechtszaak komt, is de uitkomst daarvan nog ongewis, zegt hoogleraar Visser. Jurisprudentie ontbreekt. De eerste vraag die beantwoord moet worden: heeft Meta rechtmatige toegang verkregen tot de boeken? Nee, zou je denken. Maar, zegt Visser: de database is weliswaar illegaal, maar het gebruik van die informatie moet nog wel als illegaal bestempeld worden. De tweede vraag die beantwoord moet: is het van de gebruikte boeken voldoende duidelijk gemaakt dat de auteurs hun werk niet willen lenen voor deze doeleinden? Als bij een tekst een duidelijk voorbehoud wordt geplaatst waarin staat dat die niet voor AI-training gebruikt mag worden, heeft de auteur een poot om op te staan. Maar hoe duidelijk zo’n tekst moet zijn, daarover verschillen rechtelijke uitspraken nu nog, zegt Visser.
Zo concludeerde een rechter in Hamburg: alles wat een mens kan lezen, moet AI ook kunnen lezen. In Amsterdam zegt de rechtbank in een andere zaak, DPG Media, Mediahuis Nederland en Mediahuis NRC tegen het bedrijf HowardsHome: het voorbehoud was niet specifiek genoeg gericht op de robots die de teksten verwerken, en ‘telt’ daarom niet. De uitgevers hebben inmiddels hoger beroep aangespannen tegen deze uitspraak. Tegenstrijdige conclusies, dus. Om helder te krijgen hoe auteurs hun werk tegen robotgebruik kunnen beschermen, moet de Europese rechter uitspraak doen over de formulering van zo’n tekst.
Tot er duidelijkheid is over regelgeving, zal de „gigantische diefstal” die de Auteursbond constateert doorgaan. „Het is nu het Wilde Westen omdat de wetgeving achterloopt, die sluit hier nog niet op aan.”
Over de vraag of je taalmodellen als schrijver wel of niet gebruikt, verschillen de meningen, ziet de Auteursbond. Maar de bond heeft nog niet gehoord van auteurs die het gebruik van hun werk door Meta géén probleem vinden. „Het gaat hier echt om jatwerk, en nee: niemand vindt het fijn om bestolen te worden. Schrijvers stelen toch ook niet van jou?”
Lees ook
„Ik ben beroofd door tech-tuig”, schrijft Auke Hulst in zijn column.
