Met hun honger naar data brengen AI-bedrijven Wikipedia in het nauw

De bedrijven die kunstmatige intelligentie ontwikkelen, brengen Wikipedia in gevaar. Die noodkreet slaakte de Wikimedia Foundation, het moederbedrijf van de populaire online encyclopedie in een dinsdag gepubliceerd blog.

Het probleem komt voort uit de snelgroeiende populariteit van Wikipedia en van de zustersite Wikimedia Commons, waar beeld, geluid en video te vinden zijn. Maar het zijn niet in de eerste plaats ménselijke gebruikers die sinds afgelopen jaar massaal de websites van Wikimedia bezoeken en daarmee de infrastructuur zwaar belasten. Het zijn bots.

Deze computerprogramma’s worden door ontwikkelaars van AI ingezet om automatisch het internet af te grazen en zoveel mogelijk data te verzamelen voor het trainen van hun zogeheten grote taalmodellen (LLM’s). Die taalmodellen vormen de basis van systemen als ChatGPT van Open-AI, die in reactie op vragen tekst kunnen voortbrengen, en steeds meer ook beeld en geluid.

De reusachtige, door vrijwilligers bijeengebrachte collecties van Wikipedia en van Wikimedia Commons bevatten een schat aan betrouwbare informatie en zijn voor iedereen gratis te gebruiken. Dat maakt ze voor AI-bedrijven tot een aantrekkelijke bron voor hun systemen.

Andere dynamiek

De inhoud van Wikimedia, schrijven de drie auteurs in hun blog, was altijd een belangrijk onderdeel van de resultaten die mensen te zien kregen in zoekmachines. „Die leidden op hun beurt gebruikers weer naar onze websites. Maar met de opkomst van kunstmatige intelligentie (AI) verandert de dynamiek.”

De automatische systemen van de AI-bedrijven overspoelen de websites van Wikimedia, maar de chatbots vermelden vervolgens vaak niet waar ze hun informatie vandaan hebben – en ook als ze dat wél doen, levert het Wikimedia relatief weinig bezoekers op. Het grootschalige bezoek van de bots aan de websites vormt een zware belasting van de infrastructuur: het verkeer van de bots neemt veel ‘bandbreedte’ in beslag, waardoor vertraging optreedt voor iedereen – ook voor menselijke gebruikers.

Onze inhoud is gratis, maar onze infrastructuur niet

Wikimedia

„Onze infrastructuur is erop gebouwd om bij bijzondere gebeurtenissen een plotselinge toename van menselijke bezoekers te kunnen opvangen”, stelt Wikimedia. „Maar de hoeveelheid verkeer die we krijgen door bots die het internet afschrapen is ongekend en brengt grote risico’s en kosten met zich mee.”

Risico’s omdat de technici van Wikimedia hun handen vol hebben aan het accommoderen van het grootschalige bezoek van bots, die hun honger naar data komen stillen. Daardoor hebben de technici minder tijd om bij onverwachte grote gebeurtenissen ook nog het extra menselijk bezoek aan de websites soepel te laten verlopen.

De extra kosten komen door de noodzaak meer technisch personeel in te zetten en bovendien meer bandbreedte beschikbaar te maken. „We erkennen dat het hele internet gebruikmaakt van onze inhoud, maar het moet wel gebeuren op een manier die voor ons vol te houden is”, aldus Wikimedia. „Onze inhoud is gratis, maar onze infrastructuur niet.” De Wikimedia Foundation wordt bijna volledig gefinancierd door donaties.

Server dichtbij

Wikimedia maakt gebruik van datacenters verspreid over de wereld, om zijn gebruikers snel te kunnen bedienen. Als bijvoorbeeld een artikel op Wikipedia vaak door een gebruiker of groep van gebruikers wordt opgevraagd, wordt de inhoud opgeslagen op een server dicht bij die gebruikers, zodat het snel geleverd kan worden. Artikelen die zelden opgevraagd worden, blijven op een centrale server staan. Worden ze toch een keer opgevraagd, dan moet het verzoek eerst helemaal naar dat datacenter ‘reizen’, en het artikel vervolgens weer terug naar de gebruiker, wat meer tijd en geld kost.

Menselijke gebruikers vragen vaak dezelfde artikelen op, bijvoorbeeld omdat de onderwerpen in het nieuws zijn. Maar de bots van de AI-bedrijven zijn geïnteresseerd in álle content, dus ook de minder populaire pagina’s, waarvoor ze vaak naar de centrale servers geleid moeten worden, „wat het voor ons duurder maakt”, aldus Wikimedia. Zo „verstikken de AI-bots Wikipedia”, schrijft technologie-columnist Casey Newton in zijn nieuwsbrief Platformer.


Lees ook

De stichting achter het idealistische Wikipedia nam een commerciële afslag

De stichting achter het idealistische Wikipedia nam een commerciële afslag. Dat levert meer kritiek op dan geld

Net als voor nieuwsbedrijven speelt ook voor Wikipedia het probleem dat de AI-bedrijven zich snel ontwikkelen tot concurrerende bronnen van informatie. Naarmate het gebruik van chatbots voor het verzamelen van informatie verder ingeburgerd raakt, dreigt de gewoonte om te rade te gaan bij nieuwswebsites en Wikipedia allengs in onbruik te raken. „Op den duur ontstaat het risico dat de AI-bots ervoor zorgen dat een bezoek aan websites als Wikipedia niet meer nodig is”, schrijft Newton, „en dat Wikipedia zelf niet meer voortgezet kan worden.” Waarmee de bots dan de bron hebben opgedroogd waar ook zij zelf uit drinken.