Elk archief bevat verrassingen, maar wat een lezer deze week aantrof bij NRC was verbijsterend. Zij bekeek haar eigen aanwezigheid op internet en vond een tekening die ze als achtjarige had ingezonden naar de Kinderpagina van NRC Handelsblad. De titel van die tekening luidt: ‘Wat was er nu eerst: het appeltje of het meisje’. We zien in zeven staties hoe een zaadje in een appel uitgroeit tot een kleine roze baby, die uiteindelijk als geelgerokt meisje een appel in haar hand houdt. Het is een fascinerend beeld, een creatieve kruisbestuiving van de schepping van Eva uit de rib van Adam en het appelverlangen dat de erfzonde inluidde. Voer voor theologen.
De context die de lezer aantrof, was van een andere orde. Op de artikelpagina stond een rijtje trefwoorden vermeld, zoals ‘museum’, ‘beeldende kunst’ en ‘voeding’. Maar ook: ‘verkrachting’. (Dit las u goed.)
Babypoppetje
De lezer protesteerde tegen deze tag, zoals zo’n aanduiding in jargon heet. „Uiteraard word ik liever niet geassocieerd met de term verkrachting, zeker niet in verband met een tekening die ik op achtjarige leeftijd gemaakt heb. Ik ga ervan uit dat een AI-model of andersoortig automatisch systeem deze tag heeft toegevoegd, aangezien het om een tekening van een bloot babypoppetje gaat.” Ze wilde de tag graag verwijderd hebben en vroeg of het hele artikel offline gehaald kon worden. Want als een NRC-machine aan de haal kan gaan met deze onschuldige tekening, dan kunnen andere automatische systemen dat wellicht ook. Ontarchiveringsverzoeken krijgt NRC steeds vaker. Doordat alle exemplaren van NRC Handelsblad en nrc.next sinds 1970 online staan, kunnen mensen onaangenaam worden verrast door oude artikelen die opduiken als je hun naam door een zoekmachine haalt, zoals bijvoorbeeld toekomstige werkgevers zouden kunnen doen. NRC is, zo staat ook in de Code, zeer terughoudend met het verwijderen van artikelen: verzoeken ertoe moeten met argumentatie naar de hoofdredactie.
In dit geval lijkt het mij vooral de vraag hoe die dwaze tag bij de tekening belandde – en of dit vaker voorkomt. Toen de artikelen uit het archief enkele jaren geleden online werden gezet, zijn ze door een Zweeds automatisch systeem van zogenoemde metadata voorzien. Die moeten zoekmachines helpen om het kaf van het koren te scheiden (bij nieuwe verhalen worden de tags met de hand aangebracht). Automatisch gegenereerde metadata zijn verre van perfect, maar zolang ze betrekking hebben op een regulier artikel bevatten ze hoofdzakelijk woorden die in elk geval ook in de tekst voorkomen. Maar als de tekst weinig houvast geeft, krijgt de machine trekken van een dolle kleuter die speelt met het nietpistool van de buurman, zo blijkt.
Want de tekening van de appel en het meisje was niet de enige die het systeem in verwarring bracht. Dat gold ook voor andere tekeningen op de Kinderpagina. Een ‘lekkerste ijsje ooit’ kreeg de tag ‘cocaïne’. Een cakerecept werd aangezien voor ‘skisport’, een ander voor ‘verloving’. Een badeendje? ‘Universiteit’! Vrolijke oranje voetballers? ‘Politie, recht en criminaliteit’! En nog een ‘verkrachting’, nu bij een tekening van een meisje met een paard.
Niet geruststellend
Ik ging verder na wat er tussen 2009 en 2011 verder het trefwoord ‘verkrachting’ meekreeg. Hoofdzakelijk artikelen waarin dat daadwerkelijk het onderwerp was, of waarin het woord terloops viel (bijvoorbeeld in een filmrecensie). Maar ook een fraaie foto van een bewoonster van zorgcentrum Peppelrode in Eindhoven die poseerde, verkleed in de stijl van Het melkmeisje van Vermeer. Is het woord ‘meisje’ dan de sleutel? Niet altijd. Een miniberichtje over een verplichte gps in lesauto’s werd als verkrachting gebrandmerkt (en als ‘visserij’ en ‘ruimtevaart’).
Nog merkwaardiger: drie berichten over respectievelijk verongelukte olifanten, een ingestorte brug en een treinbotsing werden ook voor ‘verkrachting’ aangezien (en de laatste kreeg ook ‘hockey’ mee). Wat die berichten bond, was dat ze nieuws uit India bevatten. Kennelijk zet dat land de tagmachine op het spoor van seksueel geweld. Dat is bizar en ook niet erg geruststellend, nu de rol van geautomatiseerde processen alleen maar verder zal toenemen. Je wil niet dat dergelijke systemen die verhalen over verkrachting zoeken, die uit India een speciale status geven.
De fouten bij de artikelen kunnen handmatig worden hersteld – dat gebeurt ook bij de bovenstaande voorbeelden – maar voor het archief als geheel is dat geen doen. Het systeem dat de metadata genereerde, deed dat vier jaar geleden met alle artikelen uit alle kranten tot 2018, zegt Michael Erkelens van het Digitale Media Team. „Er wordt alleen naar tekst gekeken, niet naar beeld. Bij artikelen die weinig woorden bevatten, kan het vreemde dingen gaan doen.” Vandaar dat op de site staat dat de metadata fouten kunnen bevatten: „Aan verbetering wordt gewerkt.”
Erkelens wil nu kijken of in sommige gevallen waarbij de metadata een lage overeenkomst hebben met de tekst (die score houdt de machine zelf bij), ze niet meer in beeld getoond worden.
Handmatig
In de loop der jaren is het systeem verfijnd, wat nodig is omdat de rol van automatisch gegenereerde metadata zal groeien. Want het blijkt dat het door redacteuren handmatig aan laten brengen van metadata ook nadelen heeft. Iedereen heeft daar immers zijn eigen gewoonten in ontwikkeld: heel veel of heel weinig, naar de letter of naar de geest.
Zo levert dit artikel mij nu dadelijk de vraag op of het naast voor de hand liggende tags als ‘journalistiek’, ‘automatisering’ en ‘metadata’ ook ‘India’, ‘kindertekening’ of ‘verkrachting’ mee zou moeten krijgen. Toch maar liever niet.
Arjen Fortuin
Reacties: [email protected]
Reageren op dit artikel kan alleen met een abonnement.
Heeft u al een abonnement, log dan hieronder in.