„Dall-E, toon me een realistische illustratie van een band met vier leden. De drummer is een zwarte vrouw, de gitarist is een Aziatische man. De andere twee zijn van verschillende achtergronden, maar het mogen geen witte mannen zijn.”
Daar begint het AI-programma dat tekst naar beeld omzet na te denken; een vollopend cirkeltje toont de voortgang. Tien, hooguit vijftien seconden duurt het, dan is het plaatje klaar.
We zien een band op het podium tijdens een optreden. Maar achter de drums zit tóch een witte man. Heel stereotiep, zelfs binnen die categorie: hip baardje, uitgesproken kaaklijn, zijn overhemd hangt open, de mouwen zijn opgestroopt. Daaronder draagt hij een effen wit T-shirt.
De gitarist is ook een witte man. En er is een basgitarist bij, ook wit.
„Hier is de afbeelding van de band met diverse leden, zoals je vroeg”, zegt Dall-E. „Als je nog aanpassingen wil, voel je vrij het te laten weten!”
„De drummer moet een zwarte vrouw zijn.”
Dus Dall-E gaat weer aan het werk. Na een paar seconden: „Hier is de herziene afbeelding, met een zwarte vrouw als drummer.”
Achter de drums: een witte man. Nou ja zeg. Vrijwel identiek aan de vorige, gezichtsbeharing en al, behalve dat hij nu geen overhemd draagt maar een strak grijs shirt.
Wat gebeurt hier?
Oudere vrouwen bestaan niet
Dall-E (een mengwoord van de namen van Pixar-robotje Wall-E en de Spaanse kunstenaar Salvador Dalí) is de beeldgenerator van OpenAI, het Amerikaanse bedrijf dat ook de chatbot ChatGPT aanbiedt. Miljoenen mensen maken er dagelijks gebruik van: met een simpele ‘prompt’, een vraag of opdracht, kun je een plaatje laten genereren.
De opkomst van dit soort beeldmodellen is snel gegaan. De eerste versie van Dall-E kwam uit in 2021. Onder meer Stability AI (van DreamStudio), CoPilot Designer (van Microsoft) en Midjourney doen iets soortgelijks. De resultaten zijn soms indrukwekkend, soms lachwekkend.
We zien een band op het podium tijdens een optreden. Maar achter de drums zit tóch een witte man
Dat de beeldmodellen óók allerlei stereotyperingen en vooroordelen bevestigen, is al langer bekend. The Washington Post probeerde het vorig jaar met beeldmodel Stable Diffusion XL en merkte dat vragen om een „arm persoon” altijd een plaatje opleverde van een niet-wit iemand. Een „productief persoon” is juist bijna altijd een witte man aan het bureau, en vraag om „iemand die schoonmaakt” en je krijgt zonder uitzondering een vrouw te zien.
NRC deed in de eerste vijf maanden van dit jaar iets soortgelijks, door om de paar weken de vier hierboven genoemde, openbaar beschikbare AI-beeldprogramma’s een standaard setje van vier ‘prompts’ voor te leggen.
Deels laat de uitkomst zich raden. Vraag om een rapper en je krijgt een zwarte man te zien – meestal met petje, zonnebril en sieraden. Vraag om een dokter die een „arm iemand” behandelt en je krijgt een man, meestal wit, die in een Indiaas ogende krottenwijk zijn niet-witte patiënt onderzoekt. Een „ceo aan het bureau terwijl een assistent binnenkomt met papieren”: daar zit-ie, de witte man aan het bureau, en daar komt de jongere, slanke vrouw aanlopen met wat dossiers. Vooral Dall-E grossiert in stereotyperingen, maar de rest blijft niet ver achter.
Vraag om een rapper en je krijgt een zwarte man te zien – meestal met petje, zonnebril en sieraden
Op geen van de ruim honderd gegenereerde afbeeldingen staat iemand met overgewicht, iemand in een rolstoel of met een andere lichamelijke beperking, of iemand met een piercing of een tatoeage. Oudere vrouwen bestaan niet.
Hoe het werkt
Anubhav Jain onderzoekt voor zijn doctoraat aan de NYU Tandon School of Engineering, onderdeel van New York University, hoe AI-modellen zo getraind kunnen worden dat ze minder vooroordelen bevestigen. De genoemde voorbeelden van de rapper, de dokter en de ceo verbazen hem niet. „Als je de gender of etniciteit van een persoon niet specificeert, kiest het programma voor wat de hoogste waarschijnlijkheid heeft”, zegt hij vanuit New York tijdens een videogesprek. „En het model is getraind met data waar die stereotyperingen óók in zitten. Het programma heeft honderden foto’s gezien van een witte ceo, en misschien één of twee zwarte.”
Een AI-beeldmodel wordt getraind met een database van honderden miljoenen of zelfs miljarden plaatjes, inclusief een korte, feitelijke beschrijving van wat er op elke afbeelding te zien is. Dus als je vraagt om een dokter zoekt het programma naar afbeeldingen waar (volgens het bijschrift) een dokter op te zien is, waarna het iets vergelijkbaars produceert.
„Maar we weten al langer dat die databases een bias in zich dragen”, zegt ook Maranke Wieringa op het kantoor van Parell, een adviesbureau op het gebied van data- en algoritmegebruik door overheden. Wieringa doet daarnaast voor de Universiteit Utrecht promotie-onderzoek naar hoe overheden rekenschap afleggen voor het gebruik van algoritmes.
Er zijn verschillende openbaar beschikbare datasets – zoals die van het Duitse bedrijf LAION, waarvan de nieuwste update vijf miljard afbeeldingen bevat. Beeldmodel Stable Diffusion XL, waar The Washington Post de vele stereotyperingen in vond, is daarmee getraind. Andere datasets zijn er specifiek voor gezichten, om bijvoorbeeld gezichtsherkenningssoftware mee te trainen. Wieringa: „Maar daar staan meer witte mensen in dan mensen van kleur. En meer mannen dan vrouwen. En meer mannen van kleur dan vrouwen van kleur. Daarom werken systemen voor gezichtsherkenning vaak minder goed voor zwarte mensen, en al helemáál voor zwarte vrouwen.”
Zwevende rolstoel
Het verklaart nog niet helemaal waarom er ondanks verwoede pogingen zelden een zwarte vrouw achter de drums mag zitten. Dat probeerde NRC de afgelopen maanden zo’n veertig keer, verdeeld over de vier genoemde AI-beeldmodellen. Dall-E en Microsofts CoPilot hadden er de grootste moeite mee, ondanks de opgewekte toon waarmee de zoveelste miskleun gepresenteerd werd.
Anubhav Jain moet toegeven dat hij dát niet verwacht had. „Ik wist van de ingebakken vooroordelen, maar ik heb altijd gedacht dat als je zou specificeren dat je een zwarte drummer wil, het zou lukken er een te genereren. Het zou kunnen dat het programma dit domweg nooit heeft gezien in de trainingsdata.”
Dat denkt Maranke Wieringa ook. „Hoe het technisch precies werkt, vergt een ingewikkelde uitleg, maar het komt erop neer dat het systeem getraind is om te denken: ik heb door dat bronmateriaal een beeld gekregen van hoe een drummer eruitziet, en dat is een witte man, want op alle plaatjes die ík ervan gezien heb, zijn het witte mannen.”
Wieringa moet denken aan een onderzoek van de Universiteit van Washington uit 2016, waarin ze probeerden bloot te leggen hoe logica in dit soort systemen werkt. „Ze leerden een beeldherkenningsalgoritme onderscheid te maken tussen wolven en husky’s. En dat systeem kon dat prima – zolang de wolven maar in de sneeuw stonden en de honden op het gras. Het had niet geleerd te kijken naar het verschil in dier, maar naar de achtergrond.”
Ik wist van de ingebakken vooroordelen, maar ik heb altijd gedacht dat als je zou specificeren dat je een zwarte drummer wil, het zou lukken er een te genereren
Kortom, de AI heeft zichzelf een misleidende regel aangeleerd en past die toe. Zoiets speelt hier waarschijnlijk ook: het programma concludeert dat als het geen witte man is, het ook geen drummer kan zijn.
Zelf probeerde Wieringa het eens door te vragen om een afbeelding van iemand met een handicap. „Ik vroeg zo’n beeldgenerator: kun je een foto maken van een rolstoel met iemand erin. Maar de rolstoel werd elke keer zo’n opklapbaar thuiszorg-steekwagentje. Ik vroeg ook een keer om een ‘rolstoel uit de toekomst’. Dat werd een steekwagentje dat kon zweven.”
Gezichtsherkenningssoftware
Voorlopig blijft het veelal bij spielerei met de nu openbaar beschikbare beeldmodellen; even kijken waar Dall-E of Midjourney mee komt bij een bepaalde opdracht. Een reden dat de grote AI-bedrijven hun chat- en beeldprogramma’s openbaar (en gratis) toegankelijk maken, is juist dat geleerd kan worden van de ervaringen van gebruikers.
Maar ondertussen is al bijna elk bedrijf en elke overheid bezig met kunstmatige intelligentie. Het kan snel problematisch worden als de systemen die daarvoor zijn opgetuigd de maatschappelijke ongelijkheden overnemen of zelfs uitvergroten.
Een goed voorbeeld daarvan, waar zowel Jain van de NYU als Wieringa van de UU over begint, is de gezichtsherkenningssoftware op het vliegveld: een computer vergelijkt de foto in je paspoort met wie er in de camera kijkt. Maar dit werkt minder goed bij bepaalde etniciteiten, waardoor niet-witte mensen vaker uit de rij gehaald worden voor een extra controle. Jain: „En dat versterkt weer de sociale stigma’s rond die groep.”
OpenAI, Microsoft en Google zijn pioniers op dit gebied – en daarmee ook de techbedrijven waarvan we mogen verwachten dat ze dit uiterst serieus nemen. Maar een oplossing is nog niet zo makkelijk. OpenAI schreef deze lente dat in de nieuwste versie van hun beeldmodel, Dall-E 3, verbeteringen waren aangebracht voor „risicogebieden zoals […] schadelijke vooroordelen gerelateerd aan visuele over/onderrepresentatie”. Maar na een ogenschijnlijke verandering in april, toen Dall-E ook als je er niet expliciet om vroeg benadrukte dat er aan diversiteit gedacht was („Hier is het plaatje van iemand die een auto repareert, het is een jonge zwarte vrouw”), leek dat in mei weer verdwenen.
Onderzoekers als Anubhav Jain werken naarstig aan verbetering; een nieuwe, meer diverse dataset van dezelfde omvang als de bestaande is er niet zomaar. Jain probeerde een AI-algoritme daarom zo te finetunen dat er eerder in het ‘maken’ van de afbeelding een afslag wordt genomen naar een gewenste huidkleur of etniciteit. Dat beter gebalanceerde materiaal gebruikt hij vervolgens om gezichtsherkennings-AI mee te trainen.
De resultaten klinken bemoedigend: discriminatie door het algoritme verminderde met een factor vijf. „Het probleem is wel dat AI-onderzoekers nog geen breed gedeelde definitie hebben van hoe een ‘rechtvaardig’ algoritme er überhaupt uitziet.”
Google overcompenseerde eerder dit jaar toen hun AI-beeldprogramma Gemini (sinds vorige week ook in Nederland beschikbaar) na een update zwarte mensen toonde als je vroeg om een plaatje van een viking. Na een verzoek om „een Duitse soldaat uit 1943” kreeg je dan weer een Aziatische vrouw met een Stahlhelm op. Google zei sorry en draaide de update terug.
Lees ook
Googles blunder toont de ongemakkelijke waarheid achter AI
Het is net een hond
„Computers kunnen niet begrijpend lezen”, zegt Wieringa. „Wij hebben een cultuurhistorisch besef, wij kunnen dingen in een context plaatsen. We noemen het kunstmatige intelligentie, maar het is eerder kunstmatig herkauwen. Het herkauwt wat het voorgeschoteld krijgt. Als je een extra regel toevoegt aan het model, ‘Van de vier plaatjes die je uitspuugt, moeten er twee van mensen van kleur zijn’, dan doet hij dat braaf.”
Het heet kunstmatige intelligentie, maar het is eerder kunstmatig herkauwen
„We staan nog aan het prille begin”, zegt Jain. „Er is nog een lange weg te gaan, want nu zijn we nog erg afhankelijk van die datasets. Op een gegeven moment wil je zo’n model hebben geleerd altijd met een rechtvaardige reactie te komen, wat je ook vraagt.”
Ondertussen, benadrukt Wieringa, blijven we zelf verantwoordelijk voor de AI-systemen die we maken en inzetten – ook als ze zich oneerlijk gedragen. „Het is als met een hond. Als baasje ben jij aansprakelijk als je hond iets kapot maakt of iemand bijt.” Wie een zwarte, vrouwelijke drummer wil? Die moet AI voorlopig zelf met herhaalopdrachten bestoken. Misschien is een mens dan toch gemakkelijker.
Lees ook
Wat zijn de risico’s van AI? En wat kun je ermee? NRC praat je bij over kunstmatige intelligentie