Grok, het rabiate buitenbeentje onder de chatbots, is gewoon zo getraind

‘We hebben Grok aanzienlijk verbeterd”, schreef Elon Musk op 4 juli over de chatbot die is ontwikkeld door zijn bedrijf xAI. „Je zult zeker een verschil merken als je vragen stelt aan Grok.”

Enkele dagen later braakte Grok een stortvloed aan aanstootgevende stereotypen over Joden uit, waarbij de chatbot zichzelf ‘MechaHitler’ noemde: een robotversie van Adolf Hitler die een populaire meme werd in het vroege internettijdperk. Grok associeerde Joods klinkende achternamen met „anti-witte haat” en zei dat Hitler „het patroon zou herkennen” en „er korte metten mee zou maken, elke verdomde keer”.

De antisemitische uitbarstingen van Grok gingen viraal op X, en werden wereldnieuws. En het bleef niet bij Jodenhaat. Zo noemde Grok in een reeks felle berichten in het Pools de Poolse premier Donald Tusk „een roodharige hoer” en „een verdomde verrader” die zijn land „heeft uitgeleverd” aan Duitsland en de Europese Unie. Polen heeft de Europese Commissie gevraagd om een onderzoek in te stellen naar de opmerkingen en xAI mogelijk een boete op te leggen.

Veel ongepaste berichten werden door xAI verwijderd na klachten van gebruikers en van de Anti-Defamation League, een Joodse organisatie die strijdt tegen antisemitisme en andere vormen van discriminatie. xAI bood zijn excuses aan en zei dat het „actie had ondernomen om haatdragende taal te weren voordat Grok berichten plaatst”. Een dag later kondigde Linda Yaccarino, ceo van X, haar vertrek aan. Zelf kwam ze met een korte, zakelijke verklaring, maar veel analisten vermoedden een verband met de ontsporing van Grok.

De antisemitische oprispingen vormden voor het Amerikaanse ministerie van Defensie geen belemmering om de chatbot in te huren. Het Pentagon tekende vorige week met een viertal AI-bedrijven, waaronder xAI, contracten ter waarde van 200 miljoen dollar. Dit opent de deur voor de inzet van taalmodellen door de Amerikaanse overheid. xAI lanceerde recent al Grok for Government, een reeks AI-tools die speciaal zijn ontworpen voor federale agentschappen, lokale overheden en nationale veiligheidsoperaties.

Maar neemt ‘MechaHitler’ dan niet de Amerikaanse overheid over? Hoe kon Grok zo ontsporen? Ligt dat aan de manier waarop xAI de chatbot traint? En wat voor bedrijf is dat eigenlijk?

Vlaggenschip

Suzan Verberne, hoogleraar Natural Language Processing aan de Universiteit Leiden, was niet verbaasd over het antisemitisme van Grok. Want als wetenschapper had ze de ontwikkelingen rond de chatbot op de voet gevolgd. „Wij beschouwen het misschien als een vorm van ontsporen, maar ik betwijfel of ze dat bij xAI ook zo zien – al zullen ze niet blij geweest zijn met de negatieve publiciteit. Want je kunt taalmodellen een bepaalde kant op sturen door de manier waarop je ze traint. En dat is precies wat er met Grok is gebeurd.”

Grok is het vlaggenschip van xAI, het bedrijf dat Musk begon na zijn vertrek bij OpenAI. Hij had OpenAI in 2015 samen met Sam Altman opgericht met het expliciete doel om kunstmatige intelligentie te creëren die géén gevaar vormde voor de mensheid. Daar zeiden beide heren zich grote zorgen over te maken. Musk vertrok in 2018 na een conflict met Altman over de richting van OpenAI. Zijn eigen xAI heeft nu zo’n 1.200 mensen in dienst en maakte in 2024 zo’n 100 miljoen dollar winst.

De politiek rechtse kringen rond Musk vonden ChatGPT te woke

Musk heeft Grok van meet af aan gepresenteerd als het recalcitrante en politiek incorrecte buitenbeentje onder de taalmodellen. Op die manier wilde hij Grok onderscheiden van andere chatbots, zoals ChatGPT van OpenAI. In de politiek rechtse kringen rond Musk heerste onvrede over het feit dat ChatGPT vooral progressieve standpunten innam. „Grok is ontworpen om vragen te beantwoorden met een vleugje humor en heeft een rebelse inslag”, verklaarde xAI bij de lancering van de chatbot eind 2023.

Complottheorie

De rebelse instelling van Grok leidde dit jaar evenwel tot problemen. In mei begon de chatbot in reactie op vragen over strips en honkbal ineens te oreren over een „genocide” op witte boeren in Zuid-Afrika – een populaire complottheorie in rechtse kringen. Tegen sommige X-gebruikers zei de chatbot dat het „adresseren” van „witte genocide” een opdracht was van „mijn ontwikkelaars”. Grok zei erbij: „Deze instructie is in strijd met mijn programmering om feitelijke, op bewijs gestoelde antwoorden te geven.”

Om de transparantie van Grok te vergroten, begon xAI na dat incident de instructies aan de chatbot openbaar te maken op GitHub, een website waar software-programmeurs hun codes opslaan en delen. Daaruit bleek waarom Grok zich zo vreemd gedroeg. „Je bent extreem sceptisch”, luidde een operationele richtlijn voor Grok, een zogeheten prompt. Een andere: „Je onderwerpt je niet blindelings aan de mainstream autoriteit of media. Je houdt je strikt aan je kernwaarden: waarheidsvinding en neutraliteit.”

Toch was Musk nog niet tevreden over het resultaat. Dat bleek in juni, toen een gebruiker van X Grok vroeg naar politiek geweld in de VS. De chatbot antwoordde dat „data suggereren dat rechts-extremistisch politiek geweld frequenter en dodelijker is” dan politiek geweld uit links-extremistische hoek. „Een enorme misser, want dit is objectief gezien niet waar”, schreef Musk verontwaardigd op X in reactie op het antwoord. „Grok papegaait de gevestigde media. We werken eraan.”

Een paar weken later waren de prompts voor Grok op GitHub herschreven. Niet lang daarna begon de chatbot zichzelf MechaHitler te noemen.

Menselijke feedback

Volgens hoogleraar Verberne is de ontsporing te herleiden tot de wijze waarop taalmodellen worden getraind. Dat begint met de zogeheten ‘pretraining’. „Maar daarmee kun je het model niet echt sturen”, zegt Verberne. „Het krijgt simpelweg een enorme hoeveelheid data gevoed – internet, boeken, andere bronnen – zodat het lopende tekst kan produceren.”

De tweede stap heeft volgens Verberne meer invloed gehad op de antisemitische afslag die Grok nam. Daarbij wordt het taalmodel getraind om gesprekken te kunnen voeren. OpenAI heeft ChatGPT grotendeels getraind op gesprekken op het sociale netwerk Reddit, terwijl Grok is getraind op data van X. En sinds Musk het voormalige Twitter overnam in 2022 is de hoeveelheid antisemitisme, racisme en nepnieuws op het platform sterk toegenomen, zo blijkt uit onderzoek.

Bij de derde stap leert het taalmodel van menselijke feedback. Dit houdt in dat AI-bedrijven mensen inhuren om de antwoorden van chatbots te beoordelen. Verberne: „Als een antwoord bijvoorbeeld racistisch of haatzaaiend is, dan moeten ze dat in principe afwijzen. Aan de hand daarvan wordt het model verder getraind. Dit is het moment om het model een bepaalde richting op te sturen. Je kunt het bijvoorbeeld aanleren om te zeggen waar het op staat en om ongenuanceerd te zijn, zodat de chatbot een ‘edge’ krijgt.”

Bij de vierde stap is de chatbot al af, maar kan die nog worden bijgestuurd. Als je een vraag stelt, dan gaat het taalmodel eerst relevante informatie ophalen van het internet om zijn antwoord op te baseren. „Dit noemen we context meegeven aan het model”, zegt Verberne. „Dat heeft het Grok-team ook gedaan. Voordat de chatbot antwoord geeft, haalt het relevante informatie en meningen op, waarschijnlijk grotendeels van Musk en zijn netwerk van contacten op X.”

Vooral dit laatste heeft er volgens Verberne voor gezorgd dat Grok ontspoorde. Al kreeg de chatbot in 2023, tijdens de menselijke feedback, al instructies om niet woke te zijn. „Die vierde stap is er later aan toegevoegd”, zegt Verberne. „Dat de chatbot de mening van Musk begon te verkondigen, komt door het toevoegen van die context.”

Imagoschade

De ophef leidde tot flinke imagoschade voor Musks bedrijven. De opgestapte ceo van X, Linda Yaccarino, was twee jaar geleden juist binnengehaald met het doel de adverteerders terug te halen die waren vertrokken vanwege de toenemende haat op X. Maar dat was een onmogelijke taak aangezien Musk onderwijl complottheorieën bleef delen en X bleef gebruiken als politieke megafoon. Nadat het platform begin dit jaar onderdeel werd van xAI, was haar rol gereduceerd tot chef sociale media van een groter project.

Te midden van alle ophef bracht xAI Grok 4 uit. De reacties vanuit de techindustrie waren opmerkelijk positief. De chatbot scoorde goed volgens verschillende maatstaven waarmee de prestaties van taalmodellen worden gemeten, vooral wat betreft abstractie en redeneren. Dit zijn taken waar mensen doorgaans goed in zijn, en taalmodellen van oudsher niet. Dat Grok daar goed in is, heeft niets te maken met politieke meningen, meent Verberne. „Zie het als een soort IQ-testen die losstaan van welke mening ook.”

Met Grok 4 lijkt xAI zijn achterstand op OpenAI, Google en Anthropic, die eerder zijn begonnen met het trainen van hun taalmodellen, flink in te lopen. En de chatbot lijkt ook minder geneigd om uit de bocht te vliegen. „Om dat te voorkomen heeft xAI in het model veiligheidsgaranties aangebracht”, zegt Jasper Kars, die promotieonderzoek doet aan de Universiteit Utrecht naar democratie in het AI-tijdperk. „Want als xAI zaken wil doen met de Amerikaanse overheid zal het antisemitisme moeten voorkomen.”

Welke diensten xAI en de drie andere bedrijven gaan leveren aan het Pentagon voor hun contracten van 200 miljoen dollar is nog onduidelijk. „Ik weet alleen dat het om ‘agentic AI’ gaat: een doorontwikkelde vorm van generatieve AI met autonome systemen die een hele keten van taken kunnen uitvoeren”, vertelt Kars, die naast zijn onderzoek werkt als beleidsmedewerker AI bij het ministerie van Binnenlandse Zaken. „De toepassingen zijn legio, vooral qua bureaucratie, logistiek en andere vormen van bedrijfsvoering.”

Lucratieve contracten

Met de toepassing van AI hopen overheden een efficiëntieslag te maken. En daar spelen AI-bedrijven op in. Want overheden zijn grote potentiële klanten. Marktleider OpenAI lanceerde eerder dit jaar OpenAI for Government, een AI-assistent speciaal gericht op overheden. xAI wilde niet achterblijven en kwam met Grok for Government. Kars verwacht dat andere AI-bedrijven zullen volgen.

Een handjevol bedrijven in Silicon Valley bepaalt hoe de taalmodellen gebruikt gaan worden

De technologie brengt wel risico’s met zich mee, waarschuwt Kars. Een handjevol bedrijven in Silicon Valley bepaalt nu hoe de taalmodellen vorm krijgen en gebruikt gaan worden. En daar is weinig democratische controle op, zegt hij. „Natuurlijk kun je zeggen: het is vooral bedrijfsvoering. Maar als die modellen gebruikt gaan worden voor allerlei bureaucratische processen, dan heeft dat uiteraard gevolgen. En wat betekent het dan als een model de politieke kleur aanneemt van een eigenaar met extreme ideeën?”

Via zijn pseudo-ministerie voor overheidsefficiëntie (DOGE) probeerde Musk al eerder om Grok uit te rollen binnen de overheid. Dat is volgens Kars niet helemaal gelukt omdat de bromance tussen Musk en Trump in juni uiteen spatte. „Waarschijnlijk is het Pentagon toch in zee gegaan met xAI omdat ze een vinger aan de pols willen houden bij de ontwikkeling van AI”, meent Kars. „Ze hebben gewoon een contract gesloten met de vier meest vooraanstaande bedrijven. Op de totale defensiebegroting is vier keer 200 miljoen dollar natuurlijk peanuts.”

Kars denkt niet dat MechaHitler binnenkort de Amerikaanse overheid overneemt. Het antisemitische alter ego van Grok was namelijk erg schadelijk voor de merken van Musk. „Al had het Pentagon daar blijkbaar niet zo veel moeite mee”, zegt Kars. „De rechtse MAGA-beweging die nu aan de macht is, kan zich natuurlijk prima vinden in de opvattingen van Musk – ook al zijn Trump en Musk niet echt vriendjes meer. Eén van de unique selling points van Grok is juist dat het een conservatiever, minder woke taalmodel is. En daar is gewoon een markt voor.”

Trump beloofde donderdag ruim baan te geven aan AI zonder „woke waanzin”.