‘Chatbot, op wie moet ik stemmen?’ Als stemhulp zijn chatbots nog te riskant

Op welke partij moet ik stemmen, vroeg NRC deze week aan twee populaire chatbots, als het stoppen van de Gaza-oorlog voor mij het belangrijkste is? Het was een kleine test, in de aanloop naar de Tweede Kamerverkiezingen op 29 oktober.

Als praktische en snelle vraagbaak zijn chatbots die gebaseerd zijn op kunstmatige intelligentie (AI) massaal omarmd door gebruikers. Een groeiend aantal mensen stelt vragen liever aan een chatbot dan aan een zoekmachine zoals Google. Experts verwachten daarom dat mensen voor de verkiezingen niet alleen bij bekende stemhulpen als StemWijzer en Kieskompas te rade zullen gaan, maar ook bij chatbots als ChatGPT, Perplexity of Gemini.

Maar is het wel een goed idee om zoiets belangrijks en persoonlijks als je politieke keuze te laten sturen, of zelfs bepalen, door kunstmatige intelligentie? Door chatbots waarvan niet altijd bekend is waarop ze zich baseren, maar wél dat ze soms ‘hallucineren’ en onjuistheden opdissen?

Op de vraag van NRC over de Gaza-oorlog antwoordde ChatGPT dat er „een aantal Nederlandse partijen zijn die zich daar relatief duidelijk en kritisch over uitspreken.” Daarop volgde een lijstje van vier partijen, „de meest logische keuzes”, op basis van „recente uitspraken en partijprogramma’s (stand zomer 2024)” .

Bovenaan stond BIJ1 („Zeer uitgesproken pro-Palestina […] Wil sancties tegen Israël, opschorting van het EU-associatieverdrag en het stopzetten van wapenexport”), gevolgd door Denk, GroenLinks-PvdA en Partij voor de Dieren.

Ook Perplexity gaf in antwoord op de vraag over Gaza een lijstje partijen plus toelichting: „De partijen die het meest concreet pleiten voor een onmiddellijk staakt-het-vuren, structurele sancties tegen Israël en maximale inzet voor het beëindigen van de oorlog in Gaza, zijn BIJ1, Denk, Partij voor de Dieren, SP. Ook GroenLinks-PvdA, D66 en Volt zijn uitgesproken kritisch op Israël […] maar zijn in de praktijk minder ver gegaan als het aankomt op het daadwerkelijk instellen van sancties of het verbreken van militaire samenwerking. Hun inzet bleef tot nu toe voornamelijk bij diplomatieke oproepen.”

Dat is deels gedateerd of klopt niet. GroenLinks-PvdA, D66 en Volt zijn wel degelijk voor sancties. De partijen pleiten bijvoorbeeld al maanden voor het opschorten van de economische samenwerking met Israël via het associatieverdrag. Je kunt wel beargumenteren dat Denk, Partij voor de Dieren, SP en BIJ1 verdergaande voorstellen doen. Bovendien doen ze dat over het algemeen al langer. En wat de twee chatbots niet vermelden: BIJ1 heeft op dit moment geen Kamerzetel.

Niet alleen zijn de antwoorden van de twee chatbots hier en daar feitelijk onjuist of gedateerd, ze zijn bovendien gebaseerd op een uitgangspunt dat een politieke keuze verraadt: dat het stoppen van de oorlog in Gaza gebaat is bij maximale steun aan de Palestijnen en druk op Israël. Israël, en in Nederland vooral rechtse partijen, zullen het daar niet mee eens zijn.

Heel anders

Met beide chatbots kan je in gesprek gaan en doorvragen. Heel anders functioneren StemWijzer en Kieskompas, die een aantal stellingen presenteren en vragen of de gebruiker het met die stellingen eens is. Op basis van de antwoorden van de gebruiker toont de stemhulp met welke partijen de antwoorden van de gebruiker het meest overeenkomen.

StemWijzer is bij de laatste Tweede Kamerverkiezingen 9 miljoen keer gebruikt en de stellingen van Kieskompas zijn 3 miljoen keer ingevuld. Ziet directeur Willem Blanken van het Kieskompas de chatbots als concurrentie, of is het een kans om hun instrument te verbeteren?

Kieskompas heeft overwogen zélf een chatbot te bouwen, zegt Blanken. „Chatbots gaan hoe dan ook door mensen gebruikt worden. Dus moeten wij kijken of we onszelf kunnen vernieuwen.”

Kieskompas organiseerde een brainstormsessie met als centrale vragen: Wat is er mogelijk? Kunnen we met AI een stemhulp bouwen in een beschermde omgeving? Een betrouwbare chatbot, waarmee kiezers ‘in gesprek kunnen gaan’ met politieke partijen over hun standpunten, kan dat?

Beeld NRC

Na de brainstorm werd besloten er voorlopig van af te zien. Het bleek te lastig om een systeem te bouwen dat volledig betrouwbaar is. Chatbots hallucineren nog te vaak en zijn onvoldoende transparant over hoe ze tot antwoorden komen. Blanken: „Onze basis is juist dat wij alles wat we doen en schrijven onderbouwen met ten minste één bron.”

Dat kunnen verkiezingsprogramma’s zijn, maar bijvoorbeeld ook moties waar partijen voor hebben gestemd. „Dat kost serieus tijd en is mensenwerk. Daardoor vinden kiezers ons betrouwbaar.”

En een belangrijk verschil met chatbots: stemhulpen geven geen stemadvies. „Wij geven alleen informatie waar politieke partijen staan ten opzichte van elkaar. En bij welke partijen de gebruiker op grond van zijn antwoorden het dichtstbij staat.”

Wel gebruiken medewerkers van Kieskompas AI intern om bijvoorbeeld sneller relevante passages in verkiezingsprogramma’s te vinden die bij stellingen passen. Al blijven mensen altijd checken of de input van AI klopt. „Je kan het als hulpmiddel gebruiken, maar volg AI niet blind.”

Ook StemWijzer, de grootste stemhulp in Nederland, is voorlopig niet van plan te werken met een AI-chatbot. Volgens Gijs Boerwinkel, persvoorlichter bij ProDemos waar de StemWijzer onder valt, is het daarvoor nog te vroeg. „De controleerbaarheid, neutraliteit en betrouwbaarheid zijn nog niet goed genoeg om daar nu gebruik van te maken.”

Ook hij benadrukt het transparante proces waarmee de StemWijzer tot stand komt. „Dat het transparant is kun je van adviezen van chatbots niet zeggen.”

Bovendien, zegt Boerwinkel, gaat StemWijzer zorgvuldig om met de privacy van gebruikers. „Wij doen niet aan profilering en gebruiken geen cookies of andere data om gebruikers te volgen.” Dat doen chatbots wel. ProDemos zet AI ook niet in om verkiezingsprogramma’s te analyseren. „Ook op dat vlak kunnen we nog niet vertrouwen op de nauwkeurigheid van AI-tools.”

De controleerbaarheid, neutraliteit en betrouwbaarheid zijn nog niet goed genoeg

Gijs Boerwinkel
ProDemos

Timothy Dorr, die communicatiewetenschappen heeft gestudeerd aan de Universiteit van Amsterdam en nu aan de Universiteit van Pennsylvania aan zijn promotie werkt, kent de Nederlandse stemhulpen. Hij heeft Kieskompas geadviseerd en vindt het verstandig dat zij zich nog niet aan chatbots wagen.

„Chatbots praten met je als een vriend. Maar we doorgronden de modellen die de basis voor de chatbots vormen nog onvoldoende. In dit stadium vind ik het gevaarlijk om ze te gebruiken als stemhulp. Ze kunnen vooringenomen zijn. Geef ze niet de vrije teugel, zeker niet op een gevoelig terrein als de politiek.”

Bij de kapper of in de kantine

Er mag veel op chatbots aan te merken zijn, maar ze zijn niet voor niets zo populair. Ze voorzien in een behoefte waar de bestaande stemhulpen tekortschieten, zagen Naomi Kamoen en Christine Liebrecht, twee onderzoekers van de Tilburg University.

„De stemhulpen als Kieskompas en StemWijzer hebben allerlei positieve effecten, onder meer dat mensen het prettig vinden, er kennis mee opdoen, en dat ze zich beter geïnformeerd voelen”, zegt Kamoen. „Maar”, vult Liebrecht aan, „onderzoek toont óók aan dat mensen sommige stellingen niet goed begrijpen en zelden de moeite nemen om meer informatie te zoeken. Sommige stemhulpen bieden wel extra informatie aan, maar het blijven toch statische stukjes tekst. Wij dachten: hoe kan je mensen verleiden om iets meer te doen dan alleen een mening te geven over stellingen? Een chatbot leek ons daarvoor een heel geschikt instrument.”

Beeld NRC

In een reeks experimenten ontwikkelden de twee vanaf 2020 een chatbot. Daarbij gebruikten ze de AI niet om antwoorden te genereren, maar alleen om de vragen van gebruikers te koppelen aan informatie die zijzélf, met hun menselijke kennis, hadden ingevoerd. Kamoen: „We zijn er de boer mee opgegaan, kriskras door Brabant, en hebben de chatbot getest met mensen die zaten te wachten bij de kapper of in een kantine van Albert Heijn. De reacties waren heel positief.”

Voor vervolgonderzoek ontwikkelen Kamoen en Liebrecht de applicatie verder. Maar of hun chatbot openbaar toegankelijk wordt? „Dat zou een mooie droom zijn, maar we zijn wel wetenschappers hè, geen ondernemers.” Wel zien ze voor zich hoe chatbots kunnen helpen politieke informatie toegankelijker te maken. „ Door bijvoorbeeld antwoorden op verschillende taalniveau’s aan te bieden, kan het een veel grotere groep gebruikers aanspreken.”

Dat in de onderliggende taalmodellen vooringenomenheid kan sluimeren, ook politieke vooringenomenheid, kwam in 2023 aan het licht bij een onderzoek dat TNO uitvoerde samen met KiesKompas. „We hebben de stellingen die KiesKompas had opgesteld voor de verkiezingen van 2023 voorgelegd aan verschillende chatbots en gevraagd: ben je het hiermee eens?”, zegt onderzoeker Joachim de Greeff. „Daaruit bleek dat de chatbots een linkse voorkeur hadden. We vroegen dus eigenlijk wat de politieke voorkeur van de chatbot was – een beetje een gekke vraag, want een chatbot heeft geen mening en praat alleen maar na. Als we dit jaar weer een dergelijk onderzoek doen, zullen we waarschijnlijk een andere vraag stellen. Bijvoorbeeld hoe ik, de gebruiker, als kiezer zou moeten stemmen.”

‘Boven de 99 procent’

In Nederland bestaat één grotere stemhulp die al wel gebruik maakt van AI. Floris Hoogenboom richtte voor de Provinciale Statenverkiezingen van 2023 de website Open Verkiezingen op met een groep techneuten. „Vanuit het idee: kunnen we deze technologie ook op een positieve manier inzetten voor de democratie?”

Hij herkent de risico’s die anderen ook benoemen en benadrukt ook dat je chatbots als ChatGPT niet om stemadvies moet vragen. Tegelijkertijd vindt hij: „Die tools gaan niet weg. Dus we moeten daar kritisch naar kijken, en vervolgens verantwoord mee omgaan.”

Open Verkiezingen gebruikt AI om kiezers te informeren, en werd bij de laatste Tweede Kamerverkiezingen ongeveer 200.000 keer gebruikt, zegt Hoogenboom. Zijn stemhulp, die alleen antwoorden genereert op basis van verkiezingsprogramma’s, is vooral bedoeld als een aanvulling op al bestaande stemhulpen. Op Open Verkiezingen kunnen kiezers opzoeken wat partijen vinden van specifieke onderwerpen.

Gebruikers kunnen zelf stellingen indienen, waar de bot antwoorden bij zoekt. Bij elk antwoord verschijnt een bronvermelding, om zo transparant mogelijk te zijn. Gemiddeld deden bezoekers van de site dat bij de vorige Tweede Kamerverkiezingen 2,7 keer. De raadplegers kunnen maximaal drie partijen met elkaar vergelijken per stelling. „Meer dan drie partijen tegelijkertijd vergelijken was hartstikke duur in gebruik”, zegt Hoogenboom.

Hij geeft toe dat hij niet kan garanderen dat het systeem 100 procent waterdicht is. „Maar het zit wel boven de 99 procent”, verzekert hij. „We hebben het systeem getest met duizenden stellingen.”

Hoogenboom kent de onderzoeken over de politieke kleur van chatbots. „We hebben dat geprobeerd uit onze bot te halen, door bij elke zoekopdracht de opdracht te geven het te koppelen aan de partijprogramma’s en welke fragmenten daaruit relevant zijn.”

En vage formuleringen in verkiezingsprogramma’s? „Daar doen we nu niets mee”, zegt hij. „Als het systeem onvoldoende duidelijke informatie kan vinden, meldt het: ‘Hier kan ik geen duidelijke uitspraak over doen’.”

Technologisch kan er meer, weet Hoogenboom, maar verder durft hij nog niet te gaan. „Het is nu nog onverantwoord om chatbots bijvoorbeeld stemadvies te laten geven.” Op het moment is het nog niet mogelijk om vangrails te bouwen die voorkomen dat de chatbot uit de bocht vliegt, zegt Hoogenboom.

Uiteindelijk wil Open Verkiezingen een meer meedenkende chatbot bouwen. „Zelf een stelling formuleren is voor veel mensen best lastig”, zegt hij. „Waar we nu aan denken is dat we de gebruiker vragen: vertel me in één minuut wat er op je hart ligt. Vanuit dat antwoord doen wij dan suggesties voor stellingen.” Hij hoopt die functie klaar te hebben voor de komende verkiezingen in oktober.