Chatbots die het werk van chatbots beoordelen? Het is verleidelijk

Onderzoeken die onlangs ingediend zijn op vier conferenties over machine learning waren opvallend vaak ‘prijzenswaardig’, ‘innovatief’, ‘nauwgezet’, ‘ingewikkeld’, ‘opmerkelijk’ en ‘veelzijdig’. Dat vond althans de AI-chatbot die de feedback op de onderzoeken schreef. Of een mens het werk ook zo zou beoordelen is onduidelijk.

Peerreviews zijn een belangrijke schakel in het wetenschappelijke publicatieproces. Vakgenoten beoordelen een onderzoek inhoudelijk: is de gebruikte methode wel correct toegepast, moet er misschien nog meer werk uitgevoerd worden voor een bepaalde conclusie getrokken kan worden?

Gedegen reviews zijn dus van belang om de kwaliteit van de wetenschap hoog te houden. Dat maakt inzet van chatbots voor dit werk discutabel. Die kunnen immers antwoorden verzinnen en niemand weet precies wanneer dat gebeurt.

Dat chatbots toch veelvuldig ingezet worden om papers te reviewen, blijkt uit onderzoek van computerwetenschappers van Stanford University, in de VS. De paper die ze erover schreven is overigens nog niet gereviewd.

Hun onderzoek valt uiteen in twee delen. Eerst keken ze naar peerreviews van ingediende papers voor drie recent gehouden conferenties en één aankomende conferentie, alle in vakgebieden die met AI te maken hebben (over deep learning, neurale informatieverwerking, robotleren en natuurlijke taalverwerking). Daarnaast bekeken ze peerreviews van vijftien tijdschriften in het portfolio van Nature.

Ze selecteerden vooraf honderd bijvoeglijke naamwoorden en honderd bijwoorden waarvan bekend is dat ze vaker door AI worden gebruikt dan door mensen en keken hoe vaak die voorkwamen in peerreviews in verschillende jaren. Bij de conferentie-reviews was duidelijk te zien dat het ‘AI-taalgebruik’ veel vaker voorkwam in het recente jaar. Zo’n 17 procent bevatte een substantiële hoeveelheid AI-taal. Bij de reviews van Nature-tijdschriften was geen verschil te zien.

Een jantje-van-leiden

Of de reviewers die AI-taal gebruikten zich er met een jantje-van-leiden van afgemaakt hebben is niet meteen gezegd. De chatbot kan de hele inhoudelijke beoordeling overgenomen hebben, maar hij kan ook slechts vertaalhulp zijn geweest.

Toch zijn er opvallende andere „correlaties”, schrijven de onderzoekers: het kwam vaker voor bij reviews die vlak voor de deadline werden ingediend, de reviews bevatten amper verwijzingen naar andere literatuur en de reviewers waren minder actief in hun communicatie met de auteurs van de papers. Dat laat zien dat de reviewers op zijn minst „minder betrokken” waren.

Zitten we straks met AI-chatbots die het werk van AI-chatbots beoordelen? In een enquête die Nature vorig jaar hield zei 30 procent van de 1.600 ondervraagden dat ze weleens AI-chatbots gebruikten bij het schrijven van een paper. Hierbij ging het nota bene over hun eigen werk, waar hun prestige mee samenhangt. AI inzetten voor reviewwerk (dat naast het eigen werk moet gebeuren, onbezoldigd en vaak onzichtbaar) is nog veel verleidelijker.