N.B. Het kan zijn dat elementen ontbreken aan deze printversie.
Kunstmatige intelligentie Hoe goed is ChatGPT in Nederlands, rechten, biologie en programmeren? Vier hoogleraren zochten het uit.
Afgelopen maart schreven Microsoft-onderzoekers in het nog niet peerreviewed artikel Sparks of Artificial General Intelligence: Early experiments with GPT-4: „Wij tonen aan dat GPT-4 niet alleen taal beheerst, maar ook nieuwe en moeilijke taken kan oplossen op het gebied van wiskunde, programmeren, geneeskunde, recht, psychologie en nog veel meer, zonder dat daarvoor speciale aanwijzingen nodig zijn. Bovendien komen de prestaties van GPT-4 in al deze taken opvallend dicht in de buurt van prestaties op menselijk niveau.”
GPT-4 is het taalmodel dat aan de basis ligt van de meest recente versie van ChatGPT, een AI-systeem dat teksten schrijft op basis van een stukje invoertekst en dat sinds de lancering in november 2022 voor een storm aan opwinding heeft gezorgd. Die storm is inmiddels wat geluwd en onderzoekers uit talloze wetenschapsgebieden hebben ermee kunnen experimenteren. NRC vroeg hoogleraren uit vier vakgebieden naar hun eerste experimenten met ChatGPT en de betekenis ervan voor hun wetenschapsgebied.
Marc van Oostendorp:
‘Op wetenschappelijk niveau zie je dat ChatGPT de taalkunde op zijn kop zet’
„Mijn eerste experiment deed ik met ChatGPT gebaseerd op GPT-3.5. Dit systeem haalde 33 van de 60 punten en is daarmee op net gezakt. Maar toen ik het experiment opnieuw deed met de op GPT-4 gebaseerde ChatGPT slaagde het programma wel, met iets van een 8 of zelfs 8,5. Voor het vwo-eindexamen Frans haalde ChatGPT ook ruim een 8, maar de sessie voor Fries was heel bedroevend met zelfs bizarre antwoorden.
„Ik had een jaar geleden niet voorspeld dat er nu een computer zou zijn die het vwo-eindexamen Nederlands min of meer haalt. De antwoorden varieerden wel tussen ‘ik ben verbaasd dat een computer dit goed heeft’ en ‘wat een rare fout’. Het systeem is betrekkelijk goed in het analyseren van de vragen, maar niet zo goed in het begrijpen van het genre van het examen zelf.
„Het centraal examen gaat over meetbare aspecten van omgaan met teksten zoals het herkennen van argumentatieschema’s, drogredenen en verbanden tussen alinea’s. Natuurlijk kun je de vraag stellen of ChatGPT de tekst echt begrijpt als deze dat allemaal kan, maar die vraag werd ook vóór ChatGPT al gesteld als het gaat over scholieren. ‘Begrijpend lezen’ van het eindexamen is misschien niet écht begrip. Dat is bijvoorbeeld ook een tekst in de context kunnen plaatsen, zoals aan welk debat de auteur van dit stuk meedoet, of nog wat ingewikkelder teksten lezen dan de opiniestukken uit het centraal eindexamen: literaire teksten bijvoorbeeld.
„Op wetenschappelijk niveau zie je dat ChatGPT de taalkunde op zijn kop zet. Decennialang woedt er al een debat of en in hoeverre taal aangeboren is. Sommige wetenschappers zeggen dat ChatGPT laat zien dat het idee van aangeborenheid onzin is. Andere wetenschappers zeggen weer dat ChatGPT weliswaar menselijke taal kan leren, maar net zo goed onmenselijke taal, bijvoorbeeld een taal waarin je elke lettergreep nummert, en dan de klemtoon legt op lettergrepen die een priemgetal zijn. Mensen kunnen dat niet, computers wel.
„Bij kunstmatige intelligentie zijn er altijd verschuivende grenzen: eerst gold schaken als de hoogste vorm van menselijke intelligentie, daarna het spel go, en als dat ook blijkt opgelost, kiezen we weer een nieuwe grens. Zoiets gebeurt er nu ook bij tekstbegrip. Ik vind het heel interessant hoe ons denken over ons denken steeds preciezer wordt doordat we het moeten afzetten tegen wat computers wel of niet kunnen.”
Anne Meuwese
‘De meest ingewikkelde wetgeving moet nieuwe problemen oplossen. Dat kan een systeem zoals ChatGPT niet’
„Ik gaf ChatGPT de volgende opdracht: schrijf een wetsbepaling die gevaarlijke honden verbiedt. Over dit onderwerp bestaat nog geen wetgeving in Nederland, maar het is niet vreemd om er wetgeving over te maken. ChatGPT kwam met een artikel verdeeld in negen subartikelen.
„Wat direct opviel, is dat het een korte en sterk gesimplificeerde wettekst is die relatief slecht is in formele, juridische aspecten. Zo luidt het achtste subartikel: ‘Overtreding van de bepalingen van deze wet is strafbaar en kan leiden tot een boete of het intrekken van de vergunning’. Een begrip als ‘strafbaar’ zou nader gespecificeerd moeten worden. Wat ontbreekt zijn verwijzingen naar artikelen in het Wetboek van Strafrecht. Het intrekken van een vergunning geldt ook niet als straf.
„Tegelijkertijd komt ChatGPT inhoudelijk met best interessante suggesties, zoals het idee van een vergunning. In het tweede subartikel schrijft ChatGPT: ‘Het is verboden om een gevaarlijke hond in Nederland te houden, te bezitten of onder zijn controle te hebben, tenzij de eigenaar of verzorger in het bezit is van een geldige vergunning, afgegeven door de gemeente waarin de hond verblijft.’ Aan de andere kant is het cruciale punt hoe je definieert wat een gevaarlijke hond is, en dat werkt ChatGPT helemaal niet uit.
„Mijn belangrijkste kritiekpunt is dat het moeilijke aan het maken van een wetsbepaling niet het schrijven van de tekst is, maar het nadenken over hoe de wet past in het juridische systeem, welke definities je hanteert en welke regels je precies wilt maken. De meest ingewikkelde wetgeving moet nieuwe problemen oplossen, denk aan wetgeving over stikstofuitstoot, en daarvoor is vaak een nieuwe manier van denken nodig. Dat kan een systeem zoals ChatGPT niet, want het is alleen getraind op data uit het verleden. Ik denk daarom niet dat ChatGPT voor het schrijven van wetten veel tijd kan besparen.
„Misschien kan ChatGPT wel voor inspiratie zorgen door opties op een rij te zetten of door te putten uit vergelijkbare buitenlandse wetgeving, maar dat is altijd iets wat er al is. Waar ChatGPT ook bij kan helpen, is het herschrijven van minder formele teksten, bijvoorbeeld in een iets andere stijl. Ik vind wel dat organisaties, en zeker overheden, goed moeten nadenken of ze hun werknemers überhaupt willen toestaan ChatGPT te gebruiken, vanwege de ondoorzichtigheid van het model en de data die je ermee prijsgeeft.”
Sanne Abeln
‘Toen vroeg ik: is die maat ergens aan gerelateerd? Dat kon ChatGPT ook niet bedenken’
„Bij kennisvragen op het niveau van masterstudenten doet ChatGPT het vrij goed, bijvoorbeeld als ik vraag welk type lokale vouwing eiwitten kunnen hebben. Maar wanneer ik vraag om die kennis te koppelen aan wetenschappelijke literatuur, dan geeft het systeem referenties naar niet-bestaande artikelen.
„Ook het redeneren over bestaande kennis gaat behoorlijk mis. Ik stelde bijvoorbeeld twee keer op een iets andere manier de vraag om een maat te bedenken voor de lokale vouwing van een eiwit. De ene keer ging het goed, de andere keer ging het totaal fout. Toen heb ik ook gevraagd of die maat al bestaat. Daar kwam geen goed antwoord op. Toen vroeg ik: is die maat ergens aan gerelateerd? Dat kon ChatGPT ook niet bedenken. Vervolgens vroeg ik het de andere kant op: er bestaat een maat voor lokale vouwing, kun je dat uitleggen? En ja, gegeven een beschrijving van die maat, kon het systeem het uitleggen. Wat je ziet is dus dat je al behoorlijk wat domeinkennis moet hebben om het systeem bij te sturen richting het juiste antwoord.
„In mijn eigen wetenschappelijk onderzoek experimenteren we sinds enkele maanden met een onderdeel van ESMFold, een AI-programma dat eiwitstructuren kan voorspellen en gebaseerd is op hetzelfde soort modellen als ChatGPT. Wanneer je veel beschikbare trainingsdata hebt, hebben zulke AI-programma’s een goede voorspellende kracht. Wat echter ontbreekt, is inzicht of begrip waarom een eiwit vouwt zoals het programma voorspelt. Daarnaast heb je in de biologie vaak maar weinig data, bijvoorbeeld als het gaat om zeldzame ziektes. Daarom blijven we behoefte hebben aan andere modellen die ook begrip geven.
„Op de universiteit hebben we inmiddels richtlijnen gemaakt wat studenten wel en niet mogen doen met ChatGPT. Maar op de middelbare school van mijn man leverde ineens driekwart van de havo-leerlingen door ChatGPT gegenereerde antwoorden in. Ik vind dat ChatGPT voor alle lagen van het onderwijs disruptief is. Het heeft in het afgelopen half jaar veel extra werk opgeleverd voor onderwijzend personeel. Eigenlijk vind ik het onverantwoord dat ChatGPT openbaar is gemaakt zonder dat de onderwijssector zich erop heeft kunnen voorbereiden.”
Arie van Deursen:
‘GPT als programmeerassistent is maar één van de mogelijke toepassingen’
„Taalmodellen zoals GPT kunnen goed helpen bij programmeren. Programmeurs gebruiken dit soort modellen nu al als gereedschap dat meeleest met de code die ze schrijven en suggesties kan doen. Alle grote techbedrijven werken aan dit soort technologie. Zij hebben veel ontwikkelaars in dienst en willen graag dat die zo productief mogelijk zijn.
„Een recente studie van Meta over hun instrument CodeCompose rapporteert dat 8 procent van het totaal aantal te schrijven regels code voorspeld kan worden door CodeCompose. Maar dat betekent niet dat CodeCompose alleen maar correcte suggesties doet. Slechts een kwart van de suggesties wordt daadwerkelijk geaccepteerd. Dus als ontwikkelaar moet je wel bij de les zijn, en kiezen wat wel en niet goed is. Een studie van GitHub rapporteert dat ontwikkelaars die zo’n zogeheten co-pilot gebruiken meer plezier in hun werk hebben en daarom productiever zijn.
„Al deze studies hebben nog wel een ‘wij van wc-eend’-gehalte, waarbij de bedrijven zelf roepen hoe nuttig hun gereedschap is. Onafhankelijke evaluaties op open data zijn er nog niet, maar die zullen wel komen.
„GPT als programmeerassistent is maar één van de mogelijke toepassingen. Er zijn er meer denkbaar, bijvoorbeeld een continu open chat-window waarin zowel de ontwikkelaar als GPT vragen kan stellen. Op dit moment is het nog wel een probleem dat je niet weet waar de antwoorden vandaan komen, en of ze kloppen. Op termijn zal GPT ook gebruikt worden in combinatie met zoekmachines, zoals nu al in Bing.
„Een andere toepassing van GPT is als hulp bij het testen van software, in het bijzonder bij het formuleren van interessante testgevallen. Ook denk ik dat GPT kan helpen om programmeren toegankelijker te maken voor iedereen. Denk aan een ChatGPT-dialoog gekoppeld aan een spreadsheet, waarbij je in de dialoog vertelt wat je wilt, en GPT je helpt de gewenste spreadsheet interactief te bouwen.
„De afstand tot het bouwen van complexe software is wel nog heel groot. Het is een leuke oefening om met ChatGPT te proberen een systeem voor de inkomstenbelasting te maken. ChatGPT waarschuwt dan dat belastingen heel ingewikkeld kunnen zijn, met heel veel uitzonderingsgevallen. En al die regels en uitzonderingen zullen wel precies geformuleerd moeten worden. En dan ben je toch weer aan het programmeren.”