Column | Waar OpenAI allesbehalve open is, krijg je in Rotterdam wél een kijkje onder de motorkap van een taalmodel

Post van Mark Zuckerberg! Althans van het Meta Privacy Team. „Ontdek hoe we uw gegevens gebruiken terwijl we AI bij Meta verbeteren.” Moet ik bezorgd zijn dat mijn „interacties” gebruikt worden om een kunstbrein te trainen? Of juist blij dat al mijn gevatheden op Facebook zich als karbaatzaad verspreiden? Ja, ik kan bezwaar maken, zij het zonder garanties. Maar verder kom je er niet achter „what this means for you”.

„Ik kan maar twee dingen bedenken”, zegt Claartje ter Hoeven, hoogleraar informatiewetenschappen in Utrecht. „Zo proberen ze je nog scherper te profileren om nog gerichter te kunnen adverteren. Of ze willen weten hoe spontane conversaties in het algemeen werken, zodat hun modellen die beter kunnen nabootsen. Maar we weten het niet.”

Net als ChatGPT-maker OpenAI, die allesbehalve open is, doet Zuckerbot vaag. Hoe het ook kan, laat João Gonçalves zien in zijn kamertje op acht hoog bij de Erasmus Universiteit in Rotterdam. Daar draait sinds twee jaar het Erasmus Language Model (ELM), dat Gonçalves (34) als sociale wetenschapper met een verleden in machine learning – zeldzame combinatie – heeft gebouwd, overigens met deels open Meta-software.

ELM is een kennisbank, maar allereerst onderwijsgereedschap: hoe werken ‘grote taalmodellen’? ELM is open source, want getraind met wetenschappelijke Erasmus-publicaties. ChatGPT c.s. slurpen wereldwijd energie en kapitaal en zijn op den duur onhoudbaar. ELM heeft een minuscule voetafdruk en kostte 4.000 euro. ELM is ook veel kleiner, kan niet dichten als Shakespeare of een sollicitatiebrief herschrijven. „Als je een recept voor lasagne vraagt, begint hij over sociale omstandigheden in negentiende-eeuws Italië”, zegt Gonçalves. „Hij spreekt nu eenmaal onze taal.”

Taalbots zijn ‘generatieve AI’, wat er in het ultrakort op neerkomt dat ze gokken wat het volgende woord in een reeks is. Of je het denken kunt noemen, is de vraag. Maar het ziet er leuk uit als Gonçalves „How can I feel better about myself?” typt en ELM een rijtje aanbevelingen uitschrijft. Zorg dat je genoeg slaap krijgt, drink veel water, doe gymnastiek. En: zorg dat je genoeg slaap krijgt. Waarna Gonçalves in een regeltje code de straffactor voor herhalingen van 1.1 in 1.4 verandert en hetzelfde rijtje verschijnt, nu zonder dubbeling. „Zo’n ‘prompt’ sluit aan bij wat studenten al kennen van ChatGPT, maar wat daar in een zwarte doos gebeurt, wordt hier zichtbaar”, zegt hij.

Er is een next level. Zo kunnen studenten een onderzoeksvraag voorleggen. ELM zegt hoe die beter of anders of in de prullenbak kan. En dan is er de toekomst, waarbij ELM-ervaringen met andere, beperkte ‘datasets’ praktische toepassingen krijgen. Zo werkt Gonçalves nu met Delftse wetenschappers aan een taalbot over geestelijke gezondheid bij jongvolwassenen.

„Niet alles hoeft altijd maar grootschaliger te worden”, zegt hij. „Vergelijk het met Portugese wijn: het is beter om veel kleine maar heel goede wijnhuizen te hebben.”