Een nieuwe methode om neurale netwerken systematisch te laten denken kan ervoor zorgen dat kunstmatige intelligentie (AI) met minder data kan worden getraind. De afgelopen paar jaar hebben modellen als ChatGPT grote vooruitgang getoond. Maar er is heel veel data nodig om modellen te trainen, terwijl mensen met veel minder voorbeelden kunnen leren. Met de methode die Brenden Lake en Marco Baroni vorige week in het wetenschappelijke tijdschrift Nature publiceerden, kan kunstmatige intelligentie beter generaliseren en zo mogelijk sneller leren.
Mensen kunnen van nature generaliserend denken, dat zie je bijvoorbeeld aan hoe we wiskunde leren. Kinderen leren de getallen en het +-teken, en als een leraar uitlegt dat bijvoorbeeld 1+2=3, kunnen kinderen begrijpen dat dan ook geldt: 2+1=3. Dit wordt ook wel ‘compositioneel nadenken’ genoemd.
Compositionaliteit is een eigenschap van taal, en ook van wiskunde. Het houdt in dat de betekenis van een zin of rekensom afhankelijk is van de betekenis van de delen en de structuur. Compositioneel nadenken is niets anders dan gebruikmaken van deze compositionaliteit van taal. Zo kun je begrijpen wat nieuwe combinaties betekenen van woorden die je al kent.
Weinig training
Wie begrijpt hoe het +-teken werkt en de getallen kent, kan in principe alle getallen bij elkaar optellen. Neurale netwerken zijn van nature niet zo slim. Als een neuraal netwerk nog niet bekend is met het +-teken en wel geleerd heeft dat 1+2=3, kan het bijvoorbeeld alsnog dat het denkt dat 2+1=2, omdat het niet meteen kan begrijpen dat het +-teken altijd op een bepaalde manier werkt.
Met de nieuwe methode die de onderzoekers in Nature presenteren, kunnen programmeurs neurale netwerken compositionaliteit aanleren zodat ze met weinig training dit soort fouten kunnen voorkomen. Een van de onderzoekers, computationeel taalkundige Marco Baroni, vertelt over de telefoon waarom ze deze methode hebben ontwikkeld: „Het kost heel veel energie om grote modellen zoals ChatGPT te trainen en daarnaast willen we ook dat het ontwikkelen van AI niet alleen maar kan worden gedaan door grote bedrijven, zoals Google of Meta. Als er minder data nodig is voor het trainen, gaat dat makkelijker.”
Neurale netwerken zijn algoritmes die, op basis van bepaalde sets van inputs en outputs, zelf een manier kunnen ontwikkelen om met nieuwe inputs in te schatten welke output gegeven moet worden. De methode die Lake en Baroni hebben ontwikkeld, kan het soort neurale netwerken trainen die voor taalverwerking worden gebruikt, de familie waar ook ChatGPT toe behoort.
De onderzoekers gebruiken een techniek die meta-learning heet, waarbij AI op verschillende taken, in dit geval compositionaliteitstaken, achter elkaar wordt getraind. Het idee van meta-learning bestaat al sinds de jaren negentig, maar het is volgens Baroni pas sinds de laatste jaren dat neurale netwerken ver genoeg ontwikkeld zijn dat ze zo compositionaliteit kunnen aanleren.
Bij één zo’n compositionaliteitstaak krijgt het netwerk een aantal voorbeeldzinnen in een kunstmatige taal te zien met de correcte vertaling erbij. Bijvoorbeeld: ‘fax’ betekent een rode cirkel, ‘dup’ betekent een blauwe cirkel, en ‘fax kiki dup’ betekent een rode cirkel en dan een blauwe cirkel. Dan krijgt het neurale netwerk een nieuwe zin te zien in de kunstmatige taal, bijvoorbeeld ‘dup kiki fax’, en deze moet dan correct vertaald worden: eerst een blauwe cirkel en dan een rode cirkel.
Het netwerk wordt zo getraind dat het voor verschillende kunstmatige talen met verschillende grammatica’s een zo goed mogelijke vertaling geeft voor de nieuwe zin die het te zien krijgt. Eenmaal getraind kan het model net zo goed als mensen de compositionaliteitstaken uitvoeren. Ook laten de onderzoekers zien dat het getrainde netwerk beter een door henzelf ontwikkelde standaardtest voor systematisch generaliseren kan uitvoeren dan het ongetrainde netwerk.
Jelle Zuidema, universitair hoofddocent kunstmatige intelligentie aan de Universiteit van Amsterdam, legt uit dat het ongetrainde netwerk waar Lake en Baroni de generalisatietest mee uitvoeren wel heel klein is vergeleken met grote moderne modellen. „Hun model heeft ongeveer een miljoen parameters, terwijl bijvoorbeeld ChatGPT er miljarden heeft. Dat is dus wel duizend keer zo klein.” Misschien dat een groter model dus wel al meer zou kunnen dan het ongetrainde netwerk dat Lake en Baroni gebruiken.
Interessante vraag
ChatGPT kan zo veel dat het soms lijkt alsof het probleem van compositionaliteit al is opgelost. Zuidema: „Het is echt overweldigend hoe creatief ChatGPT met nieuwe combinaties van woorden kan omgaan. Maar we weten ook dat ChatGPT op heel veel data is getraind en het is onduidelijk hoe het model precies weet wat het moet antwoorden. Het kan zijn dat het gewoon zo veel heeft gezien dat veel eigenlijk helemaal niet zo nieuw is.”
Daarom is het volgens Zuidema wel een interessante vraag om te kijken hoe onderzoekers kleinere modellen met minder trainingsdata toch bepaalde compositionele taken kunnen laten oplossen: „Mensen walsen soms een beetje over deze vraag heen, maar die ChatGPT-modellen zijn zo duur om te draaien, er is echt een grote noodzaak om kleinere modellen slimmer te trainen.”