Opinie | AGI? Niet alle taal staat in tekst

Begin dit jaar zei Sam Altman dat ze bij openAI weten hoe AGI (Artificial General Intelligence) te maken, en sindsdien vragen mensen mij regelmatig of ik denk het er al bijna is. AGI heeft hiermee de eerdere term ‘singularity’ vervangen; het moment dat computers zichzelf kunnen verbeteren waardoor ongeremde technologische groei bereikt kan worden, wat eerder symbool stond voor het eenworden van mens en machine.

Maar wat is AGI? In de wetenschap wordt met die term meestal een systeem bedoeld dat een taak kan uitvoeren waar het niet specifiek voor getraind is. De ‘oude’ AI-systemen uit de jaren 90, denk aan schaakcomputer Deep Blue, konden één ding goed, maar niks anders.

Vanaf het vroege begin van AI werd taal gezien als de sleutel: taal is voor ons mensen immers een manier om heel veel taken op te lossen. Op de conferentie in Darthmouth in 1955 waar de term AI bedacht werd gingen de wetenschappers ervan uit dat ieder aspect van leren, en van iedere andere eigenschap van intelligentie zo precies kan worden beschreven dat een machine het kan simuleren.

Met andere woorden, als we taken kunnen beschrijven, dan kan een machine ze ook doen. Op deze conferentie werd trouwens helemaal niet gewerkt aan LLM’s (Large Language Model, een taalmodel zoals ChatGPT dat menselijke taal in patronen vangt, en die kan toepassen op nieuwe situaties, waardoor het menselijk lijkende antwoorden kan geven op een breed scala aan vragen) en zelfs niet aan machine learning. Ze werkten aan het bedenken van een programmeertaal waarin je die taken zou kunnen beschrijven. Met de moderne taalmodellen zien we de droom van alle taken uitvoeren in een andere vorm terug. Als AI taal ‘beheerst’ dan kan de macht om een taak op te lossen van de ene op de andere taak overspringen.

Gat tussen tekst en ervaring

Maar welke taal beheerst een LLM? De modellen worden nu getraind op geschreven taal, dus kleine talen of talen uit landen met weinig internetdekking (en dus weinig content) komen in de modellen nauwelijks voor – en kennis uit die culturen zien we in AGI dus niet terug. Groter nog is het gat tussen geschreven tekst en de gehele menselijke ervaring.

Taalwetenschapper Mark Dingemanse onderzocht bijvoorbeeld éénwoorduitingen, zoals huh, oh en mmm, en noemde deze taalelementen de „smeerolie van gesprekken”. Maar liefst een op de zeven uitingen in alledaagse gesprekken zijn zulke woordjes, die onzichtbaar enorm bijdragen aan begrip. En niet alleen gebaren, maar ook interrumperen, of bewegingen maken, knikken, fronsen, lachen, dragen bij aan begrip, zo liet cognitieve wetenschapper Susan Brennan al zien in de jaren 90.

Kennis is ook in hoge mate ‘situated’; afhankelijk van tijd en plaats. Je hoofd is geen draagbare harde schijf, die overal alles met hetzelfde gemak kan oproepen. Toen ik onlangs, na er tien jaar niet te zijn geweest, weer in Cambridge was, kon ik zonder verdere hulp naar mijn oude huis lopen. Ik dacht zelfs op de hoek van de straat, „ah en dan ga ik hier links naar huis”, voor ik me realiseerde dat ik daar allang niet meer woonde! Maar had je mij thuis gevraagd te vertellen hoe je erheen moest lopen, denk ik niet dat ik dat had gekund. Alleen door op de plek te zijn, kwam de kennis vrij.

Deze kennis kan niet in geschreven taal gemodelleerd worden

Al deze kennis van stopwoordjes, van gebaren, van plaatsgebonden herinneringen, zit niet in AI-modellen omdat die in geschreven taal niet gemodelleerd kan worden. Je kan je afvragen of er wel een manier is om het verschil tussen de minstens tien verschillende soorten ‘he’ die we kennen (verbaasd, boos, en bedroefd hebben ieder hun eigen ‘he’) uit te drukken in de computer! De taal die ze in Dartmouth voor ogen hadden, bestaat kortom nog steeds niet echt.

In het boek Computers as Theatre beschrijft media-wetenschapper Brenda Laurel hoe informatici de wereld vaak willen platslaan in wiskundige modellen, zo ook communicatie. Maar, schrijft zij: „Een dialoog is niet lineair om-de-beurt een zin uitspreken, er komt meer kijken bij een gesprek dan oog om oog.”

Dus zelfs als je gelooft dat het begrijpen van menselijke taal een noodzakelijke stap is naar het bouwen van AGI, dan hebben we van menselijke taal op dit moment nog maar het tipje van de ijsberg geanalyseerd. We hebben nog een hoop taalwetenschappers, psychologen en sociologen nodig om een volledig begrip van menselijke taal voor elkaar te krijgen, en niet alleen maar meer programmeurs en meer rekenkracht. En zelfs als dat zou lukken, dan is het de vraag of een begrip van taal voldoende is voor het modelleren van de hele menselijke ervaring, want hoe modelleren we taalloze ervaringen zoals rouw, liefde, honger, ongeduld? Niet voor niks kan je als mens zeggen: ‘daar zijn geen woorden voor’ en toch begrepen worden.