Ik raakte mijn spraakvermogen kwijt. Kan een AI-kopie me weer een stem geven?

Het begon twee jaar geleden, op een reis over Peloponnesos, het grootste Griekse schiereiland. „Het lijkt wel of je met dubbele tong praat”, zei mijn vrouw op een avond tijdens het eten. „Hoeveel wijn heb je op?”

„Twee glazen maar”, zei ik.

De volgende dag was het weg; ik schonk er verder geen aandacht aan.

Maar het kwam terug. Eerst met de uitspraak van de k en de r. „Doe er maar kaas op”, wilde ik zeggen. Mijn vrouw verstond het niet en ik moest het opschrijven.

Toch eens naar de huisarts. Doorgestuurd naar de specialisten van neurologie. Zo begon het circus van onderzoeken en testen. De uitslag: door een neurologische aandoening wordt de doorgifte van de zenuwprikkel vanuit de hersenen naar de spier geblokkeerd. Ik heb geen kracht meer in mijn lippen en tong. Spreken gaat moeizaam, eten en drinken is een opgave. Er is geen remedie. Kortom: ik heb ALS.

Het werd het einde van mijn werk en ook, in zekere zin, van wie ik ben, mijn identiteit.

Lange tijd gaf ik les aan de School voor Journalistiek in Utrecht. Mijn colleges gingen over Europese politiek en verslaggeving uit Brussel. Vanaf 1990, met de opkomst van het internet, richtte ik mijn aandacht op digitale journalistiek en datajournalistiek: artikelen gebaseerd op cijfers, grafieken en kaarten. Op redacties van media in Nederland en Europa was veel belangstelling voor trainingen over deze onderwerpen.

Na mijn vroege pensionering – de VUT bestond nog – begon ik een eigen bedrijf en werkte ik veel in Zuidelijk Afrika, waar ik onder andere Engelstalige trainingen en colleges gaf over datajournalistiek. In de coronaperiode gaf ik de trainingen online.

En toen werd ik sprakeloos.

‘Wel bij de les blijven’

Je stem is een belangrijk onderdeel van je identiteit. Je herkent een ander direct aan zijn of haar stem; een paar woorden zijn voldoende om iemand voor je te zien. Elke stem is uniek, je definieert jezelf ermee.

Dat realiseerde ik me toen ik een oude opname van mezelf terugzag. Ik had mijn stem nog. Het was een lezing over het werk dat ik deed voor de Zuid-Afrikaanse bank ABSA, die in elke vestigingsplaats financieel-economische journalisten wilde trainen in het gebruik van online data. Ik sprak helder, luid en verstaanbaar – nu spreek ik zachter, trager, wat lispelend.

Confronterend: ik wás toen een ander.

Wie je bent, wordt ook bepaald door anderen en hoe zij je zien. Dat merkte ik toen ik op een dag lege flessen inleverde bij de Albert Heijn. Daarna heb je de keuze het statiegeld te doneren of er een bonnetje voor te krijgen. Ik wilde dat eerste, maar drukte kennelijk op het verkeerde knopje, want bij het weglopen tikte er iemand op mijn schouder: ik was het bonnetje vergeten. Ik probeerde uit te leggen wat er gebeurd moest zijn, maar dat lukte niet. Hij keek me niet-begrijpend aan en zei: „Wel bij de les blijven.”

Ben ik nu op weg een lispelende oude baas te worden in de ogen van anderen?

Zo zijn er meer manieren waarop de communicatie met andere mensen stroever loopt. Ik kan de kenmerkende ‘kliks’ uit het Xhosa, de taal die in Zuid-Afrika veel gesproken wordt, niet meer maken, mijn tong doet het niet meer. Een korte opmerking, een kwinkslag of een grapje, iets over het weer – het is bijna niet meer mogelijk. De spontaniteit is weg, zomaar even contact maken met iemand. Ik moet langzamer praten, duidelijker articuleren en dan hopen dat de ander begrijpt wat ik te zeggen heb. Elk gesprek moet worden voorbereid.

Denken en gevoel

Het probleem gaat verder, want soms kan ik niet meer zeggen wat ik denk. Ik kan de woorden niet goed maken en moet op zoek naar een andere formulering. Onlangs had ik een debat over de geopolitieke rol van Israël in het Midden-Oosten – ik geef toe, dat is nogal een abstract (en gevoelig) onderwerp. Het kostte veel moeite om precies te zeggen wat ik dacht. Ik zocht naar woorden, maar als ik ze gevonden had, kon ik ze niet zeggen. Dus: zoeken naar andere woorden. Maar soms lukt het niet die te vinden. Ik loop vast in mijn denken en geef het op. Zo leidt het verlies van de stem ook tot een verandering in het denken.

Maar de stem is er ook om gevoel uit te drukken. Plezier, haat, liefde en genegenheid: hieraan geeft de stem uitdrukking. Ook die mogelijkheid tot expressie gaat verloren. Ik kan niet meer meezingen met ‘La donna è mobile’, het lied van de Hertog van Mantua in Verdi’s opera Rigoletto. De kleinkinderen (van zes en drie) voorlezen gaat niet meer: ze verstaan me niet.

En het gaat om méér dan alleen de stem. Al heel lang hadden mijn zoon en ik het idee om samen te gaan duiken, het koraal en de vissen te bekijken. Nu kan het niet meer. Ik krijg mijn lippen niet goed dicht en kan mijn oren niet meer klaren.

Omdat mijn tong het niet doet, moet ik eten met een mes verder de mond in duwen. Bij het slikken kan ik mijn lippen nauwelijks sluiten en bijgevolg zit ik te knoeien. Een slab is geen luxe – het is eten als een baby. Mijn vrienden begrijpen het wel, maar toch was het vernederend toen ik me in een restaurant verslikte in een slok rode wijn en de tafel en mijzelf besproeide.

Praten onder het eten kan ik niet zonder me te verslikken. Ook dat is een aanslag op mijn identiteit en wie ik ben in het sociale leven: dat een goed gesprek met eten en drinken erbij niet meer aan mij besteed is, is een flinke klap. Communicatie, contact maken met anderen, het is toch bijna hetzelfde als een mens zijn?

Onderzoek

Ik geef geen colleges en trainingen meer, maar ik werk nog wel veel met computers. Ik vind het leuk om zelf te programmeren met een micro controller board als Arduino. Artificial intelligence (AI) is daarbij een fantastische hulp. Zo ontdekte ik ook dat de mogelijkheid bestaat om van je stem een digitale kloon of kopie te maken.

Zou dat een oplossing kunnen zijn voor mensen in mijn situatie? Op de website van het ALS Centrum Nederland staat een kort artikel van een logopediste over voicebanking (het opslaan van de eigen stem als die nog „van voldoende kwaliteit” is) en stemdigitalisering, maar verder lees ik er in Nederland nog weinig over.

Het bekendste voorbeeld van iemand die gebruikmaakte van een spraakcomputer is natuurlijk de Britse natuurkundige Stephen Hawking, bij wie al op jonge leeftijd ALS werd geconstateerd. Halverwege de jaren tachtig kreeg hij een spraakcomputer tot zijn beschikking, waarop hij woorden kon kiezen door zijn wang te bewegen.

Inmiddels zijn er veel meer mogelijkheden. Het omzetten van tekst naar audio, zoals het automatisch laten voorlezen van krantenartikelen, is al heel gebruikelijk. Een tekst die ik schrijf kan door een computerstem worden voorgelezen.

Kan het ook met je eigen stem? Ja, zolang je een opname hebt van hoe je in goeden doen klonk. Mijn huidige stem is niet geschikt.

Gelukkig had ik nog oude opnames van mezelf. Van lezingen, toespraken, een training, et cetera. Zo kon ik drie varianten van mijn stem ‘klonen’: mijn collegestem, mijn Engelstalige trainingstem en mijn ‘gewone’ stem.

Met AI worden op basis van zo’n opname honderden variabelen van de stem – zoals frequentiehoogte, snelheid, ritme, accent – herkend en vastgelegd, om er een digitale stem mee te genereren. Hoe meer variabelen, hoe beter de kopie.

Het is leuk om die ‘nieuwe’ stem te horen. Ik hoor hoe mijn teksten voorgelezen worden en het is net alsof ik ze uitspreek. Een exacte kopie is het niet, ik hoor zelf kleine verschillen, maar het lijkt er behoorlijk op.

Een alien aan de balie

Er zijn verschillende van dit soort programma’s te vinden, zoals Speechify, Elevenlabs en NaturalReaders. Het gebruik is simpel; meestal kun je gratis (maar dan wel tijdelijk en/of met beperkte mogelijkheden) uitproberen hoe het werkt.

Je hebt genoeg aan een opname van je originele stem van één minuut. De app maakt er een kopie van, waarmee je tekst kunt laten voorlezen. Je kunt de stem ook finetunen door bijvoorbeeld tempo, toon en gevoel bij te stellen. Je kunt hem corrigeren als woorden verkeerd uitgesproken worden. Mijn revalidatieartsen waren nogal verbaasd toen ik hen mijn voice clone-experimenten liet horen.

Voor mijn kleinkinderen typte ik een verhaaltje, om het daarna om te zetten naar spraak. „Opa kan weer praten!”, riepen ze.

Het is beter dan opgesloten zitten in mezelf, tussen de gedachten die ik niet langer kan overbrengen, maar een volwaardige oplossing is het natuurlijk niet. Het is een nogal indirecte en trage vorm van communicatie, waar anderen onbekend mee zijn. Toen ik op vakantie in Frankrijk wilde inchecken bij een hotel, had ik dat voorbereid. Ik pakte mijn tablet erbij, startte de app op en liet mijn stem – in perfect Frans – zeggen dat ik een reservering had en wilde inchecken. De vrouw achter de balie keek alsof ze een alien zag.

Tegenover mijn vrouw kan ik me nog altijd verstaanbaar maken met mijn eigen stem, maar soms begrijpt ook zij me niet meer. Dan is het een uitkomst: dan laat ik het woord dat ik niet meer kan uitspreken door de computer zeggen.

De Duitse filosoof en socioloog Jürgen Habermas beschouwt communicatie, taal, de stem en het gesprek als essentieel voor het mens-zijn. Doordat we met elkaar in gesprek kunnen gaan, geven we onszelf en de samenleving vorm. Zonder stem heb je geen deel aan zo’n debat – je kunt letterlijk je stem niet laten horen. Met voice cloning probeer ik mijn identiteit zo goed mogelijk te behouden, ook al heb ik aan tafel niet meer het hoogste woord.