De krant spréékt – met robotstemmen uit eigen NRC-stal

Luisteren Stukken uit NRC zijn niet alleen te lezen, maar ook te beluisteren. Kunstmatige intelligentie heeft stemmen van redacteuren tot digitale voorleesstemmen gemaakt.

Illustratie Dewi van der Meulen

Pratende computerprogramma’s kregen jaren geleden al brede bekendheid, vooral dankzij de TomTom en andere navigatie-apparatuur. Inmiddels praat ook de krant.

In 2021 begon NRC met een proef waarbij door Microsoft geleverde robotstemmen een klein aantal artikelen voordroegen. Nu zijn alle stukken van NRC te beluisteren alsof ze zijn voorgelezen door NRC-redacteuren.

Dat zijn ze niet echt. Het zou een haast ondoenlijke opgave zijn om de 110 tot 120 stukken voor te lezen die NRC dagelijks publiceert.

De stemmen zijn synthetisch: met behulp van kunstmatige intelligentie (AI) ontwikkelde kopieën van de stemmen van Mischa Spel, plaatsvervangend chef cultuur en muziekcriticus, en Egbert Kalse, redacteur economie en podcastpresentator.

Boven de online-versie van ieder artikel staat linksboven een icoontje van een speaker met de woorden ‘Luister naar’, en daarbij de tijd die het kost om het stuk te beluisteren (dat duurt doorgaans twee keer zo lang als de eveneens vermelde leestijd). Het computerprogramma bepaalt willekeurig welke stuk door welke van de twee stemmen wordt ‘voorgelezen’, eigenlijk: uitgesproken.

Gevraagd of het niet raar, of zelfs een beetje beangstigend is, dat haar stem nu een bestaan heeft los van haarzelf, zegt Spel: „Het heeft niet zo veel met jezelf te maken. Als ik er nu naar luister is het niet alsof ik mijn eigen stem hoor, maar een digitaal zusje. Een assertief digitaal zusje.

„Het is ook nog niet feilloos. Maar de grootste verrassing voor mij”, zegt muziekkenner Spel, „was dat de zinsmelodie vaak behoorlijk op de mijne lijkt. Maar dit zusje is wel dommer dan ik, haha, bij de komma’s van een nevenschikkende bijzin ratelt ze soms maar door.” Haar moeder, die blind is, kan zich nu bij wijze van spreken de hele krant iedere dag door haar dochter laten voorlezen.

Hond

Haar collega Kalse zegt over de herkenbaarheid van zijn robotstem: „Onze hond slaat erop aan.” Maakt hij zich geen zorgen dat er bijvoorbeeld opiniestukken met zijn digitale stem te beluisteren zijn waar hijzelf het totaal niet mee eens is? „Ik heb er niet zo’n probleem mee. Er wordt toch altijd duidelijk gemaakt wie de auteur is.” De twee redacteuren hebben een contract met NRC getekend, waarin is vastgelegd dat de stemmen alleen voor redactionele stukken gebruikt zullen worden, en dus bijvoorbeeld niet voor de klantenservice of de webshop.

Mischa Spel en Egbert Kalse in de opnamestudio van NRC. Foto Isa Wolthuis

„Wat nog beter moet, zijn onder meer Engelstalige woorden, citaten en tussenkopjes’’, zegt adjunct- hoofdredacteur Melle Garschagen. „Het is nog niet af. Luisteraars verwachten ook geen perfectie. We houden in de gaten of er dingen structureel misgaan. Hoe meer wijzigingen je doorvoert, hoe meer het systeem daarvan leert.”

De eerdere proef met synthetische stemmen overtuigde NRC ervan dat er voldoende belangstelling voor de luisterstukken is. „Toen vroegen we ons af: willen we geen eigen NRC-stemmen?”, zegt Garschagen. De standaardstemmen van Microsoft kunnen door iedereen gebruikt woorden, ook door bijvoorbeeld McDonald’s of de Volkskrant.

Omdat oudere lezers soms hun abonnement opzeggen als ze niet goed meer kunnen lezen, is de hoop dat die abonnees met dit project voor de krant behouden blijven. Per dag worden er nu gemiddeld 3.000 stukken voor meer dan driekwart beluisterd. Ook door lezers die wél kunnen lezen, maar op bepaalde momenten van de dag toch liever luisteren.

NRC vroeg alle medewerkers vorig jaar of ze de robotstem van de krant wilden worden. Meer dan dertig meldden zich ervoor aan, zes hebben een studiotest gedaan. Na een technische analyse én een test onder gebruikers zijn de stemmen van Spel en Kalse als de NRC -stemmen geselecteerd.

De twee hebben allebei, in zes sessies van tweeënhalf uur, in totaal vierduizend zinnen voorgelezen, waarmee het AI-programma kon leren hun stemmen na te doen. Dat gebeurde in de studio van het audiobedrijf Whoozy Agency, gespecialiseerd in zogeheten Voice branding en het creëren van AI-stemmen.

„Tijdens het voorlezen van die vierduizend zinnen houdt een voice coach in de gaten of de toonhoogte klopt, of het hard genoeg is en de ademhaling goed is”, zegt Maikel van der Wouden, een van de twee oprichters van Whoozy. „Een geluidsengineer let op of het audiosignaal goed in het systeem komt, of je geen klikjes hoort, schorheid of slissen, want dat kan het programma in de war brengen.” Uit de opnames voor NRC werd per stem vier uur aan ‘netto data’ gedestilleerd, om het programma mee te trainen.

Uitroeptekens

„Het model leert van alle punten in het audiobestand, samen met de geschreven tekst, hoe je dingen uitspreekt – wat de klank is in bepaalde zinnen, wat interpuncties doen met de klank – en probeert dat dan zo goed mogelijk na te bootsen bij andere teksten.” Spel en Kalse moesten één keer terugkomen naar de studio: het programma was nog niet goed genoeg in zinnen met een uitroepteken, waarbij vaak het volume omhoog moet. Door krachtig zinnen en krantenkoppen voor te lezen als ‘Krimp dan, Schiphol!’ en ‘Blijf van onze vogelnamen af!’ moest ook het uitroepteken een NRC-timbre krijgen.