
Een oplichter die je belt met de stem van je moeder of geliefde en vervolgens vraagt om geld over te maken: een griezelige gedachte. Maar geen sciencefiction, volgens een AD-artikel van juni vorig jaar met de kop ‘Criminelen gaan zich ook hier telefonisch voordoen als vriend’. De krant voorspelt dat oplichting met door AI gekloonde stemmen nog „dit jaar voet aan de grond zet in Nederland”. Omroep WNL gaat nog verder en bericht dat criminelen in Nederland nú al „steeds vaker op deze manier toeslaan”. Vrijwel alle grote media besteden aandacht aan het onderwerp, ook NRC, hoewel terughoudender: „Wat doen we als we zelfs de stem van onze geliefden niet meer kunnen vertrouwen?”
De Rijksoverheid lanceert in de zomer van 2024 zelfs een bewustwordingscampagne. Het heeft een onderzoek uitgevoerd waaruit blijkt dat veel Nederlanders de echte stem van radio-dj Ruud de Wild niet kunnen onderscheiden van diens stemkloon en verwacht dat deze truc „op korte termijn ook in Nederland ingezet zal worden door criminelen”.
Toch is het na ruim een jaar aan alarmerende berichtgeving nog zoeken naar mensen die daadwerkelijk opgelicht te zijn met de stemkloon van een bekende. De Fraudehelpdesk ontving tot nu toe maar twee meldingen van oplichting waarbij volgens de melder sprake was van een gekloonde stem. „En die hebben we niet kunnen verifiëren”, zegt woordvoerder Tanya Wijngaarde. De Fraudehelpdesk is het belangrijkste meldpunt voor pogingen tot online oplichting. „Als wij ergens niet van weten, is de kans groot dat het niet gebeurt.” Over de schrale oogst is de Fraudehelpdesk, die zich eveneens grote zorgen maakte, „zelf ook verbaasd”.
Geavanceerde technologie
Dat digitale oplichting in opkomst is, lijdt geen twijfel: de Fraudehelpdesk ontvangt maandelijks tegen de 60.000 meldingen van (vooral online) fraudepogingen. Wel zetten experts tegenover NRC vraagtekens bij de aandacht die voice cloning daarbij krijgt. Volgens hoogleraar computervisie en AI aan de Universiteit van Amsterdam Theo Gevers zijn er nog grote obstakels om iemand telefonisch op te lichten met de stemkloon van een familielid of vriend. De technologie mag dan „behoorlijk geavanceerd” zijn, aldus Gevers, het voeren van een live gesprek middels een stemkloon is erg bewerkelijk.
Eerst over die technologie, die inderdaad vergevorderd is. Het programma ElevenLabs, de gouden standaard in de voice cloning-wereld, heeft maar 10 seconden van iemands stem nodig om hem te klonen. Vervolgens kan de gebruiker intypen wat hij de kloon wil laten zeggen. In jargon heet dit tekst-naar-spraak. „Je kunt in feite niet meer herkennen of het een echte stem is of niet”, zegt Gevers. Hij ontwikkelt zelf ook AI-stemklonen – maar dan voor positieve doeleinden zoals traumaverwerking bij slachtoffers van misdrijven. „Stemklonen zijn tegenwoordig ook goed in intonatie en zelfs emotie.”
Maar daarmee ben je er dus nog niet als fraudeur die iemand telefonisch voor de gek wil houden. Die moet zijn eigen stem live kunnen omzetten in de kloon. Oftewel: spraak-naar-spraak. „Daarbij is de kwaliteit lager dan bij tekst-naar-spraak, en er zit veel vertraging voor de antwoorden. Zoals wij nu met elkaar praten, is de responstijd tussen de 0 en 0,1 seconde. Live AI-stemklonen zitten op 0,5 tot 2 seconden.”
Dat klinkt uiteraard onnatuurlijk, en dat merken mensen, zegt Gevers. Verdwijnen die pauzes door de voortsnellende techniek straks? Gevers vraagt het zich af. „0,1 seconde zou haalbaar kunnen zijn, maar dan heb je wel een heel zware computerchip nodig, die heel kostbaar is.” Een andere bottleneck is de taalbarrière. Stemkloontechnologie wordt vooral getraind met grote talen als het Engels; Nederlands is volgens Gevers commercieel niet aantrekkelijk en daardoor nog onderontwikkeld. „Zeker spraak-naar-spraak-gesprekken lukken in het Nederlands nu echt niet.”
Maatwerk
Bovendien vergt oplichting met voice cloning veel maatwerk. „Je moet een slachtoffer selecteren, van diegene een geliefde of een familielid zoeken, daarvan een stemopname vinden, en vervolgens een goede stemkloon maken”, zegt Boudewijn van der Valk, die het fraude-expertteam leidt bij ING. Voor zover hij weet is deze methode op dit moment „niet bestaand” – al kun je nooit 100 procent uitsluiten dat het gebeurt. Zeker is wel dat het leeft onder mensen. „Als ik op feestjes praat over mijn werk, dan is dit een van de onderwerpen die ter sprake komen.”
Ook universitair hoofddocent cybrercrimepreventie aan de TU Delft Rolf van Wegberg heeft voice cloning-oplichting „nog niet in het wild gezien”. Volgens Van Wegberg, die ook optreedt als getuige-deskundige in rechtszaken, heeft de technologie „risico en potentie”, maar net als Van der Valk noemt hij het ook omslachtig en veel werk. Zoveel moeite doen oplichters doorgaans alleen bij grote instellingen. „Dan weet je dat het om tonnen aan losgeld gaat dat je kunt buitmaken.” Bij particulieren weet je van tevoren niet „of er rendement uitkomt” en zoeken oplichters naar efficiëntere methodes.
Dat zegt ook Wijngaarde van de Fraudehelpdesk. Ze verwijst naar telefoontjes waarbij een bandje wordt afgespeeld, zogeheten robocalls. Het slachtoffer wordt dan bijvoorbeeld gevraagd toegang te geven tot de computer of internetbankieren. Zo’n tactiek kan geautomatiseerd op talloze mensen tegelijk worden losgelaten. Hetzelfde geldt voor WhatsAppjes van een kind dat zogenaamd zijn telefoon is verloren en pa of ma vanaf een leentelefoon vraagt om geld. Zulke methodes zijn zo succesvol, dat oplichters meer geavanceerde trucs wellicht niet nodig hebben, zegt Wijngaarde.
Gerichtheid op anekdotes
Dat de technologie er is om stemmen te klonen, maakt het dus nog niet gelijk geschikt voor oplichting. Toch circuleren er in de media enkele verhalen, vooral uit het buitenland. Zo komt in veel artikelen hetzelfde relaas terug van een Amerikaanse vrouw die gebeld zou zijn door een stemkloon van haar dochter die ontvoerd zou zijn, waarna de ontvoerders losgeld eisen. Gevers is sceptisch over dergelijke onverifieerbare verhalen. „Ik geloof het pas als de stemopname is geanalyseerd met stemtools, inclusief de nieuwste AI-detectoren.”
Gevers wijst er ook op dat de conclusie dat iets AI is soms te snel wordt getrokken. Hij verwijst naar een incident uit 2021, waarbij de Tweede Kamer met een deepfake van een medewerker van Alexei Navalny zou hebben gesproken. Bij een deepfake wordt niet alleen de stem, maar ook het gezicht van iemand met AI nagemaakt. Maar de medewerker bleek ‘gewoon’ een bedrieger van vlees en bloed.
Volgens deskundigen is er een dilemma tussen op tijd voor iets willen waarschuwen, en niet aan bangmakerij willen doen
Het risico van aandacht voor spannende scenario’s als voice cloning is dat het ten koste gaat van de aandacht voor methodes die veel meer Nederlanders raken, zoals de eerdergenoemde WhatsApp-fraude.
Van Wegberg vindt dat de berichtgeving over cybercriminaliteit „soms een hoog Shownieuws-gehalte heeft”. Journalisten vragen hem vaak naar een actueel voorbeeld van cybercrime waar ze hun artikel aan kunnen ophangen. „Dan kom je snel uit bij iets wat dan toevallig net gebeurd is. Dat is natuurlijk maar een anekdote, niet iets representatiefs.” Van der Valk, die in principe blij is dat de media-aandacht voor online oplichting is toegenomen, verwijst in dit verband naar berichtgeving vorig jaar over hackers die smartphones zouden binnendringen door je gezicht te kopiëren. Dit verhaal bleek later niet waar. „Zoiets is onnodige bangmakerij voor spullen die we in ons dagelijks leven gebruiken.”
Volgens de deskundigen is er een dilemma tussen op tijd voor iets willen waarschuwen, en niet aan bangmakerij willen doen. Manon den Dunnen herkent dit „heel erg”. Als techspecialist bij de politie werd zij vorig jaar onverwachts heel veel gebeld door journalisten over voice cloning-oplichting. Ze besluit het onderwerp te zien als een kapstok om mensen bewust te maken van hoe „je niet meer alles kan vertrouwen wat je hoort en ziet. En dat je een oproep tot iets onomkeerbaars als het overmaken van geld, of het delen van vertrouwelijke informatie, altijd bij de afzender moet verifiëren.”
Tegen het AD zegt ze dat ze zich grote zorgen maakt, en dat er nog voor het einde van 2024 veel meer meldingen zullen zijn. Ze vraagt collega’s om het haar te laten weten als er een melding of aangifte is. Maar het blijft bij een handjevol verhalen, die ze niet kan verifiëren. Haar vrees komt niet uit. „In ieder geval weten we het niet. Dat is voor mij wel een leerpunt: je weet het niet van tevoren.”
Of ze het volgende keer anders zou doen, vindt ze een lastige vraag. „Want ik verwacht eigenlijk nog steeds dat het gaat toenemen.” Waar Gevers wijst op de tekortkomingen, zoals de lange responstijd en het voorlopig gebrekkige Nederlands, benadrukt Den Dunnen dat mensen ook in een emotioneel neptelefoontje kunnen trappen als het niet perfect klinkt. „Mensen slaan aan op het vertrouwde dat ze erin horen. Zeker als je afleidende omgevingsgeluiden toevoegt of doet alsof de verbinding slecht is.” Volgens haar blijkt dit uit tests door de politie.
Verhalen blijven komen
Bewijs of niet, de media-aandacht voor voice cloning-oplichting gaat door. Onlangs leek het opnieuw een groot probleem. De Fraudehelpdesk had bekendgemaakt dat het in het eerste kwartaal van dit jaar bijna 10.000 meldingen van neptelefoontjes had ontvangen. Die gingen allemaal niet over voice cloning. Toch koppelen grote media als het AD en de NOS het daar nadrukkelijk wél aan. Nieuwssite NL Times schrijft zelfs dat „duizenden Nederlanders” belaagd zijn met AI-stemklonen. Tanya Wijngaarde van de Fraudehelpdesk bevestigt dat de cijfers verkeerd zijn geïnterpreteerd. „Ik was er vooraf niet van op de hoogte dat onze cijfers zouden worden gekoppeld aan verhalen over AI”, zegt ze. Maar aan die associatie blijkt al niet meer te ontkomen.
