
‘Over kunstmatige intelligentie in de zorg wordt vooral heel veel gepraat, maar slechts heel weinig haalt de klinische praktijk”, zegt Michel van Genderen, internist-intensivist en associate professtor voor ontwikkeling en implementatie van artificial intelligence (AI) op de IC bij het Erasmus MC. „Het is echt bedroevend. Slechts 2 procent van de AI-modellen die worden bedacht voor de IC haalt de praktijk, bleek uit onderzoek dat we in 2021 deden. We hebben dit onderzoek afgelopen zomer herhaald, dat moet nog gepubliceerd worden, en het is nog stééds 2 procent. Ik denk dat dit representatief is voor de hele zorg. Er is gewoon minimale vooruitgang. Ondertussen lees je wel ronkende berichten over AI die beter presteert dan artsen, maar meestal blijkt het helemaal niet in de praktijk getest.”
„Steeds weer strandt het op ethiek”, zegt Jeroen van den Hoven. „Is zéker dat de AI betrouwbaar werkt, op elk moment? Is er geen bias? Hoe is de verantwoordelijkheid en aansprakelijkheid geregeld als er iets misgaat? Technisch kan er misschien veel, normatief is AI er nog lang niet klaar voor.”
Van den Hoven is universiteitshoogleraar ethiek en techniek aan de TU Delft en directeur van het TU Delft Digital Ethics Centre. Sinds 6 maart is zijn ethiekcentrum een officiële samenwerkingspartner van de Wereldgezondheidsorganisatie (WHO). Het centrum gaat adviseren over ethische aspecten en wet- en regelgeving rond toepassing van AI in de zorg.
Dat de WHO hiervoor in Delft aanklopt is mede te danken aan de intensieve samenwerking tussen Van den Hovens onderzoeksgroep in Delft en die van Michel van Genderen en Diederik Gommers in het Erasmus MC in Rotterdam. Samen vertalen ze ethische vragen naar de klinische praktijk. We spreken elkaar een dag voor de WHO-ceremonie in het net nieuwe House of AI op de universiteitscampus in Delft.
Het moment dat de zorg niet meer om AI heen kan komt volgens Van den Hoven en Van Genderen heel rap dichterbij. „AI ontwikkelt zich razendsnel en in de gezondheidszorg blijven we achter”, zegt Van Genderen. „Als wij de AI niet ontwikkelen, dan wordt het misschien voor ons gedaan, de techpush rond AI is heel sterk. Ik zie het als een morele verplichting om hiermee aan de slag te gaan. De noodzaak is er ook, in de zorg zijn mensen en middelen schaars en de zorg zelf wordt juist complexer.”
„Big tech heeft duidelijk laten zien dat we via onze spullen een bepaald wereldbeeld en een bepaalde norm krijgen opgedrongen”, vult Van den Hoven aan. „Het is ontzettend belangrijk dat we zorg-AI hier in de EU op onze eigen voorwaarden ontwikkelen, zodat we niet de ethiek van een ander opgedrongen krijgen, al dan niet onbewust.”
Zorg-AI is er in twee smaken. Enerzijds zijn er AI-modellen die ondersteunen bij klinische beslissingen, bijvoorbeeld over wanneer iemand van een gewone afdeling naar de IC moet worden overgeplaatst. Daarnaast is er AI die andere aspecten van de zorg ondersteunt, zoals taalmodellen die familiegesprekken samenvatten en in het dossier zetten waardoor de administratielast afneemt.
Aan het testen
Met allebei deze vormen zijn ze in het Erasmus MC aan het testen, vertelt van Genderen. „We hebben een model waarmee we met veel meer zekerheid kunnen voorspellen of patiënten na grote kankerchirurgie naar huis kunnen. We zagen dat gemiddeld gezien na twee dagen geen ziekenhuisinterventie meer nodig was. Dus geen reoperatie, geen bloeding, geen beeldvorming, kortom geen zaken waarvoor mensen in het ziekenhuis aanwezig moeten zijn. Toch liggen mensen gemiddeld 6 dagen in het ziekenhuis, vaak voor de zekerheid. Hoe weten we nou of het korter kan? We hebben het model eerst getest op historische patiëntgegevens, en daarbij werkte het heel goed. De volgende stap was uitspraken doen over nieuwe patiënten.”
Dat was aanzienlijk lastiger. „We misten software die de prestaties van het model controleert”, zegt van Genderen. „Ons model draaide en ondertussen kregen we een update van ons informatiesysteem. Aan de achterkant verschoof daardoor een datatabel van ons model. De prestaties van het model gingen achteruit, maar hij bleef dezelfde zekerheid aangeven. Omdat we het in een onderzoekssetting bezig waren monitorden we steeds, dus hadden we het in de gaten. In het echt mag dit natuurlijk niet gebeuren.”
Ook bleken artsen het model niet zomaar te vertrouwen. „Ze wilden meer weten over hoe het model was getraind”, zegt Van Genderen. „Mijn patiënt heeft een drain, is het model wel getraind op mensen met een drain? Transparantie is ontzettend belangrijk, iedereen moet weten wanneer het model te vertrouwen is, en in welke gevallen ook niet.”
„In de huidige zorg zitten allerlei mechanismen die zorgen voor vertrouwen, zoals bijscholing, dagelijkse overdrachten en regels voor medicijngebruik”, zegt Van den Hoven. „Met AI komt er ineens een groot nieuw technisch ding bij. Het sociale weefsel moet zich opnieuw vormen, er moeten nieuwe procedures en werkwijzen komen. Nieuwe toedeling van verantwoordelijkheid ook.”
Discussies verzanden
Ethiek verzandt al gauw in discussies die hoog over gaan, waarin termen als transparantie, eerlijkheid en rechtvaardigheid langskomen. „Iedereen heeft zijn eigen voorstelling bij dit soort begrippen, wat betekent het nou concreet?”, zegt Van den Hoven. „Hoe vertaal je dit door naar een model dat besluit of een patiënt naar huis kan of niet? Wij proberen die ethiek te vangen in meetbare termen, requirements heet dat in softwaretermen. Daar blijven ethici meestal ver van, maar er blijkt een enorme behoefte aan. Die praktische aanpak is een van de redenen dat de WHO met ons wil samenwerken.”
Zorgen over rechtvaardigheid en transparantie komen samen in het concrete probleem van bias: niet zelden blijken AI-modellen met een bepaalde vooringenomenheid te oordelen. Van Genderen kent diverse voorbeelden. „In de VS was een risicovoorspellingsmodel geïmplementeerd dat 30 procent slechter bleek te werken voor zwarte mensen, omdat het uitgangspunt van het model niet ernst van de ziekte was, maar zorgkosten. Omdat er in het verleden minder geld is uitgegeven aan de zorg voor zwarte patiënten, door onder meer sociaaleconomische ongelijkheden, werd hun werkelijke gezondheidstoestand onderschat. De zorgkosten-drive bleek te leiden tot discriminatie.”
In de wetenschap is toch algemeen bekend hoe een onderzoeksgroep evenwichtig moet worden samengesteld, waarom blijft dit biasprobleem zo hardnekkig? „Dat is ook een van onze vragen, wat is er nodig om dit te voorkomen?”, zegt van Genderen. „We willen toe naar een soort validatieproces, een bias-assessment. Het moet uitlegbaar zijn waar een model op getraind is. Daaruit kan volgen dat een model voor een bepaalde groep minder goed werkt. Dat maakt het niet meteen onbruikbaar, maar je moet het wel weten. Ook moeten trainingsdata kwalitatief en gecontroleerd zijn, daarover loopt nu een groot Europees project, om te zorgen dat in Spanje dezelfde data worden verzameld als in Estland.”
Privacy en AI gaan ook niet altijd goed samen, in Europa wordt hier veel strikter mee omgegaan dan in bijvoorbeeld de VS. „Privacy is inderdaad een van de grote obstakels in het uitrollen van AI”, zegt Van den Hoven. „Maar door privacy als grondvoorwaarde op tafel te leggen komt ook innovatie los die daar rekening mee houdt. Een model werkt alleen als het goed getraind is, op heel veel en representatieve data. Maar het trainen zelf kan best met privacy in het achterhoofd. Bij federatief leren staan data niet op één centrale server. Het model reist als het ware langs de data om ter plekke te leren.”
Ook als AI gemeengoed is blijft de arts verantwoordelijk
Duurzaamheid moet ook een grondvoorwaarde zijn, vinden de twee. Van Genderen: „AI slurpt energie. Stel, een AI-model presteert maar een paar procent beter dan de traditionele manier, is het dat dan waard? Ik betwijfel het, maar daar moeten we het over hebben. Toch gaat het er nooit over, in geen enkele studie over AI in de zorg kijken de onderzoekers naar duurzaamheid. Dat hebben we onderzocht, geen een!”
Ook na deze hindernissen blijven er grote vragen over: wie is verantwoordelijk, wie heeft het laatste woord? En dus ook: wie is aansprakelijk als het misgaat? Stel een patiënt is twee dagen na een grote operatie ontslagen omdat het model groen licht gaf, en eenmaal thuis volgt toch een grote complicatie waardoor de patiënt overlijdt. Is de maker van het model aansprakelijk of de arts? Intensivist Van Genderen kan in de huidige situatie uitleggen hoe hij tot zijn besluit tot ontslag kwam. Kan hij dat straks ook?
„Ook als AI gemeengoed is blijft de arts verantwoordelijk”, zegt Van Genderen. „Ik moet het model dus kunnen interpreteren en het besluit nemen. Er zijn heel veel dingen waar we ons als beroepsgroep toe moeten gaan verhouden, zoals hoe gevoelig moet een model zijn? Vinden we het genoeg als het model 90 procent zeker is? Of 99 procent, of 100 procent? En wat is 100 procent dan? Een student van Jeroen kwam laatst ook met een heel interessante omgekeerde situatie: wat als het model groen licht geeft maar de arts besluit iets anders? Wie ben ik straks nog om het model te negeren?
Zelfrijdende auto
„Dit soort problemen hebben wij epistemic enslavement genoemd”, zegt Van den Hoven. „Op het moment dat je je als professional uitlevert aan zo’n slim model ontstaat er kennisafhankelijkheid. Je kunt eigenlijk geen goede redenen meer geven om er niet mee akkoord te gaan.”
De autonoom rijdende auto is al tien jaar een belofte, maar op enkele plekken na komt de driverless car niet van de grond. Belangrijke factor: de drempel van verantwoordelijkheid en aansprakelijkheid blijft te hoog. Is dit fundamentele punt wel op te lossen voor de zorg? „Daar gaan we met man en macht aan werken”, zegt Van den Hoven.
Nog een analogie van de weg: navigeren. Dankzij TomTom en Google Maps hebben veel mensen kaartlezen en navigeren verleerd. Van Genderen heeft zestien jaar gestudeerd en heeft nu voortdurend te maken met het interpreteren van patiëntgegevens. Waar blijft die vaardigheid? Verlies ervan klinkt gevaarlijk. Maar is dat wel zo erg, als blijkt dat AI consistent beter presteert?
„In de luchtvaart doet de automatische piloot ook vrijwel alles”, zegt Van den Hoven. „Piloten houden hun vaardigheden op peil door uren te maken in een hypermoderne vliegsimulator. Ik denk dat behoud van de technische skills wel lukt. Ik maak me meer zorgen over de moral skills, het vertrouwen dat we in het huidige zorgsysteem in elkaar hebben en het fijnmazige sociale weefsel waar dat op gebaseerd is.”
„We praten nu vooral over problemen, vergeet niet dat AI ook echt veel kan opleveren”, zegt Van Genderen. „In ons onderzoek zagen we dat patiënten gemiddeld vier dagen eerder naar huis konden én dat het aantal heropnames minder was. Het gaat ons zeker niet alleen om mensen eerder wegsturen, het wordt er dus ook echt veiliger van.”
