N.B. Het kan zijn dat elementen ontbreken aan deze printversie.
Kunstmatige intelligentie De radioloog herkent een longaandoening op röntgenfoto’s nog altijd beter dan algoritmes van beeldherkenningssoftware.
Nu eens geen nieuwsbericht dat zegt dat kunstmatige intelligentie de mens weer ergens in aftroeft. Radiologen blijken in de dagelijkse praktijk nog altijd beter in het herkennen van veelvoorkomende longaandoeningen dan AI-systemen. Dat blijkt uit een vergelijking tussen vier AI-hulpmiddelen en een pool van 72 artsen waarbij ruim 2.000 röntgenfoto’s van de longen werden beoordeeld op veelvoorkomende acute aandoeningen.
De commercieel verkrijgbare AI-systemen waren best goed in hun taak, maar ze diagnosticeerden vaker een aandoening terwijl die er niet was (een vals-positief) dan de radiologen. Ze presteerden ook minder dan de artsen als sprake was van meerdere ziektes tegelijk, of als afwijkingen slechts klein waren.
Dit schrijven onderzoekers verbonden aan twee Deense ziekenhuizen en de Universiteit van Kopenhagen dinsdag in het wetenschappelijke tijdschrift Radiology. AI moet nog niet als meer dan een ondersteunende tool worden gezien en vooral bij complexe gevallen is opletten geboden, concluderen ze.
Deep learning
Het herkennen afwijkingen in patronen is een taak waar kunstmatige intelligentie (AI) heel goed in is. Dankzij de deep learning die zulke algoritmes toepassen kunnen ze informatie in meerdere, steeds abstractere, lagen verwerken. Daarnaast is het anders dan bij artsen eenvoudig om de algoritmes te trainen met miljoenen voorbeeldfoto’s, werken algoritmes zeer snel en worden ze nooit moe.
In dit onderzoek werd gekeken hoe goed AI een aantal veelvoorkomende longziekten kan herkennen: luchtwegziekten (zoals longontsteking of longoedeem), pneumothorax (klaplong) en pleurale effusie (opeenhoping van vocht rond de longen).
Er werden 2.040 longfoto’s beoordeeld, van patiënten tussen de 58 en 81 jaar oud. In 669 gevallen was er sprake van een acute longziekte, in 1.371 gevallen niet. De foto’s stonden niet op zich, van 1.641 patiënten waren eerdere foto’s aanwezig, meer dan de helft van de patiënten had meerdere – ook niet acute – problemen met de longen. De radiologen konden deze informatie net als in hun dagelijkse praktijk betrekken in hun oordeel, de AI-systemen konden dat niet.
Gemiste diagnoses
De opvallendste verschillen waren te zien bij het identificeren van luchtwegaandoeningen. De AI-tools meldden tussen de 13,7 en 36,9 procent van de gevallen een ten onrechte een positieve uitslag, bij de radiologen ging dat om 11,6 procent van de gevallen. Het aandeel gemiste diagnoses (vals-negatief) lag bij zowel bij de AI-tools als de radiologen gemiddeld rond de 20 procent, het ging daarbij meestal om subtiele afwijkingen.
Bij het identificeren van vocht rond de longen lagen de percentages vals-positieven veel lager (AI 1,1 tot 2,4 procent, radiologen 0,2 procent). Een klaplong werd even vaak vals positief en vals negatief beoordeeld.
„Net als eerder onderzoek laat ook deze studie zien dat artsen de resultaten van AI niet moeten overschatten”, schrijven twee radiologen van de Osaka Universiteit in Japan in een commentaar in Radiology. Maar het valt te verwachten dat AI-tools verder verbeteren. „Een belangrijke reden dat artsen beter presteren is de toegang tot meer gegevens dan die ene foto. In die richting kan AI zich ook ontwikkelen. Bovendien zijn er andere typen algoritmes op komst die net anders leren, de eerste resultaten zijn veelbelovend.”
De Japanners vinden het daarnaast jammer dat het onderzoek de resultaten van de radiologen niet uitsplitsen naar jaren ervaring. „Om erachter te komen wat de impact van AI kan zijn op de prestaties van artsen in de feitelijke klinische omgeving is dit essentiële informatie.”