Dr. Peter Köhler Profilbild

Dr. Peter Köhler

Facharzt für Diagnostische Radiologie und Facharzt für Strahlentherapie

Abb.: Faster R-CNN Plugin für Osirix/Horos (Screenshot von Ribli et al.)

 

Künstliche Intelligenz ist in der Mammographie eigentlich ein alter Hut. Die ersten Entwicklungen zur computer-aided diagnostics (CAD) dafür sind fast 25 Jahre alt (z.B. Kegelmeyer 1994). Und wir Radiologen sind keineswegs dagegen, besonders seit wir 2005 das deutsche Screeningprogramm begonnen haben – schliesslich ist das systematische Befunden von hunderten Mammographien am Stück kein Spaß. Es ist monoton und anstrengend. Menschen werden bei solchen Aufgaben müde; sie langweilen sich und werden schlampig, wenn sie lange nichts finden. Außerdem haben Menschen als kreative Intelligenzen Probleme mit gleichförmigen Datenmengen. Wir suchen immer nach Mustern, wo eigentlich keine sind. Wir lassen uns beispielsweise bei der Durchsicht von Screeningmammographien subtil beeinflussen: Eyetracking zeigt, dass Befunder nach einem Treffer bei den folgenden Bildern unbewusst am gleichen Ort stärker suchen (Alamudun 2018).

Computer unterliegen solchen Störungen nicht, sie arbeiten Tag und Nacht in gleichbleibender Qualität und hoher Geschwindigkeit. Und sie können mit Digitalbildern umgehen. Seitdem wir alle Bilder gleich digital erzeugen und speichern, fällt der aufwendige Schritt des Scannens weg, und prinzipiell eignet sich der straff strukturierte Datenlauf einer radiologischen Abteilung sehr gut dazu, eine KI einzubinden.

In den USA haben die Kollegen es leichter, weil die FDA schon seit langem KI-Produkte für die Screening-Mammographie zertifiziert (iCAD IQ, Hologic R2 ImageChecker, Parascript AccuDetect, VuCOMP M-Vu CAD, um nur die wichtigsten zu nennen). Es gibt also ein Medizinprodukt und einen dafür verantwortlichen Hersteller, die Haftungsfrage ist geregelt. Und die amerikanischen Versicherungsunternehmen sind in der Regel bereit, die Kosten für eine Computer-Diagnose zu bezahlen (ca. 10 U$) – damit rechnen sich die Anschaffungskosten für radiologische Praxen und Krankenhäuser. 80% der Screening-Mammographieuntersuchungen in den USA werden heute mit CAD unterstützt.

In Europa ist alles anders: CAD wird nicht bezahlt und deshalb auch nicht angeschafft. Die Screening-Programme – und in deren Folge auch die überweisungsgebundene Mammographie – setzen auf Doppelbefundung durch spezialisierte Radiologen, was etwa zwei Drittel weniger kostet. Dabei ist Voraussetzung, dass alle Befunder ebenso wie die anderen Screeningteilnehmer (MTRA, Pathologen usw.) für das Programm zertifiziert sind und ihre Leistungsqualität konstant überprüft wird.

Die Studienbasis dafür ist solide: es werden in allen Auswertungen konstant mehr Karzinome gefunden als bei der Einzelbefundung. Tatsächlich ist der Wirkungsnachweis der europäischen Doppelbefundung sogar besser als der amerikanischen CAD, Die Computer müssen ihre Nützlichkeit erst noch beweisen. Leider hat eine sehr große Studie an über 600.000 amerikanischen Screening-Mammographien der Jahre 2003-2009 überhaupt keinen Vorteil für die CAD ergeben: Sensitivität und Spezifität waren mit und ohne CAD gleich (Lehman 2015).

Ich glaube, das liegt daran, dass die in dieser Zeit genutzte Software noch zu schwach war. Mammographiebefundung ist eine komplexe Mustererkennung: erfahrene Befunder arbeiten nicht mehr rein regelbasiert, sie erkennen die Herde als Muster, Verkalkungsgruppen und Architekturstörungen auf den Bildern fallen auf, wie einem eine neue Narbe in einem vertrauten Gesicht auffällt. So arbeiteten die alten regelbasierten Programme nicht. Und sie konnten auch nicht dazulernen – selbst nach zehntausend Einsätzen hatten sie immer noch denselben Regelsatz, mit dem sie geliefert wurden.

Heute haben wir mit dem Deep-Learning, vor allem mit den convolutional neural networks (CNN) ein Verfahren, das für Mustererkennungen ideal ist. Ein CNN kann man trainieren, ohne sich über die Regeln, wie ein Tumor im Mammogramm aussieht, Gedanken machen zu müssen. Man braucht stattdessen sehr viele Bilder mit und ohne Tumoren, die man der Maschine verfüttert. Wirklich sehr viele! Die von IBM und Sage Bionetworks gesponsorte DREAM-Challenge 2017 (Dialogue for Reverse Engineering Assessment and Methods) widmete sich mit der Mammographie-CAD und lieferte den Teilnehmern einen Satz von ca. 650.000 menschlich befundeten (labeled) Mammographieaufnahmen. Die Kandidaten, über 1000 deep-learning-Algorithmen, wurden daran trainiert und dann gegen einen neuen Datensatz getestet.

Der Sieger, die KI eines kleinen französischen RadTech-Unternehmen namens Therapixel, erreichte einen positiven Vorhersagewert von 80%. Als kommerzielles Unternehmen hält diese Forschergruppe ihre Details verständlicherweise zurück. Deshalb wird der zweite Platz interessant, den eine Arbeitsgruppe der Eötvös-Loránd-Universität in Budapest erreicht hat: Von diesen Forschern gibt es ein Paper (Ribli 2018) und eine Open-source-Demonstration, die man ausprobieren kann: https://github.com/riblidezso/frcnn_cad.

Das Budapester System mit der Bezeichnung Faster R-CNN ist ein Neurales Netzwerk auf Basis des Caffe-Frameworks. Es besteht aus einem Detektor-NN, welches Objekte unterschiedlicher Größe in den Bildern detektiert, und dem eigentlichen Klassifikations-NN, welches 16 Schichten tief ist und den gewünschten binären Output „gutartige Läsion“ oder „bösartige Läsion“ liefert.

Riblis System ist an 2600 älteren, eingescannten Film-Mammographien trainiert worden, die kostenlos verfügbar sind. Diese Bilder sind auf Pixel-Level annotiert (d.h. die Tumoren sind exakt von Fachleuten eingezeichnet worden). In einem kleinen Testdatensatz fand die Software nach dem Training 90% der Tumoren und gab 0.3 Fehlalarme pro Bild. Für den relativ kleinen Trainingsdatensatz sind Sensitivität und Spezifität des Systems schon beeindruckend. Bestimmt liesse sich die Befundungsqualität des CNN noch weiter steigen, wenn man ihm größere Trainingsdatensätze verfüttern würde, am besten moderne, digitale Vollfeldmammographien.

Manche Radiologen erwarten, dass solche Systeme in den nächsten fünf Jahren marktreif werden. Wenn sie dann noch nachweisen können, dass ihre Erkennungsrate die der menschlichen Doppelbefundung überschreitet, ohne mehr Fehlalarme zu produzieren, dann werden sie im Screening auch eingesetzt werden. Spätestens dann können wir menschlichen Befunder uns wieder kreativeren Aufgaben widmen.