Dr. Peter Köhler Profilbild

Dr. Peter Köhler

Facharzt für Diagnostische Radiologie und Facharzt für Strahlentherapie

ROC der AI im Vergleich zu den Hautärzten (Abb: Haenssle et all 2018)

Es ist nicht leicht, Hautkrebs von gutartigen Erkrankungen auf Fotos sicher zu unterscheiden. Mit Dermatoskopen (speziellen Auflichtmikroskopen) können erfahrene Ärzte immerhin eine Genauigkeit von 75-84% erreichen [Codella 2017]. Menschliche Auswerter gehen dabei regelbasiert vor, zum Beispiel nach der ABCD-Regel oder nach Argenzianos 7-Punkt-Checkliste. Computern solche Regeln beizubringen, ist sehr schwer, weil sie überhaupt keine impliziten Kenntnisse mitbringen. Deshalb waren Systeme der Künstlichen Intelligenz (Artificial Intelligence, AI) in der Hautkrebsvorsorge früher unnütz.

Das gilt mehr oder weniger auch für die bisher veröffentlichten Hautscreening-Apps. An sich wären diese Apps eine großartige Idee: jeder könnte selbst Fotos mit dem Handy aufnehmen und automatisch analysieren lassen – also eine primäre, kostenlose oder -günstige Hautkrebsvorsorge an sich selbst durchführen. Haus- und Facharzt könnten sich auf die Verdachtsfälle konzentrieren.

Es gibt etwa ein Dutzend veröffentlichte Apps für diesen Zweck. Die meisten analysieren die Fotos vollautomatisch; nur wenige senden sie an einen Experten zur Beurteilung. Leider haben die bisher getesteten Programme nur Sensitivitäten bis maximal 73% erreicht, wenn man sie unter Studienbedingungen getestet hat [Whiteman 2014]. (Am besten war noch die App „SkinVision“, aus Amsterdam, erschienen 2014. Allerdings soll die App inzwischen deutlich weiterentwickelt worden sein [Meskó 2019])

Es wird bisher davon abgeraten, sich auf die Apps zu verlassen [Whiteman 2014].

Nachdem die enorm beschleunigte AI-Hardware und auch Fortschritte in den mathematischen Algorithmen es möglich gemacht haben, sehr leistungsfähige und lernende Neurale Netze herzustellen, könnte sich das fundamental ändern. Solche Systeme lernen zu entscheiden nicht durch Regeln, sondern an zahllosen Beispielen. Dabei formen sie einen Algorithmus, der zwar funktioniert, aber ohne dass sich die Funktionsweise mit menschlichem Expertenwissen erklären lässt. In vielen Bereichen der Bildanalyse sind vielstufige („tiefe“) convolutional neural networks (CNNs) heute schon leistungsfähiger als Menschen.

Die Frage stellt sich, ob das auch bei der Analyse von Hautfotos so sein könnte.

Es sieht jedenfalls so aus. 2016 und 2017 hat die International Skin Image Collaboration (ein Projekt von Hautmedizinern, plastischen Chirurgen und Industrieunternehmen) Wettbewerbe veranstaltet, bei der die teilnehmenden AIs neben anderen Aufgaben auch Fotos von schwarzem Hautkrebs (Melanom) von solchen von gutartigen Leberflecken unterscheiden sollten [Noel 2017]. Zum Training wurden 2000 Dermatoskopieaufnahmen zur Verfügung gestellt. Der Sieger, das Programm einer Arbeitsgruppe aus Brasilien, erreichte über 0.9 AUC, ein hervorragendes Ergebnis, indem sie während der Semesterferien die gesamte Rechnerkapazität ihrer Fakultät beanspruchten.

Es ist bekannt, dass NNs besser werden, wenn man ihnen mehr Trainingsdaten verfüttert. 2017 haben Wissenschaftler aus Stanford ein CNN mit fast 130.000 Fotos trainiert [Esteva 2017]. Es handelte sich um ein bereits intensiv vortrainiertes tiefes CNN. Nach dem dermatologischen Training konnte es Melanome und andere Hauterscheinungen im Testdatensatz danach besser unterscheiden als 21 Fachärzte, die sich derselben Herausforderung gestellt hatten. Nur ein kleiner Teil der Trainingsbilder stammte aus Dermatoskopien, die meisten waren normale (wenn auch technisch professionelle) Foros.

Letztes Jahr hat eine andere Arbeitsgruppe, an der auch der geschätzte Konstanzer Kollege Blum beteiligt war, ein ähnliches CNN an über 100.000 dermatoskopischen Aufnahmen trainiert [Codella 2018]. Die AI (es handelte sich um Googles Inception v4) war dabei im Ergebnis besser als der Durchschnitt von 58 Hautärzten, die sich derselben Herausforderung gestellt hatten. Der Unterschied ist an der ROC-Kurve deutlich sichtbar. Nur einzelne Ärzte konnten bessere Einzelleistungen erreichen.

Die Autoren schlußfolgern, eine gut trainierte AI könne Ärzten auf jeder Erfahrungsstufe bei der Diagnostik helfen. Das ist sicher richtig. Wahrscheinlich würde es aber auch für die Patienten selbst gelten. Wirklich exakt arbeitende Apps würden die Hautkrebsvorsorge revolutionieren. Auf die weitere Entwicklung sollte man ein Auge haben.


[Neue Veröffentlichung (Brinker 2019) ergänzt am 23.4.2019:] Gleicher Datensatz; andere AI (ResNet50 CNN) mit vergleichbarer Leistung; 175 Ärzte aus deutschen Unikliniken; exakt gleiches Ergebnis.

[Und noch eine (Tschandel 2019) ergänzt am 17.5.2019:] Trainingssatz aus ca. 8000 Dermatoskopien und 6000 Nahaufnahmen aus einer Einrichtung aus Queensland; die Testbilder dann aus Wien, zwei verschiedene AI (InceptionV3 und ResNet50), zum Vergleich 95 Ärzte mit unterschiedlichem Ausbildungsgrad. Die AIs waren wieder besser. Dabei war InceptionV3 etwas stärker bei den Dermatoskopien und ResNet50 bei den normalen Fotos. Wie Andreas Blum sagt: Die Zukunft hat begonnen.