Man muss sich natürlich an die Kunst, geeignete Anweisungen („Prompts“) zu schreiben, möglichst auf Englisch, erst herantasten. Auch scheinen die kostenlos verfügbaren neuronalen Netze deutlich kleiner, schwächer trainiert und in ihren gestalterlichen Möglichkeiten beschränkt zu sein, als die Systeme der GAFAM. Dafür sind sie quelloffen, transparent und vielseitig.
Die AI-Modelle, die ich getestet habe, malen auf jeden Fall lieber Steampunk-Umgebungen und futuristische Landschaften, als realistische Pflanzen oder Gegenstände. Gegentwärtig haben die AIs kein Konzept von Zahlen, können also nicht „zwei“ oder „drei“ Personen darstellen – sie füllen einfach die verfügbare Fläche mit Figuren. Echte Personen der Zeitgeschichte kennen sie auch nicht. Sie beantworten Prompts, die bestimmte Menschen verlangen, mit generischen Portraits, auch wenn es genügend echte Fotos dieser Leute im Internet gibt, an denen man lernen könnte, wie sie aussahen. Zum Beispiel produzierte OpenJourney (eine Art freie Variante von MidJourney als Trainingsmodell für StableDiffusion) auf dem Prompt „Detailed academic painting style. Wilhelm Conrad Roentgen, dressed in 19th century clothes, looks at a modern 21th century x-ray unit“ das Bild eines Vollbartträgers, der nur entfernt an WCR erinnert:
Kommerzielle Tools malen schöner, sind aber inhaltlich nicht stärker. Bing/DALL-E gab ich den Prompt „Detailed academic painting style. Wilhelm Conrad Roentgen, dressed in 19th century clothes, looks at a modern 21th century x-ray unit, which is demonstrated to him by a modern female doctor in medical outfit“:
Sehr dekorativ, das könnte man in der Praxis durchaus schon aufhängen. (Wenn man nicht so genau auf Details wie Ohren und Finger achtet.) Aber leider ähnelt auch dieser Herr mit weißer Bartpracht nur entfernt dem ehrwürdigen Begründer unserer radiologischen Disziplin. Hier zum Vergleich ein echtes Foto (um 1900):
Interessant ist die phantastische Vielseitigkeit der Programme, wenn man verschiedene Modelle einstellt und ihnen keine spezifischen Vorgaben macht. Hier zweimal der Prompt „A radiologist examining images on his x-ray unit“ für StableDiffusion: einmal arbeitet die AI mit dem normalen StableDiffusion-Modell (Version 2.1) und der ergänzenden Aufforderung, ein classic mediveal painting zu erzeugen, und daneben eine sehr coole Version mit dem Cyberpunk 2077 Model.
Zuletzt habe ich versucht, Röntgenbilder und andere radiologische Aufnahmen „aus dem Nichts“ herstellen zu lassen. Das war interessant: es gibt schon gewisse Ähnlichkeiten zu echten Aufnahmen, die Kontraste und Grauwerte passen, auch große Strukturen sind vorhanden – man ahnt jedenfalls, was es sein soll. Aber die Verzerrungen sind extrem. Es besteht überhaupt keine anatomische Korrelation mit echten Körperregionen. Die Befunde aus echten Erkrankungsbildern sind nicht vorhanden. Hier ein von DALL-E berechnetes CT-Bild einer Lungenfibrose (rechts der Prompt):
Oder die mit dem Befehl „transversal, T2-weighed mri image which depicts a calcified liver mass; please add annotations“ erzeugte Kernspintomographie einer Leberverkalkung:
Zum Vergleich zwei passende echte Aufnahmen:
Links eine Lungenfibrose im CT, rechts eine verkalkte Bandwurmzyste der Leber im Kernspintomogramm. Die im echten Bild sichtbaren, typischen Strukturen und Befunde der beiden Erkrankungen kennt die AI nicht. Kein Wunder: vermutlich wurde sie nie mit solchen Aufnahmen trainiert. Echte radiologische Bilddaten brauchen viel Speicher, sie müssen vor der Verwendung anonymisiert werden, und umsonst sind sie auch nur selten.
Die AI-Aufnahmen machen auf mich eher den Eindruck, dass sie aus einem Training mit Bildern aus der Laienpresse oder von populärwissenschaftlichen Webseiten stammen, wo diese Beispielbilder ja oft extrem nachgeschärft oder sogar eingefärbt werden, damit sie für Nichtmediziner verständlich sind. Diese Bilder sind auch nicht in der detaillierten Weise annotiert, wie meine Prompts voraussetzen, sondern viel allgemeiner.
Zum Abschluss noch ein „academic painting of Prof. Roentgen’s cabinet on a sunny afternoon“, in der schönen Interpretation von OpenJourney. Wer möchte nicht gerne in diesem gemütlichen Büro arbeiten?