Welche Anwendungsfelder gibt es für generative KI und wo liegen deren Vorteile in der Radiologie?
Generative KI, gerade in Form von Large Language Models, können uns bei verschiedenen Aufgaben unterstützen. Wir arbeiten beispielsweise daran eine Schnittstelle mit einer Datenbank zu erstellen, um so mit ihr interagieren und kommunizieren zu können. Bereits heute können wir Hunderte von Datenbanken mit Informationen über Patient*innen und Krankheiten durchsuchen und erhalten die Informationen übersichtlich aufbereitet. Somit können wir beispielsweise sehr leicht ähnliche Krankheitsverläufe heraussuchen, um aus ihnen zu lernen und besser zu behandeln. Manches ist noch eine Vision, aber mit großen Sprachmodellen werden solche Szenarien denkbar.
Es funktioniert also im Grunde wie ChatGPT – Sie fragen das Netzwerk: „ Kannst du mir die Krankengeschichte dieses Patienten und den dazugehörigen Gesundheitszustand zeigen?"
Das hängt von der Art des Large Language Models ab. Die Modelle, die wir am Universitätsklinikum Essen entwickeln, funktionieren im Grunde wie ein Chat-System. Sie geben an wonach Sie suchen, und der Algorithmus liefert Ihnen diese Information. Doch er tut noch mehr: Er zeigt auch, welche Daten zur Beantwortung der Fragestellung genutzt wurden. Das ist besonders wichtig, um die Qualität der Ergebnisse zu prüfen. Aber Qualitätskontrolle ist ohnehin ein sehr, sehr bedeutsames Thema, wenn man mit Large Language Models arbeitet – besonders in der Medizin.
Interessant, dass Sie Qualitätskontrolle ansprechen. „ChatGPT diagnostizierte die mysteriöse Krankheit eines Vierjährigen korrekt, nachdem 17 Ärzte versagt hatten“ – das war eine Schlagzeile, die Ende September 2023 in den USA veröffentlicht wurde und dort einige Beachtung fand. Wie zuverlässig ist generative KI oder gibt es sogar Gefahren, gerade im medizinischen Einsatz?
Ich denke, dass solche Schlagzeilen bei jeder neuen Technologie auftauchen – man lotet die Grenzen aus. Large Language Models wie ChatGPT sind eine sehr interessante Entwicklung, die uns erlaubt Dinge zu tun, die vorher nicht denkbar waren. Dennoch gibt es Gefahren beim Einsatz der Technologie, insbesondere beim Thema Qualitätskontrolle. Ein Beispiel: Wenn Sie ChatGPT anweisen eine Einführung für einen Artikel zu schreiben, erhalten Sie auf Nachfrage auch die jeweiligen Quellenangaben. Sie können das Programm jetzt fragen, ob die Referenzen echt sind. ChatGPT wird es bestätigen und die entsprechenden Quellen ausweisen. Bei genauerem Hinsehen stellen Sie jedoch fest, dass die Publikationen, auf die sich der Algorithmus bezieht, nicht existieren. Sie werden vergeblich suchen. Im medizinischen Bereich kann das gefährlich sein. Deshalb ist es immens wichtig eine Art von Qualitätsprüfung zu hinterlegen, um diese sogenannten Halluzinationen im Keim zu ersticken.
Können Sie uns einmal durch den Prozess führen, wie ein neuer Algorithmus am Universitätsklinikum entsteht?
Am Anfang einer jeden Entwicklung sollte der klinische Bedarf im Mittelpunkt stehen – sprich: Was ist die genaue Fragestellung oder die Lücke, die der Algorithmus schließen soll? Dann klären wir im nächsten Schritt ethische Regulatorien, denn wir müssen bei der Erstellung des Algorithmus auf große Datenmengen zugreifen. Erst danach machen wir uns daran die Datenkollektive in anonymisierter Form zusammen zu tragen, die der Algorithmus braucht, um für seine spezielle Aufgabe lernen zu können. Um solche Daten zu finden, ist Datenintegration unerlässlich. In Essen steht dafür ein riesiger FHIR-Server, auf dem alle Informationen zusammenlaufen – das macht es uns einfach an strukturierte Daten zu gelangen. Anschließend überlegen wir, welcher Algorithmus die Fragestellung am besten beantworten kann. Meist nutzen wir frei zugängliche Netzwerke und passen sie an unsere Bedürfnisse an. Oft trainieren wir zu Beginn mehrere Algorithmen simultan und vergleichen sie im Anschluss miteinander, um den effizientesten auszumachen. Nach dem Training durchläuft der Algorithmus verschiedene Testphasen, idealerweise in Kollaboration mit anderen Forschungseinrichtungen, ehe wir den Algorithmus in die klinische Routine integrieren. Letztlich evaluieren wir den klinischen Nutzen und schauen, ob es irgendwelche Dinge gibt, die wir anpassen müssen.
In Kollaboration mit Siemens Healthineers entsteht ein Prototyp zur Evaluation und Weiterentwicklung eines Softwareassistenten für die radiologische Befundung. Worum geht es bei diesem Projekt?
Wir entwickeln derzeit gemeinsam zwei verschiedene Algorithmen – beides sind Large Language Models. Einer der Algorithmen ist – vereinfacht gesagt – in der Lage, klinische Fragen zum Gesundheitszustand von Patient*innen zu beantworten. Der zweite Algorithmus bildet eine Art Brücke zwischen Kommunikation und dem Auffinden von Datensätzen. Dadurch ist es möglich FHIR-Anfragen zu erstellen. Man könnte beispielsweise anweisen: Suche alle Patient*innen, die innerhalb der letzten zwei Jahre ein bestimmtes Medikament erhalten haben und danach eine Nierenschädigung erlitten. Das Large Language Model überträgt diese Fragen, ordnet die entsprechenden Datensätze zu und ermöglicht uns so, große Datensätze mit spezifischen Forschungsfragen zu konfrontieren.
Sie veröffentlichten im Dezember 2019 ein Leitthema in Der Radiologe mit dem Schwerpunkt „Künstliche Intelligenz in der Radiologie – Was ist in den nächsten Jahren zu erwarten?“. Darin gaben Sie einen Ausblick, welche Entwicklungen Sie in den kommenden 5 bis 10 Jahren erwarten. Haben sich einige Ihrer Prognosen bereits bewahrheitet und welche Trends oder Innovationen sehen Sie innerhalb der nächsten fünf Jahre?
In diesem Artikel sprach ich über verschiedene Szenarien und es gab durchaus eine Menge Entwicklungen. Zum Beispiel habe ich über KI gesprochen, die Bildkonvertierung nutzt, um die MR- und Sequenzerstellung zu beschleunigen. Heute gibt es tatsächlich einige Algorithmen, die bereits CE-zertifiziert sind. Zudem hatte ich gehofft, Chat-Systeme und Kommunikation für klinische Berichte nutzen zu können, und das ist etwas, woran wir aktuell arbeiten. Ich bin optimistisch, dass das innerhalb der nächsten fünf Jahre realisierbar ist.