Synthetische Daten – Wie KI von KI lernen kann

Medizinische KI birgt enorme Potentiale, weist aber noch signifikante Mängel auf. Das Grundproblem ist ein Engpass diverser Daten für die Entwicklung. KI-generierte Daten – also synthetische Daten – können diese Lücke füllen und schützen private Patienteninformationen.

Datenmangel führt zu Bias in medizinischer KI

Künstliche Intelligenz kann rassistisch sein. Das wissen wir nicht erst seit gestern. Bias ist seit jeher eines der grundlegenden Probleme der ethischen KI-Entwicklung. Mit der rasanten Verbreitung der Technologie in immer weitere Bereiche des gesellschaftlichen Lebens steigt die Dringlichkeit, nachhaltige Lösungen zu finden.

Insbesondere bei der medizinischen KI drängt die Zeit. Studien zeigen, dass KI-gestützte Diagnostik unter anderem bei ethnischen Minderheiten schlechtere Ergebnisse erzielt. Dies führt zu einer strukturellen Unterdiagnostik ohnehin bereits benachteiligter Patientengruppen. Der Grund für die Verzerrung der Modellperformance ist der Mangel an vielfältigen Trainingsdaten.

Denn für KI im Gesundheitswesen ergibt sich ein starkes Spannungsfeld zwischen Datenbedarf und Datenschutz. Um die hohe Diversität der Patienten abzubilden, werden große Datenmengen benötigt. Diese sind jedoch aus Datenschutzgründen nur schwer zugänglich. Zudem besteht in vielen Fällen ein Problem der Datenverfügbarkeit. So sind Teile der Bevölkerung bis heute vom Gesundheitssystem unterversorgt. Das bedeutet, dass die Gruppen, selbst wenn man Zugang zu allen verfügbaren Daten hätte, unterrepräsentiert wären. Dieses Problem einer mangelnden Datenbasis ist bei seltenen Krankheiten noch größer.

Generierung synthetischer Daten

Stellen Sie sich vor, wir könnten fiktive Patienten erschaffen, die die reale Welt repräsentieren. Diese imaginären Patienten wären von realen Individuen nicht zu unterscheiden und würden die Verteilungen in der echten Welt widerspiegeln – sowohl die breite Masse als auch seltene Fälle. Obwohl dies nach Science-Fiction klingt, ist es in anderen Branchen bereits ein gängiges Konzept. In der Fachwelt bezeichnet man dies als synthetische Daten.
Das Prinzip hinter der Generierung synthetischer Daten ist recht einfach. Ein generatives KI-Modell wird auf Realdaten trainiert und versteht deren Charakteristika. Auf Basis dessen kann das Modell nun neue Datenpunkte generieren, die von Realdaten nicht zu unterscheiden sind.
In der Medizin sind wertvolle Informationen oftmals eingebettet in hochdimensionale, unstrukturierte Daten. Ein Beispiel sind medizinische Bilder wie MRTs oder CTs. Die Generierung solcher Daten ist technisch sehr komplex und wird durch die hohe Auflösung und 3-Dimensionalität des Bildes weiter erschwert. Es reicht zudem nicht aus, einfach nur ein Bild mit Anomalien zu erzeugen – beispielsweise ein Schädel-MRT mit Läsionen, die auf Multiple Sklerose hindeuten. Stattdessen muss man bei der Generierung die genaue Lokalisation der Läsionen und weitere medizinische Konditionen berücksichtigen. RYVER.AI konzentriert sich auf diese Herausforderungen und konnte mit proprietären Methoden bereits vielversprechende Ergebnisse bei der Generierung von 3D-Bildern für die Onkologie zeigen.

Einfluss synthetischer Daten

Im Kontext der KI-Entwicklung hat diese Technologie insbesondere drei Anwendungsfälle.
Erstens dient sie als sehr sicherer Mechanismus zur De-Identifizierung. Da synthetische Daten keine direkte Verknüpfung zu realen Patientendaten haben, geben sie keine personenbezogenen Informationen preis. Dies ermöglicht es Gesundheitsversorgern, bisher ungenutzte Daten für Forschung und Entwicklung zugänglich zu machen.

Synthetische Daten können dazu verwendet werden, Realdatensätze auszubalancieren, indem gezielt seltene Datenpunkte generiert werden. Dies kann beispielsweise eine unterrepräsentierte demographische Patientengruppe oder ein seltenes Krankheitsbild betreffen. Durch diese Vorgehensweise wird der Bias in den Trainingsdaten reduziert und die Verzerrung in KI-Modellen minimiert.

Außerdem können bestehende Datensätze vervielfacht werden. Unternehmen, die medizinische KI entwickeln, investieren viel Zeit und Geld in die Beschaffung und Aufbereitung von Daten. Annotierte MRT- oder CT-Bilder kosten in der Regel etwa 50 EUR pro Scan. Die besten KI-Lösungen im Markt werden auf hunderttausenden Scans trainiert. Dies resultiert oftmals in Investments von mehreren Millionen Euro nur für die Beschaffung und Aufbereitung von Daten. Mit einem generativen Modell ist es jedoch möglich, die Realdaten synthetisch um eine Vielfaches zu erweitern. Dadurch kann der zeitliche und monetäre Aufwand substanziell reduziert werden.

Qualität synthetischer Daten

Die Frage bleibt: Wie können wir sicher sein, dass diese KI-generierten Daten wirklich die reale Welt widerspiegeln? Die ernüchternde Antwort lautet: Es gibt keine Möglichkeit, dieses Risiko vollständig zu eliminieren. Daher müssen Mechanismen entwickelt werden, um die Qualität und Wirkung synthetischer Daten zu beurteilen. Dies geht einher mit dem End-of-the-Line-Prinzip, das im Gesundheitswesen häufig angewendet wird, um Medizingeräte oder Pharmazeutika zuzulassen.
Nehmen wir als Beispiel die frühzeitige Erkennung von Lungenkrebs in CT-Bildern. KI-Lösungen, die Radiologen bei der Detektion von Tumoren im frühen Stadium unterstützen, sind ungenau in der Erkennung seltener Tumore. Um dies zu lösen, können nun synthetische CT-Bilder mit genau diesen seltenen Ausprägungen generiert werden
Zunächst wird ein Modell zur Detektion der Tumore nur mit echten Daten trainiert (A). Eine Version des Modells (B) wird sowohl mit echten Daten als auch mit synthetischen CT-Bildern trainiert. Anschließend werden beide Versionen auf unabhängigen Realdaten getestet. Wenn die Ergebnisse zeigen, dass Modell B ausschließlich bessere Ergebnisse liefert als Modell A, können die synthetischen Daten verwendet werden.

Limitationen und Potenziale synthetischer Daten

Die Anwendung synthetischer Bilddaten im Gesundheitswesen ist heute noch begrenzt und erfordert einen starken Fokus auf spezifische Krankheitsbilder und Datentypen. Die Forschung schreitet jedoch mit großen Schritten voran und zeigt vielversprechende Ergebnisse bei der Generierung multimodaler Daten. Diese können unterschiedliche Bildmodalitäten aber auch Patientenakten und Biosample umfassen. Das Potenzial synthetischer Daten geht dadurch weit über das Anonymisieren oder Vervielfachen von Trainingsdaten für diagnostische KI hinaus. Synthetische Daten können den Mangel an echten Daten ausgleichen und eine der größten Barrieren für technologische Innovationen in der Medizin überwinden.

Das Autorenteam:

 

 

 

 

 

Jonas Ils und Kathrin Khadra haben 2022 gemeinsam das Münchner Health-Tech Unternehmen RYVER.AI gegründet. Sie fokussieren sich auf die Entwicklung generativer Technologien, um durch synthetische Daten medizinische KI zu verbessern. Die beiden Alumni der TU München haben sich durch das Manage & More Stipendium an der UnternehmerTUM kennengelernt und vor RYVER.AI bereits zwei weitere Startups gegründet.