Use Case 2 – From Data to Knowledge

Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen

Im Anwendungsfall „From Data to Knowledge – Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen“ des MIRACUM-Konsortiums geht es um die Entwicklung und Etablierung von Methoden zur standortübergreifenden Analyse von Patientendaten in den beteiligten Universitätskliniken. Die Methoden sollen dazu genutzt werden, Wissen zu generieren, das direkt in der klinischen Praxis angewendet werden kann.

Mit dem schrittweisen Ausbau der Datenintegrationszentren an den medizinischen Universitätsstandorten der Medizininformatik-Initiative wird eine Grundlage geschaffen, um Patientenkohorten anhand von klinischen Parametern, Biomarkern und molekularen/genomischen Untersuchungen zu identifizieren und in Untergruppen einzuteilen. Im Use Case 2 des MIRACUM-Konsortiums sollen auf dieser Basis prädiktive Modelle entwickelt werden, die zum medizinischen Wissen beitragen und Ärzte bei ihren diagnostischen und therapeutischen Entscheidungen unterstützen können. Im klinischen Bereich konzentriert sich der Use Case auf Patienten mit Lungenerkrankungen (Asthma und COPD) und Hirntumoren.


MIRACUM – Gemeinsam gegen Asthma und COPD (Quelle: BMBF)


Weitere Informationen

Ein konkretes Beispiel: Alpha-1-Antitrypsin-Mangel (AATM) ist eine Erbkrankheit, bei der das Enzym Alpha-1-Antitrypsin im Körper fehlt. Infolgedessen kann es zu Gewebeschäden in Lunge und Leber kommen, die bereits in jungen Jahren zu einer chronisch obstruktiven Lungenerkrankung (COPD) führen. Daher unterscheiden sich COPD-Patienten mit und ohne AATM oft grundlegend – sowohl im Alter als auch in der Rauchergeschichte, den größten Risikofaktoren für COPD. Das Problem ist, dass COPD mit AATM eher selten ist, weshalb prognostische Faktoren für Komplikationen und neu auftretende Komorbiditäten meist in COPD-Akten von Patienten ohne AATM ermittelt wurden. Der Anwendungsfall „From Data to Knowledge“ will nun untersuchen, ob diese Faktoren trotz der grundlegenden Unterschiede auch für COPD-Patienten mit AATM genutzt werden können.

Die entsprechenden Daten in MIRACUM sind aus datenschutzrechtlicher Sicht als besonders schützenswert anzusehen. Eine zentrale Erfassung über alle Standorte hinweg ist potenziell ein zu großes Risiko. Ziel ist es daher nicht, die Daten zur Analyse zu bringen, sondern die Analyse zu den Daten. Genauer gesagt: Nur aggregierte und anonymisierte Daten sollen die Standorte verlassen. Dieses Prinzip wird durch die Software DataSHIELD umgesetzt, die an der Universität von Newcastle entwickelt wurde. Die Software ist unter einer Open-Source-Lizenz veröffentlicht und kann frei verwendet werden. DataSHIELD bietet verschiedene Prozeduren, die Teil des statistischen Werkzeugkastens sind. Diese reichen von der Berechnung einfacher Kennzahlen wie Mittelwerte oder Häufigkeiten bis hin zu komplexeren Regressionsmodellen, die in der oben beschriebenen klinischen Anwendung verwendet werden. Neben diesen bereits implementierten Analyseverfahren bietet DataSHIELD auch eine flexible und erweiterbare Infrastruktur, um neuartige Methoden der künstlichen Intelligenz zu entwickeln und auf vernetzte Daten anzuwenden. Zu diesem Zweck steht das MIRACUM-Konsortium in engem Austausch mit dem Entwicklungsteam und der DataSHIELD-Community.

Neben der Verwendung von anonymen aggregierten Daten wird in Anwendungsfällen die Verwendung von synthetischen Daten erforscht, um Datenschutzanforderungen zu erfüllen. Synthetische Daten sind Daten, die keine realen Beobachtungen und Patienteninformationen enthalten, sondern allgemeine Merkmale und statistische Beziehungen von realen Daten nachbilden. Für die Verwendung von Daten in der Forschung bedeutet dies, dass für jeden Standort virtuelle Patientendaten erstellt werden, die nicht an die Daten eines einzelnen Patienten gebunden sind. Solche Daten können dann gemeinsam genutzt werden und erlauben die Anwendung verschiedener Analysekonzepte, wie z. B. statistische Standardanalysen oder Techniken der künstlichen Intelligenz. Um synthetische Daten aus realen Daten zu generieren, sind Ansätze des maschinellen Lernens erforderlich. Konkret werden sogenannte generative Modelle verwendet, die die systematische und zufällige Variabilität der Originaldaten abbilden. Ermöglicht wird dies durch Techniken der künstlichen Intelligenz, insbesondere aus dem Bereich des Deep Learning. Die Generierung der virtuellen Patientendaten ist auf verschiedene MIRACUM-Standorte verteilt. Auch hierfür wird die DataSHIELD-Infrastruktur genutzt. Auf diese Weise kann die Analyse der Daten mit etablierten Verfahren und die Entwicklung neuer Methoden zur datenschutzkonformen Analyse verteilter Patientendaten gemeinsam vorangetrieben werden.

Publikationen

Lenz S, Hess M, Binder H. Deep generative models in DataSHIELD. BMC Med Res Methodol. 2021; 21, 64. Doi: 0.1186/s12874-021-01237-6. PMID: PMC8019187.

Gruendner J, Wolf N, Tögel L, Haller F, Prokosch HU, Christoph J. Integrating Genomics and Clinical Data for Statistical Analysis by Using GEnome MINIng (GEMINI) and Fast Healthcare Interoperability Resources (FHIR): System Design and Implementation. JMIR 2020; 22:e19879. DOI: 10.2196/19879.

Gruendner J, Prokosch HU, Schindler S, Lenz S, Binder H. A Queue-Poll Extension and DataSHIELD: Standardised, Monitored, Indirect and Secure Access to Sensitive DataStud Health Technol Inform. 2019;258:115-119. Doi: 10.3233/978-1-61499-959-1-115. PMID: 30942726.