| Einleitung. Die Einführung elektronischer Gesundheitsakten (EHRs) hat das Gesundheitswesen durch die Digitalisierung von Patientendaten und die Verbesserung ihrer Zugänglichkeit und Wiederverwertbarkeit revolutioniert. Die Interoperabilität stellt jedoch nach wie vor eine große Herausforderung dar, da unterschiedliche Terminologien, Datenformate und Systemarchitekturen in verschiedenen Einrichtungen einen nahtlosen Datenaustausch behindern. Dieser Mangel an Standardisierung schränkt das Potenzial intelligenter digitaler Gesundheitsanwendungen ein. In dieser Dissertation werden Lösungen zur Verbesserung der Interoperabilität von elektronischen Patientenakten erforscht, indem klassische und Deep-Learning-basierte Textklassifizierungsmethoden angewandt, die Erkennung von benannten Entitäten NER und die Normalisierung medizinischer Konzepte MCN mithilfe unüberwachter Lernmethoden automatisiert und Transformermodelle und große Sprachmodelle LLM für die Zuordnung klinischer Texte zu Terminologien wie SNOMED CT genutzt werden.
Methoden. Diese Dissertation ist in drei Hauptstudien unterteilt, die sich auf die Verbesserung der Interoperabilität von EHR konzentrieren. Die erste Studie wendet klassisches maschinelles Lernen ML und Deep-Learning-Modelle an, um EHR-Daten im Zusammenhang mit Sauerstoffsupplementierung zu klassifizieren, wobei die Wirksamkeit von ML-Methoden bei der Organisation großer Datenmengen, insbesondere für die COVID-19-Forschung, hervorgehoben wird. Die zweite Studie automatisiert NER und MCN mit unüberwachten Methoden. Es wurde eine Pipeline entwickelt, die klinische Texte tokenisiert, Entitäten erkennt und sie auf SNOMED CT abbildet, wobei SapBERT für die Einbettung medizinischer Begriffe und regelbasiertes Re-Ranking für die Disambiguierung von Entitäten verwendet wird. Dieser Ansatz reduziert die Abhängigkeit von manuell annotierten Daten. In der dritten Studie werden SapBERT und LLM kombiniert, um MCN zu verbessern und exakte Zuordnungen zu SNOMED CT und UMLS zu ermöglichen. Auf LLM basierende Algorithmen zur Datenbereinigung und für das Re-Ranking verbesserten die Genauigkeit. Weitere Untersuchungen umfassen SapBERT-basiertes Termclustering, einen Vergleich von kontextuellen und nicht-kontextuellen Vektorrepräsentationen, hybride Ansätze für die Abbildung des Raucherstatus und die Entwicklung von Explainable AI (XAI) und Visualisierungstools für die Integration und Navigation von Patientendaten.
Ergebnisse. In der ersten der drei genannten Hauptstudien erreichte das Textklassifizierungsmodell einen F1 Score von über 90% bei der Kategorisierung von Aufzeichnungen zur Sauerstoffsupplementierung und bewies damit die Wirksamkeit des gewählten maschinellen Lernansatzes für die domänen- und taskspezifische Aufgabe. Die unüberwachten Lernmethoden der zweiten Studie wiesen eine vielversprechende Performance bezüglich Precision und Recall auf, wodurch die Abhängigkeit von manuell annotierten Daten für die Aufgabe der Termnormalisierung in Zukunft erheblich verringert werden kann. Die dritte Studie bestätigte, dass BERT-basierte Modelle einem traditionellen Lexikonabgleich für die Aufgabe der MCN überlegen sind, mit einer Verbesserung der Erkennungsrate um 91,8% von einem F1 Score von 0.297 auf 0.568. Darüber hinaus verbesserte die Anwendung von LLM für die Datenbereinigung und das Re-Ranking die Leistung von BERT um 6,8% im F1 Score in der Aufgabenstellung, wobei der Normalisierungsprozess verfeinert und die Anpassung an standardisierte medizinische Terminologien verbessert wurde.
Diskussion. Die kollektiven Ergebnisse dieser Arbeit unterstreichen die entscheidende Rolle von fortgeschrittenen kontextuellen maschinellen Lernmethoden und der Anwendung von LLMs bei der Unterstützung der Interoperabilität von Daten in der elektronischen Patientenakte. Durch die Verbesserung der Genauigkeit, Konsistenz und Automatisierung von MCN trägt diese Forschung zur Entwicklung einer standardisierten Repräsentation von Gesundheitsdaten bezüglich internationaler Terminologien, im speziellen SNOMED CT dar. Diese Fortschritte ermöglichen eine bessere Verwendung dieser Daten im Kontext intelligenter Gesundheitsanwendungen, die nahtlos Daten austauschen, klinische Arbeitsabläufe verbessern und die Patientenversorgung optimieren können. Diese Arbeit unterstreicht die Notwendigkeit kontinuierlicher Innovation in der Gesundheitsinformatik und bietet eine Grundlage für künftige Forschung zur Überbrückung der Interoperabilitätslücken in EHR-Systemen mit Hilfe der Erstellung strukturierter und standardisierter Patientenprofile.
|