| EINLEITUNG. Jegliche Art der textuellen Dokumentation in elektronischen Patientenakten, unabhängig von der Sprache, enthält spezialisierte Formen von Ausdrücken, die oft Elemente aus mehreren Sprachen umfassen. So enthält die deutsche Kliniksprache auch zahlreiche Wärter und Wortstämme aus dem Lateinischen, Griechischen, und Englischen. Die Verwendung von Fachausdrücken, Kurzformen und anderen sprachlichen Merkmalen erfordern spezielle Verarbeitungspipelines um klinische Bedeutungen zu extrahieren und zu disambiguieren. Die größte Herausforderung besteht darin, dass all diese Merkmale häufig nicht-lexikalischer Natur und kontextabhängig sind.
METHODEN. Für die Analyse wurden verschiedene Datensätze und Rahmenstrukturen für Untersuchungen im Bereich des maschinellen Lernens herangezogen, darunter Fachwörterbücher, klinische Terminologien, Lexika, Sprachmodelle und grundlegende Strukturen zur Verarbeitung natürlicher Sprache. Fachexperten validierten die Untersuchungen, um die Leistung der einzelnen, durch Computeralgorithmen bewältigten Aufgaben zu bewerten.
ERGEBNISSE. Die Studien zu nicht-lexikalisierten Sprachkomponenten integrierten sowohl aktuelle Techniken des maschinellen Lernens einschießlichlich großer Sprachmodelle (LLM). Für die Erkennung dieser Sprachkomponenten wurden Namenserkenner und LLM eingesetzt. Zur Erweiterung von Domänenlexika dienten Kookkurrenzanalysen, Vektordarstellungen und LLM, um neue Bedeutungen aus Bestandteilen klinischer Texte zu identifizieren. Die Disambiguierung von nicht-lexikalisierten Sprachkomponenten, insbesondere von Akronymen, erfolgte durch Text-Mining und LLM-basierte Ansätze. Eine Übersichtsarbeit unterzog bisherige Ansätze der automatischen Interpretation von Abkürzungen in klinischen Texten einer detaillierten Analyse. Außerdem wurden Informationen zu Risikofaktoren wie Raucher- und Alkoholstatus in die Klassifizierung klinischer Texte einbezogen.
DISKUSSION. Hochwertige, ausgewogene Datensätze und Sprachressourcen sind essenziell für leistungsstarke Ergebnisse im maschinellen Lernen. Mangelhafte oder unzureichende Terminologien mindern die Effizienz. Die Generierbarkeit und Wiederverwendbarkeit von Lösungen wird beeinträchtigt, da vergleichbare Aufgaben mit denselben Ressourcen in unterschiedlichen Sprachen oft nicht einheitlich umsetzbar sind. |