| Aufgrund der abnehmenden Kosten der Genomsequenzierung hat das Feld der Präzisionsmedizin an klinischer Bedeutung gewonnen, indem gezielte Behandlungen für PatientInnen mit spezifischen Biomarkern ermöglicht werden. Um dieses Ziel zu erreichen, ist die automatisierte Verarbeitung großer, unstrukturierter Datensätze in elektronischen Gesundheitsakten und Online-Ressourcen wie PubMed notwendig. Damit können die unter Zeitdruck stehenden MitarbeiterInnen des Gesundheitssystems bei individuellen Behandlungen unterstützt und der Aufbau repräsentativer Kohorten für neue klinische Studien erleichtert werden. Während Natural Language Processing (NLP) in vielen Feldern aufgrund der öffentlichen Verfügbarkeit umfangreicher Datensätze große Fortschritte durch Deep Learning (DL)-Ansätze erzielen konnte, sind solche Anwendungen im klinischen Bereich aufgrund ethischer Bedenken bezüglich des Datenschutzes eher selten. Um dieser Problematik entgegenzuwirken, wurde durch jüngste Fortschritte in den Methoden des Transfer-Learning --- wie z. B. durch kontext-basierte Word Embeddings (WE) --- die teilweise Wiederverwendung großer Modelle erleichtert. Mit dem Ziel, die Präzisionsmedizin weiter zu verbessern, werden in dieser Arbeit WE für klinische NLP in folgenden drei Forschungsbereichen eingesetzt: (a) Bereinigung von klinischen Texten; (b) Klassifizierung von klinischen Texten; und (c) biomedizinische Informationssuche. Im Forschungsbereich (a) habe ich eine neue Methode demonstriert, die WE mit einem minimalen Satz von Filterregeln verbindet, um Akronyme vollständig unüberwacht auf ihre Langform abzubilden. Diese Methode übertraf die traditionellen Ansätze, welche sowohl n-Gramme als auch ein manuell erstelltes Inventar an Wortbedeutungen verwenden. Im Rahmen des Forschungsbereichs (b) habe ich mehrere Methoden zur klinischen Phänotypisierung und Kohortenbildung untersucht. Dabei fand ich heraus, dass die mit WE kombinierte, logistische Regression ein besseres Modell für die Klassifikation von klinischen Texten darstellte als komplexere DL-Architekturen. Zudem habe ich gezeigt, dass Embeddings, die auf einem größeren Datensatz vortrainiert wurden, keine besseren Ergebnisse zeigten als Embeddings, die auf dem spezifischen Zieldatensatz trainiert wurden. Für den Forschungsbereich (c) haben wir eine Methode zur Anfrageerweiterung entwickelt, welche die Präzision der Ergebnisse in einem biomedizinischen Informationssuche-Szenario nicht beeinträchtigt. Mit dieser Methode konnte ich zeigen, dass WE die Trefferquote erhöhen können, wenn keine strukturierten Ressourcen verfügbar waren, und dass der Nutzen der Anfrageerweiterung für kleinere Datensätze größer war. |