Medizinische Universität Graz

Meine Abschlussarbeiten - Publikationen

Diplomarbeit - Detailansicht

Gehe zu

Betreute Abschlussarbeiten

Sprachversion

Deutsch (Sprache des Volltextes) Englisch

Bibliografische Informationen

Titel

Vergleich und Validierung der fachlichen Korrektheit von Large Language Models (ChatGPT-3.5, Perplexity, Google Gemini und Venice) bei der Beantwortung oralchirurgischer Fragestellungen in der Zahnmedizin

Kurzfassung

Hintergrund:

Large Language Models (LLMs) werden zunehmend im medizinischen und zahnmedizinischen Umfeld eingesetzt. Sie können Informationen strukturieren, Texte formulieren und komplexe Inhalte verständlich darstellen. Gleichzeitig ist unklar, wie zuverlässig solche Modelle bei fachlich anspruchsvollen, kliniknahen Fragestellungen sind.

Zielsetzung:

Ziel dieser Diplomarbeit war es, die fachliche Qualität der Antworten von vier frei zugänglichen LLMs bei der Beantwortung oralchirurgischer Fragestellungen zu vergleichen. Untersucht wurden ChatGPT-3.5, Perplexity, Gemini 2.5 Flash und Venice Uncensored 1.1. Im Mittelpunkt stand die Frage, ob sich die Modelle hinsichtlich ihrer Antwortqualität unterscheiden.

Material und Methoden:

Es wurden 30 oralchirurgische Fragen aus fünf Themenbereichen definiert: Orale Medizin, Orale Radiologie, chirurgische Zahnentfernung, Wurzelspitzenresektion und Implantologie. Jede Frage wurde den vier LLMs einmalig mit einem standardisierten Prompt gestellt. Daraus ergaben sich 120 Antworten. Die Antworten wurden durch vier Beurteilende anhand eines Beurteilungsrasters bewertet. Bewertet wurden die Kategorien Vollständigkeit, wissenschaftliche Genauigkeit, Klarheit und Relevanz auf einer Skala von 0 bis 10. Aus diesen vier Kategorien wurde der G-Score als Gesamtbewertung berechnet. Die Inter-Rater-Reliabilität wurde mittels Intraklassenkorrelation bestimmt. Zusätzlich wurden die angegebenen Quellenangaben erfasst und ihre Korrektheit geprüft. Die statistische Auswertung erfolgte mittels Kruskal-Wallis-Test. Bei signifikanten Ergebnissen wurden paarweise Post-hoc-Vergleiche mit Dunn-Korrektur durchgeführt.

Ergebnisse:

Die vier untersuchten LLMs unterschieden sich signifikant hinsichtlich des G-Scores (Kruskal-Wallis-Test: H=47,56; p<0,0001). Perplexity erreichte den höchsten mittleren G-Score mit 8,44 (SD 1,62) und einem Median von 8,875 (IQR 1,5). ChatGPT-3.5 erzielte ebenfalls hohe Werte mit einem Mittelwert von 7,88 (SD 1,71) und einem Median von 8,5 (IQR 1,81) Gemini erreichte einen Mittelwert von 6,84 (SD 3,19) und einem Median von 8,5 (IQR 3,25), zeigte jedoch eine größere Streuung der Ergebnisse. Venice erzielte die niedrigsten Werte mit einem Mittelwert von 4,84 (SD 2,35) und einem Median von 4,75 (IQR 3,3125). In den Dunn-korrigierten Post-hoc-Vergleichen wurde Venice signifikant niedriger bewertet als ChatGPT-3.5 (p<0,0001), Perplexity (p<0,0001) und Gemini (p=0,0002). Zwischen ChatGPT-3.5, Perplexity und Gemini bestanden keine signifikanten Unterschiede im G-Score. Die Inter-Rater-Reliabilität variierte je nach Modell und Bewertungskategorie. Bei Gemini lag eine ausgezeichnete Übereinstimmung vor (ICC 0,945-0,968), bei Venice eine moderate bis gute Übereinstimmung (ICC 0,630-0,877), bei ChatGPT-3.5 eine moderate Übereinstimmung (ICC 0,588-0,700) und bei Perplexity eine schlechte bis moderate Übereinstimmung (ICC 0,447-0,595) vor. Von den 565 angegebenen Quellenangaben wurden 223 als korrekt nachvollziehbar eingestuft.

Schlussfolgerung:

Die Ergebnisse zeigen, dass sich frei zugängliche LLMs bei der Beantwortung oralchirurgischer Fragestellungen deutlich unterscheiden. Perplexity zeigte insgesamt die höchsten deskriptiven Werte, gefolgt von ChatGPT-3.5 und Gemini. Venice schnitt in dieser Untersuchung am schlechtesten ab. Gleichzeitig zeigte die Inter-Rater-Reliabilität, dass die Bewertung der Antworten je nach Modell unterschiedlich eindeutig war. Trotz teilweise hoher Antwortqualität zeigte sich, dass LLMs nicht ohne fachliche Kontrolle verwendet werden sollten. LLMs haben durchaus Potenzial für den Einsatz in der Zahnmedizin, sollten jedoch immer überprüft werden und ersetzen keine klinische Expertise.

Schlagwörter

KI; LLM; LLMS; ChatGPT; Perplexity; Venice; Gemini

Anzahl Seiten

Publikationsjahr

–

Autorinnen*Autoren / Co-Autorinnen*Co-Autoren

Autor*in

Gramelsberger, Leo Matthias

Betreuende Einrichtung / Studium

Betreuende Organisation

Universitätsklinik für Zahnmedizin und Mundgesundheit

Studium

UO 203 Zahnmedizin

Betreuung / Beurteilung

Betreuer*in (intern)

Kirnbauer, Barbara; Univ. OÄ Priv.-Doz. Dr.scient.med. Dr.med.dent.

Mitbetreuer*in (extern)

Holter, Magdalena; BSc MSc

Meine Abschlussarbeiten - Publikationen

Diplomarbeit - Detailansicht

Loading ...