Autor:innen:
J. Knitza (Erlangen, DE)
K. Tascilar (Erlangen, DE)
F. Fuchs (Erlangen, DE)
J. Mohn (Erlangen, DE)
D. Simon (Erlangen, DE)
A. Kleyer (Erlangen, DE)
C. Bergmann (Erlangen, DE)
H. Labinsky (Erlangen, DE)
H. Morf (Erlangen, DE)
E. Araujo (Erlangen, DE)
D. Bohr (Erlangen, DE)
F. Muehlensiepen (Rüdersdorf bei Berlin, DE)
M. Englbrecht (Eckental, DE)
W. Vorbrüggen (Würselen, DE)
C. von der Decken (Stolberg, DE)
S. Kleinert (Erlangen, DE)
A. Ramming (Erlangen, DE)
J. Distler (Erlangen, DE)
P. Bartz-Bazzanella (Stolberg, DE)
N. Vuillerme (Grenoble, FR)
G. Schett (Erlangen, DE)
M. Welcker (Planegg, DE)
A. Hueber (Erlangen, DE)
Zielsetzung: Durch oftmals unspezifische Symptome und den FachärztInnenmangel in der Rheumatologie werden entzündliche rheumatische Erkrankungen (IRD) häufig zu spät diagnostiziert. Gleichzeitig wird bei der Mehrzahl der PatientInnen, die sich rheumatologisch vorstellt, keine IRD diagnostiziert. Digitale diagnostische Entscheidungsunsterstützungssysteme (DDSS) versprechen die Diagnose zu beschleunigen und das Gesundheitssystem zu entlasten. Ziel der Arbeit war die Analyse der Diagnosegenauigkeit bezüglich IRD von zwei DDSS, eines auf künstlicher Intelligenz (KI) basierenden allgemeinen Symptom-Checkers (Ada) und eines rheumatologischen Online-Selbstüberweisungs-Tools (Rheport).
Methoden: In einer prospektiven, multizentrischen, kontrollierten, randomisierten Crossover-Studie wurden Patienten, die sich neu in einem rheumatologischen Zentrum vorstellten, nach dem Zufallsprinzip im Verhältnis 1:1 einer Symptombeurteilung mit Ada oder Rheport zugewiesen, gefolgt von einem Crossover zum jeweils anderen DDSS. Der primäre Endpunkt war die korrekte Identifizierung eines Patienten mit IRD durch das DDSS, definiert als das Vorhandensein einer IRD in der Liste der vorgeschlagenen Diagnosen mit Ada oder Erreichen eines vorab festgelegten Schwellenwerts mit Rheport. Die finale ärztliche Diagnose diente als Goldstandard.
Ergebnisse: Insgesamt wurden 600 Patienten eingeschlossen, und bei 214 (36%) Patienten wurde schließlich ärztlich eine IRD diagnostiziert. Rheport zeigte eine Sensitivität von 62 % und eine Spezifität von 47% für IRDs. Die Top-1- (D1) und Top-5-Krankheitsvorschläge (D5) von Ada zeigten eine Sensitivität von 52% bzw. 66% und eine Spezifität von 68% bzw. 54% für IRDs. Im Vergleich zu Rheport erkannte Ada mit höherer Wahrscheinlichkeit Patienten mit einer IRD, wenn es als erstes DDSS verwendet wurde (OR: 1,09, 95% CI: 1,01 bis 1,18). Dieses Ergebnis war jedoch nach dem Crossover nicht konsistent (OR: 0,97, 95% CI: 0,90 bis 1,05).
Schlussfolgerungen: Die Diagnosegenauigkeit beider DDSS für IRDs war in dieser Patientenpopulation mit hoher Prävalenz nicht vielversprechend. Obwohl die Ergebnisse darauf hindeuten, dass das KI-basierte Ada im Vergleich zum fragebogenbasierten Rheport eine etwas höhere Spezifität und Sensitivität aufweist, war Ada bei der korrekten Identifizierung von Patienten mit einer IRD nicht durchgängig besser als Rheport, wenn man die Nutzungsreihenfolge der Apps berücksichtigt. Unsere Ergebnisse zeigen, dass eine strenge Regulierung und drastische Verbesserung notwendig ist, um die Sicherheit und Wirksamkeit von DDSS zu gewährleisten.