Hintergrund
Die Übersetzung und Anpassung eines Erhebungsinstruments für einen anderen Sprachraum oder eine andere Kulturgruppe stellt eine komplexe Aufgabe dar. Es werden Ressourcen wie Zeit, Kompetenzen und Erfahrungen benötigt, um Äquivalenz herzustellen. Viele Erhebungsinstrumente existieren bereits, die hinsichtlich ihrer Qualität und Entwicklung für den internationalen Gebrauch unterschiedlich weit entwickelt sind. Gelingt die kulturelle Anpassung und wird Konstruktäquivalenz erzielt, können Vergleiche zu einem interessierenden Outcome zwischen Ländern und Kulturen hinweg angestellt werden. Solche übergreifenden Studien haben in den letzten Jahren stark an Bedeutung gewonnen.
Die Übersetzung und weitere Anpassung eines Instruments an den jeweiligen Zielkontext kann unterschiedlich gestaltet werden. Hierzu gibt es verschiedene Empfehlungen, die beispielsweise Vorwärts- und Rückwärtsübersetzungen oder Expertenkomitees umfassen können. Nach der Entwicklung einer neuen Version muss die Überprüfung der Gütekriterien in einer Validierungsstudie erfolgen. Damit werden die Konstruktäquivalenz sowie weitere psychometrische Eigenschaften der neuen Version überprüft. Die neue Version sollte praktisch auf die gleiche Weise wie das Originalinstrument funktionieren; sie kann dann zu wissenschaftlichen Zwecken im neuen Kontext verwendet werden.
Fragestellung
Ziel dieses Beitrages ist es, ein praktikables methodisches Vorgehen anhand der Übertragung eines deutschen Instruments zur Erfassung von Patientenbefähigung (PE-13) ins Englische vorzustellen.
Methode
Die Patienten-Enablement-Skala mit 13 Items (PE-13) wurde in den Jahren 2017 und 2018 entwickelt und validiert, um Patientenbefähigung (engl.: patient enablement) im deutschen Sprachraum umfassend messen zu können. Zur Entwicklung einer englischen Version wurden zunächst zwei unabhängige Vorwärtsübersetzungen des PE-13 (d.h. Übersetzungen vom Deutschen ins Englische) erstellt; diese wurden dann in einem Expertenkomitee mit zwei Muttersprachlern unterschiedlichen beruflichen Hintergrunds und zwei beteiligten Wissenschaftlern besprochen. Diskrepanzen zwischen beiden Vorwärtsübersetzungen wurden von den Muttersprachlern diskutiert; dabei wurden jeweils die Vor- und Nachteile der beiden Übersetzungen erörtert. Aufbauend auf die Diskussion beider Vorwärtsübersetzungen entwickelte das vierköpfige Expertenkomitee im Konsens eine gemeinsame englische Version der Items und des gesamten Instruments.
Ergebnisse
Zwei Vorwärtsübersetzungen boten Grundlage zum Austausch mit Muttersprachlern. Eine zusätzlich angeforderte Rückübersetzung vom Englischen ins Deutsche fand kaum Beachtung. Ausführlich eingegangen wurde auf Feinheiten in den Formulierungen des Ausfüllhinweises, der Items und der Antwortoptionen der beiden Vorwärtsübersetzungen. Die Diskussion berücksichtigte stets die Zielpopulation und die Kontextbedingungen. Für wichtig erachtet wurden dabei nicht nur sprachliche Äquivalenz, sondern auch interkulturelle und konzeptionelle Aspekte. Dies soll das folgende Beispiel verdeutlichen: In der deutschen Version des PE-13 wurde wörtlich „Erkrankungen“ verwendet (Kontext: z.B. Umgang mit und Bescheid wissen über eigene Erkrankungen). Im Englischen wurde hierfür „health condition“ bzw. „health problems“ eingesetzt, da auf die generische Bestimmung des Instruments geachtet wurde und wörtlichere Übersetzungen („diseases“ oder „illnesses“) im Gesamtkontext weniger passend erschienen. Das Ziel der Rückübersetzbarkeit war für die angemessene Übertragung des PE-13 nicht förderlich.
Diskussion
In der Literatur gibt es keine eindeutige konsentierte Handlungsempfehlung für die gute wissenschaftliche Praxis einer interkulturellen Anpassung von Erhebungsinstrumenten: Es konnte bislang keine Methode ausgemacht werden, die anderen Methoden überlegen ist (Epstein et al. 2015). Vielmehr ist es so, dass sich die Methoden nach verschiedenen Settings und Erhebungsinstrumenten stark unterscheiden. Aus diesem Grund scheint eine übergreifende, allgemeingültige Handlungsanweisung wenig sinnvoll. Die Übertragung eines bestehenden Erhebungsinstruments für eine andere Zielpopulation sollte jedoch gut überlegt sein und im Konsens mit verschiedenen Beteiligten stattfinden, die den Zielkontext gut kennen, da es sich auch um den Transfer in eine andere Kultur handelt. Die Entwicklung anderer Versionen von Erhebungsinstrumenten nimmt Einfluss auf die Qualität kulturübergreifender Studien. Nach der Übersetzung und kulturellen Adaptation einer neuen Version sollte diese im Zielkontext mit einem Pretest auf gute Verständlichkeit überprüft werden. Im Anschluss an den Pretest sollte die Datenerhebung zur Validierung erfolgen.
Praktische Implikationen
Die kulturelle Adaptation eines Erhebungsinstruments muss sorgfältig geplant und vollzogen werden. Ein übersetztes und kulturell angepasstes Instrument kann der Neuentwicklung gegenüber Vorteile bringen.
Hintergrund: Gesundheitsbezogene Lebensqualität (HRQoL) ist ein komplexes und subjektives Konstrukt, welches mittels standardisierter Fragebögen erfasst wird. Der Einsatz von Anker-Vignetten zielt darauf ab, ein Verständnis dafür zu entwickeln, wie Patienten das Konstrukt und den zugrundeliegenden Fragebogen verstehen. Dazu schätzen Patienten kurze Fallbeispiele fiktiver Patienten, sogenannte Anker-Vignetten, im Hinblick auf ihre HRQoL ein. Ob Anker-Vignetten tatsächlich dabei helfen, den Bewertungsprozess und das Antwortverhalten zu analysieren, ist nicht eindeutig geklärt. Am Beispiel einer Längsschnittstudie, die auf die Identifizierung und Analyse von Response Shift abzielte, skizzieren wir unsere Erkenntnisse aus der Anwendung von Anker-Vignetten im Rahmen der HRQoL-Messung.
Fragestellung: Wie nützlich sind Anker-Vignetten, um zu analysieren, wie Patienten das Konstrukt HRQoL und den zugrundeliegenden Fragebogen verstehen und bewerten?
Methode: Die Vignettenmethode wurde im Rahmen einer explorativen Mixed-Method Studie verwendet. 100 Patienten mit chronischer Erkrankung (50 mit multipler Sklerose und 50 mit Psoriasis) bewerteten die HRQoL von Anker-Vignetten anhand des SF-12-Fragebogens zu Studienbeginn sowie 3 bis 6 Monate später. Neben dieser quantitativen Einschätzung der Vignetten wurde der zugrundeliegende Bewertungsprozess mit Hilfe der Think-aloud-Methode genauer untersucht: Patienten wurden zu beiden Zeitpunkten gebeten, ihre Vignetteneinschätzungen verbal zu begründen.
Ergebnisse: Insgesamt schien der Nutzen von Anker-Vignetten im Hinblick auf die Analyse von Bewertungsprozess und Antwortverhalten begrenzt. Diese Schlussfolgerung basiert auf den folgenden Beobachtungen. Identische Anker-Vignetten wurden zu Studienbeginn und 3-6 Monate später nicht identisch eingeschätzt; Intraklassen-Korrelationskoeffizienten von < 0,55 deuten insgesamt auf eine schlechte Übereinstimmung der Vignetten-Einschätzungen hin. Gleichzeitig zeigte sich aber auch keine systematische Änderung der Einschätzung der Anker-Vignetten (t-Tests bei verbundenen Stichproben). Diese ungerichtete Veränderung der Einschätzung identischer Anker-Vignetten bestätigt weder eine gute Retest-Reliabilität der Methode noch eine systematische Veränderung des Bewertungsprozesses (Response Shift). Um zu prüfen, ob sich die veränderten Vignetten-Einschätzungen im Bewertungsprozess wiederspiegeln, wurden die verbalen Begründungen der Patienten genauer analysiert. Drei Wissenschaftler bewerteten unabhängig voneinander, ob sich die Begründungen einzelner Patienten im Zeitverlauf unterschieden. Hierbei zeigte sich jedoch eine schlechte Interrater-Übereinstimmung, die sich auch in einem Konsens-Meeting nicht aufheben ließ. Demzufolge scheinen die verbalisierten Begründungen ebenfalls keine zuverlässige Datenquelle für die Analyse des individuellen Bewertungsprozesses zu sein.
Diskussion: Die Einschätzung identischer Anker-Vignetten durch dieselben Patienten unterschied sich im Laufe der Zeit. In diesem Zusammenhang erwies sich die Think-aloud-Methode als ungeeignet, um zu untersuchen, ob diese Unterschiede auf Veränderungen im individuellen Bewertungsprozess zurückzuführen sind. Die Ergebnisse basieren auf einer explorativen Studie mit spezifischer Zielgruppe. Sie deuten jedoch darauf hin, dass Anker-Vignetten möglicherweise nicht geeignet sind, um den individuellen Bewertungsprozess und das Antwortverhalten hinsichtlich HRQoL zu analysieren.
Praktische Implikation: Für eine umfassende und präzise Analyse von HRQoL in Forschung und klinischer Praxis benötigen wir mehr Wissen darüber, wie Patienten das Konstrukt und den zugrundeliegenden Fragebogen verstehen. Anker-Vignetten sind eine mögliche Methode, um dieses Wissen zu vertiefen. Die vorliegende Studie zeigt allerdings, dass der Nutzen der Methode nicht bestätigt werden konnte.
Hintergrund:
In den Jahren 2017 und 2018 wurde ein neues, 13 Items umfassendes deutschsprachiges Fragebogeninstrument (Akronym: PE-13) zur generischen Erhebung von „patient enablement“ entwickelt und validiert (Siegel et al. 2019). Die latente Variable „patient enablement“ ist ein Kernaspekt sowohl von Patienten-Empowerment als auch von Patientenaktivierung; sie beschreibt die Befähigung von Patienten, zum Zweck der Förderung und Erhaltung der eigenen Gesundheit möglichst selbständig und kompetent zu handeln sowie eine aktive Rolle in der Patient-Behandler-Beziehung wahrzunehmen. Genau diese beiden Aspekte – Selbstmanagement und eine effektive Patient-Behandler-Interaktion – wurden mittels einer explorativen Faktorenanalyse als die beiden Faktoren von „patient enablement“ ermittelt und in einer konfirmatorischen Faktorenanalyse bestätigt (Comparative Fit Index: 0,903; Cronbachs Alpha: 0,90 bzw. 0,82; vgl. ebd.). Die konvergente Validität des PE-13 wurde mittels hypothesengeleiteter Korrelationsanalysen nachgewiesen: Erwartungsgemäß korrelierte der PE-13 stark (r=0,57) mit der Allgemeinen Selbstwirksamkeitserwartung (SWE) sowie mit der Gesundheitskompetenz (HLS-EU-Q16; r=0,60). Mittelstarke Korrelationen resultierten mit der gesundheitsbezogenen Lebensqualität (EQ-5D-Index: r=0,32) und mit dem momentanen Gesundheitszustand (EQ-VAS: r=0,41).
Die psychometrischen Eigenschaften des PE-13 können demnach als gut bis sehr gut angesehen werden. Für die Versorgungsforschung sind jedoch nicht nur die klassischen psychometrischen Eigenschaften von Interesse, sondern auch die Zusammenhänge des PE-13 mit den soziodemographischen Variablen Geschlecht, Alter und Schulbildung. Wichtig ist zudem, wie stark sich die PE-13-Score-Werte bei Menschen mit unterschiedlichen medizinischen Indikationen unterscheiden. Derartige Fragen sind vor allem dann von Belang, wenn ein Instrument – wie der PE-13-Fragebogen – eine latente Variable generisch (d.h. indikationen- und personengruppenübergreifend) zu erheben beansprucht.
Fragestellung:
Welche Zusammenhänge bestehen zwischen dem PE-13-Gesamtscore einerseits und den Variablen Geschlecht, Alter und Schulbildung andererseits? Wie stark unterscheiden sich die PE-13-Werte von Versicherten mit und ohne chronische Erkrankung?
Methode:
Zur Beantwortung der Forschungsfragen wurden Befragungsdaten von 584 Versicherten verwendet, die im März 2017 in die Integrierte Versorgung Gesundes Kinzigtal eingeschrieben waren. Im Rahmen einer univariaten Varianzanalyse wurden für verschiedene Personengruppen jeweils deren PE-13-Score-Mittelwerte (inkl. des 95%-Konfidenzintervalls (KI)) berechnet. Zur Ermittlung der Stärke des Zusammenhangs zwischen zwei Variablen wurden bivariate Korrelationskoeffizienten nach Pearson bzw. Rangkorrelationskoeffizienten nach Spearman berechnet.
Ergebnisse:
Es besteht kein (linearer) Zusammenhang zwischen dem Alter der Befragten und deren PE-13-Score-Wert (r=-0,06; p=0,196; N=547). Auch wenn man die Probanden in Altersquartile einteilt, ist kein signifikanter Zusammenhang zu erkennen (p=0,133). Ferner besteht kein relevanter und kein signifikanter Zusammenhang mit dem Geschlecht (Spearman's r=0,04; p=0,392; N=547): Bei den befragten Frauen resultierte mit 74,0 Indexpunkten ein etwas geringerer PE-13-Mittelwert (95%-KI: 72,1–75,9; n=307) als bei den Männern mit 75,2 Punkten (95%-KI: 73,2–77,3; n=240). Ein schwacher, aber signifikanter Zusammenhang besteht hingegen mit dem Schulbildungsabschluss der Befragten: Je höher der Bildungsabschluss, desto höher der PE-13-Score-Wert (Spearman's r=0,15; p < 0,000). Die Unterschiede zwischen den Gruppen sind jedoch gering; das zeigt auch der Gruppenvergleich zwischen den Befragten mit Hauptschul-abschluss (Mittelwert 73,1; 95%-KI: 71,3–74,9; n=342) und den Befragten mit Abitur oder Fachhochschulreife (Mittelwert 81,2; 95%-KI: 77,9-84,6; n=54). Ein schwacher, aber statistisch signifikanter Zusammenhang besteht auch zwischen dem PE-13-Score-Wert und dem Vorliegen einer chronischen Erkrankung (Spearman's r=0,10; p=0,029). Bei Versicherten mit chronischer Erkrankung beträgt der Mittelwert 73,1 Punkte (95%-KI: 71,3-74,9; N=312), bei Versicherten ohne chronische Erkrankung 76,2 Punkte (95%-KI: 74,1-78,4; N=225).
Diskussion und praktische Implikationen:
Der neue Fragebogen PE-13 zeigt ähnliche (und nicht signifikant verschiedene) Mittelwerte für Frauen und Männer sowie für unterschiedliche Altersgruppen. Statistisch signifikante Mittelwertunterschiede bestehen hingegen für Versicherte mit unterschiedlichem Schulabschluss sowie für Menschen mit chronischer Erkrankung im Vergleich zu Menschen ohne chronische Erkrankung; die Unterschiede sind jedoch gering. Das Instrument, so scheint es bislang, ist daher in allen Patienten- bzw. Versichertengruppen gut einsetzbar.
Literatur:
Siegel A et al. (2019): Validation of a new generic 13-item questionnaire for measuring patient enablement (PE-13, German version) [under review]
Hintergrund: Das Instrument “Patient Assessment of Chronic Illness Care (PACIC-5A)” wurde zur Ermittlung der Versorgungsqualität der Arzt-Patienten-Beziehung basierend auf dem Versorgungsmodell für chronisch Kranke entwickelt. Zusätzlich dient es zur Erfassung des evidenzbasierten behavioristischen Ansatzes der Verhaltensänderung, dem 5A-Konzept (Assess, Advise, Agree, Assist, Arrange).
Fragestellung: Das Ziel der Studie war die Untersuchung der psychometrischen Güte der adaptierten deutschen Version des PACIC-5A Fragebogens in einer Studienpopulation von Patienten mit Adipositas im hausärztlichen Setting.
Methoden: Die Befragung der Probanden erfolgte über standardisierte Fragebögen, einschließlich des PACIC-5A Fragebogens mit 26 Items. Die Daten von 117 Personen mit Adipositas konnten in die Analysen eingeschlossen werden. Statistische Untersuchungen umfassten deskriptive Analysen, die Berechnung von Chronbach’s alpha, Test-Retest Analysen und Faktorenanalysen zur Erfassung der Reliabilität und Validität des PACIC-5A.
Ergebnisse: Die Studienpopulation war überwiegend weiblich (59%) und hatte einen mittleren Bildungsstand (78%). Das durchschnittliche Alter lag bei 43,3 Jahren und der mittlere Body Mass Index war 38,9 kg/m². Für den PACIC-Gesamtscore und den 5A-Gesamtscore ergaben sich jeweils Mittelwerte von 2,3. Ein hoher Grad interner Konsistenz (Cronbach’s alpha > 0,9) wurde für den PACIC-5A Fragebogen nachgewiesen und die explorative Faktorenanalyse ergab eine unidimensionale Struktur.
Diskussion: Dies war die erste Studie, welche psychometrische Güte des PACIC-5A Fragebogen bei Patienten mit Adipositas in Deutschland untersuchte. Zusammenfassend zeigt der PACIC-5A Fragebogen eine gute Reliabilität und Validität. Wir konnten die vordefinierte 5-Faktoren-Struktur nicht bestätigen, was einhergeht mit früheren Studien zur Validierung des Fragebogens. Wir empfehlen die Verwendung des Gesamt-Scores zur Erfassung der Arzt-Patienten Interaktion.
Praktische Implikationen: Insgesamt leistet die vorliegende Studie einen wichtigen Beitrag zur zuverlässigen und validen Beurteilung der Patienten-Hausarzt-Interaktion im Rahmen der Versorgung von Patienten mit Adipositas.
Hintergrund
Der EORTC QLQ-LC13 war das erste Modul, das in Verbindung mit dem Kernfragebogen QLQ-C30 entwickelt und im Jahr 1994 publiziert wurde. Das Modul wurde in mehreren hundert klinischen Studien eingesetzt und gilt als Goldstandard. Da vielfältige Fortschritte in Diagnostik und Therapie neue Wirkungs- und Nebenwirkungsprofile mit sich brachten, hat sich die EORTC entschieden, ein Projekt zur Aktualisierung des LC13 zu initiieren.
Methoden
Die Aktualisierung des Moduls erfolgte nach einem vierstufigen Prozess, wie er gemäß dem EORTC Modul Development Manual vorgesehen ist. Nachdem die Phasen I (Generierung relevanter Aspekte der Lebensqualität), II (Formulierung von Items) und III (internationale Testung von Relevanz, Verständlichkeit und Akzeptanz der Items) erfolgreich abgeschlossen wurden, hatte Phase IV die psychometrische Testung des nunmehr 29 Fragen umfassenden Moduls im Rahmen einer internationalen Feldstudie zum Gegenstand.
Im Folgenden werden die Ergebnisse entsprechend der klassischen Testtheorie berichtet. Interne Konsistenz und Test-Retest Reliabilität der Multi-Item-Skalen, konvergente und divergente Validität im Sinne von Item-Skalen-Korrelationen, Sensitivität im Sinne von Gruppenunterschieden (Karnofsky Index < 70 vs. > 80), und Veränderungssensitivität im Sinne von vorher-nachher-Unterschieden bei Patienten, die eine Veränderung Ihres Gesundheitsstatus zwischen den beiden Messungen erlebt haben.
Ergebnisse
523 Patienten nahmen an dieser internationalen multizentrischen Studie teil. Die Patienten wurden in 19 Zentren aus 12 Ländern rekrutiert. Die regionale Verteilung war wie folgt: Norden (Deutschland, Norwegen, Belgien n = 174 Patienten), Süden (Zypern, Israel, Italien, Spanien, Griechenland, n = 115), Osten (Polen, n = 29), englischsprachig (UK, n = 119) und außereuropäisch (Jordanien, Taiwan, n = 86). Das mittlere Alter betrug 66 Jahre (Spannweite 21-90) und es gab mehr Männer (60%) als Frauen. Die meisten Patienten hatten eine fortgeschrittene Erkrankung (NSCLC IV, 52%) und wurden mit einem palliativen Therapieansatz (67%) behandelt. Die Patienten konnten nach ihrer aktuellen Therapie zum Zeitpunkt der Lebensqualitätsmessung in vier Hauptbehandlungsgruppen eingeteilt werden: Chirurgie (n = 78), Radio-Chemotherapie (n = 236), zielgerichtete Therapie (n = 86) und Immuntherapie (n = 91).
Die fünf Multi-Item-Skalen Husten (Cronbachs alpha = .73), Kurzatmigkeit (.82), Furcht vor Tumorprogression (.83), Haarprobleme (.78) und thoraxchirurgische Symptome (.86) wiesen akzeptable bis hohe interne Konsistenzen auf. Ebenso waren die Test-Retest-Reliabilitäten hoch, .84 bis .97. Zusätzlich gibt es zahlreiche Items, die Nebenwirkungen der Therapien (z.B. allergische Reaktionen, abblätternde Finger- oder Zehennägel)
oder Symptome der Erkrankung (z.B. Bluthusten, Brustschmerzen) erfassen.
Alle Items der einzelnen Multi-Item-Skalen waren jeweils höher mit der eigenen Skala korreliert (> .40 [corrected for overlap], konvergente Validität) als mit anderen Skalen (< .40, divergente Validität). Es zeigten sich bei allen Multi-Item-Skalen signifikante Gruppenunterschiede zwischen Patienten mit hohem und niedrigem Karnofsky Status (≤ .007). Ferner, bildeten einige Multi-Item-Skalen Veränderungen über die Zeit ab: Kurzatmigkeit (p = .001), Furcht vor Tumorprogression (p = .005).
Schlussfolgerungen
Das aktualisierte Modul umfasst insgesamt 29 Fragen, behält 12 der 13 originalen LC13 Items und enthält neue Elemente, die die Effekte der zielgerichteten Therapie, Immuntherapie, Radiochemotherapie sowie Thoraxchirurgie erfassen. Die Ergebnisse der klassischen Testtheorie belegen die Tauglichkeit des Moduls für den Einsatz in internationalen, multizentrischen, klinischen Therapiestudien zur Beurteilung der Lebensqualität von Patienten mit Lungenkarzinom.
Background:
In dementia care, the design of the environment is regarded as an essential element of the care concept of a nursing home. To date, there is no valid instrument in the German-speaking countries that systematically assesses the quality of the physical environment in nursing homes.
Aim:
Therefore, the Australian "EAT-HC" developed by Fleming and Bennett (2015) was translated into German, linguistically validated and culturally adapted. The process took place in close collaboration with the Australian instrument developers. The aim was to generate a valid instrument that could be internationally compared with the origin version and further translations of the EAT-HC.
Methods:
The procedure was carried out following an adapted multi-step process of the World Health Organization (1998) by involving scientific and practical experts from Germany as well as the developers of the instrument. After the forward translation, linguistic validation and cultural adaption was performed by consulting a bilingual panel, conducting five focus groups interviews with practitioners and scientific experts in the field and a content validity indexing (according to Lynn, 1984) with scientific experts. In the focus groups, participants were asked about the meaningfulness of the individual items and the need for adaptation. The quantitative survey focused on the experts´ assessment of the relevance and understanding of the individual items. To complete the process, the German version of the EAT-HC (GEAT) was back-translated and reviewed by the instrument developers.
Results:
The comprehensive translation and adaptation process made it possible to generate a first version of the german EAT-HC (GEAT). The instrument contains 77 questions that can be categorized into 10 dimensions. By involving various experts in the adaptation process, it was possible to identify several cultural differences between the country of origin and the country of destination, which must be included in the German version of the instrument. Fire safety regulations and the implementation of the Housing and Participation Act should be emphasized.
Discussion:
The GEAT adaptation process made it possible to clarify the complexity of the quantified assessment of the physical environment. The psychometric properties of the instrument now has to show whether the operationalisation of the GEAT construction can include all structural factors of the long-term care setting in Germany. It must also be tested to what extent highlighted cultural differences between Australia and Germany lead to the redundancy of specific items or make the extension of the instrument necessary.
Practical implications:
By adapting the GEAT, an attempt was made to be able to quantify the dementia-friendliness of the environment in long-term care facilities. The mapping of the factor of the physical environment could also help in future to differentiate the influence of this more clearly from that of the social environment (staff, family, and other residents).
Background
Breast cancer is the most frequent malignancy among the female population. The survival rates of breast cancer patients have been increasing considerably during the past decades. Regular follow-up after breast cancer treatment aims for an early detection of locoregional breast cancer recurrences (LRR) to improve the patients’ outcome. By estimating individual’s 5-year recurrence-risks based on different patient- tumor- and treatment characteristics, the Dutch INFLUENCE-nomogram can assist health professionals and patients in developing personalized risk-based follow-up pathways. This prognostic nomogram is based on over 37,000 patients of the Netherlands cancer registry (NCR) from the years 2003 to 2006.
Research question
Until today it is unclear whether the nomogram is generalizable to foreign populations and health care systems, which would contribute to demonstrate its clinical relevance. The objective of this study is to externally validate the prediction tool on non-Dutch patients with additional emphasis on important patient subgroups.
Methods
Data for this external validation derive from a large clinical cancer registry in southern Germany, covering a population of 1.1 million. Patients with curative resection of early-stage breast cancer, diagnosed between 2000 and 2012, were included in the analysis. To account for selection bias, a sensitivity analysis comparing LRR rates of included patients and patients excluded due to missing data was performed. For every included patient, an individual LRR-risk was estimated by the INFLUENCE-nomogram. Its predictive ability was tested by comparing estimated and observed LRR-probabilities using the Hosmer–Lemeshow goodness-of-fit test and C-statistic based on the receiver-operator-characteristic (ROC) curve.
Results
Finally, 6520 patients fulfilling all inclusion criteria without missing data in any nomogram variable were included. In this German validation-cohort, 2.8% of the patients developed an LRR within 5 years after primary surgery (n = 184). The LRR-rate among the excluded patients was 2.9%, which, according to the sensitivity analysis, is not significantly different from the included patients’ LRR-rate (p = 0.902). While the INFLUENCE-nomogram generally underestimates the actual LRR-risk of the German patients (p < 0.001), its discriminative ability is comparable to the one observed in the original Dutch modeling-cohort (C-statistic German validation-cohort: 0.73, CI 0.69–0.77 vs. C-statistic Dutch modeling-cohort: 0.71, CI 0.69–0.73). Similar results were obtained in most of the subgroup analyses stratified by age, type of surgery and intrinsic biological subtypes.
Discussion
The present study is the first one testing the Dutch INFLUENCE-nomogram with external data from another country, which is an essential step towards its implementation in the daily clinical practice. A reason for the INFLUENCE-nomogram underestimating the German LRR-risk that might be that the LRR-rate in the German cohort is slightly - but not significantly – higher. Moreover, it could reflect moderate differences in therapy perception between the two populations. For clinical use, accuracy is less important than discriminative ability, anyway. To develop personalized follow-up pathways, physicians most probably will use the INFLUENCE-nomogram together with some kind of cut-off. The ROC-curve depicts sensitivity and specificity for every possible threshold which can be used with the INFLUENCE-tool. The C-statistic, therefore, represents the discriminative ability of the algorithm. For the 5-year overall LRR-risk algorithm, the C-statistic was 0.71 in the Dutch modelling-cohort; almost the same value was obtained by the first external validation with another Dutch cohort from 2007 and 2008. With the German patients analyzed within this study, the C-statistic was even slightly larger (0.73); this indicates good external validity.
Practical Implication
This study is a good example for beneficial cooperation between international cancer registries. Its outcomes underline the generalizability of the recently developed INFLUENCE-nomogram beyond the Dutch population. The model performance of INFLUENCE could be enhanced in future by incorporating additional risk factors for LRR.
Funding:
Funded by the Deutsche Forschungsgemeinschaft (DFG, German Research Foundation) – project number 417891978.