Subgruppenanalysen

Ungenaue Ergebnisse

GesundheitsWirtschaft
Titel: Politische Revolution
01.05.2016

Gesundheits Wirtschaft

Ausgabe 5/2016

Big Data ist in aller Munde. Eine Hoffnung dabei: Patientengruppen anhand von Gensequenzierung zu identifizieren, bei denen bestimmte Therapien im Gegensatz zur Gesamtpopulation anschlagen. Unser Autor warnt vor übertriebenen Erwartungen an Subgruppenanalysen.

Subgruppenanalysen haben in der Wissenschaft einen schlechten Ruf. Ein großes Forschungsprojekt hierzu lief unter dem bezeichnenden Akronym „SATIRE" (Subgroup Analysis of Trials Is Rarely Easy). Im Deutschen könnte man dieses Akronym auch mit „Subgruppen-Analysen Täuschen Im Regelfall Erheblich" übersetzen, weil Subgruppenanalysen sowohl zu falsch-positiven als auch falsch-negativen Ergebnissen neigen. Diese Probleme ergeben sich auch bei Medizinprodukte-Studien und haben sich durch die neuen Möglichkeiten der Bioanalytik (Massensequenzierung von Genom, Digitalisierung etc.) in den vergangenen Jahren erheblich verschärft.

Falsch-positive Ergebnisse aus Subgruppenanalysen (SGA) entstehen vor allem dadurch, dass oft sehr viele solcher Analysen gerechnet werden, ohne dass beachtet wird, dass die multiple Testung von Hypothesen eine Anpassung der regulären statistischen Annahmen erfordert. Falsch-negative Ergebnisse kommen dadurch zustande, dass Studien in der Regel genügend Patienten einschließen, um einen Therapieeffekt in der Gesamtgruppe, nicht aber innerhalb von Subgruppen, prüfen zu können. Auch werden oft in der statistischen Analyse Fehler gemacht, indem beispielsweise nicht als Erstes geprüft wird, ob sich zwei Subgruppen in ihren Effekten unterscheiden (Effektmodifikation), sondern direkt untersucht wird, ob ein Therapieeffekt in der einen oder anderen Subgruppe vorhanden ist. Die Glaubwürdigkeit von SGA hängt ferner davon ab, dass die Analysen a priori geplant und nicht erst in Kenntnis der Studienergebnisse konzipiert wurden. In randomisiertkontrollierten Studien (RCTs) erfolgen dennoch immer noch zwei Drittel aller SGA ohne präspezifizierte Hypothese. Vor allem dann, wenn die RCT in der Gesamtgruppe der Patienten keinen Effekt zeigen konnte, ist offenbar die Versuchung groß, post hoc zumindest eine Teilpopulation beschreiben zu können, in der der gewünschte Effekt doch möglicherweise vorhanden ist. Besonders kritisch ist es, dass SGA-Ergebnisse bevorzugt nur dann veröffentlicht werden, wenn eine Signifikanz zu finden ist.

Für das IQWiG sind Subgruppen in der Bewertungsmethodik sehr relevant. Gesetzlich vorgeschrieben ist, dass IQWiG-Berichte „alters-, geschlechts- und lebenslagenspezifische Besonderheiten" zu berücksichtigen haben. Vor allem Erkrankungsschwere oder -stadium sind oft wichtige Einflussfaktoren, die Nutzen oder Schaden einer Behandlung im Sinne einer Effektmodifikation beeinflussen. Eine Berücksichtigung weiterer SGA-Ergebnisse kann in der Regel nur dann erfolgen, wenn die oben genannten Prinzipien nicht verletzt wurden. So werden nicht präspezifizierte SGA nur in Ausnahmefällen berücksichtigt. Wenn in Studien bestimmte Subgruppen (zum Beispiel Schwangere oder Hochbetagte) ausgeschlossen wurden, obwohl die Patienten grundsätzlich die gleiche Indikation aufwiesen, so kann das Studienergebnis auch auf die nicht eingeschlossenen Subgruppen übertragbar sein. Hierbei ist zu prüfen, ob eine Subgruppe nur aus studienbezogenen Gründen von der Studienteilnahme ausgeschlossen war oder ob medizinische Gründe gegen eine Übertragbarkeit sprechen.

Beispiele aus dem IQWiG

Beispielhaft lässt sich der Umgang mit Subgruppen an drei Projekten des IQWiG darstellen: Zum sonografischen Screening auf Bauchaortenaneurysmen fanden sich randomisiert-kontrollierte Studien (RCTs), die sich fast ausschließlich auf Männer bezogen. Nur eine Studie schloss teilweise auch Frauen ein. Entsprechend ergab der IQWiG-Bericht einen Nutzen nur für die männliche Teilpopulation. Im zweiten Beispiel galt es, eine RCT zur chirurgischen Lungenvolumenreduktion bei Patienten mit schwerem Emphysem (Lungenaufblähung) zu bewerten. Weil die Studie recht groß war, hatten die Autoren eine Vielzahl an nicht präspezifizierten SGA durchgeführt. Obwohl diese Ergebnisse Eingang in internationale Leitlinien fanden, wurden sie im IQWiG-Vorbericht nicht berücksichtigt, weil eine ergebnisgesteuerte Auswahl und Definition der Subgruppen, beziehungsweise Subgruppenmerkmale, zu vermuten war. Das dritte Beispiel bezieht sich auf die Stent-Implantation bei Patienten mit intrakranieller arterieller Stenose. Gleich zwei RCTs hatten herausgefunden, dass ein Stenting in dieser Indikation zu mehr Schlaganfällen führt. Patienten mit progredienten oder akuten neurologischen Symptomen waren aber in diese RCTs nicht eingeschlossen worden. Das IQWiG konnte jedoch keine Anhaltspunkte dafür finden, die dagegen sprachen, die vorhandenen RCT-Ergebnisse auch auf die Akutbehandlung zu übertragen. Ob es dennoch aus medizinischen oder anderen Gründen gerechtfertigt ist, das Stenting in der Akutbehandlung weiter als GKV-Leistung zu erlauben, wird der G-BA entscheiden.

Hochrisikomedizinprodukte, die ein neues Therapieverfahren begründen, erfordern in Zukunft gemäß § 137h SGB V eine Bewertung von Nutzen, Schaden und Potenzial, sofern ein Krankenhaus hierzu eine NUB-Anfrage stellt. Damit würde eine Behandlungsmethode wie das intrakranielle Stenting zukünftig früher als bisher und vor allem regelhaft durch G-BA und IQWiG zu bewerten sein. Die Informationen zur neuen Behandlungsmethode, die das Krankenhaus dem G-BA übermittelt, können von weiteren Krankenhäusern und auch den Medizinprodukteherstellern ergänzt werden. Hierbei können auch subgruppenspezi- fische Informationen aus klinischen Studien vorgelegt werden. Daher können SGA, sofern sie valide sind, auch in der Bewertung von Methoden mit Hochrisikomedizinprodukten berücksichtigt werden.

Viele Medizinprodukte sind Diagnostika, besitzen also keine direkte therapeutische Wirkung. Weil Diagnostika primär dazu dienen, Personen in Subgruppen einzuteilen (zum Beispiel lokale versus fortgeschrittene Erkrankung), haben SGA für den Nutzennachweis dieser Medizinproduktemethoden eine entscheidende Bedeutung. Erneut ist zu prüfen, ob es einen Unterschied gibt zwischen den Therapieeffekten in den Subgruppen, die durch den diagnostischen Test gefunden wurden. Wenn dann, beispielsweise bei Testpositiven, ein Therapieeffekt vorhanden ist, der bei Testnegativen nicht zu sehen ist, spricht diese Effektmodifikation (oder Interaktion) für den Nutzen des Diagnostikums. Auch hier geht es jedoch um Daten aus RCTs, die gemäß präspezifizierter Hypothese analysiert werden.

Seltene Subgruppen zusammenfassen

Oft hört man die Frage, ob nicht die Aufspaltung von Patientenkollektiven in immer kleinere Subgruppen am Ende dazu führt, dass Studien in diesen – dann extrem kleinen – Gruppen undurchführbar werden. Vor allem in der Onkologie ergeben sich durch Feststellung von Treibermutationen immer mehr und immer kleinere Subgruppen. Hochwertige Studien werden jedoch weiterhin möglich sein, da sich einzelne dieser Subgruppen organübergreifend wieder neu zusammenfassen lassen (zum Beispiel bei Brust- und Eierstockkrebs). Ferner sind die Therapieeffekte in Subgruppen meist recht groß, sodass hier auch kleine Studien oft ausreichen. Schließlich kann man die gezielte Behandlung („targeted therapy") subgruppenübergreifend als Gesamttherapiekonzept prüfen.

Methodisch sehr fragwürdig insgesamt ist das derzeitige Ansinnen, sich in der Forschung mehr auf Routinedatenanalysen und andere große Beobachtungsstudien verlassen zu wollen. Große Datenmengen („Big Data") sind insbesondere durch die erheblichen Fortschritte in der Bioanalytik (Genomik, Proteomik, Metabolomik etc.) möglich geworden. Ein großer Datensatz erlaubt es aber nur scheinbar, therapeutische Subgruppeneffekte und diagnostische Marker in großer Zahl sicher analysieren zu können. In der Regel können derartige Analysen lediglich Hypothesen generieren, die dann in weiteren (randomisierten) Studien bestätigt werden müssen. Insofern sind die derzeitigen Erwartungen an Big Data oder sogenannte Real World Evidence unrealistisch. Insgesamt gibt es keinen Grund, bei der Nutzenbewertung von Medizinprodukten von den etablierten Standards abzuweichen oder gar neue Bewertungsmethoden oder -kriterien entwickeln zu wollen.