137
Conception d’un essai Aspects statistiques Michel Cucherat Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 3.0 France

Conception d’un essai - Aspects statistiques

Embed Size (px)

Citation preview

But à atteindre

Un effet démontré par un résultat statistiquement significatif sans inflation du risque alpha

Cela nécessite de prévoir– Une absence de multiplicité des comparaisons

– Ou une procédure de contrôle du risque alpha lors de comparaisons multiples

– Un effectif suffisant pour garantir une puissance satisfaisante à l’essai

Obtenir pile à pile ou face(Probabilité = 50%)

Échantillon 148%

Échantillon 252%

Échantillon 350%

Échantillon 445%

Fluctuations aléatoires

Même type de patients(Probabilité d'AVC = 12%)

Échantillon 19%

Échantillon 212%

Échantillon 316%

Échantillon 426%

Fluctuations aléatoires

Conséquences pour la comparaison de 2 échantillons

– les proportions observées dans 2 échantillons peuvent être différentes

– uniquement du fait du hasard

– même si dans ces 2 échantillons la vraie probabilité était la même

les FAE sont susceptibles de fausser les comparaisons

Groupe T+ Groupe T-

Vrai risque = 10% Vrai risque = 10%

Effet du traitement = 0

Risque observé = 6% Risque observé = 12%

Différence observée = -6%

Conséquences des fluctuations

Problématique des comparaisons

Quand on ignore la réalité,

la différence observée de -6% est-elle ?

– une manifestation des fluctuations aléatoires, donc due uniquement au hasard

– la traduction d’une réelle différence entre les deux groupes, donc d’un effet non nul du traitement

Comment départager ces 2 possibilités ?

Solution : test statistique .

Conclure à l'existence

d'une différence

Décider d'utiliser le

nouveau traitement

Grp T

Grp C

diff -6%

La conclusion doit être conforme à la réalité

mais elle se base uniquement sur l’observé

But des comparaisons

Quel est le but des comparaisons ?

Effets des fluctuations dans une comparaison

Le hasard peut faire apparaître une différence qui n'existe pas en réalité

Inversement, le hasard peut réduire une différence qui existe réellement

donc 2 façons de fausser la conclusion

Vrai valeur12%

Échantillon 17.5%

Échantillon 215%

Différencenon réelle

Erreur statistique alpha

Conclure à l'existence d'une différence qui n'existe pas en réalité : faux positif

Vrai valeur12%

Échantillon 115%

Échantillon 215%

Fausse absencede différence

Vrai valeur19%

Erreur statistique bêta

Ne pas conclure à une différence qui existe pourtant en réalité : faux négatif

Erreur alpha

Erreur bêtaDifférence

Pas de différence

Différence Pas de différence

alit

é

Conclusion

Application à l’essai thérapeutique

Risque alpha : considérer comme efficace un traitement qui ne l’est pas

Risque bêta : ne pas conclure alors que le traitement est efficace

Puissance : montrer l’efficacité d’un traitement réellement efficace

Tests statistiques

Outils d'aide à la décision

Principe– conclure à une différence

– que si le risque de faire une erreur (de première espèce) est faible

Quantification du risque d'erreur alpha– à partir des données disponibles

(Risque de commettre une erreur alpha = risque alpha)

Démarche du test statistique

Calcul de la probabilité p– p : probabilité que "la différence observée soit due uniquement au

hasard"

p représente le risque de faire une conclusion erronée si l'on décidait de conclure

p est une quantification du risque alpha

On ne conclut que si ce risque d'erreur est suffisamment petit

5% ?

Un risque de 5% est-il acceptable pour décider de l'utilisation d'un traitement

Exigence réglementaire de 2 essais significatifs– alpha de la décision 5%*5%=2.5/1000

CRITÈRE DE JUGEMENT COMPOSITE

Exemples

Événements coronariens majeurs (« MACE Major Coronary Events ») : décès, infarctus, nécessité de revascularisation

Survie sans progression : durée jusqu’au critère composite décès ou progression de la maladie nécessitant un traitement (chirurgie)

Intérêts

regrouper des équivalents du même phénomène clinique.

mesurer directement le rapport bénéfice/risque

sensibiliser la recherche d'un effet,

Interprétation 1

0.4 0.6 0.8 1.0 1.2 1.4 1.6Risque relatif

Décès

Ev non mortels

Crit. composite

Interprétation 2

0.4 0.6 0.8 1.0 1.2 1.4 1.6Risque relatif

Décès

Ev non mortels

Crit. composite

Interprétation 3

0.4 0.6 0.8 1.0 1.2 1.4 1.6Risque relatif

Décès

Ev non mortels

Crit. composite

Exemple Benestent

Angioplasty

n=410

Stent

n=413

Relative risk

(95%)

Death 1 2

Q-wave myocardial

infarction7 5

Non Q-wave myocardial

infarction6 10

Coronary artery bypass

surgery6 6

Repeat PTCA 56 33

Composite endpoint 79 530,67

(0,48;0,92)

CARDS

Exemple

ANALYSES INTERMÉDIAIRES

Analyses intermédiaires

en cours d’essai, avant que tous les patients prévus aient été recrutés

et/ou avant la fin de la période de suivi initialement prévue

But arrêter prématurément– pour efficacité

– pour toxicité

– pour futilité

Ajustement du seuil de signification

Méthode de Bonferroni

– Pour k comparaisons, le seuil ajusté est :

– Pour k=3, saj = 5% / 3 = 1.67%

– Quand est petit,

– Donc pour conserver un risque alpha global de 5% :

– Inconvénient : fait l’hypothèse d’une stricte indépendance des variables testées méthode conservatrice

ajsk

1 1

1 1

k

k

k

k

0.05

0.05

k

k

Cas 1

3 analyses intermédiaires + 1 analyse finale = 4 comparaisons

Arrêt prématuré de l’essai

Analyse intermédiaire

1 2 3

Analyse finale

p = 0.10 p = 0.011

5%/ 4 1.25%ajs

Cas 2

Pas d’arrêt prématuré mais conclusion à l’efficacité

Analyse intermédiaire

1 2 3

Analyse finale

p = 0.25 p = 0.08 p = 0.04 p = 0.01

Cas 3

Pas d’arrêt prématuré et résultat non significatif (p=4%>saj)

Analyse intermédiaire

1 2 3

Analyse finale

p = 0.42 p = 0.28 p = 0.12 p = 0.04

Cas 4

Résultat non significatif

Analyse intermédiaire

1 2 3

Analyse finale

P = 0.89 p = 0.48 p = 0.25 p = 0.10

Autres méthodes

Fonctions de dépenses du risque alpha

Méthode Analyses intermédiaires

1 2 3 4

Analyse finale

Pocock 0.017 0.017 0.017 0.017 0.017

O’Brien et Flemming

0.00005 0.004 0.012 0.025 0.04

Lan et Demets 1

0.015 0.016 0.017 0.018 0.019

Lan et Demets 2

0.00001 0.002 0.011 0.025 0.041

Peto 0.001 0.001 0.001 0.001 0.05

P ajusté

Problème : différents p donnés par les tests

– exemple : 0.01, 0.02, 0.20

Problème de l'intervalle de confiance

ajp pk

Méthode séquentielle

Analyse en continue

Test triangulaire

CARDS

interim analysis when 25%, 50%, and 75% of the total

anticipated primary endpoints had accrued.

The interim analyses used an asymmetric (Peto-Haybittle)

type rule and we prespecified that the board might advise

termination if a significant difference emerged

– in favour of atorvastatin (at p<0·0005 one-sided, p<0·001 twosided

at any analysis) or

– in favour of placebo (at p<0·005, 0·1, and 0·2 one-sided, for the

three interim analyses, respectively).

At the second interim analysis a significant difference was

reported in favour of atorvastatin at p<0·001 (two-sided)

CARDS

PUISSANCE

Puissance

Aptitude d'une comparaison à mettre en évidence une différence qui existe réellement

Pour une situation donnée, dépend du nombre de sujets

1-β

β ne se calcule pas comme le p

Conditionnée par le nombre de sujets

Calcul du nombre de sujets +++

Conséquences d'une puissance insuffisante

Forte probabilité d'obtenir un résultat négatif (différence non significative)– coût

Force de conviction faible des petits essais– partie visible de l'iceberg

Difficulté d'interprétation d'une différence non significative

Calcul a priori du nombre de sujets nécessaires– pour garantir une puissance élevée (80 - 95%)

Le calcul dépend– de alpha (5%)

– de la puissance recherchée (90%)

– de la différence à mettre en évidence (vrai effet)

– de la fréquence de l'événement r0 (dans le groupe placebo)

nécessaire de faire des hypothèses sur r0 et le vrai effet– car inconnu avant de recueillir les observations

La démarche est spéculative

– si le vrai effet du traitement est de -7%

– si la fréquence r0 est de 10%

– un nombre de sujets de 578

– donne une puissance de 90%

• l'essai a 90% de chance de mettre en évidence cet effet

Mais si en réalité

– le vrai effet est plus petit

– ou r0 < 10%

– la probabilité d'obtenir un résultat significatif est < 90%

Influence du nombre de sujets

La signification statistique et la valeur de p– dépend du nombre de sujets (observations) n

p1=7% p0=13% – n=100 p = 0.56 (NS)

– n=1000 p = 0.01 (p<0.05)

Visualisation avec les IC

Différence0

P<0.05

NSn=100

n=1000

-6%

Taille de l'effet

0%

25%

50%

75%

100%

0.4 0.5 0.6 0.7 0.8 0.9 1

Taille de l'effet (risque relatif)

Puis

sance

N

0%

25%

50%

75%

100%

0 1000 2000 3000 4000 5000

Nombre de sujets par groupe

Puis

sance

Risque de base

0%

25%

50%

75%

100%

0 0.1 0.2 0.3 0.4 0.5 0.6

Risque de base

Puis

sance

INTERVALLE DE CONFIANCE

Pertinence clinique

Signification statistique pertinence clinique

Réduction de mortalité de 25% à 12%, p<0.05– réduction statistiquement significative

– pertinente cliniquement

Réduction de mortalité de 2.3% à 2.1%, p<0.05– réduction statistiquement significative

– peu pertinente cliniquement

Intervalle de confiance

Différence = -6%

IC 95% = [-8%;-4%]

L’intervalle *-8%;-4%] à 95% de chance de contenir la vraie

valeur de la différence

reflète l'incertitude de l'estimation

Il n'est pas possible d'exclure que le vrai effet ne soit que de -

4%

– situation la pire

– efficacité plus faible que les -6% de l'estimation ponctuelle

Interprétation des IC

ensemble des valeurs raisonnablement possibles pour la vraie moyenne

il est raisonnable de parier que la vraie valeur est dans l'intervalle (prob de 95%)

95% = degré de confiance

il est peu probable (prob 5%)– que la vraie valeur soit > à bs

– ou que la vraie valeur soit < à bi

– il est donc peu raisonnable de parier que la vraie valeur soit à l'extérieur de l'IC

Relation entre IC et test

Différence0

P<0.05

NS

-5% [-10%,-2%]

-2% [-9%;+2%]

-7.5% -5.0% -2.5% 0.0% 2.5%

5%

Intervalle de confiance - test statistique

Nombre de sujets et largeur de l'IC

-15.0% -10.0% -5.0% 0.0% 5.0%

100

200

300

400

Rôle de la vraie valeur

-2%

-5%

-10%

-20.0% -15.0% -10.0% -5.0% 0.0% 5.0%

Intervalles de confiance

0.40 0.60 0.80 1.00 1.20 1.40

Risque relatif

Essai A

Essai B

Essai C

Essai D

Essai E

AJUSTEMENT

G1 G2

51

01

52

02

5

Groupe

Y

2 4 6 8 10

51

01

52

02

5

Covariable

Y

Groupe 1

Groupe 2

Exposé de la problématique

Exposé de la problématique 2

G1 G2

51

01

52

02

5

Groupe

Y

2 4 6 8 10

51

01

52

02

5

Covariable

Y

Groupe 1

Groupe 2

Ajustement

L'ajustement consiste à corriger un résultat des effets parasites induits par des covariables influençant aussi le critère de jugement

Réaliser la recherche de l'effet du traitement en ajustant sur un autre facteur

Intérêts

Augmenter la précision de l'estimation

Supprimer l'effet des facteurs de confusion

Augmenter la précision

y1 y0

46

81

01

21

41

61

8

Groupe

Y

1 2 3 4 5 6

Covariable

a b

Augmenter la précision de l'estimation

Décès / n

G. traité

G. contrôle

RR [IC 95%]

p

bon pronostic 5 / 200

2,5%

10 / 200

5,0%

0,50

[0,17 ; 1,44] -

mauvais

pronostic

6 / 20

30%

12 / 20

60%

0,50

[0,23 ; 1,07] -

Analyse non

ajustée

11 / 220

5%

22 / 220

10%

0,50

[0,25 ; 1,01]

p =

0,052

Analyse ajustée - - 0,50

[0,27 ; 0,93]

p =

0,027

Supprimer l'effet des facteurs de confusion

Décès / n

G. traité

G. contrôle

RR [IC 95%]

p

mauvais

pronostique

35 / 141

25%

30 / 61

49%

0,50

[0,34 ; 0,74] -

bon pronostique 3 / 59

5%

14 / 138

10%

0,50

[0,15 ; 1,68] -

Analyse non

ajustée

38 / 200

19%

44 / 199

22%

0,86

[0,58 ; 1,27] NS

Analyse ajustée - - 0,50

[0,35 ; 0,73]

p <

0,001

Supprimer l'effet des facteurs de confusion -stratification

Décès / n

G. traité

G.

contrôle

RR

[IC 95%] p

mauvais

pronostique

37 / 150

25%

74 / 150

50%

0,50

[0,36 ; 0,69] -

bon pronostique 2 / 50

4%

4 / 50

8%

0,50

[0,10 ; 2,60] -

Analyse non

ajustée

39 / 200

19%

78 / 199

22%

0,50

[0,36 ; 0,70] 0.0004

Analyse ajustée - - 0,50

[0,35 ; 0,73]

p <

0,001

En pratique

Risque de sur-ajustement en cas de – ajustement sur les variables déséquilibrées entre les groupes

– choix post hoc

Ajustement– Sur des variables pronostiques connues

– défini a priori

ANALYSE DES DONNÉES DE SURVIE

Données de survie

Objectif : montrer que le traitement recul le moment de survenue du décès (ou de n'importe quel événement)

comparaison des temps moyens de survie

Nécessite de suivre tous les patients jusqu'au décès– quasiment impossible

A la fin de l'étude, une proportion variable de sujets sont toujours vivants

Durée moyenne de survie– moyenne des durées de survie de chaque patient de l'échantillon

Exemple– n = 4 : 6 mois, 2 ans, 3 ans, 10 ans

– moyenne = 3,9 ans

– analyse impossible avant 10 ans !!!

– Moyenne des données partielles est fausse (sous estime)

• Calcul à 3 ans (3 décès / 4) = 1.83 ans

Calcul de la fréquence des décès

Durées de suivi variables

Les patients sont suivis + ou - longtemps

Calcul de la fréquence des décès à un temps donné problématique– sous estime la mortalité

Solution partielle– raisonnement en patients années

– sous entend que le nombre de décès est proportionnel au temps d'observation --> Faux

En pratique– suivi des patients sur une certaine période calendaire

– arrêt du suivi à une date de point

– détermination de l'état (VV ou DCD) à la date de point

– 2 types de données

• patients DCD avant la date de point : durée de survie

• patients toujours vivant à la date de point

Censure du suivi– patient VV à la date de point

– suivi censuré avant la survenue du décès

Référentiel initial des données

Temps calendaire

– les durées de suivi des censurés dépendent du recul (inclusion du patient - date de point)

Calendrier2001 2002 Date de

point

DCVV

DC

VV

Temps de survie

Abscisse = temps de survie après inclusion

– pour chaque patient : durée de suivie ou de survie à partir de son t = 0 (inclusion)

Temps

DCVV

DC

VV

t=0

Autre source de censure : les perdus de vue– patients impossibles à contacter à la date de point

– état à la date de point inconnu

– date de dernières nouvelles (< date de point)

• censure à cette date

Les différents types de censures

temps

Fin du

suivi

Période de suivi

DC

DC

DC3

2

1

Courbe de survie

Estimation suivant la méthode de Kaplan Meier– prise en compte des suivis censurés pour la période de temps où ils sont

informatifs

– le nb de patients pris en compte diminue au cours du temps au fur et à mesure des censures

Estimateur de Kaplan Meier

0 2 4 6 8 10 12

0.0

0.4

0.8

Temps (an)

Surv

ie S

(t)

Courbe en escalier– la survie ne change que lorsque survient un décès

t

S(t)

100% Censure

Décès

90%

Précision de l'estimation

Intervalle de confiance à 95%

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

Temps (an)

Su

rvie

S(t

)

Conséquence des censures

Diminution de la quantité d'information– une censure est non informative pour la durée de survie

– mais il est partiellement informatif

• (durée de survie au moins égale à x)

– Perte de précision

• la précision diminue au fur et à mesure de l'accumulation des censures

Biais– Les différents types de censure

• perdus de vue

• censures à la date de point

– ne vont pas avoir les mêmes conséquences sur l'estimation en terme de biais

Essai à durée de suivi fixe

temps

Premier patient

Dernier patient

Période d'inclusion

1 an de suivi

1 an de suivi

temps

Premier patient

Dernier patient

Période d'inclusion

1 an de suivi

1 an de suivi

Essai à date de point

temps

Date de fin

Premier patient

Dernier patientPériode d'inclusion

Cas mixte

temps

Date

de fin

Premier patient

Dernier patient

Période d'inclusion

temps

Date

de fin

Premier patient

Dernier patient

Période d'inclusion

Essai à durée de suivi fixe (ou mixte)

Censures sont liées à la fin de l'essai

L'étalement des censures correspond à l'étalement des inclusions

elles ne faussent pas la partie de la courbe où il n’y a pas de censure

0 5 10 15

0.2

0.4

0.6

0.8

1.0

Temps (mois)

Surv

ie S

(t)

Essai à date de point

Censures représentent l'étalement des inclusions

Signification de la durée moyenne de suivi ?

0 5 1 0 1 5

0.2

0.4

0.6

0.8

1.0

Te m p s (m o is )

Su

rvie

S(t

)

Durée moyenne de suivi

Courbe de survie représentée jusqu'à 12 mois, – mais seulement 30% des sujets ont été suivis aussi longtemps

Valeur de la l'estimation à 1 mois ?

Il faut :– la durée de suivi durant laquelle tous les patients ont été suivis

– la durée moyenne ou médiane

– l’estimation de la survie n’est vraiment informative qu’à la médianne de survie

Censures non aléatoires

Correspondent à des perdus de vue ou à des sorties d'essais

Non indépendantes du traitement ou de l'état du patient

Biais dans l'estimation de la courbe

0 5 10 15

0.2

0.4

0.6

0.8

1.0

Temps (mois)

Surv

ie S

(t)

Enox 40mg

t0 : n=360

t100 : n=73

360-73 = 287

287/360 = 80%

Lecture verticale des courbes de survie

Lecture verticale– comparaison à un temps donné des taux de survie ou du taux de décès

– idem analyse à un temps de suivi donné

Nouvelle chimio

Chimio standard

3 ans

100%

50%

0%

Essai thérapeutique en cancero, nouvelle

chimio comparée à chimio standard

51%

25%

Lecture horizontale

Le temps t50 pour lequel la survie est de 50% = médiane des temps de survie– 50% des sujets sont DCD, donc ont

une durée de survie < t50

– 50% sont VV, donc ont une durée de survie > t50

Lecture horizontale– augmentation de la médiane de survie liée au traitement

Nouvelle chimio

Chimio standard

100%

50%

0%

10 mois 30 mois

Comparaison de 2 courbes

Test du Logrank– hypothèse nulle : les 2 courbes sont superposées

– test "globalement" si les 2 courbes sont différentes

– peut être significatif même si la lecture horizontale ou verticale ne l'est pas

Modèle de Cox– ajustement multivarié

Modèle de Cox

Méthode multivariée d'analyse des données de survie

Permet de faire des ajustements

coefficients – exp(coeff.) = risque relatif instantané

– facteur multiplicatif de la probabilité de décéder à un instant t

test H0: coeff.=0 (RR instantané = 1)– le facteur modifie t-il la survie ?

Quantification de l'effet traitement

Rapport des risques instantanés– HR (hazard ratio)

– assimilable à un risque relatif

Estimable avec– le logrank

– le modèle de Cox

The median overall survival was 12.3 months in the paclitaxel–carboplatin–bevacizumab group, as compared with 10.3 months in the paclitaxel–carboplatin group (hazard ratio for death, 0.79; 95% CI, 0.67 to 0.92; P = 0.003) (Fig. 2A). Survival rates were 51% in the paclitaxel–carboplatin–bevacizumab group, as compared with 44% in the paclitaxel–carboplatin group, at 1 year and 23%, as compared with 15%, respectively, at 2 years.

MULTIPLICITÉ DES COMPARAISONS

Répétition des tests

Plusieurs tests réalisés pour répondre à une même question– par exemple plusieurs critère de jugement

Conclusion à un effet à partir du moment où il existe au moins un test significatif

Le risque de la conclusion est bien supérieure à 5%= Inflation du risque alpha

Rappel, avec un ttt. sans effet,– sur 100 tests, il y en aura 5 significatifs (en moyenne)

Conclusion1 test Contrôle parfait du risque alpha (5%)

Conclusion

Test 1

Test 2

Test 3

Test 4

Le risque de conclure à tort est > à 5%

(seuil de 5%)

A partir du moment où au moins 1 test est significatif

Comparaisons multiples

Avec un traitement sans efficacité

en faisant 10 tests statistiques (p.e. 10 essais)

nous avons 40% de risque de faire au moins une conclusion (à tort)

Nb de tests Risque alpha global

5 0.23

10 0.40

20 0.64

50 0.92

1 1k

global

Inflation risque alpha

Situations d’inflation du risque par répétition des comparaisons :– Essai multi-bras (multi doses par exemples)

– Absence de critère principal

– Analyses en sous groupes

– Analyses intermédiaires « non protégées »

– Recherche de l’effet répété dans le temps

N Engl J Med 2008;358:1663-71.

The significance level used in the pairwise comparisons

between the groups receiving experimental treatment and the

group receiving standard treatment was 0.017 on the basis of

the Bonferroni correction for multiple comparisons,

corresponding to an overall type I error rate of 0.05.

N Engl J Med 2008;358:1663-71.

Critère principal

• Décès de toute cause

Critères secondaires

• Décès cardiovasculaire

• Mort subite

• Infarctus

• Accident vasculaire cérébraux

• Chirurgie

• Décès de toute cause

• Décès cardiovasculaire

• Mort subite

• Infarctus

• Accident vasculaire cérébraux

• Chirurgie

Pas de définition

de critère principal

Risque de conclure à

tort à l ’efficacité du

traitement = 30%

6 tests statistiques

Critère de jugement principal

Risque de conclure à

tort à l ’efficacité du

traitement = 5%

Définition a priori

d ’un critère principal

Un seul test statistique

Critère principal

Conclusion que si le critère principal est significatif

Critères secondaires : explicatifs

Multiplicité des comparaisons - Exemple

In women, however (Table 2), a positive effect on BMD was observed

at several sites (mostly trabecular bone zones), namely the femoral

neck and the Ward’s triangle in the 60–69 y group, and upper and total

radius in the 70–79 y group.

Critère principal

Conclusion que si le critère principal est significatif

Critères secondaires : explicatifs

Méthode séquentielle hiérarchique

Permet de faire plusieurs tests statistiques

– sans inflation du risque alpha

Une conclusion est possible pour chaque test effectué

Pour cela – les tests sont hiérarchisés a priori

– Ils sont effectués ensuite de manière séquentielle

• Le test suivant n’est autorisé que si le précédent a été significatif

• On s’arrête au 1er de la hiérarchie non significative

Les tests peuvent concerner des critères de jugement ou des sous groupes

Test 1NS

stop

Test 2NS

stop

Test 3NS

stop

Test 4NS

stop

P<0.05

P<0.05

P<0.05

Exemple : PLATOTo address the issue of multiple testing, a hierarchical test sequence was planned. The secondary composite efficacy end points were tested individually, in the order in which they are listed above, until the first nonsignificant difference was found between the two treatment groups. Other treatment comparisons were examined in an exploratory manner.

Hiérarchie des critères

Primary endpoint

principal secondary efficacy endpoint = primary efficacy endpoint in the subgroup of invasive management

composite of death from any cause, myocardial infarction, or stroke;

composite of death from vascular causes, myocardial infarction, stroke, severe recurrent cardiac ischemia, recurrent cardiac ischemia, transient ischemic attack, or other arterial thrombotic events;

myocardial infarction alone;

death from cardiovascular causes alone;

stroke alone;

death from any cause

Liste critère dans le protocole

Résultat de la démarche hiérarchique de test

1. Primary endpoint

2. principal secondary efficacy endpoint = primary efficacy endpoint in the subgroup of invasive management

3. composite of death from any cause, myocardial infarction, or stroke;

4. composite of death from vascular causes, myocardial infarction, stroke, severe recurrent cardiac ischemia, recurrent cardiac ischemia, transientischemic attack, or other arterial thrombotic events;

5. myocardial infarction alone;

6. death from cardiovascular causes alone;

7. stroke alone;

8. death from any cause

1

34

56

2

7

Autres situations de répétition des tests

mesures répétées au cours du temps

Ajustement pour les critères secondaires

Conclusion essai 1– pas de démonstration de l'efficacité

Conclusion essai 2– démonstration de l'efficacité de manière statistiquement significative

(p<0.05)

– sur les 3 premiers critères de jugement

Essai 1 Essai 2

Infarctus mortels et non mortels p=0.03 p=0.001

infarctus non mortels p=0.05 p=0.010

décès par infarctus p=0.02 p=0.010

décès de toute cause p=0.06 p=0.03

SOUS GROUPE

On a comparé sur 2 groupes de 120 malades un oxygénateur cérébral à un placebo.

Le critère d’évaluation principal était évalué par l’échelle d’appréciation clinique en gériatrie (EACG).

Globalement les résultats ne montraient pas de différence significative.

Cependant, si l’on éliminait les gens trop anxieux (score d’Hamilton >18), en ne prenant en compte que les femmes (les hommes semblent moins répondeurs), la différence devient hautement significative sur la tranche d’âge 70 à 80 ans, ce qui montre bien l’activité du produit chez les gens âgés.

Essai 0.92 NS

1 Age<75 0.92 NS

2 Age>75 0.95 NS

3 Hommes 0.92 NS

4 Femmes 0.99 NS

5 Antécédents d'infarctus 0.87 NS

6 Pas d'antécédents d'infarctus 1.03 NS

7 Prise d'aspirine 0.78 p<0.05

8 Pas d'aspirine 1.09 NS

Analyse en sous-groupes - Essai non concluant

1 Age<75 test 1 risque erreur 5%

2 Age>75 test 2 risque erreur 5%

3 Hommes test 3 risque erreur 5%

4 Femmes test 4 risque erreur 5%

5 Antécédents d'infarctus test 5 risque erreur 5%

6 Pas d'ATCD d'infarctus test 6 risque erreur 5%

7 Prise d'aspirine test 7 risque erreur 5%

8 Pas d'aspirine test 8 risque erreur 5%

Limites- Multiplicité des tests

Essai 0.78 p<0.05

1 Age<75 0.65 p<0.01

2 Age>75 0.90 NS

3 Hommes 0.76 p<0.05

4 Femmes 0.78 p<0.05

5 Antécédent d'infarctus 0.97 NS

6 Pas d'antécédent d'infarctus 0.70 p<0.01

7 Diabétique 0.50 p<0.001

8 Non diabétique 0.91 p<0.05

Analyses en sous groupes - Essai concluant

Limites des sous groupes - 1

Lancet 2005; 365: 176–86

Utilisation correcte des sous groupes

Analyses en sous groupes

Résultat de nature exploratoire– hypothèse non formulée a priori

– aucune conclusion définitive possible

– inflation risque alpha et bêta

Sous groupes (suite)

Résultat global négatif– recherche du sous groupe dans lequel le traitement marche

– comparaisons multiples : inflation du risque alpha

– approche post hoc

• l'hypothèse est testée sur les données qui ont permis de la générer

Résultats global positif– recherche des patients chez lequel le traitement ne marche pas

– inflation risque bêta

– hypothèse d'absence d'effet

• donc limite de non infériorité

Hétérogénéité

Utilisation des sous groupes pour vérifier la stabilité de l'effet

Test d'interaction– RRsg1<>RRsg2

Aspect cognitif (non décisionnel)

Génération de nouvelles hypothèses

Elite 2

Losartan vs captopril

Insuffisance cardiaque (NYHA 2-4 et FE<40%)

Bertram Pitt,Lancet 2000; 355: 1582–87

CHARM

candesartan vs placebo on top IEC

insuffisance cardiaque (NYHA 2-4 et FE<40%)

Exemple

The objective was to test whether an adequate and well-balanced intake of antioxidant nutrients reduces the incidence of cancers and ischemic CVD in a middle-aged general population.

A total of 13017 French adults (7876 women aged 35-60 years and 5141 men aged 45-60 years) were included.

Conclusion : After 7.5 years, low-dose antioxidant supplementation lowered total cancer incidence and all-cause mortality in men but not in women.

Arch Intern Med. 2004; 164:2335-2342