50
1 Biostatistique (Niveau 2) Ch. Mélot, MD, PhD, MSciBiostat Service des Urgences Hôpital Universitaire Erasme [email protected] 14 février 2013 z Comment mesurer la précision de l ’estimation d’une moyenne ou d’une proportion (degré d ’incertitude) ? ERREUR STANDARD SE(m) = SD n SE(p) = p (1-p) n Si n augmente, SE diminue et la puissance augmente Exemple: TAm = 110 mmHg SD = 25 mmHg n = 100 SE = 25 / 10 = 2.5 mmHg n = 10000 SE = 25 / 100 = 0.25 mmHg Exemple: p = 0.55 (55 %) SD = 0.55 * 0.45 = 0.49 n = 100 SE = 0.49 / 10 = 0.049 (4.9 %) n = 10000 SE = 0.49 / 100 = 0.0049 (0.5 %)

ERREUR STANDARD

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ERREUR STANDARD

1

Biostatistique (Niveau 2)

Ch. Mélot, MD, PhD, MSciBiostatService des Urgences

Hôpital Universitaire Erasme

[email protected]

14 février 2013

Comment mesurer la précision de l ’estimation d’une moyenne ou d’une proportion (degré d ’incertitude) ?

ERREUR STANDARD

SE(m) =SD

nSE(p) =

p (1-p)

n

Si n augmente, SE diminueet la puissance augmente

Exemple: TAm = 110 mmHgSD = 25 mmHgn = 100SE = 25 / 10 = 2.5 mmHgn = 10000SE = 25 / 100 = 0.25 mmHg

Exemple: p = 0.55 (55 %)SD = 0.55 * 0.45 = 0.49n = 100SE = 0.49 / 10 = 0.049 (4.9 %)n = 10000SE = 0.49 / 100 = 0.0049 (0.5 %)

Page 2: ERREUR STANDARD

2

INTERVALLE DE CONFIANCE à 95 %IC 95 % = m ± 2 SE(m) IC 95 % = p ± 2 SE(p)

L’intervalle de confiance donne une estimation de la précision de la moyenne ou de la proportion calculée sur l ’échantillon de taille n

Exemple: TAm = 110 mmHgn = 100SE = 2.5 mmHgIC 95 % = 105 à 115 mmHgn = 10000SE = 0.25 mmHgIC 95 % = 109.5 à 111.5 mmHg

Exemple: p = 0.55 (55 %)n = 100SE = 0.049 (4.9 %)IC 95 % = 0.45 à 0.65 (45 à 65 %)n = 10000SE = 0.0049 (0.5 %)IC 95 % = 0.54 à 0.56

(54 à 56 %)

Probabilité: intervalle de confiance

JET D'UNE PIECE

0.000.100.200.300.400.500.600.700.800.901.00

0 10 20 30 40 50 1000

NOMBRE D'ESSAIS (N)

PRO

PORT

ION

DE

FACE

S

Intervalle de confiance à 95 %

!! IC 95 %: contient (100 %) ou ne contient pas (0 %) la valeur

réelle

Il n’y a plus d’erreurIC = 0

SE(p) =p (1-p)

nVariance d'une proportion

0

0.05

0.1

0.15

0.2

0.25

0.3

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Proportion (p)

Vari

ance

(p)

SE(0.5) = 0.25

783= 0.0178

IC 95 % = ±1.96 SE = ± 0.0350

Page 3: ERREUR STANDARD

3

Comment évaluer l’importance des résultats ?

Odds (Cote) et Probabilité

Probabilité = = 0.166

Odds en faveur = = 0.2056

61

61

Odds contre = = 5 contre 116

65

Odds ratio (Rapport des Cotes), Rapport de Risque et Différence de risque

Odds ratio = Odds effet traitement A

Odds effet traitement B

Rapport de risque = Probabilité effet traitement A

Probabilité effet traitement B

Différence de risque = Prob effet A – Prob effet B

Page 4: ERREUR STANDARD

4

Diagramme de Forest: interprétation du Odds Ratio et de son intervalle de confiance à 95%

1 3 ∞0 0.5

a bc d

OR = a d b c

SE(ln(OR)) = d1c

1b

1a1 +++

p = ns

p < 0.05

p < 0.05

2OR

IC 95 % = OR ± 1.96 SE

Trt B > Trt A Trt A > Trt B

Amplitude de l’effet observé

Précision de l’effet observé

Diagramme de Forest: interprétation du Risque Relatif et de son intervalle de confiance à 95%

1 30 0.5

a bc d

RR = a/(a+b) c /(c+d)

p = ns

p < 0.05

p < 0.05

2RR

IC 95 % = RR ± 1.96 SE

Trt B > Trt A Trt A > Trt B

Amplitude de l’effet observé

Précision de l’effet observé

Diagramme de Forest: interprétation de la Différence de Risque et de son intervalle de

confiance à 95%

0 + 0.04- 0.02

a bc d

DR = [a/(a+b)] - [c/(c+d)p = ns

p < 0.05

p < 0.05

+ 0.02DR

IC 95 % = DR ± 1.96 SE

Trt B > Trt A Trt A > Trt B

Amplitude de l’effet observé

Précision de l’effet observé

Page 5: ERREUR STANDARD

5

Exemple

PROGRESS, Lancet 2001;358:1033-1041

significatifnon significatif

significatifsignificatifsignificatif

significatif

significatifsignificatifsignificatif

non significatif

Relative Risk Reduction(0.10-0.14)/0.14 = - 0.28 (-28 %)

Réduction relative versus réduction absolue du risque

Réduction absolue:– Différence de risque:

(307/3051) – (420/3054) = 0.10 – 0.14 = - 0.04 (- 4 %)

Réduction relative:- Risque relatif ou rapport de risque:

0.10/0.14 = 0.72- Réduction relative du risque:

(0.10-0.14)/0.14 = - 0.28 (- 28 %)

Réduction relative versus réduction absolue du risque

50 %45 %

25 %20 %

10 %0

100200300400500600700800900

1000

X Y Z

PlaceboActive

5 %

ARR = - 5 % (50 / 1000 patients)

RRR = - 10 %

RRR = - 20 %

RRR = - 50 %

Page 6: ERREUR STANDARD

6

Exemple

PROGRESS, Lancet 2001;358:1033-1041

4 %

Différence de risqueou réduction absolue du risque

Mesure du bénéfice: NNT

NNT: number needed to treat, nombre de patient à traiter pour éviter un effet délétère ou pour obtenir un effet bénéfique.

NNT = 1/DR

Exemple: DR = - 4 % (- 0.04) NNT = 1/0.04 = 25

PROGRESS, Lancet 2001;358:1033-1041

Page 7: ERREUR STANDARD

7

REGRESSION et CORRELATION

TerminologieREGRESSION: l’analyse de régression est un outil qui permet de calculer le type de relation entre deux ou plusieurs variables.

VARIABLE DEPENDANTE: variable prédite (Y) par une ou plusieurs variables indépendantes (X ou prédicteurs)

VARIABLE(S) INDEPENDANTE(S): la ou les variables utilisées pour prédire la variable dépendante (Y)

Y

X

Page 8: ERREUR STANDARD

8

TerminologieTYPES DE REGRESSION LORSQU’IL N’Y A QU’UN SEUL Y:

– Si la variable dépendante est une variable continue: Régression linéaire simple (une seule variable indépendante, X)Régression linéaire multiple (plusieurs variables indépendantes: X1, X2,…)

– Si la variable dépendante est une variable discrète dichotomique: Régression logistique univariable (un seul X)Régression logistique multivariable (plusieurs X: X1, X2, …)

– Si la variable dépendante est un nombre d’événements par unité de temps:

Régression de Poisson univariable (un seul X)Régression de Poisson multivariable (plusieurs X:X1, X2,…)

– Si la variable dépendante est le temps nécessaire à la réalisation de l’événement:

Régression de Cox univariable (un seul X)Régression de Cox multivariable (plusieurs X: X1, X2, …)

REGRESSION AVEC PLUSIEURS Y:– Analyses multivariées

REGRESSION LINEAIRE SIMPLE: HYPOTHESESVariable dépendante

Y

XVariable indépendante

yi^

xi, yiσ

σ

σ

(distribuée normallement avec une variance constante, σ)

(sans erreur de mesure)(Il s’agit de la variable manipulée pendant l’expérimentation)

REGRESSION LINEAIRE SIMPLE: PARAMETRES

Variable dépendanteY

XVariable indépendante

Yi ^

xi, yi

Paramètres:b = pentea = interceptIntercept (a)

Equation: y = a + b x

estimée par la méthode des moindres carrés: minimiser la somme des carrés des écarts par rapport à la droite (verticalement)

pente (b) = ΔyΔx

Pente = coefficient de régression

Page 9: ERREUR STANDARD

9

TerminologieCORRELATION: – Le coefficient de corrélation simple (r) est une mesure de

l’intensité de la relation entre deux variables aléatoires– Le coefficient de corrélation varie de -1 à +1– Une valeur positive indique une relation linéaire positive entre X

et Y, c’est-à-dire Y augmente lorsque X augmente– Une valeur négative indique une relation linéaire négative entre

X et Y, c’est-à-dire Y diminue lorsque X augmente.– Une valeur nulle indique l’absence de relation linéaire.

REMARQUES:– Une corrélation significative (r avec p < 0.05) n’indique pas

nécessairement un lien de causalité entre X (cause) et Y (effet).

– Une corrélation peut être faussement significative lorsque les deux variables X et Y partagent la même variable (couplage mathématique):

exemple:X = transport d’oxygène (débit cardiaque x Ca O2)Y = consommation d’oxygène (débit cardiaque x (CaO2 - CvO2)

COVARIANCE

• Variables indépendantes (Cov(X,Y) = 0):

Variance SGOT Variance SGPT

• Variables non indépendantes (Cov(X, Y) ≠ 0:

Var X Var YCov

(X,Y)

Var X – Cov (X,Y) Var Y – Cov (X,Y)Var (X-Y) =

Var X + Var Y – 2 Cov (X,Y)

Var (X-Y) = Var X + Var Y

COVARIANCE

X = SGOT Y = SGPT (X i - mean) (Yi - mean) (X i - mean) (Yi - mean)23 52 5.2 11.4 59.322 45 4.2 4.4 18.517 42 -0.8 1.4 -1.115 39 -2.8 -1.6 4.512 25 -5.8 -15.6 90.5

Somme 89 203 0 0 171.6 Produit croisén 5 5 4 ddlMoyenne 17.8 40.6 42.9 Cov (X,Y)

Covariance: lien entre deux variables (Cov(X,Y)):

Si les variables sont indépendantes, Cov = 0

Page 10: ERREUR STANDARD

10

STRUCTURE DE LA COVARIANCE

Cov (x, y) =

Somme des produits croisés

Degré de liberté(n = nombre de paires)

n - 1(Xi - X) (Yi - Y)

n

∑i = 1

CORRELATION

)XX(r(x, y) =

n

1ii −∑

=

Covariance

)YY( i −

)²XX(n

1ii −∑

=)²YY(

n

1ii −∑

=

Racine carrée du produit des variances

Le coefficient de corrélation à l’avantage de varier entre 0 (absence de corrélation) et +1 ou -1 (parfaite corrélation).

CALCUL de r

Racine carrée du produit des variances

X = SGOT Y = SGPT23 52 Cov (x, y) 42.922 4517 42 Var (x) 21.715 3912 25 Var (y) 99.3

Cov (x, y) 42.9r (x,y) = ———————–– = —————— 0.924

√ Var(x) √ Var(y) 4.66 x 9.96

Page 11: ERREUR STANDARD

11

CORRELATION (r)

• Variables indépendantes: Cov(X,Y) = 0 et r = 0

Variance X Variance Y

• Variables parfaitement corrélées: r =1

Variance XVariance YCov (X,Y)

COEFFICIENT DE CORRELATION DE BRAVAIS-PEARSON

Y

X

Y

X

Y

X

r = - 1

r = 0

r = 1

TESTER LA SIGNIFICATION DE r

Le coefficient simple de corrélation peut être testé par comparaison avec 0 (absence de corrélation), en utilisant le test t suivant:

rt =

1 – r²(n - 2)

avec n – 2 degrés de libertés (2 paramètres) avec n = nombre de couples x,y.

Exemple: r = 0.924, ddl = 3, t = 4.19, p = 0.0248

Page 12: ERREUR STANDARD

12

Exemple

23 52 12824 54 10525 56 14526 57 14127 58 15328 59 15729 63 15530 67 17631 71 17232 77 17833 81 217

12 41 13913 41 17114 46 13715 47 11116 48 11517 49 13318 49 12819 50 18320 51 13021 51 13322 51 144

1 22 1312 23 1283 24 1164 27 1065 28 1146 29 1237 30 1178 32 1229 33 9910 35 12111 40 147

Patient Age TAsystPatient Age TAsystPatient Age TAsyst

Régression linéaire: diagramme des points(scatter plot)

0 10 20 30 40 50 60 70 80 90Age, années

220200

180160140120100806040200

Pres

sion

art

érie

lle s

ysto

lique

, m

mH

g

Régression linéaire

0 10 20 30 40 50 60 70 80 90Age, années

220200

180160140120100806040200

Pres

sion

art

érie

lle s

ysto

lique

, m

mH

g

y = 81.5 + 1.22 x

Page 13: ERREUR STANDARD

13

REGRESSION LINEAIRE: ANALYSE DES COEFFICIENTS (PARAMETRES) DE L’EQUATION

PARAMETER COEFFICIENT SE t-value p

Intercept

Slope

81.52

1.22

10.47

0.21

7.79

5.74

0.0001

0.0001

SBP (mmHg) = 81.52 + 1.22 AGE (yrs)

1.22 = coefficient de régression (pente)

0 10 20 30 40 50 60 70 80 90

240

220

200

180

160140

120

100

80

60

4020

0

Bande de confiance à 95 %

Bande de prédiction à 95 %

Droite derégression

Régression linéaire: bande de prédiction et bande de confiance

0 10 20 30 40 50 60 70 80 90Age, années

220200

180160140120

100806040200

Pres

sion

art

érie

lle s

ysto

lique

, m

mH

g

r = 0.718 (coefficient de corrélation)

r² = 0.515 (coefficient de détermination)

51.5 % des variations de la pression artérielle sont expliqués par l’âge

Régression linéaire: coefficients de corrélation et de détermination

Page 14: ERREUR STANDARD

14

COEFFICIENT OF CORRELATION

r = 0.718

t = r n - 21 – r²

avec n - 2 ddl

t = 5.74 avec 31 ddl, p < 0.0001

Coefficient de détermination (r²)

Le coefficient de détermination est le carré du coefficient de corrélation. Il varie aussi entre 0 et 1. Il est égal au quotient de la variance expliquée et la variance totale dans un modèle de régression linéaire simple.

Le coefficient de détermination (r² = 0.515) indique que 51.5 % de la variation de la TA systolique est expliquée par les variation de l’âge.

Il reste donc 48.5 % de la variation de la TA systolique qui n’est pas expliquée par l’âge (par exemple: d’autres facteurs comme l’obésité, le stress,…)

REGRESSION LINEAIRE: APPROCHE PAR LA VARIANCE

Variable dépendante

Y

X Variable indépendante

y

yi^

xi, yi

yi - y = variation totale (SSY)yi - y = variation expliquée par la régression (SSY-SSE)^

y = a + b x

SSE

SSY - SSESSY

Intercepta

pente, b

yi - yi = variation non expliquée (résidu) (SSE)^

Page 15: ERREUR STANDARD

15

Source of variation

Sum of squares

(SS)

Degree of freedom

(df)

Mean squareMS = SS/df

FMSb/MSw

p

Regression(SSY – SSE)

Residual(SSE)

11449.9

10769.7

1

31

11449.9

347.4

32.96 0.0001

Total(SSY)

22219.6 32

r² = r = 0.718SSY - SSE

SSY= 0.515

Determination coefficient Correlation coefficient

LINEAR REGRESSION: ANOVA TABLE

Normal probability plot: distribution gaussienne de la variable Y

80 100 120 140 160 180 200 220

SBP, mmHg

3

2

1

0

-1

-2

-3Stan

dard

Nor

mal

dev

iate

20 30 40 50 60 70 80 90

AGE, années

50

40

30

20

10

0

-10

-20

-30

-40

-50

Rési

du: P

art

-F(

x)

Analyse des résidus: constance de la variance

Page 16: ERREUR STANDARD

16

ANALYSE DES RESIDUS

REGRESSION LOGISTIQUE

La régression logistique repose sur le même principe que la régression linéaire mais est utilisable lorsque la variable dépendante (y) est qualitative à 2 niveaux (dichotomique). Cette variable dichotomique va être transformée en variable continue par la transformation logistique.

Par exemple: y-a-t-il une relation entre l’âge et la survenue d’une coronaropathie (CHD: coronaryheart disease)

PATID AGEGRP AGE CHD1 1 20 02 1 23 03 1 24 04 1 25 05 1 25 16 1 26 07 1 26 08 1 28 09 1 28 010 1 29 011 2 30 012 2 30 013 2 30 014 2 30 015 2 30 016 2 30 117 2 32 018 2 32 019 2 33 020 2 33 021 2 34 022 2 34 023 2 34 124 2 34 025 2 34 026 3 35 027 3 35 028 3 36 029 3 36 130 3 36 031 3 37 032 3 37 133 3 37 0

PATID AGEGRP AGE CHD34 3 38 035 3 38 036 3 39 037 3 39 138 4 40 039 4 40 140 4 41 041 4 41 042 4 42 043 4 42 044 4 42 045 4 42 146 4 43 047 4 43 048 4 43 149 4 44 050 4 44 051 4 44 152 4 44 153 5 45 054 5 45 155 5 46 056 5 46 157 5 47 058 5 47 059 5 47 160 5 48 061 5 48 162 5 48 163 5 49 064 5 49 065 5 49 166 6 50 0

PATID AGEGRP AGE CHD67 6 50 168 6 51 069 6 52 070 6 52 171 6 53 172 6 53 173 6 54 174 7 55 075 7 55 176 7 55 177 7 56 178 7 56 179 7 56 180 7 57 081 7 57 082 7 57 183 7 57 184 7 57 185 7 57 186 7 58 087 7 58 188 7 58 189 7 59 190 7 59 191 8 60 092 8 60 193 8 61 194 8 62 195 8 62 196 8 63 197 8 64 098 8 64 199 8 65 1

100 8 69 1

Base de données: 100 sujets avec ou sans CHD.

Page 17: ERREUR STANDARD

17

REGRESSION LINEAIRE

y = 0.0218 x - 0.538r² = 0.264

0

0.2

0.4

0.6

0.8

1.0

0 20 40 60 80Age, années

Coro

naro

path

ie (0

= Non

, 1

= Oui

REGRESSIONN LOGISTIQUE

0

5

10

15

20

"20-29" "30-34" "35-39" "40-44" "45-49" "50-54" "55-59" "60-69"

Groupe d’âge (années)

Nom

bre

de p

atie

nts

CHD=0 (n = 57)CHD=1 (n = 43)

REGRESSION LOGISTIQUE

0%

20%

40%

60%

80%

100%

"20-29" "30-34" "35-39" "40-44" "45-49" "50-54" "55-59" "60-69"

Groupe d’âge (années)

NU

MB

ER O

F PA

TIEN

TS

CHD=0 (n = 57)CHD=1 (n = 43)

Pour

cent

age

de p

atie

nts

Page 18: ERREUR STANDARD

18

REGRESSION LOGISTIQUE.VARIABLE INDEPENDANTE CONTINUE

0.8064.5108260-69

0.7657.01713455-59

0.6352.085350-54

0.4647.0136745-49

0.3342.01551040-44

0.2537.0123935-39

0.1332.01521330-34

0.1024.5101920-29

Proportion CHDAge moyennCHD = 1CHD = 0Groupe d’âge

LOGISTIC REGRESSION

0.000.100.200.300.400.500.600.700.800.901.00

20 30 40 50 60 70

AGE, yrs

Prop

orti

on d

eco

rona

ropa

thie

(CH

D)

REGRESSION LOGISTIQUE

0

0.2

0.4

0.6

0.8

1

0 10 20 30 40 50 60 70 80 90 100

AGE, années

Prop

orti

on d

eco

rona

ropa

thie

(CH

D)

(x) 1 + e

e - 5.31 + 0.111 age

=π- 5.31 + 0.111 age

(x) = E (Y|x)π

Page 19: ERREUR STANDARD

19

REGRESSION LOGISTIQUE: ANALYSE DES COEFFICIENTS (PARAMETRES) DE L’EQUATION

PARAMETER COEFFICIENT (β) SE Coeff/SE p

Constant

Age

-5.31

0.111

1.13

0.024

-4.69

4.61

0.0001

0.0001

Deviance: 107.35p-value: 0.2435df: 98

TRANSFORMATION LOGISTIQUE

Logit [π(x)] = ln [ ]π(x)

1 - π(x)

π (x) = eβ0 + β1 x

1 + eβ0 + β1 xe = 2.71828

Proportion de patients avec coronaropathie (y=1):

Logit de la proportion de patients avec coronaropathie:

Relation linéaire entre le Logit et le prédicteur x:

Logit [π(x)] = βo + β1 x

REGRESSION LOGISTIQUE

Logit π(x) = -5.31 + 0.111 age

-3

-2

-1

0

1

2

3

0 10 20 30 40 50 60 70 80 90 100

AGE, années

Logi

tde

la p

ropo

rtio

n de

cor

onar

opat

hie

Page 20: ERREUR STANDARD

20

REGRESSION LOGISTIQUE et ODDS RATIO

OR =

π(y=1|x)

1 - π(y=1|x)

π(y=0|x)

1 - π(y=0|x)

= eβ1

Ln(OR) = β1

IC 95 % du OR = eβ1 ± 1.96 SE(β1)

Odds en faveur de la coronaropathie

Odds en faveur de l’absence de coronaropathie

REGRESSION LOGISTIQUE: ANALYSE DES COEFFICIENTS (PARAMETRES) DE L’EQUATION

PARAMETER COEFFICIENT (β) SE Coeff/SE p

Constant

Age

-5.31

0.111

1.13

0.024

-4.69

4.61

0.0001

0.0001

PARAMETER OR(= eβ) 95 % CI p

Age 1.12 1.07 – 1.17 0.0001

= e (0.111 – 1.96*0.024)

REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE CONTINUE

Exemple:– Relation entre l’âge (en années) et coronaropathie (CHD)

π (x) = e-5.31 + 0.111 âge

1 + e-5.31 + 0.111 âge

Interprétation (1):– Pour un nouveau patient de 52 ans, la probabilité d’avoir

une coronaropathie est de 61 % de chance

π (x) = e-5.31 + 0.111 x 52

1 + e-5.31 + 0.111 x 52= 0.61

(x) = E (Y|x)π

Page 21: ERREUR STANDARD

21

REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE CONTINUE

Interprétation (2):– Déterminer le OR en faveur d’une coronaropathie selon

l’âge:

– Un patient à 1.12 fois plus de chance d’avoir une CHD par année d’âge

OR = e0.111 = 1.12

IC 95 % : 1.07 à 1.17

REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE DISCRETE

73

51

22

Age < 55 (x = 0)

27

6

21

Age ≥ 55 (x = 1)

Age (x)

100Total

57non = 0

43oui = 1CHD

Total

REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE DISCRETE

1.01.0Total

y = 0

y = 1Variable

dépendante

x = 0x = 1

Variable indépendante

π (1) =eβ0 + β1

1 + eβ0 + β1

1 − π (1) = 11 + eβ0 + β1

π (0) = eβ0

1 + eβ0

1 − π (0) = 11 + eβ0

Page 22: ERREUR STANDARD

22

REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE DISCRETE

Le Odds du devenir des patients âgés avec x = 1 est défini par:

De même, le Odds du devenir des patients jeunes avec x = 0 est défini par:

Odds (x=1) = π(x=1)

1 - π(x=1)

π(x=0)

1 - π(x=0)

Odds (x=0) =

REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE DISCRETE

Le Odds Ratio en faveur d’une coronaropathie entre les patients âgés et jeunes est défini comme le rapport du Odds pour x = 1 divisé par le Odds pour x = 0. Il est calculé par l’équation:

OR =

π(x=1)

1 - π(x=1)

π(x=0)

1 - π(x=0)

= eβ1 ⇒ Ln (OR) = β1

IC 95 % du OR = eβ1 ± 1.96 SE(β1)

REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE DISCRETE

Equation de régression logistique:

π (x) = e-0.841 + 2.094 x

1 + e-0.841 + 2.094 x

Interprétation (1):– Pour un nouveau patient de 52 ans (< 55 ans, x = 0), la

probabilité d’avoir une coronaropathie est de 30 % de chance

π (x) = e-0.841

1 + e-0.841= 0.30

Page 23: ERREUR STANDARD

23

REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE DISCRETE

Interprétation (2):– Déterminer le OR en faveur d’une coronaropathie selon la

catégorie d‘âge:

– Un patient de 55 ans ou plus à 8 fois plus de chance d’avoir une CHD qu’un patient de moins de 55 ans

OR = e2.094 = 8.12

IC 95 % : 2.88 à 22.84

REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE CONTINUE

Exemple:– Relation entre l’âge (en années) et coronaropathie (CHD)

π (x) = e-5.31 + 0.111 âge

1 + e-5.31 + 0.111 âge

Interprétation (1):– Pour un nouveau patient de 52 ans, la probabilité d’avoir

une coronaropathie est de 61 % de chance

π (x) = e-5.31 + 0.111 x 52

1 + e-5.31 + 0.111 x 52= 0.61

REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE DISCRETE

Interprétation (2):– Déterminer le OR en faveur d’une coronaropathie selon

l’‘âge:

– Un patient à 1.12 fois plus de chance d’avoir une CHD par année d’âge

OR = e0.111 = 1.12

IC 95 % : 1.07 à 1.17

Page 24: ERREUR STANDARD

24

REGRESSION LOGISTIQUE MULTIVARIABLELa régression logistique multivariable va mettre en relation plusieurs prédicteurs x pour prédire l’outcome (y).

Exemple:– Le score de gravité APACHE II calculé à l’admission en

soins intensifs permet de prédire la mortalité hospitalière du patient en fonction du score APACHE et du diagnostic principal à l’admission (par exemple: embolie pulmonaire, EP) selon une équation de régression logistique:

π (x) = e-3.517 + 0.146 APACHE – 0.128 EP

1 + e-3.517 + 0.146 APACHE – 0.128 EP

– Si le patient a un score APACHE = 25 et présente une embolie pulmonaire (EP = 1):

Ainsi la probabilité de déceder est de 50 chances sur 100.

π (x) = 0.50

REGRESSION LOGISTIQUE MULTIVARIABLE

A partir de la mortalité prédite par le modèle logistique pour chaque patient et de la mortalité observée, on peut calculer le SMR (Standardized Mortality Ratio) pour une année complète:

– Mortalité observée: 82 décès sur 353 patients/an– Mortalité prédite par le score APACHE (somme des

probabilités: 78.6 décès sur 353 patients/an– SMR = 100 * taux observé/ taux prédit: 104 (Nor = 100).– SE SMR= 1.15– Intervalle de confiance à 95 %: 82 à 127

LES ETUDES LONGITUDINALES DE SURVIE

Page 25: ERREUR STANDARD

25

ETUDES DE SURVIEDATE D’ORIGINE:– Le terme «durée de survie» sans autre précision désigne le temps écoulé entre la naissance et la mort.

– Dans les études de survie, la durée de survie est calculée depuis le diagnostic ou le début du traitement qui correspond à la date d’origine.

DATE DES DERNIERES NOUVELLES:– Au moment de l’analyse, il faut disposer de la date des dernières nouvelles, c’est-à-dire la date la plus récente où l’on a recueilli des renseignements sur l’état de santé du patient.

DATE DE POINT:– Date choisie pour calculer la durée de survie.

6.2

ETUDES DE SURVIE

DUREE DE SURVEILLANCE:– La durée de surveillance est le délai écoulé entre la date d’origine et la date des dernières nouvelles.

DUREE DE PARTICIPATION:– Si les dernières nouvelles sont antérieures à la date de point, le temps de participation est égal au délai entre la date d’origine et la date des dernières nouvelles.

– Si les dernières nouvelles sont postérieures à la date de point, le temps de participation est égal au délai entre la date d’origine et la date de point.

TEMPS A L’EVENEMENT: – Le temps entre l’admission dans l’étude et l’événementd’intérêt (décès, récidive, …)

6.3

ETUDES DE SURVIE

PERDU DE VUE:– Un sujet dont on ne connaît pas l’état de santé à la date de point.

– On cherche toujours à réduire le nombre de sujets perdus de vue,

• d’une part parce que ces observations représentent une perte d’information et

• d’autre part parce qu’elles sont sources de biais.

EXCLU-VIVANT:– Un sujet qui est vivant à la date de point et après cette date est dit «exclu-vivant».

6.4

Page 26: ERREUR STANDARD

26

ETUDES DE SURVIE

OBSERVATIONS CENSUREES:Les sujets qui n’ont pas présenté l’événement d’intérêt. Il s’agit des sujets perdus de vue et des sujets exclus-vivants. Les deux mécanismes de censure sont de nature différente.Il faut que ces données censurées soient non informatives, c’est-à-dire aléatoires.

OBSERVATIONS NON CENSUREES:Les sujets qui ont présenté l’événement d’intérêt (décès, récidive,…) avant la date de point.

6.4

Analyse de survie: structure des données

Variable temps: ti = temps de la dernière visite (en vie sans l’événement d’intérêt) ou temps de l’événement d’intérêt (décès, récidive,…).

Variable de censure: ci = 0 si l’événement d’intérêts’est réalisé (donnée non censurée); ci = 1 sil’événement ne s’est pas réalisé au temps ti(donnée censurée)

Variable d’état (décès): di =1 si l’événementd’intérêt s’est réalisé; di =0 si l’événement ne s’estpas réalisé au temps ti

ETUDES DE SURVIE 6.5

Calendrier

01-jan-05 01-jan-06 01-jan-07 01-jan-08 01-jan-09Date

Suje

t

1

2

3

4

5

Décédé

Décédé

En vie

En vieEn vie

DécédéEn vie

DécédéEn vieEn vie

181412924

1/7/20061/3/20071/1/20061/1/20061/1/2008

1/1/20051/1/20061/1/20051/4/20051/6/2006

12345

EtatDurée de surveillance (mois)

DateDernières nouvellesDate

d’origineSujet

Page 27: ERREUR STANDARD

27

ETUDES DE SURVIE 6.6

Décédé

DécédéEn vie

En vieEn vie

Durée de surveillance

0 6 12 18 24 30Temps (mois)

Suje

t

1

2

3

4

5

DécédéEn vie

DécédéEn vieEn vie

181412924

1/7/20061/3/20071/1/20061/1/20061/1/2008

1/1/20051/1/20061/1/20051/4/20051/6/2006

12345

EtatDurée de surveillance (mois)

DateDernières nouvellesDate

d’origineSujet

ETUDES DE SURVIE 6.5

Calendrier

01-jan-05 01-jan-06 01-jan-07 01-jan-08 01-jan-09Date

Suje

t

1

2

3

4

5

Décédé

Décédé

Perdu de vue

Exclu vivantPerdu de vue

1/7/20061/3/20071/1/20061/1/20061/1/2008

1/1/20051/1/20061/1/20051/4/20051/6/2006

12345

EtatDurée de participation (mois)

DateDate de point: 1/2/2008Date

d’origineSujet

Date de point

1814129

20

DécédéPerdu de vue

DécédéPerdu de vueExclu vivant

ETUDES DE SURVIE 6.6

Décédé

DécédéPerdu de vue

Exclu vivantPerdu de vue

Durée de participation

0 6 12 18 24 30Temps (mois)

Suje

t

1

2

3

4

5

DécédéPerdu de vue

DécédéPerdu de vueExclu vivant

181412924

1/7/20061/3/20071/1/20061/1/20061/1/2008

1/1/20051/1/20061/1/20051/4/20051/6/2006

12345

EtatDurée de surveillance (mois)

DateDate de point: 1/2/2008Date

d’origineSujet

Non censuré

Non censuréCensuré

Censuré

Censuré

Page 28: ERREUR STANDARD

28

COURBES DE SURVIE NON PARAMETRIQUES DE KAPLAN-MEIER

La méthode de Kaplan-Meier (1958) repose sur l’idée intuitive suivante:

« être encore en vie après l’instant t, c’est être en vie juste avant l’instant t et ne pas mourir à l’instant t »

Pour estimer la fonction de survie S(t) d’une population à partir d’un échantillon de taille n (nombre de patients), il faut classer les observations par ordre croissant de temps de participation.

On définit:- ti, les instants auxquels les décès sont observés- ni, le nombre de sujets en vie juste avant ti, c’est-à-

dire, le nombre de sujets exposés au risque de décéder au temps ti

- di, le nombre de décès au temps ti- ci, le nombre de données censurées entre [ti et ti+1[

6.9

ETUDES DE SURVIE 6.6

Durée de participation

0 6 12 18 24 30Temps (mois)

Suje

t

1

2

3

4

5

DécédéPerdu de vue

DécédéPerdu de vueExclu vivant

181412924

1/7/20061/3/20071/1/20061/1/20061/1/2008

1/1/20051/1/20061/1/20051/4/20051/6/2006

12345

EtatDurée de surveillance (mois)

DateDate de point: 1/2/2008Date

d’origineSujet

(18, 1)

(12, 1)(14, 0)

(20, 0)(9, 0)

(ti, di)

METHODE DE KAPLAN-MEIERClasser les temps de décès par ordre croissant

Calculer le nombre de perdus de vue et d ’exclus vivant dans l ’intervalle (données censurées)

Calculer les taux de décès (et de survie) instantanés

Calculer les taux de survie globale

6.11

37.5 %(0.75 x 0.50)

1/(5-2-1) = 0.50(survie = 50 %)

1118

75%(1 x 0.75)

1/(5-1) = 0.25(survie = 75 %

1112

100 %(1 x 1)

0/5 = 0(survie 100%)

0-0

Survie globale

Taux de décès instantané

Nombre décèsNombres censurés dans

l’intervalle précédent

Temps décès(mois)

Page 29: ERREUR STANDARD

29

METHODE DE KAPLAN-MEIER

6.12

0

20

40

60

80

100

0 5 10 15 20 25 30

Temps (mois)

Surv

ie (%)

Médiane de survie18 mois

COURBES DE SURVIE NON PARAMETRIQUES DE KAPLAN-MEIER

A l’origine:t0 = 0 et d0 = 0

Pour tout i = 1, 2, …., k on a le nombre de sujets exposés au risque au temps ti

L’estimation de Kaplan-Meier de S(t) est:

6.13

ni = n0 - Σ dj - Σ cjj = 1

i - 1

j = 1

i - 1

t ≤ tiS(t) = Π [ ]^ ni - di

ni

Var [S(t)] =^ S(t) [1 – S(t)]n0

^ ^

COURBE DE SURVIE NON PARAMETRIQUE DE KAPLAN-MEIER

0.00000.00580.00740.00880.01020.01110.01180.0118

1.0000.8570.8070.7530.6900.6270.5380.448

21/21 = 1.00018/21 = 0.85716/17 = 0.94114/15 = 0.93311/12 = 0.91710/11 = 0.9096/7 = 0.8575/6 = 0.833

21211715121176

03111111

-0112030

0671013162223

Var[S(ti)]S(ti)(ni-di)/ninidiCi-1ti

Probabilité de survie sans rechute

Probabilitéconditionnelle

Nombre exposés en

ti

Nombre de rechutes

NombreCensures [ti-1, ti[

Tempsrechute(sem)

KAPLAN MEIER

Exemple: durées de rémission en semaines de patients atteints de leucémie traités par chimiothérapie au 6-MP (Freireich, 1963)

Probabilité de ne pas rechuter à l’instant t en n’étant pas en rechute avant l’instant t

Survie = 0.857 x 1.000

Page 30: ERREUR STANDARD

30

0 10 20 30 40Temps, semaines

100

80

60

40

20

0Surv

ie s

ans

réci

dive

(%)

6-MP

COURBE DE SURVIE NON PARAMETRIQUE DE KAPLAN-MEIER

médiane de survie: 23 semaines

COMPARAISON DE DEUX COURBES DE SURVIE DE KAPLAN-MEIER

La comparaison des courbes de survie de type Kaplan-Meier se fait grâce au test du Logrank.

Test du Logrank pour deux groupes A (traité 6-MP) et B (placebo):– Au temps ti, l’espérance mathématique du nombre

de rechute (dBi) dans le groupe B placebo (eBi) est:

6.16

eBi = (dAi + dBi) nBi

(nAi + nBi)

COMPARAISON DE DEUX COURBES DE SURVIE DE KAPLAN-MEIER

Test du Logrank pour deux groupes A (traité) et B (placebo):

– Avec une variance (vi):

– Logrank test:

6.16

[(nAi + nBi) - (dAi + dBi)][(nAi + nBi) – 1]

Vi = (dAi + dBi)nAi nBi

(nAi + nBi)²

χ² = (Σ dBi - Σ eBi)²

t

i - 1

t

i - 1

Σ vi

t

i - 1

avec ddl = 1

Page 31: ERREUR STANDARD

31

Comparaison de 2 courbes de Kaplan-Meier

6.2610.75219Total

Test du Logrank (Chi²) = 16.78 ddl = 2 – 1 = 1 p = 0.00042

-0.490.490.250.480.470.650.240.870.230.450.420.190.200.170.180.300.20

-1.000.950.450.860.801.090.411.710.350.760.670.250270.210.230.440.29

1.0000.9050.8100.7620.6670.5710.5710.5710.3810.3810.2860.1900.1900.1430.1430.0950.0480.000

1.0000.9050.8950.9410.8750.8571.0001.0000.6671.0000.7500.6671.0000.7501.0000.6670.5000.000

212119171614121212886443321

022122004022010111

1.0001.0001.0001.0001.0001.0000.8570.8070.8070.7530.7530.7530.6900.6900.6270.6270.5380.448

1.0001.0001.0001.0001.0001.0000.8570.9411.0000.9331.0001.0000.9171.0000.9091.0000.8570.833

2121212121212117161513121211111076

000000310100101011

012345678101112131516172223

VieBiSB(ti)(nBi-dBi)/nBinBidBiSA(ti)(nAi-dAi)/nAinAidAiti

Espérance (e) et variance (v) de mB

Survie sans rechute

Probabilitéconditonnelle

Nombre exposés en ti

Nombre rechutes

Survie sans rechute

Probabilitéconditionnelle

Nombreexposés en ti

Nombrerechutes

Tempsrechute(sem)

Groupe placeboGroupe 6-MP

KAPLAN MEIER

0 10 20 30 40Temps, semaines

100

80

60

40

20

0Surv

ie s

ans

réci

dive

(%)

6-MP

Placebo

Logrank = 16.78p = 0.00042

Comparaison de 2 courbes de Kaplan-Meier

COURBES DE SURVIE PAR LE MODELE DE COX (approche semi-paramétrique)

Le modèle de Cox (1972) permet la prise en compte simultanée de plusieurs variables pour expliquer la survie sans donner aux fonctions de survie des formes paramétriques précises.

Ce modèle est utile dans de nombreux types d’études: – Ajustement sur les variables pronostiques dans un

essai thérapeutique.– Identification des variables pertinentes à des fins

pronostiques.

6.23

Page 32: ERREUR STANDARD

32

COURBES DE SURVIE PAR LE MODELE DE COX (approche semi-paramétrique)

Définition du modèle de Cox:– Les modèles de régression pour les

données de survie s’écrivent sous la forme d’une relation entre le risque instantané de décès h(t) et les covariables (par exemple: x1 = sexe, x2 = age, …)

avec ho(t) étant le risque instantané lorsque les covariables sont égales à zéro.

6.23

....2211 ++ xbxbeh(t) = h0(t)Non paramétrique Paramétrique

COURBES DE SURVIE PAR LE MODELE DE COX (approche semi-paramétrique)

Définition du modèle de Cox:– Ce modèle est souvent appelé « régression de

Cox car il peut s’écrire sous la forme:

– Hazard ratio = risque relatif lié aux covariables de l’occurrence d’un événement (décès) à l’instant t

6.23

Hazard ratio for x1 (= eb1)

Loge ...2211 ++= xbxbh0(t)h(t)

COURBES DE SURVIE PAR LE MODELE DE COX (approche semi-paramétrique)

Dans le modèle de Cox, la fonction de risque cumulée (cumulative hazard function) Ho(ti) est:

La survie (S(ti)) est estimée par:

6.24

Ho (ti) = Σgroupe =1

2 dgroupe

Σ eb1 x1 + b2 x2 + …

S(ti) = e-Ho(ti)^

Page 33: ERREUR STANDARD

33

COURBES DE SURVIE PAR LE MODELE DE COX (approche semi-paramétrique)

Le modèle de Cox est également appelé modèle des taux de risques proportionnels (proportional hazards) car il assume que chaque facteur qui affecte le risque l’affecte du même rapport à tous les instants. Ainsi, un facteur qui double le risque de décès au jour 1 doublera également le risque aux jours 5, 10, 50, ….

6.25

COURBES DE SURVIE PAR LE MODELE DE COX (approche semi-paramétrique)

Dans ce type d’analyse, le risque relatif (relative hazard) lié à une covariable correspond à:

Son intervalle de confiance à 95 % est calculé par la formule:

6.25

h(t, x1 = 1)h(t, x1 = 0) =

e(b1, x1 = 1)

e(b1, x1 = 0) = e b1

IC 95 % du HR = eb1 ± 1.96 SE(b1)

Comparaison de 2 courbes de survie (modèle de Cox)

10.930.850.790.740.660.550.520.400.340.310.240.210.180.150.120.070.03

10.980.960.950.930.910.880.860.820.800.770.730.710.680.660.630.560.46

00.01720.03590.04060.06750.09120.13110.14510.2020.22160.28230.31340.34660.3810.42170.46410.58870.7788

00.01720.01870.01020.02140.02370.03990.01400.05690.00980.04070.05110.03320.01720.04070.02490.02490.1901

212119171614121212886443321

2121212121212117161513121211111076

022122314122111122

012345678101112131516172223

b = 1.51 SE(b) = 0.41 t = b/SE(b) = 3.685 ddl = 2 – 1 = 1 p = 0.002

So(ti)exp(b)So(ti)Ho(ti)ho(ti)nBinAiditi

Survie sans rechute6 – MP Placebo

Risque cumulé

Risque instantané

Nombreexposés en ti

(groupe placebo)x = 1

Nombreexposés en ti(groupe 6-MP)

x = 0

Nombrerechutes

Tempsrechute(sem)

Modèle de COX

Page 34: ERREUR STANDARD

34

MODELE DE COX

100

80

60

40

20

0Surv

ie s

ans

réci

dive

(%)

0 10 20 30 40Temps, semaines

Placebo

6-MP

HR = 4.5IC 95 %: 2.0 à 10.1p = 0.002

Régression de Cox versus régression logistique

Mesures utilisées en médecine

Mesures de la fréquence d’un événement défini:– Proportion– Risque– Taux

Page 35: ERREUR STANDARD

35

Proportion

Rapport [ratio] : a/b (a , b ∈ Z)– valeur comprise entre – ∞ et + ∞ , pas d’unité

Proportion : a/b (a ≤ b ∈ N)– avec : effectif du numérateur relatif à un

sous-ensemble de l’effectif du dénominateur (a ≤ b)

– valeur comprise entre 0 et 1 (ou 0 % et 100 %), pas d’unité

Risque

Risque brut [crude risk] : probabilité– valeur comprise entre 0 et 1, pas d’unité

Risque relatif [relative risk] : rapport de deux risques– valeur comprise entre 0 et + ∞ , pas d’unité

Taux

Taux [rate] : mesure de la vitesse de survenue d’un événement (maladie)– valeur comprise entre 0 et + ∞, – unité : [temps]-1 (par exemple: /année)

Page 36: ERREUR STANDARD

36

Taux d’incidence – Proportion d’incidence

Incidence

0.01

0.02

0.03

0.00

0 1 2 3

Taux d’incidence: 0.01 (= 1% ou 10 cas pour 1000 personnes-année)

Incidence cumulée: 0.02(proportion)

Incidence cumulée: 0.03(proportion)

Régression de Cox vs régression logistique

Distinction entre rapport de taux de risque (hazard/rate ratio) et rapport de risque (odds ratio /risk ratio):– Hazard/rate ratio: rapport de taux

d’incidence– Odds/risk ratio: rapport de proportions

En prenant en compte le temps, on prend en compte plus d’information que simplement une réponse binaireoui/non.

Gain en puissance/précision.

La régression logistique a pour but d’estimer le rapport de risque (odds ratio); La régression de Cox a pour but d’estimer le rapport de taux de risque (hazard ratio)

Régression de Cox vs régression logistique.

Distinction entre taux (rate) et proportion:

– Taux d’incidence (risque, ‘hazard’): nombre de nouveaux cas de maladie pour la population à risque par unité de temps (ou taux de mortalité, si le résultat(‘outcome’) est le décès).

– Incidence cumulée: proportion de nouveaux cas qui sont apparus dans la période de temps donnée

Page 37: ERREUR STANDARD

37

Risks vs Rates

Relation entre risque and taux de risque:

R(t) = 1 – e-ht

h = taux de risque constant (hazard rate)

R(t) = probabilité de la maladieau temps t (risque)

Risque versus Taux de risque

Par exemple, si le taux de risque est de 5 cas/1000 personnes-année, la probabilité de développer la maladie (risque) sur 10 ans est:

A comparer à 0.005 (10) = 5% La perte de personnes à

risque car elles ontdéveloppé la maladiedurant la période estfaible par rapport à la taille de la population.

R(t) = 1 - .951 = 0.0488

R(t) = 1 – e -.05

R(t) = 1 – e –(.005) (10)

Risque versus Taux de risque

Si le taux de risque est de 50 cas/1000 personnes-année, la probabilité de développer la maladie en 10 ans est:

A comparer à .05(10) = 50%

R(t) = 1 - .607 = 0.393

R(t) = 1 – e -0.5

R(t) = 1 – e –(.05) (10)

Page 38: ERREUR STANDARD

38

Risque versus Taux de risque

Année Personnes à risque Taux: 0.05012345678910

1000950903858816776738702668635

50474542403836343331

396

Risque cumulé en 10 ans de 39.6% pour un taux de risque de 5 % par année

Cox regression vs Logistic regression

0 1 2 3 4 5 6 7 8 9 100

102030405060708090

100

Time

Surv

ival

prob

abili

ty(%

)

ORage = 0.998 (0.987- 1.009)Survival 59.7 %

Observational time: 10 years (tous les patients ont été observés pendant 10 ans)

HRage = 0.996 (0.988-1.004)Survival 61.2 %

Cox regression vs Logistic regression

0 1 2 3 4 5 6 7 8 9 100

102030405060708090

100

Time2

Surv

ival

prob

abili

ty(%

)

ORage = 0.998 (0.987- 1.009)Survival 59.7 %

Observational time: 6 to 10 years (censoring)

HRage = 0.994 (0.986-1.002)Survival 45.1 %

Page 39: ERREUR STANDARD

39

REGRESSION MULTIVARIABLE

Type de régression et modélisation

La modélisation de risques différentiels: la régression linéaire

La modélisation de cotes proportionnelles : la régression logistique

La modélisation des risques proportionnels: la régression de Poisson

La modélisation des taux de risques proportionnels: la régression de Cox.

Si y = variable continue -> régression linéaire

Si y = variable catégorielle dichotomique (1 or 0) -> régression logistique

Si y = compte d’événements sur une période de temps-> régression de Poisson

Si y = temps à l’événement (données censurées) -> régression de Cox

Types of regression

Page 40: ERREUR STANDARD

40

REGRESSION MULTIVARIABLE

Si y = variable continue: régression multiple

y = βo + β1 x1 + β2 x2 + β3 x3

β1 = coefficient de régression partielle pour le factor de risque x1 (pente)

REGRESSION MULTIVARIABLE

Si y = variable dichotomique: régression logistique multiple

y = βo + β1 x1 + β2 x2 + β3 x3e

1 + e βo + β1 x1 + β2 x2 + β3 x3

Logit(y) = βo + β1 x1 + β2 x2 + β3 x3

Relation linéaire

e = odds ratio pour le factor de risque x1β1

REGRESSION MULTIVARIABLE

Si y = nombre d’événements durant une période de temps: régression multivariable de Poisson.

βo + β1 x1 + β2 x2 + β3 x3y = ti e

Ln(y/ti) = βo + β1 x1 + β2 x2 + β3 x3

Relation linéaire

e = rapport d’incidence (incidence ratio) pour le factor de risque x1

β1

Page 41: ERREUR STANDARD

41

REGRESSION MULTIVARIABLE

Si y = temps à l’événement: régression de Cox multivariable (régression des taux de risqueproportionnels)

β1 x1 + β2 x2 + β3 x3y = h0 (t) e

Ln(y/h0 (t)) =β1 x1 + β2 x2 + β3 x3

Relation linéaire

e = Rapport des taux de risque(hazard ratio, HR) pour le facteurde risque x1

β1

COMMENT CONSTRUIRE UN MODELE MULTIVARIABLE?

STRATEGIE DE CONSTRUCTION DU MODELE

• Méthode ascendante pas à pas (forward selection)

• Méthode descendante (backward elimination)

• Méthode mixte pas à pas (stepwise regression)

• Tous les subsets (all subsets of regression - best subset)

Page 42: ERREUR STANDARD

42

REGRESSION MULTIVARIEE

REGRESSION MULTIVARIEE

y1

y2

y3

1

x1

x2

x3

=

β0j β1j β2j β3j

β0j β1j β2j β3j

β0j β1j β2j β3j

x

Belgium-Luxembourg

France

Germany

Holland Switzerland

ItalyFinland

UK Ireland

Norway

Austria

Sweden

Spain

Portugal

Denmark

-2

-1.5

-1

-0.5

0.5

1

1.5

2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

MIDAZOLAM

MORPHINE

PROPOFOL

SUFENTANIL

FENTANYL

0

Soliman H.M., Mélot C., et al. Br. J. Anaesth. 2001;87:186-192

MULTIVARIATE ANALYSIS

Page 43: ERREUR STANDARD

43

Courbe ROC (Receiver OperatingCharacteristics)

Décision médicale

Biomarqueurs et diagnostic: il y a 2 approches statistiques pour l’évaluation des biomarqueurs:

– Modélisation du risque (disease outcome) par régression logistique (OR) (ou régression de Cox - HR)

→ le biomarqueur est utile si il a un lien avec le risque (p < 0.05)

- Performance dans la classification malade/non malades (sensibilité, spécificité, valeur prédictive, LR et courbe ROC).→ le biomarqueur est utile si il a une bonne performance de classification (discriminant)

Approche fréquentiste

Approche bayésienne

Approche fréquentiste.

Page 44: ERREUR STANDARD

44

Dans l’approche frequentiste, la valeur de p (p-value) est…

la probabilité d’obtenir un résultat égal ou plus grand que le résultat observé, dans la situation où l’hypothèse nulle est vraie (hasard).

n’est pas la probabilité que l’hypothèse nullesoit vraie car elle (p-value) est calculée, en assumant que l’hypothèse nulle est vraie(100%).

What does this p-value mean?

There is a 0.5 % probability that the mortality reduction is due to chance.There is a 99.5 % probability that the mortality reduction is true.

There is a 0.5 % probability that the null hypothesis is true.

There is a 0.5 % chance of finding a 19.4 % reduction in mortality in this trial of 1690 patients if there was no effect of APC other than chance.

There is a 99.5 % probability that the alternative hypothesis istrue.

NEJM 2001;344:699-709

Approche bayésienne.

Page 45: ERREUR STANDARD

45

The reverend Thomas Bayes 1702-1761

Essay towards solving a problem in the doctrine of chancespublished in the Philosophical Transactions of the Royal Society of London in

1764.

Approche fréquentistePr(résultats observés|Ho)

Approche Bayésienne

Pr (Ha | résultats observés)

Information p - valeur Valeur prédictive

Approche fréquentiste versus approche bayésienne.

Test diagnostique: sensibilité et spécificité

Sensibilité = 297/348 = 0.85 (85 %)Faux négatifs = 51/348 = 0.15 (15 %)

Faux positifs = 108/360 = 0.30 (30 %)

Gold standard (par ex.: histologie)

Spécificité = 252/360 = 0.70 (70 %)

TumeurMaligne Bénigne

MammographiePositive

85(Sens: 0.85)

a

270(FP: 0.30)

b

355

Négativec

15(FN: 0.15)

d630

(Spéc: 0.70)645

100 900 1000

Page 46: ERREUR STANDARD

46

Probabilités a priori et a posteriori

Probabilitéà

priori

Probabilité àpostériori

Test

Prévalence

Valeur PrédictivePositive

Valeur PrédictiveNégative

Test +

Test -

TumeurMaligne Bénigne

MammographiePositive

85(Sens: 0.85)

a

270(FP: 0.30)

b

355

Négativec

15(FN: 0.15)

d630

(Spéc: 0.70)645

100 900 1000

Test diagnostique: valeurs prédictives (VP)

Prévalence = 100/1000 = 0.10 (10 %)Valeur prédictive positive (VPP) :

VPP = 85/355 = 0.24 (24 %)

Valeur prédictive négative (VPN) :VPN = 630/645 = 0.98 (98 %)

Gold standard (par ex.: histologie)

TEST DIAGNOSTIQUE

Glycémie, mg/dl

Sujets maladesSujets sains

faux positifsfaux négatifs

Test positifTest négatif

seuil

spécificité sensibilité

Spécificité + Faux Positifs = 1 Sensibilité + Faux Négatifs = 1

120 130110 140100 1509080 1607060

Page 47: ERREUR STANDARD

47

TEST DIAGNOSTIQUE: CHANGEMENT DU SEUIL

Glycémie, mg/dl

Sujets maladesSujets sains

spécificité↓ sensibilité↑faux positifs ↑

Test positifTest négatif

← seuil

faux négatifs ↓

120 130110 140100 1509080 1607060

TEST DIAGNOSTIQUE: CHANGEMENT DU SEUIL

Glycémie, mg/dl

Sujets maladesSujets sains

faux négatifs ↑ faux positifs ↓

Test positifTest négatif

seuil →

spécificité↑ sensibilité↓

120 130110 140100 1509080 1607060

COURBE ROC (Receiver Operating Caracteristics curve)

0102030405060708090

100

0 10 20 30 40 50 60 70 80 90 100

100 - spécificité

Sens

ibili

100105110

115

120

125

Aire sous la courbe(IC 95 %)

Page 48: ERREUR STANDARD

48

COURBE ROC (Receiver Operating Caracteristics curve)

0102030405060708090

100

0 10 20 30 40 50 60 70 80 90 100

100 - spécificité

Sens

ibili

100105110

115

120

125

Test idéalSeuil à spécificité maximale (diagnostic: FP ↓)

Seuil àsensibilitémaximale(dépistage: FN ↓)Seuil optimal

(PCC)

Seuil de l’intervalle de prédiction à 95 %

Diagnostic ou Dépistage?

Nul ou très faibleEventuellementRisque

Minimiser les FNMaximiser la VPNSensibilité élevée

Minimiser les FPMaximiser la VPPSpécificité élevée

Propriété du test

Forte (rapide et peu invasif)

FaibleAcceptabilitéBasElevéCoût unitaire

Eviter de manquer des cas de maladie dans la population

Identifier avec certitude la maladie

chez le patient

ButDépistageDiagnostic

10080.81.00∞100 (98.6 – 100)0 (0 – 5.6)> 610181.050.00.994.2299.6 (98.0 – 99.9)1.5 (0 – 5.6)> 510681.855.60.945.2798.5 (96.3 – 99.6)7.7 (2.6 - 17.1)> 412384.851.40.764.4593.4 (89.8 – 96.1)29.2 (18.6 - 41.8)> 314090.237.40.462.5273.7 (68.1 – 78.8)66.2 (53.4 - 77.4)> 2*13295.626.70.191.5339.8 (33.9 – 45.8)92.3 (82.9 - 97.4)> 110810020.40.001.087.7 (4.8 – 11.5)100 (94.4 – 100)> 010019.21.000 (0 – 1.4)100 (94.4 – 100)≥ 0

PV-PV+LR-LR+Spec. (95% CI)Sens. (95% CI)Criterion

Prevalence 19.2 %

0 20 40 60 80 100100-Specificity

100

80

60

40

20

0

Sens

itiv

ity

Area: 0.759 (0.709 – 0.804)

Score > 2

Embolie pulmonaire(Score de Genève)

Page 49: ERREUR STANDARD

49

Test diagnostique et décision médicale

Il y a 2 approches statistiques pour l’évaluation des biomarqueurs:

– Modélisation du risque (disease outcome) par régression logistique (ou régression de Cox)

→ le biomarqueur est utile si il a un lien avec le risque (p < 0.05)

- Performance dans la classification malade/non malades (sensibilité, spécificité, valeur prédictive, LR et courbe ROC).→ le biomarqueur est utile si il a une bonne performance de classification (discriminant)

Approche fréquentiste

Approche bayésienne

Modélisation du risque: prédictibilité (régression logistique)

Pepe MS et al. Am J Epidemiol 2008;167:362-368

< 0.0010.02

< 0.0010.04

3.671.032.69

0.0026

Log (PSA)Age (yrs)Digital Rectal Examination (DRE) positivePrior biopsy (PB)

PORVariable

Exemple: cancer de la prostate

y = -5.94 + 1.30 Log(PSA)+ 0.03 Age + 0.99 DRE – 0.037 PBe

1 + e -5.94 + 1.30 Log (PSA) + 0.03 Age + 0.99 DRE – 0.037 PB

No cancer = 0

Cancer = 1

Courbe ROC et Odds Ratio

0.00.10.20.30.40.50.60.70.80.91.0

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0Faux positifs (1-spécificité)

Vrai

s po

siti

fs (s

ensi

bilit

é)

0R = 11.5

23

510

15

120170

30

Pepe MS et al. Am J Epidemiol 2004;159:882-890

Page 50: ERREUR STANDARD

50

Comparaison du pouvoir discriminant de deux tests

Diagnostic d’embolie pulmonaire aux urgences

Score de Genève

Score de Wells

333 patients (63 embolies pulmonaires)

0 20 40 60 80 100

100-Specificity

100

80

60

40

20

0

Sens

itiv

ity

Area: 0.759 (0.709 – 0.804)Area: 0.850 (0.807 – 0.887)

p = 0.005

Score > 2.5

Score > 2 LR + : 2.52LR- : 0.46

LR + : 2.30LR- : 0.11

Penaloza A, Mélot C, Motte S Thrombosis Research 2011;127:81-84

S’il me restait un seul jour à vivre, je la passerais dans un cours de statistique

afin qu’il me paraisse plus long…