51
. . Les statistiques dans la recherche m´ edicale ethodes statistiques multivari´ ees Micha¨ el Genin, Alain Duhamel, Patrick Devos Universit´ e de Lille 2 EA 2694 - Sant´ e Publique : Epid´ emiologie et Qualit´ e des soins [email protected]

Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Embed Size (px)

Citation preview

Page 1: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

.

......

Les statistiques dans la recherche medicaleMethodes statistiques multivariees

Michael Genin, Alain Duhamel, Patrick Devos

Universite de Lille 2EA 2694 - Sante Publique : Epidemiologie et Qualite des soins

[email protected]

Page 2: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Plan

...1 Introduction

...2 Statistique descriptive multivariee

...3 Statistique inferentielle multivariee

...4 Approfondissements

...5 Contacts

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 1 / 66

Page 3: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Introduction

Precedemment. . .

Definition de la statistique, echantillonnage

Principe du test statistique

Nombre de sujets necessaires

Traitements statistiques

Statistiques descriptives univarieesTests de comparaison de groupes usuels

Aujourd’hui :

Analyses descriptives multivariees

Analyses inferentielles multivariees

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 3 / 66

Page 4: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Introduction Methodes statistiques - principes generaux

Differents types de statistique

La statistique

Inférentielle

Descriptive

Multivariée (ACP, …)

Univariée (moyenne, DS, …)

Multivariée (modèles, …)

Univariée (tests, …)

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 5 / 66

Page 5: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Introduction Methodes statistiques - principes generaux

Differents types de variables

Variables Quantitatives

Variables quantitatives continues (age, poids, taille,)Variables quantitatives discretes (ne peuvent prendre qu’un nombre limite devaleurs. ex : nombre de personnes dans un foyer)

Variables Qualitatives

Variables qualitatives binaires (sexe : Masculin / Feminin)Variables qualitatives nominales (Couleurs des yeux : marrons, bleus, verts,gris)Variables qualitatives ordinales (Appreciation : Mauvais, Passable, Bien, Tresbien, Excellent)

Toujours decrire les donnees avant de faire les analyses inferentielles (tests)

Pour decrire les echantillons et verifier leur representativite mais aussi

Pour le controle de qualite des donnees : individus aberrants, valeursmanquantes

Pour choisir les tests adaptes aux distributions (”lois”) des variables

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 6 / 66

Page 6: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Introduction Methodes statistiques - principes generaux

Dans le cadre des methodes statistiques inferentielles :

Une variable est definie par

son type (quantitative, qualitative)

son statut (++)

2 statuts possibles :

Variables explicatives

≡ variables independantes, variables exogenes, predicteurs. . .Variables dont on se sert pour expliquer le phenomene a ltude.Il sagit de la cause presumee.

Variable a expliquer

≡ variable dependante, variable endogene, critere de jugement. . .Variable dont on veut expliquer la variation dans une recherche

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 7 / 66

Page 7: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Introduction Methodes statistiques - principes generaux

Statut des variables - Exemple 1

Question d’etude : les enfants ayant eu des affections chroniques decedent-ilsplus en reanimation ?

Statut : Variables explicatives

Admission et pendant sejour

surpoids : poids (Kg)Index cardiaque : petit,moyen, gdImmunodepression : oui/non. . .

Statut : Variable a expliquer

Qualitative binaire (oui/non)

Critere de jugement

Sortie de reanimation

⇒ Deces (oui/non)

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 8 / 66

Page 8: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Introduction Methodes statistiques - principes generaux

Statut des variables - Exemple 2

Question d’etude : les enfants ayant eu des affections chroniques ont-ils uneduree de sejour plus longue en reanimation ?

Statut : Variables explicatives

Admission et pendant sejour

surpoids : poids (Kg)Index cardiaque : petit,moyen, gdImmunodepression : oui/non. . .

Statut : Variable a expliquer

Quantiative

Critere de jugement

Sortie de reanimation

⇒ Duree de sejour (j)

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 9 / 66

Page 9: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Introduction Methodes statistiques - principes generaux

Pour resumer

Les methodes statistiques a employer dependent toujours du type desvariables

Pour les analyses descriptives, pas de statut

On identifie le type de chaque variableToutes les variables ont elles le meme type, ou melange ?

Pour les analyses inferentielles, au probleme pose, on associe

Des variables explicativesDes variables a expliquerOn determine le type de chaque variable

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 10 / 66

Page 10: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique descriptive multivariee Objectifs - Methodes

Objectifs principaux :

Verifier la coherence des donnees

⇒ Controle des donnees

Individus exceptionnels (en multivarie)

⇒ Controle des donnees

Etudier les liaisons (correlations) entre p variables

⇒ Formuler des hypotheses

Existence de profils dindividus differents (sur p variables = multivarie)

⇒ Formuler des hypotheses

Principales methodes

ACP : Analyse en Composantes Principales (variables uniquementquantitatives)

ACM : Analyse des Correspondances Multiples (variables uniquementqualitatives)

Analyse de classification (variables toutes quantitatives ou toutes qualitatives)

Sauf cas tres particuliers, on ne melange jamais des variables numeriques etqualitatives nominales (distance, ordre,. . . )

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 13 / 66

Page 11: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique descriptive multivariee Analyse en Composantes Principales (ACP)

Objectifs

Les variables sont toutes quantitatives

Les moyennes, variances, correlations ont un sens

Examiner la structure des donnees

Les individus se ressemblent tous ? Sous groupes dindividus ?Individus aberrants ?Quelles sont les variables correlees entre elles ?

interpreter facilement la matrice de correlation(p variables, p ∗ (p + 1)/2correlations possibles !)

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 15 / 66

Page 12: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique descriptive multivariee Analyse en Composantes Principales (ACP)

Principe de l’ACP

Si les donnees ne comportaient que 2 variables : une representation graphiquesuffirait pour repondre aux objectifs :

X1

X2 x x

x x

x x

x x x

x x

x x x

x

x

x x

x x

x

X1

X2 x

x

x x

x

x

x

x

x

x

x

x x x

x

x

x

x

x x

x x

X1

X2 x x

x x

x x

x x x

x

x x

x x

x x

x x

x x

x x

En general p variables : representationimpossible⇒ Obtenir des representations ap-prochees en dimension 2

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 16 / 66

Page 13: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique descriptive multivariee Analyse en Composantes Principales (ACP)

Principe de l’ACP

p variables ⇒ dimension p (Rp)

Obtenir des representation en dimension 2 les plus fiables possiblesCritere : conservation de la variance

=conservation de la distance entre les individus

Construction de nouvelles variables Cj qui maximisent la variance

Contraintes de simplicite : combinaisons lineaires des variables initiales

C1 = A11X1 + A1

2X2 + . . .+ A1pXp

Geometriquement

x x

x x

x

x

x

x

x

x

x

x x x

x

x

x

x

x x

x x

C

X2

X1

X X

C

Si on considere la nouvelles variableC , l’information est reconstituee de lamaniere la plus fiable possible au sensde la variance.

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 17 / 66

Page 14: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique descriptive multivariee Analyse en Composantes Principales (ACP)

Principe de l’ACP

Premiere composante principale C1 = combinaison lineaire des variablesinitiales qui maximise la variance

Deuxieme composante principale : maximise la variance et est non-correlee ala premiere composante (orthogonalite)

Et ainsi de suite . . .

Au plus p composantes principales

En realite, si liaisons entre les variables, lessentiel de linformation (lavariance) est contenue dans les (2 ou 3) premieres composantes principales

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 18 / 66

Page 15: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique descriptive multivariee Analyse en Composantes Principales (ACP)

Principe de l’ACP

Analyse des liaisons entre variables

Matrice de correlationp variables → p(p + 1)/2 correlationsLiaison 2 a 2, pas de liaisons multivariees

ACP : representation des variables : cercle des correlations (C1 et C2 sont lesdeux premieres composantes principales)

C1 ρ(C1,X3)

C2

X1 X2

X3 X4

ρ(C2,X3)

α

X5

On peut alors montrer que si desvariables sont proches de la cir-conference alors le cosinus de l’angleα est proche du coefficient decorrelation entre ces 2 variables.

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 19 / 66

Page 16: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique descriptive multivariee Analyse en Composantes Principales (ACP)

ACP : autre application

L’ACP est une procedure pour reduire la dimension

Les composantes principales peuvent etre utilisees comme des nouvellesvariables (non-correlees entre elles) resumant l’information contenue dans lesvariables initiales.

Application :

Regression : Y = β1X1 + β0, il faut au moins 2 individus pour estimer la droitede regression.Si N < p + 1 → echec des procedures de regressionSolution : regression sur les premieres composantes principales (Ex :bioinformatique)

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 20 / 66

Page 17: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique descriptive multivariee Analyse en Composantes Principales (ACP)

ACP : Exemple

Infarctus du myocarde

Variables numeriques :

Frequence cardiaqueIndex cardiaqueIndex systoliquePression diastoliquePression arterielle pulmonairePression ventriculaireResistance pulmonaire

Variable qualitative : deces

Objectifs

Verifier la coherence desdonneesIndividus exceptionnels (enmultivarie)Existence de profilsdindividus differents (sur pvariables = multivarie)Utilisation de la variabledeces comme variable”illustrative”

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 21 / 66

Page 18: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique descriptive multivariee Analyse en Composantes Principales (ACP)

ACP : Exemple

Nuage des individus

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 22 / 66

Page 19: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique descriptive multivariee Analyse en Composantes Principales (ACP)

ACP : Exemple

Nuage des individus - Ajout d’un variable illustrative (vers l’inferentiel. . . )

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 23 / 66

Page 20: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique descriptive multivariee Analyse en Composantes Principales (ACP)

ACP : Exemple

Cercle des correlations entre variables

Composante 1

Composante 2

FRCAR

PRDIA

REPUL

PAPUL

INSYS

INCAR

PVENT

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 24 / 66

Page 21: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique descriptive multivariee Analyse des Correspondances Multiples

Analyse des Correspondances Multiples (ACM)

Methode analogue a lACP mais pour les variables qualitatives

Principalement utilisee pour lanalyse des questionnaires (Psychiatrie, )Si variables binaires, equivalence entre les 2 procedures

En ACP : variables numeriques - liaisons = correlations

Cercle de correlation, des proximites sinterpretent comme des correlations

En ACM : variables qualitatives - liaisons = chi-deux

Representation des variables : des proximites sinterpretent comme des liaisonsau sens du chi-deux

Composantes de lACM : combinaisons lineaires des modalites des variablesinitiales comme en ACP

Peut etre utilisee pour transformer des variables qualitatives en numeriquespour dautres analyses exigeant des variables numeriques (classification nueesdynamiques)

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 26 / 66

Page 22: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique descriptive multivariee Analyse de classification

Objectifs - Methodes

Methodes de classification = construire des groupes dindividus

Les individus dun meme groupe sont les plus ressemblants possible sur lesvariables selon une distance

Les individus de groupes differents sont les plus dissemblables possible

Applications :

Etudier lexistence de differents phenotypes dune maladie

detection des individus aberrants ( controle des donnees),

resumer un tres gros fichier de donnees, bioinformatique,

Permettent de prendre en compte des variables toutes numeriques ou toutesqualitatives (distance euclidienne, distance du chi-deux, )

2 grandes methodes :

la classification hierarchique : partitions successives emboıtees

les nuees dynamiques : recherche directe de partition

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 28 / 66

Page 23: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique descriptive multivariee Analyse de classification

Classification hierarchique - Principe

On agrege, de maniere iterative, les individus (ou les classes) les plusressemblants (es).

On ne specifie pas le nombre de classes (il faut le determiner a partir dudendogramme = arbre)

On choisit une distance appelee indice de similarite (ressemblance entre lesindividus) qui depend de la nature des variables. Exemple : distanceeuclidienne

Il faut se donner une formule de regroupement des classes

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 29 / 66

Page 24: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique descriptive multivariee Analyse de classification

Classification hierarchique - Exemple

Analyse Medico-economique : classification des hopitaux selon leur activiteETAB CMD1 CMD2 CMD3 CMD4 CMD5 CMD6Arment 665 189 378 786 1002 1774Cambrai 1217 47 509 892 890 1189Denain 445 8 162 748 587 945Douai 1966 60 686 1852 1480 1999Dunkerq 1239 234 756 1464 1689 1532GdSynthe 289 6 131 209 698 1179Hazeb 125 13 110 157 147 441

ChuLILLE 10141 2667 3324 4233 10112 4822COL 105 8 922 369 69 445

Maubeug 1183 14 463 983 1110 1570Roubaix 1678 319 1582 2158 2062 3240Seclin 626 75 576 613 683 1661StAntoi 871 70 1686 1210 39 2759SPV 1658 61 216 1294 2970 2542

Tourcoing 1148 135 506 1184 1410 1848Tessier 188 1 31 1218 1022 1086Valenc 2570 502 1189 2170 3249 3286Arras 1367 97 735 1418 1298 1578Auchel 151 237 3 35 50 871Bethune 1743 95 606 1892 1920 1486Boulogne 1777 374 1425 1296 1857 2279Bruay 24 1 25 780 338 31Calais 1261 6 543 935 1083 1288

Fouquieres 59 0 37 17 162 1185Henin 214 12 101 941 611 606Lens 3485 480 114 3717 3389 3060

Montreuil 608 44 180 655 1045 1301Oignies 96 1 6 14 150 516StOmer 149 16 286 1087 1580 1058

CMD Libellé1 AFFECTIONS DU SYSTEME NERVEUX2 AFFECTIONS DE L'OEIL

3 AFFECTIONS DES OREILLES, DU NEZ, DE LA GORGE, DE LA BOUCHE ET DES DENTS

4 AFFECTIONS DE L'APPAREIL RESPIRATOIRE5 AFFECTIONS DE L'APPAREIL CIRCULATOIRE6 AFFECTIONS DU TUBE DIGESTIF… …

Sur representation des CMD 5 et 6⇒ Premiere etape : normalisation

des donnees par calcul des profilslignes (% d’une CMD par rapport autotal ligne)

Individus statistiques : hopitauxVariables : 23 CMD, numeriques (%)

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 30 / 66

Page 25: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique descriptive multivariee Analyse de classification

Classification hierarchique - Exemple (Dendrogramme)

Fouquieres 24 Oignies 28 SPV 14 Tessier 16 Henin 25 Bruay 22 COL 9 StAntoi 13 Arment 1 Seclin 12 Denain 3 Hazeb 7 GdSynthe 6 Roubaix 11 StOmer 29 Auchel 19 Tourcoing 15 Montreuil 27 Arras 18 Boulogne 21 Dunkerq 5 Valenc 17 Maubeug 10 Calais 23 Cambrai 2 Douai 4 Bethune 20 Lens 26 ChuLILLE 8

Petite Chirurgie

Maternité

Hôpital généraliste

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 31 / 66

Page 26: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique descriptive multivariee Analyse de classification

Classification hierarchique - Exemple (Diagramme enradar)

0.00

2.00

4.00

6.00

8.00

10.00

12.00

14.00

16.00CMD1

CMD2

CMD3

CMD4

CMD5

CMD6

CMD7

CMD8

CMD9

CMD10

CMD11

CMD12CMD13

CMD14

CMD15

CMD16

CMD17

CMD18

CMD19

CMD20

CMD21

CMD22

CMD23

C1 : Fouq, Oignies, SPV, Tessier, Henin, Bruay

C2 : Arm, Seclin, Denain, Hazeb, GrdSynt, Roub, StOmer, Auchel

C3 : Tcg, Mont, Arras, Boul, Dunk, Valenc, Maub, Calais, Camb, Douai, Beth, Lens

Total : Ensemble des Etablissements

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 32 / 66

Page 27: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique descriptive multivariee Analyse de classification

Classification par nuees dynamiques

Methode de recherche directe de partition

+++ Tres efficace pour les grands fichiers de donnees

Il faut specifier le nombre de classes

Lindice de similarite est la distance Euclidienne (variables numeriques)

Il faut que la moyenne ait un sens

Il faut etudier la stabilite des resultats (formes fortes) car depend desconditions initiales

S1

S3

S2 * *

*

S1

S3

S2

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 33 / 66

Page 28: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Objectifs - Methodes

Objectifs en recherche medicale

En recherche clinique et en epidemiologie :

Recherche de facteurs de risque (DC, rechute)Construction de score de gravite, scores pronostiques

Utilisees aussi pour ajuster les resultats de lanalyse du critere principal sur desvariables de confusion

Etudes comparatives non randomisees, etudes cas temoins

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 36 / 66

Page 29: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Objectifs - Methodes

Principales methodes

Regression multiple

Un critere numerique (variable a expliquer)

Des variables explicatives numeriques ou binaires

Analyse discriminante

Un critere qualitatif (variable a expliquer)

Des variables explicatives numeriques ou binaires

Regression logistique

Ajustement ou recherche de facteur de risque

Un critere binaire

Des variables explicatives numeriques ou binaires

Mesures repetees

les valeurs dun critere (principal ou secondaire) sont relevees a differentstemps

Analyses de survie (etudes pronostiques)

Un evenement qui peut se produire a un temps t

Des variables explicatives numeriques ou binaires

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 37 / 66

Page 30: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Regression lineaire multiple

Regression lineaire multiple - Principe

Generalisation de la correlation et de la regression lineaire simple

Lien entre une variable numerique et p variables numeriques (ou binaires)

Une variable a expliquer Y et p variables explicatives X1,X2, . . . ,Xp

Ajustement sur des facteurs de confusion : une variable explicative principalePrediction : predire la valeur de Y a partir de X1,X2, . . . ,Xp

Exemple (ajustement) :

Lien entre nombre de deces par melanome malin et latitude. Autres variables :proximite de la mer, longitude, ...Lien entre BMI et classe sociale. Autres variables = activite physique, age,

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 39 / 66

Page 31: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Regression lineaire multiple

Regression lineaire multiple - Principe

On suppose que la relation est lineaire :

Y = β0 + β1X1 + β2X2 + . . .+ βpXp + ϵ

ϵ erreur aleatoire (loi normale, moyenne nulle, variance fixee, independante desXj pour la validite des tests)Test global = correlation multiple significativePermet ltude de la correlation entre Y et Xj en tenant compte des autresvariables = correlations partielles

Y

X1

X2

Moyenne d’une V.A. continueX ∼ L(µ,σ2)

Attention analyse complete = tests de liaison + validite du modele

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 40 / 66

Page 32: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Regression lineaire multiple

Regression lineaire multiple - Ajustement

Publicite sur un produit amaigrissant (stimulant du metabolisme =dosestimul)

Lien avec perte de poids (apres avant) ?

Facteur de confusion (voire preponderant !) = duree activite sportive(exercice)

Correlations bivariees puis regression multiple

Corrélations

-.551** -.717**.005 .000

24 24

Corrélation de PearsonSig. (bilatérale)N

Pertepoidsdosestimul EXERCICE

La corrélation est significative au niveau 0.01 (bilatéral).**.

Coefficientsa

-1.221 .959 -1.273 .217-8.69E-03 .004 -.305 -1.986 .060

-.525 .136 -.590 -3.845 .001

(constante)dosestimulEXERCICE

Modèle1

BErreur

standard

Coefficients nonstandardisés

Bêta

Coefficients

standardisés

t Signification

Variable dépendante : Pertepoidsa.

Les deux correlations lineaires simplessont significatives

Regression lineaire multiple : seul”exercice” est significative

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 41 / 66

Page 33: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Analyse discriminante

Principe de la discrimination en statistique

On cherche a predire une variable qualitative qui definit k groupes

La variable qualitative est appelee ”variable a expliquer”

Exemple : differents diagnostics a partir de variables socio-demographiqueset/ou cliniques ou et/ou biologiques

On veut construire des regles a partir de ces variables qui permettent declasser les individus dans les groupes

Aide a la decision : aide au diagnostic

Exemple hors medecine : credit scoring

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 43 / 66

Page 34: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Analyse discriminante

Differentes methodes de discrimination

Differentes methodes en fonction

Du nombre de groupes a predire (variable a expliquer)

Du type des variables explicatives (melange de differents types ou non)

Du nombre de variables explicatives

De la facilite dinterpretation souhaitee

En medecine on utilise plus frequemment

Lanalyse factorielle discriminante (k groupes (k ≥ 3) variables explicativesnumeriques ou binaires)

La regression logistique (2 groupes variables numeriques ou binaires)

Les arbres de decision (k groupes (k ≥ 3), melange de variables, adapte auxgrands echantillons)

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 44 / 66

Page 35: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Analyse discriminante

Analyse Factorielle Discriminante (AFD)

k (k ≥ 3) groupes, variables explicatives numeriques ou binaires

Si variables qualitatives, les transformer en variables binaires

La methode identifie des nouvelles variables qui predisent le mieux possibleles groupes

Ce sont les combinaisons lineaires des variables initiales

Ce sont des scores comme ceux employes frequemment en medecine

Modele facile a interpreter (explicatif) on peut donner un sens clinique auxscores discriminants

On dispose de graphiques pour visualiser la qualite de la separation desgroupes par les scores

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 45 / 66

Page 36: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Analyse discriminante

AFD - Exemple

Septicemie : antibiotherapie durgence

Peut-on predire le type de germe a partir de donnees cliniques dentree enattendant la bacteriologie ?

Groupes bacterien de sensibilite voisine (GBSV : 11 groupes)

Exemple pour les groupes

Ampicilline sensibleSalmonelleBacille gramme negatif

Construire un systeme daide a la decision pour predire le type de GBSV etameliorer lantibiotherapie durgence

28 Variables cliniques binaires :

acquisition hospitaliere, portes dentree, tumeur, chimiotherapie, choc, BPCO,syndrome dysenterique, meningite, endocardite, diabete, insuffisance renale,antibio anterieure, pyelonephrite, arterite,

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 46 / 66

Page 37: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Analyse discriminante

AFD - Exemple

Analyse discriminante GBSV

-6

-5

-4

-3

-2

-1

0

1

2

3

4

-8 -6 -4 -2 0 2 4 6

axe2

axe 1

AMPI_S"Salmonelle""BGN_Hospi"

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 47 / 66

Page 38: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Regression logistique

Regression logistique - Principe

Methode de discrimination particuliere

2 groupes : exemple deces oui/non

Score discriminant (comme AFD) + estimation de la probabilite dappartenira lun des groupesCette particularitepeut etre tres utile

Score de mortalite probabilite de deces estimeeAutre domaine : credit scoring

Autre avantage : les coefficients du score sont interpretables en terme deliaison avec la variable a expliquer (deces)

Modele logistique

F (X ) frequence dune maladie enfonction dune dose dexposition

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 49 / 66

Page 39: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Regression logistique

Regression logistique - Principales applications

Discrimination (2 groupes)

Construction de scores de risque (mortalite gravite)

Pour servir de criteres dajustement dans les essaisPour servir de critere de jugement

Ajustement (epidemiologie)

Analogue a lajustement par regression multiple mais ici la variable a expliquerest binaire

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 50 / 66

Page 40: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Regression logistique

Regression logistique - Exemple d’ajustement

Le critere de jugement est binaire, mais il faut ajuster sur des covariables

Exemple : obesite (oui/non) en fonction de la classe sociale

High Medium Low p

n (% ) 221 (25,4) 372 (42,8) 277 (31,3)

age (sd) 40.51 (13.1) 40.01 (13.9) 44.32 (15,0) 0.0004 (++)

Obesity% 3.7 10.5 11.9 p=0.004 (**)

Lge est peut etre un facteur de confusion : les sujets sont plus ages chezLow et il existe plus dobeses chez les sujets plus ages (donnees non fournies)

⇒ Ajuster :Obesite = f (classe sociale ET age)

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 51 / 66

Page 41: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Regression logistique

Regression logistique - Exemple d’ajustement

Obesite en fonction de la classe dge

Low 11.9% ; Medium : 10.5% ; High : 3.7% (p=0.004 sans ajustement)

Obesite en fonction de la classe sociale en ajustant sur lge

Variables p OR 95% CI

posocial 0.02

medium vs low 0.8295 1.057 0.63 - 1.76high vs low 0.0068 0.33 0.15-0.74

age <.0001 1.044 1.03 - 1.06

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 52 / 66

Page 42: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Mesures repetees

Exemple frequent en recherche clinique : les mesures repetees

les valeurs dun critere (principal ou secondaire) sont relevees a differentstemps

On veut tester lvolution et non une valeur ponctuelle

lvolution dans un groupe donne est-elle statistiquement significative ?

lvolution est-elle differente selon des groupes ?

Critere numerique : modele lineaire mixte

Cas particulier : 2 mesures

avant traitement / apres traitement sur critere numerique : test de Studentapparie

Le modele mixte generalise ce test aux cas de plus de 2 mesures

Critere qualitatif : modele lineaire mixte generalise

Cas particulier : 2 mesures dun critere binaire

avant traitement /apres traitement sur critere binaire : Chi-deux de McNeymar

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 54 / 66

Page 43: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Mesures repetees

Critere numerique - methodes statistiques adequates :

Tenir compte de la correlation entre les mesures prises sur un meme patientet modeliser cette correlation

V1 V2 V3 V4 V5 ρ(X1,X2) > ρ(X1,X5)

Les visites sont a des temps fixes equidistants (V1=1 mois, V2=2mois, etc)ou non.

Nombre de mesures different selon les patients (valeurs manquantes)

Sujets V1 V2 V31 x x x2 x ? x3 x x ?

Les temps de mesure peuvent etre differents pour tous les sujets : regressionpar rapport au temps.

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 55 / 66

Page 44: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Mesures repetees

Le critere de jugement est lvolution dun parametre numerique

Exemple

2 methodes de chirurgie coronarienne chez des patients diabetiques (groupesCPB et OP)Essai randomise prospectifCritere principal : evolution de la microalbuminurie entre J1 et J5.Critere secondaire : clairance de la creatinine

⇒ Diminution plus rapide de la mi-croalbuminurie dans le groupe OP(p=0.003)

Methode moderne : tenir compte descorrelations entre les mesures, tenircompte de toutes les observations, te-nir compte de possibles instants demesure differents

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 56 / 66

Page 45: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Analyse de survie

Critere a analyser = apparition dun evenement au cours du temps.Evenement = variable binaire.

DC (O/N) mais aussi recidive (O/N), survie dune prothese, dun greffonEtudes randomisees (critere DC) recherche de facteurs pronostiques2 specificites : prise en compte du temps (1) et des donnees censurees (2)

(1) Prise en compte du temps (delai dapparition de lvenement)

5 ans

G1

G2 S(t)

t

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 58 / 66

Page 46: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Analyse de survie

(2) Prise en compte de toutes les observations : celles pour lesquelleslvenement est apparu ET celles pour lesquelles lvenement nest pas apparu

Lvenement na pas encore ete observe au moment de ltude (DC)Lvenement peut ne pas se produire pour certains individusCes 2 types de donnees = donnee censurees.

La methode prend en compte ces observations dans les calculs

Exemple : vaccin HB ; N=100 sur 1 an

10HB, 10 perdus de vue % dHB a un an nest ni 10/100, ni 10/90

DO

Temps

DP DDN

TP

DO

Temps

DPDDN

TP Vivant

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 59 / 66

Page 47: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Analyse de survie

Applications

temps

% de survie 1

% de survie

temps

1

Groupe 1

Groupe 2

Analyse descriptive = courbes de survie

Analyses comparatives = comparaisons de courbes de survie

Etude de facteurs pronostiques (etude multifactorielles)

Construction de modeles predictifs

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 60 / 66

Page 48: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Analyse de survie

Methode de Kaplan Meier

une seule population ou k populations definies selon une seule variablequalitative

Estimation de la courbe de survie

Comparaison par test du Log-Rank

Si plusieurs variables a prendre en compte :

Il faut choisir un modele (comme en regression)

Methode la plus utilisee : modele de COX

h(t) = h0(t) exp(a∗1X1 + . . . a∗j Xj + . . .+ a∗pXp)

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 61 / 66

Page 49: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Statistique inferentielle multivariee Analyse de survie

Exemple :

Construction dun score pronostique dans la maladie de Waldenstrom (Blood 2009)

Survival Time in Years

Pro

po

rtio

n s

urv

ivin

g

0 5 10 15

0.0

0.2

0.4

0.6

0.8

1.0

Survival Time in Years

Pro

po

rtio

n s

urv

ivin

g0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0

0.0

0.2

0.4

0.6

0.8

1.0

(p= 0 )

2682031487295135170203

1322314978105125142173193216

25324350638696110133151155Low

Int

High

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 62 / 66

Page 50: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Approfondissements

Approfondissements : M2 parcours E

Journee thematique Modeles de regression

Modele lineaire et analyse de la variance

Analyse des mesures repetees : modele lineaire mixte

Journee thematique Analyses de survie

Analyses multivariees par le Modele de Cox

Validite du modele : Analyse des residus

Plusieurs evenements par sujet

Journee thematique Methode fouille de donnees

Methodologie danalyse des grandes bases de donnees en sante

Arbres de decision

Classifications

Gestion des donnees manquantes dans les analyses mutlivariees

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 64 / 66

Page 51: Les statistiques dans la recherche médicale - Méthodes ...cerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael... · EA 2694 - Sant e Publique : Epid emiologie et Qualit

Contacts

Des questions ?

.

......

Alain Duhamel - MRRC - [email protected] Devos - Delegation a la Recherche - [email protected] Labreuche - MRRC - [email protected] Genin - CERIM / EA 2694 - [email protected]

Possibilite de RDV le Mardi AM ou Jeudi AM (ou autre si necessaire)Contacter

.

......

Mme BonneauMaison Regionale de la Recherche Clinique (MRRC)Tel : 03-20-44-55-18

M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 66 / 66