Upload
nguyenthuan
View
215
Download
0
Embed Size (px)
Citation preview
.
......
Les statistiques dans la recherche medicaleMethodes statistiques multivariees
Michael Genin, Alain Duhamel, Patrick Devos
Universite de Lille 2EA 2694 - Sante Publique : Epidemiologie et Qualite des soins
Plan
...1 Introduction
...2 Statistique descriptive multivariee
...3 Statistique inferentielle multivariee
...4 Approfondissements
...5 Contacts
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 1 / 66
Introduction
Precedemment. . .
Definition de la statistique, echantillonnage
Principe du test statistique
Nombre de sujets necessaires
Traitements statistiques
Statistiques descriptives univarieesTests de comparaison de groupes usuels
Aujourd’hui :
Analyses descriptives multivariees
Analyses inferentielles multivariees
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 3 / 66
Introduction Methodes statistiques - principes generaux
Differents types de statistique
La statistique
Inférentielle
Descriptive
Multivariée (ACP, …)
Univariée (moyenne, DS, …)
Multivariée (modèles, …)
Univariée (tests, …)
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 5 / 66
Introduction Methodes statistiques - principes generaux
Differents types de variables
Variables Quantitatives
Variables quantitatives continues (age, poids, taille,)Variables quantitatives discretes (ne peuvent prendre qu’un nombre limite devaleurs. ex : nombre de personnes dans un foyer)
Variables Qualitatives
Variables qualitatives binaires (sexe : Masculin / Feminin)Variables qualitatives nominales (Couleurs des yeux : marrons, bleus, verts,gris)Variables qualitatives ordinales (Appreciation : Mauvais, Passable, Bien, Tresbien, Excellent)
Toujours decrire les donnees avant de faire les analyses inferentielles (tests)
Pour decrire les echantillons et verifier leur representativite mais aussi
Pour le controle de qualite des donnees : individus aberrants, valeursmanquantes
Pour choisir les tests adaptes aux distributions (”lois”) des variables
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 6 / 66
Introduction Methodes statistiques - principes generaux
Dans le cadre des methodes statistiques inferentielles :
Une variable est definie par
son type (quantitative, qualitative)
son statut (++)
2 statuts possibles :
Variables explicatives
≡ variables independantes, variables exogenes, predicteurs. . .Variables dont on se sert pour expliquer le phenomene a ltude.Il sagit de la cause presumee.
Variable a expliquer
≡ variable dependante, variable endogene, critere de jugement. . .Variable dont on veut expliquer la variation dans une recherche
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 7 / 66
Introduction Methodes statistiques - principes generaux
Statut des variables - Exemple 1
Question d’etude : les enfants ayant eu des affections chroniques decedent-ilsplus en reanimation ?
Statut : Variables explicatives
Admission et pendant sejour
surpoids : poids (Kg)Index cardiaque : petit,moyen, gdImmunodepression : oui/non. . .
Statut : Variable a expliquer
Qualitative binaire (oui/non)
Critere de jugement
Sortie de reanimation
⇒ Deces (oui/non)
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 8 / 66
Introduction Methodes statistiques - principes generaux
Statut des variables - Exemple 2
Question d’etude : les enfants ayant eu des affections chroniques ont-ils uneduree de sejour plus longue en reanimation ?
Statut : Variables explicatives
Admission et pendant sejour
surpoids : poids (Kg)Index cardiaque : petit,moyen, gdImmunodepression : oui/non. . .
Statut : Variable a expliquer
Quantiative
Critere de jugement
Sortie de reanimation
⇒ Duree de sejour (j)
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 9 / 66
Introduction Methodes statistiques - principes generaux
Pour resumer
Les methodes statistiques a employer dependent toujours du type desvariables
Pour les analyses descriptives, pas de statut
On identifie le type de chaque variableToutes les variables ont elles le meme type, ou melange ?
Pour les analyses inferentielles, au probleme pose, on associe
Des variables explicativesDes variables a expliquerOn determine le type de chaque variable
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 10 / 66
Statistique descriptive multivariee Objectifs - Methodes
Objectifs principaux :
Verifier la coherence des donnees
⇒ Controle des donnees
Individus exceptionnels (en multivarie)
⇒ Controle des donnees
Etudier les liaisons (correlations) entre p variables
⇒ Formuler des hypotheses
Existence de profils dindividus differents (sur p variables = multivarie)
⇒ Formuler des hypotheses
Principales methodes
ACP : Analyse en Composantes Principales (variables uniquementquantitatives)
ACM : Analyse des Correspondances Multiples (variables uniquementqualitatives)
Analyse de classification (variables toutes quantitatives ou toutes qualitatives)
Sauf cas tres particuliers, on ne melange jamais des variables numeriques etqualitatives nominales (distance, ordre,. . . )
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 13 / 66
Statistique descriptive multivariee Analyse en Composantes Principales (ACP)
Objectifs
Les variables sont toutes quantitatives
Les moyennes, variances, correlations ont un sens
Examiner la structure des donnees
Les individus se ressemblent tous ? Sous groupes dindividus ?Individus aberrants ?Quelles sont les variables correlees entre elles ?
interpreter facilement la matrice de correlation(p variables, p ∗ (p + 1)/2correlations possibles !)
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 15 / 66
Statistique descriptive multivariee Analyse en Composantes Principales (ACP)
Principe de l’ACP
Si les donnees ne comportaient que 2 variables : une representation graphiquesuffirait pour repondre aux objectifs :
X1
X2 x x
x x
x x
x x x
x x
x x x
x
x
x x
x x
x
X1
X2 x
x
x x
x
x
x
x
x
x
x
x x x
x
x
x
x
x x
x x
X1
X2 x x
x x
x x
x x x
x
x x
x x
x x
x x
x x
x x
En general p variables : representationimpossible⇒ Obtenir des representations ap-prochees en dimension 2
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 16 / 66
Statistique descriptive multivariee Analyse en Composantes Principales (ACP)
Principe de l’ACP
p variables ⇒ dimension p (Rp)
Obtenir des representation en dimension 2 les plus fiables possiblesCritere : conservation de la variance
=conservation de la distance entre les individus
Construction de nouvelles variables Cj qui maximisent la variance
Contraintes de simplicite : combinaisons lineaires des variables initiales
C1 = A11X1 + A1
2X2 + . . .+ A1pXp
Geometriquement
x x
x x
x
x
x
x
x
x
x
x x x
x
x
x
x
x x
x x
C
X2
X1
X X
C
Si on considere la nouvelles variableC , l’information est reconstituee de lamaniere la plus fiable possible au sensde la variance.
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 17 / 66
Statistique descriptive multivariee Analyse en Composantes Principales (ACP)
Principe de l’ACP
Premiere composante principale C1 = combinaison lineaire des variablesinitiales qui maximise la variance
Deuxieme composante principale : maximise la variance et est non-correlee ala premiere composante (orthogonalite)
Et ainsi de suite . . .
Au plus p composantes principales
En realite, si liaisons entre les variables, lessentiel de linformation (lavariance) est contenue dans les (2 ou 3) premieres composantes principales
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 18 / 66
Statistique descriptive multivariee Analyse en Composantes Principales (ACP)
Principe de l’ACP
Analyse des liaisons entre variables
Matrice de correlationp variables → p(p + 1)/2 correlationsLiaison 2 a 2, pas de liaisons multivariees
ACP : representation des variables : cercle des correlations (C1 et C2 sont lesdeux premieres composantes principales)
C1 ρ(C1,X3)
C2
X1 X2
X3 X4
ρ(C2,X3)
α
X5
On peut alors montrer que si desvariables sont proches de la cir-conference alors le cosinus de l’angleα est proche du coefficient decorrelation entre ces 2 variables.
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 19 / 66
Statistique descriptive multivariee Analyse en Composantes Principales (ACP)
ACP : autre application
L’ACP est une procedure pour reduire la dimension
Les composantes principales peuvent etre utilisees comme des nouvellesvariables (non-correlees entre elles) resumant l’information contenue dans lesvariables initiales.
Application :
Regression : Y = β1X1 + β0, il faut au moins 2 individus pour estimer la droitede regression.Si N < p + 1 → echec des procedures de regressionSolution : regression sur les premieres composantes principales (Ex :bioinformatique)
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 20 / 66
Statistique descriptive multivariee Analyse en Composantes Principales (ACP)
ACP : Exemple
Infarctus du myocarde
Variables numeriques :
Frequence cardiaqueIndex cardiaqueIndex systoliquePression diastoliquePression arterielle pulmonairePression ventriculaireResistance pulmonaire
Variable qualitative : deces
Objectifs
Verifier la coherence desdonneesIndividus exceptionnels (enmultivarie)Existence de profilsdindividus differents (sur pvariables = multivarie)Utilisation de la variabledeces comme variable”illustrative”
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 21 / 66
Statistique descriptive multivariee Analyse en Composantes Principales (ACP)
ACP : Exemple
Nuage des individus
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 22 / 66
Statistique descriptive multivariee Analyse en Composantes Principales (ACP)
ACP : Exemple
Nuage des individus - Ajout d’un variable illustrative (vers l’inferentiel. . . )
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 23 / 66
Statistique descriptive multivariee Analyse en Composantes Principales (ACP)
ACP : Exemple
Cercle des correlations entre variables
Composante 1
Composante 2
FRCAR
PRDIA
REPUL
PAPUL
INSYS
INCAR
PVENT
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 24 / 66
Statistique descriptive multivariee Analyse des Correspondances Multiples
Analyse des Correspondances Multiples (ACM)
Methode analogue a lACP mais pour les variables qualitatives
Principalement utilisee pour lanalyse des questionnaires (Psychiatrie, )Si variables binaires, equivalence entre les 2 procedures
En ACP : variables numeriques - liaisons = correlations
Cercle de correlation, des proximites sinterpretent comme des correlations
En ACM : variables qualitatives - liaisons = chi-deux
Representation des variables : des proximites sinterpretent comme des liaisonsau sens du chi-deux
Composantes de lACM : combinaisons lineaires des modalites des variablesinitiales comme en ACP
Peut etre utilisee pour transformer des variables qualitatives en numeriquespour dautres analyses exigeant des variables numeriques (classification nueesdynamiques)
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 26 / 66
Statistique descriptive multivariee Analyse de classification
Objectifs - Methodes
Methodes de classification = construire des groupes dindividus
Les individus dun meme groupe sont les plus ressemblants possible sur lesvariables selon une distance
Les individus de groupes differents sont les plus dissemblables possible
Applications :
Etudier lexistence de differents phenotypes dune maladie
detection des individus aberrants ( controle des donnees),
resumer un tres gros fichier de donnees, bioinformatique,
Permettent de prendre en compte des variables toutes numeriques ou toutesqualitatives (distance euclidienne, distance du chi-deux, )
2 grandes methodes :
la classification hierarchique : partitions successives emboıtees
les nuees dynamiques : recherche directe de partition
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 28 / 66
Statistique descriptive multivariee Analyse de classification
Classification hierarchique - Principe
On agrege, de maniere iterative, les individus (ou les classes) les plusressemblants (es).
On ne specifie pas le nombre de classes (il faut le determiner a partir dudendogramme = arbre)
On choisit une distance appelee indice de similarite (ressemblance entre lesindividus) qui depend de la nature des variables. Exemple : distanceeuclidienne
Il faut se donner une formule de regroupement des classes
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 29 / 66
Statistique descriptive multivariee Analyse de classification
Classification hierarchique - Exemple
Analyse Medico-economique : classification des hopitaux selon leur activiteETAB CMD1 CMD2 CMD3 CMD4 CMD5 CMD6Arment 665 189 378 786 1002 1774Cambrai 1217 47 509 892 890 1189Denain 445 8 162 748 587 945Douai 1966 60 686 1852 1480 1999Dunkerq 1239 234 756 1464 1689 1532GdSynthe 289 6 131 209 698 1179Hazeb 125 13 110 157 147 441
ChuLILLE 10141 2667 3324 4233 10112 4822COL 105 8 922 369 69 445
Maubeug 1183 14 463 983 1110 1570Roubaix 1678 319 1582 2158 2062 3240Seclin 626 75 576 613 683 1661StAntoi 871 70 1686 1210 39 2759SPV 1658 61 216 1294 2970 2542
Tourcoing 1148 135 506 1184 1410 1848Tessier 188 1 31 1218 1022 1086Valenc 2570 502 1189 2170 3249 3286Arras 1367 97 735 1418 1298 1578Auchel 151 237 3 35 50 871Bethune 1743 95 606 1892 1920 1486Boulogne 1777 374 1425 1296 1857 2279Bruay 24 1 25 780 338 31Calais 1261 6 543 935 1083 1288
Fouquieres 59 0 37 17 162 1185Henin 214 12 101 941 611 606Lens 3485 480 114 3717 3389 3060
Montreuil 608 44 180 655 1045 1301Oignies 96 1 6 14 150 516StOmer 149 16 286 1087 1580 1058
CMD Libellé1 AFFECTIONS DU SYSTEME NERVEUX2 AFFECTIONS DE L'OEIL
3 AFFECTIONS DES OREILLES, DU NEZ, DE LA GORGE, DE LA BOUCHE ET DES DENTS
4 AFFECTIONS DE L'APPAREIL RESPIRATOIRE5 AFFECTIONS DE L'APPAREIL CIRCULATOIRE6 AFFECTIONS DU TUBE DIGESTIF… …
Sur representation des CMD 5 et 6⇒ Premiere etape : normalisation
des donnees par calcul des profilslignes (% d’une CMD par rapport autotal ligne)
Individus statistiques : hopitauxVariables : 23 CMD, numeriques (%)
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 30 / 66
Statistique descriptive multivariee Analyse de classification
Classification hierarchique - Exemple (Dendrogramme)
Fouquieres 24 Oignies 28 SPV 14 Tessier 16 Henin 25 Bruay 22 COL 9 StAntoi 13 Arment 1 Seclin 12 Denain 3 Hazeb 7 GdSynthe 6 Roubaix 11 StOmer 29 Auchel 19 Tourcoing 15 Montreuil 27 Arras 18 Boulogne 21 Dunkerq 5 Valenc 17 Maubeug 10 Calais 23 Cambrai 2 Douai 4 Bethune 20 Lens 26 ChuLILLE 8
Petite Chirurgie
Maternité
Hôpital généraliste
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 31 / 66
Statistique descriptive multivariee Analyse de classification
Classification hierarchique - Exemple (Diagramme enradar)
0.00
2.00
4.00
6.00
8.00
10.00
12.00
14.00
16.00CMD1
CMD2
CMD3
CMD4
CMD5
CMD6
CMD7
CMD8
CMD9
CMD10
CMD11
CMD12CMD13
CMD14
CMD15
CMD16
CMD17
CMD18
CMD19
CMD20
CMD21
CMD22
CMD23
C1 : Fouq, Oignies, SPV, Tessier, Henin, Bruay
C2 : Arm, Seclin, Denain, Hazeb, GrdSynt, Roub, StOmer, Auchel
C3 : Tcg, Mont, Arras, Boul, Dunk, Valenc, Maub, Calais, Camb, Douai, Beth, Lens
Total : Ensemble des Etablissements
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 32 / 66
Statistique descriptive multivariee Analyse de classification
Classification par nuees dynamiques
Methode de recherche directe de partition
+++ Tres efficace pour les grands fichiers de donnees
Il faut specifier le nombre de classes
Lindice de similarite est la distance Euclidienne (variables numeriques)
Il faut que la moyenne ait un sens
Il faut etudier la stabilite des resultats (formes fortes) car depend desconditions initiales
S1
S3
S2 * *
*
S1
S3
S2
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 33 / 66
Statistique inferentielle multivariee Objectifs - Methodes
Objectifs en recherche medicale
En recherche clinique et en epidemiologie :
Recherche de facteurs de risque (DC, rechute)Construction de score de gravite, scores pronostiques
Utilisees aussi pour ajuster les resultats de lanalyse du critere principal sur desvariables de confusion
Etudes comparatives non randomisees, etudes cas temoins
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 36 / 66
Statistique inferentielle multivariee Objectifs - Methodes
Principales methodes
Regression multiple
Un critere numerique (variable a expliquer)
Des variables explicatives numeriques ou binaires
Analyse discriminante
Un critere qualitatif (variable a expliquer)
Des variables explicatives numeriques ou binaires
Regression logistique
Ajustement ou recherche de facteur de risque
Un critere binaire
Des variables explicatives numeriques ou binaires
Mesures repetees
les valeurs dun critere (principal ou secondaire) sont relevees a differentstemps
Analyses de survie (etudes pronostiques)
Un evenement qui peut se produire a un temps t
Des variables explicatives numeriques ou binaires
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 37 / 66
Statistique inferentielle multivariee Regression lineaire multiple
Regression lineaire multiple - Principe
Generalisation de la correlation et de la regression lineaire simple
Lien entre une variable numerique et p variables numeriques (ou binaires)
Une variable a expliquer Y et p variables explicatives X1,X2, . . . ,Xp
Ajustement sur des facteurs de confusion : une variable explicative principalePrediction : predire la valeur de Y a partir de X1,X2, . . . ,Xp
Exemple (ajustement) :
Lien entre nombre de deces par melanome malin et latitude. Autres variables :proximite de la mer, longitude, ...Lien entre BMI et classe sociale. Autres variables = activite physique, age,
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 39 / 66
Statistique inferentielle multivariee Regression lineaire multiple
Regression lineaire multiple - Principe
On suppose que la relation est lineaire :
Y = β0 + β1X1 + β2X2 + . . .+ βpXp + ϵ
ϵ erreur aleatoire (loi normale, moyenne nulle, variance fixee, independante desXj pour la validite des tests)Test global = correlation multiple significativePermet ltude de la correlation entre Y et Xj en tenant compte des autresvariables = correlations partielles
Y
X1
X2
Moyenne d’une V.A. continueX ∼ L(µ,σ2)
Attention analyse complete = tests de liaison + validite du modele
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 40 / 66
Statistique inferentielle multivariee Regression lineaire multiple
Regression lineaire multiple - Ajustement
Publicite sur un produit amaigrissant (stimulant du metabolisme =dosestimul)
Lien avec perte de poids (apres avant) ?
Facteur de confusion (voire preponderant !) = duree activite sportive(exercice)
Correlations bivariees puis regression multiple
Corrélations
-.551** -.717**.005 .000
24 24
Corrélation de PearsonSig. (bilatérale)N
Pertepoidsdosestimul EXERCICE
La corrélation est significative au niveau 0.01 (bilatéral).**.
Coefficientsa
-1.221 .959 -1.273 .217-8.69E-03 .004 -.305 -1.986 .060
-.525 .136 -.590 -3.845 .001
(constante)dosestimulEXERCICE
Modèle1
BErreur
standard
Coefficients nonstandardisés
Bêta
Coefficients
standardisés
t Signification
Variable dépendante : Pertepoidsa.
Les deux correlations lineaires simplessont significatives
Regression lineaire multiple : seul”exercice” est significative
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 41 / 66
Statistique inferentielle multivariee Analyse discriminante
Principe de la discrimination en statistique
On cherche a predire une variable qualitative qui definit k groupes
La variable qualitative est appelee ”variable a expliquer”
Exemple : differents diagnostics a partir de variables socio-demographiqueset/ou cliniques ou et/ou biologiques
On veut construire des regles a partir de ces variables qui permettent declasser les individus dans les groupes
Aide a la decision : aide au diagnostic
Exemple hors medecine : credit scoring
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 43 / 66
Statistique inferentielle multivariee Analyse discriminante
Differentes methodes de discrimination
Differentes methodes en fonction
Du nombre de groupes a predire (variable a expliquer)
Du type des variables explicatives (melange de differents types ou non)
Du nombre de variables explicatives
De la facilite dinterpretation souhaitee
En medecine on utilise plus frequemment
Lanalyse factorielle discriminante (k groupes (k ≥ 3) variables explicativesnumeriques ou binaires)
La regression logistique (2 groupes variables numeriques ou binaires)
Les arbres de decision (k groupes (k ≥ 3), melange de variables, adapte auxgrands echantillons)
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 44 / 66
Statistique inferentielle multivariee Analyse discriminante
Analyse Factorielle Discriminante (AFD)
k (k ≥ 3) groupes, variables explicatives numeriques ou binaires
Si variables qualitatives, les transformer en variables binaires
La methode identifie des nouvelles variables qui predisent le mieux possibleles groupes
Ce sont les combinaisons lineaires des variables initiales
Ce sont des scores comme ceux employes frequemment en medecine
Modele facile a interpreter (explicatif) on peut donner un sens clinique auxscores discriminants
On dispose de graphiques pour visualiser la qualite de la separation desgroupes par les scores
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 45 / 66
Statistique inferentielle multivariee Analyse discriminante
AFD - Exemple
Septicemie : antibiotherapie durgence
Peut-on predire le type de germe a partir de donnees cliniques dentree enattendant la bacteriologie ?
Groupes bacterien de sensibilite voisine (GBSV : 11 groupes)
Exemple pour les groupes
Ampicilline sensibleSalmonelleBacille gramme negatif
Construire un systeme daide a la decision pour predire le type de GBSV etameliorer lantibiotherapie durgence
28 Variables cliniques binaires :
acquisition hospitaliere, portes dentree, tumeur, chimiotherapie, choc, BPCO,syndrome dysenterique, meningite, endocardite, diabete, insuffisance renale,antibio anterieure, pyelonephrite, arterite,
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 46 / 66
Statistique inferentielle multivariee Analyse discriminante
AFD - Exemple
Analyse discriminante GBSV
-6
-5
-4
-3
-2
-1
0
1
2
3
4
-8 -6 -4 -2 0 2 4 6
axe2
axe 1
AMPI_S"Salmonelle""BGN_Hospi"
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 47 / 66
Statistique inferentielle multivariee Regression logistique
Regression logistique - Principe
Methode de discrimination particuliere
2 groupes : exemple deces oui/non
Score discriminant (comme AFD) + estimation de la probabilite dappartenira lun des groupesCette particularitepeut etre tres utile
Score de mortalite probabilite de deces estimeeAutre domaine : credit scoring
Autre avantage : les coefficients du score sont interpretables en terme deliaison avec la variable a expliquer (deces)
Modele logistique
F (X ) frequence dune maladie enfonction dune dose dexposition
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 49 / 66
Statistique inferentielle multivariee Regression logistique
Regression logistique - Principales applications
Discrimination (2 groupes)
Construction de scores de risque (mortalite gravite)
Pour servir de criteres dajustement dans les essaisPour servir de critere de jugement
Ajustement (epidemiologie)
Analogue a lajustement par regression multiple mais ici la variable a expliquerest binaire
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 50 / 66
Statistique inferentielle multivariee Regression logistique
Regression logistique - Exemple d’ajustement
Le critere de jugement est binaire, mais il faut ajuster sur des covariables
Exemple : obesite (oui/non) en fonction de la classe sociale
High Medium Low p
n (% ) 221 (25,4) 372 (42,8) 277 (31,3)
age (sd) 40.51 (13.1) 40.01 (13.9) 44.32 (15,0) 0.0004 (++)
Obesity% 3.7 10.5 11.9 p=0.004 (**)
Lge est peut etre un facteur de confusion : les sujets sont plus ages chezLow et il existe plus dobeses chez les sujets plus ages (donnees non fournies)
⇒ Ajuster :Obesite = f (classe sociale ET age)
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 51 / 66
Statistique inferentielle multivariee Regression logistique
Regression logistique - Exemple d’ajustement
Obesite en fonction de la classe dge
Low 11.9% ; Medium : 10.5% ; High : 3.7% (p=0.004 sans ajustement)
Obesite en fonction de la classe sociale en ajustant sur lge
Variables p OR 95% CI
posocial 0.02
medium vs low 0.8295 1.057 0.63 - 1.76high vs low 0.0068 0.33 0.15-0.74
age <.0001 1.044 1.03 - 1.06
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 52 / 66
Statistique inferentielle multivariee Mesures repetees
Exemple frequent en recherche clinique : les mesures repetees
les valeurs dun critere (principal ou secondaire) sont relevees a differentstemps
On veut tester lvolution et non une valeur ponctuelle
lvolution dans un groupe donne est-elle statistiquement significative ?
lvolution est-elle differente selon des groupes ?
Critere numerique : modele lineaire mixte
Cas particulier : 2 mesures
avant traitement / apres traitement sur critere numerique : test de Studentapparie
Le modele mixte generalise ce test aux cas de plus de 2 mesures
Critere qualitatif : modele lineaire mixte generalise
Cas particulier : 2 mesures dun critere binaire
avant traitement /apres traitement sur critere binaire : Chi-deux de McNeymar
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 54 / 66
Statistique inferentielle multivariee Mesures repetees
Critere numerique - methodes statistiques adequates :
Tenir compte de la correlation entre les mesures prises sur un meme patientet modeliser cette correlation
V1 V2 V3 V4 V5 ρ(X1,X2) > ρ(X1,X5)
Les visites sont a des temps fixes equidistants (V1=1 mois, V2=2mois, etc)ou non.
Nombre de mesures different selon les patients (valeurs manquantes)
Sujets V1 V2 V31 x x x2 x ? x3 x x ?
Les temps de mesure peuvent etre differents pour tous les sujets : regressionpar rapport au temps.
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 55 / 66
Statistique inferentielle multivariee Mesures repetees
Le critere de jugement est lvolution dun parametre numerique
Exemple
2 methodes de chirurgie coronarienne chez des patients diabetiques (groupesCPB et OP)Essai randomise prospectifCritere principal : evolution de la microalbuminurie entre J1 et J5.Critere secondaire : clairance de la creatinine
⇒ Diminution plus rapide de la mi-croalbuminurie dans le groupe OP(p=0.003)
Methode moderne : tenir compte descorrelations entre les mesures, tenircompte de toutes les observations, te-nir compte de possibles instants demesure differents
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 56 / 66
Statistique inferentielle multivariee Analyse de survie
Critere a analyser = apparition dun evenement au cours du temps.Evenement = variable binaire.
DC (O/N) mais aussi recidive (O/N), survie dune prothese, dun greffonEtudes randomisees (critere DC) recherche de facteurs pronostiques2 specificites : prise en compte du temps (1) et des donnees censurees (2)
(1) Prise en compte du temps (delai dapparition de lvenement)
5 ans
G1
G2 S(t)
t
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 58 / 66
Statistique inferentielle multivariee Analyse de survie
(2) Prise en compte de toutes les observations : celles pour lesquelleslvenement est apparu ET celles pour lesquelles lvenement nest pas apparu
Lvenement na pas encore ete observe au moment de ltude (DC)Lvenement peut ne pas se produire pour certains individusCes 2 types de donnees = donnee censurees.
La methode prend en compte ces observations dans les calculs
Exemple : vaccin HB ; N=100 sur 1 an
10HB, 10 perdus de vue % dHB a un an nest ni 10/100, ni 10/90
DO
Temps
DP DDN
TP
DO
Temps
DPDDN
TP Vivant
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 59 / 66
Statistique inferentielle multivariee Analyse de survie
Applications
temps
% de survie 1
% de survie
temps
1
Groupe 1
Groupe 2
Analyse descriptive = courbes de survie
Analyses comparatives = comparaisons de courbes de survie
Etude de facteurs pronostiques (etude multifactorielles)
Construction de modeles predictifs
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 60 / 66
Statistique inferentielle multivariee Analyse de survie
Methode de Kaplan Meier
une seule population ou k populations definies selon une seule variablequalitative
Estimation de la courbe de survie
Comparaison par test du Log-Rank
Si plusieurs variables a prendre en compte :
Il faut choisir un modele (comme en regression)
Methode la plus utilisee : modele de COX
h(t) = h0(t) exp(a∗1X1 + . . . a∗j Xj + . . .+ a∗pXp)
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 61 / 66
Statistique inferentielle multivariee Analyse de survie
Exemple :
Construction dun score pronostique dans la maladie de Waldenstrom (Blood 2009)
Survival Time in Years
Pro
po
rtio
n s
urv
ivin
g
0 5 10 15
0.0
0.2
0.4
0.6
0.8
1.0
Survival Time in Years
Pro
po
rtio
n s
urv
ivin
g0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0
0.0
0.2
0.4
0.6
0.8
1.0
(p= 0 )
2682031487295135170203
1322314978105125142173193216
25324350638696110133151155Low
Int
High
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 62 / 66
Approfondissements
Approfondissements : M2 parcours E
Journee thematique Modeles de regression
Modele lineaire et analyse de la variance
Analyse des mesures repetees : modele lineaire mixte
Journee thematique Analyses de survie
Analyses multivariees par le Modele de Cox
Validite du modele : Analyse des residus
Plusieurs evenements par sujet
Journee thematique Methode fouille de donnees
Methodologie danalyse des grandes bases de donnees en sante
Arbres de decision
Classifications
Gestion des donnees manquantes dans les analyses mutlivariees
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 64 / 66
Contacts
Des questions ?
.
......
Alain Duhamel - MRRC - [email protected] Devos - Delegation a la Recherche - [email protected] Labreuche - MRRC - [email protected] Genin - CERIM / EA 2694 - [email protected]
Possibilite de RDV le Mardi AM ou Jeudi AM (ou autre si necessaire)Contacter
.
......
Mme BonneauMaison Regionale de la Recherche Clinique (MRRC)Tel : 03-20-44-55-18
M.Genin, A.Duhamel, P. Devos (Universite de Lille 2) Les statistiques dans la recherche medicale Master Biologie et Sante 66 / 66