06 Logistic 2

  • View
    8

  • Download
    2

Embed Size (px)

Transcript

  • ..

    Rgression logistique

    Introduction R pour la recherche biomdicale

    http://www.aliquote.org/cours/2012_biomed

  • ..

    Objectifs

    I Dans ce cours, on aborde la rgression logistique (simple et multiple)qui sert modliser la relation entre des prdicteurs catgoriels ou

    continus et une variable rponse binaire.

    I Sans rentrer dans les dtails des modles linaires gnraliss, oninsistera sur la correspondance entre la rgression logistique et la

    rgression linaire sur le plan de la modlisation, tout en soulignant

    les dirences les plus notables : interprtation des coecients,

    qualit dajustement du modle, analyse des rsidus.

    Lectures conseilles : Vittingho, Glidden, Shiboski, & McCulloch (2005),

    Hosmer & Lemeshow (1989).

  • ..

    Rgression logistique

    La rgression logistique permet de traiter le cas o la variable rponse est de

    type binaire (oui/non, malade/pas malade, etc.), et non pas continu comme

    dans le modle de rgression linaire. Tout en relaxant certaines des hy-

    pothses dumodle de rgressionmultiple, onmaintient quandmme lide

    dune relation linaire entre la rponse et les prdicteurs.

    Dans le cas dune variable binaire, sa moyenne correspond la proportion

    dindividus possdant la caractristique tudie ou rpondant positivement

    lvnement, do lide de modliser la probabilit de succs, comprise

    entre 0 et 1, en fonction dun certain nombre de prdicteurs.

    Dans les enqutes pidmiologiques cas-tmoin (avec ou sans matching) o

    lincidence de la maladie nest pas connue, la rgression logistique fournit

    une estimation de lodds-ratio ajust sur les co-facteurs dintrt (ge, sexe,

    etc.). Dautre part, lorsque la prvalence de la maladie est faible, lOR fournit

    une bonne approximation du risque relatif.

  • ..

    Illustration

    Lexemple ci-dessous montre les rponses observes (0/1) et les probabilits

    individuelles correspondantes, telles questimes partir dune rgression

    logistique. En considrant ~yi = I(P(x) 0:5), on dnombre 8 mal classs(10 %).

    x

    P(y=1

    )

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    0 2 4 6 8 10

  • ..

    Parallle avec la rgression linaire

    Comme dans la rgression linaire, on cherche la meilleure combinaison

    linaire des donnes dentre pour modliser la rponse, ceci prs que

    cest une transformation de cette combinaison (on parle dune fonction de

    lien) qui est utilise en sortie.

    XXp

    X2

    X1

    Y

    b1

    b2

    bp

    XXp

    X2

    X1

    Y

    b1

    b2

    bp

    1

    1 + ex

  • ..

    En dtails

    Le modle de rgression logistique

    Si lon note la probabilit dobserver lvnement y = 1 (vs. 0), alors le log odds(transformation logit) peut sexprimer comme une fonction linaire desparamtres du modle p prdicteurs :

    g(x) = log

    1 = 0 + 1x1 + + pxp;

    et la probabilit prdite scrit alors

    P(y = 1 j x1; x2; : : : ; xp) = y^i =exp(^0 + ^1x1 + + ^pxp)

    1 + exp(^0 + ^1x1 + + ^pxp):

    Dans ce type de modle, on fait lhypothse que yi suit une distribution binomialeet que les observations sont indpendantes (aucune hypothse sur la variance quinest pas un paramtre dans ce cas de gure). Notons galement labsence determe derreur. Lestimation dun tel type de modle se fait par la mthode dumaximum de vraisemblance. Dautres fonctions de lien existent (probit, log-log).

  • ..

    Dirences avec le modle linaire

    Lanalyse des rsidus du modle permet de vrier si celui-ci est satisfaisant

    (en terme de spcication et de qualit dajustement).

    Les dirences principales avec la rgression linaire sont les suivantes :

    I On ne parle plus de sommes de carrs (OLS, rsidus, variance) maisde dviance (dans le cas gaussien, elle est quivalente la somme de

    carrs de la rsiduelle), mais cette dernire rete toujours lcart

    entre les donnes et le modle.

    I En raison de la nature binaire de la variable rponse, lanalyseclassique des rsidus en fonction des valeurs prdites ou la notion

    dhtroskdasticit ne font plus sens ; en revanche, on sintresse

    toujours la qualit dajustement du modle, et la comparaison de

    modles embots qui permettent dvaluer lapport dun ou

    plusieurs prdicteurs par rapport un modle de base. Pour cela, on

    utilise des tests de rapport de vraisemblance.

  • ..

    Interprtation des coecients

    Le terme dintercept sinterprte comme un odds, et les coecients de r-

    gression comme des odds-ratio : lorsque Xj augmente de d = 1 unit, loddsde y = 1 augmente de exp(jd) (de manire quivalente, le log-odds aug-mente de jd). Dans le cas o lon a un seul prdicteur, binaire, on peut

    vrier partir de la relationP(x)

    1P(x) = exp(0 + 1x) queP(1)/[1P(1)]P(0)/[1P(0)] = exp(1):

    logh

    P(56)1P(56)

    i log

    hP(55)

    1P(55)i

    = (5:940 + 0:074 56) (5:940 + 0:074 55) = 0:074:

    Do un odds-ratio de exp(0:074) = 1:077 associ une augmentationdge dun an sur le risque dinfarctus, cest--dire une augmentation du

    risque de 8 %. Pour une variation de 10 ans, lOR est de exp(0:074 10) =2:105.

    glm(formula = chd69 ~ age, family = binomial, data = wcgs)

    Deviance Residuals: Min 1Q Median 3Q Max -0.6209 -0.4545 -0.3669 -0.3292 2.4835

    Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -5.93952 0.54932 -10.813 < 2e-16 ***age 0.07442 0.01130 6.585 4.56e-11 ***---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

  • ..

    Donnes groupes vs. non groupes

    Dans le cas o on dispose des donnes individuelles, soit n rponses binaires

    codes sous forme numrique 0/1 ou laide dun facteur dont le premier

    niveau code lchec (0), le modle de rgression logistique scrit :

    glm(y x, family=binomial)Dans le cas des donnes groupes (aggrges par niveaux dun ou plusieurs

    facteurs), on utilise une matrice deux colonnes reprsentant les eectifs

    0/1 (n0=n-n1) :glm(cbind(n1 , n0) x, family=binomial)ou directement la frquence empirique et le nombre dobservations :

    glm(n1/n x, family=binomial , weights=n)On peut toujours passer dun format lautre avec aggregate ou untable(package reshape).

  • ..

    Qualit dajustement du modle et diagnostics

    La dviance et le 2 gnralis de Pearson sont les deux outils principauxpour lvaluation et la comparaison de modles logistiques. La dviance se

    dnit comme deux fois la dirence entre les log vraisemblances de deux

    modles, tandis que 2 =P

    i(yi y^i)2/V(y^). (On peut aussi dnir desrsidus bass sur la dviance.)

    Le test de Hosmer-Lemeshow consiste valuer la concordance entre les

    valeurs prdites et observes des observations regroupes en quantiles, typ-

    iquement des dciles. Ce test dpend du nombre de groupes xs a priori,

    et il est peu puissant en cas de mauvaise spcication. Les techniques de

    lissage non-paramtrique ou destimations straties sont utiles pour iden-

    tier des dviations locales ou globales (Harrell, 2001).

    Il existe des mesures de type pseudo-R2 (Cox-Snell, Nagelkerke) qui permet-

    tent dvaluer la qualit du modle global (par rapport au modle nul). Con-

    cernant la capacit prdictive du modle, on utilise gnralement le score

    de Brier ou lindex C (probabilit de concordance), en lien avec la courbe

    ROC.

  • ..

    Qualit dajustement du modle et diagnostics (2)

    Comme dans le cas du modle linaire, on sintressera aux points inu-

    ents et aux outliers, tous deux drivs partir des rsidus standardiss

    de Pearson. Le problme est que dans ce cas, ces rsidus appartiennent

    deux classes ce qui rend dlicat, voire inutile, les reprsentations graphiques

    de type rsidus vs. valeurs prdites. On se concentrera donc plutt sur les

    mesures dinuence, comme les DFBETAS. On peut reprsenter ces dernires

    en fonction des probabilits prdites. Voir aussi residual.plots (packagealr3). Il est galement possible dexaminer les variations dans le 2 (oula dviance) en fonction du leverage ou des probabilits prdites, voir par

    exemple http://bit.ly/JMtaho.Concernant la linarit de la relation entre les prdicteurs et le log-odds,

    on peut utiliser de simple diagramme de dispersion, ou utiliser ce que lon

    appelle les marginal model plot (par ailleurs plus utile dans le cas des

    donnes non groupes), et on peut juger de la linarit de la relation

    partir dune courbe lowess. Voir mmps (package car) ainsi que le packagemarginalmodelplots.

  • ..

    Slection de variables, modles prdictifs

    La construction et la validation de modles prdictifs dans le domaine clin-

    ique ont fait lobjet de nombreux ouvrages, en particulier Harrell (2001) et

    Steyerberg (2009) (voir aussi Steyerberg et al. (2001)). Le site RMS fournit

    de nombreuses ressources sur ce sujet : http://biostat.mc.vanderbilt.edu/wiki/Main/RmS

    Apparent calibration

    Apparent discrimination

    Bias correctedestimates of

    calibration anddiscrimination

    (bootstrap)

    Shrinkage toalleviate poorcalibration ofpredictions

    Internal validation of predictive models

    Pour un tour dhorizon rapide des enjeux de lamodlisation partir denqutes

    pidmiologiques, voir Greenberg & Kleinbaum (1985). De nombreux autres

    articles fournissent des recommendations pour le reporting des rsultats

    (Bagley, White, & Golomb, 2001; Bouwmeester et al., 2012; K. J. Ottenbacher,

    Ottenbacher, Tooth, & Ostir, 2004).

  • ..

    Application 1

    Heart disease and blood pressure. (Everitt & Rabe-Hesketh, 2001, p. 208)

    bp