42
Corso di Statistica Medica Studio dell’effetto di più variabili indipendenti su una variabile dipendente: • Regressione lineare multipla Regressione logistica Regressione logistica

Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Embed Size (px)

Citation preview

Page 1: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Studio dell’effetto di più variabili indipendenti su una variabile dipendente:

• Regressione lineare multipla

• Regressione logistica• Regressione logistica

Page 2: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Nel modello di regressione lineare semplice le variazioni della variabile dipendente sono spiegate mediante una sola variabile esplicativa. Si ottiene così un modello semplice che tuttavia non è sempre in grado di spiegare i fenomeni di interesse in maniera adeguata.

Regressione lineare multipla

Un modello che spiegasse il consumo di burro soltanto in funzione del prezzo pBCB=β1+β2pB+ε, potrebbe risultare poco realistico.

I consumatori infatti, nelle loro scelte, considerano anche i prezzi dei beni sostitutivi, come il prezzo dell’olio pO o della margarina pM e risentono di modificazioni del reddito R.

Pertanto un modello più realistico dovrebbe considerare quali ulteriori variabiliesplicative pO , pM e R:

R

Page 3: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Un modello di regressione multipla spiega la variabile dipendente Y in funzione di k variabili esplicative o regressori, con k > 2:

Per convenzione la prima variabile esplicativa x1 assume valore 1.

Il primo coefficiente di regressione β1 rappresenta l’intercetta del modello. Il primo coefficiente di regressione β1 rappresenta l’intercetta del modello.

Gli altri coefficienti, di pendenza, costituiscono le derivate parziali della variabile dipendente rispetto alle variabili esplicative:

la variazione che subisce in mediaY in seguito a una variazione unitaria di xj mentre il valore delle altre variabili rimane costante.

Page 4: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Ipotesi sui regressori (X1, …, Xk):

(X1, …, Xk) sono variabili deterministiche, ovvero misurate senza errore

Ipotesi su ε:

La media degli errori è zero

La distribuzione degli errori è una v.c Normale

La varianza degli errori è costante

Gli errori sono indipendenti (incorrelati)

Y~Normale

Page 5: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

I coefficienti del modello di regressione lineare multipla si stimano a partire dai dati campionari mediante il metodo dei minimi quadrati o della massima verosimiglianza.

I coefficienti di regressione in un modello di regressione multiplo si dicono “coefficienti di regressione parziale”.

Ciascuno di essi esprime la variazione media della variabile dipendente, per ogni variazione unitaria della corrispondente variabile indipendente, a parità di valori assunti rispetto agli altri regressori nel modello.

kk XbXbbY +++= ...221*

bj stima di βj

Essendo dotati di unità di misura i valori dei diversi coefficienti di regressione non possono essere tra loro confrontati e quindi non possono essere indicatori dell’importanza della variabile indipendente associata nella spiegazione della variabilità della Y.

Se si considerano le variabili ‘standardizzate’, cioè:

kjX

X

YY

J

J

X

Xjstdj

Y

Ystd

,...1 , =−

=

−=

σµ

σµ

E’ allora possibile confrontare l’entità dei diversi coefficienti di regressione parziale.

εβββ ++++= stdkkstdstd XXY ,,221 ...

Page 6: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

L’indice di determinazione lineare R 2

Per quantificare la bontà di adattamento del modello di regressione ai dati, si puòutilizzare un indice che valuta la quota di variabilità di Y s piegata dal modello

La devianza totale di Y nel modello di regressione lineare multipla può essere scomposta come segue:

è la devianza totale di Y

è la devianza di regressione di Y

è la devianza residua o di dispersione di Y

Page 7: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

L’indice di determinazione lineare R 2

L’indice di determinazione lineare varia fra 0 e 1 poiché 0<= DevReg(Y)<=Dev(Y).

R2 misura la frazione della variabilità di Y dovuta alla sua dipendenza lineare dai regressori.regressori.

Presenta però alcuni inconvenienti:

- può assumere valori elevati anche quando la relazione non è di tipo lineare;

- cresce sempre al crescere del numero dei regressori, pertanto non è un indicatore adeguato per il confronto tra modelli con un diverso numero di regressori.

R2 corretto: mn

nRR

−−−−= 1

)1(1 22 m=# regressori

Page 8: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

La scomposizione delle devianze vale anche rispetto ai corrispondenti gradi di libertà:

n = dimensione campione

m = numero regressori

è la varianza totale di Y

è la varianza di regressione di Y

è la varianza residua di Y

Page 9: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Test di ipotesi sui parametri (I)

In questo contesto risulta necessario avvalersi dell’ipotesi di normalità formulata sui residui. Da essa discende infatti la normalità in distribuzione dello stimatore dei minimi quadrati ed il rapporto tra la devianza di regressione sulla devianza residua distribuito come una v.c. F con m ed n-m-1 gdl:

Fissato un livello di significatività α, se Fcampione > Fα allora il test è significativo al livello α, e H0 va rifiutata.

Page 10: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

• la variabilità di Y spiegata dal modello è significativamente più elevata della variabilità residua;

• ad almeno uno degli m regressori corrisponde in popolazione un coefficiente di regressione significativamente diverso da 0.

Se H0 viene rifiutata:

Se invece F <= Fα allora il test NON è significativo al livello α, e H non Se invece Fcampione <= Fα allora il test NON è significativo al livello α, e H0 non viene rifiutata; in tal caso il modello non è adeguato, tra Y e gli m regressori non vi è alcuna relazione di dipendenza lineare.

Poiché:

Page 11: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Test di ipotesi sui parametri (II)

Test sul singolo parametro:

Fissato un livello di significatività α, se t > +tα/2 oppure t < -tα/2 allora il test è significativo al livello α, e H0 va rifiutata: il contributo di Xj nel modello in cui vi sono gli altri regressori è significativo.

Page 12: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

I software statistici generalmente per ogni parametro stimato forniscono il p-valore del test. Per ciascuna ipotesi nulla H0: bj=0 i software riportano quindi la probabilità:

dove toss è il valore osservato della statistica test sul campione.

Di seguito è schematizzato un tipico output di un software per la regressione multipla:Di seguito è schematizzato un tipico output di un software per la regressione multipla:

Page 13: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

“Diagnostica” del modello di regressione

Con il termine “diagnostica”, nell’ambito della regressione, ci si riferisce a un insieme di tecniche volte all’individuazione di eventuali problemi rispetto al modello o rispetto ai dati. A questo fine particolare rilievo assumono i residui.

L’analisi dei residui permette di:

- stabilire se le ipotesi formulate sul termine d’errore del modello di regressione - stabilire se le ipotesi formulate sul termine d’errore del modello di regressione sono valide rispetto al fenomeno analizzato;

- identificare l’eventuale presenza di casi outlier (=anomali rispetto alla variabile dipendente Y), di leverage (=anomali rispetto alle X), influenti (=la cui esclusione modifica molto le stime).

Poiché i residui sono gli scarti tra i valori osservati e quelli stimati dal modello, costituiscono la base per misurare la variabilità di Y non spiegata dal modello di regressione.

Page 14: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Distribuzione dei residui: dovrebberodisporsi in maniera casuale intorno all’asse delle ascisse;

La presenza di strutture nel grafico dei

eteroschedasticità

La presenza di strutture nel grafico dei residui può indicare erroridi specificazione nel modello:

autocorrelazione

Page 15: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Presenza di un trend: indica l’omissione di un predittore importante.

Residui in presenza di una relazione nonlineare

È stato stimato questo modello:

al posto di:

Page 16: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Quando è possibile individuare dei gruppi nei residui, ciò può indicare che si è verificato un cambiamento strutturale nella relazione fra la variabile dipendente e le variabili esplicative. Le osservazioni sono divise in due gruppi (o periodi)generati da due modelli con diversi valori dei parametri.

Residui molto distanti dagli altri possono indicare la presenza di valori anomali, ossia osservazioni distanti dalla maggioranza dei dati.

Page 17: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Dimensione del campione e numero di variabili indipendenti:

• Si raccomanda un numero di osservazioni 10-20 volte superiore al numero dellevariabili indipendenti;

Multicollinearità:

• Nel caso si abbiano a disposizione numerose variabili indipendenti, è opportuno verificare se esse risultano correlate tra loro;

-> bisogna infatti fare attenzione a non includere nel modello di regressione variabili significativamente correlate;

Costruzione del modello di regressione:

• Dopo aver valutato la multicollinearità ed aver escluso eventuali variabili esplicative si procede alla costruzione del modello con le variabili rimanenti.

Page 18: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

• Approccio forward/backward: partendo da un modello parziale si procede per passi e di volta in volta si aggiunge una variabile che contribuisce in maniera significativa almiglioramento del modello o si elimina una variabile il cui coefficiente non è significativo.

Costruzione del modello di regressione:

• Approccio step-wise: si valutano tutti i possibili modelli di regressione ricavabili da un certo insieme di variabili esplicative e si individuano i sottoinsiemi migliori secondo un certo criterio (per esempio osservando l’R2).

…ci vuole logica e buon senso!

Page 19: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Esempio di applicazione del modello di regressione multipla

Una ditta automobilistica americana ha un registro di vendite dei diversi modelli di macchine.

Per identificare i modelli che vanno meglio nel mercato e quelli che vanno peggio, si vuole stabilire una relazione tra le caratteristiche del veicolo e il livello di vendite.

Le informazioni sulle macchine sono nel file ‘regr1.sav’ (file di dati SPSS).

Si utilizza la regressione lineare multipla per identificare i fattori che influenzano in modo significativo il livello di vendite.

Variabile dipendente Y: vendite (in migliaia)

Variabili esplicative X: Vehicle type (tipo di veicolo), Price in thousands (prezzo), Engine size (motore), Horsepower (potenza), Wheelbase (interasse), Width (larghezza), Length (lunghezza), Curb weight (peso), Fuel capacity (capacità serbatoio), Fuel efficiency (benzina per Km)

Page 20: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

100

80

60

40

20

Fre

quen

cy

La distribuzione della variabile dipendente Y non è normale…

25

20

6005004003002001000

Sales in thousands

20

0

86420-2

Log-transformed sales

15

10

5

0

Fre

quen

cy

…operiamo una trasformazione logaritmicaper normalizzare Y:

Page 21: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

ANOVAb

130.300 10 13.030 13.305 .000a

138.082 141 .979

268.383 151

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), Fuel efficiency, Length, Price in thousands, Vehicle type,Width, Engine size, Fuel capacity, Wheelbase, Curb weight, Horsepower

a.

Dependent Variable: Log-transformed salesb.

Il test F sul modello stimato con tutti i predittori ha un valore di p <0.001: il modello di regressione spiega dunque in modo significativo la variabilità delle vendite.di regressione spiega dunque in modo significativo la variabilità delle vendite.

Model Summary

.697a .486 .449 .98960Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Fuel efficiency, Length, Price inthousands, Vehicle type, Width, Engine size, Fuelcapacity, Wheelbase, Curb weight, Horsepower

a.

Quasi la metà della variabilità totale è spiegata dal modello di regressione(R2=0.486)

Page 22: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Coefficients a

-3.017 2.741 -1.101 .273

.883 .331 .293 2.670 .008

-.046 .013 -.502 -3.596 .000

.356 .190 .281 1.871 .063

-.002 .004 -.092 -.509 .611

.042 .023 .241 1.785 .076

-.028 .042 -.073 -.676 .500

.015 .014 .148 1.032 .304

.156 .350 .075 .447 .655

(Constant)

Vehicle type

Price in thousands

Engine size

Horsepower

Wheelbase

Width

Length

Curb weight

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

.156 .350 .075 .447 .655

-.057 .047 -.167 -1.203 .231

.081 .040 .262 2.023 .045

Curb weight

Fuel capacity

Fuel efficiency

Dependent Variable: Log-transformed salesa.

Anche se il modello spiega bene la variabilità delle vendite, ci sono alcuni fattori non significativi; ciò significa che il modello stimato ha “troppi” predittori rispetto a quelli necessari.

Per quantificare l’importanza relativa dei predittori, si deve guardare ai coefficienti standardizzati: anche se il prezzo ha un coefficiente piccolo rispetto al tipo di veicolo, esso contribuisce di più nel modello perché ha un coefficiente standardizzato più grande.

Page 23: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Coefficients a

.274 .219 .161 .304 3.293

-.552 -.290 -.217 .187 5.337

-.135 .156 .113 .162 6.159

-.389 -.043 -.031 .112 8.896

.292 .149 .108 .200 4.997

.037 -.057 -.041 .313 3.193

.215 .087 .062 .178 5.605

-.041 .038 .027 .131 7.644

-.016 -.101 -.073 .189 5.303

.121 .168 .122 .217 4.604

Vehicle type

Price in thousands

Engine size

Horsepower

Wheelbase

Width

Length

Curb weight

Fuel capacity

Fuel efficiency

Model1

Zero-order Partial Part

Correlations

Tolerance VIF

Collinearity Statistics

Proviamo a ri-stimare il modello usando il metodostep-wise

.121 .168 .122 .217 4.604Fuel efficiency

Dependent Variable: Log-transformed salesa.

Multicollinearità: c’è un problema di correlazione tra le variabili esplicative: i coefficienti di correlazione sono diversi da zero.

La ‘Tolerance’ è la % di varianza in un dato predittore che non può essere spiegatadagli altri predittori. Per cui i valori bassi di tale indice sono indicazione di forte collinearità.

Un ‘Variance Inflation Factor’ (VIF) >2 è considerato problematico….

Page 24: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Coefficients a

4.684 .194 24.090 .000

-.051 .006 -.552 -8.104 .000

-1.822 1.151 -1.583 .116

-.055 .006 -.590 -9.487 .000

.061 .011 .356 5.718 .000

(Constant)

Price in thousands

(Constant)

Price in thousands

Wheelbase

Model1

2

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Log-transformed salesa.

Le variabili selezionate dal modello tramite la procedura stepwise sono il prezzo e la wheelbase (interasse), in pratica la dimensione del veicolo.

La conclusione è quindi che le vendite sono negativamente influenzate dal prezzo e positivamente dalla dimensione del veicolo. Ossia, le automobili grandi ed economiche sono quelle che vendono meglio (negli USA!).

Model Summary

.552a .304 .300 1.11553

.655b .430 .422 1.01357

Model1

2

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Price in thousandsa.

Predictors: (Constant), Price in thousands, Wheelbaseb.

Anche in questo modello ridottoquasi la metà della variabilità è spiegata dal modello di regressione(adjusted R2=0.422)

Page 25: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Diagnostica (I):Si selezionano i modelli con i ‘residui’ più grandi: 3000GT e Cutlasshanno i residui più alti e negativi, ossia hanno venduto meno di quanto atteso in base al loro prezzo e dimensione.

Casewise Diagnostics a

Explorer 2.297 5.62 3.2953 2.32778

3000GT -4.905 -2.21 2.7638 -4.97111

Cutlass -3.610 .11 3.7651 -3.65892

Breeze -2.252 1.66 3.9393 -2.28296

Prowler -2.139 .63 2.7955 -2.16849

SW -2.012 1.65 3.6927 -2.03967

Case Number53

84

109

116

118

132

Model Std. ResidualLog-transformed sales

PredictedValue Residual

Dependent Variable: Log-transformed salesa.

Anche i modelli Breeze, Prowler e SW hanno avuto una performance peggiore di quella attesa, ma ad un livello minore.

Il modello Explorer è l’unico che abbia superato le aspettative stimate (residuo positivo).Il modello Explorer è l’unico che abbia superato le aspettative stimate (residuo positivo).

Breeze, Prowler, SW, e Explorer sono vicini alla maggioranza dei dati; l’apparente ‘under-performance’ e ‘over-performance’ possono essere quindi attribuite al caso.

Ci sono poi alcuni modelli che si allontanano dallamaggioranza dei dati…

Page 26: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Diagnostica (II):

Residui rispetto al prezzo: i modelli più costosi sono quelli che si allontanano dalla maggioranza dei dati; dei dati;

Page 27: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Diagnostica (III):

Residui rispetto alla dimensione: i modelli più grandi sono quelli che si allontanano dalla maggioranza maggioranza dei dati;

Page 28: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Usando il metodo stepwise abbiamo selezionato il modello “migliore” per predire le vendite. Tramite questo modello abbiamo identificato due tipi di veicoli che stanno andando male nel mercato, nonostante le aspettative,

In conclusione:

Le vendite degli autoveicoli sono determinate principalmente dal prezzo e dalla dimensione; date queste due informazioni si può prevedere in media quanto venderà un veicolo.

veicoli che stanno andando male nel mercato, nonostante le aspettative, mentre nessun modello sta vendendo particolarmente sopra le aspettative.

I grafici diagnostici hanno indicato che il modello stimato può essere influenzato in modo rilevante dai veicoli particolarmente grandi e costosi, come la classe SL o i Pick-Up. (Si può suggerire di trasformare mediante logaritmo anche i prezzi e la wheelbase, per “comprimerne” i valori estremi).

Page 29: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Una delle applicazioni più utili della regressione multipla potrebbe essere quella di predire la mortalità o la morbilità (per es. gli incidenti cerebrovascolari, l'infarto, il cancro o altre malattie). Tuttavia la regressione multipla non può essere applicata a dati categorici come la morte o l'infarto miocardico.

Queste variabili infatti hanno due sole possibilità 0 o 1 (vivo o morto, infarto o non infarto, ecc.), non sono misurati su scala continua.

Dalla regressione multipla alla regressione logisti ca

non infarto, ecc.), non sono misurati su scala continua.

Per analizzare queste variabili con un approccio multivariato, esse devono essere trasformate.

La trasformazione da utilizzare è quella in “logit” e il modello analitico è la regressione logistica.

Page 30: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

La verosimiglianza (likelihood) nei modelli binari

Questa breve digressione è finalizzata a chiarire il metodo che si adotta per la costruzione dei modelli logistici, cioè il metodo della probabilità più verosimileo maximum likelihood.

Se seguiamo un campione di 10 pazienti per un certo periodo di tempo e siamo interessati a stabilire la mortalità, abbiamo due possibili esiti, vivo o morto. Definiamo la probabilità di morte con p e quella di sopravvivere con il suo complemento 1-p :

Page 31: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Dalla Tabella risulta che 3 pazienti sono deceduti (p) nel periodo di osservazione e 7 sono sopravvissuti (1-p). Le osservazioni sono indipendenti (un paziente può vivere o morire indipendentemente dagli altri) quindi possiamo utilizzare la regola moltiplicativa per stimare la probabilità della nostra osservazione:

p x (1-p) x (1-p) x p x (1-p) x (1-p) x (1-p) x p x (1-p) x (1-p)

(p)3 x (1-p)7

Possiamo attribuire varie probabilità al rischio di morte (p). Per esempio un rischio del 10% (0.10) o 20% (0.20) o altri valori.

La domanda che ci poniamo è: quanto verosimile ( likely) è un certo rischio (per es: mortalità 10%, sopravvivenza 90%) tenuto conto che noi osserviamo una mortalità del 3 0%(e una sopravvivenza del 70%)?

Utilizzando i dati possiamo calcolare la verosimiglianza delle varie ipotesi di rischio.

Page 32: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

(0.10)3 x (0.90)7 = 0.001 x 0.478 = 0.000478 (o 4.78 x 10-4)

(0.30)3 x (0.70)7 = 0.027 x 0.082 = 0.002214 (o 22.14 x 10-4)

(0.20)3 x (0.80)7= 0.008 x 0.209715 = 0.001677 (o 16.77 x 10-4)

p=10%

p=30%

p=20%

La probabilità più alta è quella che coincide con un rischio del 30%.

• Ripetendo il calcolo (iterativo) per ulteriori valori di rischio troviamo che la più alta probabilità rimane proprio quella che coincide con la % da noi effettivamente osservata nel campione, il 30%.

• Si dice che l'ipotesi di rischio del 30% è quella meglio supportata dai dati. Siamo arrivati a questa conclusione applicando il calcolo iterativo, cioé testando tutti i possibili valori che p può assumere.

• Il rischio che ha la verosimiglianza più alta è definito il valore più verosimile (maximum likelihood). Qualsiasi altro valore di rischio fornisce stime meno credibili rispetto a quella del valore più verosimile.

Page 33: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Il modello di regressione logistica: prevedere l'esito ( outcome) in base ai determinanti del rischio

Nell'esempio precedente l'esito (vivo/morto) è stato previsto su 10 soggetti e sulla base di una serie di stime teoriche del rischio (20% o 30%, ecc.).

Se oltre a registrare l'esito (vivo/morto) misuriamo anche una o più variabili che riteniamo possano influenzarlo (nel nostro esempio l'ipertrofia ventricolare sinistra,la pressione arteriosa media) possiamo costruire un modello più complesso che la pressione arteriosa media) possiamo costruire un modello più complesso che cerca di predire l'esito a partire dalle variabili indipendenti. Per esempio:

mortalità = a + b (massa ventricolare) + c (pressione arteriosa media)

y = a + bx1 + cx2

Page 34: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

In questo caso si deve massimizzare la probabilità di ottenere i valori osservati della variabile dipendente (vivo/morto) in base a un'equazione costruita con i dati relativi alla pressione arteriosa media e alla massa ventricolare sinistra.

La likelihood sarà massima quando i coefficienti dell'equazione saranno tali da predire il più accuratamente possibile l'esito caso per caso.

• per stimare la probabilità di morte a partire da una o più variabili indipendenti, generiamo un modello con coefficienti “casuali” a partire dai nostri dati:

variabile dipendente -> morto/vivo (0/1); variabile dipendente -> morto/vivo (0/1); variabili indipendenti -> massa ventricolare sinistra, pressione arteriosa

• Il modello ad ogni iterazione di calcolo potrà risultare efficace o inefficace :

Il modello sarà efficace -> in grado di predire la mortalità realmente osservata -> solo se le variabili considerate influenzano la mortalità.

Se invece i dati di mortalità (0/1) previsti dal modello non coincidono con i dati di mortalità osservati, -> il modello è inefficace e concludiamo che le variabili indipendenti non influenzano la mortalità.

• Il metodo di stima si basa sul calcolo iterativo e sulla trasformazione logit; il computer "testa" vari coefficienti di regressione e il calcolo si arresta quando i coefficienti di regressione (b e c dell'equazione) massimizzano la previsione della variabile dipendente sulla base dei dati osservati.

Page 35: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Il likelihood ratio ‘LR’ è il rapporto tra la likelihood di ottenere i valori della variabile dipendente quando è vera l'ipotesi nulla, cioè quando il modello non consente di predire la variabile dipendente (outcome), diviso per la likelihood calcolata sui dati del nostro campione:

LR=LR(H 0)/LR(campione)

Quando il modello non predice la variabile dipendente la likelihood del denominatore

Test di ipotesi sul modello:

sarà uguale a quella del numeratore e il rapporto sarà ~ 1, l'ipotesi nulla sarà cioè vera.

Tanto più efficace è il modello tanto più basso sarà LR (che tenderà ad avvicinarsi sempre più allo 0).

2ln2 gdlLR χ=−Consultando la distribuzione del Chi-quadro possiamo stabilire se il nostro modello predice significativamente la variabile dipendente.

gdl del Chi-quadro:# parametri stimati

Page 36: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

La trasformazione dei dati in logit

Per motivi di calcolo, la variabile dipendente dell'equazione (la mortalità) si trasforma in una funzione logistica (continua ) utilizzando la formula:

−=

p

pp

1ln

In questa funzione ln è il logaritmo naturale e il rapporto tra p (la probabilità di morte) In questa funzione ln è il logaritmo naturale e il rapporto tra p (la probabilità di morte) e (1-p) la probabilità complementare, cioè la sopravvivenza, sono gli odds o probabilità a favore.

Gli odds sono il tipico modo che gli scommettitori usano per quantificare la probabilità di vincere. Gli odds quindi ci consentono di trasformare una variabile categorica (si/no) in una variabile che esprime la probabilità dell'evento.

Page 37: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Quando la probabilità di morte è del 50% (o 0.5) gli odds sono uguali a 1 (perché 0.5/1–0.5 = 1) e la relativa funzione logistica (che coincide coi log odds) è uguale a 0 (perché il logaritmo di 1 è 0). Un vantaggio dei logit è che la probabilità ad essi corrispondente può variare da 0 a 1, cioè nell'ambito della stessa scala sulla quale è espressa abitualmente la probabilità di un evento:

p

ln(p/1-p)

La funzione logaritmo in base e (ln)è la funzione inversa rispetto alla funzione esponenziale in base e: ( )xy

ex y

ln== e~2.7

Page 38: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Possiamo quindi trasformare la variabile mortalità in termini di probabilità dell'evento (morte):

...211

ln +++=

−cxbxa

p

p ( )[ ]...211/1 +++−+= cxbxaep

p=P(Y=1)=Probabilità dell’evento morte

Page 39: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

mortalità = a + b (massa ventricolare) + c (pressione arteriosa media)

y = a + bx1 + cx2

y=a+b*LVM+c*MAP

Se la funzione logistica stimata dell'equazione che predice la sopravvivenza in base alla massa ventricolare (LVM) e alla pressione arteriosa media (PAM) è:

( )]1/[1

**1

ln

** MAPcLVMbaep

MAPcLVMbap

p

++−+=

++=

alla massa ventricolare (LVM) e alla pressione arteriosa media (PAM) è:

ln(p/1-p)= –16.26 + 0.068 LVM + 0.065 MAP

la probabilità di morte per una massa ventricolare di 120 g/m2 e una MAP di 110 mmHg è:

p=1/[1+e-(-16.26 + 0.068 x 120+0.065 x 110)]= 1/[1+ e-(-0.95) ]= 1/[1 + 2.58] = 1/3.58 = 0.30

Page 40: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Ripetendo lo stesso calcolo e variando solo la massa ventricolare, portandola cioè da 120 a 130 g/m2, la probabilità di morte diventa 0.43. Viceversa riducendola a 110 g/m2 la probabilità di morte si riduce a 0.16.

Questo modo di procedere è particolarmente utile in quanto ci permette di stimare l'influenza della massa ventricolare sulla sopravvivenza a parità della pressione arteriosa.

Tuttavia la valutazione è più immediata con il calcolo degli odds ratio: Tuttavia la valutazione è più immediata con il calcolo degli odds ratio:

OR = e0.068*(130-120) = 1.54

odds ratio (OR) di un aumento della massa ventricolare sinistra da 120 a 130 g/m2

la probabilità di morte è 1.54 volte più alta quando la massa ventricolare sinistra aumenta da 120 a 130 g/m2

Page 41: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Allo stesso modo possiamo calcolare gli OR di un aumento della pressione da 110 a 120 mmHg:

OR = e0.065(120-110) = 1.91

la probabilità di morte è 1.91 volte più alta quando la pressione aumenta da 110 a 120 mmHg.

Definizione formale di OR: Odds(Y=1| X)=e(bX)

La probabilità che Y=1 quando X “varia” di d unità è:

OR=ebd

ln(OR)=b

Page 42: Corso di Statistica Medica - sdp.univ.fvg.it Giulia lezione 4.pdf · scomposta come segue: è la devianza totale di Y è la devianza di regressione di Y ... costituiscono la base

Corso di Statistica Medica

Test di ipotesi sul singolo predittore:

b = incremento del log-odds per incremento unitario di X;

Test d’ipotesi H0 : b=0 (test di Wald)

22 βχ =2 (1 df)

Varianza(

β

β)χ =

Consultando la distribuzione del Chi-quadro con 1 gdl possiamo stabilire se il predittore X ha un impatto significativo sulla variabile dipendente.