41
Regressione Logistica • Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche • Tecnica non parametrica

Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Embed Size (px)

Citation preview

Page 1: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Regressione Logistica

• Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche

• Tecnica non parametrica

Page 2: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

• Utilizzo: permette di prevedere il comportamento di una variabile dipendente dicotomica (espressa come presenza/assenza di una caratteristica o risultato) basandosi sui valori di una serie di variabili predittori (fattori o covariate del modello).

Regressione LogisticaRegressione Logistica

Page 3: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

• Risultato: – la probabilità dell’evento dati quelle covariate– la probabilità dell’influenza di ciascuna delle

covariate rispetto alla probabilità di una delle caratteristiche della dipendente

Regressione LogisticaRegressione Logistica

Page 4: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

1.Procedura: definizione del modello

1. La relazione fra la variabile dipendente e le covariate è spiegata da una funzione logaritmica

logit (variabile)= b0 + b1 x1 + b2 x2 …

Regressione LogisticaRegressione Logistica

Page 5: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Regressione LogisticaRegressione Logistica

Trasforma la variabile qualitativa dicotomica (evento, non evento) in una variabile quantitativa utilizzando il parametro odds

• 1.Variabile0,1

• 2.Probabilità 0 1

• 3.Odds 0

)(

)(

eventononp

eventopodds

Page 6: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Per poter utilizzare una equazione nel campo dei numeri reali si esegue una ulteriore trasformazione

logarimica che prende il nome di logit

Odds logit (valore - --- 0 --- +)

)(

)(loglogit

noneventop

eventop

Regressione LogisticaRegressione Logistica

Page 7: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Regressione LogisticaRegressione Logistica• Logaritmo: funzione inversa dell’esponente

• Logaritmo naturale (Ln) di x è l’esponente da dare a e (numero naturale e = 2.718) per ottenere x

• Ln 5 = 1.6 perché 2.718 1.6 = 5

Page 8: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Regressione LogisticaRegressione Logistica

Proprietà dei logaritmi

• Ln 1 = 0

• Ln 0 = - • Ln + = +

Page 9: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

La variabile può essere vista come funzione dei fattori in un modello regressivo attraverso il quale è possibile assumere la relazione stessa come lineare :

logit (variabile)= b0 + b1 x1 + b2 x2 + b3 x3

110(var) xbb eeodds

Regressione LogisticaRegressione Logistica

Page 10: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

2. Procedura: VALUTAZIONE della Bontà del modello - stima dei parametri b

a.Diversi metodi di approssimazione (iteration) basati sul maximum likelihood– A blocchi: valuta tutti i parametri assieme tramite il

criterio di tolleranza (esclude le variabili che apportano poca informazione al modello)

– Per passi o per esclusione: toglie o aggiunge i parametri a seconda dell’apporto di questi alla significatività del modello

Regressione LogisticaRegressione Logistica

Page 11: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

• Il likelihood , utilizzato anche per il modello Log lineare, è la probabilità che i dati sperimentali siano stati generati dal modello

Regressione LogisticaRegressione Logistica

Page 12: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

• Successive approssimazioni: – si crea il modello con un’approssimazione– si valuta il likelihood– Si effettua una successiva approssimazione– Si valuta il likelihood– Se questo crea un cambiamento superiore a una

certa soglia si va avanti, altrimenti ci si ferma

Regressione LogisticaRegressione Logistica

Page 13: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

b. Valutazione della bontà del modello

Statistica Wald

2

SE

bWald

Regressione LogisticaRegressione Logistica

Tuttavia, la statistica Wald non può esser usata da sola poiché quando il valore assoluto di b diventa molto grande, l’errore standard sarà anche esso grande e la statistica Wald assumerà valori molto piccoli che facilmente falsificheranno l’ipotesi nulla anche quando non sarebbe da falsificare.

Page 14: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

c. Valutazione della bontà del modello

• Goodness of fit che valuta la probabilità che il modello sia adeguato nella rappresentazione dei dati

• Si valuta attraverso la non falsificazione di H0 utilizzando una distribuzione 2 che confronta le frequenze osservate con le frequenze attese create dal modello

Regressione LogisticaRegressione Logistica

Page 15: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

d. Valutazione della bontà del modello

• Pseudo R squared

• valuta attraverso il confronto fra il likelihood del modello e il modello dell’ipotesi nulla (considerando che nessun parametro sia influente)

Regressione LogisticaRegressione Logistica

Page 16: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

3. Significatività di b e senso dell’influenza

Il contributo di ciascun fattore e il senso della sua influenza sulla variabile dipendente è stimato attraverso l’esponenziale di b (odds ratio)

1

0

10

0

10

0

1

1

1

0

11

b

b

bb

b

bb

b

b

b

b ee

ee

e

e

odds

odds

odds

oddsbExp

Regressione LogisticaRegressione Logistica

Page 17: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Significatività

La significatività dei parametri relativi ai fattori si può anche verificare attraverso l’intervallo di confidenza attorno all’esponenziale di b per ciascun fattore

Regressione LogisticaRegressione Logistica

Page 18: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

La regressione logistica fornisce le significatività per:

il modello globale i singoli parametri, togliendo gli effetti dei

parametri già considerati

Regressione LogisticaRegressione Logistica

Page 19: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Esempiologit (risposta aggressiva)= b0 + b1 x1 + b2 x2+ b3

x3

Dove il logit della probabilità di rispondere in modo aggressivo è visto in funzione di una costante b0

sommata al contributo dato da ciascun fattore al quale il modello ha attribuito il valore 1 moltiplicato per il suo coefficiente bn

Attraverso la regressione logistica tutte le variabili categoriche vengono trasformate in variabili dicotomiche (con valori 0,1)

B1 è il parametro relativo all’essere maschiB2 è il parametro relativo all’etàB3 è il parametro relativo alla professione di dipendente

Regressione LogisticaRegressione Logistica

Page 20: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Regressione LogisticaRegressione Logistica

Categorical Variables Codings

18 1.000

19 .000

16 1.000

21 .000

1.00

2.00

professione

maschio

femmina

genere

Frequency (1)

Parameter coding

Page 21: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Regressione LogisticaRegressione Logistica

Variables in the Equation

1.410 .724 3.800 1 .051 4.098 .992 16.921

.000 .034 .000 1 .993 1.000 .936 1.068

-.093 .725 .017 1 .898 .911 .220 3.769

-.856 1.121 .582 1 .445 .425

genere(1)

eta

professione(1)

Constant

Step1

a

B S.E. Wald df Sig. Exp(B) Lower Upper

95.0% C.I.for EXP(B)

Variable(s) entered on step 1: genere, eta, professione.a.

Page 22: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Exp(b)L’esponenziale di b relativo al genere è dato dal rapporto fra l’odds di rispondere con un comportamento aggressivo essendo femmina diviso l’odds di rispondere con un comportamento aggressivo essendo maschi.

Regressione LogisticaRegressione Logistica

Page 23: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

logit (risposta aggressiva)= b0 + b1 x1 + b2 x2+ b3 x3

logit (risposta aggressiva)=

-0.856 + 1.41 x1 + (-0.093) + 0 x3= 0.461

Regressione LogisticaRegressione Logistica

Variables in the Equation

1.410 .724 3.800 1 .051 4.098

-.093 .725 .017 1 .898 .911

.000 .034 .000 1 .993 1.000

-.856 1.121 .582 1 .445 .425

genere(1)

professione(1)

eta

Constant

Step1

a

B S.E. Wald df Sig. Exp(B)

Variable(s) entered on step 1: genere, professione, eta.a.

Page 24: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

• P (risposta aggressiva)=1 / (1+ e-0.461) = 0.56

• Odds ratio (genere=1) = 4.098– Essere maschi incrementa la probabilità di risposta

aggressiva di un coefficiente pari a 4.098

– l’odds di risposta aggressiva essendo maschio è 4.098 volte superiore rispetto all’odds della risposta aggressiva essendo femmina, mantenendo costanti le altre variabili

Regressione LogisticaRegressione Logistica

Page 25: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

• SCOPO: studia la relazione fra più di due variabili qualitative categoriche

• TIPO DI PROCEDURA: modello logistico applicato a una tavola di contingenza multidimensionale

Analisi Log - lineare

Page 26: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Analisi Log lineareAnalisi Log lineare

• I dati sperimentali possono produrre diversi modelli Log Lineari.

• Il modello è definito saturo quando rappresenta tutte le possibili combinazioni fra le celle;

• non saturato quando solo alcune delle interazioni sono considerate.

Page 27: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

• Nel modello gerarchico l’effetto interazione (definito termine di ordine superiore in quanto comprende in sé più termini) è accostato a termini di ordine inferiore(singoli fattori).

• Attraverso questo modello è possibile considerare solo gli effetti di ordine superiore o inferiore

Analisi Log lineareAnalisi Log lineare

Page 28: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Analisi Log lineareAnalisi Log lineare

Tavola di contingenza multidimensionale: ogni cella è vista come combinazione di due o più variabili

Esempio

120 46 38

14 7 11

28 64 147

17 22 80

Terapia

farmacologica

integrata

Esitonegativo

farmacologica

integrata

Esitopositivo

A B C

Tipo di personalità

Page 29: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Analisi Log lineareAnalisi Log lineare

• Applicare più test χ² per analizzare ciascuna combinazione sarebbe una procedura non corretta perché:

• Aumento dell’errore alpha• Lettura dei risultati non

comprensibile

Page 30: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Analisi Log lineareAnalisi Log lineare

• Date le tre variabili da studiare nella loro relazione è possibile analizzare:

• Ogni confronto binario

• L’interazione fra tutte le variabili

Page 31: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Analisi Log lineareAnalisi Log lineare

Modello Log lineare attraverso un’unica procedura di analisi rappresenta tutte le possibili combinazioni in modo indipendente le une dalle altre.

1. Struttura modello2. Stima dei parametri e valutazione

della bontà del modello

Page 32: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

dove:• Fij è la frequenza osservata della cella ij, • λi

X, è l’effetto della i-esima categoria della variabile X,

• λjY l’effetto della j-esima categoria della variabile Y

• λijXY l’effetto interazione fra le due.

• μ è la media dei logaritmi calcolati per tutte le celle• λ è calcolata togliendo al totale di riga o di colonna

di quella cella la media generale.

XYij

Yj

XiijF ln

Analisi Log lineareAnalisi Log lineare1. Struttura del modello1. Struttura del modello

Page 33: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Analisi Log lineareAnalisi Log lineareStruttura: logaritmo delle frequenze di ogni combinazione possibile in funzione dei valori delle varie componenti di classificazione

ln Fijk = μ+λiI + λj

J + λkK + λi

IjJ + λi

IkK + λj

JkK + λi

IjJkK

 Tuttavia…

Scopo del modello è rappresentare adeguatamente i dati sperimentali con il numero minore di relazioni fra le variabili

ln Fijk = μ+ λiI + λj

J + λkK + λi

IjJ + λi

IkK

 

Page 34: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Analisi Log lineareAnalisi Log lineare

Tutte le variabili sono considerate come variabili indipendenti o fattori, la variabile dipendente è il numero di casi in ogni cella, ovvero la frequenza osservata, che è proprio l’indice dell’interazione fra le variabili in studio.

Page 35: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Stima dei parametri:1. Calcolo del logaritmo delle

frequenze osservate2. Calcolo delle frequenze attese3. Confronto frequenze attese con le

frequenze osservate - residui

Analisi Log lineareAnalisi Log lineare

Page 36: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Analisi Log lineare:Analisi Log lineare:Rappresentazione dei ParametriRappresentazione dei Parametri

Parametro Esito1 Costante2 Esito=0;

Terapia=13 Esito=0; Terapia=24 Esito=1; Terapia=15* Esito=1; Terapia=26 Esito=0; Tipo=A

7 Esito=0; Tipo=B8* Esito=0; Tipo=C9 Esito=1; Tipo=A

10 Esito=1; Tipo=B11* Esito=1; Tipo=C

Rappresentazione dei parametri secondo il modello Esito x Terapia + Esito x Tipo (Esito=0 corrisponde a esito negativo; Esito=1 corrisponde a esito positivo; Terapia=1 è la terapia farmacologica; Terapia=2 sta per terapia integrata

Page 37: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

3a Una volta calcolate le frequenze attese per ogni cella si calcolano i punti z dei residui (dividendoli per la radice quadrata delle frequenze attese)

3b Dato il modello vengono quindi calcolati i parametri che divisi per il loro SE diventano punti z

Analisi Log lineareAnalisi Log lineare

Page 38: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Calcoliamo ad esempio la stima del parametro 2 relativo alla probabilità di avere un esito negativo avendo effettuato una terapia farmacologica (terapia =1 esito = 0). Per calcolare questa probabilità devo togliere dalla media generale gli effetti dovuti ai fattori terapia, tipo di personalità ed esito.

Analisi Log lineareAnalisi Log lineare

Page 39: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

• Per verificare se il modello rappresenta sufficientemente i dati si può considerare il test sull’ipotesi nulla che λ sia uguale a zero attraverso i limiti di falsificazione della distribuzione z (+-1.96)

Analisi Log lineareAnalisi Log lineare

Page 40: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Analisi Log lineareAnalisi Log lineare4. Valutazione della bontà del 4. Valutazione della bontà del

modellomodelloIl Goodness of fit test è basato sul Χ2 e testa la probabilità che quel particolare modello (Fij ) rappresenti bene i dati sperimentali (Fij ). È calcolato tramite la formula:

 

i j ijF

ijFFijˆ

ˆ 2

2

Page 41: Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Analisi Log lineareAnalisi Log lineare

Il Likelyhood ratio test: la probabilità che raccolti quei dati sperimentali essi siano generati dal modello ed è dato dal logaritmo del rapporto fra valori sperimentali e teorici per tutte le possibili condizioni.

i j ij

ij

F

FFL

ˆln22