Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica La regressione logistica binomiale La differenza essenziale (anche

Teoria e pratica della valutazioneLaboratorio – Lezione XIVLa regressione logistica

La regressione logistica binomiale

La differenza essenziale (anche se non unica) tra la regressione logistica binomiale e la regressione lineare consiste nella natura della variabile dipendente; nel caso questa sia dicotomica (oppure dicotomizzata ai fini dell’analisi) non è infatti possibile ipotizzare una sua distribuzione normale: se Y è dicotomica la sua distribuzione è binomiale, dunque la sua stima dovrà variare tra 0 e 1 e non tra - infinito e + infinito come le stime della regressione lineare.

Lo scopo è descrivere la relazione di dipendenza del possesso di un attributo dicotomico da una o più variabili indipendenti (X1, X2, ..., Xp)=X, dove:

Y -> dicotomica (X1, X2, ..., Xp)=X -> dicotomiche, nominali, ordinali, cardinali

(Fabbris, 1997)


Perché la regressione logistica?

La regressione lineare la variabile che si ipotizza funzione di X è il valore medio aritmetico della variabile dipendente Y condizionato ad un dato valore di X: E(Y|x). Si assume una distribuzione degli errori normale (con media nulla e varianza costante).

Nel caso la variabile dipendente sia dicotomica il valore medio condizionato corrisponde a P(Y=1|x): cioè alla probabilità di possedere l’attributo in esame condizionata al fatto che il vettore delle variabili indipendenti assuma valore x (indicata con π(x)).

Y = π(x) + εda cui

ε=Y - π(x)

L’errore può quindi assumere solo due valori:Se Y=1 ε=1 - π(x) Se Y=0 ε= - π(x)

•con media E (ε ) = [1 − π ( x )]π ( x ) − π ( x )[1 − π ( x )] = 0•e varianza V(ε)=[1−π(x)]2π(x)+π(x)2[1−π(x)]=π(x)[1−π(x)] che dipende da x e dunque non è costante.

Il logit serve a descrivere una funzione che lega la probabilità di Y alla combinazione delle variabili indipendenti X: la probabilità infatti ha come limiti 0 e 1 e descrive una figura a S (sigmoide) che assomiglia alla cumulata della distribuzione casuale degli errori chiamata “funzione logistica”.

Il logit non è l’unica funzione in grado di modellizzare la probabilità di un fenomeno, ma è privilegiata essendo una trasformata del rapporto tra due probabilità complementari (odd).


La funzione logistica


La regressione logistica

La stima di Y nella regressione logistica assume il significato di probabilità che Y sia uguale a 1:

P(Y=1|x)=π(x)

La funzione di regressione logistica é così espressa:

Dove logit(π(x)) è il logaritmo naturale del rapporto tra la probabilità di 1 e la probabilità di 0 dato il vettore (x), cioè la/le variabili predittive:


La regressione logistica

Dunque è possibile descrivere la funzione di dipendenza della probabilità π(x) dai valori di X utilizzando una funzione logistica:

Nel caso si abbia più di una variabile indipendente la funzione è la stessa:

Una volta stimati i parametri è possibile ricavare la probabilità che Y sia 1 per ogni valore assunto dall’insieme delle variabili indipendenti.


Le variabili indipendenti

X dicotomica: β misura la variazione del logit dovuta al possesso della proprietà descritta dalla variabile indipendente;

X categoriale/ordinale: è possibile ricondurre le k modalità di X a k-1 variabili dummy, selezionando una delle modalità come gruppo di riferimento (considerandola cioè come lo 0 delle dicotomiche) quindi è possibile calcolare l’odds ratio di ogni gruppo rispetto a quello di riferimento ed è pari a eβ1,i;

X continua: l’odds ratio corrispondente ad un incremento unitario di X è pari a eβi;


Le variabili indipendenti


Come si stimano i parametri?

La stima dei parametri ignoti β non può essere effettuata con il metodo dei minimi quadrati dato che non vale l’omoschedasticità dei residui.

La stima si effettua con il metodo della massima verosimiglianza che si basa sulla probabilità di osservare l’insieme di dati osservato in funzione di β. La funzione di verosimiglianza L si ottiene invertendo i ruoli di X e Y; ovvero interpretando Y come l'informazione nota (cioè il punto di vista della stima):

Per ottenere la stima della massima verosimiglianza dei parametri si determina il valore di β che massimizza il logaritmo di L(β) (detto log-verosimiglianza). L’individuazione dei parametri non è immediata, ma richiede l’applicazione di calcoli iterativi fino alla massimizzazione della verosimiglianza.

Il pratica cerchiamo di trovare i valori dei parametri che possono aver prodotto con la maggiore probabilità i dati osservati.


Problemi di calcolo nelle stime

Alcune caratteristiche dei dati in analisi possono creare dei problemi nel calcolo delle stime dei parametri. In particolare ci sono problemi di questo tipo se:•l’errore standard dei parametri risulta eccessivo rispetto al valore dei parametri stimati•le stime di β aumentano rapidamente all’aumentare delle iterazioni necessarie per la stima.

Ci possono essere problemi se:1.Una frequenza è nulla (cioè se c’è una cella vuota nell’ipotetica tabella di contingenza tra tutte le variabili inserite nell’analisi);2.L’insieme delle variabili indipendenti discrimina perfettamente il gruppo di unità per cui Y=0 da quello per cui Y=1;3.Le variabili esplicative sono collineari (ossia almeno una di loro è esprimibile come funzione lineare delle altre.


Verifica della bontà del modello complessivo

La -2 Log-verosimiglianza permette di valutare il modello attraverso il confronto con un modello saturo (che si adatta perfettamente ai dati, con verosimiglianza pari a 1). Aumentando il numero di variabili del modello il suo valore diminuisce fino al livello teorico di 0 per il modello saturo, ma in generale valori piccoli indicano un buon adattamento ai dati.

Gli pseudo R2 sono misure descrittive, per le quali non si hanno test di significatività, create per ottenere dei valori interpretabili nello stesso modo in cui si interpreta l’R2 nella regressione lineare. Il software SPSS riporta gli:•L’R2 di Cox e Snell rapporta essenzialmente la verosimiglianza del modello con la sola intercetta alla verosimiglianza del modello corrente;•L’R2 di Nagelkerke, viene standardizzato così che abbia come massimo 1 (rapportando l’ R2 di Cox e Snell ottenuto sul modello corrente all’ R2 di Cox e Snell massimo, cioè il complemento a uno della verosimiglianza del modello con la sola intercetta. Tanto più grandi risultano questi valori tanto più i valori predetti dal modello si approssimano a quelli osservati.


Verifica della bontà del modello complessivo

Esiste inoltre (e Spss ne fornisce valore e significatività) un chi-quadrato che rappresenta il rapporto di verosimiglianza fra il modello di regressione in esame ed il modello con la sola costante: viene testata l’ipotesi che tutti i parametri siano pari a 0. I gradi di libertà del rapporto di verosimiglianza in questo caso sono pari al numero di variabili del modello per cui si evita di riportarlo in tabella. Il modello considerato può essere accettato se il p-value osservato è ridotto.


Valutazione del modello

L’efficacia predittiva del modello può essere valutata osservando:•la percentuale di casi classificata nella classe corretta •La sensibilità (la proporzione di migliorati correttamente classificati) •La specificità (la proporzione di peggiorati correttamente classificati).

Una misura più precisa della capacità predittiva del modello non rapporta i casi classificati correttamente al totale dei casi, ma utilizza come riferimento i casi non classificati dal modello con la sola intercetta. Questa misura, che indicheremo con il simbolo λ rappresenta la percentuale di casi non classificati dal modello con la sola intercetta che vengono classificati correttamente dal modello calcolato.

(Ncorr-modello – Ncorr-intercetta) *100= λ(Ntot - Ncorr-intercetta)


Sensibilità: (100/(423+508))*508 = 54,56%

Specificità: (100/(489+337))*489 = 59,02%

λ= [((489+508)-931)/(826)]*100 = 7,99%


I coefficienti βL’interpretazione sostantiva dei coefficienti β non è per nulla immediata, si tratta infatti di interpretare il logaritmo del rapporto di associazione (odd ratio) tra due variabili.

Risulta indubbiamente meno complessa l’interpretazione del rapporto di associazione: l’Exp(β), cioè l’antilogaritmo di β, che almeno non presenta il logaritmo, ma:•l’Exp(β) non ha segno, la relazione è positiva se questo valore è maggiore di uno, negativa se il valore è compreso tra 0 e 1;•i valori non risultano simmetrici (una probabilità doppia in caso di relazione positiva è pari a 2, in caso di relazione negativa è pari a 0,5);•i valori di Exp(β) non possono essere confrontati calcolando delle differenze, ma è necessario fare riferimento a dei rapporti.

E’ consigliabile normalizzare l’Exp(β): [Exp(β)-1]*100, in modo tale da rendere negativi i valori compresi tra 0 e 1 permettendo di individuare immediatamente la direzione della relazione, e di leggere i valori in termini di percentuali, ponendo a 100 la probabilità della modalità di contrasto.

L’interpretazione degli Exp(β) e dei coefficienti β non va mai fatta in termini di probabilità, ma sempre in termini di odds, rapporti di probabilità.


I coefficienti β

La statistica Wald e il livello di significatività corrispondente testano la significatività di ciascuna delle indipendenti nel modello. La statistica di Wald è pari al rapporto tra la B coefficiente di logistica per il suo errore SE standard, al quadrato. Se la statistica Wald è significativa (cioè ha un p value minore di 0,05) allora il parametro è significativo nel modello.


Confondimento e interazioniNel caso, frequente nelle scienze sociali, che le variabili indipendenti non siano ortogonali tra loro potremmo trovarci di fronte a situazioni di confondimento o interazione:•Se una certa variabile risulta confondente (modello della specificazione) rispetto al rapporto tra un’altra variabile indipendente e la variabile dipendente è sufficiente inserirla nel modello per poterne controllare l’effetto, •per poter controllare le interazioni è invece necessario inserire nel modello una variabile che combina le due variabili che potrebbero interagire.

Inserire le interazioni nel modello ha dei costi:•inserire nei modelli un numero elevato di predittori può comportare la presenza di frequenze nulle negli incroci, e queste danno luogo a coefficienti inattendibili (valori dei coefficienti β pari a più o meno infinito);•il significato dei predittori costruiti al fine di controllare le interazioni non è di lettura immediata;•l’inserimento nel modello di queste variabili modifica il rapporto crociato delle variabili: sesso ed età, nel caso di interazione sarebbero entrambi presenti due volte nel modello, ed il loro effetto andrebbe valutato leggendo insieme il parametro della variabile considerata singolarmente (che però non ne esprimerebbe più l’effetto globale) e quello della variabile costruita per valutare l’interazione.


A che serve la regressione logistica?

L’applicazione della regressione logistica ha alcuni contesti applicativi in comune con la regressione lineare, ma anche alcuni che le sono propri (come la stima dei rischi relativi). I contesti applicativi della regressione logistica sono:

•Ricerca di determinanti (fattori di rischio e fattori di protezione)

•Discriminazione, assegnazione di unità a gruppi

•Previsione

(Fabbris, 1997)


La logistica su SPSSSPSS rende possibile la scelta tra diverse opzioni sia per:•il metodo di inserimento delle variabili (Enter, Stepwise in avanti, Stepwise all’indietro), •il calcolo delle stime (massima verosimiglianza, test di Wald o condizionale), •la scelta del metodo di contrasto per le variabili categoriche (indicatore, ripetuto, ecc…).

Esempio: il metodo stepwise:1.stima la funzione di verosimiglianza ed i parametri per il modello con la sola intercetta;2.sulla base di questa stima calcola i parametri e la loro significatività per ogni variabile immessa nel modello;3.seleziona la variabile con la minore significatività e se questa significatività risulta minore della probabilità minima per l’inserimento nel modello (0,05) aggiorna le stime ricalcolandole includendo la nuova variabile;4.viene selezionata la variabile più significativa e se questa significatività risulta minore della probabilità per la rimozione dal modello (0,10), la variabile viene rimossa ed i parametri ricalcolati per l’inserimento di una nuova variabile, altrimenti viene selezionata direttamente una nuova variabile da inserire nel modello;5.il procedimento si ripete per tutte le variabili immesse, finché non è più possibile includere o escludere variabili dal modello calcolato.


La logistica su SPSS

SPSS permette di inserire le variabili per blocchi, e di osservare la verosimiglianza dei modelli, i parametri calcolati e la loro significatività, e le tabelle di classificazioni per determinati sottoinsiemi delle variabili indipendenti. Questa funzione è estremamente utile, ad esempio per osservare la significatività delle singole variabili esplicative, prima di verificare la presenza di interazioni; è possibile inserire questi due tipi di variabili in due blocchi successivi.

Il programma di analisi permette inoltre di determinare le stime su un dato gruppo sulla base dei parametri calcolati su un altro gruppo : il software calcola i parametri solo sui casi che presentano quella caratteristica, e sulla base del modello ottenuto fornisce una stima della variabile dipendente per i casi non selezionati.

Documents

Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica La regressione logistica binomiale La differenza essenziale (anche