29
La regressione multipla lineare

La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

Embed Size (px)

Citation preview

Page 1: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

La regressione multipla lineare

Page 2: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi di un'altra variabile. Invece con la correlazione si quantifica la forza di tale associazione mediante il cd coefficiente di correlazione "r" di Pearson.Trattandosi di un test parametrico e' necessario che siano soddisfatti alcuni assunti come la distribuzione normale delle variabili (soprattutto della variabile dipendente), l'uguale varianza e infine una reale indipendenza fra le variabili indipendenti.

Page 3: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

Facciamo un esempio:valutiamo se il salario iniziale (all’assunzione nella ditta) e quello attuale degli impiegati di una ditta e' correlato a varie caratteristiche degli impiegati come il tempo di permanenza nella ditta, l'educazione, l'esperienza di precedente lavoro, il sesso, la razza.

Prima di esaminare un modello statistico che metta in relazione il salario iniziale ad altre variabili, consideriamo la correlazione fra "ATTUALE" (y o var. dip.) e "INIZIALE" (x o var. indip.) e disegniamola con il comando PLOT

Page 4: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

. ....

.

.

.

.

..

..

.

.

.

..

..

.

.

TTUALE

INIZIALE (x o var. indip.)

(y ovar.dip.)

A

.

Page 5: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

In tal modo e' possibile vedere il tipo di funzione matematica che meglio spiega il modello: lineare, parabolico, polinomiale, trigonometrico, etc (naturalmente si puo' cercare di trasformare in lineare una curva non tale). L'equazione della linea retta e':

y=B0 + B1x1

dove B1 e' detto slope (o pendenza o coeff. angolare della retta) e B0 intercetta (essa rappresenta nell'esempio il punto stimato del salario attuale se il soggetto avesse un salario iniziale di 0).

Page 6: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

Comandi SPSS

Il comando SPSS nella forma piu' semplice (con 2 variabili) e':REG VAR=varx vary/DEPENDENT=vary /METHOD=ENTER.

Nel caso di piu’ variabili si aggiungono queste dopoil comando VAR:REG VAR= sal_iniz sal_attu anniperm educaz

esperien sesso razza /DEP=sal_attu/METHOD=STEP.

Page 7: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

L'output dell'SPSS mostra:•R multiplo: nel caso di 2 variabili corrisponde al

coefficiente r di Pearson;

•R quadro (R2) o coeff. di determinazione (cioè il quadrato di R multiplo): rappresenta una misura della bontà del modello lineare; se e' 0 non vuol dire che fra le variabili non c'e' associazione, ma solo che non vi e' correlazione "lineare"; inoltre esso rappresenta la percentuale di varia-zione nella variabile dipendente "spiegata" dal modello (ad es se R multiplo e' 0.88 e quindi R2 e' 0.774 vuol dire che il 77.4 % della variazione della var. dipendente e' "spiegata" dal nostro modello di regressione); in altre parole esso da' una valida indicazione di quanto una retta sia adatta a descrivere la relazione tra 2 variabili;

Page 8: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

•Adjusted R2 : e' l'R2 corretto a seconda del numero delle var. indipendenti;

•L'analisi della varianza: se significativa indica che esiste una correlazione lineare fra la variabiledipendente e le variabili indipendenti;

•I coeff. B con accanto i relativi SE: in alto e' lo slope e nella riga in basso l'intercetta;

Page 9: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

•Il coefficiente beta, cioe' il coeff. di regressione standardizzato (beta=B * DSx/DSy): esso e' un coefficiente indipendente dalle unita' di x e y (e', cioe', adimensionale) in quanto le variabili indipendenti sono espresse in forma standar-dizzata (Z-score) e corrisponde all' "r" di Pearson quando esiste una sola variabile indipendente; se le variabili indipendenti sono diverse e' quindi possibile (ma entro certi limiti!) comparare fra di loro i coeff. delle varie var. indipendenti alla ricerca di quelli piu' importanti;

Page 10: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

•Nelle ultime due colonne viene riportato il "t" e la sua significativita' sia per lo slope (riga in alto) che per l'intercetta (riga in basso); la sua significativita' indica che lo slope (o l'intercetta) sono diversi da 0 e quindi che esiste una correlazione lineare fra X e Y.

Page 11: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

Anche per i valori dello slope e dell'intercetta esiste tutta una popolazione di possibili valori corrispon-denti a tutti i possibili campioni di numerosita' data: tale distribuzione e' gaussiana e ha quindi una DS e uno SE. Quindi possono essere usati sia per creare ipotesi di confronto (t di Student, analisi della varianza) sia per calcolare intervalli di confidenza. Nel caso si vogliano questi si deve aggiungere l'opzione /STAT=CI/; se si vuole un confronto fra 2 pendenze si usa la formula del t di Student: (SLOPE1-SLOPE2)/ ((DS2x/nx) + (DS2y/ny))

Page 12: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

MODELLI DI REGRESSIONE MULTIPLA CON PIU' DI 2 VARIABILI

INDIPENDENTI.

Se l'R2 fra due variabili e' 0.774 cio' indica che il 77.4 % della variabilita' osservata puo' essere spiegata dalla variabile "X"; ma se le variabili indipendenti sono piu' di due quanto influiscono singolarmente?

Con la regressione multipla è possibile valutare ciò.

Page 13: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

Un primo approccio e' calcolare la matrice di correlazione fra tutte le variabili con il sottocomando /STAT=CORR/ da dare subito dopo il sottocomando /VAR. Variabili come sesso e razza (dette variabili "indicatrici") e' bene codificarle come 0 e 1.

La matrice di correlazione puo' dare l'importanza relativa delle variabili: piu' e' alto il valore assoluto del coefficiente di correlazione, piu' e' alta l'associa-zione lineare.

Page 14: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

Quando possibile, vanno evitate due variabili fortemente intercorrelate (forte "collinearità") in quanto tali variabili contengono informazioni simili ed e' quindi difficile distinguere gli effetti dovuti ad ognuna di esse singolarmente.

Con il sottocomando /STAT=TOLL/ abbiamo la tolleranza, cioe' una misura della collinearita'. Se la tolleranza e' piccola (ad es < 0.1) allora la variabile risulta una combinazione lineare delle altre variabili indipendenti. Anche il sottocomando /STAT=COLL/ dà una diagnostica della collinearità.

Page 15: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

Anche nel caso di una regressione con piu' variabili sia un R2 elevato che un'analisi della varianza significativa stanno ad indicare che esiste una forte relazione lineare fra la var. dipendente e il set di var. indipendenti.

Anche il T e la sua significativita' riferiti ai coeff. B (detti coeff. parziali di regressione) indicano la probabilita' che ogni singola variabile intervenga nella spiegazione lineare della variabile dipendente.

Page 16: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

In una delle tabelle di output l'SPSS sotto il nome di B evidenzia il coeff. parziale di regressione per ognuna delle variabili: il nome deriva dal fatto che il coeff. per una determinata variabile e' "aggiustato" per le altre variabili indipendenti. Esso può essere interpretato come la correlazione fra la variabile indipendente "x" e la var. dipendente quando gli effetti lineari delle altre variabili indipendenti sono stati rimossi. E' però scorretto usare i valori di B come indicatori di importanza, perche' essi dipendono dall'unita' di misura delle variabili.Il confronto può invece essere fatto in maniera piu' corretta se tutte le variabili indipendenti hanno la stessa unità di misura, cioè se si usano i coeff. beta.

Page 17: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

Il modo, pero', piu' corretto per verificare quanto sia importante una variabile introdotta nel modello e' quello di calcolare il c.d. Rchange, cioe' l'incremento di R2 che si ottiene introducendo la nuova variabile, e il c.d. coefficiente di correlazione parziale che corrisponde al coefficiente di correlazione tra la var. dipendente e la var. indipendente quando sono eliminati tutti gli effetti delle altre variabili. Il sottocomando /STAT= permette di calcolare ciò: /STAT=R CHANGE ZPP F/ oppure /STAT=ALL/ . Piu' in particolare: R calcola i valori totali di R2; CHANGE calcola i valori di Rchange e Fchange; ZPP calcola i coeff. di correlazione "part" e "partial"; F calcola i valori F per i coefficienti B al posto del T.

Page 18: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

Nel caso delle var. "indicatrici" i coefficienti possono essere interpretati come percentuali. Ad es. se il sesso (F=1;M=0) interviene con un B=-0.10 cio' vuol dire che il "SAL_INIZ" delle femmine e' circa il 10% meno che quello dei maschi dopo l'aggiustamento statistico per le altre variabili indipendenti.

Page 19: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

COSTRUIRE UN MODELLO

Inserire molte variabili non e' in genere una buona strategia, anche perche' i risultati sono difficili da interpretare; del resto e' bene non escludere a priori variabili potenzialmente rilevanti. Lo scopo e' quello di costruire un modello conciso, ma che renda possibili buone predizioni.

Page 20: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

Si possono costruire una varieta' di modelli di regressione con lo stesso set di variabili. Per es. con tre variabili indipendenti si possono costruire 7 differenti equazioni (1023 modelli con 10 variabili): 3 con una var. alla volta, 3 con 2 var. alla volta e 1 con tutte e tre le var. Per ridurre le variabili solo a quelle che possono essere delle buone predittrici della var. dipendente si usano tre procedure: •FORWARD selection, •BACKWARD elimination •STEPWISE (nessuna e' "la migliore" in senso assoluto).

Page 21: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

Nella FORWARD selection la prima variabile che entra nell'equazione e' quella che ha la correlazione piu' alta (pos. o neg.) con la var. dipendente.

FORWARD SELECTION

Page 22: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

Se la prima variabile selezionata per l'ingresso soddisfa il criterio per l'inclusione la FORWARD selection continua, altrimenti la procedura termina senza variabili nell'equazione. Quando una variabile e' entrata la statistica per le variabili non nell'equazione sono usate per selezionare le prossime. Viene calcolata la correlazione parziale fra le variabili dipendenti e ognuna delle var. indipendentinon nell'equazione: la candidata prescelta e' la variabile con la piu' alta correlazione parziale.

Page 23: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

BACKWARD ELIMINATION

Nella BACKWARD elimination si parte con tutte le variabili nell'equazione (mentre nella FORWARD selection si parte con nessuna var. nell'equazione) e sequenzialmente si rimuovono. Nel 1° passo si esamina per prima la variabile con il piu' piccolo coeff. di correlazione parziale e quindi viene eliminata. L'equazione e' quindi ricalcolata senza questa variabile e così via.

Page 24: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

STEPWISE SELECTION

La STEPWISE selection e' una combinazione di procedure BACKWARD e FORWARD e rappresenta la piu' usata.

METODO ENTER

Nel metodo ENTER entrano tutte le variabili contemporaneamente nell'ordine che abbiamo dato inizialmente.

Page 25: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

Comandi e sottocomandi dell’ SPSS

REG VAR= sal_iniz sal_attu anniperm educaz esperien sesso razza /DEP=sal_attu/METHOD=STEP.

VAR= elenco di tutte le variabili/DEPENDENT= nome della variabile dipendente/METHOD = tipo di metodo (STEP o FORW o BACK

o ENTER)

Page 26: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

Altri sottocomandi

/DESCRIPTIV (da dare dopo il sottocomandoVAR) si ha per default la media, la DS e la matrice di correlazione; se si usa DES=ALL si ha tutta la statistica descrittiva; con DES=DEF,N,SIG si ha la statistica di default, n (numero casi) e la signif. dei coeff. di correlazione).

/SELECT serve per selezionare un set di casi prima di calcolare l'equazione di regressione e deve precedere ogni altro sottocomando.

Page 27: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

/STAT va dato prima del sottocomando /DEP: esso mostra per default l'R multiplo, i coeff. B, beta e il t per il B. Con /STAT=ZPP mostra anche il coeff. di correlazione parziale e con /STAT=HISTORY mostra un report sommario per ogni step. Con /STAT=CHANGE mostra le modifiche nell'R2 fra i vari step.

Page 28: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

/MISSING (che puo' precedere o immediatamente seguire il sottocomando VAR) permette di gestire i valori mancanti. Di default (/MISSING=LIST/) sono eliminati tutti quei casi in cui almeno una delle variabili e' mancante. Altrimenti si puo' scegliere /MISSING=PAIR/ con cui si escludono tutti i casi con valori "missing" accoppiati; o /MISSING=MEAN/ con cui tutti i valori "missing" sono sostituiti dalla media della variabile e utilizzati; o /MISSING=INCLUDE/ con cui sono inclusi nell'analisi i casi con valori "user-missing" (sono esclusi pero' i valori "system- missing").

Page 29: La regressione multipla lineare. Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi

Con il sottocomando /SCATTERPLOT (da mettere alla fine dopo il sottocomando /METHOD) si puo' disegnare (anche se in maniera grossolana) uno scatterplot fra le variabili nell'equazione (la prima e' messa sull'asse verticale, la seconda sull'asse orizzontale). Es.: REGR VAR=c1 c2 c3 c4 c5/MISSING=INCLUDE

/DES=ALL/SELECT sesso=1/STAT=ALL/DEP=c1/MET=STEP/SCAT=(c1,c2)(c4,c5) SIZE (SMALL o

LARGE).N.B.: Un altro metodo per disegnare (sempre in modo grossolano) la regressione e' mediante il comando PLOT: PLOT SYMBOL='*'/FORMAT=REGRESSION

/PLOT eta WITH pressione.