Scopo della lezione Regressione lineare multipla –Cosè –Scopi dellanalisi della regressione...

Preview:

Citation preview

Scopo della lezione

• Regressione lineare multipla

– Cos’è

– Scopi dell’analisi della regressione

• Quando si applica?

– condizioni di applicabilità

– utilità

• Coefficienti della regressione: quali sono gli indicatori utili?

• Interpretazione dei risultati dell’analisi della regressione

Cosa è l’analisi della regressione multipla?

Tecnica che consente di analizzare il contributo di più variabili (predittori) su una variabile dipendente (criterio)

ovvero

Regressione multipla Regressione semplice

X1

X2

Xk

….

Y

X Y

Scopi dell’analisi della regressione

• Predittivo: sulla base delle correlazioni tra i predittori e tra i predittori e il criterio si cerca di prevedere la risposta dei soggetti alla variabile criterio

• Causale: individuazione delle variabili che spiegano la risposta dei soggetti alla variabile criterio

• Come nella ANOVA lo scopo dipende dalla pianificazione sperimentale:

– Variabili differenziali e variabili indipendenti

Analisi della regressione

• La regressione scompone la variabilità totale in variabilità spiegata dalla regressione e variabilità residua.

• La regressione generalmente non opera sui gruppi ma su variabili continue

Anova e Regressione

• Scopo predittivo: le persone che vivono in città sono più stressate delle persone che vivono in campagna.

G1 (cittadini) O1 (stress)G2 (contadini) O2 (stress)

H0: 1 = 2 ; H1 : 1 > 2 • Regressione: Lontananza dal centro urbano (in Km) Stress

• H0: = 0 ; H1 : < 0

• N.B. Nella regressione può essere utilizzato lo stesso disegno della ANOVA, trattando le variabili qualitative come variabili dummy. Anche in questo caso le ipotesi saranno formulate relativamente alla relazione

Anova e Regressione

• Scopo causale: le persone che vivono in città sono più stressate delle persone che vivono in campagna.

Anova:

G (cont.) O1 (stress) X(avvicinamento alla città per 6 m.) O2 (stress)

H0: 1 = 2 ; H1 : 1 < 2

Ovvero

H0: = 0 ; H1 : > 0

Passi fondamentali dell’analisi della regressione

• Selezione delle variabili

• Individuazione del modello di analisi della regressione

• Stima dei parametri

• Interpretazione dei risultati

Selezione delle variabili

• Decisione relativa al tipo di variabili

– Assunzioni di normalità della distribuzione delle Y per ogni X

– Assunzione di omeoschedasticità dei residui

– Assunzione di assenza di multicollinearità nella popolazione: le variabili predittori non devono essere correlate tra loro

La regressione multipla

• E’ la combinazione lineare dei predittori atta a massimizzare la correlazione con la variabile dipendente (criterio)

• La combinazione si ottiene mediante il metodo dei “minimi quadrati”, che consente di minimizzare la somma dei quadrati delle differenze tra Y e Y’ ovvero massimizzare la loro correlazione.

• I parametri stimati tramite questo metodo individuano un piano o un iperpiano a k - 1 dimensioni

La retta di regressione

Y

X

Y’ = a +b Xa = altezza del punto di incontro del piano con l’asse delle Yb = funzione dell’angolo della inclinazione del piano con la variabile X

a

Y1

Y’1

Y’2

Y’3

Y’4

Y4Y3

Y2

∑ (Yi -Y’i)2= minima

Il piano di regressione

Y

X2

X1

Y’ = a +b1 X1+b2X2 a = altezza del punto di incontro del piano con l’asse delle Yb1 = funzione dell’angolo della inclinazione del piano con la variabile X1b2 = funzione dell’angolo della inclinazione del piano con la variabile X2

∑ (Yi -Y’i)2= minima

Y1

Y’1

Y’2

Y’3

Y3

Y2

I coefficienti di regressione

• Equazione di regressione multipla Y’ = a + b1 X1+ b2X2 + ….. + bkXk

• a = intercetta o termine costante

• bi = coefficienti di regressione parziale tra le variabili prese a coppie, è il rapporto tra la covarianza (tra Y e Xi) e la varianza della variabile Xi.

E’ dunque un indice di dipendenza di Y da Xi. Differentemente dalla regressione semplice sono direzionali.

• Xi = variabili predittori

I coefficienti b parziali

• Possono essere considerati coefficienti di correlazione parziale. Rappresentano l’inclinazione dell’iperpiano di regressione nella dimensione della corrispondente variabile indipendente, mantenendo costanti tutte le altre.

bij.k = bij- (bik) (bkj) / 1- bjk bkj

• Rappresenta il mutamento ipotetico che si verificherebbe nella variabile Y se una delle variabili indipendenti fosse cambiata di una unità e le altre variabili indipendenti restassero costanti

Scomposizione della devianza

devianza totale

n-1

Devianza dovuta alla regressione Devianza residua

k n-k-1

∑ (Y’- Ymedio)2 ∑ (Y- Y’)2

• Si può controllare probabilisticamente tramite il test F la significatività della relazione. L’indicatore che si utilizza per misurare e quantificare la relazione è il coefficiente di correlazione multipla al quadrato (R2), ovvero il coefficiente di determinazione.

R2 = SQ spiegata / SQ totale

Il coefficiente di correlazione multipla

• E’ il rapporto tra la devianza dovuta alla regressione e la devianza totale, ovvero è la proporzione di variabilità totale spiegata dall’insieme dei predittori. Rappresenta la correlazione tra due distribuzioni, quella della variabile criterio Y e quella della variabile predetta Y’.

• E’ sempre superiore a quello tra le singole variabili

• Aumenta all’aumentare della correlazione tra le singole variabili indipendenti e la dipendente

• Aumenta al diminuire della correlazione tra le variabili indipendentiY

X X

Coefficienti di correlazione

• Coefficiente di correlazione parziale: indica la relazione tra due variabili avendo eliminato l’effetto delle altre. Non è unico, dipende da quali variabili vogliamo parzializzare.

• Correlazione parziale tra X1 e Y

Y

X1 X2

Altri coefficienti di correlazione

• Coefficiente di correlazione semiparziale: indica la relazione tra una variabile predittore e il criterio avendo eliminato l’effetto delle altre sul predittore, ma non elimina la relazione che le altre variabili predittori hanno con il criterio.

Y

X1 X2

Scomposizione della devianza

Devianza totale

Devianza dovuta alla regressione Devianza residua

Devianza X1 Devianza X2 Devianza Xk

Ogni variabile X ha il suo coefficiente , che si distribuisce come una t di student con n - k - 1 gdl

Procedure per selezionare i predittori

Forward• Calcola la correlazione tra ciascun predittore e il criterio: quello con la

più alta correlazione entra per primo nell’analisi. I predittori successivi vengono introdotti nell’analisi in base al quadrato della correlazione semiparziale con il criterio, ovvero sono i predittori che incrementano R2

• La procedura termina quando un predittore non fornisce un incremento significativo

• N.B. una variabile già entrata nell’equazione non viene più rimossa anche se il suo contributo diminuisce per effetto dell’entrata di un altro predittore

Procedure per selezionare i predittori

Backward

• Procede per eliminazione: calcola il coefficiente di correlazione multipla al quadrato considerando tutte la variabili predittore. Elimina una variabile alla volta tenendo presente la conseguente modificazione di R2.Se la modificazione è irrilevante il predittore viene eliminato definitivamente

• N.B. Il contributo di ogni predittore è valutato alla luce degli altri.

Procedure per selezionare i predittori

Stepwise

• Variazione della procedure forward: il contributo di ciascun predittore viene valutato nuovamente ad ogni passo, eliminando quelli che comportano una riduzione dell’ R2.

• N.B. Il contributo di ogni predittore è valutato alla luce degli altri.

Applicazione della analisi della regressione

Ipotesi di ricerca: le variabili potrebbero predire un disturbo OC

Predittori Criterio

Genitori Controllanti

Genitori severi Disturbo ossessivo-

complusivoResponsabilità

Depressione

H0: = 0 ; H1: 0

Estrazione dei predittori: quali predittori selezionare?

Metodo della regressione stepwise

Disturbo ossessivo-compulsivoDisturbo ossessivo-compulsivo

DepressioneDepressione

ResponsabilitàResponsabilitàSeveritàSeverità

ControlloControllo

??

?

Estrazione dei predittori: quali predittori estrarre?

Metodo stepwise

• Step1. Variabili entrate al primo passo

R multiplo 0.23

R2 0.05

Adjusted R2 0.04

Standard Error 15.01

F = 3.93 p= 0.02

• Variabili nell’equazione

Variabili B SE Beta Beta t p

Controllo 2.75 1.22 .34 1.920.02

Estrazione dei predittori: quali predittori estrarre?

Metodo stepwise• Step 2 Variabili entrate

R multiplo 0.49R2 0.24Adjusted R2 0.20Standard Error 13.7F = 4.81 p= 0.0001

• Variabili nell’equazioneVariabili B SE Beta Beta t pControllo 3.92 0.06 0.13 2.16 0.02Responsabilità 0.61 0.11 0.39 3.51 0.0005

Estrazione dei predittori: quali predittori estrarre?

Metodo della regressione stepwise: risultati

Disturbo ossessivo-compulsivoDisturbo ossessivo-compulsivo

DepressioneDepressione

ResponsabilitàResponsabilitàSeveritàSeverità

ControlloControllo

=0.13

=0.39

Estrazione dei predittori: quali predittori estrarre?

Metodo della regressione gerarchica

Controllo Severità

Responsabilità Depressione

Disturbo ossessivo-compulsivo

Estrazione dei predittori: quali predittori estrarre?

Metodo della regressione gerarchica

PredittoriPredittori

Step 1 Metodo enter: forzo le variabili ad entrare nella regressione

Controllo

Severità

Depressione

Step 2 Metodo enter:

Responsabilità

CriterioCriterio

Disturbo ossessivo-compulsivo

Predittori: criteri generali

Metodo enter: regressione gerarchica• Step1

• R multiplo 0.58

• R2 0.34

• Adjusted R2 0.31

• Analisi della varianza GDL Devianza Varianza

• Regressione 3 3687.42 1229.14

• Residuo 137 32382.7 236.37

• F = 5.20 p= 0.0001

• Variabili nell’equazione

• Variabili B SE Beta Beta t p

• Controllo 3.92 0.65 .13 1.98 0.02

• Severità 1.12 0.34 .44 1.3 0.09

• Depressione 2.56 0.17 .27 1.57 0.06

Predittori: criteri generali

Metodo enter: regressione gerarchica• Step2

• R multiplo 0.72

• R2 0.52

• Adjusted R2 0.50

• Analisi della varianza GDL Devianza Varianza

• Regressione 4 12088.2 3022.04

• Residuo 136 67377.1 495.42

• F = 6.10 p= 0.0001

• Variabili nell’equazione

Variabili B SE Beta Beta t p

Controllo 1.78 0.09 0.15 1.61 0.06

Severità 0.98 0.27 0 .38 1.4 0.09

Depressione 1.54 0.21 0 .32 1.52 0.06

Responsabilità 2.75 0.17 0.41 2.38 0.001

Estrazione dei predittori: quali predittori estrarre?

Metodo della regressione gerarchica: risultati

Controllo Severità

Responsabilità Depressione

Disturbo ossessivo-compulsivo

Riepilogando

• La regressione multipla è una tecnica di analisi multipla che predice i punteggi di una variabile criterio a partire da K variabili predittori

• Il coefficiente R2 indica la quantità di varianza spiegata o predetta dalla regressione

• Tramite il test F possiamo sottoporre a verifica l’ipotesi di regressione

• Tramite il test t possiamo sottoporre a verifica l’ipotesi di previsione di un predittore rispetto al criterio, all’interno della regressione multipla (H0: =0; H1: <>0)

• Più sarà dettagliato e pianificato il disegno di ricerca migliori saranno i modelli di analisi della regressione

Recommended