24
Lezione B.8 Regressione lineare TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli

Lezione B.8 Regressione lineare

  • Upload
    nikki

  • View
    104

  • Download
    1

Embed Size (px)

DESCRIPTION

TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli. Lezione B.8 Regressione lineare. In questa lezione. - PowerPoint PPT Presentation

Citation preview

Page 1: Lezione B.8 Regressione lineare

Lezione B.8

Regressione lineare

TQuArs – a.a. 2010/11Tecniche quantitative per l’analisi nella ricerca sociale

Giuseppe A. Micheli

Page 2: Lezione B.8 Regressione lineare

In questa lezione..

In questa lezione ripartiremo dall’interpolazione di una nuvola di punti mediante la spezzata di regressione (funzione che è la migliore di tutte le possibili interpolanti), per poi passare a funzioni rettilinee, magari meno buone, ma capaci di spiegare e di estrapolare.

Faremo la conoscenza con le stime dei parametri di una retta ottenute col metodo dei minimi quadrati. In particolare:

Esamineremo le proprietà di queste stime.

Svilupperemo le procedure di calcolo e di estrapolazione.

Individueremo una idonea misura di goodness of fit.

Accenneremo alla stima della retta con intercetta vincolata.

Confronteremo le stime ottenute con quelle che si ottengono interpolando la retta entro la linea di regressione.

Preciseremo la procedura di calcolo per dati in forma di tabella.

Page 3: Lezione B.8 Regressione lineare

La linea di regressione ha davvero scarso appeal

Ben consapevoli di non trovare la migliore interpolante possibile, preferiamo allora cercare non una generica funzione, ma la retta

Yj = i = a + bxi

che meglio si adatta ai punti del grafico.

La funzione (di qualunque tipo) che si adatta ‘meglio’ ai dati di una nuvola di punti, minimizzando la funzione di perdita, è solo e sempre la spezzata di regressione. Ma francamente, la spezzata è una legge che non soddisfa le nostre esigenze interpretative e decisionali. Per almeno due ordini di motivi:

Perché, essendo una funzione ‘ad assetto variabile’, priva di una sua personalità, non ci consente di cogliere il tipo di relazione tra X e Y (Y cresce con progressione aritmetica o geometrica con X? E’ monotona crescente o ha un picco e poi cala con una forma parabolica, o oscilla in forma sinusoidale?). Non ci consente insomma di individuare una ‘legge semplice e chiara che definisca Y in funzione di X’.

Perché non ci consente di fare simulazioni sul variare di Y per valori non osservati di X (per esempio, data la spezzata di regressione, quale potrebbe essere una performance attesa a 23 o a 24 anni?): non ci consente cioè di estrapolare stime fuori del campo di variazione osservato.

Page 4: Lezione B.8 Regressione lineare

Stimare la retta miglior interpolante

Si tratta insomma di stimare i parametri a (intercetta all’origine) e b (pendenza) della retta che minimizzano la funzione di danno quadratico:

D = D = (y(yjj - - ii))22ffijij = = (y(yjj – a - bx – a - bxii))

22ffijij = min = min

Ma quale retta, tra le infinite possibili che passano entro la nuvola di punti, è quella che meglio vi si adatta, minimizzando D? Proviamo a interpolare tra i dati due possibili regole. La seconda Y**=E(Y) ha una varianza residua elevata VW**=23,4. La prima Y*=180+2X, tracciata ‘a naso’ si adatta assai meglio. Ma sarà la migliore?

210

214

218

222

226

230

17 18 19 20 21 22 23

Xi Yi Y*i= 180+2X i (Yi-Y*i)2 Y**i= 220 (Yi-Y**i)2

18 212 216 16 220 64

18 218 216 4 220 4

18 215 216 1 220 25

19 218 218 0 220 4

19 220 218 4 220 0

20 218 220 4 220 4

20 224 220 16 220 16

21 220 222 4 220 0

21 226 222 16 220 36

22 229 224 25 220 81

19,6 220 9,0 23,4

Page 5: Lezione B.8 Regressione lineare

Stimare col metodo dei minimi quadrati

Si definisce “Metodo dei Minimi Quadrati” (MMQ) quello che consente di stimare la forma analitica dei parametri che minimizzino la funzione D. Si dimostra che le stime ai Minimi Quadrati (LS, least squares) della retta sono:

aYX = intercetta all’origine = mY – bYXmX

bYX = coefficiente angolare = covYX/varX

La retta stimata ai MQ ha la forma analitica:

Quel che c’è di intrigante nel Metodo dei Minimi Quadrati è che per stimare la retta ottima interpolante è sufficiente avere a disposizione quattro soli parametri statistici empiricamente calcolabili.

Di questi uno solo (la covarianza) ha a che fare con la distribuzione congiunta (Y,X). Gliu altri tre (le due medie e la varianza della variabile indipendente, o esplicativa) sono addirittura parametri univariati!

xx

yxy

x

yxx

x

yxyyxyx mXmXmmXbaY

var

cov

var

cov

var

cov

Page 6: Lezione B.8 Regressione lineare

La procedura di calcoloPer stimare la retta ai MQ dobbiamo dunque impiantare la tavola di calcolo già usa-ta per rXY (i quadrati di Y non servono, ma tra poco torneranno utili!!). I calcoli in-termedi sono: mX=19,6; mY=220; m2X=386; VX=1,84; mXY=4317,6; covXY=+5,6.

Quindi bYX=covYX/varX=5,6/1,84=3,04 e aYX=mY–bYXmX=220-(3,04x19,6)=160,35

Nella fattispecie, la retta ai MQ – con pendenza più forte di quella precedente - ha una varianza residua ancora migliore (6,357 vs 9). Si noti un’altra proprietà delle stime Y*i basate sulle stime MQ: esse lasciano inalterata l’intensità totale di Y. Inoltre VY=23,4 e rXY=0,853.

210

214

218

222

226

230

17 18 19 20 21 22 23

Xi Yi Yi2 Xi

2 XiYi Y*i=a+bXi (Yi-Y*i)2

18 212 44944 324 3816 215,13 9,80

18 218 47524 324 3924 215,13 8,23

18 215 46225 324 3870 215,13 0,02

19 218 47524 361 4142 218,17 0,03

19 220 48400 361 4180 218,17 3,33

20 218 47524 400 4360 221,22 10,36

20 224 50176 400 4480 221,22 7,74

21 220 48400 441 4620 224,26 18,16

21 226 51076 441 4746 224,26 3,02

22 229 52441 484 5038 227,30 2,88

19,6 220 48423 386 4317,6 220,00 6,357

Page 7: Lezione B.8 Regressione lineare

Interpolare, estrapolareLa retta ai MQ stimata è Y* = 160,35 + 3,04X. La prima cosa da fare è tracciarla entro il grafico, per ‘vedere’ l’andamento della ‘legge rettilinea’ che associa X a Y.

Per tracciarla basta calcolare i valori teorici Y* corrispondenti a due valori di X agli estremi del grafico (per es.: se X=18 Y*=215,13) e poi congiungerli.

Ma possiamo ora anche ‘estrapolare’ stime dalla funzione. Per esempio, nessun atleta seguito ha 23 anni, ma in base alla nostra funzione possiamo prevedere che a 23 anni la performance possa essere Y*=160,35+(3,04x23)=230,27 (wow!).

210

214

218

222

226

230

17 18 19 20 21 22 23

Xi Yi Y*i=a+bXi (Yi-Y*i)2

18 212 215,13 9,80

18 218 215,13 8,23

18 215 215,13 0,02

19 218 218,17 0,03

19 220 218,17 3,33

20 218 221,22 10,36

20 224 221,22 7,74

21 220 224,26 18,16

21 226 224,26 3,02

22 229 227,30 2,88

19,6 220 220,00 6,357

se la retta non si

insinua bene tra i da-ti delle due l’una: o avete

sbagliato a calcolare la

retta o avete sbagliato a tracciarla!!

Page 8: Lezione B.8 Regressione lineare

Scomporre la varianza intorno alla retta ai minimi quadrati

Abbiamo detto che la proprietà di spaccare (scomporre) la varianza totale della variabile da spiegare in due parti (una quota ‘spiegata’ dall’explanans e una ‘residuale’) vale per poche funzioni y=(x), oltre alla spezzata di regressione. La La proprietà di scomposizione della varianza vale per le funzioni lineari di proprietà di scomposizione della varianza vale per le funzioni lineari di regressione stimate col metodo dei MQ, e in primo luogo per la retta MQ: regressione stimate col metodo dei MQ, e in primo luogo per la retta MQ:

VarVarTT(Y) = Var(Y) = VarWR WR + Var+ VarBRBR

dove VarWR è la somma dei quadrati degli scarti tra valori osservati e ‘teorici’ (calcolati cioè in base all’equazione stimata) ponderati per le rispettive frequenze.

Analogamente al rapporto di correlazione 2YX

possiamo così costruire una misura del gra-misura del gra-do di adattamento (goodness of fit) della do di adattamento (goodness of fit) della retta MQ ai datiretta MQ ai dati, ossia una misura del grado in cui la relazione rettilinea con l’explanans X ‘spiega’ la variabilità di Y. La misura è:

210

214

218

222

226

230

17 18 19 20 21 22 23 )(var

)(var1

)(var

)(var2

Y

Y

Y

YR

T

WR

T

BRyx

Page 9: Lezione B.8 Regressione lineare

Il coefficiente di determinazioneCome YX anche 2

YX è una quantità compresa tra 0 e 1, che si può calcolare come complemento a uno del rapporto tra la varianza residua e la varianza totale di Y.

Nel caso dei 10 atleti V(Y)=23,4; VWR(Y)=6,353; R2YX=1-(6,353/23,4)=0,728.

Possiamo dire che il 72,8% della variabilità di performance dipende dall’età.

Per quell’esempio avevamo già calcolato 2=1-(VWG/VY)=0,7565: a conferma che è la spezzata di regressione (e nessun’altra funzione) l’ottima interpolante. La retta MQ è solo un second best. Vale la disequazione:

10 22 yxyxR Y*i=a+bXi (Yi-Y*i)2

215,13 9,80

215,13 8,23

215,13 0,02

218,17 0,03

218,17 3,33

221,22 10,36

221,22 7,74

224,26 18,16

224,26 3,02

227,30 2,88

220,00 6,357

Il calcolo di R, passando dalla stima dei valori teorici e dagli scarti al quadrato (varianza residua) è però un po’ faticoso. Ma c’è una splendida sorpresa. Se la retta è stimata ai MQ (e solo in tal caso) senza alcun ulteriore vincolo si dimostra che il il coefficiente di determinazione è esattamente pari al coefficiente di determinazione è esattamente pari al quadrato del coefficiente di correlazione lineare!quadrato del coefficiente di correlazione lineare!

22xyyxR Nel nostro esempio:

R2YX=(0,853)2 =0,728

Page 10: Lezione B.8 Regressione lineare

Un esempio

regione X Y

Italia 0,42 0,82

Portogallo 0,59 0,76

Gran Bret. 0,65 0,74

Grecia 0,44 0,68

Spagna 0,32 0,67

Irlanda 0,39 0,67

Olanda 0,60 0,61

Austria 0,56 0,51

Belgio 0,60 0,50

Germania 0,53 0,50

Finlandia 0,72 0,45

Danimarca 0,78 0,42

TOTALE/N 0,55 0,61

Un’analisi cross-section su due misure di pari opportunità (X=% donne che lavora, Y=disuguaglianza nei redditi) per 12 paesi europei mostra che se sa-le l’occupazione femminile cala la disuguaglianza (ma R2

YX è bassa)

0,4

0,5

0,6

0,7

0,8

0,9

0,3 0,4 0,5 0,6 0,7 0,8

E(X)=0,55; V(X)=0,0175; E(Y)=0,61; V(Y)=0,0169

Cov=-0,0095; XY=-(0,0095/0,0172)=-0,5523

bYX=-(0,0095/0,0175)=-0,5428

aYX=0,61-(-0,5428x0,55)=0,91

R2YX=(XY)2 =0,305 (bassa)

Page 11: Lezione B.8 Regressione lineare

Un secondo esempio: scomporre un miscuglio

regione X Y

Piemonte 90 56

Lombardia 86 50

Trentino 71 50

Veneto 37 38

Friuli 53 54

Liguria 118 55

Emilia 97 60

Toscana 65 42

Umbria 48 26

Marche 36 27

Lazio 44 40

AbruzziMol 17 16

Campania 31 16

Puglie 26 17

Basilicata 25 9

Calabria 21 14

Sicilia 36 20

Sardegna 33 24

Media 51,9 34,1

Distribuzione di 18 regioni italiane (Piemonte+Vald’Aosta e Abruzzi+Molise) secondo X=Divorzi per 100mila abitanti al 1988 e Y=coppie non coniugate per 1000coppie al 2001

0

10

20

30

40

50

60

0 20 40 60 80 100 120

VenLaz

Umb

X

Y

X+ Y+

X+ Y-

X- Y+

X- Y-

XY= 0,88 (ma se separassimo nord e sud, cosa troveremmo? Alla prossima lezione ..)

Page 12: Lezione B.8 Regressione lineare

Scomporre un miscuglio / 2

0

10

20

30

40

50

60

0 20 40 60 80 100 120

Se separiamo le 8 regioni del Nord dalle 10 del Centro -Sud troviamo rette diverse con grado di adattamento assai più basso.

E’ dunque la distinzione Nord/Sud a ‘fare la differenza’!

Italia Nord CSud

E(X) 51,9 77,1 31,7

E(Y) 34,1 50,6 20,9

CovXY420,11 123,44 59,57

V(X) 816,7 589,7 86,4

V(Y) 278,5 50,24 69,1

XY 0,88 0,717 0,771

bYX0,514 0,209 0,6895

aYX 7,4 34,46 -0,956

R2YX 0,776 0,514 0,594

0

10

20

30

40

50

60

0 20 40 60 80 100 120

Page 13: Lezione B.8 Regressione lineare

Un terzo esempio: manipolare outliers

Costruiamo il diagramma di dispersione delle venti regioni italiane in base a due indici di struttura al censimento della popolazione del 2001: V è l’indice di vecchiaia (Pop>64/ Pop<15%), C è la quota di coppie non coniugate sul totale delle coppie, per mille. Due osservazioni:

Reg V C

Pie 176 52

VdA 149 82

Lom 138 50

Tre 106 50

Ven 136 38

Fri 187 54

Lig 241 56

Emi 192 60

Tos 192 42

Umb 186 26

Mar 169 27

Laz 130 40

Abr 147 18

Mol 148 11

Cam 77 16

Pug 95 17

Bas 119 9

Cal 102 14

Sic 99 20

Sar 116 24

0102030405060708090100

50 75 100 125 150 175 200 225 250

C

V

Val d’Aosta

Liguria

(1) Il diagramma si addensa gene-ralmente in un’a-rea a forma di el-lisse, che si defi-nisce ‘nuvola di punti’.

(2) Rispetto ai confini dell’ellisse alcuni casi assu-mono una coordi-nata anomala: si parla di ‘outliers’.

Page 14: Lezione B.8 Regressione lineare

Manipolare outliers/2

Cosa succede se escludiamo dall’analisi il dato anomalo della Val d’Aosta?

rXY=0,526 R2YX=0,277

bYX=0,252; aYX=-1,324

0102030405060708090100

50 75 100 125 150 175 200 225 250

C

V

Val d’Aosta

Liguria

0102030405060708090100

50 75 100 125 150 175 200 225 250

C

V

Liguria

rXY= 0,593 R2YX= 0,352

bYX= 0,247; aYX= -3,032

La retta ai MQ mantiene la stessa pendenza, ma si sposta un po’ più in alto

Page 15: Lezione B.8 Regressione lineare

Un quarto esempio: computer e cellulari

Country X Y

Austria 25 18

Belgio 25 12

Francia 23 12

Germania 23 13

Olanda 29 13

Svizzera 30 17

155 85

Grecia 7 9

Italia 16 24

Portogallo 10 18

Spagna 12 14

45 65

Danimarca 35 31

Finlandia 35 46

Svezia 35 41

UK 29 16

Norvegia 36 41

170 175

TOT 370 325

TOT/N 24,67 21,67

05101520253035404550

0 5 10 15 20 25 30 35 40

X= numero di computer per 100 abitanti, Y=numero di cellulari per 100 abitanti, al 97 in 15 paesi europei.

C’è correlazione tra i 2 fenomeni?

Centro E. E.Mediter Nord E. Europa

E(X) 25,83 11,25 34,00 24,67

E(Y) 14,17 16,25 35,00 21,67

CovXY2,6945 15,9375 24,00 70,6886

V(X) 7,472 10,6875 6,40 85,556

V(Y) 5,806 30,1875 114,00 137,956

XY+0,409 +0,887 +0,888 +0,651

Page 16: Lezione B.8 Regressione lineare

Computer e cellulari/2

05101520253035404550

0 5 10 15 20 25 30 35 40

C’è, sì, correlazione tra i due fenomeni, ma la correlazione è assai diversa per i paesi del centro Europa, rispetto a quelli del sud e del nord. La covarianza tra computer e cellulari è quindi diversa nelle tre ripartizioni geografiche. Forse le ripartizioni geografiche influiscono, prima che sulle correlazioni, già sulle distribuzioni di frequenza di X e Y?

Cellulari V(Y/geo) ngeo V(Y/geo)ngeo

Centro 5,806 6 34,836

Sud 30,1875 4 120,750

Nord 114,000 5 570,000

15 725,586

VWG(Y) = 48,3724; VT(Y)=137,956

VWG(Y)/VT(Y)=0,351; 2YG=1-0,351=0,649

Computer V(X/geo) ngeo V(X/geo)ngeo

Centro 7,472 6 44,832

Sud 10,6875 4 42,750

Nord 6,400 5 32,000

15 119,582

VWG(X)=7,972; VT(X)=85,556

VWG(X)/VT(X)=0,093: 2XG=1-0,093=0,907

Abbiamo già le varianze vincolate delle tre ripartizioni geografiche (e la varianza generale) sia per X che per Y. Il calcolo di 2

XG e 2YG ci dice che la varianza della

diffusione dei computer è spiegata in misura altissima dal parametro geografico, mentre meno forte è la sua influenza sull’uso di cellulari.

Page 17: Lezione B.8 Regressione lineare

Computer e cellulari/3

05101520253035404550

0 5 10 15 20 25 30 35 40

Sia X il numero di computer e Y il numero di cellulari per 100 abitanti, al 1997, in 15 paesi europei. La retta stimata ai MQ che lega Y a X per l’intero continente è:

Y=1,287+0,82X.

Ma essa si scompone in tre diverse rela-zioni funzionali per Nord, Centro e Sud:

Centro E. E.Mediter Nord E. Europa

E(X) 25,83 11,25 34,00 24,67

E(Y) 14,17 16,25 35,00 21,67

CovXY2,6945 15,9375 24,00 70,6886

V(X) 7,472 10,6875 6,40 85,556

V(Y) 5,806 30,1875 114,00 137,956

XY+0,409 +0,8873 +0,888 +0,651

bXY+0,3606 +1,4912 +3,75 +0,8262

aXY+4,855 -0,526 -92,5 +1,287

R2XY

0,167 0,788 0,789 0,424

YX=04,85 -0,53 -92,5 1,29

YX=2012,07 29,30 -17,5 17,81

YX=4019,28 59,12 57,5 34,33

Y=-92,5+3,75X al Nord (R2=0,79)

Y=+4,85+0,36X al Centro (R2=0,17)

Y=-0,53+1,49X al Sud (R2=0,79)

Page 18: Lezione B.8 Regressione lineare

NB: instabilità della relazione se V(X) è bassa

05101520253035404550

24 28 32 36 40

Nei 5 paesi del Nord la relazione MQ trovata è

Y=-92,5+3,75X

La goodness of fit è alta (79% della varianza di Y è spiegata da X) ma qualcosa non quadra: la relazione è tutta ‘trainata’ dal caso inglese, che si differenzia dagli altri. Se si esclude il dato UK la prima cosa che colpisce è che la V(X) diventa piccolissima. E R2 diventa insignificante

Nord a 5 Nord a 4

E(X) 34,00 35,25

E(Y) 35,00 39,75

CovXY24,00 0,3125

V(X) 6,40 0,1875

V(Y) 114,00 29,6875

bXY+3,75 +1,6667

aXY-92,5 -19,00

R2XY

0,789 0,0175!!

Country X Y

Danimarca 35 31

Finlandia 35 46

Svezia 35 41

UK 29 16

Norvegia 36 41

Attenti: se la varianza dell’explanans X è molto piccola, diffidare delle stime MQ di una retta!

Page 19: Lezione B.8 Regressione lineare

Corollario 1: Minimi quadrati vincolati

In alcuni casi i risultati della stima della retta sono sottoposti ad alcuni vincoli, legati alla specificità del fenomeno studiato.

Per es. si può voler interpolare la nuvola di punti con una retta che passi per l’ori-gine, dove quindi l’intercetta all’origine sia vincolata: aYX=0.

In questo caso il coefficiente di regressione stimato (con il metodo dei minimi quadrati ‘vincolato’) è pari a:

Naturalmente se la funzione non è stimata ai MQ o è stimata coi MQ vincolati la relazione R2

YX=(YX)2 non sussiste e la bontà dell’adattamento va misurata attraverso la VarWR.

22 )(var

cov

XX

XYYX

X

YXYX mm

mmmb

X

YXYX m

mb

2

Per ricordarsi questa variante si noti come (non a caso) numeratore e denomina-tore sono i primi addendi rispettivamente del numeratore e denominatore della formula completa, espressa con le le formule operative di covYX e di varX)

Page 20: Lezione B.8 Regressione lineare

Un esempio

Su 5 contribuenti è stato rilevato il reddito procapite (X) in migliaia di euro, e il consumo per beni di base (Y) in centinaia di euro. Ecco i calcoli per la retta MQ: mX=3; mY=5; m2X=13,8; m2Y=28,6; VX=4,8; VY=3,6; mXY=18,2; covXY=+3,2. Quindi bYX=0,67; aYX=3; rYX=0,77; Y=3+0,67X. Se X=0 allora Y=3; se X=6 allora Y=5…

Xi Yi Yi2 Xi

2 XiYi

1 3 9 1 3

1 5 25 1 5

3 3 9 9 9

3 6 36 9 18

7 8 64 49 56

3 5 28,6 13,8 18,2

0

2

4

6

8

10

0 2 4 6 8

Ma la retta interpolata ci dice una cosa curio-sa: che con zero entrate c’è comunque un consumo di 300 euro. Non va mica bene..

A noi interessa trovare una retta magari meno buona (aumenterà la varianza residua) ma che per redditi nulli abbia consumi nulli: in-somma una retta che passi per l’origine. Essa avrà quindi intercetta aYX=0 e pendenza bYX=18,2/13,8=1,32. La retta Y=1,32X si impenna ora molto più brusca. Calcolate voi la varianza residua e confrontatela con quella della retta non vincolata.

Page 21: Lezione B.8 Regressione lineare

Corollario 2: Interpolante della linea di regressione

Generalmente l’interpolante lineare ottima secondo il criterio dei MQ è ottenuta minimizzando la somma dei quadrati degli scarti tra tutte le osservazioni e le corrispondenti interpolanti teoriche. Ma si dimostra che:

Si ottiene esattamente la stessa retta ai MQ minimizzando gli scostamenti quadratici tra le medie vincolate EY|xi e i rispettivi valori teorici.

I due modi per determinare i parametri della retta ai MQ sono dunque equivalenti.

x

xy

x

yxyx

xxyyxyxyyx

b

mbmmbma

var

cov

var

cov

Ma la varianza di Y calcolata tra medie vincolate Y|xi non potrà che essere infe-riore (a volte molto inferiore!) alla varianza tra tutte le osservazioni Yj. Quindi:

Interpolando la retta MQ intorno alla spezzata, va bene fidarsi dei para-metri della retta, ma non del coefficiente di determinazione R2

YX= (YX)2!

XYXYXY

YYXYXY

XY ,22 ,,

,

covcov

Attenzione quindi!!

Page 22: Lezione B.8 Regressione lineare

Il solito esempio (con una variante)

210

214

218

222

226

230

17 18 19 20 21 22 23

Xi YVi ni Xi ni YV

ini Xi2ni YV

i2ni XiYV

ini

18 215 3 54 645 972 138675 11610

19 219 2 38 438 722 95922 8322

20 221 2 40 442 800 97682 8840

21 223 2 42 446 882 99458 9366

22 229 1 22 229 484 52441 5038

10 19,6 220 386 48417,8 4317,6

I soliti dieci atleti..

Torniamo ai dieci saltatori ma con una variante:

I tre ragazzi di 18 anni saltavano – ricordiamo – rispettivamente 212, 215 e 218 cm: insomma c’era il più bravo e il meno bravo. Facciamo ora l’ipotesi che tutti e tre saltino 215 cm (cioè la media) e che quindi non ci sia variabilità entro la classe di età. E lo stesso facciamo per i 19enni e così via. Stimiamo la regressione MQ delle medie vincolate YV

i delle performances al variare dell’età (è tra l’altro un buon esercizio di calcolo con modalità congiunte ponderate per le rispettive frequenze): otterremo una identica retta (bYX=160,35 aYX=3,04) ma adattamento molto più elevato (R2

YX=0,958)!!

Page 23: Lezione B.8 Regressione lineare

..e una controprova

210

214

218

222

226

230

17 18 19 20 21 22 23

210

214

218

222

226

230

17 18 19 20 21 22 23

Xi Yi Yi2 Xi

2 XiYi

18 210 44100 324 3780

18 220 48400 324 3960

18 215 46225 324 3870

19 214 45796 361 4066

19 224 50176 361 4256

20 214 45796 400 4280

20 228 51984 400 4560

21 216 46656 441 4536

21 230 52900 441 4830

22 229 52441 484 5038

19,6 220 48447,4 386 4317,6

I soliti dieci atleti..

I soliti dieci atleti ma più variabilità..

Morale: a parità di spezzata di regressio-ne (quindi di retta ai minimi quadrati) la goodness of fit può variare assai.

Ma supponia-mo che i dieci ragazzi abbia-no la stessa performance media per età, ma tra quelli di pari età ci sia più variabilità: Il diagramma è più disperso. E la retta MQ?

Si trova bYX=160,35; aYX=3,04 (la retta stimata è la stessa) ma R2

YX=0,36 (l’adattamento peggiore)!!

Page 24: Lezione B.8 Regressione lineare

Corollario 3: Stima da dati in forma di tabella

Xi\Yj 5 6 7 8 ni. E(Y/x) xi2 yi

2 xi yi

0 4 4 2 0 10 5,80 0 33,64 01 4 6 4 2 16 6,25 1 39,06 6,252 2 4 4 2 12 6,50 4 42,25 13,003 0 2 4 2 8 7,00 9 49,00 21,004 0 0 2 2 4 7,50 16 56,25 30,00n.j 10 16 16 8 N=50

Come già il coefficiente di correlazione, anche la retta ai MQ può essere calcolata a partire da una tabella a doppia entrata. Facciamo un esempio.

Per 50 studenti conosciamo informazioni: il numero di componenti la famiglia (X) e il voto mediano (Y) ai temi in classe. Stimiamo la relazione lineare tra X e Y.

I calcoli intermedi (effettuati analiticamente sull’intera distribuzione congiunta) so-no: mX=1,60; mY=6,44; VX=1,44; VY=42,44; covXY=+0,58. I parametri stimati sono bYX=0,4 e aYX=5,8. Ma l’adattamento è basso: rXY=+0,074 e R2

XY=0,0055.

Se invece avessimo associato la dimensione familiare non ai voti di ciascuno stu-dente ma alle sole medie vincolate (colonne cerchiate), e avessimo quindi stimato la retta MQ intorno alla spezzata di regressione, avremmo trovato la stessa retta, ma con goodness of fit ben diversa: VE(Y(X)=0,234; rXE(Y/X)=+0,991; R2

XE(Y/X)=0,982