35
RELAZIONI TRA 2 RELAZIONI TRA 2 FENOMENI QUANTITATIVI FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) STATISTICA A – K (60 ore) Marco Riani Marco Riani [email protected] http://www.riani.it

RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani [email protected]

Embed Size (px)

Citation preview

Page 1: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

RELAZIONI TRA 2 RELAZIONI TRA 2 FENOMENI QUANTITATIVIFENOMENI QUANTITATIVI

STATISTICA A – K (60 ore) STATISTICA A – K (60 ore)

Marco RianiMarco Riani

[email protected]

http://www.riani.it

Page 2: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

RELAZIONI TRA 2 FENOMENI RELAZIONI TRA 2 FENOMENI QUANTITATIVIQUANTITATIVI

• Vi è una relazione tra le variabili oggetto di studio?

• Di quanto variano i valori d’una variabile quando cambiano i valori dell’altra?

• CORRELAZIONE

• REGRESSIONE

Page 3: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

X = NUMERO DI DIPENDENTIX = NUMERO DI DIPENDENTIY = FATTURATO (in milioni di euro)Y = FATTURATO (in milioni di euro)

Supermercato xi yi

A 10 1,9

B 18 3,1

C 20 3,2

D 8 1,5

E 30 6,2

F 12 2,8

G 14 2,3

Tot. 112 21,0

M(X) = 16M(Y) = 3,0

Page 4: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

DIAGRAMMA DI DISPERSIONE (SCATTER)DIAGRAMMA DI DISPERSIONE (SCATTER)

0

1

2

3

4

5

6

7

0 5 10 15 20 25 30 35

numero di dipendenti

fatt

ura

to

III

IIIIV

M(X) = 16

M(Y) = 3,0

G (14 2,3)

E (30 6,2)

Page 5: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

DIAGRAMMA DI DISPERSIONE (SCATTER)DIAGRAMMA DI DISPERSIONE (SCATTER)

0

1

2

3

4

5

6

7

0 5 10 15 20 25 30 35

numero di dipendenti

fatt

ura

to

III

IIIIV

• Punti in I e III relazione diretta

• Punti in II e IV relazione inversa

• Punti si distribuiscono casualmente in tutti i quadranti all’incirca nella stessa proporzione nessuna relazione lineare tra le due variabili

• I quadranti in cui compare la maggioranza dei punti indicano il tipo di relazione

• L’osservazione della “nuvola” di punti nel diagramma di dispersione fornisce una prima idea sulla relazione eventualmente esistente tra i due fenomeni.

Page 6: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

X = NUMERO DI DIPENDENTIX = NUMERO DI DIPENDENTIY = FATTURATO (in milioni di euro)Y = FATTURATO (in milioni di euro)

Supermercato xi yi (xi – Mx) (yi – My)

A 10 1,9 - 6 - 1,1

B 18 3,1 + 2 + 0,1

C 20 3,2 + 4 + 0,2

D 8 1,5 - 8 - 1,5

E 30 6,2 + 14 + 3,2

F 12 2,8 - 4 - 0,2

G 14 2,3 - 2 - 0,7

Tot. 112 21,0 0 0

M(X) = 16M(Y) = 3,0

Page 7: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

COVARIANZACOVARIANZA

• = MEDIA ARITMETICA DEI PRODOTTI DEGLI SCOSTAMENTI

• COV(X,Y) >0 RELAZIONE DIRETTA• COV(X,Y) <0 RELAZIONE INVERSA• COV(X,Y) =0 X, Y INCORRELATE

n

iyixi MyMx

nYXCOV

1))((

1),(

Page 8: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

X = NUMERO DI DIPENDENTIX = NUMERO DI DIPENDENTIY = FATTURATO (in milioni di euro)Y = FATTURATO (in milioni di euro)

Supermercato xi yi (xi – Mx) (yi – My) (xi-Mx)(yi-My)

A 10 1,9 - 6 - 1,1 6,6

B 18 3,1 + 2 + 0,1 0,2

C 20 3,2 + 4 + 0,2 0,8

D 8 1,5 - 8 - 1,5 12

E 30 6,2 + 14 + 3,2 44,8

F 12 2,8 - 4 - 0,2 0,8

G 14 2,3 - 2 - 0,7 1,4

Tot. 112 21,0 0 0 66,6

M(X) = 16M(Y) = 3,0

COV(X,Y)=66,6/7=9,514

n

iyixi MyMx

nYXCOV

1))((

1),(

Page 9: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

Osservazione: per ottenere la covarianza è sufficiente Osservazione: per ottenere la covarianza è sufficiente calcolare solo gli scostamenti di una variabile, calcolare solo gli scostamenti di una variabile,

moltiplicandoli per i valori dell'altra variabile (p. 153)moltiplicandoli per i valori dell'altra variabile (p. 153)

Page 10: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

X = NUMERO DI DIPENDENTIX = NUMERO DI DIPENDENTIY = FATTURATO (in milioni di euro)Y = FATTURATO (in milioni di euro)

Supermercato

xi yi (xi – Mx) (yi – My) (xi-Mx)

(yi-My)

(xi-Mx) yi (yi – My) xi

A 10 1,9 - 6 - 1,1 6,6 -11,4 -11B 18 3,1 + 2 + 0,1 0,2 6,2 1,8C 20 3,2 + 4 + 0,2 0,8 12,8 4D 8 1,5 - 8 - 1,5 12 -12 -12E 30 6,2 + 14 + 3,2 44,8 86,8 96F 12 2,8 - 4 - 0,2 0,8 -11,2 -2,4G 14 2,3 - 2 - 0,7 1,4 -4,6 -9,8

Tot. 112 21 0 0 66,6 66,6 66,6M(X) = 16M(Y) = 3,0

COV(X,Y)=66,6/7=9,514

Page 11: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

Osservazione: può essere ottenuta anche in funzione Osservazione: può essere ottenuta anche in funzione dei dati originari (p.154)dei dati originari (p.154)

Supermercato

xi yi xiyi

A 10 1,9 19B 18 3,1 55,8C 20 3,2 64D 8 1,5 12E 30 6,2 186F 12 2,8 33,6G 14 2,3 32,2

Tot. 112 21 402,6

COV(X,Y) = 402,6/7-16*3=9,514

M(X) = 16M(Y) = 3,0

Page 12: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

Proprietà della covarianzaProprietà della covarianza

• E’ ESPRESSA NEL PRODOTTO DELLE UNITA’ DI MISURA DI X E DI Y

• COV(X,X)=VAR(X)

• E’ scale equivariant

Page 13: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

Proprietà della covarianzaProprietà della covarianza

Page 14: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

Proprietà della covarianzaProprietà della covarianza

• max | COV (X, Y) | =

= [VAR(X) VAR(Y)]1/2=

= σ(X) σ(Y)

Page 15: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

DimostrazioneDimostrazione

• var(tX-Y)>0• t2 var(X) -2t cov(X,Y) + var(Y) >0• h(t) è una funzione quadratica in t. Se

h(t)>0 le radici non sono reali• Δ<0 implica che• 4 [cov(X,Y)]2 -4 var(X) var(Y) <0• [cov(X,Y)]2 < var(X) var(Y) • |cov(X,Y)| < σ(X) σ(Y)

Page 16: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

Come ovviare ai difetti della COV?Come ovviare ai difetti della COV?

• La covarianza ha il difetto di risentire dell'unità di misura e dell'ordine di grandezza dei due fenomeni originari essendo espressa in termini del prodotto delle unità di misura di X e Y

• I valori che essa può assumere non sono compresi in un intervallo di interpretazione immediata,

Page 17: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

RICHIAMO SCOSTAMENTI RICHIAMO SCOSTAMENTI STANDARDIZZATISTANDARDIZZATI

(p. 125)(p. 125)

• Proprietà:• Mz = 0z = 1• puri numeri confronto tra fenomeni

diversi

Mx

z ii

Page 18: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

COEFFICIENTE DI COEFFICIENTE DI CORRELAZIONE CORRELAZIONE rrxyxy

• (media dei prodotti degli scostamenti standardizzati è un numero puro)

n

i y

yi

x

xixy

MyMx

nr

1

)()(1

Page 19: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

SCOSTAMENTI STANDARDIZZATISCOSTAMENTI STANDARDIZZATI

Supermercato

xi yi (xi – Mx)/σx (yi – My)/σy (xi – Mx) (yi –

My)/(σx σy)

A 10 1,9 -0,87 -0,77 0,67B 18 3,1 0,29 0,07 0,02C 20 3,2 0,58 0,14 0,08D 8 1,5 -1,15 -1,05 1,21E 30 6,2 2,02 2,24 4,53F 12 2,8 -0,58 -0,14 0,08G 14 2,3 -0,29 -0,49 0,14

Tot. 112 21,0 0 0 6,73

Page 20: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

• rxy=6,73/7=0,961

n

i y

yi

x

xixy

MyMx

nr

1

)()(1

Supermercato

xi yi (xi – Mx) (yi –

My)/σx σy

A 10 1,9 0,67B 18 3,1 0,02C 20 3,2 0,08D 8 1,5 1,21E 30 6,2 4,53F 12 2,8 0,08G 14 2,3 0,14

Tot. 112 21,0 6,73

Page 21: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

Formule di calcolo alternative (p. 157)Formule di calcolo alternative (p. 157)

)()(

),(

YX

YXCOVrxy

n

i y

yi

x

xixy

MyMx

nr

1

)()(1

)()(

),(

YVARXVAR

YXCOVrxy

Page 22: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

Formule di calcolo alternative:Formule di calcolo alternative:

2/1

1 1

22

1

)()(1

))((1

)()(

),(

n

i

n

iyixi

n

iyixi

xy

MyMxn

MyMxn

YVARXVAR

YXCOVr

Page 23: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

Interpretazione di rInterpretazione di r

• rxy = -1 perfetta relazione lineare inversa tra X ed Y (cioè quando yi = a + bxi, con b < 0 e a numero qualsiasi)

• rxy = 0 X ed Y sono incorrelate(non vi è tra loro un legame lineare; non si

esclude però l’eventuale esistenza d’una relazione non lineare, ad esempio parabolica o sinusoidale)

rxy = +1 perfetta relazione lineare diretta tra X ed Y (cioè quando yi = a + bxi, con b > 0 e a numero qualsiasi)

Page 24: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

Punti in situazioni estreme e Punti in situazioni estreme e rrxyxy

Page 25: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

Esemplificazione di dati con diverso valore Esemplificazione di dati con diverso valore del coefficiente di correlazione lineare del coefficiente di correlazione lineare

Page 26: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

|r|rxyxy |= 1 se e solo c’è |= 1 se e solo c’è perfetta perfetta

relazione lineare relazione lineare tra tra X X ed ed YY• Se Y = a+|b| X

)()(

),(

YX

YXCOVrxy

)||()(

)||,(, XbaX

XbaXCOVr bxax

)()(||

),(||, XXb

XXCOVbr bxax

1)(||

)(||, XVARb

XVARbr bxax

Page 27: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

EsempioEsempio:: 7 supermercati 7 supermercatiSuper-mercat

o

(xi – Mx) (yi – My) (xi-Mx)*

(yi-My)

(xi-Mx)2 (yi-My)

2

A - 6 - 1,1 6,6 36 1,21

B + 2 + 0,1 0,2 4 0,01

C + 4 + 0,2 0,8 16 0,04

D - 8 - 1,5 12 64 2,25

E + 14 + 3,2 44,8 196 10,24

F - 4 - 0,2 0,8 16 0,04

G - 2 - 0,7 1,4 4 0,49

Tot. 0 0 66,6 336 14,28

COV(X,Y) = 66,6/7=9,514

VAR(X) = 336/7 = 48 VAR(Y) = 14,28/7=2,04

895,9040,248 Y)COV(X,max

961,0895,9

514,9

)var()var(

),cov(

YX

YXrxy

Page 28: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

EsempioEsempio:: 7 supermercati (continua) 7 supermercati (continua)Super-

mercato(xi-Mx)(yi-My) (xi-Mx)

2 (yi-My)2

A 6,6 36 1,21

B 0,2 4 0,01

C 0,8 16 0,04

D 12 64 2,25

E 44,8 196 10,24

F 0,8 16 0,04

G 1,4 4 0,49

Tot. 66,6 336 14,28

COV(X,Y) = 66,6/7=9,514

VAR(X) = 336/7 = 48 VAR(Y) = 14,28/7=2,04

895,9040,248 Y)COV(X,max

961,0895,9

514,9

28,14336

6,66

xyr

Page 29: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

Caratteristiche di rCaratteristiche di r

• Dato che rxy = ryx, il coefficiente di correlazione è una misura simmetrica in X ed Y interdipendenza tra le due variabili.

• In esso non si assume una variabile come antecedente e l’altra come conseguente, ma si valuta semplicemente il legame vicendevole tra X ed Y.

Page 30: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

Proprietà di Proprietà di rrxy xy (p. 160)(p. 160)

• è invariante in senso forte (cioè presenta lo stesso valore numerico) per trasformazioni lineari crescenti di una o di entrambe le variabili

Page 31: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

Proprietà di Proprietà di rrxyxy

• Proprietà di invarianza per trasformazioni lineari: il coefficiente di correlazione lineare rimane invariato effettuando una trasformazione lineare crescente di una o di entrambe le variabili.

se si cambia l’origine del sistema di misurazione e/o l’unità di misura in cui sono espresse le variabili, il valore del coefficiente di correlazione non varia.

Page 32: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

Applicazione della precedente proprietàApplicazione della precedente proprietà

• Si ottiene il medesimo valore di rxy anche effettuando il calcolo sui n.i. a base fissa

Page 33: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

Esemplificazione di dati con diverso valore del Esemplificazione di dati con diverso valore del coefficiente di correlazione lineare, in presenza di coefficiente di correlazione lineare, in presenza di dati contaminati indicati con il simbolo * (p. 162)dati contaminati indicati con il simbolo * (p. 162)

Page 34: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

Es: 6 famiglie, ammontare della spesa annua (in Es: 6 famiglie, ammontare della spesa annua (in euro) per l’acquisto di due generi di largo euro) per l’acquisto di due generi di largo

consumo: latte fresco e biscotti.consumo: latte fresco e biscotti.

• (i) rxy? (ii) commento (iii) diagramma di dispersione (iv) concordanza tra rxy e diagramma di dispersione (v) Perché rxy invece della retta di regressione?

Famiglia

Spesa annua per l’acquisto di latte fresco (€)

Spesa annua per l’acquisto di biscotti (€)

A 105 65

B 190 130

C 80 160

D 120 90

E 240 220

F 60 50

M(x)= 132.5

M(y)=119.2

Page 35: RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

CORRELAZIONE FRA DUE S.S.CORRELAZIONE FRA DUE S.S.

• Esempio: X = numero di extracomunitari iscritti al collocamento, Y = numero di discount

• Calcolare e commentare rXY tra le variabili originarie, i NI a base fissa, le variazioni percentuali a base fissa, i NI a base mobile, le variazioni percentuali a base mobile

Anni X Y

1993 72.644 600

1994 85.993 1.300

1995 96.287 1.930

1996 136.942 2.328

1997 140.100 2.523