12
Lezione 6 Corso di Statistica Francesco Lagona Università Roma Tre F. Lagona ([email protected]) 1 / 12

Lezione 6 Corso di Statistica - scienzepolitiche.uniroma3.it · Lezione 6 Corso di Statistica Francesco Lagona UniversitàRomaTre F. Lagona ([email protected]) 1 / 12

Embed Size (px)

Citation preview

Lezione 6Corso di Statistica

Francesco LagonaUniversità Roma Tre

F. Lagona ([email protected]) 1 / 12

Outline

1 Covarianza

2 la correlazione

3 trasformazioni lineari

Covarianza

distribuzioni bivariate quantitative

consideriamo la distribuzione unitaria bivariata di due variabili quantitativeunità 1 . . . i . . . n

X x1 . . . xi . . . xnY y1 . . . yi . . . yn

la rappresentazione grafica tipica di questa distribuzione è il diagramma adispersione

1 2 3 4 5

12

34

5

x

y

F. Lagona ([email protected]) 3 / 12

Covarianza

la covarianza

medie: x = 1n∑n

i=1 xi y = 1n∑n

i=1 yi

varianze: s2x = 1

n−1∑n

i=1(xi − x)2 s2y = 1

n−1∑n

i=1(yi − y)2

la covarianza tra X e Y è data da

sxy = 1n − 1

codevianzan∑

i=1(xi − x)(yi − y)

si osservi che1n

n∑i=1

xiyi −1n

n∑i=1

x yi −1n

n∑i=1

xi y + 1n

n∑i=1

x y =

=1n

n∑i=1

xiyi − x y − y x + x y = 1n

n∑i=1

xiyi − x y

quindi (formula alternativa della covarianza):

sxy = nn − 1

(1n

n∑i=1

xiyi − x y)

F. Lagona ([email protected]) 4 / 12

Covarianza

il segno della covarianza

−2 −1 0 1 2

−2

−1

01

2

x

y

IV quadrante I quadrante

II quadranteIII quadrante

nel I e nel III quadrante (xi − x)(yi − y) > 0nel II e nel IV quadrante (xi − x)(yi − y) < 0sxy ≥ 0 se

∑i∈IeIII(xi − x)(yi − y) >

∑i∈IIeIV (xi − x)(yi − y)

sxy ≤ 0 se∑

i∈IeIII(xi − x)(yi − y) <∑

i∈IIeIV (xi − x)(yi − y)

F. Lagona ([email protected]) 5 / 12

Covarianza

covarianza: esempi

−2 0 2 4 6 8 10 12

−2

02

46

810

12

x

y

sxy=0

0 2 4 6 8 10 12

02

46

810

12

xy

sxy=0

F. Lagona ([email protected]) 6 / 12

Covarianza

covarianza: esempi

1 2 3 4 5 6 7 8

12

34

56

78

x

y

sxy=0.5

1 2 3 4 5 6 7 8

12

34

56

78

x

y

sxy=0.9

2 4 6 8

24

68

x

y

sxy=−0.5

2 3 4 5 6 7 8

23

45

67

8

x

y

sxy=−0.9

F. Lagona ([email protected]) 7 / 12

la correlazione

correlazione

la covarianza è limitata dal prodotto delle deviazioni standard

−sx sy ≤ sxy ≤ sx sy

se sxy = sx sy allora i punti sono allineati su una retta con pendenzapositivase sxy = −sx sy allora i punti sono allineati su una retta con pendenzanegativastandardizzando la covarianza si ottiene il coefficiente di correlazione

rxy = sxysx sy

che varia tra -1 e 1si ha anche

r = 1n − 1

n∑i=1

z-score(xi − xsx

)(yi − ysy

)F. Lagona ([email protected]) 8 / 12

trasformazioni lineari

la covarianza sotto trasformazioni lineari

se Z = a + bXallora

szy = nn − 1

(1n

n∑i=1

ziyi − z y)

= nn − 1

(1n

n∑i=1

(a + bxi )yi − (a + bx)y)

= nn − 1

(ay + b 1n

n∑i=1

xiyi − ay − bx y)

= nn − 1

(b(1n

n∑i=1

xiyi − x y))

=bsxy

F. Lagona ([email protected]) 9 / 12

trasformazioni lineari

la correlazione sotto trasformazioni lineari

se Z = a + bXricordiamo che:

szy =bsxy

s2z =b2s2

x ⇒ sz = |b|sx

allora:

rzy = szyszsy

= bsxy|b|sx sy

={

rxy b > 0−rxy b < 0

F. Lagona ([email protected]) 10 / 12

trasformazioni lineari

distribuzioni di frequenze

y1 y2 y3 totalex1 n11 n12 n13 n1·x2 n21 n22 n23 n2·x3 n31 n32 n33 n3·

n·1 n·2 n·3 n1 2 3 totale

0 2 3 1 62 1 4 2 74 0 2 5 7

3 9 8 20

sxy = nn − 1

(1n

H∑h=1

K∑k=1

xhyknhk − x y)

=2019

(120 (0 · 1 · 2 + 0 · 2 · 3 + . . . 4 · 3 · 5)− 2.1 · 2.25

)= 20

19 · 0.575 = 0.605

F. Lagona ([email protected]) 11 / 12

trasformazioni lineari

correlazione

1 2 3 totale0 2 3 1 62 1 4 2 74 0 2 5 7

3 9 8 20

s2x =2.73⇒ sx = 1.65

s2y =0.52⇒ sy = 0.72

r = rxyrx ry

= 0.6051.65 · 0.72 = 0.51

F. Lagona ([email protected]) 12 / 12