Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri...

Preview:

Citation preview

Corso diAnalisi Statistica per le

Imprese

Cross tabulation e relazioni tra variabili

Prof. L. Neria.a. 2014-2015

1

Distribuzione doppia di frequenza

Addetti

Genere respons

6 M

6 M

10 F

10 F

7 M

3 M

3 M

6 F

4 F

Genere responsabile

M F

3

4

6

7

10

Ad

dett

i

Quanti sono i punti vendita con 3 addetti, il cui responsabile è un maschio? 2

2

Quanti sono i punti vendita con 3 addetti, il cui responsabile è una femmina? 0

0

0

2

1

1

1 0

0 2

2

Distribuzione doppia di frequenza

Genere responsabile

Tot

M F

3 2 0 2

4 0 1 1

6 2 1 3

7 1 0 1

10 0 2 2

Tot 5 4 9

Ad

dett

i 1 è la frequenza congiunta associata alla modalità 4 del Numero di addetti e alla modalità F del Genere responsabile

3

Distribuzione doppia di frequenza

Genere responsabile

Tot

M F

33 22 00 22

44 00 11 11

66 22 11 33

77 11 00 11

1010 00 22 22

Tot 5 4 9

Ad

dett

i

Distribuzione marginale del genere del responsabile(distribuzione di frequenza semplice del carattere “genere del responsabile”)

Qual è la proporzione di punti vendita il cui responsabile è una femmina?

(44%) 44,094

p

4

Distribuzione doppia di frequenza

Genere responsabile

Tot

M F

3 22 00 2

4 00 11 1

6 22 11 3

7 11 00 1

10 00 22 2

Tot 55 44 9

Ad

dett

i

Distribuzione marginale degli addetti(distribuzione di frequenza semplice del carattere “numero di addetti”)

5

Distribuzione doppia di frequenza

Genere responsabile

Tot

M F

3 2 00 22

4 0 11 11

6 2 11 33

7 1 00 11

10 0 22 22

Tot 5 44 99

Ad

dett

i

Distribuzione parziale del numero di addetti, condizionata alla modalità “maschio” del carattere “genere del responsabile”

Qual è il numero medio di addetti dei punti vendita il cui responsabile è un uomo?

Distribuzione del numero di addetti dato che il genere del responsabile è “maschio”

6

Distribuzione doppia di frequenza

Genere responsabile

Tot

M F

3 22 00 22

4 00 11 11

6 2 1 3

7 11 00 11

10 00 22 22

Tot 55 44 99

Ad

dett

i

Distribuzione parziale del genere del responsabile, condizionata alla modalità “6” del carattere “numero di addetti”

Considerando i punti vendita con 6 addetti, qual è la proporzione il cui responsabile è una femmina?

Distribuzione del genere del responsabile dato che il numero di addetti è pari a 6

7

Distribuzione doppia di frequenza

Ubicazione Vendita on line

centro si

periferia si

Semicentro no

periferia no

centro no

centro no

periferia no

Semicentro no

centro si

Vendita on line

Tot

si no

Centro 2 2 4

Semicentro

0 2 2

Perif. 1 2 3

Tot 3 6 9U

bic

azi

on

e

8

Distribuzione doppia di frequenza

Vendita on line

Tot

si no

Centro 2 2 4

Semicentro

0 2 2

Perif. 1 2 3

Tot 3 6 9

Ub

icazi

on

e

Qual è la proporzione di p.v. ubicati in centro?

Nel sottoinsieme dei p.v. che effettuano anche la vendita on line, qual è la proporzione di p.v. ubicati in centro?

Qual è la proporzione di p.v. che vendono anche on line?

Nel sottoinsieme di p.v. ubicati in periferia, qual è la proporzione di p.v. che vendono anche on line?

9

Distribuzione doppia di frequenza

Y Tot

y1 … yj … yK

X

X1 n11 n1j n1k n1.

Xi ni1 nij nik ni.

xH nH1 nHj nHK nH.

Tot n.1 n.j n.K n

2 distribuzioni marginali

H distribuzioni parziali di Y, condizionate ad ogni valore di X

K distribuzioni parziali di X, condizionate ad ogni valore di Y

10

Relazioni tra variabili: indipendenza

Quando si osservano due caratteri X e Y diventa interessante studiare la relazione tra di essiSe tra X e Y non c’è alcun legame X e Y sono indipendenti statisticamenteTra due caratteri esiste indipendenza statistica quando la conoscenza della modalità di uno dei due caratteri non migliora la “previsione” della modalità dell’altro

11

Associazione

In presenza di un qualche legame (associazione) tra X e Y, lo studio della relazione tra i due caratteri richiede di: • distinguere la tipologia di caratteri che si esaminano • specificare se si è interessati a studiare la dipendenza o l’interdipendenza

12

Dipendenza e interdipendenza

Dipendenza:studia come le modalità di un carattere dipendano da quelle di un altro carattere secondo un legame unidirezionale

Interdipendenza:Si assume che i due caratteri abbiano lo stesso ruolo e che il legame sia bidirezionale

13

Caratteri qualitativi sconnessiTabella doppia di frequenza

Frequenze osservate nij

Frequenze teoriche (quelle che si osserverebbero in caso di indipendenza statistica)

La condizione di indipendenza statistica si verifica a partire dalle differenze cij tra ciascuna frequenza osservata e la corrispondente frequenza teorica

n

nnn j..i'

ij

'ijijij nnc

14

Freq. osservate e freq. teoriche

Y Tot

y1 … yj … yK

X

X1 n11 n1j n1k n1.

Xi ni1 nik

xH nH1 nHj nHK nH.

Tot n.1 n.K

Freq. osservate

n

nnn j..i'

ij

Freq. che si utilizzano per ricavare le freq. teoriche

n.j

nij ni.

n

15

Frequenze osservate

Vendita on line

Tot

si no

Centro 2 2 4

Semicentro

0 2 2

Perif. 1 2 3

Tot 3 6 9

Ub

icazi

on

e

16

Frequenze teoriche

Vendita on line

Tot

si no

Centro 4

Semicentro

2

Perif. 3

Tot 3 6 9

932

934

Se ci fosse indipendenza statistica quali sarebbero le frequenze congiunte?

Ub

icazi

on

e 964

962

933

963

17

Frequenze osservate e teoriche

Vendita on line

Tot

si no

Centro 2 2 4

Semicentro

0 2 2

Perif. 1 2 3

Tot 3 6 9

Ub

icazi

on

e

Vendita on line

Tot

si no

Centro 1,33 2,67 4

Semicentro

0,67 1,33 2

Perif. 1 2 3

Tot 3 6 9U

bic

azi

on

e

Osservate Teoriche

Non tutte le freq. teoriche sono uguali alle corrispondenti freq. osservateNon c’è indipendenza statistica tra i due caratteri

Qual è il grado di associazione tra i due caratteri?

18

Interdipendenza:Indice Chi-quadrato

Studia l’interdipendenza tra due caratteri qualitativi sconnessi a partire da una tabella doppia

H

1i

K

1j'ij

2ij2

n

c 'ijijij nnc

02 indipendenza statistica

02 interdipendenza

19

Interdipendenza: Indice V di Cramer

Indice relativo per misurare l’associazione (interdipendenza) tra due caratteri qualitativi

1K,1Hminn/

V2

1V0

V=0 indipendenza statisticaV=1 associazione perfetta

Più V si avvicina ad 1 e più aumenta il grado di associazione tra X e Y

20

5,167,033,0

17,033,02

H=3, K=2 quindi il minimo tra H-1 e K-1 è uguale a 1 41,0

950,1

V

222

111

33,133,12

67,067,00

67,267,22

33,133,12

22

22

222

Calcolo di χ2 e V

21

Se X e/o Y sono qualitativi ordinati o quantitativi (in classi), un’analisi esplorativa sulla tabella doppia con l’indice Chi-quadrato è sempre possibileTuttavia ci sono indici più opportuni da utilizzare

Per caratteri che non sono qualitativi sconnessi

22

Se Y è un carattere quantitativo e X è qualitativo o quantitativo discreto o quantitativo continuo ma raggruppato in classi si può costruire un indice che misuri l’intensità della dipendenza in media di Y da X, si parla di rapporto di correlazione.

Un carattere quantitativo e uno qualsiasi

23

Se X e Y sono quantitativi si può costruire un indice che misuri l’intensità del legame lineare tra le variabili (covarianza, coefficiente di correlazione).

Caratteri quantitativi

24

Rappresentazione grafica Grafico di dispersione

Due variabili quantitativeRicavi sull’asse XCosti sull’asse YOgni punto rappresenta una unità (un punto vendita)Le coordinate (x,y) del punto rappresentano i valori rispettivamente dei ricavi e dei costi osservati per quel punto vendita

0

100

200

300

400

0 100 200 300 400 500 600 700

Ricavi

Costi

n=9 coppie di valori del tipo (xi,yi)

25

Grafico di dispersione

Da come si dispongono i punti sul piano possiamo capire il tipo di relazione (se esiste) tra le due variabiliIn questo caso, a ricavi alti corrispondono costi alti e, viceversa, a ricavi bassi corrispondono costi bassiC’è una relazione lineare positiva (concordanza) tra costi e ricavi

0

100

200

300

400

0 100 200 300 400 500 600 700

Ricavi

Costi

26

Interdipendenza tra due caratteri quantitativi

Covarianza: Indice simmetrico di associazione tra due variabili quantitative

Cov > 0 se prevalgono scostamenti concordi di X e Y (bassi valori di X corrispondenti a bassi valori di Y oppure alti valori di X corrispondenti a alti valori di Y).Cov < 0 se prevalgono scostamenti discordi (alti valori di una variabile associati a bassi valori dell’altra variabile)Cov = 0 in assenza di relazione lineare tra X e Y

yyxxn1

)Y,X(Cov i

n

1iiXY

27

Cov(X,Y)=0

Covarianza nulla

28

Cov(X,Y)>0

Covarianza positiva (concordanza)

29

Cov(X,Y)<0

Covarianza negativa (discordanza)

30

La relazione tra X e Y non è di tipo lineare

Ci aspettiamo un valore di Cov(X,Y) prossimo allo 0, il che indica assenza di legame lineare

X e Y NON sono indipendenti, ma legati da una forte relazione di tipo non lineare

Legame non lineare

31

Correlazione lineare

Indice relativo di concordanza/discordanza

perfetta discordanza

discordanza

assenza di legame lineare

concordanza

concordanza perfetta

n

1i

2

i

n

1i

2

i

i

n

1ii

YX

XYXY

yyxx

yyxx)Y,X(Corr 11 XY

1XY

01 XY

0XY

10 XY

1XY

32

ρ=1Perfetta concordanza

ρ=-1Perfetta discordanza

Concordanza e discordanza perfetta

33

Calcolo della covarianza(Scarti X) x (Scarti Y)

402,8

11111,1

44305,6

14194,4

-611,1

9988,9

10066,7

316,7

2200,0

Ricavi (X)

Costi (Y)

350 205

200 100

600 350

500 270

270 200

180 120

205 105

340 210

280 140

Scarti X

Scarti Y

25 16,11

-125 -88,99

275 161,11

175 81,11

-55 11,11

-145 -68,89

-120 -83,89

15 21,11

-45 -48,89

325 188,89Media 44,102199

91975)Y,X(Covyyxx

n1

i

n

1ii

34

Calcolo del coefficiente di correlazione

325 188,89

97,048,7866,134

44,10219

YX

XY

Ricavi (X)

Costi (Y)

350 205

200 100

600 350

500 270

270 200

180 120

205 105

340 210

280 140

Media

134,66 78,48Dev std

44,10219)Y,X(Cov

C’è una forte concordanza tra ricavi e costi

35

Ancora sulla covarianza

n

1iiii

n

1ii yxnyxyyxx)Y,X(Codevianza

n

1iyi yxyx

n1

n)Y,X(Codev

)Y,X(Cov

36

Relazioni tra variabili: riepilogo

Tipo di relazione Caratteri Struttura dati

Indici

Interdipendenza tra X e Y

qualsiasi (se qualitativi sconnessi è l’unico tipo di relazione da studiare)

Tabella doppia di frequenze

χ2

V (relativo)

Dipendenza in media di Y da X

Y quantitativoX qualsiasi (se quantitativo continuo, in classi)

Valori raggruppati in base alle modalità di X

η2 (relativo)

Interdipendenza tra X e Y (concordanza/discordanza)

quantitativi Coppie di valori

Covρ (relativo)

37

Si vuole investire nel mercato azionario italiano e in quello di un altro Paese con l’obiettivo di diversificare il portafoglio.

Sulla base delle serie mensili delle variazioni del Morgan Stanley Capital Index (MSCI) riferito a Italia, Germania, Francia e Singapore si hanno i seguenti risultati: ρ

Italia-Francia 0.87

Italia-Germania 0.88

Italia-Singapore 0.63

Il suggerimento è di investire in titoli azionari italiani e di Singapore. Perché?

38

Relazioni tra variabili: applicazioni

Dalla teoria economica sappiamo che esiste una relazione tra la variabile produzione (misurata tramite il valore aggiunto) e gli input fattore capitale e fattore lavoro. Dalle serie storiche (1970-1983) delle tre variabili si ottengono i grafici di dispersione del valore aggiunto e, rispettivamente, l’input di capitale e l’input di lavoro

39

Relazioni tra variabili: applicazioni

40

Relazioni tra variabili: applicazioni

Il valore aggiunto ha una correlazione maggiore con l’input di capitale (grafico a sinistra) che con l’input di lavoro (grafico a destra)

Recommended