40
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Embed Size (px)

Citation preview

Page 1: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Corso diAnalisi Statistica per le

Imprese

Cross tabulation e relazioni tra variabili

Prof. L. Neria.a. 2014-2015

1

Page 2: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Distribuzione doppia di frequenza

Addetti

Genere respons

6 M

6 M

10 F

10 F

7 M

3 M

3 M

6 F

4 F

Genere responsabile

M F

3

4

6

7

10

Ad

dett

i

Quanti sono i punti vendita con 3 addetti, il cui responsabile è un maschio? 2

2

Quanti sono i punti vendita con 3 addetti, il cui responsabile è una femmina? 0

0

0

2

1

1

1 0

0 2

2

Page 3: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Distribuzione doppia di frequenza

Genere responsabile

Tot

M F

3 2 0 2

4 0 1 1

6 2 1 3

7 1 0 1

10 0 2 2

Tot 5 4 9

Ad

dett

i 1 è la frequenza congiunta associata alla modalità 4 del Numero di addetti e alla modalità F del Genere responsabile

3

Page 4: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Distribuzione doppia di frequenza

Genere responsabile

Tot

M F

33 22 00 22

44 00 11 11

66 22 11 33

77 11 00 11

1010 00 22 22

Tot 5 4 9

Ad

dett

i

Distribuzione marginale del genere del responsabile(distribuzione di frequenza semplice del carattere “genere del responsabile”)

Qual è la proporzione di punti vendita il cui responsabile è una femmina?

(44%) 44,094

p

4

Page 5: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Distribuzione doppia di frequenza

Genere responsabile

Tot

M F

3 22 00 2

4 00 11 1

6 22 11 3

7 11 00 1

10 00 22 2

Tot 55 44 9

Ad

dett

i

Distribuzione marginale degli addetti(distribuzione di frequenza semplice del carattere “numero di addetti”)

5

Page 6: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Distribuzione doppia di frequenza

Genere responsabile

Tot

M F

3 2 00 22

4 0 11 11

6 2 11 33

7 1 00 11

10 0 22 22

Tot 5 44 99

Ad

dett

i

Distribuzione parziale del numero di addetti, condizionata alla modalità “maschio” del carattere “genere del responsabile”

Qual è il numero medio di addetti dei punti vendita il cui responsabile è un uomo?

Distribuzione del numero di addetti dato che il genere del responsabile è “maschio”

6

Page 7: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Distribuzione doppia di frequenza

Genere responsabile

Tot

M F

3 22 00 22

4 00 11 11

6 2 1 3

7 11 00 11

10 00 22 22

Tot 55 44 99

Ad

dett

i

Distribuzione parziale del genere del responsabile, condizionata alla modalità “6” del carattere “numero di addetti”

Considerando i punti vendita con 6 addetti, qual è la proporzione il cui responsabile è una femmina?

Distribuzione del genere del responsabile dato che il numero di addetti è pari a 6

7

Page 8: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Distribuzione doppia di frequenza

Ubicazione Vendita on line

centro si

periferia si

Semicentro no

periferia no

centro no

centro no

periferia no

Semicentro no

centro si

Vendita on line

Tot

si no

Centro 2 2 4

Semicentro

0 2 2

Perif. 1 2 3

Tot 3 6 9U

bic

azi

on

e

8

Page 9: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Distribuzione doppia di frequenza

Vendita on line

Tot

si no

Centro 2 2 4

Semicentro

0 2 2

Perif. 1 2 3

Tot 3 6 9

Ub

icazi

on

e

Qual è la proporzione di p.v. ubicati in centro?

Nel sottoinsieme dei p.v. che effettuano anche la vendita on line, qual è la proporzione di p.v. ubicati in centro?

Qual è la proporzione di p.v. che vendono anche on line?

Nel sottoinsieme di p.v. ubicati in periferia, qual è la proporzione di p.v. che vendono anche on line?

9

Page 10: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Distribuzione doppia di frequenza

Y Tot

y1 … yj … yK

X

X1 n11 n1j n1k n1.

Xi ni1 nij nik ni.

xH nH1 nHj nHK nH.

Tot n.1 n.j n.K n

2 distribuzioni marginali

H distribuzioni parziali di Y, condizionate ad ogni valore di X

K distribuzioni parziali di X, condizionate ad ogni valore di Y

10

Page 11: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Relazioni tra variabili: indipendenza

Quando si osservano due caratteri X e Y diventa interessante studiare la relazione tra di essiSe tra X e Y non c’è alcun legame X e Y sono indipendenti statisticamenteTra due caratteri esiste indipendenza statistica quando la conoscenza della modalità di uno dei due caratteri non migliora la “previsione” della modalità dell’altro

11

Page 12: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Associazione

In presenza di un qualche legame (associazione) tra X e Y, lo studio della relazione tra i due caratteri richiede di: • distinguere la tipologia di caratteri che si esaminano • specificare se si è interessati a studiare la dipendenza o l’interdipendenza

12

Page 13: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Dipendenza e interdipendenza

Dipendenza:studia come le modalità di un carattere dipendano da quelle di un altro carattere secondo un legame unidirezionale

Interdipendenza:Si assume che i due caratteri abbiano lo stesso ruolo e che il legame sia bidirezionale

13

Page 14: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Caratteri qualitativi sconnessiTabella doppia di frequenza

Frequenze osservate nij

Frequenze teoriche (quelle che si osserverebbero in caso di indipendenza statistica)

La condizione di indipendenza statistica si verifica a partire dalle differenze cij tra ciascuna frequenza osservata e la corrispondente frequenza teorica

n

nnn j..i'

ij

'ijijij nnc

14

Page 15: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Freq. osservate e freq. teoriche

Y Tot

y1 … yj … yK

X

X1 n11 n1j n1k n1.

Xi ni1 nik

xH nH1 nHj nHK nH.

Tot n.1 n.K

Freq. osservate

n

nnn j..i'

ij

Freq. che si utilizzano per ricavare le freq. teoriche

n.j

nij ni.

n

15

Page 16: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Frequenze osservate

Vendita on line

Tot

si no

Centro 2 2 4

Semicentro

0 2 2

Perif. 1 2 3

Tot 3 6 9

Ub

icazi

on

e

16

Page 17: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Frequenze teoriche

Vendita on line

Tot

si no

Centro 4

Semicentro

2

Perif. 3

Tot 3 6 9

932

934

Se ci fosse indipendenza statistica quali sarebbero le frequenze congiunte?

Ub

icazi

on

e 964

962

933

963

17

Page 18: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Frequenze osservate e teoriche

Vendita on line

Tot

si no

Centro 2 2 4

Semicentro

0 2 2

Perif. 1 2 3

Tot 3 6 9

Ub

icazi

on

e

Vendita on line

Tot

si no

Centro 1,33 2,67 4

Semicentro

0,67 1,33 2

Perif. 1 2 3

Tot 3 6 9U

bic

azi

on

e

Osservate Teoriche

Non tutte le freq. teoriche sono uguali alle corrispondenti freq. osservateNon c’è indipendenza statistica tra i due caratteri

Qual è il grado di associazione tra i due caratteri?

18

Page 19: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Interdipendenza:Indice Chi-quadrato

Studia l’interdipendenza tra due caratteri qualitativi sconnessi a partire da una tabella doppia

H

1i

K

1j'ij

2ij2

n

c 'ijijij nnc

02 indipendenza statistica

02 interdipendenza

19

Page 20: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Interdipendenza: Indice V di Cramer

Indice relativo per misurare l’associazione (interdipendenza) tra due caratteri qualitativi

1K,1Hminn/

V2

1V0

V=0 indipendenza statisticaV=1 associazione perfetta

Più V si avvicina ad 1 e più aumenta il grado di associazione tra X e Y

20

Page 21: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

5,167,033,0

17,033,02

H=3, K=2 quindi il minimo tra H-1 e K-1 è uguale a 1 41,0

950,1

V

222

111

33,133,12

67,067,00

67,267,22

33,133,12

22

22

222

Calcolo di χ2 e V

21

Page 22: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Se X e/o Y sono qualitativi ordinati o quantitativi (in classi), un’analisi esplorativa sulla tabella doppia con l’indice Chi-quadrato è sempre possibileTuttavia ci sono indici più opportuni da utilizzare

Per caratteri che non sono qualitativi sconnessi

22

Page 23: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Se Y è un carattere quantitativo e X è qualitativo o quantitativo discreto o quantitativo continuo ma raggruppato in classi si può costruire un indice che misuri l’intensità della dipendenza in media di Y da X, si parla di rapporto di correlazione.

Un carattere quantitativo e uno qualsiasi

23

Page 24: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Se X e Y sono quantitativi si può costruire un indice che misuri l’intensità del legame lineare tra le variabili (covarianza, coefficiente di correlazione).

Caratteri quantitativi

24

Page 25: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Rappresentazione grafica Grafico di dispersione

Due variabili quantitativeRicavi sull’asse XCosti sull’asse YOgni punto rappresenta una unità (un punto vendita)Le coordinate (x,y) del punto rappresentano i valori rispettivamente dei ricavi e dei costi osservati per quel punto vendita

0

100

200

300

400

0 100 200 300 400 500 600 700

Ricavi

Costi

n=9 coppie di valori del tipo (xi,yi)

25

Page 26: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Grafico di dispersione

Da come si dispongono i punti sul piano possiamo capire il tipo di relazione (se esiste) tra le due variabiliIn questo caso, a ricavi alti corrispondono costi alti e, viceversa, a ricavi bassi corrispondono costi bassiC’è una relazione lineare positiva (concordanza) tra costi e ricavi

0

100

200

300

400

0 100 200 300 400 500 600 700

Ricavi

Costi

26

Page 27: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Interdipendenza tra due caratteri quantitativi

Covarianza: Indice simmetrico di associazione tra due variabili quantitative

Cov > 0 se prevalgono scostamenti concordi di X e Y (bassi valori di X corrispondenti a bassi valori di Y oppure alti valori di X corrispondenti a alti valori di Y).Cov < 0 se prevalgono scostamenti discordi (alti valori di una variabile associati a bassi valori dell’altra variabile)Cov = 0 in assenza di relazione lineare tra X e Y

yyxxn1

)Y,X(Cov i

n

1iiXY

27

Page 28: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Cov(X,Y)=0

Covarianza nulla

28

Page 29: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Cov(X,Y)>0

Covarianza positiva (concordanza)

29

Page 30: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Cov(X,Y)<0

Covarianza negativa (discordanza)

30

Page 31: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

La relazione tra X e Y non è di tipo lineare

Ci aspettiamo un valore di Cov(X,Y) prossimo allo 0, il che indica assenza di legame lineare

X e Y NON sono indipendenti, ma legati da una forte relazione di tipo non lineare

Legame non lineare

31

Page 32: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Correlazione lineare

Indice relativo di concordanza/discordanza

perfetta discordanza

discordanza

assenza di legame lineare

concordanza

concordanza perfetta

n

1i

2

i

n

1i

2

i

i

n

1ii

YX

XYXY

yyxx

yyxx)Y,X(Corr 11 XY

1XY

01 XY

0XY

10 XY

1XY

32

Page 33: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

ρ=1Perfetta concordanza

ρ=-1Perfetta discordanza

Concordanza e discordanza perfetta

33

Page 34: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Calcolo della covarianza(Scarti X) x (Scarti Y)

402,8

11111,1

44305,6

14194,4

-611,1

9988,9

10066,7

316,7

2200,0

Ricavi (X)

Costi (Y)

350 205

200 100

600 350

500 270

270 200

180 120

205 105

340 210

280 140

Scarti X

Scarti Y

25 16,11

-125 -88,99

275 161,11

175 81,11

-55 11,11

-145 -68,89

-120 -83,89

15 21,11

-45 -48,89

325 188,89Media 44,102199

91975)Y,X(Covyyxx

n1

i

n

1ii

34

Page 35: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Calcolo del coefficiente di correlazione

325 188,89

97,048,7866,134

44,10219

YX

XY

Ricavi (X)

Costi (Y)

350 205

200 100

600 350

500 270

270 200

180 120

205 105

340 210

280 140

Media

134,66 78,48Dev std

44,10219)Y,X(Cov

C’è una forte concordanza tra ricavi e costi

35

Page 36: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Ancora sulla covarianza

n

1iiii

n

1ii yxnyxyyxx)Y,X(Codevianza

n

1iyi yxyx

n1

n)Y,X(Codev

)Y,X(Cov

36

Page 37: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Relazioni tra variabili: riepilogo

Tipo di relazione Caratteri Struttura dati

Indici

Interdipendenza tra X e Y

qualsiasi (se qualitativi sconnessi è l’unico tipo di relazione da studiare)

Tabella doppia di frequenze

χ2

V (relativo)

Dipendenza in media di Y da X

Y quantitativoX qualsiasi (se quantitativo continuo, in classi)

Valori raggruppati in base alle modalità di X

η2 (relativo)

Interdipendenza tra X e Y (concordanza/discordanza)

quantitativi Coppie di valori

Covρ (relativo)

37

Page 38: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Si vuole investire nel mercato azionario italiano e in quello di un altro Paese con l’obiettivo di diversificare il portafoglio.

Sulla base delle serie mensili delle variazioni del Morgan Stanley Capital Index (MSCI) riferito a Italia, Germania, Francia e Singapore si hanno i seguenti risultati: ρ

Italia-Francia 0.87

Italia-Germania 0.88

Italia-Singapore 0.63

Il suggerimento è di investire in titoli azionari italiani e di Singapore. Perché?

38

Relazioni tra variabili: applicazioni

Page 39: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Dalla teoria economica sappiamo che esiste una relazione tra la variabile produzione (misurata tramite il valore aggiunto) e gli input fattore capitale e fattore lavoro. Dalle serie storiche (1970-1983) delle tre variabili si ottengono i grafici di dispersione del valore aggiunto e, rispettivamente, l’input di capitale e l’input di lavoro

39

Relazioni tra variabili: applicazioni

Page 40: Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

40

Relazioni tra variabili: applicazioni

Il valore aggiunto ha una correlazione maggiore con l’input di capitale (grafico a sinistra) che con l’input di lavoro (grafico a destra)