Upload
anacleto-di-matteo
View
213
Download
0
Embed Size (px)
Citation preview
Corso diAnalisi Statistica per le
Imprese
Cross tabulation e relazioni tra variabili
Prof. L. Neria.a. 2014-2015
1
Distribuzione doppia di frequenza
Addetti
Genere respons
6 M
6 M
10 F
10 F
7 M
3 M
3 M
6 F
4 F
Genere responsabile
M F
3
4
6
7
10
Ad
dett
i
Quanti sono i punti vendita con 3 addetti, il cui responsabile è un maschio? 2
2
Quanti sono i punti vendita con 3 addetti, il cui responsabile è una femmina? 0
0
0
2
1
1
1 0
0 2
2
Distribuzione doppia di frequenza
Genere responsabile
Tot
M F
3 2 0 2
4 0 1 1
6 2 1 3
7 1 0 1
10 0 2 2
Tot 5 4 9
Ad
dett
i 1 è la frequenza congiunta associata alla modalità 4 del Numero di addetti e alla modalità F del Genere responsabile
3
Distribuzione doppia di frequenza
Genere responsabile
Tot
M F
33 22 00 22
44 00 11 11
66 22 11 33
77 11 00 11
1010 00 22 22
Tot 5 4 9
Ad
dett
i
Distribuzione marginale del genere del responsabile(distribuzione di frequenza semplice del carattere “genere del responsabile”)
Qual è la proporzione di punti vendita il cui responsabile è una femmina?
(44%) 44,094
p
4
Distribuzione doppia di frequenza
Genere responsabile
Tot
M F
3 22 00 2
4 00 11 1
6 22 11 3
7 11 00 1
10 00 22 2
Tot 55 44 9
Ad
dett
i
Distribuzione marginale degli addetti(distribuzione di frequenza semplice del carattere “numero di addetti”)
5
Distribuzione doppia di frequenza
Genere responsabile
Tot
M F
3 2 00 22
4 0 11 11
6 2 11 33
7 1 00 11
10 0 22 22
Tot 5 44 99
Ad
dett
i
Distribuzione parziale del numero di addetti, condizionata alla modalità “maschio” del carattere “genere del responsabile”
Qual è il numero medio di addetti dei punti vendita il cui responsabile è un uomo?
Distribuzione del numero di addetti dato che il genere del responsabile è “maschio”
6
Distribuzione doppia di frequenza
Genere responsabile
Tot
M F
3 22 00 22
4 00 11 11
6 2 1 3
7 11 00 11
10 00 22 22
Tot 55 44 99
Ad
dett
i
Distribuzione parziale del genere del responsabile, condizionata alla modalità “6” del carattere “numero di addetti”
Considerando i punti vendita con 6 addetti, qual è la proporzione il cui responsabile è una femmina?
Distribuzione del genere del responsabile dato che il numero di addetti è pari a 6
7
Distribuzione doppia di frequenza
Ubicazione Vendita on line
centro si
periferia si
Semicentro no
periferia no
centro no
centro no
periferia no
Semicentro no
centro si
Vendita on line
Tot
si no
Centro 2 2 4
Semicentro
0 2 2
Perif. 1 2 3
Tot 3 6 9U
bic
azi
on
e
8
Distribuzione doppia di frequenza
Vendita on line
Tot
si no
Centro 2 2 4
Semicentro
0 2 2
Perif. 1 2 3
Tot 3 6 9
Ub
icazi
on
e
Qual è la proporzione di p.v. ubicati in centro?
Nel sottoinsieme dei p.v. che effettuano anche la vendita on line, qual è la proporzione di p.v. ubicati in centro?
Qual è la proporzione di p.v. che vendono anche on line?
Nel sottoinsieme di p.v. ubicati in periferia, qual è la proporzione di p.v. che vendono anche on line?
9
Distribuzione doppia di frequenza
Y Tot
y1 … yj … yK
X
X1 n11 n1j n1k n1.
…
Xi ni1 nij nik ni.
…
xH nH1 nHj nHK nH.
Tot n.1 n.j n.K n
2 distribuzioni marginali
H distribuzioni parziali di Y, condizionate ad ogni valore di X
K distribuzioni parziali di X, condizionate ad ogni valore di Y
10
Relazioni tra variabili: indipendenza
Quando si osservano due caratteri X e Y diventa interessante studiare la relazione tra di essiSe tra X e Y non c’è alcun legame X e Y sono indipendenti statisticamenteTra due caratteri esiste indipendenza statistica quando la conoscenza della modalità di uno dei due caratteri non migliora la “previsione” della modalità dell’altro
11
Associazione
In presenza di un qualche legame (associazione) tra X e Y, lo studio della relazione tra i due caratteri richiede di: • distinguere la tipologia di caratteri che si esaminano • specificare se si è interessati a studiare la dipendenza o l’interdipendenza
12
Dipendenza e interdipendenza
Dipendenza:studia come le modalità di un carattere dipendano da quelle di un altro carattere secondo un legame unidirezionale
Interdipendenza:Si assume che i due caratteri abbiano lo stesso ruolo e che il legame sia bidirezionale
13
Caratteri qualitativi sconnessiTabella doppia di frequenza
Frequenze osservate nij
Frequenze teoriche (quelle che si osserverebbero in caso di indipendenza statistica)
La condizione di indipendenza statistica si verifica a partire dalle differenze cij tra ciascuna frequenza osservata e la corrispondente frequenza teorica
n
nnn j..i'
ij
'ijijij nnc
14
Freq. osservate e freq. teoriche
Y Tot
y1 … yj … yK
X
X1 n11 n1j n1k n1.
…
Xi ni1 nik
…
xH nH1 nHj nHK nH.
Tot n.1 n.K
Freq. osservate
n
nnn j..i'
ij
Freq. che si utilizzano per ricavare le freq. teoriche
n.j
nij ni.
n
15
Frequenze osservate
Vendita on line
Tot
si no
Centro 2 2 4
Semicentro
0 2 2
Perif. 1 2 3
Tot 3 6 9
Ub
icazi
on
e
16
Frequenze teoriche
Vendita on line
Tot
si no
Centro 4
Semicentro
2
Perif. 3
Tot 3 6 9
932
934
Se ci fosse indipendenza statistica quali sarebbero le frequenze congiunte?
Ub
icazi
on
e 964
962
933
963
17
Frequenze osservate e teoriche
Vendita on line
Tot
si no
Centro 2 2 4
Semicentro
0 2 2
Perif. 1 2 3
Tot 3 6 9
Ub
icazi
on
e
Vendita on line
Tot
si no
Centro 1,33 2,67 4
Semicentro
0,67 1,33 2
Perif. 1 2 3
Tot 3 6 9U
bic
azi
on
e
Osservate Teoriche
Non tutte le freq. teoriche sono uguali alle corrispondenti freq. osservateNon c’è indipendenza statistica tra i due caratteri
Qual è il grado di associazione tra i due caratteri?
18
Interdipendenza:Indice Chi-quadrato
Studia l’interdipendenza tra due caratteri qualitativi sconnessi a partire da una tabella doppia
H
1i
K
1j'ij
2ij2
n
c 'ijijij nnc
02 indipendenza statistica
02 interdipendenza
19
Interdipendenza: Indice V di Cramer
Indice relativo per misurare l’associazione (interdipendenza) tra due caratteri qualitativi
1K,1Hminn/
V2
1V0
V=0 indipendenza statisticaV=1 associazione perfetta
Più V si avvicina ad 1 e più aumenta il grado di associazione tra X e Y
20
5,167,033,0
17,033,02
H=3, K=2 quindi il minimo tra H-1 e K-1 è uguale a 1 41,0
950,1
V
222
111
33,133,12
67,067,00
67,267,22
33,133,12
22
22
222
Calcolo di χ2 e V
21
Se X e/o Y sono qualitativi ordinati o quantitativi (in classi), un’analisi esplorativa sulla tabella doppia con l’indice Chi-quadrato è sempre possibileTuttavia ci sono indici più opportuni da utilizzare
Per caratteri che non sono qualitativi sconnessi
22
Se Y è un carattere quantitativo e X è qualitativo o quantitativo discreto o quantitativo continuo ma raggruppato in classi si può costruire un indice che misuri l’intensità della dipendenza in media di Y da X, si parla di rapporto di correlazione.
Un carattere quantitativo e uno qualsiasi
23
Se X e Y sono quantitativi si può costruire un indice che misuri l’intensità del legame lineare tra le variabili (covarianza, coefficiente di correlazione).
Caratteri quantitativi
24
Rappresentazione grafica Grafico di dispersione
Due variabili quantitativeRicavi sull’asse XCosti sull’asse YOgni punto rappresenta una unità (un punto vendita)Le coordinate (x,y) del punto rappresentano i valori rispettivamente dei ricavi e dei costi osservati per quel punto vendita
0
100
200
300
400
0 100 200 300 400 500 600 700
Ricavi
Costi
n=9 coppie di valori del tipo (xi,yi)
25
Grafico di dispersione
Da come si dispongono i punti sul piano possiamo capire il tipo di relazione (se esiste) tra le due variabiliIn questo caso, a ricavi alti corrispondono costi alti e, viceversa, a ricavi bassi corrispondono costi bassiC’è una relazione lineare positiva (concordanza) tra costi e ricavi
0
100
200
300
400
0 100 200 300 400 500 600 700
Ricavi
Costi
26
Interdipendenza tra due caratteri quantitativi
Covarianza: Indice simmetrico di associazione tra due variabili quantitative
Cov > 0 se prevalgono scostamenti concordi di X e Y (bassi valori di X corrispondenti a bassi valori di Y oppure alti valori di X corrispondenti a alti valori di Y).Cov < 0 se prevalgono scostamenti discordi (alti valori di una variabile associati a bassi valori dell’altra variabile)Cov = 0 in assenza di relazione lineare tra X e Y
yyxxn1
)Y,X(Cov i
n
1iiXY
27
Cov(X,Y)=0
Covarianza nulla
28
Cov(X,Y)>0
Covarianza positiva (concordanza)
29
Cov(X,Y)<0
Covarianza negativa (discordanza)
30
La relazione tra X e Y non è di tipo lineare
Ci aspettiamo un valore di Cov(X,Y) prossimo allo 0, il che indica assenza di legame lineare
X e Y NON sono indipendenti, ma legati da una forte relazione di tipo non lineare
Legame non lineare
31
Correlazione lineare
Indice relativo di concordanza/discordanza
perfetta discordanza
discordanza
assenza di legame lineare
concordanza
concordanza perfetta
n
1i
2
i
n
1i
2
i
i
n
1ii
YX
XYXY
yyxx
yyxx)Y,X(Corr 11 XY
1XY
01 XY
0XY
10 XY
1XY
32
ρ=1Perfetta concordanza
ρ=-1Perfetta discordanza
Concordanza e discordanza perfetta
33
Calcolo della covarianza(Scarti X) x (Scarti Y)
402,8
11111,1
44305,6
14194,4
-611,1
9988,9
10066,7
316,7
2200,0
Ricavi (X)
Costi (Y)
350 205
200 100
600 350
500 270
270 200
180 120
205 105
340 210
280 140
Scarti X
Scarti Y
25 16,11
-125 -88,99
275 161,11
175 81,11
-55 11,11
-145 -68,89
-120 -83,89
15 21,11
-45 -48,89
325 188,89Media 44,102199
91975)Y,X(Covyyxx
n1
i
n
1ii
34
Calcolo del coefficiente di correlazione
325 188,89
97,048,7866,134
44,10219
YX
XY
Ricavi (X)
Costi (Y)
350 205
200 100
600 350
500 270
270 200
180 120
205 105
340 210
280 140
Media
134,66 78,48Dev std
44,10219)Y,X(Cov
C’è una forte concordanza tra ricavi e costi
35
Ancora sulla covarianza
n
1iiii
n
1ii yxnyxyyxx)Y,X(Codevianza
n
1iyi yxyx
n1
n)Y,X(Codev
)Y,X(Cov
36
Relazioni tra variabili: riepilogo
Tipo di relazione Caratteri Struttura dati
Indici
Interdipendenza tra X e Y
qualsiasi (se qualitativi sconnessi è l’unico tipo di relazione da studiare)
Tabella doppia di frequenze
χ2
V (relativo)
Dipendenza in media di Y da X
Y quantitativoX qualsiasi (se quantitativo continuo, in classi)
Valori raggruppati in base alle modalità di X
η2 (relativo)
Interdipendenza tra X e Y (concordanza/discordanza)
quantitativi Coppie di valori
Covρ (relativo)
37
Si vuole investire nel mercato azionario italiano e in quello di un altro Paese con l’obiettivo di diversificare il portafoglio.
Sulla base delle serie mensili delle variazioni del Morgan Stanley Capital Index (MSCI) riferito a Italia, Germania, Francia e Singapore si hanno i seguenti risultati: ρ
Italia-Francia 0.87
Italia-Germania 0.88
Italia-Singapore 0.63
Il suggerimento è di investire in titoli azionari italiani e di Singapore. Perché?
38
Relazioni tra variabili: applicazioni
Dalla teoria economica sappiamo che esiste una relazione tra la variabile produzione (misurata tramite il valore aggiunto) e gli input fattore capitale e fattore lavoro. Dalle serie storiche (1970-1983) delle tre variabili si ottengono i grafici di dispersione del valore aggiunto e, rispettivamente, l’input di capitale e l’input di lavoro
39
Relazioni tra variabili: applicazioni
40
Relazioni tra variabili: applicazioni
Il valore aggiunto ha una correlazione maggiore con l’input di capitale (grafico a sinistra) che con l’input di lavoro (grafico a destra)