Upload
hoangthu
View
220
Download
0
Embed Size (px)
Citation preview
28/03/2018
1
Metodi statistici per le ricerche di mercato
Prof.ssa Isabella MingoA.A. 2017-2018
Facoltà di Scienze Politiche, Sociologia, Comunicazione
Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa»
Stesso valore medio per distribuzioni diverse
• Un uguale valore medio può sintetizzaredistribuzioni molto diverse tra loro
• Le tre distribuzioni hanno la medesimamedia aritmetica, ma la tendenza di ogniunità ad assumere valori diversi dallamedia è differente in ciascuna distribuzione
M 21 21 21
a.a. 2017-2018
ui X1 X2 X3
A 22 1 21
B 22 8 21
C 20 10 21
D 23 32 21
E 19 34 21
F 20 41 21
28/03/2018
2
Caratteri quantitativi La variabilità
La variabilità o la dispersione di una distribuzione esprime la tendenza dei caratteri o dei fenomeni ad assumere differenti valori o determinazioni.
Requisiti di un indice di variabilità:– assume valore minimo se tutte le unità presentano uguale modalità del
carattere– aumenta all’aumentare della diversità tra modalità
Attenzione: ogni indice di variabilità esprime un concetto diverso pertanto non è corretto confrontare la variabilità ottenuta con indici diversi
a.a. 2017-2018
Campo di variazione
Il campo di variazione o range è un indice assoluto di variabilità È dato dalla differenza tra il valore minimo
e massimo assunto dal carattereR= Xmax- Xmin
Non è sensibile ad altre caratteristiche della distribuzione.
Dipende solo dai valori estremi ed è pertanto influenzato da casi anomali
Pagina 141
28/03/2018
3
Esercizio: Campo di variazioneCalcolare i campi di variazione delle tre variabili della tabella seguente
ui X1 X2 X3
1 22 1 21
2 22 8 21
3 20 10 21
4 23 32 21
5 19 34 21
6 20 41 21
419231
xR
401412
xR
021213
xR
Caratteri quantitativi Scostamento semplice medio
Si calcola sommando le differenze in valore assoluto, cioè non tenendoconto del segno positivo o negativo, tra ogni valore della distribuzione eil valore medio e dividendo la somma per la numerosità delladistribuzione.
A seconda della media scelta si può ottenere uno specifico scostamento medio per esempio dalla media aritmetica o dalla mediana.Per qualsiasi distribuzione di frequenze lo scostamento semplice dalla mediana è sempre minore o uguale allo scostamento dalla media aritmetica
a.a. 2017-2018
n
||n
1
j
j Mxs
28/03/2018
4
Caratteri quantitativi Scostamento semplice medio: calcolo
• Per la prima distribuzione si avrà:S=[|22-21|+|22–21|+|20–21|+|23–21|+|19-21|+|20–
21|]/6=1,33
• Per la seconda distribuzione si avrà:S=[|1-21|+|8–21|+|10–21|+|32–21|+|34-21|+|41–
21|]/6=14,77
• Per la terza distribuzione si avràS=[|21-21|+|21–21|+|21–21|+|21–21|+|21-21|+|21–
21|]/6=0M 21 21 21
a.a. 2017-2018
Caratteri quantitativi Varianza
E’ la media dei quadrati degli scarti dalla media aritmeticasi calcola sommando gli scarti elevati al quadrato e dividendoli per la
numerosità della distribuzione.
•La radice quadrata della varianza è la deviazione standard o scarto quadratico medio•Il numeratore della varianza è detto devianza
Osservazioni: L’elevazione a quadrato trasforma tutte le differenze negative in positivee mette in maggiore risalto le differenze grandi rispetto a quelle piccole.
La varianza non possiede la stessa unità di misura dei valori delladistribuzione
n
)(n
1
2
2
j
j Mx
28/03/2018
5
A proposito di deviazione
• La differenza di una osservazione xi dalla media è detta deviazione.
• La deviazione può essere positiva o negativa.• La media può essere interpretata come il centro di gravità
della distribuzione: infatti , per una proprietà della media aritmetica, la somma di tutte le deviazioni dalla media è pari a 0.
• Maggiore è la deviazione standard maggiore è la distanza tipica dalla media e dunque maggiore è la dispersione delle osservazioni.
a.a. 2017-2018
Esercizio
Nell’ambito di una indagine di mercato si sono rilevati i costi giornalieri per una camera doppia standard in alcuni Hotel della zona (tab.seguente).
Calcolare il costo medio e lo scarto quadratico medio.
a.a. 2017-2018Calcolo
28/03/2018
6
Pagina 148
Esempio: calcolo della varianza a partire da una distribuzione di frequenza
Distribuzione dei clienti per numero di notti di permanenza in albergo
283n 7KNum. Corsi
Freq xin i
1 152 433 1034 805 326 87 2
Totale 283
x i n i
1586
309320160
4814
952
(x i -M )2
5.571.850.130.412.696.97
13.25
(x i -M )2n i
83.5579.5513.3932.8086.0855.7626.50
377.63
331283
63377n
7
1
2
2 ..)(
ii
i
X
nMx
n
k
1 i
iinxM
Num. Notti
Freq xin i
1 152 433 1034 805 326 87 2
Totale 283
15.133.1 x
Indici di variabilità relativaConsentono di effettuare confronti sulla variabilità di fenomeni che presentano unità di misura differentipur avendo la stessa unità di misura hanno
valori medi differenti e quindi distribuzioni differenti
In alcune situazioni è fuorviante utilizzare la deviazione standard per il confronto:della variabilità di una variabile osservata su
due collettivi differenti di u.s.della variabilità di due o più variabili osservate
sul medesimo collettivo di u.s.
28/03/2018
7
Caratteri quantitativi Coefficiente di variazione
• Indice di variabilità percentuale, non influenzatodall’unità di misura e dall’ordine di grandezza deidati.
• Rapporto tra lo scarto quadratico medio e la mediaaritmetica x100.
Cv = / M *100
•Consente di confrontare fenomeni che presentano diverse unità di misura e/o sono rilevati su collettivi di diversa numerosità
•Ci indica se una distribuzione è più variabile di un’altra
Caratteri quantitativi Coefficiente di variazione esercizio
• Confrontiamo i volumi di vendita di due prodotti.
– Il prodotto A nei diversi punti vendita rilevati ha avuto un volume di vendite mediodi 750 euro e una deviazione standard () pari a 150 euro.
– Il prodotto B ha avuto un volume di vendite medio di 487 euro e una deviazionestandard pari a 115 euro.
• Quale prodotto registra una maggiore variabilità del volume divendite?
Cv = / M *100 M CV*100
Prodotto A 150,00 750,00 20,00Prodotto B 115,00 487,00 23,61
28/03/2018
8
Uso del software :indici medi e di variabilità
I. Mingo 2017-2018
Uso del software :confrontare variabili
I. Mingo 2017-2018
28/03/2018
9
Caratteri qualitativi Indici di eterogeneità o mutabilità
• Evidenziano e quantificano la presenza di eterogeneità nella distribuzione di un carattere qualitativo.
• Un indice di mutabilità deve soddisfare le seguenti condizioni:– assumere valore 0 se e solo se il collettivo è omogeneo rispetto al carattere
considerato;– crescere, assumendo valori maggiori di 0, all’aumentare dell’eterogeneità tra le
modalità del carattere.
• Si possono distinguere due situazioni estreme:– mutabilità nulla, tutte le unità presentano la medesima modalità del carattere– mutabilità massima quando tutte le unità presentano modalità differenti del carattere
oppure le diverse modalità del carattere hanno le stesse frequenze.
Gestore A Gestore B Gestore CCopertura nazionale 200 600 200Costi 200 0 150Piano tariffario 200 0 250Totale 600 600 600
Reclami verso due gestori dì telefonia per motivo
Caratteri qualitativi Indice di eterogeneità di Gini
Gestore A Gestore B Gestore CCopertura nazionale 200 600 200Costi 200 0 150Piano tariffario 200 0 250Totale 600 600 600
Reclami verso tre gestori dì telefonia per motivo (freq. Assolute)
Gestore A Gestore B Gestore CCopertura nazionale 0,33 1,00 0,33Costi 0,33 0,00 0,25Piano tariffario 0,33 0,00 0,42Totale 1,00 1,00 1,00
Reclami verso tre gestori dì telefonia per motivo (freq. Relative)
28/03/2018
10
Caratteri qualitativi Indice di eterogeneità di Gini normalizzato
Assume sempre valori compresi tra 0 (caso di eterogeneità nulla) e 1 (caso di eterogeneità massima) Può essere utilizzato per operare confronti del medesimo carattere osservato su collettivi differenti, con numerosità diversa, o tra distribuzioni di caratteri differenti osservati sul medesimo collettivo
K = numero di modalità
Nel nostro esempio K = 3
Caratteri qualitativi Indice di eterogeneità esercizio
Date le seguenti distribuzioni di frequenze riguardanti larilevazione delle vendite degli stessi prodotti in duesupermercati differenti, indicare in quale supermercato laclientela è più eterogenea rispetto all’acquisto dei prodotticonsiderati.
Numero di prodotti venduti per marca
Supermercato A ni
Supermercato B nj
Barilla 1200 360Buitoni 870 230Divella 360 220Voiello 580 230Totale 3010 1040
Calcolo
28/03/2018
11
Analisi bivariata
I. Mingo 2017-2018
Esistono diverse valutazioni per categorie di utenti?
• Operativamente, per ottenere informazioni più specifiche persottogruppi di popolazione è necessario applicare tecniche dianalisi bivariata:– Tabelle a doppia entrata se le variabili sono nominali o
ordinali– Statistiche descrittive (ad esempio indici medi) della
variabile quantitativa per ogni sottogruppo individuato dallemodalità della variabile qualitativa.
I. Mingo 2017-2018
28/03/2018
12
Che cosa è l’analisi bivariata?
E’ lo studio congiunto di due caratteri• Esempio nel casi di caratteri qualitativi:
I valori delle celle derivano dall’analisi della tabella unitaria!
SessoFrequenza
Maschio 750
Femmina 750Totale 1500
Valido
Soddisfazione ASLFrequenza
Per niente 176Poco 412Abbastanza 838Molto 74Totale 1500
Valido
Distribuzione doppia di frequenze: caratteristiche
Tabella che consente di sintetizzare l’informazionedisponibile su due caratteri osservati contemporaneamentesul medesimo collettivo di n u.s.
In colonna : Lista di modalità del carattere 1
In riga : Lista di modalità del carattere 2
Nella tabella si considerano tutte le possibili coppie dimodalità (una del car. 1 ed una del car. 2).
I valori rappresentati sono il conteggio, ossia le frequenzeassolute, del numero di u.s. del collettivo considerato chepresentano una coppia di modalità dei 2 caratteri.
28/03/2018
13
Tabella a doppia entrata
Frequenze nij delle unità del collettivo che presentano congiuntamentela modalità i-esima di un carattere e la modalità J-esima di un secondocarattere.
Distribuzioni marginali di riga e di colonna
Distribuzioni condizionate
Ha un numero di righe maggiore o uguale al numero di modalità della variabile rappresentata in riga e un numero di colonne maggiore o uguale a quello delle modalità della variabile rappresentata in colonna.
Dalla distribuzione unitaria multipla alla distribuzione doppia di frequenza: esempio
FSSC
1- Costruiamo un tabella che ha:• un numero di righe uguale al numero di
modalità della variabile che vogliamorappresentare in riga più 1 per i totali dicolonna
• un numero di colonne uguale a quellodelle modalità della variabile che vogliamorappresentare in colonna più 1 per i totalidi riga.
Per niente Poco Abbastanza Molto
Maschio
Femmina
Sesso
Totale
Soddisfazione ASL
Totale
SessoSoddisfazione
ASL
Maschio Abbastanza
Maschio Molto
Femmina Molto
Femmina Abbastanza
Maschio Per niente
Maschio Per niente
Femmina Abbastanza
Femmina Abbastanza
Femmina Molto
Femmina Molto
Femmina Abbastanza
Femmina Poco
Femmina Abbastanza
Femmina Abbastanza
Maschio Molto
Maschio Abbastanza
Femmina Poco
Femmina Poco
Femmina Per niente
Femmina Per nienteTotale N 20 20
13
14
15
16
17
18
1
2
3
4
5
6
7
19
20
9
10
11
12
8
28/03/2018
14
Dalla distribuzione unitaria multipla alla distribuzione doppia di frequenza: esercizio (segue)
2 – Contiamo per ciascun carattere le unitàche presentano una stessa modalità escriviamo i totali nelle rispettive cellemarginali della tabella.3- Contiamo le unità statistiche chepresentano congiuntamente le modalità a duea due e scriviamo le frequenze nelle rispettivecelle condizionate4- verifichiamo che le somme dei valori sianocoerenti.
SessoSoddisfazione
ASL
Maschio Abbastanza
Maschio Molto
Femmina Molto
Femmina Abbastanza
Maschio Per niente
Maschio Per niente
Femmina Abbastanza
Femmina Abbastanza
Femmina Molto
Femmina Molto
Femmina Abbastanza
Femmina Poco
Femmina Abbastanza
Femmina Abbastanza
Maschio Molto
Maschio Abbastanza
Femmina Poco
Femmina Poco
Femmina Per niente
Femmina Per nienteTotale N 20 20
13
14
15
16
17
18
1
2
3
4
5
6
7
19
20
9
10
11
12
8
Per niente Poco Abbastanza Molto
Maschio somma maschi
Femmina somma femmine
somma per niente
soddisfatti
somma abbastanza soddisfatti
somma molto soddisfatti
somma poco soddisfatti totale
Sesso
Totale
Soddisfazione ASL
Totale
Tabelle a doppia entrata : profili di riga e distribuzioni marginali percentuali
• Le distribuzioni marginali percentuali si ottengono dividendo le frequenze assolute marginali per il totale:• fi.=n i. /n.. *100; nella tabella precedente non sono calcolate• f.j=n.j/n..*100 176/1500*100=11,7% ; 412/1500*100=27,5%; 838/1500*100=55,9%; 74/1500*100=4,9%
• Nell’esempio le distribuzioni percentuali condizionate (profili di riga) della variabile “Sesso” e della variabilesoddisfazione si ottengono rispettivamente rapportando le distribuzioni condizionate ai corrispondenti totali diriga e moltiplicando per 100.
• Per i maschi: 84/750*100=11,2 ; 232/750*100=30,9%...........• Per le femmine 92/750*100=12,3%; 180/750*100=24% ………
28/03/2018
15
Tabelle a doppia entrata : profili di colonna e distribuzioni marginali percentuali
• Le distribuzioni marginali percentuali di riga• fi.=n i. /n.. *100; 750/1500*100;• Nell’esempio le distribuzioni percentuali condizionate (profili di colonna della variabile “Sesso” e della
variabile soddisfazione si ottengono rispettivamente rapportando le distribuzioni condizionate aicorrispondenti totali di riga e moltiplicando per 100.
• Per gli utenti per niente soddisfatti : 84/176*100=47,7%; 92/176*100=52,3%• ……• Per gli utenti molto soddisfatti: 36/74*100= 48,6%; 38/74*100= 51,4%
Tavola di contingenza Sesso * Soddisfazione ASL
Soddisfazione ASL Totale
Per niente Poco Abbastanza Molto
Sesso
Maschio Conteggio 84 232 398 36 750
% entro Soddisfazione ASL 47,7% 56,3% 47,5% 48,6% 50,0%
Femmina Conteggio 92 180 440 38 750
% entro Soddisfazione ASL 52,3% 43,7% 52,5% 51,4% 50,0%
Totale Conteggio 176 412 838 74 1500
% entro Soddisfazione ASL 100,0% 100,0% 100,0% 100,0% 100,0%
Profili riga e profili colonna: formalizzazione
Profili Riga
x 1 x 2 … x j … x K
y 1 n 11/n . 1 n 12/n . 2 … n 1j /n .j … n 1K/n . K n 1./ny 2 n 21/n . 1 n 22/n . 2 … n 2j /n .j … n 2K/n . K n 2./n: : : … : … : :
y i n i 1/n . 1 n i 2/n . 2 … n ij /n .j … n i K/n . K n i ./n: : : … : … : :
y H n H1/n . 1n H2/n . 2 … n Hj /n .j … n HK/n . K n H./n1 1 1 1 1 1Tot.
X
Y
Profili Colonna
x 1 x 2 … x j … x K
y 1 n 11/n 1. n 12/n 1. … n 1j /n 1. … n 1K/n 1. 1y 2 n 21/n 2. n 22/n 2. … n 2j /n 2. … n 2K/n 2. 1: : : … : … : :
y i n i 1/n i. n i 2/n i. … n ij /n i. … n i K/n i. 1: : : … : … : :
y H nH1/n H. n H2/n H. … n Hj /n H. … n HK/n H. 1n. 1/n n. 2/n … n. j /n … n. K/n
X
Y
Tot.
RMer
28/03/2018
16
Esercizio
RMer
A partire dalle frequenzeassolute della tabella 1,calcolare i profili % di riga e dicolonna.Commentare le due tabelleottenute.
Tab.1
Profili % di riga Profili % di colonna
Percentuali di riga, di colonna e sul totale … informazioni diverse
I. Mingo 2017-2018
28/03/2018
17
Uso del softwareTavole di contingenza
I. Mingo 2017-2018
Approfondimento:Le relazioni Statistiche
• Analisi dell’associazioneIndipendenza Interdipendenza Dipendenza
L’analisi congiunta di due o più caratteri è utile per studiare le relazioni tra di essi.
28/03/2018
18
Tipi di relazioni tra caratteri
• Indipendenza statistica (relazione simmetrica ):– Due caratteri sono statisticamente indipendenti quando
la conoscenza delle modalità di uno non consente diprevedere le modalità dell’altro
• Dipendenza (relazione asimmetrica):– Due caratteri sono dipendenti quando si può stabilire un
legame unidirezionale tra le modalità di un carattere equelle di un altro
• Interdipendenza (relazione simmetrica) :– Due caratteri sono interdipendenti quando si può stabilire
un legame bidirezionale tra le modalità di un carattere equelle di un altro.
2017-2018
Indipendenza Statistica• Due caratteri sono statisticamente indipendenti
quando la conoscenza di uno dei due caratterinon migliora la “previsione” della modalitàdell’altro
• Assenza di qualsiasi legame tra i due caratteri• Relazione simmetrica: se X è indipendente da Y
allora Y è indipendente da X
2017-2018
28/03/2018
19
Indipendenza Statistica in una tabella doppia
In una tabella a doppia entrata si ha indipendenzatra i due caratteri X e Y se le distribuzioni relativecondizionate di X rispetto alle modalità di Y sonouguali tra loro e alla distribuzione relativamarginale
Matrice profili riga ha tutte le righe uguali Matrice profili colonna ha tutte le colonne uguali
2017-2018
Indipendenza statistica:esempio
• Profili riga %10/30*100=335/30*100=1715/30*100=5014/42*100=337/42*100=1721/42*100=50
• Profili colonna %10/24*100=4214/24*100=585/12*100=427/12*100=5815/36*100=4221/36*100=58 2017-2018
Profili di riga %Canale Spot A Spot B Spot C TotaleRAI1 33,33 16,67 50,00 30CAN5 33,33 16,67 50,00 42Totale 33,33 16,67 50,00 72
Profili di colonna %Canale Spot A Spot B Spot C TotaleRAI1 41,67 41,67 41,67 41,67CAN5 58,33 58,33 58,33 58,33Totale 24,00 12,00 36,00 72
28/03/2018
20
Dipendenza perfetta di due caratteri• In una tabella doppia il carattere Y dipende perfettamente da X se
ad ogni modalità di X è associata una sola modalità di Y.• Se i due caratteri sono perfettamente dipendenti la tabella doppia
avrà per ogni riga di X solo una colonna di Y in cui n ij 0
2017-2018
Interdipendenza perfetta di due caratteri
• In una tabella doppia sussiste perfetta interdipendenza sead ogni modalità di X è associata una sola modalità di Y eviceversa.
Interdipendenza perfetta tra X e YX | Y 1 2 3 totale
1 0 0 30 302 0 20 0 203 10 0 0 10totale 10 20 30 60
2017-2018
28/03/2018
21
Esempi di dipendenza perfetta
Interdipendenza perfetta tra X e Y
X dipende perfettamente da Y
Y dipende perfettamente da X
2017-2018
X = ProdottoY = Canale acquistoDivano Viaggio Pasta TotaleWEB 0 23 0 23NEGOZIO 41 0 8 49Totale 41 23 8 72
Situazioni intermedie tra indipendenza e perfetta associazione
Il grado di associazione (dipendenza ointerdipendenza) è tanto maggiore quantopiù la tabella osservata si discosta daquella di indipendenza.Vedremo in seguito come valutare lasignificatività di questi scostamenti.
Frequenze osservate nij
Frequenze teoriche di indipendenza n*ij
Differenze tra Freq. Osserv e freq. teoriche (cij)
Tavola di contingenza titolo di studio * lettura libri negli ultimi 12 mesi
6 46 5228,6 23,4 52,0
-22,6 22,61 17 18
9,9 8,1 18,0-8,9 8,9111 177 288
158,2 129,8 288,0-47,2 47,2
149 132 281154,3 126,7 281,0
-5,3 5,3193 62 255
140,1 114,9 255,052,9 -52,9
81 10 9150,0 41,0 91,031,0 -31,0541 444 985
541,0 444,0 985,0
ConteggioConteggio attesoResiduiConteggioConteggio attesoResiduiConteggioConteggio attesoResiduiConteggioConteggio attesoResiduiConteggioConteggio attesoResiduiConteggioConteggio attesoResiduiConteggioConteggio atteso
laurea
dipl. univ.
diploma m. superiore
diploma m. inferiore
licenza elementare
nessun titolo
titolo distudio
Totale
no si
lettura libri negli ultimi12 mesi
Totale
28/03/2018
22
Indipendenza o interdipendenza? Esempio
Le frequenze assolute nell’ipotesi di indipendenza tra i 2 caratteri sono date da
Basso Medio Altof 19 5 0 24m 6 6 4 16Totale 25 11 4 40
Liv.SoddisfazioneSesso Totale
nnn
n .ji.*ij
us Totalecolonna Totaleriga Totale
Situazione osservata
Situazione teorica di indipendenza
Frequenza Teorica di Indipendenza
Basso Medio Altof 15 6,6 2,4 24m 10 4,4 1,6 16Totale 25 11 4 40
Liv.SoddisfazioneSesso Totale
n* 11 = 24x25/40=15n* 12 = 24x11/40=6.6n* 13 = 24x4/40=2.4
n* 21=16x25/40=10n* 22=16x11/40=4.4n* 23=16x4/40=1.6
n* 11 = 24x25/40=15n* 12 = 24x11/40=6.6n* 13 = 24x4/40=2.4
n* 21=16x25/40=10n* 22=16x11/40=4.4n* 23=16x4/40=1.6
Differenza tra situazione osservata e situazione teorica : le contingenze
Situazione osservata Situazione teorica di indipendenza
*ijij nn
Contingenze o Residui
Basso Medio Altof 19 5 0 24m 6 6 4 16Totale 25 11 4 40
Liv.SoddisfazioneSesso Totale Basso Medio Altof 15 6,6 2,4 24m 10 4,4 1,6 16Totale 25 11 4 40
Liv.SoddisfazioneSesso Totale
Basso Medio Altof 4 -1,6 -2,4m -4 1,6 2,4
Liv.SoddisfazioneSesso
a.a 2017-2018RMer
c11 = 19-15=4c12 = 5-6.6=-1.6c 13 =0-2.4=-2.4
C21=6-10=-4c22=6-4.4=1.6c23=4-1.6=2.4
Tabella delle Contingenze
28/03/2018
23
Misura di associazione: il Chi-Quadrato di Pearson
Assume valore 0 se X e Y sono perfettamente indipendenti Assume valore positivo se esiste un legame di dipendenza o
interdipendenza tra X e Y Ha le dimensioni di una frequenza assoluta
H
i
K
j*ij
*ijij
n
nnχ
1 1
22
Proprietà
ij*ijij cnn
Esempio di calcolo del Chi quadrato
64.93.60.581.62.40.391.0676.1)4.2(
4.4)6.1(
10)4(
4.2)4.2(
6.6)6.1(
154 222222
2
H
i
K
j ij
ijij
1 1*
2*2
n
nn
Basso Medio Altof 4 -1,6 -2,4m -4 1,6 2,4
Liv.SoddisfazioneSesso
Contingenze
a.a 2017-2018
ij*ijij cnn
Tabella delle Contingenze
28/03/2018
24
Come si interpreta il Chi quadrato
• La differenza fra i valori corrispondenti nij e n*ij (valoriosservati e valori attesi nell’ipotesi di indipendenza fra levariabili studiate) indica quanto la situazione osservatasi discosta da quella di indipendenza:– se la differenza è nulla, o è piccola, non c’è relazione tra i
caratteri– se i valori sono grandi allora si può ipotizzare che c’è una
relazione .
• Ma quando questa differenza può essere consideratapiccola o grande?
• Per rispondere a questo quesito bisogna conoscere ladistribuzione del test statistico del Chi Quadrato, di cuiparleremo nelle prossime lezioni sulla statisticainferenziale.
2
Caratteristiche del Chi quadrato• Nel calcolo del Chi quadrato il ruolo delle variabili è
simmetrico.• Il Chi quadrato non cambia se le modalità sono ordinate in
modo diverso: è un test in cui le variabili sono sempretrattate come qualitative non ordinabili .
• Il Chi quadrato ci dice quanta evidenza c’è a favore dellainterdipendenza, ma non misura la forza di questarelazione.
• Il valore del Chi quadrato dipende dal numero di unitàstatistiche, tende a crescere all’aumentare del numerodelle righe e delle colonne della tabella di contingenza.
28/03/2018
25
Indici di associazione per tabelle doppie difrequenze
Misurano l’associazione tra due caratteri analizzando la distribuzione congiunta delle frequenze.• I più comunemente usati sono:
– L’indice di contingenza quadratica media– L’indice V di Cramer – L’indice P di Pearson
GlossarioIndice PHI 2 (contingenza quadratica media)
•
28/03/2018
26
Glossario Indice P di Pearson
•
GlossarioIndice V di Cramér
•
28/03/2018
27
Esercizio
Rmer 2017-2018
Sapendo che su una tabella di contingenza in cui si riporta la distribuzione doppia di 1000 clienti, incrociando in riga il tipo di Banca utilizzata (modalità: Unicredit, Credito Cooperativo, Banca Agricola Popolare) e la condizione professionale dei clienti (modalità: Imprenditore, Artigiano, Lavoratore dipendente, Libero Professionista) si è ottenuto :2 = 988,07
Calcolare :- PHI2 e V di Cramer- L’indice P di Pearson
calcoli
Uso del softwareTavole di contingenza
Chi quadrato e indici di associazione
I. Mingo 2017-2018
28/03/2018
28
Calcolare le contingenze o residui
Residuo = Conteggio - conteggio attesoResiduo Standardizzato= Residuo/conteggio attesoResiduo Corretto= Residuo standardizzato/ (1- (ni./n.. ) (1- ( n.j ./n.. ))
z11= 0,7/(1-62/1267)(1-786/1267)=1,2
Uso del software:interpretare l’output
I. Mingo 2017-2018
Analizzando i residuo corretti, si può affermare che si registra un’associazione statisticamente significativa, [con un livello di probabilità del 95% ] , per le modalità che presentano un residuo corretto z>=|1,96| :- se z è positivo la cella presenta un
numero di casi significativamente più elevato di quello che si otterrebbe nel caso di indipendenza tra le modalità.
- se z è negativo, la cella presenta un numero di casi significativamente più ridotto di quello che si otterrebbe nel caso di indipendenza tra le modalità.
Spiegheremo più avanti perché!
28/03/2018
29
Esercizio
I. Mingo 2017-2018
Sulla base dei dati della tabella seguente, calcolare il Chi quadrato trale variabili sesso e valutazione per la completezza del patrimoniolibrario degli utenti delle biblioteche .Quale indicazione si può trarre dai residui corretti?
calcolo
H
i
K
j*ij
*ijij
n
nnχ
1 1
22
Indici di associazione per caratteri ordinati • Se la tabella si riferisce a caratteri ordinati è possibile costruire
indici che oltre a misurare l’intensità dell’associazione nemisurano il verso.
• Tra due caratteri ordinati possono sussistere due tipi direlazioni:– Relazione diretta (concordanza): a modalità di ordine
elevato di un carattere corrispondono più frequentementemodalità di ordine elevato dell’altro carattere.
– Relazione inversa (discordanza): a modalità elevate di uncarattere corrispondono modalità di ordine basso dell’altrocarattere e viceversa.
28/03/2018
30
Indici di concordanza e discordanza
• Possono assumere :– valori positivi , nel caso di concordanza tra i caratteri– valori negativi , nel caso di discordanza
• I più noti:– Indice Gamma di Goodman e Kruskal– Indice b di Kendall– Indice d di Sommer– Indice rho di Spearman
Tali indici variano fra -1 e 1zero indica assenza di associazione +1 indica che l’ordinamento dei due caratteri è sempre concorde-1 indica che l’ordinamento è sempre discorde.valori prossimi a 1 in valore assoluto indicano forte relazione
Indice rho di Spearman
• E’ un indice di cograduazione tra graduatorie, particolarmente indicato quando i caratteri ordinati presentano un numero elevato di modalità.
• Per calcolare l’indice è necessario ordinare gli individui in senso decrescente per ognuno dei due caratteri e attribuire il rango.
• L’indice si definisce come:
dove d indica la differenza tra i ranghi cioè i posti nelle due graduatorie ordinate.
• L’indice assume valori tra -1 e + 1- Il valore 0 implica indipendenza tra x e y– L’opposta graduatoria ( = -1) implica discordanza tra x e y .– E’ uguale ad 1 quando le unità presentano lo stesso rango in
entrambe le graduatorie cioè nel caso di perfetta cograduazione.
28/03/2018
31
Cograduazione: esempio
Misure simmetriche
-,779-,779
-,931
20
Tau-b di KendallGammaCorrelazione diSpearman
Ordinale perordinale
N. di casi validi
Valore
Piemonte 5 12 -7 49Valled'Aosta 1 18 -17 289
Liguria 12 9 3 9Lombardia 4 16 -12 144TrentinoAlto Adige 3 20 -17 289
FriuliVeneziaGiulia
9 15 -6 36
Veneto 6 19 -13 169EmiliaRomagna 2 17 -15 225
Marche 7 14 -7 49Toscana 8 13 -5 25Umbria 10 11 -1 1Lazio 11 8 3 9Campania 18 3 15 225Abruzzo 14 10 4 16Molise 13 7 6 36Puglia 19 5 14 196Basilicata 16 6 10 100Calabria 17 1 16 256Sicilia 20 2 18 324Sardegna 15 4 11 121
2568
12
345
6
78
91011121314151617181920
Livelloterritorale
grad.attiv.femm.
grad.Tassodisocc. d d2 = 1 – [6*2568)/20*(400-1)] =-0,931
Esercizio
I. Mingo 2017-2018
Calcolare il coefficiente di graduazione tra le valutazionidei clienti riguardo all’ assistenza post vendita e allaconsulenza alla vendita rilevate per ripartizionegeografica
calcoli
28/03/2018
32
Indici di concordanza e discordanza : uso del software
I. Mingo 2017-2018
Rmer 2017-2018
Indici di concordanza e discordanza: uso del software
Anche per la correlazione di Spearman esistono dei test statistici per verificare se la correlazione calcolataè stata casualmente estratta da una popolazione con correlazione nulla. Di questi test ci occuperemo nella parte sulla statistica inferenziale.
28/03/2018
33
Un grafico per studiare la relazione tra caratteriquantitativi: lo Scatter-Plot o Grafico diDispersione Rappresenta la distribuzione unitaria doppia di 2 caratteri
quantitativi
Sull’asse delle ascisse (X) e su quello delle ordinate (Y)sono riportati rispettivamente i valori numerici dellemodalità assunti dalle due variabili rilevate su ogni u.s.
L’insieme di punti così ottenuto si chiama nuvola di puntie consente di studiare la dispersione delle u.s. e la lorosomiglianza
La forma della nuvola può suggerire l’esistenza e la formadella relazione tra i due caratteri
Rmer 2017-2018
Esempio
Distribuzione Unitaria Doppia
Unità Statistica
VenditeSpesa per
pubblicità su radio e TV
1 973 02 1119 03 875 254 625 255 910 306 971 307 931 358 1177 359 882 40
10 982 4011 1628 4512 1577 4513 1044 5014 914 5015 1329 5516 1330 5517 1405 6018 1436 6019 1521 6520 1741 6521 1866 7022 1717 70
Scatter Plot
0
500
1000
1500
2000
0 10 20 30 40 50 60 70 80
Spesa per pubblicità radio e TV
Vend
ite
U.S
Rmer 2017-2018
28/03/2018
34
Interdipendenza tra due caratteri quantitativi
• Si considera la distribuzione unitaria di 2 caratteri quantitativi X e Y
• Si analizza l’associazione dei due caratteri attraverso l’analisi dello scatter plot o mediante indici simmetrici che valutano la presenza di Concordanza: u.s. con valori piccoli (grandi) di un
carattere presentano più frequentemente valori piccoli (grandi) dell’altro carattere
Discordanza: u.s. con valori piccoli (grandi) di un carattere possiedono più frequentemente valori grandi (piccoli) dell’altro carattere
.. .si puo analizzare l’interdipendenza graficamente
1. Concordanza: nuvola allungata verso alto a destra
2. Discordanza: nuvola allungata verso alto a sinistra
3. Assenza di interdipendenza lineare: punti sparsi
Relazione diretta (concordanza)
05
10152025303540
0 2 4 6 8 10 12 14
Variabile X
Var
iabi
le Y
Relazione inversa (discordanza)
-20
-15
-10
-5
0
5
10
0 2 4 6 8 10 12 14
Variabile X
Varia
bile
Y
28/03/2018
35
Interdipendenza tra due caratteri quantitativi
• Per misurare il legame che esiste tra due caratteri quantitativi si utilizza la covarianza, definita come la media dei prodotti degli scostamenti delle variabili X e Y dalle rispettive medie:
n
MyMxn
iyixi
xy
1
)()(
Questo valore sarà :•Nullo nel caso di indipendenza statistica•Positivo in caso di concordanza perché al crescere della X anche la Y crescerà di conseguenza le differenze avranno lo stesso segno.•Negativo in caso di discordanza, perché all’aumentare della X corrisponderà una diminuzione della Y e viceversa.•se dividiamo la covarianza per il prodotto delle deviazioni standard delle 2 variabili, otteniamo un valore standardizzato, che oscilla fra –1 e +1: il coefficiente di correlazione r di Pearson
IL Coefficiente di correlazione lineare di Bravais e Pearson
• è una misura della relazione lineare esistente tra due variabili ovvero una misura della l’interdipendenza che esiste tra le due distribuzioni.
r misura una relazione simmetrica di tipo lineare cha varia tra -1 e +1 . Convenzionalmente:
28/03/2018
36
Rappresentare graficamente la relazione tra vendite e spese per pubblicità. Che cosa si può dedurre?Calcolare il coefficiente di correlazione tra i due caratteri .
I. Mingo 2017-2018
Esercizio
Step per calcolare il coefficiente di correlazione
FSSC
1. Calcolare la media aritmetica di ciascun carattere2. Calcolare per ciascuna modalità di ciascun carattere gli
scarti dalla rispettiva media3. Ottenere la covarianza
• Moltiplicare per ciascuna modalità gli scarti dei due caratteri ottenuti al punto 2.
• Sommare i prodotti così ottenuti.• Dividere questa somma dei prodotti per il numero di unità
statistiche.4. Ottenere gli scarti quadratici medi
• Elevare al quadrato gli scarti dalla media di ciascuna modalità• Sommare per ogni carattere i quadrati così ottenuti• Dividere ciascuna di queste somme per il numero di unità
statistiche per ottenere le varianze.• Estrarre le radici quadrate per ottenere gli scarti quadratici
medi-
5. Ottenere r1. Dividere la covarianza (ottenuta al punto 3) per il prodotto degli
scarti quadratici medi dei due caratteri (ottenuti al punto 4).