36
28/03/2018 1 Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa» Stesso valore medio per distribuzioni diverse Un uguale valore medio può sintetizzare distribuzioni molto diverse tra loro Le tre distribuzioni hanno la medesima media aritmetica, ma la tendenza di ogni unità ad assumere valori diversi dalla media è differente in ciascuna distribuzione M 21 21 21 a.a. 2017-2018 u i X 1 X 2 X 3 A 22 1 21 B 22 8 21 C 20 10 21 D 23 32 21 E 19 34 21 F 20 41 21

Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

Embed Size (px)

Citation preview

Page 1: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

1

Metodi statistici per le ricerche di mercato

Prof.ssa Isabella MingoA.A. 2017-2018

Facoltà di Scienze Politiche, Sociologia, Comunicazione

Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa»

Stesso valore medio per distribuzioni diverse

• Un uguale valore medio può sintetizzaredistribuzioni molto diverse tra loro

• Le tre distribuzioni hanno la medesimamedia aritmetica, ma la tendenza di ogniunità ad assumere valori diversi dallamedia è differente in ciascuna distribuzione

M 21 21 21

a.a. 2017-2018

ui X1 X2 X3

A 22 1 21

B 22 8 21

C 20 10 21

D 23 32 21

E 19 34 21

F 20 41 21

Page 2: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

2

Caratteri quantitativi La variabilità

La variabilità o la dispersione di una distribuzione esprime la tendenza dei caratteri o dei fenomeni ad assumere differenti valori o determinazioni.

Requisiti di un indice di variabilità:– assume valore minimo se tutte le unità presentano uguale modalità del

carattere– aumenta all’aumentare della diversità tra modalità

Attenzione: ogni indice di variabilità esprime un concetto diverso pertanto non è corretto confrontare la variabilità ottenuta con indici diversi

a.a. 2017-2018

Campo di variazione

Il campo di variazione o range è un indice assoluto di variabilità È dato dalla differenza tra il valore minimo

e massimo assunto dal carattereR= Xmax- Xmin

Non è sensibile ad altre caratteristiche della distribuzione.

Dipende solo dai valori estremi ed è pertanto influenzato da casi anomali

Pagina 141

Page 3: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

3

Esercizio: Campo di variazioneCalcolare i campi di variazione delle tre variabili della tabella seguente

ui X1 X2 X3

1 22 1 21

2 22 8 21

3 20 10 21

4 23 32 21

5 19 34 21

6 20 41 21

419231

xR

401412

xR

021213

xR

Caratteri quantitativi Scostamento semplice medio

Si calcola sommando le differenze in valore assoluto, cioè non tenendoconto del segno positivo o negativo, tra ogni valore della distribuzione eil valore medio e dividendo la somma per la numerosità delladistribuzione.

A seconda della media scelta si può ottenere uno specifico scostamento medio per esempio dalla media aritmetica o dalla mediana.Per qualsiasi distribuzione di frequenze lo scostamento semplice dalla mediana è sempre minore o uguale allo scostamento dalla media aritmetica

a.a. 2017-2018

n

||n

1

j

j Mxs

Page 4: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

4

Caratteri quantitativi Scostamento semplice medio: calcolo

• Per la prima distribuzione si avrà:S=[|22-21|+|22–21|+|20–21|+|23–21|+|19-21|+|20–

21|]/6=1,33

• Per la seconda distribuzione si avrà:S=[|1-21|+|8–21|+|10–21|+|32–21|+|34-21|+|41–

21|]/6=14,77

• Per la terza distribuzione si avràS=[|21-21|+|21–21|+|21–21|+|21–21|+|21-21|+|21–

21|]/6=0M 21 21 21

a.a. 2017-2018

Caratteri quantitativi Varianza

E’ la media dei quadrati degli scarti dalla media aritmeticasi calcola sommando gli scarti elevati al quadrato e dividendoli per la

numerosità della distribuzione.

•La radice quadrata della varianza è la deviazione standard o scarto quadratico medio•Il numeratore della varianza è detto devianza

Osservazioni: L’elevazione a quadrato trasforma tutte le differenze negative in positivee mette in maggiore risalto le differenze grandi rispetto a quelle piccole.

La varianza non possiede la stessa unità di misura dei valori delladistribuzione

n

)(n

1

2

2

j

j Mx

Page 5: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

5

A proposito di deviazione

• La differenza di una osservazione xi dalla media è detta deviazione.

• La deviazione può essere positiva o negativa.• La media può essere interpretata come il centro di gravità

della distribuzione: infatti , per una proprietà della media aritmetica, la somma di tutte le deviazioni dalla media è pari a 0.

• Maggiore è la deviazione standard maggiore è la distanza tipica dalla media e dunque maggiore è la dispersione delle osservazioni.

a.a. 2017-2018

Esercizio

Nell’ambito di una indagine di mercato si sono rilevati i costi giornalieri per una camera doppia standard in alcuni Hotel della zona (tab.seguente).

Calcolare il costo medio e lo scarto quadratico medio.

a.a. 2017-2018Calcolo

Page 6: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

6

Pagina 148

Esempio: calcolo della varianza a partire da una distribuzione di frequenza

Distribuzione dei clienti per numero di notti di permanenza in albergo

283n 7KNum. Corsi

Freq xin i

1 152 433 1034 805 326 87 2

Totale 283

x i n i

1586

309320160

4814

952

(x i -M )2

5.571.850.130.412.696.97

13.25

(x i -M )2n i

83.5579.5513.3932.8086.0855.7626.50

377.63

331283

63377n

7

1

2

2 ..)(

ii

i

X

nMx

n

k

1 i

iinxM

Num. Notti

Freq xin i

1 152 433 1034 805 326 87 2

Totale 283

15.133.1 x

Indici di variabilità relativaConsentono di effettuare confronti sulla variabilità di fenomeni che presentano unità di misura differentipur avendo la stessa unità di misura hanno

valori medi differenti e quindi distribuzioni differenti

In alcune situazioni è fuorviante utilizzare la deviazione standard per il confronto:della variabilità di una variabile osservata su

due collettivi differenti di u.s.della variabilità di due o più variabili osservate

sul medesimo collettivo di u.s.

Page 7: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

7

Caratteri quantitativi Coefficiente di variazione

• Indice di variabilità percentuale, non influenzatodall’unità di misura e dall’ordine di grandezza deidati.

• Rapporto tra lo scarto quadratico medio e la mediaaritmetica x100.

Cv = / M *100

•Consente di confrontare fenomeni che presentano diverse unità di misura e/o sono rilevati su collettivi di diversa numerosità

•Ci indica se una distribuzione è più variabile di un’altra

Caratteri quantitativi Coefficiente di variazione esercizio

• Confrontiamo i volumi di vendita di due prodotti.

– Il prodotto A nei diversi punti vendita rilevati ha avuto un volume di vendite mediodi 750 euro e una deviazione standard () pari a 150 euro.

– Il prodotto B ha avuto un volume di vendite medio di 487 euro e una deviazionestandard pari a 115 euro.

• Quale prodotto registra una maggiore variabilità del volume divendite?

Cv = / M *100 M CV*100

Prodotto A 150,00 750,00 20,00Prodotto B 115,00 487,00 23,61

Page 8: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

8

Uso del software :indici medi e di variabilità

I. Mingo 2017-2018

Uso del software :confrontare variabili

I. Mingo 2017-2018

Page 9: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

9

Caratteri qualitativi Indici di eterogeneità o mutabilità

• Evidenziano e quantificano la presenza di eterogeneità nella distribuzione di un carattere qualitativo.

• Un indice di mutabilità deve soddisfare le seguenti condizioni:– assumere valore 0 se e solo se il collettivo è omogeneo rispetto al carattere

considerato;– crescere, assumendo valori maggiori di 0, all’aumentare dell’eterogeneità tra le

modalità del carattere.

• Si possono distinguere due situazioni estreme:– mutabilità nulla, tutte le unità presentano la medesima modalità del carattere– mutabilità massima quando tutte le unità presentano modalità differenti del carattere

oppure le diverse modalità del carattere hanno le stesse frequenze.

Gestore A Gestore B Gestore CCopertura nazionale 200 600 200Costi 200 0 150Piano tariffario 200 0 250Totale 600 600 600

Reclami verso due gestori dì telefonia per motivo

Caratteri qualitativi Indice di eterogeneità di Gini

Gestore A Gestore B Gestore CCopertura nazionale 200 600 200Costi 200 0 150Piano tariffario 200 0 250Totale 600 600 600

Reclami verso tre gestori dì telefonia per motivo (freq. Assolute)

Gestore A Gestore B Gestore CCopertura nazionale 0,33 1,00 0,33Costi 0,33 0,00 0,25Piano tariffario 0,33 0,00 0,42Totale 1,00 1,00 1,00

Reclami verso tre gestori dì telefonia per motivo (freq. Relative)

Page 10: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

10

Caratteri qualitativi Indice di eterogeneità di Gini normalizzato

Assume sempre valori compresi tra 0 (caso di eterogeneità nulla) e 1 (caso di eterogeneità massima) Può essere utilizzato per operare confronti del medesimo carattere osservato su collettivi differenti, con numerosità diversa, o tra distribuzioni di caratteri differenti osservati sul medesimo collettivo

K = numero di modalità

Nel nostro esempio K = 3

Caratteri qualitativi Indice di eterogeneità esercizio

Date le seguenti distribuzioni di frequenze riguardanti larilevazione delle vendite degli stessi prodotti in duesupermercati differenti, indicare in quale supermercato laclientela è più eterogenea rispetto all’acquisto dei prodotticonsiderati.

Numero di prodotti venduti per marca

Supermercato A ni

Supermercato B nj

Barilla 1200 360Buitoni 870 230Divella 360 220Voiello 580 230Totale 3010 1040

Calcolo

Page 11: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

11

Analisi bivariata

I. Mingo 2017-2018

Esistono diverse valutazioni per categorie di utenti?

• Operativamente, per ottenere informazioni più specifiche persottogruppi di popolazione è necessario applicare tecniche dianalisi bivariata:– Tabelle a doppia entrata se le variabili sono nominali o

ordinali– Statistiche descrittive (ad esempio indici medi) della

variabile quantitativa per ogni sottogruppo individuato dallemodalità della variabile qualitativa.

I. Mingo 2017-2018

Page 12: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

12

Che cosa è l’analisi bivariata?

E’ lo studio congiunto di due caratteri• Esempio nel casi di caratteri qualitativi:

I valori delle celle derivano dall’analisi della tabella unitaria!

SessoFrequenza

Maschio 750

Femmina 750Totale 1500

Valido

Soddisfazione ASLFrequenza

Per niente 176Poco 412Abbastanza 838Molto 74Totale 1500

Valido

Distribuzione doppia di frequenze: caratteristiche

Tabella che consente di sintetizzare l’informazionedisponibile su due caratteri osservati contemporaneamentesul medesimo collettivo di n u.s.

In colonna : Lista di modalità del carattere 1

In riga : Lista di modalità del carattere 2

Nella tabella si considerano tutte le possibili coppie dimodalità (una del car. 1 ed una del car. 2).

I valori rappresentati sono il conteggio, ossia le frequenzeassolute, del numero di u.s. del collettivo considerato chepresentano una coppia di modalità dei 2 caratteri.

Page 13: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

13

Tabella a doppia entrata

Frequenze nij delle unità del collettivo che presentano congiuntamentela modalità i-esima di un carattere e la modalità J-esima di un secondocarattere.

Distribuzioni marginali di riga e di colonna

Distribuzioni condizionate

Ha un numero di righe maggiore o uguale al numero di modalità della variabile rappresentata in riga e un numero di colonne maggiore o uguale a quello delle modalità della variabile rappresentata in colonna.

Dalla distribuzione unitaria multipla alla distribuzione doppia di frequenza: esempio

FSSC

1- Costruiamo un tabella che ha:• un numero di righe uguale al numero di

modalità della variabile che vogliamorappresentare in riga più 1 per i totali dicolonna

• un numero di colonne uguale a quellodelle modalità della variabile che vogliamorappresentare in colonna più 1 per i totalidi riga.

Per niente Poco Abbastanza Molto

Maschio

Femmina

Sesso

Totale

Soddisfazione ASL

Totale

SessoSoddisfazione

ASL

Maschio Abbastanza

Maschio Molto

Femmina Molto

Femmina Abbastanza

Maschio Per niente

Maschio Per niente

Femmina Abbastanza

Femmina Abbastanza

Femmina Molto

Femmina Molto

Femmina Abbastanza

Femmina Poco

Femmina Abbastanza

Femmina Abbastanza

Maschio Molto

Maschio Abbastanza

Femmina Poco

Femmina Poco

Femmina Per niente

Femmina Per nienteTotale N 20 20

13

14

15

16

17

18

1

2

3

4

5

6

7

19

20

9

10

11

12

8

Page 14: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

14

Dalla distribuzione unitaria multipla alla distribuzione doppia di frequenza: esercizio (segue)

2 – Contiamo per ciascun carattere le unitàche presentano una stessa modalità escriviamo i totali nelle rispettive cellemarginali della tabella.3- Contiamo le unità statistiche chepresentano congiuntamente le modalità a duea due e scriviamo le frequenze nelle rispettivecelle condizionate4- verifichiamo che le somme dei valori sianocoerenti.

SessoSoddisfazione

ASL

Maschio Abbastanza

Maschio Molto

Femmina Molto

Femmina Abbastanza

Maschio Per niente

Maschio Per niente

Femmina Abbastanza

Femmina Abbastanza

Femmina Molto

Femmina Molto

Femmina Abbastanza

Femmina Poco

Femmina Abbastanza

Femmina Abbastanza

Maschio Molto

Maschio Abbastanza

Femmina Poco

Femmina Poco

Femmina Per niente

Femmina Per nienteTotale N 20 20

13

14

15

16

17

18

1

2

3

4

5

6

7

19

20

9

10

11

12

8

Per niente Poco Abbastanza Molto

Maschio somma maschi

Femmina somma femmine

somma per niente

soddisfatti

somma abbastanza soddisfatti

somma molto soddisfatti

somma poco soddisfatti totale

Sesso

Totale

Soddisfazione ASL

Totale

Tabelle a doppia entrata : profili di riga e distribuzioni marginali percentuali

• Le distribuzioni marginali percentuali si ottengono dividendo le frequenze assolute marginali per il totale:• fi.=n i. /n.. *100; nella tabella precedente non sono calcolate• f.j=n.j/n..*100 176/1500*100=11,7% ; 412/1500*100=27,5%; 838/1500*100=55,9%; 74/1500*100=4,9%

• Nell’esempio le distribuzioni percentuali condizionate (profili di riga) della variabile “Sesso” e della variabilesoddisfazione si ottengono rispettivamente rapportando le distribuzioni condizionate ai corrispondenti totali diriga e moltiplicando per 100.

• Per i maschi: 84/750*100=11,2 ; 232/750*100=30,9%...........• Per le femmine 92/750*100=12,3%; 180/750*100=24% ………

Page 15: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

15

Tabelle a doppia entrata : profili di colonna e distribuzioni marginali percentuali

• Le distribuzioni marginali percentuali di riga• fi.=n i. /n.. *100; 750/1500*100;• Nell’esempio le distribuzioni percentuali condizionate (profili di colonna della variabile “Sesso” e della

variabile soddisfazione si ottengono rispettivamente rapportando le distribuzioni condizionate aicorrispondenti totali di riga e moltiplicando per 100.

• Per gli utenti per niente soddisfatti : 84/176*100=47,7%; 92/176*100=52,3%• ……• Per gli utenti molto soddisfatti: 36/74*100= 48,6%; 38/74*100= 51,4%

Tavola di contingenza Sesso * Soddisfazione ASL

Soddisfazione ASL Totale

Per niente Poco Abbastanza Molto

Sesso

Maschio Conteggio 84 232 398 36 750

% entro Soddisfazione ASL 47,7% 56,3% 47,5% 48,6% 50,0%

Femmina Conteggio 92 180 440 38 750

% entro Soddisfazione ASL 52,3% 43,7% 52,5% 51,4% 50,0%

Totale Conteggio 176 412 838 74 1500

% entro Soddisfazione ASL 100,0% 100,0% 100,0% 100,0% 100,0%

Profili riga e profili colonna: formalizzazione

Profili Riga

x 1 x 2 … x j … x K

y 1 n 11/n . 1 n 12/n . 2 … n 1j /n .j … n 1K/n . K n 1./ny 2 n 21/n . 1 n 22/n . 2 … n 2j /n .j … n 2K/n . K n 2./n: : : … : … : :

y i n i 1/n . 1 n i 2/n . 2 … n ij /n .j … n i K/n . K n i ./n: : : … : … : :

y H n H1/n . 1n H2/n . 2 … n Hj /n .j … n HK/n . K n H./n1 1 1 1 1 1Tot.

X

Y

Profili Colonna

x 1 x 2 … x j … x K

y 1 n 11/n 1. n 12/n 1. … n 1j /n 1. … n 1K/n 1. 1y 2 n 21/n 2. n 22/n 2. … n 2j /n 2. … n 2K/n 2. 1: : : … : … : :

y i n i 1/n i. n i 2/n i. … n ij /n i. … n i K/n i. 1: : : … : … : :

y H nH1/n H. n H2/n H. … n Hj /n H. … n HK/n H. 1n. 1/n n. 2/n … n. j /n … n. K/n

X

Y

Tot.

RMer

Page 16: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

16

Esercizio

RMer

A partire dalle frequenzeassolute della tabella 1,calcolare i profili % di riga e dicolonna.Commentare le due tabelleottenute.

Tab.1

Profili % di riga Profili % di colonna

Percentuali di riga, di colonna e sul totale … informazioni diverse

I. Mingo 2017-2018

Page 17: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

17

Uso del softwareTavole di contingenza

I. Mingo 2017-2018

Approfondimento:Le relazioni Statistiche

• Analisi dell’associazioneIndipendenza Interdipendenza Dipendenza

L’analisi congiunta di due o più caratteri è utile per studiare le relazioni tra di essi.

Page 18: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

18

Tipi di relazioni tra caratteri

• Indipendenza statistica (relazione simmetrica ):– Due caratteri sono statisticamente indipendenti quando

la conoscenza delle modalità di uno non consente diprevedere le modalità dell’altro

• Dipendenza (relazione asimmetrica):– Due caratteri sono dipendenti quando si può stabilire un

legame unidirezionale tra le modalità di un carattere equelle di un altro

• Interdipendenza (relazione simmetrica) :– Due caratteri sono interdipendenti quando si può stabilire

un legame bidirezionale tra le modalità di un carattere equelle di un altro.

2017-2018

Indipendenza Statistica• Due caratteri sono statisticamente indipendenti

quando la conoscenza di uno dei due caratterinon migliora la “previsione” della modalitàdell’altro

• Assenza di qualsiasi legame tra i due caratteri• Relazione simmetrica: se X è indipendente da Y

allora Y è indipendente da X

2017-2018

Page 19: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

19

Indipendenza Statistica in una tabella doppia

In una tabella a doppia entrata si ha indipendenzatra i due caratteri X e Y se le distribuzioni relativecondizionate di X rispetto alle modalità di Y sonouguali tra loro e alla distribuzione relativamarginale

Matrice profili riga ha tutte le righe uguali Matrice profili colonna ha tutte le colonne uguali

2017-2018

Indipendenza statistica:esempio

• Profili riga %10/30*100=335/30*100=1715/30*100=5014/42*100=337/42*100=1721/42*100=50

• Profili colonna %10/24*100=4214/24*100=585/12*100=427/12*100=5815/36*100=4221/36*100=58 2017-2018

Profili di riga %Canale Spot A Spot B Spot C TotaleRAI1 33,33 16,67 50,00 30CAN5 33,33 16,67 50,00 42Totale 33,33 16,67 50,00 72

Profili di colonna %Canale Spot A Spot B Spot C TotaleRAI1 41,67 41,67 41,67 41,67CAN5 58,33 58,33 58,33 58,33Totale 24,00 12,00 36,00 72

Page 20: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

20

Dipendenza perfetta di due caratteri• In una tabella doppia il carattere Y dipende perfettamente da X se

ad ogni modalità di X è associata una sola modalità di Y.• Se i due caratteri sono perfettamente dipendenti la tabella doppia

avrà per ogni riga di X solo una colonna di Y in cui n ij 0

2017-2018

Interdipendenza perfetta di due caratteri

• In una tabella doppia sussiste perfetta interdipendenza sead ogni modalità di X è associata una sola modalità di Y eviceversa.

Interdipendenza perfetta tra X e YX | Y 1 2 3 totale

1 0 0 30 302 0 20 0 203 10 0 0 10totale 10 20 30 60

2017-2018

Page 21: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

21

Esempi di dipendenza perfetta

Interdipendenza perfetta tra X e Y

X dipende perfettamente da Y

Y dipende perfettamente da X

2017-2018

X = ProdottoY = Canale acquistoDivano Viaggio Pasta TotaleWEB 0 23 0 23NEGOZIO 41 0 8 49Totale 41 23 8 72

Situazioni intermedie tra indipendenza e perfetta associazione

Il grado di associazione (dipendenza ointerdipendenza) è tanto maggiore quantopiù la tabella osservata si discosta daquella di indipendenza.Vedremo in seguito come valutare lasignificatività di questi scostamenti.

Frequenze osservate nij

Frequenze teoriche di indipendenza n*ij

Differenze tra Freq. Osserv e freq. teoriche (cij)

Tavola di contingenza titolo di studio * lettura libri negli ultimi 12 mesi

6 46 5228,6 23,4 52,0

-22,6 22,61 17 18

9,9 8,1 18,0-8,9 8,9111 177 288

158,2 129,8 288,0-47,2 47,2

149 132 281154,3 126,7 281,0

-5,3 5,3193 62 255

140,1 114,9 255,052,9 -52,9

81 10 9150,0 41,0 91,031,0 -31,0541 444 985

541,0 444,0 985,0

ConteggioConteggio attesoResiduiConteggioConteggio attesoResiduiConteggioConteggio attesoResiduiConteggioConteggio attesoResiduiConteggioConteggio attesoResiduiConteggioConteggio attesoResiduiConteggioConteggio atteso

laurea

dipl. univ.

diploma m. superiore

diploma m. inferiore

licenza elementare

nessun titolo

titolo distudio

Totale

no si

lettura libri negli ultimi12 mesi

Totale

Page 22: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

22

Indipendenza o interdipendenza? Esempio

Le frequenze assolute nell’ipotesi di indipendenza tra i 2 caratteri sono date da

Basso Medio Altof 19 5 0 24m 6 6 4 16Totale 25 11 4 40

Liv.SoddisfazioneSesso Totale

nnn

n .ji.*ij

us Totalecolonna Totaleriga Totale

Situazione osservata

Situazione teorica di indipendenza

Frequenza Teorica di Indipendenza

Basso Medio Altof 15 6,6 2,4 24m 10 4,4 1,6 16Totale 25 11 4 40

Liv.SoddisfazioneSesso Totale

n* 11 = 24x25/40=15n* 12 = 24x11/40=6.6n* 13 = 24x4/40=2.4

n* 21=16x25/40=10n* 22=16x11/40=4.4n* 23=16x4/40=1.6

n* 11 = 24x25/40=15n* 12 = 24x11/40=6.6n* 13 = 24x4/40=2.4

n* 21=16x25/40=10n* 22=16x11/40=4.4n* 23=16x4/40=1.6

Differenza tra situazione osservata e situazione teorica : le contingenze

Situazione osservata Situazione teorica di indipendenza

*ijij nn

Contingenze o Residui

Basso Medio Altof 19 5 0 24m 6 6 4 16Totale 25 11 4 40

Liv.SoddisfazioneSesso Totale Basso Medio Altof 15 6,6 2,4 24m 10 4,4 1,6 16Totale 25 11 4 40

Liv.SoddisfazioneSesso Totale

Basso Medio Altof 4 -1,6 -2,4m -4 1,6 2,4

Liv.SoddisfazioneSesso

a.a 2017-2018RMer

c11 = 19-15=4c12 = 5-6.6=-1.6c 13 =0-2.4=-2.4

C21=6-10=-4c22=6-4.4=1.6c23=4-1.6=2.4

Tabella delle Contingenze

Page 23: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

23

Misura di associazione: il Chi-Quadrato di Pearson

Assume valore 0 se X e Y sono perfettamente indipendenti Assume valore positivo se esiste un legame di dipendenza o

interdipendenza tra X e Y Ha le dimensioni di una frequenza assoluta

H

i

K

j*ij

*ijij

n

nnχ

1 1

22

Proprietà

ij*ijij cnn

Esempio di calcolo del Chi quadrato

64.93.60.581.62.40.391.0676.1)4.2(

4.4)6.1(

10)4(

4.2)4.2(

6.6)6.1(

154 222222

2

H

i

K

j ij

ijij

1 1*

2*2

n

nn

Basso Medio Altof 4 -1,6 -2,4m -4 1,6 2,4

Liv.SoddisfazioneSesso

Contingenze

a.a 2017-2018

ij*ijij cnn

Tabella delle Contingenze

Page 24: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

24

Come si interpreta il Chi quadrato

• La differenza fra i valori corrispondenti nij e n*ij (valoriosservati e valori attesi nell’ipotesi di indipendenza fra levariabili studiate) indica quanto la situazione osservatasi discosta da quella di indipendenza:– se la differenza è nulla, o è piccola, non c’è relazione tra i

caratteri– se i valori sono grandi allora si può ipotizzare che c’è una

relazione .

• Ma quando questa differenza può essere consideratapiccola o grande?

• Per rispondere a questo quesito bisogna conoscere ladistribuzione del test statistico del Chi Quadrato, di cuiparleremo nelle prossime lezioni sulla statisticainferenziale.

2

Caratteristiche del Chi quadrato• Nel calcolo del Chi quadrato il ruolo delle variabili è

simmetrico.• Il Chi quadrato non cambia se le modalità sono ordinate in

modo diverso: è un test in cui le variabili sono sempretrattate come qualitative non ordinabili .

• Il Chi quadrato ci dice quanta evidenza c’è a favore dellainterdipendenza, ma non misura la forza di questarelazione.

• Il valore del Chi quadrato dipende dal numero di unitàstatistiche, tende a crescere all’aumentare del numerodelle righe e delle colonne della tabella di contingenza.

Page 25: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

25

Indici di associazione per tabelle doppie difrequenze

Misurano l’associazione tra due caratteri analizzando la distribuzione congiunta delle frequenze.• I più comunemente usati sono:

– L’indice di contingenza quadratica media– L’indice V di Cramer – L’indice P di Pearson

GlossarioIndice PHI 2 (contingenza quadratica media)

Page 26: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

26

Glossario Indice P di Pearson

GlossarioIndice V di Cramér

Page 27: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

27

Esercizio

Rmer 2017-2018

Sapendo che su una tabella di contingenza in cui si riporta la distribuzione doppia di 1000 clienti, incrociando in riga il tipo di Banca utilizzata (modalità: Unicredit, Credito Cooperativo, Banca Agricola Popolare) e la condizione professionale dei clienti (modalità: Imprenditore, Artigiano, Lavoratore dipendente, Libero Professionista) si è ottenuto :2 = 988,07

Calcolare :- PHI2 e V di Cramer- L’indice P di Pearson

calcoli

Uso del softwareTavole di contingenza

Chi quadrato e indici di associazione

I. Mingo 2017-2018

Page 28: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

28

Calcolare le contingenze o residui

Residuo = Conteggio - conteggio attesoResiduo Standardizzato= Residuo/conteggio attesoResiduo Corretto= Residuo standardizzato/ (1- (ni./n.. ) (1- ( n.j ./n.. ))

z11= 0,7/(1-62/1267)(1-786/1267)=1,2

Uso del software:interpretare l’output

I. Mingo 2017-2018

Analizzando i residuo corretti, si può affermare che si registra un’associazione statisticamente significativa, [con un livello di probabilità del 95% ] , per le modalità che presentano un residuo corretto z>=|1,96| :- se z è positivo la cella presenta un

numero di casi significativamente più elevato di quello che si otterrebbe nel caso di indipendenza tra le modalità.

- se z è negativo, la cella presenta un numero di casi significativamente più ridotto di quello che si otterrebbe nel caso di indipendenza tra le modalità.

Spiegheremo più avanti perché!

Page 29: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

29

Esercizio

I. Mingo 2017-2018

Sulla base dei dati della tabella seguente, calcolare il Chi quadrato trale variabili sesso e valutazione per la completezza del patrimoniolibrario degli utenti delle biblioteche .Quale indicazione si può trarre dai residui corretti?

calcolo

H

i

K

j*ij

*ijij

n

nnχ

1 1

22

Indici di associazione per caratteri ordinati • Se la tabella si riferisce a caratteri ordinati è possibile costruire

indici che oltre a misurare l’intensità dell’associazione nemisurano il verso.

• Tra due caratteri ordinati possono sussistere due tipi direlazioni:– Relazione diretta (concordanza): a modalità di ordine

elevato di un carattere corrispondono più frequentementemodalità di ordine elevato dell’altro carattere.

– Relazione inversa (discordanza): a modalità elevate di uncarattere corrispondono modalità di ordine basso dell’altrocarattere e viceversa.

Page 30: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

30

Indici di concordanza e discordanza

• Possono assumere :– valori positivi , nel caso di concordanza tra i caratteri– valori negativi , nel caso di discordanza

• I più noti:– Indice Gamma di Goodman e Kruskal– Indice b di Kendall– Indice d di Sommer– Indice rho di Spearman

Tali indici variano fra -1 e 1zero indica assenza di associazione +1 indica che l’ordinamento dei due caratteri è sempre concorde-1 indica che l’ordinamento è sempre discorde.valori prossimi a 1 in valore assoluto indicano forte relazione

Indice rho di Spearman

• E’ un indice di cograduazione tra graduatorie, particolarmente indicato quando i caratteri ordinati presentano un numero elevato di modalità.

• Per calcolare l’indice è necessario ordinare gli individui in senso decrescente per ognuno dei due caratteri e attribuire il rango.

• L’indice si definisce come:

dove d indica la differenza tra i ranghi cioè i posti nelle due graduatorie ordinate.

• L’indice assume valori tra -1 e + 1- Il valore 0 implica indipendenza tra x e y– L’opposta graduatoria ( = -1) implica discordanza tra x e y .– E’ uguale ad 1 quando le unità presentano lo stesso rango in

entrambe le graduatorie cioè nel caso di perfetta cograduazione.

Page 31: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

31

Cograduazione: esempio

Misure simmetriche

-,779-,779

-,931

20

Tau-b di KendallGammaCorrelazione diSpearman

Ordinale perordinale

N. di casi validi

Valore

Piemonte 5 12 -7 49Valled'Aosta 1 18 -17 289

Liguria 12 9 3 9Lombardia 4 16 -12 144TrentinoAlto Adige 3 20 -17 289

FriuliVeneziaGiulia

9 15 -6 36

Veneto 6 19 -13 169EmiliaRomagna 2 17 -15 225

Marche 7 14 -7 49Toscana 8 13 -5 25Umbria 10 11 -1 1Lazio 11 8 3 9Campania 18 3 15 225Abruzzo 14 10 4 16Molise 13 7 6 36Puglia 19 5 14 196Basilicata 16 6 10 100Calabria 17 1 16 256Sicilia 20 2 18 324Sardegna 15 4 11 121

2568

12

345

6

78

91011121314151617181920

Livelloterritorale

grad.attiv.femm.

grad.Tassodisocc. d d2 = 1 – [6*2568)/20*(400-1)] =-0,931

Esercizio

I. Mingo 2017-2018

Calcolare il coefficiente di graduazione tra le valutazionidei clienti riguardo all’ assistenza post vendita e allaconsulenza alla vendita rilevate per ripartizionegeografica

calcoli

Page 32: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

32

Indici di concordanza e discordanza : uso del software

I. Mingo 2017-2018

Rmer 2017-2018

Indici di concordanza e discordanza: uso del software

Anche per la correlazione di Spearman esistono dei test statistici per verificare se la correlazione calcolataè stata casualmente estratta da una popolazione con correlazione nulla. Di questi test ci occuperemo nella parte sulla statistica inferenziale.

Page 33: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

33

Un grafico per studiare la relazione tra caratteriquantitativi: lo Scatter-Plot o Grafico diDispersione Rappresenta la distribuzione unitaria doppia di 2 caratteri

quantitativi

Sull’asse delle ascisse (X) e su quello delle ordinate (Y)sono riportati rispettivamente i valori numerici dellemodalità assunti dalle due variabili rilevate su ogni u.s.

L’insieme di punti così ottenuto si chiama nuvola di puntie consente di studiare la dispersione delle u.s. e la lorosomiglianza

La forma della nuvola può suggerire l’esistenza e la formadella relazione tra i due caratteri

Rmer 2017-2018

Esempio

Distribuzione Unitaria Doppia

Unità Statistica

VenditeSpesa per

pubblicità su radio e TV

1 973 02 1119 03 875 254 625 255 910 306 971 307 931 358 1177 359 882 40

10 982 4011 1628 4512 1577 4513 1044 5014 914 5015 1329 5516 1330 5517 1405 6018 1436 6019 1521 6520 1741 6521 1866 7022 1717 70

Scatter Plot

0

500

1000

1500

2000

0 10 20 30 40 50 60 70 80

Spesa per pubblicità radio e TV

Vend

ite

U.S

Rmer 2017-2018

Page 34: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

34

Interdipendenza tra due caratteri quantitativi

• Si considera la distribuzione unitaria di 2 caratteri quantitativi X e Y

• Si analizza l’associazione dei due caratteri attraverso l’analisi dello scatter plot o mediante indici simmetrici che valutano la presenza di Concordanza: u.s. con valori piccoli (grandi) di un

carattere presentano più frequentemente valori piccoli (grandi) dell’altro carattere

Discordanza: u.s. con valori piccoli (grandi) di un carattere possiedono più frequentemente valori grandi (piccoli) dell’altro carattere

.. .si puo analizzare l’interdipendenza graficamente

1. Concordanza: nuvola allungata verso alto a destra

2. Discordanza: nuvola allungata verso alto a sinistra

3. Assenza di interdipendenza lineare: punti sparsi

Relazione diretta (concordanza)

05

10152025303540

0 2 4 6 8 10 12 14

Variabile X

Var

iabi

le Y

Relazione inversa (discordanza)

-20

-15

-10

-5

0

5

10

0 2 4 6 8 10 12 14

Variabile X

Varia

bile

Y

Page 35: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

35

Interdipendenza tra due caratteri quantitativi

• Per misurare il legame che esiste tra due caratteri quantitativi si utilizza la covarianza, definita come la media dei prodotti degli scostamenti delle variabili X e Y dalle rispettive medie:

n

MyMxn

iyixi

xy

1

)()(

Questo valore sarà :•Nullo nel caso di indipendenza statistica•Positivo in caso di concordanza perché al crescere della X anche la Y crescerà di conseguenza le differenze avranno lo stesso segno.•Negativo in caso di discordanza, perché all’aumentare della X corrisponderà una diminuzione della Y e viceversa.•se dividiamo la covarianza per il prodotto delle deviazioni standard delle 2 variabili, otteniamo un valore standardizzato, che oscilla fra –1 e +1: il coefficiente di correlazione r di Pearson

IL Coefficiente di correlazione lineare di Bravais e Pearson

• è una misura della relazione lineare esistente tra due variabili ovvero una misura della l’interdipendenza che esiste tra le due distribuzioni.

r misura una relazione simmetrica di tipo lineare cha varia tra -1 e +1 . Convenzionalmente:

Page 36: Metodi statistici per le ricerche di mercato · Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione

28/03/2018

36

Rappresentare graficamente la relazione tra vendite e spese per pubblicità. Che cosa si può dedurre?Calcolare il coefficiente di correlazione tra i due caratteri .

I. Mingo 2017-2018

Esercizio

Step per calcolare il coefficiente di correlazione

FSSC

1. Calcolare la media aritmetica di ciascun carattere2. Calcolare per ciascuna modalità di ciascun carattere gli

scarti dalla rispettiva media3. Ottenere la covarianza

• Moltiplicare per ciascuna modalità gli scarti dei due caratteri ottenuti al punto 2.

• Sommare i prodotti così ottenuti.• Dividere questa somma dei prodotti per il numero di unità

statistiche.4. Ottenere gli scarti quadratici medi

• Elevare al quadrato gli scarti dalla media di ciascuna modalità• Sommare per ogni carattere i quadrati così ottenuti• Dividere ciascuna di queste somme per il numero di unità

statistiche per ottenere le varianze.• Estrarre le radici quadrate per ottenere gli scarti quadratici

medi-

5. Ottenere r1. Dividere la covarianza (ottenuta al punto 3) per il prodotto degli

scarti quadratici medi dei due caratteri (ottenuti al punto 4).