15
18/04/2013 1 Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli per poterli L’analisi bivariata comparare comparare con altre distribuzioni con altre distribuzioni (gruppi differenti della popolazione o del campione esaminato). Tali comparazioni sono alla base delle ipotesi circa l’esistenza di una relazione fra due variabili (RELAZIONI BIVARIATE) (RELAZIONI BIVARIATE) (RELAZIONI BIVARIATE) (RELAZIONI BIVARIATE). Le tabelle che organizzano queste comparazioni sono chiamate “TABELLE A DOPPIA ENTRATA” “TABELLE A DOPPIA ENTRATA” (o (o cross cross-tabulation tabulation)…MA… …MA…. L’analisi bivariata VARIABILE INDIPENDENTE VARIABILE DIPENDENTE NOMINALE CARDINALE NOMINALE Tavole di contingenza (evento raro)* CARDINALE Analisi della varianza Regressione e correlazione *Q l it i t bb * Qualora capitasse, si potrebbe sempre raggruppare in classi la cardinale e procedere con una cross-tab Nota: una variabile ordinale può essere trattata come una nominale e, in alcuni casi, anche come una cardinale (es: dicotomizzandola)

slides-lezione16-cross-tab.ppt [modalità compatibilità]...Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli L’analisi bivariata

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: slides-lezione16-cross-tab.ppt [modalità compatibilità]...Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli L’analisi bivariata

18/04/2013

1

Distribuzioni di frequenza e misure di tipicitàservono a descrivere e sintetizzare i dati, per poterli per poterli

L’analisi bivariata

compararecomparare con altre distribuzionicon altre distribuzioni (gruppi differenti della popolazione o del campione esaminato).

Tali comparazioni sono alla base delle ipotesi circa l’esistenza di una relazione fra due variabili (RELAZIONI BIVARIATE)(RELAZIONI BIVARIATE)(RELAZIONI BIVARIATE)(RELAZIONI BIVARIATE).Le tabelle che organizzano queste comparazioni sono chiamate “TABELLE A DOPPIA ENTRATA”“TABELLE A DOPPIA ENTRATA” (o (o crosscross--tabulationtabulation))…MA……MA…..

L’analisi bivariata

VARIABILE INDIPENDENTE

VARIABILE DIPENDENTE

NOMINALE CARDINALE

NOMINALE Tavole di contingenza (evento raro)*

CARDINALE Analisi della varianza

Regressione e correlazione

* Q l it i t bb* Qualora capitasse, si potrebbe sempre raggruppare in classi

la cardinale e procedere con una cross-tab

Nota: una variabile ordinale può essere trattata come una nominale e, in alcuni casi, anche come una cardinale

(es: dicotomizzandola)

Page 2: slides-lezione16-cross-tab.ppt [modalità compatibilità]...Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli L’analisi bivariata

18/04/2013

2

Un esempio di tabella a doppia entrata

Var. di colonna(usualmente è la indip.)

Marginale di riga(distribuzione di freq. dei praticanti)

Var. di riga(di solito è la dip.)

Marginale di colonna (distribuzione di freq. della var. età)

Età e pratica religiosa: c’è relazione?

DOMANDA:c’è una

relazione tra etàrelazione tra età e pratica religiosa?

a) Valori assolutib) Su 100 praticanti quanti

sono giovani etc…c) Distribuzione della

pratica religiosa perpratica religiosa per classi di età

d) Su 100 intervistati, 9% sono praticanti e giovani, 12,6 praticanti e maturi etc…)..

… QUALE TABELLA SCEGLIERE?

Page 3: slides-lezione16-cross-tab.ppt [modalità compatibilità]...Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli L’analisi bivariata

18/04/2013

3

Altro esempio: età e consumo di dolci

DOMANDA:c’è una

ETA’

Fino a 25 25 anni erelazione tra età

e consumo di dolci?

Fino a 25 anni

25 anni e oltre

CONSUMO DI DOLCI

Regolare 80% 58%

Non regolare 20% 42%

TOTALE100%(1302)

100%(1707)

Altro esempio: identità nazionale e europea

DOMANDA: Nazione TotalNonc’è una

relazione tra identità

nazionale e identità

europea?

Non attaccato Attaccato

Europa

Non attaccato 44 153 197

61,1% 16,6% 19,8%Attaccato 28 770 798

38,9% 83,4% 80,2%Total 72 923 995

europea?

CROSSTABS/TABLES=euid BY natid/FORMAT= AVALUE TABLES/CELLS= COUNT COLUMN/COUNT ROUND CELL .

100,0% 100,0% 100,0%

La sintassi spss

Page 4: slides-lezione16-cross-tab.ppt [modalità compatibilità]...Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli L’analisi bivariata

18/04/2013

4

Altri esempi: l’interesse per la politica19

99B

aris

ione

e M

annh

eim

er, 1

Altri esempi: l’interesse per la politica

1999

B a

risio

ne e

Man

nhei

mer

, 1

Page 5: slides-lezione16-cross-tab.ppt [modalità compatibilità]...Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli L’analisi bivariata

18/04/2013

5

Altro esempio: interesse per la politica e soddisfazione democratica

DOMANDA:c’è una

polint TotalNo Si

relazione tra interesse per la

politica e soddisfazione democratica?

demsat

NoCount 325 321 646% within demsat 50,3% 49,7% 100,0%% within polint 70,0% 61,3% 65,4%

SiCount 139 203 342% within demsat 40,6% 59,4% 100,0%% within polint 30,0% 38,7% 34,6%

TotalCount 464 524 988% within demsat 47,0% 53,0% 100,0%% within polint 100,0% 100,0% 100,0%

demsat= soddisfazione per il funzionamento della democraziapolint= interesse per la politicaDati: Intune 2007 (Italia)

Calcolare le percentuali di riga E di colonna può essere utile a scopi esplorativi, quando non è chiara la direzione causale

LEGENDA:

Nella lettura di una cross-tab si parte sempre dall’esterno per andare verso l’interno (cd. “principio del carciofo”)• vengono indicate le variabili che sono

incrociate:

Alcune regole per le cross-tab

Le percentuali si calcolano nella direzione della variabile indipendente

(dobbiamo capire come varia la dipendente ENTRO le modalità della

- la variabile indipendente X è scritta in alto, in colonna

- la variabile dipendente Y è riportata in riga

• per ciascuna variabile sono specificate le modalità

• ciascuna cella della tabella contiene le frequenze, cioè il numero dei casi che possiedono le diverse modalità dipendente ENTRO le modalità della

indipendente)

Quando le percentuali sono calcolate -per colonna , si compara per riga;

viceversa, quando le percentuali sono calcolate per riga, si compara per

colonna

considerate (le frequenze possono essere espresse in termini assoluti o relativi percentuali)

REGOLE AUREE!

Page 6: slides-lezione16-cross-tab.ppt [modalità compatibilità]...Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli L’analisi bivariata

18/04/2013

6

Peculiarità delle tavole di contingenza

• Parsimoniosità. Vanno riportate solo le percentuali che servono all’analisi Ma la tabella deve essere esaustiva!servono all analisi. Ma la tabella deve essere esaustiva!

• Totali. Ogni riga o colonna percentuale finisce col totale 100, consentendo così al lettore di capire in che direzione sono state calcolate le percentuali

• Base delle percentuali. Sotto al totale va riportata, in genere tra parentesi la base della percentuale (N) Infattigenere tra parentesi, la base della percentuale (N). Infatti un conto è dire che i giovani sono praticanti per il 25% su un campione di 100 individui ed un altro dirlo relativamente ad un campione di 1.000 individui. Si ritiene imprudente calcolare e commentare percentuali su basi inferiori a 50 casi (Corbetta docet!)

• Cifre decimali, decimale zero, arrotondamenti, d t Si d l’ li i i t

Peculiarità delle tavole di contingenza

quadratura. Si veda l’analisi monovariata

• Intestazione. Le tabelle debbono essere sempre intestate (titolo) ed autoesplicative. Per esempio la frase “Intensità della partecipazione politica secondo il partito votato” è più chiara chiara rispetto a “Relazione fra partecipazione politica e preferenza partitica” (vedi slide precedente, alla voce “parsimoniosità”)voce parsimoniosità )

Page 7: slides-lezione16-cross-tab.ppt [modalità compatibilità]...Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli L’analisi bivariata

18/04/2013

7

Leggere una tabella …

• selezionare la modalità o le modalità più psignificative e centrare su di queste l’analisi

• calcolare l’indice di differenza percentuale• Una differenza affinché sia degna di nota

dovrebbe essere superiore ai 5 punti percentuali

• forma della relazione: se al crescere di una variabile cresce anche l’altra si può dire che la relazione che si presenta agli occhi del ricercatore è monotonica o lineare.

Come accertare l’esistenza di una effettiva relazione causale tra la

Accertare una relazione

e ett va e a o e causa e t a avariabile indipendente X e la variabile dipendente Y ?

IPOTESI NULLA e TEST DEL CHI IPOTESI NULLA e TEST DEL CHI QUADROQUADROQUADROQUADRO

introduzione di una VARIABILE introduzione di una VARIABILE DIDICONTROLLOCONTROLLO

Page 8: slides-lezione16-cross-tab.ppt [modalità compatibilità]...Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli L’analisi bivariata

18/04/2013

8

Formulazione dell’ipotesi nulla, che assume l’assenza di relazione fra le due variabili considerate.

LOGICA DEL TEST DEL CHI QUADRO

Individuazione delle frequenze che si dovrebbero ottenere se si verificasse l’ipotesi nulla, cioè l’assenza di relazione (frequenze “attese”).Comparazione delle frequenze attese con quelle

“osservate” empiricamente nel campioneosservate empiricamente nel campione analizzato.Valutazione della probabilità con cui la differenza

tra frequenze “attese” e quelle “osservate” possa essere dovuta al caso.

Il test del chi-quadro: un esempio

Cor

betta

, 199

9)

Page 9: slides-lezione16-cross-tab.ppt [modalità compatibilità]...Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli L’analisi bivariata

18/04/2013

9

Il test del chi-quadro: altro esempio

Isernia, 2011

Il test del chi-quadro: altro esempio

Isernia, 2011

Page 10: slides-lezione16-cross-tab.ppt [modalità compatibilità]...Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli L’analisi bivariata

18/04/2013

10

Il test del chi-quadro: altro esempio

Isernia, 2011

χ2 =126,4p < 0,001

che il campione sia estratto casualmente, cioè che ogni individuo abbia la stessa probabilità di

CONDIZIONI DEL TEST

essere estratto di ogni altro;che le categorie o modalità di ciascuna delle due variabili siano mutuamente esclusive ed esaustive, per cui ciascun individuo o caso non può essere collocato che in una ed una sola

llcella;che la maggioranza (più dell’80%) delle frequenze attese abbiano una frequenza superiore a 5 casi.

Page 11: slides-lezione16-cross-tab.ppt [modalità compatibilità]...Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli L’analisi bivariata

18/04/2013

11

Riepilogando….qualche riflessione

- Quando non è consigliabile rigettare l’ipotesi nulla? Quando la probabilità di commettere errore è superiore al 5 per cento (dunque quando il test è p<0,05)

- Chi-quadro sensibile alla numerosità campionaria: cautela!!!

- Test utile per orientarsi ma occorre sempre cautela, parliamo di b bilità E i lt “ ” t idi probabilità. E sono necessarie altre “prove”, tra cui l’introduzione di una terza variabile (di controllo)

Per esaminare in modo sistematico la relazione fra due variabili bisogna introdurre una terza variabileterza variabile

Relazioni trivariate

due variabili bisogna introdurre una terza variabile terza variabile di controllodi controllo:

ISTRUZIONEISTRUZIONE

TOLLERANZAETA’

Page 12: slides-lezione16-cross-tab.ppt [modalità compatibilità]...Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli L’analisi bivariata

18/04/2013

12

• Scopo dell’elaborazione è determinare se la relazione fra la variabile indipendente X e la variabile dipendente Y sia dovuta o meno ad un terzo fattore Z

• Dire che la relazione fra X ed Y dipende da Z significa che se Z non si manifestasse allora la relazione fra X e Y non esisterebbe

“tenere costante” la relazione“tenere costante” la relazione

manifestasse, allora la relazione fra X e Y non esisterebbe.ES: “I giovani sono più tolleranti degli anziani perché hanno un maggiore livello di istruzione” significa che “Se i giovani non avessero un maggiore livello di istruzione degli anziani, non sarebbero più tolleranti”.Per accertare se il livello di istruzione esercita un tale effetto sulla relazione bivariata fra età e tolleranza, bisogna tenere sotto controllo, ovvero mantenere costante, la terza variabile addizionale così da specificarne l’eventuale influenza sulla relazione stessaspecificarne l eventuale influenza sulla relazione stessa.

• Un modo per farlo è la classificazione in sottogruppi: si creano tanti sottogruppi quante sono le modalità della variabile di controllo e si esamina la relazione bivariata iniziale per ciascuno di tali sottogruppi.

Consumo di dolci per stato civileConsumo di dolci per stato civile

STATO CIVILE

Sposati Non sposati

CONSUMO

Regolare 63% 75%

Non 37% 25%DI DOLCI regolare 37% 25%

TOTALE100%(2010)

100%(999)

Page 13: slides-lezione16-cross-tab.ppt [modalità compatibilità]...Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli L’analisi bivariata

18/04/2013

13

Consumo di dolci per etàConsumo di dolci per età

ETA’

Fino a 25 anni 25 anni e oltre

CONSUMO

Regolare 80% 58%

Non 20% 42%DI DOLCI regolare 20% 42%

TOTALE100%(1302)

100%(1707)

ETA’

Fino a 25 anni 25 anni e oltre

Consumo di dolci per stato civile, Consumo di dolci per stato civile, controllando per l’etàcontrollando per l’età

STATO CIVILE

Sposato Non sposato Sposato Non

sposato

CONSUMO

Regolare 81% 79% 58% 60%

CONSUMO DI DOLCI Non

regolare 19% 21% 42% 40%

Totale100%(503)

100%(799)

100%(1507)

100%(200)

Page 14: slides-lezione16-cross-tab.ppt [modalità compatibilità]...Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli L’analisi bivariata

18/04/2013

14

Perché dunque le persone sposate mangiano meno dolci delle persone non sposate ?

Perché gli sposati sono, in percentuale, più anziani d i ti l iù i di litdei non sposati e le persone più anziane di solito mangiano meno dolci.

La relazione iniziale fra stato civile e consumo di dolci è quindi annullata, poiché dovuta alla variabile età e non allo stato civile: i non sposativariabile età e non allo stato civile: i non sposati consumano dolci più regolarmente degli sposati perché più giovani e non per non aver contratto matrimonio.

Relazione spuriaRelazione spuriaConsumo

regolare di Stato civile( i bil dolci

(variabile dipendente Y)

(variabile indipendente X)

ETA’(variabile di controllo Z)

Page 15: slides-lezione16-cross-tab.ppt [modalità compatibilità]...Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli L’analisi bivariata

18/04/2013

15

Altri esempi di relazioni spurie

Altri esempi di relazioni spurie