Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
18/04/2013
1
Distribuzioni di frequenza e misure di tipicitàservono a descrivere e sintetizzare i dati, per poterli per poterli
L’analisi bivariata
compararecomparare con altre distribuzionicon altre distribuzioni (gruppi differenti della popolazione o del campione esaminato).
Tali comparazioni sono alla base delle ipotesi circa l’esistenza di una relazione fra due variabili (RELAZIONI BIVARIATE)(RELAZIONI BIVARIATE)(RELAZIONI BIVARIATE)(RELAZIONI BIVARIATE).Le tabelle che organizzano queste comparazioni sono chiamate “TABELLE A DOPPIA ENTRATA”“TABELLE A DOPPIA ENTRATA” (o (o crosscross--tabulationtabulation))…MA……MA…..
L’analisi bivariata
VARIABILE INDIPENDENTE
VARIABILE DIPENDENTE
NOMINALE CARDINALE
NOMINALE Tavole di contingenza (evento raro)*
CARDINALE Analisi della varianza
Regressione e correlazione
* Q l it i t bb* Qualora capitasse, si potrebbe sempre raggruppare in classi
la cardinale e procedere con una cross-tab
Nota: una variabile ordinale può essere trattata come una nominale e, in alcuni casi, anche come una cardinale
(es: dicotomizzandola)
18/04/2013
2
Un esempio di tabella a doppia entrata
Var. di colonna(usualmente è la indip.)
Marginale di riga(distribuzione di freq. dei praticanti)
Var. di riga(di solito è la dip.)
Marginale di colonna (distribuzione di freq. della var. età)
Età e pratica religiosa: c’è relazione?
DOMANDA:c’è una
relazione tra etàrelazione tra età e pratica religiosa?
a) Valori assolutib) Su 100 praticanti quanti
sono giovani etc…c) Distribuzione della
pratica religiosa perpratica religiosa per classi di età
d) Su 100 intervistati, 9% sono praticanti e giovani, 12,6 praticanti e maturi etc…)..
… QUALE TABELLA SCEGLIERE?
18/04/2013
3
Altro esempio: età e consumo di dolci
DOMANDA:c’è una
ETA’
Fino a 25 25 anni erelazione tra età
e consumo di dolci?
Fino a 25 anni
25 anni e oltre
CONSUMO DI DOLCI
Regolare 80% 58%
Non regolare 20% 42%
TOTALE100%(1302)
100%(1707)
Altro esempio: identità nazionale e europea
DOMANDA: Nazione TotalNonc’è una
relazione tra identità
nazionale e identità
europea?
Non attaccato Attaccato
Europa
Non attaccato 44 153 197
61,1% 16,6% 19,8%Attaccato 28 770 798
38,9% 83,4% 80,2%Total 72 923 995
europea?
CROSSTABS/TABLES=euid BY natid/FORMAT= AVALUE TABLES/CELLS= COUNT COLUMN/COUNT ROUND CELL .
100,0% 100,0% 100,0%
La sintassi spss
18/04/2013
4
Altri esempi: l’interesse per la politica19
99B
aris
ione
e M
annh
eim
er, 1
Altri esempi: l’interesse per la politica
1999
B a
risio
ne e
Man
nhei
mer
, 1
18/04/2013
5
Altro esempio: interesse per la politica e soddisfazione democratica
DOMANDA:c’è una
polint TotalNo Si
relazione tra interesse per la
politica e soddisfazione democratica?
demsat
NoCount 325 321 646% within demsat 50,3% 49,7% 100,0%% within polint 70,0% 61,3% 65,4%
SiCount 139 203 342% within demsat 40,6% 59,4% 100,0%% within polint 30,0% 38,7% 34,6%
TotalCount 464 524 988% within demsat 47,0% 53,0% 100,0%% within polint 100,0% 100,0% 100,0%
demsat= soddisfazione per il funzionamento della democraziapolint= interesse per la politicaDati: Intune 2007 (Italia)
Calcolare le percentuali di riga E di colonna può essere utile a scopi esplorativi, quando non è chiara la direzione causale
LEGENDA:
Nella lettura di una cross-tab si parte sempre dall’esterno per andare verso l’interno (cd. “principio del carciofo”)• vengono indicate le variabili che sono
incrociate:
Alcune regole per le cross-tab
Le percentuali si calcolano nella direzione della variabile indipendente
(dobbiamo capire come varia la dipendente ENTRO le modalità della
- la variabile indipendente X è scritta in alto, in colonna
- la variabile dipendente Y è riportata in riga
• per ciascuna variabile sono specificate le modalità
• ciascuna cella della tabella contiene le frequenze, cioè il numero dei casi che possiedono le diverse modalità dipendente ENTRO le modalità della
indipendente)
Quando le percentuali sono calcolate -per colonna , si compara per riga;
viceversa, quando le percentuali sono calcolate per riga, si compara per
colonna
considerate (le frequenze possono essere espresse in termini assoluti o relativi percentuali)
REGOLE AUREE!
18/04/2013
6
Peculiarità delle tavole di contingenza
• Parsimoniosità. Vanno riportate solo le percentuali che servono all’analisi Ma la tabella deve essere esaustiva!servono all analisi. Ma la tabella deve essere esaustiva!
• Totali. Ogni riga o colonna percentuale finisce col totale 100, consentendo così al lettore di capire in che direzione sono state calcolate le percentuali
• Base delle percentuali. Sotto al totale va riportata, in genere tra parentesi la base della percentuale (N) Infattigenere tra parentesi, la base della percentuale (N). Infatti un conto è dire che i giovani sono praticanti per il 25% su un campione di 100 individui ed un altro dirlo relativamente ad un campione di 1.000 individui. Si ritiene imprudente calcolare e commentare percentuali su basi inferiori a 50 casi (Corbetta docet!)
• Cifre decimali, decimale zero, arrotondamenti, d t Si d l’ li i i t
Peculiarità delle tavole di contingenza
quadratura. Si veda l’analisi monovariata
• Intestazione. Le tabelle debbono essere sempre intestate (titolo) ed autoesplicative. Per esempio la frase “Intensità della partecipazione politica secondo il partito votato” è più chiara chiara rispetto a “Relazione fra partecipazione politica e preferenza partitica” (vedi slide precedente, alla voce “parsimoniosità”)voce parsimoniosità )
18/04/2013
7
Leggere una tabella …
• selezionare la modalità o le modalità più psignificative e centrare su di queste l’analisi
• calcolare l’indice di differenza percentuale• Una differenza affinché sia degna di nota
dovrebbe essere superiore ai 5 punti percentuali
• forma della relazione: se al crescere di una variabile cresce anche l’altra si può dire che la relazione che si presenta agli occhi del ricercatore è monotonica o lineare.
Come accertare l’esistenza di una effettiva relazione causale tra la
Accertare una relazione
e ett va e a o e causa e t a avariabile indipendente X e la variabile dipendente Y ?
IPOTESI NULLA e TEST DEL CHI IPOTESI NULLA e TEST DEL CHI QUADROQUADROQUADROQUADRO
introduzione di una VARIABILE introduzione di una VARIABILE DIDICONTROLLOCONTROLLO
18/04/2013
8
Formulazione dell’ipotesi nulla, che assume l’assenza di relazione fra le due variabili considerate.
LOGICA DEL TEST DEL CHI QUADRO
Individuazione delle frequenze che si dovrebbero ottenere se si verificasse l’ipotesi nulla, cioè l’assenza di relazione (frequenze “attese”).Comparazione delle frequenze attese con quelle
“osservate” empiricamente nel campioneosservate empiricamente nel campione analizzato.Valutazione della probabilità con cui la differenza
tra frequenze “attese” e quelle “osservate” possa essere dovuta al caso.
Il test del chi-quadro: un esempio
Cor
betta
, 199
9)
18/04/2013
9
Il test del chi-quadro: altro esempio
Isernia, 2011
Il test del chi-quadro: altro esempio
Isernia, 2011
18/04/2013
10
Il test del chi-quadro: altro esempio
Isernia, 2011
χ2 =126,4p < 0,001
che il campione sia estratto casualmente, cioè che ogni individuo abbia la stessa probabilità di
CONDIZIONI DEL TEST
essere estratto di ogni altro;che le categorie o modalità di ciascuna delle due variabili siano mutuamente esclusive ed esaustive, per cui ciascun individuo o caso non può essere collocato che in una ed una sola
llcella;che la maggioranza (più dell’80%) delle frequenze attese abbiano una frequenza superiore a 5 casi.
18/04/2013
11
Riepilogando….qualche riflessione
- Quando non è consigliabile rigettare l’ipotesi nulla? Quando la probabilità di commettere errore è superiore al 5 per cento (dunque quando il test è p<0,05)
- Chi-quadro sensibile alla numerosità campionaria: cautela!!!
- Test utile per orientarsi ma occorre sempre cautela, parliamo di b bilità E i lt “ ” t idi probabilità. E sono necessarie altre “prove”, tra cui l’introduzione di una terza variabile (di controllo)
Per esaminare in modo sistematico la relazione fra due variabili bisogna introdurre una terza variabileterza variabile
Relazioni trivariate
due variabili bisogna introdurre una terza variabile terza variabile di controllodi controllo:
ISTRUZIONEISTRUZIONE
TOLLERANZAETA’
18/04/2013
12
• Scopo dell’elaborazione è determinare se la relazione fra la variabile indipendente X e la variabile dipendente Y sia dovuta o meno ad un terzo fattore Z
• Dire che la relazione fra X ed Y dipende da Z significa che se Z non si manifestasse allora la relazione fra X e Y non esisterebbe
“tenere costante” la relazione“tenere costante” la relazione
manifestasse, allora la relazione fra X e Y non esisterebbe.ES: “I giovani sono più tolleranti degli anziani perché hanno un maggiore livello di istruzione” significa che “Se i giovani non avessero un maggiore livello di istruzione degli anziani, non sarebbero più tolleranti”.Per accertare se il livello di istruzione esercita un tale effetto sulla relazione bivariata fra età e tolleranza, bisogna tenere sotto controllo, ovvero mantenere costante, la terza variabile addizionale così da specificarne l’eventuale influenza sulla relazione stessaspecificarne l eventuale influenza sulla relazione stessa.
• Un modo per farlo è la classificazione in sottogruppi: si creano tanti sottogruppi quante sono le modalità della variabile di controllo e si esamina la relazione bivariata iniziale per ciascuno di tali sottogruppi.
Consumo di dolci per stato civileConsumo di dolci per stato civile
STATO CIVILE
Sposati Non sposati
CONSUMO
Regolare 63% 75%
Non 37% 25%DI DOLCI regolare 37% 25%
TOTALE100%(2010)
100%(999)
18/04/2013
13
Consumo di dolci per etàConsumo di dolci per età
ETA’
Fino a 25 anni 25 anni e oltre
CONSUMO
Regolare 80% 58%
Non 20% 42%DI DOLCI regolare 20% 42%
TOTALE100%(1302)
100%(1707)
ETA’
Fino a 25 anni 25 anni e oltre
Consumo di dolci per stato civile, Consumo di dolci per stato civile, controllando per l’etàcontrollando per l’età
STATO CIVILE
Sposato Non sposato Sposato Non
sposato
CONSUMO
Regolare 81% 79% 58% 60%
CONSUMO DI DOLCI Non
regolare 19% 21% 42% 40%
Totale100%(503)
100%(799)
100%(1507)
100%(200)
18/04/2013
14
Perché dunque le persone sposate mangiano meno dolci delle persone non sposate ?
Perché gli sposati sono, in percentuale, più anziani d i ti l iù i di litdei non sposati e le persone più anziane di solito mangiano meno dolci.
La relazione iniziale fra stato civile e consumo di dolci è quindi annullata, poiché dovuta alla variabile età e non allo stato civile: i non sposativariabile età e non allo stato civile: i non sposati consumano dolci più regolarmente degli sposati perché più giovani e non per non aver contratto matrimonio.
Relazione spuriaRelazione spuriaConsumo
regolare di Stato civile( i bil dolci
(variabile dipendente Y)
(variabile indipendente X)
ETA’(variabile di controllo Z)
18/04/2013
15
Altri esempi di relazioni spurie
Altri esempi di relazioni spurie