Upload
phungduong
View
219
Download
0
Embed Size (px)
Citation preview
1
P. Montesperelli Analisi informazioni standard 1
XV - ANALIZZARE LE
INFORMAZIONI STANDARD
P. Montesperelli Analisi informazioni standard 2
Che cosa sono le ‘informazioni’nella ricerca sociale
informazioni
DATI
Valori alfanumerici
In matrice-dati
INFORMAZIONI
non codificate in
matrice-dati“Sì noi abbiamo relazionimolto buone. Ripeto: è
una città piccola,ci conosciamo tutti…”
2
P. Montesperelli Analisi informazioni standard 3
La raccolta delle informazioni su una
proprietà
La scelta di tali operazioni va fatta in base
alla natura della proprietà � relazione fra i
suoi stati
Analisi
MONOvariata
P. Montesperelli Analisi informazioni standard 4
PROPRIETA'(definite in base al tipo di relazione
fra stati)
DISCRETE=
numero finito di stati
chiaramente dinstinguibili
CONTINUE=
numero infinito di statiimpercett ibilmente
diversi l 'uno dall'altroe immaginabili lungo
un continuum
CATEGORIALI=non cè relazione
quantitativa
ESEMPI:regione di residenzasettore di ocupazionereligione professata
TG preferito
ORDINALI=
di maggiore e minore;
gli stati sono ordinabili lungo
una scala
ESEMPI:Grado d'istruzione
centralità/perifericità di un quartiere
posizione in una gerarchia
CARDINALI
ESEMPI:numero componenti
famiglia;numero di televisori;
numero di laureati in un Comune
MISURABILI=registrabili
senza collaborazione
att iva;Unità di misura
CONTINUE NON
MISURABILI=
collaborazione attiva;
non c'è unità di misura
ESEMPI:età
spaziopeso
ESEMPI:opinioni, atteggiamenti
VARIABILI
categoriali
ordinali
cardinali
cardinali
cardinali
3
P. Montesperelli Analisi informazioni standard 5
VARIABILI CATEGORIALI
QUALE ORGANIZZAZIONE TI INTERESSA DI PIU’ (Una sola risposta) Volontariato sociale �
Movimenti religiosi, Parrocchie � Associazioni ricreative / sportive/ tempo libero �
Per la pace e i diritti umani � Ecologisti, tutela dell’ambiente / del territorio �
Cooperative sociali � Partiti �
Sindacati � Pro-loco �
Collettivi autogestiti � Organizzazioni studentesche (consulte, …) �
Altre associazioni (specificare:……………………..) �
Non mi interressa nessuna associazione �
� se hai scelto questa risposta, non rispondere alle altre domande
P. Montesperelli Analisi informazioni standard 6
Definizione operativa per la raccolta delle informazioni:
• Si adotta un fundamentum divisionis funzionale agli obiettivi cognitivi;
• Si decide come convertire gli stati in categorie della variabile (Quante? Dove passano
i confini? Categorie residuali)
Mutua esclusività + esaustività
Inizialmente conviene un’alta sensibilità (= molte categorie).
Eccez.: riconduzione; interviste telefoniche,…
• Si attribuiscono i codici (alfa)numerici
4
P. Montesperelli Analisi informazioni standard 7
Definizione operativa nell’analisi dei dati
Codici Categorie Frequenze
1 2 3 4 5
Nord-Ovest Nord-Est Centro
Sud Isole
32 44 25 38 12
I codici non hanno natura né cardinale né ordinale: servono solo ad esprimere la differenza fra categorie 4 è solo diverso da 2 alta autonomia semantica delle categorie = la frequenza di una categoria ha pieno significato senza far riferimento alle frequenze delle altre categorie; esaminare con attenzione (“centro di interesse semantico”) ciascuna categoria � la quantità di categorie non può essere eccessiva (problema di sensibilità);
P. Montesperelli Analisi informazioni standard 8
ANALISI MONOVARIATALE PERCENTUALI: UTILITA’
Una distribuzione di frequenza è più facilmente comprensibile in % piuttosto che in v.a.
5
P. Montesperelli Analisi informazioni standard 9
Da matrice:
Analizza
Statistiche
descrittive
Frequenze
(per default dà
frequenze in v.a.,
%, % cumulate;
per altre opzioni
statistiche:
‘statistiche’)
P. Montesperelli Analisi informazioni standard 10
La percentualizzazione serve anche a “pareggiare”basi che in valori assoluti sono diverse
NB. Di solito si “pareggiano” a 100 le basi all’interno di una
tabella di contingenza (bivariata)
6
P. Montesperelli Analisi informazioni standard 11
Dalla matrice:
Analizza
Statistiche
descrittive
Tavole di
contingenza
Selezionare le 2
variabili e
scegliere quale in
riga e quale in
colonna
Celle
Scegliere se % di
riga e/o di colonna
P. Montesperelli Analisi informazioni standard 12
VALORI CARATTERISTICIdanno informazioni sulla distribuzione
a) posizionaliConsiderano solo una o alcune categorie
MODA = categoria con frequenza più alta. PROVINCIA
frequenze v.a. AV 138 BN 155 CE 234 NA 1.356 SA 471 Tot v.a. 2.354
NA è la moda
7
P. Montesperelli Analisi informazioni standard 13
b) SinteticiConsiderano tutte le categorie
Rilevare lo squilibrio può essere significativo
Maschi Femmine
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
Occupati
Maschi Femmine
0
5
10
15
20
25
30
35
40
45
50
Occupati
P. Montesperelli Analisi informazioni standard 14
0
50
100
n = 204 Sq = 0,14
Serie1 30 29 29 29 29 29 29
L Sc L Cl L Art Magistr Tec Prof Altro
n = 204 Sq = 0,36
Serie1 85 87 12 15 0 0 5
L Sc L Cl L Art Magist Tec Prof Altro
0
100
200
300
n = 204 Sq = 1,0
Serie1 204 0 0 0 0 0 0
L Sc L Cl L Art Magist Tec Prof Altro
Per capire se una
distribuzione è
molto o poco
squilibrata,
occorre
conoscere il
minimo e il
massimo che può
assumere Sq:
Max = 1
Min = 1/k ove k =
numero delle
categorie
8
P. Montesperelli Analisi informazioni standard 15
Equilibrio pop umbria secondo il luogo di residenza
0,3
0,35
0,4
0,45
0,5
0,55
0,6
1861 1871 1881 1901 1911 1921 1931 1936 1951 1961 1971 1981
Il coefficiente Eq è speculare di
Sq = quantifica il grado di
EQUILIBRIO
P. Montesperelli Analisi informazioni standard 16
Rappresentazioni di distribuzioni in categorie non ordinate
ESEMPIO DI ISTOGRAMMA
0
5
10
15
20
25
30
35
40
45
Sin Centro Destra Altri
%
9
P. Montesperelli Analisi informazioni standard 17
Esempio di TORTA
Sin
30%
Centro
40%
Destra
20%
Altri
10%
P. Montesperelli Analisi informazioni standard 18
VARIABILI ORDINALI(o “con categorie ordinate”)
DI SOLITO, CON QUALE FREQUENZA LEGGI UN QUOTIDIANO DI INFORMAZIONE (esclusi i quotidiani sportivi)?
� Mai o quasi mai � 1 volta alla settimana � 2-5 volte alla settimana � Tutti i giorni o quasi
10
P. Montesperelli Analisi informazioni standard 19
PROPRIETA’ E VARIABILI ORDINALI
• Le proprietà hanno stati differenti e ordinabili (p. es. grado d’istruzione,
posizione in una gerarchia, grado di urbanizzazione, etc.)
• Per trasformare una proprietà ordinale in variabile ordinale occorre seguire
la stessa procedura per le variabili categoriali + riprodurre l’ordine degli stati
nell’ordine delle categorie e dei codici
GRADO DI ISTRUZIONE
codici Categorie %
1 Nessuno 32 18
2 Elementari 55 31
3 43 24
4 S. M. Sup. 29 16
5 Università 12 7
6 Post-laurea 5 3
TOT. 176 100
v.a.
S. M. Infer.
P. Montesperelli Analisi informazioni standard 20
Nb. I codici hanno natura ordinale ma non cardinale=
riproducono l’ordine delle categorie ma non misurano la distanza
es.
4 ≠ 2 (come nelle var.categoriali); 4> 2 (natura ordinale)
MA4 ≠ 2 x 2; ≠ 6 – 2
etc.
I codici di solito sono numeri, ma
potrebbero essere sostituiti da
lettere: anche l’alfabeto è un ordine
11
P. Montesperelli Analisi informazioni standard 21
L’AUTONOMIA SEMANTICA
Ridotta autonomia semantica :
�per valutare una singola frequenza, occorre considerare l'intera distribuzione
e la successione delle categorie
Classi sociali (%) NORLANDIA CIRCASSIA Alta borghesia 10 10 Media b. 35 10 Piccola b. 30 10 Operai e contadini 25 70 Titolo di studio (%) ARGEVIA NIPPONE Nessuno 17 1 Licenza elementare 24 12 Licenza M. Inferiore 29 19 Diploma M. Superiore 23 23 Laurea 7 45
P. Montesperelli Analisi informazioni standard 22
la MEDIANA
MEDIANA (in generale) = In una serie di cifre ordinate è quella centrale = bipartisce la serie � P=S
P S
3 4 15 16 17
mediana
Se numero pari di cifre, mediana = media fra le due cifre centrali
3 4 15 16 17 18 mediana = 15,5
12
P. Montesperelli Analisi informazioni standard 23
NB: Prima di calcolare la mediana occorre ordinare i valori
1
3
4
7
15
3
7
15
1
4
MEDIANA
=
4
P. Montesperelli Analisi informazioni standard 24
QUARTILIse dividiamo i casi non in 2, ma in 4 parti di eguale numerosità, i valori che segnano i confini fra i 4 quarti sono i “quartili”
1°quartile = ha sotto di sé il 25% della distribuzione e sopra di sé il 75%2°quartile = mediana3°quartile = ha sotto di sé il 75% della distribuzione e sopra di sé il 25%
+
25% 3° quartile
25% 2° quartile
25% 1° quartile
25%
-
13
P. Montesperelli Analisi informazioni standard 25
Ovviamente la posizione dei quartili varia a seconda della distribuzione
es. variabile grado d’istruzione; distribuzione di una popolazione altamente scolarizzata
25% + 3° quartile
25% 2° quartile 25% 1° quartile
25%
-
P. Montesperelli Analisi informazioni standard 26
Dal file Matrice:
Analizza
Frequenze
Statistiche: spuntare:
mediana, quartili,
decili, centili….;
moda
14
P. Montesperelli Analisi informazioni standard 27
Rappresentazioni di distribuzioni in variabili ordinali
Grado di consenso verso...
0
5
10
15
20
25
Molto
Abb
asta
nza
Poc
o
Per
niente N
CNR
%
P. Montesperelli Analisi informazioni standard 28
VARIABILI CARDINALI
A QUANTI CORSI DI FORMAZIONE HA PARTECIPATO QUEST’ANNO?
0
1
2
…
QUANTI DIPENDENTI HA ATTUALMENTE? ……………
15
P. Montesperelli Analisi informazioni standard 29
i. I codici e le categorie coincidono con quanto registrato: p. es. 15 anni di età �
codice 15;
ii. I codici hanno natura cardinale: p. es. 15 anni non solo è diverso da 30 (cfr. var.categoriali), non solo è meno di 30 (cfr. var. ordinali) ma è la metà di 30, è 3 volte 10, etc.;
iii. L’autonomia semantica è (quasi) nulla.
P. Montesperelli Analisi informazioni standard 30
La curva di frequenza
16
P. Montesperelli Analisi informazioni standard 31
VALORI CARATTERISTICI DELLE VARIABILI CARDINALI
curtosi
Simmetria
Es di scarti da media
0 media 100
Le variabili cardinali
possono offrire
molte informazioni
P. Montesperelli Analisi informazioni standard 32
La DISPERSIONE intorno alla media
SCARTO (Xi – X = xi): distanza di un valore dalla media. Come sintetizzare l’insieme delle distanze dalla media (= dispersione intorno alla media)? Reddito familiare 1000
_ _ --------- X X la media è uguale ma la dispersione no 0
Nippone Circassia
17
P. Montesperelli Analisi informazioni standard 33
DEVIANZA = somma dei quadrati degli scarti (Σxi2) � non si ha l’azzeramento
casi punteggi scarti quadrati
Pippo 15 -9 81 Pupo 26 2 4
Peppe 34 10 100 Papi 2 -22 484 Patty 43 19 361 Tot. 120 0 1030 = devianza
media = 24
P. Montesperelli Analisi informazioni standard 34
CONFRONTO FRA ≥ 2 POPOLAZIONI
MEDIE (quasi) uguali diverse
(quasi) uguali
devianza
V
N
Diversi
Varianza
Scarto-tipo
V
18
P. Montesperelli Analisi informazioni standard 35
Voti alle elezioni politiche del 1983 (%) DC PLI
Piemonte Lombardia Veneto Liguria Friuli V.G. Trentino A.A. Emilia R. Toscana Umbria Marche Lazio Abruzzo Molise Campania Puglia Basilicata Calabria Sardegna Sicilia _ X sx
V
27,6 33,4 42,6 27,3 34,5 27,6 22,8 25,3 26,2 33,4 31,1 42,2 55,5 36,2 36,3 46,0 36,8 31,7 26,9
33,9 8,01 0,24
6,6 3,8 2,8 4,7 2,2 1,6 2,3 1,4 1,2 1,6 2,7 1,7 2,2 2,4 2,1 0,8 0,9 1,5 1,7
2,3 1,41 0,61
Obiettivo cognitivo: equilibrio su tutto territorio
nazionale vs. zone forti e deboli.
Lo scarto-tipo risente della grandezza della
media. Le 2 medie hanno grandezza molto
diversa � Nella DC uno scarto di 1 punto in
percentuale è meno importante di un
medesimo scarto nel PLI � Se si vogliono
confrontare la variabilità di voti alla DC e la
variabilità di voti al PLI occorre calcolare V
(che, infatti, è normalizzato per la media).
Il valore di V è maggiore nel PLI � in termini
relativizzati alla diversa entità dei due partiti, il
PLI presenta maggiori squilibri territoriali della
DC.
P. Montesperelli Analisi informazioni standard 36
Dal file matrice: Analizza
Statistiche descrittive
Selezionare la variabile
Opzioni
Spuntare i valori
caratteristici
19
P. Montesperelli Analisi informazioni standard 37
Si ha “associazione” (o “co-variazione”) quando a certi valori
della variabile X corrispondono certi valori della variabile Y
L’associazione fra variabili
Analisi
BIvariata
P. Montesperelli Analisi informazioni standard 38
Relazione fra 2 variabili categoriali
PIENA ASSOCIAZIONE
Partecipazione alle elezioni per genere sì no Tot
M 100 0 100 F 0 100 100
Tot 100 100 200
PIENA INDIPENDENZA
Partecipazione alle elezioni per genere sì no Tot
M 50 50 100 F 50 50 100
Tot 100 100 200
Quasi sempre il grado di associazione è più o meno intermedio
20
P. Montesperelli Analisi informazioni standard 39
Galtung: Regola generale
I. Si stabilisce quale var. considerare indipendente; II. Si percentualizza all’interno delle sue categorie;
III. I confronti vanno effettuati nella direzione opposta a quella della percentualizzazione.
Con % di riga il confronto è per colonna
COMPOSIZIONE SOCIALE DEGLI ISCRITTI ALLA FACOLTA' DI LETTERE
superiori
medi
autonomi
medi
dipendenti operai TOT
M 12,2 27,5 23,2 37,1 100 (237)
F 20,2 30,2 23,4 26,2 100 (1.178)
Tot. 18,9 29,7 23,4 28,0 100 (1.415)
COME RILEVARE L’ASSOCIAZIONE FRA 2 VARIABILI
CATEGORIALI
P. Montesperelli Analisi informazioni standard 40
Scarti fra frequenze osservate e frequenze attese (fo – fe )
COMPOSIZIONE SOCIALE DEGLI ISCRITTI ALLA FACOLTA' DI LETTERE
superiori
medi
autonomi
medi
dipendenti operai TOT
M -16 -5 0 22 0
F 16 5 0 -22 0
TOT 0 0 0 0 0
… oppure si possono calcolare gli scarti fra
frequenze e frequenze osservate
v. Slides su Analisi
del contenuto – 2°
tipo
21
P. Montesperelli Analisi informazioni standard 41
NB: Le tecniche sono diverse ma
naturalmente danno gli stessi risultati
COMPOSIZIONE SOCIALE DEGLI ISCRITTI ALLA FACOLTA' DI LETTERE
superiori
medi
autonomi
medi
dipendenti operai TOT
M 12,2 27,5 23,2 37,1 100 (237)
F 20,2 30,2 23,4 26,2 100 (1.178)
Tot. 18,9 29,7 23,4 28,0 100 (1.415)
Scarti fra frequenze osservate e frequenze attese (fo – fe )
COMPOSIZIONE SOCIALE DEGLI ISCRITTI ALLA FACOLTA' DI LETTERE
superiori
medi
autonomi
medi
dipendenti operai TOT
M -16 -5 0 22 0
F 16 5 0 -22 0
TOT 0 0 0 0 0
Esempio:
Repulsione M-
“superiori”;
attrazione F-
“superiori”
Attrazione M-
operai;
repulsione F-
operai
P. Montesperelli Analisi informazioni standard 42
22
P. Montesperelli Analisi informazioni standard 43
Relazioni fra due variabili ordinali
CLASSE GRADO DI ISTRUZIONE
SOCIALE basso medio alto Tot
Alta 9,5 19 71,4 100
Media 13,8 76,9 9,2 100
Bassa 86 10,8 3,2 100
Tot. 46,5 34 19,5 100
Minore autonomia semantica �
considerare soprattutto le celle
lungo le diagonali
NB. La relazione è diretta (= segno positivo)
P. Montesperelli Analisi informazioni standard 44
Relazioni fra una variabile categoriale (o ordinale) e una variabile cardinale
2 variabili: comportamento x età Per ogni categoria della variabile comportamento si analizza la variabile età
� Ogni “scatola” contiene il 50% dei casi; � Il segmento dentro la scatola esprime la media; � Più la scatola è schiacciata, più è bassa la dispersione intorno alla
media; � La “coda” in basso arriva fino all’età minima; la “coda” in alto fino
all’età massima; � Fra la scatola e la fine di ciascuna “coda” vi è il 25% dei casi.
Bassa autonomia
semantica della
cardinale �
considerare
prioritariamente le
medie
23
P. Montesperelli Analisi informazioni standard 45
b) diagramma a dispersione =
Ogni caso è rappresentato da un punto. La posizione di ciascun punto è data dalla collocazione CONGIUNTA del caso sulla variabile X e sulla variabile Y
PIENA ASSOCIAZIONE
Y
° °
° ° °
0 X
Relazione fra due variabili cardinali
P. Montesperelli Analisi informazioni standard 46
PIENA INDIPENDENZA
Y O R D I N A T
A
X
24
P. Montesperelli Analisi informazioni standard 47
Per quantificare l’associazione fra 2 var cardinali (“CORRELAZIONE”)
si usa il coefficiente “r” di Pearson. Esso varia da 0 (totale
indipendenza) a + 1 (= massima associazione diretta, cioè di segno
positivo) o – 1 (= massima associazione ma inversa, di segno negativo)
Incidenza povertà e tasso di disoccupazione per regione – Anno 2005
Sic
Cam
Cal
Pug
Bas
Sar
Mol
AbrIta
VdAUmbLig
TosMar
Pie
Ven
FVG
LomEro
LazTAA
R2 = 0,88
0,0
5,0
10,0
15,0
20,0
25,0
30,0
35,0
0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 18,0
tasso di disoccupazione
diffu
sio
ne p
overt
à
Fonte: Elaborazioni dati Istat
r = 0,93
P. Montesperelli Analisi informazioni standard 48
Incidenza povertà e % famiglie con accesso a Internet per regione – Anno 2003
Ven
Pie Lig
Tos
TAA FVG
Abr
Sar
Bas Mol
Cam Pug
Cal Sic
Umb
Ita
Laz
VdA Mar ERo
Lom
R2 = 0,720,0
5,0
10,0
15,0
20,0
25,0
30,0
20,0 22,0 24,0 26,0 28,0 30,0 32,0 34,0 36,0 38,0
% Uso internet
% p
overi
Fonte: Elaborazioni dati Istat
r = - 0,84
25
P. Montesperelli Analisi informazioni standard 49
Testi consigliati:
• A. Marradi, L’analisi monovariata, Milano, FrancoAngeli;
• A. Marradi, Linee guida per l’analisi bivariata dei dati nelle scienze sociali;
• R. Fideli, Come analizzare i dati al computer, Roma, Carocci;
• G. Di Franco, EDS: Esplorare, descrivere e sintetizzare i dati, Milano, FrancoAngeli.