25
1 P. Montesperelli Analisi informazioni standard 1 XV - ANALIZZARE LE INFORMAZIONI STANDARD P. Montesperelli Analisi informazioni standard 2 Che cosa sono le ‘informazioni’ nella ricerca sociale informazioni DATI Valori alfanumerici In matrice-dati INFORMAZIONI non codificate in matrice-dati “Sì noi abbiamo relazioni molto buone. Ripeto: è una città piccola, ci conosciamo tutti…”

XV - ANALIZZARE LE INFORMAZIONI STANDARD · non c'è unità di misura ESEMPI: età spazio peso ESEMPI: opinioni, atteggiamenti VARIABILI categoriali ordinali cardinali cardinali cardinali

Embed Size (px)

Citation preview

1

P. Montesperelli Analisi informazioni standard 1

XV - ANALIZZARE LE

INFORMAZIONI STANDARD

P. Montesperelli Analisi informazioni standard 2

Che cosa sono le ‘informazioni’nella ricerca sociale

informazioni

DATI

Valori alfanumerici

In matrice-dati

INFORMAZIONI

non codificate in

matrice-dati“Sì noi abbiamo relazionimolto buone. Ripeto: è

una città piccola,ci conosciamo tutti…”

2

P. Montesperelli Analisi informazioni standard 3

La raccolta delle informazioni su una

proprietà

La scelta di tali operazioni va fatta in base

alla natura della proprietà � relazione fra i

suoi stati

Analisi

MONOvariata

P. Montesperelli Analisi informazioni standard 4

PROPRIETA'(definite in base al tipo di relazione

fra stati)

DISCRETE=

numero finito di stati

chiaramente dinstinguibili

CONTINUE=

numero infinito di statiimpercett ibilmente

diversi l 'uno dall'altroe immaginabili lungo

un continuum

CATEGORIALI=non cè relazione

quantitativa

ESEMPI:regione di residenzasettore di ocupazionereligione professata

TG preferito

ORDINALI=

di maggiore e minore;

gli stati sono ordinabili lungo

una scala

ESEMPI:Grado d'istruzione

centralità/perifericità di un quartiere

posizione in una gerarchia

CARDINALI

ESEMPI:numero componenti

famiglia;numero di televisori;

numero di laureati in un Comune

MISURABILI=registrabili

senza collaborazione

att iva;Unità di misura

CONTINUE NON

MISURABILI=

collaborazione attiva;

non c'è unità di misura

ESEMPI:età

spaziopeso

ESEMPI:opinioni, atteggiamenti

VARIABILI

categoriali

ordinali

cardinali

cardinali

cardinali

3

P. Montesperelli Analisi informazioni standard 5

VARIABILI CATEGORIALI

QUALE ORGANIZZAZIONE TI INTERESSA DI PIU’ (Una sola risposta) Volontariato sociale �

Movimenti religiosi, Parrocchie � Associazioni ricreative / sportive/ tempo libero �

Per la pace e i diritti umani � Ecologisti, tutela dell’ambiente / del territorio �

Cooperative sociali � Partiti �

Sindacati � Pro-loco �

Collettivi autogestiti � Organizzazioni studentesche (consulte, …) �

Altre associazioni (specificare:……………………..) �

Non mi interressa nessuna associazione �

� se hai scelto questa risposta, non rispondere alle altre domande

P. Montesperelli Analisi informazioni standard 6

Definizione operativa per la raccolta delle informazioni:

• Si adotta un fundamentum divisionis funzionale agli obiettivi cognitivi;

• Si decide come convertire gli stati in categorie della variabile (Quante? Dove passano

i confini? Categorie residuali)

Mutua esclusività + esaustività

Inizialmente conviene un’alta sensibilità (= molte categorie).

Eccez.: riconduzione; interviste telefoniche,…

• Si attribuiscono i codici (alfa)numerici

4

P. Montesperelli Analisi informazioni standard 7

Definizione operativa nell’analisi dei dati

Codici Categorie Frequenze

1 2 3 4 5

Nord-Ovest Nord-Est Centro

Sud Isole

32 44 25 38 12

I codici non hanno natura né cardinale né ordinale: servono solo ad esprimere la differenza fra categorie 4 è solo diverso da 2 alta autonomia semantica delle categorie = la frequenza di una categoria ha pieno significato senza far riferimento alle frequenze delle altre categorie; esaminare con attenzione (“centro di interesse semantico”) ciascuna categoria � la quantità di categorie non può essere eccessiva (problema di sensibilità);

P. Montesperelli Analisi informazioni standard 8

ANALISI MONOVARIATALE PERCENTUALI: UTILITA’

Una distribuzione di frequenza è più facilmente comprensibile in % piuttosto che in v.a.

5

P. Montesperelli Analisi informazioni standard 9

Da matrice:

Analizza

Statistiche

descrittive

Frequenze

(per default dà

frequenze in v.a.,

%, % cumulate;

per altre opzioni

statistiche:

‘statistiche’)

P. Montesperelli Analisi informazioni standard 10

La percentualizzazione serve anche a “pareggiare”basi che in valori assoluti sono diverse

NB. Di solito si “pareggiano” a 100 le basi all’interno di una

tabella di contingenza (bivariata)

6

P. Montesperelli Analisi informazioni standard 11

Dalla matrice:

Analizza

Statistiche

descrittive

Tavole di

contingenza

Selezionare le 2

variabili e

scegliere quale in

riga e quale in

colonna

Celle

Scegliere se % di

riga e/o di colonna

P. Montesperelli Analisi informazioni standard 12

VALORI CARATTERISTICIdanno informazioni sulla distribuzione

a) posizionaliConsiderano solo una o alcune categorie

MODA = categoria con frequenza più alta. PROVINCIA

frequenze v.a. AV 138 BN 155 CE 234 NA 1.356 SA 471 Tot v.a. 2.354

NA è la moda

7

P. Montesperelli Analisi informazioni standard 13

b) SinteticiConsiderano tutte le categorie

Rilevare lo squilibrio può essere significativo

Maschi Femmine

0

5

10

15

20

25

30

35

40

45

50

55

60

65

70

Occupati

Maschi Femmine

0

5

10

15

20

25

30

35

40

45

50

Occupati

P. Montesperelli Analisi informazioni standard 14

0

50

100

n = 204 Sq = 0,14

Serie1 30 29 29 29 29 29 29

L Sc L Cl L Art Magistr Tec Prof Altro

n = 204 Sq = 0,36

Serie1 85 87 12 15 0 0 5

L Sc L Cl L Art Magist Tec Prof Altro

0

100

200

300

n = 204 Sq = 1,0

Serie1 204 0 0 0 0 0 0

L Sc L Cl L Art Magist Tec Prof Altro

Per capire se una

distribuzione è

molto o poco

squilibrata,

occorre

conoscere il

minimo e il

massimo che può

assumere Sq:

Max = 1

Min = 1/k ove k =

numero delle

categorie

8

P. Montesperelli Analisi informazioni standard 15

Equilibrio pop umbria secondo il luogo di residenza

0,3

0,35

0,4

0,45

0,5

0,55

0,6

1861 1871 1881 1901 1911 1921 1931 1936 1951 1961 1971 1981

Il coefficiente Eq è speculare di

Sq = quantifica il grado di

EQUILIBRIO

P. Montesperelli Analisi informazioni standard 16

Rappresentazioni di distribuzioni in categorie non ordinate

ESEMPIO DI ISTOGRAMMA

0

5

10

15

20

25

30

35

40

45

Sin Centro Destra Altri

%

9

P. Montesperelli Analisi informazioni standard 17

Esempio di TORTA

Sin

30%

Centro

40%

Destra

20%

Altri

10%

P. Montesperelli Analisi informazioni standard 18

VARIABILI ORDINALI(o “con categorie ordinate”)

DI SOLITO, CON QUALE FREQUENZA LEGGI UN QUOTIDIANO DI INFORMAZIONE (esclusi i quotidiani sportivi)?

� Mai o quasi mai � 1 volta alla settimana � 2-5 volte alla settimana � Tutti i giorni o quasi

10

P. Montesperelli Analisi informazioni standard 19

PROPRIETA’ E VARIABILI ORDINALI

• Le proprietà hanno stati differenti e ordinabili (p. es. grado d’istruzione,

posizione in una gerarchia, grado di urbanizzazione, etc.)

• Per trasformare una proprietà ordinale in variabile ordinale occorre seguire

la stessa procedura per le variabili categoriali + riprodurre l’ordine degli stati

nell’ordine delle categorie e dei codici

GRADO DI ISTRUZIONE

codici Categorie %

1 Nessuno 32 18

2 Elementari 55 31

3 43 24

4 S. M. Sup. 29 16

5 Università 12 7

6 Post-laurea 5 3

TOT. 176 100

v.a.

S. M. Infer.

P. Montesperelli Analisi informazioni standard 20

Nb. I codici hanno natura ordinale ma non cardinale=

riproducono l’ordine delle categorie ma non misurano la distanza

es.

4 ≠ 2 (come nelle var.categoriali); 4> 2 (natura ordinale)

MA4 ≠ 2 x 2; ≠ 6 – 2

etc.

I codici di solito sono numeri, ma

potrebbero essere sostituiti da

lettere: anche l’alfabeto è un ordine

11

P. Montesperelli Analisi informazioni standard 21

L’AUTONOMIA SEMANTICA

Ridotta autonomia semantica :

�per valutare una singola frequenza, occorre considerare l'intera distribuzione

e la successione delle categorie

Classi sociali (%) NORLANDIA CIRCASSIA Alta borghesia 10 10 Media b. 35 10 Piccola b. 30 10 Operai e contadini 25 70 Titolo di studio (%) ARGEVIA NIPPONE Nessuno 17 1 Licenza elementare 24 12 Licenza M. Inferiore 29 19 Diploma M. Superiore 23 23 Laurea 7 45

P. Montesperelli Analisi informazioni standard 22

la MEDIANA

MEDIANA (in generale) = In una serie di cifre ordinate è quella centrale = bipartisce la serie � P=S

P S

3 4 15 16 17

mediana

Se numero pari di cifre, mediana = media fra le due cifre centrali

3 4 15 16 17 18 mediana = 15,5

12

P. Montesperelli Analisi informazioni standard 23

NB: Prima di calcolare la mediana occorre ordinare i valori

1

3

4

7

15

3

7

15

1

4

MEDIANA

=

4

P. Montesperelli Analisi informazioni standard 24

QUARTILIse dividiamo i casi non in 2, ma in 4 parti di eguale numerosità, i valori che segnano i confini fra i 4 quarti sono i “quartili”

1°quartile = ha sotto di sé il 25% della distribuzione e sopra di sé il 75%2°quartile = mediana3°quartile = ha sotto di sé il 75% della distribuzione e sopra di sé il 25%

+

25% 3° quartile

25% 2° quartile

25% 1° quartile

25%

-

13

P. Montesperelli Analisi informazioni standard 25

Ovviamente la posizione dei quartili varia a seconda della distribuzione

es. variabile grado d’istruzione; distribuzione di una popolazione altamente scolarizzata

25% + 3° quartile

25% 2° quartile 25% 1° quartile

25%

-

P. Montesperelli Analisi informazioni standard 26

Dal file Matrice:

Analizza

Frequenze

Statistiche: spuntare:

mediana, quartili,

decili, centili….;

moda

14

P. Montesperelli Analisi informazioni standard 27

Rappresentazioni di distribuzioni in variabili ordinali

Grado di consenso verso...

0

5

10

15

20

25

Molto

Abb

asta

nza

Poc

o

Per

niente N

CNR

%

P. Montesperelli Analisi informazioni standard 28

VARIABILI CARDINALI

A QUANTI CORSI DI FORMAZIONE HA PARTECIPATO QUEST’ANNO?

0

1

2

QUANTI DIPENDENTI HA ATTUALMENTE? ……………

15

P. Montesperelli Analisi informazioni standard 29

i. I codici e le categorie coincidono con quanto registrato: p. es. 15 anni di età �

codice 15;

ii. I codici hanno natura cardinale: p. es. 15 anni non solo è diverso da 30 (cfr. var.categoriali), non solo è meno di 30 (cfr. var. ordinali) ma è la metà di 30, è 3 volte 10, etc.;

iii. L’autonomia semantica è (quasi) nulla.

P. Montesperelli Analisi informazioni standard 30

La curva di frequenza

16

P. Montesperelli Analisi informazioni standard 31

VALORI CARATTERISTICI DELLE VARIABILI CARDINALI

curtosi

Simmetria

Es di scarti da media

0 media 100

Le variabili cardinali

possono offrire

molte informazioni

P. Montesperelli Analisi informazioni standard 32

La DISPERSIONE intorno alla media

SCARTO (Xi – X = xi): distanza di un valore dalla media. Come sintetizzare l’insieme delle distanze dalla media (= dispersione intorno alla media)? Reddito familiare 1000

_ _ --------- X X la media è uguale ma la dispersione no 0

Nippone Circassia

17

P. Montesperelli Analisi informazioni standard 33

DEVIANZA = somma dei quadrati degli scarti (Σxi2) � non si ha l’azzeramento

casi punteggi scarti quadrati

Pippo 15 -9 81 Pupo 26 2 4

Peppe 34 10 100 Papi 2 -22 484 Patty 43 19 361 Tot. 120 0 1030 = devianza

media = 24

P. Montesperelli Analisi informazioni standard 34

CONFRONTO FRA ≥ 2 POPOLAZIONI

MEDIE (quasi) uguali diverse

(quasi) uguali

devianza

V

N

Diversi

Varianza

Scarto-tipo

V

18

P. Montesperelli Analisi informazioni standard 35

Voti alle elezioni politiche del 1983 (%) DC PLI

Piemonte Lombardia Veneto Liguria Friuli V.G. Trentino A.A. Emilia R. Toscana Umbria Marche Lazio Abruzzo Molise Campania Puglia Basilicata Calabria Sardegna Sicilia _ X sx

V

27,6 33,4 42,6 27,3 34,5 27,6 22,8 25,3 26,2 33,4 31,1 42,2 55,5 36,2 36,3 46,0 36,8 31,7 26,9

33,9 8,01 0,24

6,6 3,8 2,8 4,7 2,2 1,6 2,3 1,4 1,2 1,6 2,7 1,7 2,2 2,4 2,1 0,8 0,9 1,5 1,7

2,3 1,41 0,61

Obiettivo cognitivo: equilibrio su tutto territorio

nazionale vs. zone forti e deboli.

Lo scarto-tipo risente della grandezza della

media. Le 2 medie hanno grandezza molto

diversa � Nella DC uno scarto di 1 punto in

percentuale è meno importante di un

medesimo scarto nel PLI � Se si vogliono

confrontare la variabilità di voti alla DC e la

variabilità di voti al PLI occorre calcolare V

(che, infatti, è normalizzato per la media).

Il valore di V è maggiore nel PLI � in termini

relativizzati alla diversa entità dei due partiti, il

PLI presenta maggiori squilibri territoriali della

DC.

P. Montesperelli Analisi informazioni standard 36

Dal file matrice: Analizza

Statistiche descrittive

Selezionare la variabile

Opzioni

Spuntare i valori

caratteristici

19

P. Montesperelli Analisi informazioni standard 37

Si ha “associazione” (o “co-variazione”) quando a certi valori

della variabile X corrispondono certi valori della variabile Y

L’associazione fra variabili

Analisi

BIvariata

P. Montesperelli Analisi informazioni standard 38

Relazione fra 2 variabili categoriali

PIENA ASSOCIAZIONE

Partecipazione alle elezioni per genere sì no Tot

M 100 0 100 F 0 100 100

Tot 100 100 200

PIENA INDIPENDENZA

Partecipazione alle elezioni per genere sì no Tot

M 50 50 100 F 50 50 100

Tot 100 100 200

Quasi sempre il grado di associazione è più o meno intermedio

20

P. Montesperelli Analisi informazioni standard 39

Galtung: Regola generale

I. Si stabilisce quale var. considerare indipendente; II. Si percentualizza all’interno delle sue categorie;

III. I confronti vanno effettuati nella direzione opposta a quella della percentualizzazione.

Con % di riga il confronto è per colonna

COMPOSIZIONE SOCIALE DEGLI ISCRITTI ALLA FACOLTA' DI LETTERE

superiori

medi

autonomi

medi

dipendenti operai TOT

M 12,2 27,5 23,2 37,1 100 (237)

F 20,2 30,2 23,4 26,2 100 (1.178)

Tot. 18,9 29,7 23,4 28,0 100 (1.415)

COME RILEVARE L’ASSOCIAZIONE FRA 2 VARIABILI

CATEGORIALI

P. Montesperelli Analisi informazioni standard 40

Scarti fra frequenze osservate e frequenze attese (fo – fe )

COMPOSIZIONE SOCIALE DEGLI ISCRITTI ALLA FACOLTA' DI LETTERE

superiori

medi

autonomi

medi

dipendenti operai TOT

M -16 -5 0 22 0

F 16 5 0 -22 0

TOT 0 0 0 0 0

… oppure si possono calcolare gli scarti fra

frequenze e frequenze osservate

v. Slides su Analisi

del contenuto – 2°

tipo

21

P. Montesperelli Analisi informazioni standard 41

NB: Le tecniche sono diverse ma

naturalmente danno gli stessi risultati

COMPOSIZIONE SOCIALE DEGLI ISCRITTI ALLA FACOLTA' DI LETTERE

superiori

medi

autonomi

medi

dipendenti operai TOT

M 12,2 27,5 23,2 37,1 100 (237)

F 20,2 30,2 23,4 26,2 100 (1.178)

Tot. 18,9 29,7 23,4 28,0 100 (1.415)

Scarti fra frequenze osservate e frequenze attese (fo – fe )

COMPOSIZIONE SOCIALE DEGLI ISCRITTI ALLA FACOLTA' DI LETTERE

superiori

medi

autonomi

medi

dipendenti operai TOT

M -16 -5 0 22 0

F 16 5 0 -22 0

TOT 0 0 0 0 0

Esempio:

Repulsione M-

“superiori”;

attrazione F-

“superiori”

Attrazione M-

operai;

repulsione F-

operai

P. Montesperelli Analisi informazioni standard 42

22

P. Montesperelli Analisi informazioni standard 43

Relazioni fra due variabili ordinali

CLASSE GRADO DI ISTRUZIONE

SOCIALE basso medio alto Tot

Alta 9,5 19 71,4 100

Media 13,8 76,9 9,2 100

Bassa 86 10,8 3,2 100

Tot. 46,5 34 19,5 100

Minore autonomia semantica �

considerare soprattutto le celle

lungo le diagonali

NB. La relazione è diretta (= segno positivo)

P. Montesperelli Analisi informazioni standard 44

Relazioni fra una variabile categoriale (o ordinale) e una variabile cardinale

2 variabili: comportamento x età Per ogni categoria della variabile comportamento si analizza la variabile età

� Ogni “scatola” contiene il 50% dei casi; � Il segmento dentro la scatola esprime la media; � Più la scatola è schiacciata, più è bassa la dispersione intorno alla

media; � La “coda” in basso arriva fino all’età minima; la “coda” in alto fino

all’età massima; � Fra la scatola e la fine di ciascuna “coda” vi è il 25% dei casi.

Bassa autonomia

semantica della

cardinale �

considerare

prioritariamente le

medie

23

P. Montesperelli Analisi informazioni standard 45

b) diagramma a dispersione =

Ogni caso è rappresentato da un punto. La posizione di ciascun punto è data dalla collocazione CONGIUNTA del caso sulla variabile X e sulla variabile Y

PIENA ASSOCIAZIONE

Y

° °

° ° °

0 X

Relazione fra due variabili cardinali

P. Montesperelli Analisi informazioni standard 46

PIENA INDIPENDENZA

Y O R D I N A T

A

X

24

P. Montesperelli Analisi informazioni standard 47

Per quantificare l’associazione fra 2 var cardinali (“CORRELAZIONE”)

si usa il coefficiente “r” di Pearson. Esso varia da 0 (totale

indipendenza) a + 1 (= massima associazione diretta, cioè di segno

positivo) o – 1 (= massima associazione ma inversa, di segno negativo)

Incidenza povertà e tasso di disoccupazione per regione – Anno 2005

Sic

Cam

Cal

Pug

Bas

Sar

Mol

AbrIta

VdAUmbLig

TosMar

Pie

Ven

FVG

LomEro

LazTAA

R2 = 0,88

0,0

5,0

10,0

15,0

20,0

25,0

30,0

35,0

0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 18,0

tasso di disoccupazione

diffu

sio

ne p

overt

à

Fonte: Elaborazioni dati Istat

r = 0,93

P. Montesperelli Analisi informazioni standard 48

Incidenza povertà e % famiglie con accesso a Internet per regione – Anno 2003

Ven

Pie Lig

Tos

TAA FVG

Abr

Sar

Bas Mol

Cam Pug

Cal Sic

Umb

Ita

Laz

VdA Mar ERo

Lom

R2 = 0,720,0

5,0

10,0

15,0

20,0

25,0

30,0

20,0 22,0 24,0 26,0 28,0 30,0 32,0 34,0 36,0 38,0

% Uso internet

% p

overi

Fonte: Elaborazioni dati Istat

r = - 0,84

25

P. Montesperelli Analisi informazioni standard 49

Testi consigliati:

• A. Marradi, L’analisi monovariata, Milano, FrancoAngeli;

• A. Marradi, Linee guida per l’analisi bivariata dei dati nelle scienze sociali;

• R. Fideli, Come analizzare i dati al computer, Roma, Carocci;

• G. Di Franco, EDS: Esplorare, descrivere e sintetizzare i dati, Milano, FrancoAngeli.