26
Analisi bivariata Dott. Cazzaniga Paolo Dip. di Scienze Umane e Sociali [email protected] Dott. Cazzaniga Paolo Analisi bivariata

Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Analisi bivariata

Dott. Cazzaniga Paolo

Dip. di Scienze Umane e [email protected]

Dott. Cazzaniga Paolo Analisi bivariata

Page 2: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Introduzione

Analisi bivariata:analisi delle relazioni tra due caratteristiche osservate sullestesse unità statistichestudio del comportamento di due caratteri consideraticongiuntamentemisura del grado di associazione tra due caratteri qualitativi,quantitativi e mistifornisce indicazioni riguardo al legame esistente tra coppie divariabiliil tipo di associazione dipende dalla natura dei caratteri

Dott. Cazzaniga Paolo Analisi bivariata

Page 3: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Tabelle di contingenza [1/5]

Sono tabelle doppie di frequenze di dati (nominali o ordinali)Le modalità delle variabili di riga danno il nome alle righeLe modalità delle variabili di colonna danno il nome alle colonne

Dott. Cazzaniga Paolo Analisi bivariata

Page 4: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Tabelle di contingenza [2/5]

Nella tabella seguente sono riportate le frequenze assolute congiuntenij : numero di unità che assumono la modalità xi e yj

Dott. Cazzaniga Paolo Analisi bivariata

Page 5: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Tabelle di contingenza [3/5]

Nella tabella seguente sono riportate le distribuzioni delle percentualiriga

Dott. Cazzaniga Paolo Analisi bivariata

Page 6: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Tabelle di contingenza [4/5]

Dott. Cazzaniga Paolo Analisi bivariata

Page 7: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Tabelle di contingenza [5/5]

Dott. Cazzaniga Paolo Analisi bivariata

Page 8: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Dipendenza, indipendenza e interdipendenza

Una variabile è detta indipendente o esplicativa se spiega o influenzale variazioni di una variabile dipendente (o criterio)

Analisi di dipendenza:descrive il modo in cui una variabile dipendente varia al variaredella variabile indipendente (il legame tra le variabili èunidirezionale o asimmetrico)dipendenza logica: esiste una relazione di causa effetto tra due opiù variabiliindipendenza logica: non esiste alcuna relazione di causa effettotra le variabili considerate

Analisi di interdipendenza:descrive come le modalità di un carattere variano al variare di unaltro carattere (legame bidirezionale o simmetrico)non è possibile stabilire una relazione di dipendenzanon è possibile individuare un carattere dipendente

Dott. Cazzaniga Paolo Analisi bivariata

Page 9: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Misure di associazione tra due variabili nominali [1/3]

Permettono di verificare se esiste dipendenza tra due variabili e dimisurare l’intensità della dipendenza

Indice χ2 (chi quadro):usa la la frequenze congiunte nij delle coppie di modalità (xi , yj )si basa sulla frequenza teorica o attesa nij : valore cheassumerebbe la frequenza congiunta in caso di indipendenzanij si calcola usando le frequenze assolute marginalivengono calcolate le contingenze o scarti tra frequenzeosservate e teoriche: cij = nij − nij

χ2 =r∑

i=1

t∑j=1

c2ij

nij

dove r e t sono il numero di modalità dei caratteri X e Y .χ2 è nullo se i caratteri sono indipendentiχ2 è positivo se c’è dipendenza tra i due caratteri

Dott. Cazzaniga Paolo Analisi bivariata

Page 10: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Misure di associazione tra due variabili nominali [2/3]

Il valore di χ2 aumenta all’aumentare della numerosità delcampione nPer avere una misura di distanza che non dipenda da n vieneintrodotto Φ2

Indice di contingenza quadratica media Φ2 (phi quadro)

Φ2 =χ2

n

Φ2 = 0 in caso di indipendenzaΦ2 ≤ min{(r − 1), (t − 1)} (r e t numero di modalità di X e Y )

Dott. Cazzaniga Paolo Analisi bivariata

Page 11: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Misure di associazione tra due variabili nominali [3/3]

E’ possibile ottenere un indice di dipendenza che varia nell’intervallo[0,1]

Indice V di Cramer:

V =

√Φ2

min{(r − 1), (t − 1)}

V = 0 se i due caratteri sono indipendentiV < 0,3 se c’è una bassa dipendenza tra i caratteriV ≥ 0,3 se c’è una apprezzabile dipendenza tra i caratteriV = 1 se i due caratteri:

sono perfettamente associati e r = tX dipende perfettamente da Y se r < tY dipende perfettamente da X se r > t

Dott. Cazzaniga Paolo Analisi bivariata

Page 12: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Misure di associazione tra due variabili ordinali [1/5]Le variabili ordinali contengono l’ordine delle modalità delle variabili

Per questo motivo possono esistere due tipi di relazione:Concordanza (relazione diretta) tra X e Y quando le modalità diordine elevato di X si associano più frequentemente a modalitàdi ordine elevato di Y , e viceversaDiscordanza (relazione inversa) tra X e Y quando le modalità diordine elevato di X si associano più frequentemente a modalitàdi ordine basso di Y

Indice γ (gamma) di Goodman e Kruskal:

γ =C − DC + D

dove C e D rappresentano il numero di coppie concordanti ediscordanti nei dati

−1 ≤ γ ≤ 1γ < 0 in caso di discordanza, γ > 0 in caso di concordanza|γ| ≥ 0,6 se esiste una associazione forte

Dott. Cazzaniga Paolo Analisi bivariata

Page 13: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Misure di associazione tra due variabili ordinali [2/5]

Esempio:

γ = C−DC+D = 3251−2346

3251+2346 = 9055597 = 0,16

Dott. Cazzaniga Paolo Analisi bivariata

Page 14: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Misure di associazione tra due variabili ordinali [3/5]

Esempio di γ = 1 e γ = −1:

Dott. Cazzaniga Paolo Analisi bivariata

Page 15: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Misure di associazione tra due variabili ordinali [4/5]

Indice ρS (rho) di Spearman:misura la cograduazione tra graduatorie con molte modalità

ρS = 1− 6∑n

i=1 d2i

n(n2−1)

di è la differenza tra i ranghi di caratteri diversi dell’i-esima unità−1 ≤ ρS ≤ 1ρS = 1: stesso rango in entrambe le graduatorieρS = −1: perfetta discordanzaρS = 0 in caso di assenza di associazione

Dott. Cazzaniga Paolo Analisi bivariata

Page 16: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Misure di associazione tra due variabili ordinali [5/5]

Esempio di calcolo dell’indice ρS di Spearman:

ρS = 1− 6∑n

i=1 d2i

n(n2−1) = 1− 6·148(82−1) = 0,83

Dott. Cazzaniga Paolo Analisi bivariata

Page 17: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Misure di associazione tra caratteri quantitativi [1/7]

In questo ambito si parla di studio di correlazione:relazione tra due variabili tale che a ciascun valore della primavariabile corrisponda con una certa regolarità un valore dellasecondaè diretta o positiva quando variando una variabile in un senso, laseconda varia nello stesso sensoè indiretta o inversa quando variando una variabile in un senso,la seconda varia nel senso oppostodue variabili sono associate positivamente quando i valori soprala media di una tendono ad associarsi con valori sopra la mediadell’altra, e viceversadue variabili sono associate negativamente quando i valori soprala media di una tendono ad associarsi con valori sotto la mediadell’altra, e viceversa

Dott. Cazzaniga Paolo Analisi bivariata

Page 18: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Misure di associazione tra caratteri quantitativi [2/7]

La correlazione può essere mostrata usando un diagramma adispersione (scatter plot)

Dott. Cazzaniga Paolo Analisi bivariata

Page 19: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Misure di associazione tra caratteri quantitativi [3/7]

Covarianza:indice simmetrico per misurare la concordanza o discordanza tradue caratteri quantitativi

Cov(x , y) =1n

n∑i=1

(xi − x)(yi − y)

assume valori positivi se le due variabili co-variano in manieradirettaassume valori negativi se le due variabili co-variano in manierainversacresce (in valore assoluto) al crescere dell’associazioneesistente tra due variabili

Dott. Cazzaniga Paolo Analisi bivariata

Page 20: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Misure di associazione tra caratteri quantitativi [4/7]

Coefficiente lineare ρ (rho) di Pearson:misura relativa della correlazione lineare tra due variabili

ρ =1n

∑ni=1(xi − x)(yi − y)√

1n

∑ni=1(xi − x)2 1

n

∑ni=1(yi − y)2

=Cov(x , y)

σxσy

ha lo stesso segno della covarianzamisura l’intensità della relazione lineare tra le variabili X e Yse la relazione lineare esiste ed è positiva, i punti si disporrannosu una retta ascendenteρ = 1 se c’è una perfetta correlazione lineare positivase la relazione lineare esiste ed è negativa, i punti si disporrannosu una retta discendenteρ = −1 se c’è una perfetta correlazione lineare negativala relazione lineare, diretta o inversa, è forte per |ρ| ≥ 0,7

Dott. Cazzaniga Paolo Analisi bivariata

Page 21: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Misure di associazione tra caratteri quantitativi [5/7]

Relazione lineare positiva:

Relazione lineare negativa:

Dott. Cazzaniga Paolo Analisi bivariata

Page 22: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Misure di associazione tra caratteri quantitativi [6/7]

Quando i due caratteri sono incorrelati, ρ = 0 (la covarianza ènulla)Esistono due tipi di incorrelazione: assenza di relazione lineare orelazione non lineare

Dott. Cazzaniga Paolo Analisi bivariata

Page 23: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Misure di associazione tra caratteri quantitativi [7/7]Esistono altri tipi di correlazione

Correlazione spuria (nonsense correlation) se i due fenomeninon hanno alcun nesso causaleCorrelazione indiretta se due variabili X e Y sono correlateperché in realtà correlate entrambe a una variabile Z

Guess the correlation

Dott. Cazzaniga Paolo Analisi bivariata

Page 24: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Regressione lineare semplice [1/2]

Regressione lineare:descrive la relazione che unisce due variabiliviene identificata una funzione matematica (retta) che esprime ivalori assunti da un carattere come funzione dei valori assunti daun altro caratteresi cerca di individuare la retta che rappresenti al meglio i puntiempirici (dati)viene usato il metodo dei minimi quadrati che minimizza lasomma degli scarti tra i valori osservati e quelli teorici (sulla retta)la retta di regressione migliora la previsione del caratteredipendente quando si conosce la modalità del carattereindipendente

Dott. Cazzaniga Paolo Analisi bivariata

Page 25: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Regressione lineare semplice [2/2]

La linea indica la retta di regressione

Come si inserisce la retta di regressione in Calc?

Dott. Cazzaniga Paolo Analisi bivariata

Page 26: Dott. Cazzaniga Paolo8(82 1) = 0;83 Dott. Cazzaniga Paolo Analisi bivariata Misure di associazione tra caratteri quantitativi [1/7] In questo ambito si parla distudio di correlazione:

Dove studio questi argomenti?

Capitoli 12 del libro!

Dott. Cazzaniga Paolo Analisi bivariata