45
Matteo Gazzano – Statistica 2013 Statistica Info : Lezioni Lunedì Mercoledì Giovedì 10.30 – 12.30 09.00 – 10.30 09.00 – 10.30 E-mail [email protected] Numero 010.2095093 Ricevimento Mercoledì 10.30-12.30 Lezione del 18/02/13 Introduzione La statistica studia i fenomeni collettivi in due modi principali : Facendo sintesi Analizzando campioni Nel passaggio dal campione alla popolazione si commettono degli errori che non avvengono invece nella sintesi. Questi appartengono alla natura delle procedure di inferenza statistica che si utilizzano nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme di strumenti e di tecniche che permettono di sintetizzare i dati raccolti” La statistica studia delle caratteristiche variabili che possiamo classificare nel seguente modo : Variabili qualitative Nominali Le variabili i cui valori sono completamente sconnessi e delle quali si può solo dire se sono uguali o diverse. Esempio : Il gruppo sanguigno Ordinali Le variabili i cui valori possono essere ordinati dal più piccolo o al più grande etc... Esempio : Il titolo di studio Variabili quantitative Di intervallo Le variabili per le quali lo zero è convenzionale ed è quindi necessario ragionare sugli intervalli. Esempio : Il tempo o la temperatura Di rapporto Le variabili per le quali lo zero non è arbitrario e si può quindi ragionare sui valori. Esempio : Il reddito Tale classificazione è importante perché gli strumenti statistici cambiano in base alle variabili. “Simbolario” X e Y Le variabili a 1 ,a 2 … a c con variabile qualitativa Le modalità della variabile (i valori che la variabile può assumere ) x 1 ,x 2 … x c con variabile quantitativa N Numerosità del collettivo (numero di unità statistiche osservate) 1 - Matteo Gazzano

Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Embed Size (px)

Citation preview

Page 1: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

StatisticaInfo :

Lezioni Lunedì Mercoledì Giovedì

10.30 – 12.3009.00 – 10.3009.00 – 10.30

E-mail [email protected]

Numero 010.2095093

Ricevimento Mercoledì 10.30-12.30

Lezione del 18/02/13

IntroduzioneLa statistica studia i fenomeni collettivi in due modi principali :

– Facendo sintesi– Analizzando campioni

Nel passaggio dal campione alla popolazione si commettono degli errori che non avvengono invece nella sintesi. Questi appartengono alla natura delle procedure di inferenza statistica che si utilizzano nel passaggio. Il fine della statistica è quello di controllare l'errore.

La statistica descrittiva“Per statistica descrittiva si intende l'insieme di strumenti e di tecniche che permettono di

sintetizzare i dati raccolti”La statistica studia delle caratteristiche variabili che possiamo classificare nel seguente modo :

Variabiliqualitative

Nominali Le variabili i cui valori sono completamente sconnessi e delle quali si può solo dire se sono uguali o diverse.Esempio : Il gruppo sanguigno

Ordinali Le variabili i cui valori possono essere ordinati dal più piccolo o al più grande etc...Esempio : Il titolo di studio

Variabiliquantitative

Di intervallo Le variabili per le quali lo zero è convenzionale ed è quindi necessario ragionare sugli intervalli.Esempio : Il tempo o la temperatura

Di rapporto Le variabili per le quali lo zero non è arbitrario e si può quindi ragionare sui valori.Esempio : Il reddito

Tale classificazione è importante perché gli strumenti statistici cambiano in base alle variabili.

“Simbolario”

X e Y Le variabili

a1,a2 … ac

con variabile qualitativaLe modalità della variabile(i valori che la variabile può assumere )

x1,x2 … xc

con variabile quantitativa

N Numerosità del collettivo(numero di unità statistiche osservate)

1 - Matteo Gazzano

Page 2: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Lezione del 20/02/13

Le variabili qualitative (o mutabili)

• Le mutabili su scala nominaleDate N unità osservate, ricavo la successione di valori x1,x2 … xN. Il fine della statistica è quello di sintetizzarli e uno dei modi principali per farlo è quello di contare. Nelle successioni ci saranno infatti dei valori identici perché il numero delle modalità non è mai uguale al numero dei soggetti osservati. Per sintetizzare, si assocerà a ciascuna modalità un numero che indichi quante volte si è presentata nel collettivo : la frequenza assoluta.Esempio :La forma giuridica delle imprese (con N=42 e c=5)

Forma giuridica fi fi/N fi/N x 100

SPA 9 0,2143 21.43 %

SRL 29 0,6905 69,05 %

SNC 2 0,0476 4,76 %

SAS 1 0,0238 2,38 %

SCRL 1 0,0238 2,38 %

42 1 100 %Una caratteristica delle variabili su scala nominale è che l'ordine è irrilevante : anche se viene alterato non vi è perdita di capacità informativa. Dalla tabella emerge che, oltre alla frequenza assoluta, abbiamo utilizzato altri strumenti di sintesi :

– La frequenza relativa fi/N – La frequenza relativa percentuale fi/N x 100

Entrambe indicano quale parte (o percentuale) del collettivo presenta la particolare modalità.

NB :

La somma di tutte le frequenze assolute è sempre uguale a N

∑i=1

c

fi /N =1 /N ∑i=1

c

fi=1

La somma di tutte le frequenze relative è sempre pari a 1La somma di tutte le frequenze relative percentuali è pari a 100

“Se la mutabile è misurata su scala nominale, la distribuzione di frequenza viene chiamataserie statistica”

Graficamente la frequenza assoluta di una variabile su scala nominale è rappresentata attraverso il diagramma a barre.La frequenza relativa viene rappresentata o attraverso il diagramma a barre, cambiando la scala delle ordinate ( da 0 a 1), o attraverso il diagramma a torta, un “cerchio” suddiviso in settori, che corrispondono a ciascuna modalità, di ampiezza proporzionale alla frequenza.

2 - Matteo Gazzano

∑i=1

c

fi=N

Page 3: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

• Le mutabili su scala ordinaleEsempio :I titoli di studio dei capofamiglia

Titolo di studio fi fi/N fi/N x 100 F F/N x 100

Licenza elementare 2218 0,2790 27,90% 2218 27,90%

Licenza media 2773 0,3488 34,88% 4991 62,78%

Maturità 2061 0,2592 25,92% 7052 88,69%

Laurea 899 0,1131 11,31% 7951 100 %

7951 1 100%Una caratteristica delle variabili su scala ordinale è che l'ordine è rilevante : se viene alterato la tabella perde capacità informativa. Attraverso l'esempio introduciamo due nuovi strumenti :

– La frequenza cumulativa F (si calcola come Fi+1 = Fi + fi+1 )– La frequenza cumulativa percentuale F/N x 100

Attraverso queste si può dedurre quante unità statistiche presentano una modalità minore o uguale alla frequenza associata ( fi ).

“Se la mutabile è misurata su scala ordinale, la distribuzione di frequenza viene chiamataserie statistica ordinata”

Le variabili quantitative

• Le variabili su scala di rapportoQueste vanno distinte in :

– Discrete = Se possono assumere un numero finito di valoriEsempio :Le camere delle case in vendita

X fi fi/N

1 36 0,2707

2 55 0,4135

3 28 0,2105

4 12 0,0902

5 2 0,0150

133 1“Se la variabile misurata su scala di rapporto è discreta, la distribuzione di frequenza viene

chiamata seriazione statistica”

– Continue = Se l'insieme dei valori che la variabile può assumere non è numerabileEsempio :L'altezza di soggetti di genere maschile

X fi

150|-|160 2

160-|170 34

170-|180 75

180-|190 41

190-|200 4

3 - Matteo Gazzano

Page 4: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

NB :-| → l'intervallo è chiuso a destra (xi;xi+1]|- → l'intervallo è chiuso a sinistra [xi;xi+1)|-| → l'intervallo è chiuso [xi;xi+1]

In questo caso, indicando le singole modalità perderemmo capacità di sintesi. E' quindi necessario che la distribuzione di frequenza venga fatta su classi di modalità (nell'esempio, invece delle singole altezze usiamo intervalli come 150-160 cm). Questo ha però una conseguenza negativa in termini di perdita di informazione. Ne conviene che intervalli più ampi aumentano la capacità di sintesi ma aumentano anche la perdita di informazione, invece intervalli più piccoli diminuiscono la perdita di informazione ma anche la capacità di sintesi. Si crea quindi un trade-off tra il grado di accuratezza e la capacità di sintesi che può essere risolto solo trovando un compromesso, il giusto equilibrio tra le due esigenze.NB : Questa problematica è tipica delle variabili in questione, per le altre la distribuzione di frequenza non comporta perdite di informazioni (se non a livelli trascurabili).La costruzione delle classi è arbitraria; nell'esempio precedente hanno tutte la stessa ampiezza e questo è utile perché rende le frequenze direttamente confrontabili. Esistono però delle variabili per le quali non è ragionevole fare classi uguali, l'esempio principale è il reddito.Esempio :Reddito in migliaia di €

X fi

Fino a 10 517

10-|20 1935

20-|30 1952

30-|50 2279

50-|75 886

75-|100 226

100-|250 154

Più di 250 4Le classi hanno ampiezza diversa perché :

1) Per la differenza sostanziale in termini di tenore di vita. 10000 € di differenza sono trascurabili tra i redditi alti e determinanti tra i redditi bassi. Usare lo stesso grado di dettaglio è quindi poco importante.

2) Se il numero di unità statistiche per classe è molto basso perdo potere informativo.All'inizio, nonostante l'ampiezza ridotta degli intervalli, le frequenze si mantengono alte. Salendo di reddito però scendono, quindi aumentare il dettaglio oltre a non essermi utile mi fa perdere informazione.

Lezione del 21/02/13Il fatto che le classi abbiano ampiezza diversa comporta che non siano direttamente confrontabili.E' quindi necessario applicare una trasformazione per eliminare “l'effetto di ampiezza della classe”.Questa consisterà nel calcolo della densità di frequenza :∆i = fi /(xi+1-xi)Non si confronteranno quindi le frequenze, ma le densità di frequenza.Utilizzando le densità di frequenza è possibile rappresentare un istogramma:• A ciascuna classe si associa un rettangolo di base pari all'ampiezza di ciascuna classe.• L'altezza è proporzionale alla densità di frequenza ( densità x ampiezza classe=frequenza).

4 - Matteo Gazzano

Page 5: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Gli indici di posizionePer descrivere in modo sintetico le caratteristiche del fenomeno è possibile utilizzare un unico valore : la modalità tipica. Questo passaggio, a differenza della distribuzione di frequenza, comporta però una forte perdita di informazioni. Gli indici principali sono la moda, la mediana e la media.

La modaLa moda rappresenta la modalità prevalente (quella con frequenza maggiore), si può quindi calcolare per ogni variabile :

Forma giuridica fi fi/N fi/N x 100

SPA 9 0,2143 21.43 %

SRL 29 0,6905 69,05 %

SNC 2 0,0476 4,76 %

SAS 1 0,0238 2,38 %

SCRL 1 0,0238 2,38 %Mo(x) = SRL

Titolo di studio fi fi/N fi/N x 100 F F/N x 100

Licenza elementare 2218 0,2790 27,90% 2218 27,90%

Licenza media 2773 0,3488 34,88% 4991 62,78%

Maturità 2061 0,2592 25,92% 7052 88,69%

Laurea 899 0,1131 11,31% 7951 100 %Mo(x) = Licenza media

X fi fi/N

1 36 0,2707

2 55 0,4135

3 28 0,2105

4 12 0,0902

5 2 0,0150Mo(x) = 2

X fi

150|-|160 2

160-|170 34

170-|180 75

180-|190 41

190-|200 4Nelle classi non si parla più di moda, ma di classe modale. Mo(x) = 170-|180

5 - Matteo Gazzano

Page 6: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Differenze sostanziali si presentano però se le classi non hanno grandezza omogenea.In questo caso la classe modale non è quella a cui appartiene la frequenza assoluta maggiore, ma quella con la densità di frequenza maggiore.

X fi ∆i

Fino a 10 517 0,0517

10-|20 1935 0,1935

20-|30 1952 0,1952

30-|50 2279 0,1139

50-|75 886 0,0354

75-|100 226 0,0090

100-|250 154 0,0010

Più di 250 4 0,0000Mo(x) = 20-|30

La medianaLa mediana è il valore che sta nel mezzo, quello che divide in due parti uguali il collettivo. Si può calcolare per le mutabili ordinali e le variabili quantitative, ma non per le variabili su scala nominale perché è necessario un ordinamento.

Titolo di studio fi fi/N fi/N x 100 F F/N x 100

Licenza elementare 2218 0,2790 27,90% 2218 27,90%

Licenza media 2773 0,3488 34,88% 4991 62,78%

Maturità 2061 0,2592 25,92% 7052 88,69%

Laurea 899 0,1131 11,31% 7951 100 %Me(x) = Licenza media

X fi fi/N

1 36 0,2707

2 55 0,4135

3 28 0,2105

4 12 0,0902

5 2 0,0150Me(x) = 2

X fi

150|-|160 2

160-|170 34

170-|180 75

180-|190 41

190-|200 4Nelle classi non si parla più di moda, ma di classe mediana. Me(x) = 170-|180

6 - Matteo Gazzano

Page 7: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Il discorso è analogo nelle successioni di valori.Esempio :

1) A C B C D A A D CN è dispari quindi la mediana è C Me(x) = C

2) A C B B C D A A D CN è pari e quindi la mediana sarebbe rappresentata dalla coppia di valori che sta nel mezzoMe(x) = CMe(x) = B

Questo vale anche per le distribuzioni di frequenza : se N è pari bisogna prendere i valori N/2 eSe N è dispari la mediana è unica e corrisponde al valore di posizione (N+1)/2.NB : La mediana è un indice resistente alla presenza di valori anomali. Può succedere che sulle code della distribuzione si presentino valori molto piccoli o molto grandi, ma in ogni

caso la mediana non ne risente.

QuartiliLa mediana è un valore che divide in parti uguali il collettivo (50%-50%), si possono considerare anche valori che dividono il collettivo in parti non uguali, ad esempio il quartile : Q1 → lascia a sinistra del collettivo il 25% delle osservazioni e a destra il 75%. Q2 → è la medianaQ3 → lascia a destra del collettivo il 25% delle osservazioni e a sinistra il 75%.

Le medieVogliamo calcolare un indice che rispetti la proprietà per cui la somma degli scarti da esso sia zero. Considerando solo variabili quantitative, indichiamo lo scarto con (x i – I) e facciamo

∑i=1

c

( xi – I ) fi=0 . Sviluppandolo otteniamo arrivando alla formula

della media

Caratteristiche :1) La media nelle successioni dei valori osservati :

2) La media è un indice non resistente ed è possibile irrobustirla utilizzando la media α-trimetrica che consiste in una media in cui vengono tagliate le code della distribuzione

3) La media ponderata

A ciascuna variabile associo un peso (Wi) e successivamente dividoper la somma complessiva dei pesi

7 - Matteo Gazzano

N2

+1

I= 1N∑i=1

c

xifi=μ

μ=∑i=1

N

xi / N

∑i=1

c

xifi=I ∑i=1

c

fi

μp=∑i=1

N

xi⋅W i

∑i=1

N

W i

Page 8: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Lezione del 25/02/13

La media aritmetica“La media aritmetica è la somma dei valori osservati divisi per la loro numerosità”

In formule :

Le proprietà principali tre :1) Dato il principio di internalità, come tutti gli altri indici di posizione, è compresa tra un

valore massimo e un minimo.

2) La somma degli scarti dalla media è uguale a zero. ∑i=1

c

( xi – μ) fi=0

Ne consegue che la media è la quantità che equiripartisce il carattere studiato. Ciò lo si può dimostrare prendendo in esempio un carattere trasferibile come il reddito : se associo a ciascun soggetto il reddito medio mi accorgo che il reddito complessivo rimane invariato.

3) La media è un operatore lineare (o equivariante per trasformazioni lineari).

Infatti datox → y = a+bxse calcolo la media di yμ(y) = a+bμ(x)invece se costruisco una nuova variabile y tale che y=x2

μ(y) ≠ [μ(x)]2

perché l'equivalenza vale solo per le trasformazioni lineari. NB: Moltiplicare i valori di una variabile per una costante significa effettuare un cambiamento di scala (bx). Sommare una costante ad una variabile significa traslarne i valori, cioè cambiare l'origine.

4) La media aritmetica è il valore che rende minima la somma degli scarti.Dimostrazione :Data ∑ ( xi− I )2 fi=0 qual'è il valore di I che minimizza questa quantità ?- Aggiungiamo e sottraiamo la media ∑ ( xi – μ+μ− I )2 fi=0- Sviluppiamo il quadrato ∑ ( xi – μ)2+∑ (μ−I )2 fi+2∑ (xi – μ)(μ− I ) fi=0- Semplifichiamo ∑ ( xi – μ)2+N (μ− I )2+2(μ− I )∑ ( xi – μ) fi=0- Dato che ∑ ( xi – μ) fi è uguale a zero allora ∑ ( xi – μ)2+N (μ− I )2+0=0- Il valore minimo di questa quantità lo abbiamo ponendo I=μ, quindi :

∑ ( xi – μ)2=0

8 - Matteo Gazzano

1N∑i=1

c

xifi=μ

∑i=1

c

xifi=Nμ

Page 9: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

La media nelle distribuzioni di frequenza asimmetrichePrendiamo l'esempio del reddito :

X fi

Fino a 10 517

10-|20 1935

20-|30 1952

30-|50 2279

50-|75 886

75-|100 226

100-|250 154

Più di 250 4In questo caso, data la perdita di informazioni dovuta alla particolare distribuzione di frequenza, non è possibile calcolare la media esatta. Per individuare una valore approssimativo, si ipotizza che vi sia equidistribuzione all'interno degli intervalli e si sceglie una modalità rappresentativa della classe :

X fi

5 517

15 1935

15 1952

40 2279

62,5 886

87,5 226

17,5 154

37,5 4Calcoliamo quindi la media come :

μ=(5000x517)+(15000x1935)+(25000x1952)+(40000x2277)+(62500x886)+(87500x226)

In conclusione abbiamo μ=34598,164 e Me = 27804.E' evidente la rilevante differenza tra media e mediana; differenza che dipende dalla natura della distribuzione di frequenza e che emerge confrontando i rispettivi grafici :

Distribuzione simmetrica Distribuzione asimmetrica

9 - Matteo Gazzano

+(17500x154)+(375000x4) x1

7951=34598,164

Page 10: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Da questi emerge che la media e la mediana tendono a coincidere tanto più la distribuzione è simmetrica e quindi a divergere tanto la più distribuzione è asimmetrica. Nel nostro caso μ>Me perché i valori sulla coda (come i 4 soggetti con un reddito superiore ai 250.000 €) la tirano verso l'alto. Questo non ha effetto sulla mediana perché, al contrario della media, è un indice resistente.Nelle statistiche, per tutti questi motivi, il reddito tende ad essere sovrastimato ed è quindi preferibile usare la mediana rispetto alla media.

La media di Chisini“Data una funzione G(x1,x2, … , xn) definisco media secondo Chisini

la quantità I per la quale G(x1,x2, … , xn) = G(I,I, … , I)”Dato che , la media aritmetica rispetta il principio di Chisini quando G è la somma

dei valori osservati. A partire da tale funzione possiamo calcolare anche altre medie.

La media geometricaEsempio : Supponiamo di avere un capitale iniziale pari a 100 che investo per 6 anni. Capitale xi Rendimento ri Anno

100 // 0

101,5 1,5% 1

103,53 2% 2

110,98 7,2% 3

120,97 9% 4

129,92 7,4% 5

137,77 4,5% 6Qual'è il rendimento medio ?Potremmo calcolare questo valore con la media aritmetica :

μ(ri)=∑ ri

6=5,27

Ma per ottenere un valore medio che lasci invariato il capitale finale è necessario un calcolo diverso

100(1+r1)(1+r2) ...(1+r6 )=100∏i=1

6

(1+ri)

[1+I (r)]6=∏i=1

6

(1+ri)

Questo valore consiste nella media geometrica, ovvero la radice ennesima del prodotto dei valori osservati. Come si osserva dall'esempio è sempre ≤ della media aritmetica.

“La media geometrica è la quantità che lascia invariato il prodotto dei valori osservati”

Si calcola generalmente su variabili positive anche perché tipicamente si usa una formula più semplice basata sui logaritmi :

(l'esponenziale della media aritmetica dei logaritmi)

10 - Matteo Gazzano

∑ xifi=Nμ

1+ I (r)=6√∏ (1+ri )

I (r)=6√∏ (1+ri)−1

I (r)=6 √(1,015 x1,02 x1 ,072 x1 ,09 x1 ,074 x1 ,045)−1=5,23

Mg=n√∏ xi fi

Mg=esp [ 1N∑ ( log xi ) fi ]

Page 11: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

La media armonicaEsempio : Supponiamo di avere un prodotto del quale si ha rilevato il prezzo e la quantità venduta in quattro negozi diversi.Prezzo Pi Quantità

venduta Si

1,7 17

1,6 19,2

2 20

1,4 19,6Qual'è il prezzo medio ?La media aritmetica di Pi non tiene conto del fatto che in alcun supermercato si sia venduto di più o di meno. Noi vogliamo calcolare una media che lasci invariata la quantità venduta ∑qi (con qi=si/pi)

e quindi ∑ qi=∑ ( sipi

)=∑ ( siI)

Questa è la media armonica ponderata dei prezzi che, come la geometrica, è sempre inferiore rispetto alla media aritmetica. La formula generale è :

Le medie potenziateA partire dal momento di ordine K

posso definire

• Se K= 1 sto calcolando la media aritmetica• Se K= -1 sto calcolando la media armonica• Se K= 0 sto calcolando la media geometrica• Se K= 2 sto calcolando la media quadratica

NB : per ogni valore scelto, si ha una media ponderata diversa

Lezione del 27/02/13La variabilitàLa sintesi dell'informazione che facciamo con la media comporta la perdita di una grande quantità del contenuto informativo originario. In particolare si perdono informazioni circa la variabilità (o mutabilità se la variabili è qualitativa), ovvero la tendenza di un fenomeno a manifestarsi in una pluralità di modi. Per misurarla si utilizzano delle misure di dispersione che quantificano il grado di variabilità effettivamente osservato nel collettivo.La dispersione può essere distinta in :

– Assoluta → Si valuta il grado di dispersione sulla base delle differenze tra le singole manifestazioni del fenomeno

– Relativa → Si valuta il grado di dispersione confrontando i valori osservati con un termine di riferimento (ad esempio la media)

11 - Matteo Gazzano

I= ∑ si

∑ ( sipi

)=1,6478

μk (x)= 1N∑ xik fi

media potenziata di ordine k=k √ μr (x)

Ma= N

∑ ( fixi

)

Page 12: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Caratteristiche degli indici di dispersione1) Un indice di dispersione D è tipicamente non negativo D ≥ 02) Gli indici di dispersione assumono valori all'interno di un intervallo di estremi Dmax e Dmin

Dmax rappresenta la variabilità massimaDmin rappresenta la variabilità minima (se non c'è variabilità è uguale a zero)Avere Dmax e Dmin è fondamentale per poter calcolare l'indice normalizzato D'

con 0≤ D' ≤1

La possibilità di calcolare D' è importante a fini di confronto e interpretazione dell'indice.

La dispersione relativa Forma giuridica fi fi con Dmax fi con Dmin

SPA 9 8 0

SRL 29 10 42

SNC 2 8 0

SAS 1 8 0

SCRL 1 8 0

42 42 42Guardando le frequenze si capisce ad occhio che la dispersione è bassa.Proviamo allora ad immaginare la distribuzione di massima e minima dispersione :

– fi con Dmax → La distribuzione di massima dispersione richiederebbe che le frequenze siano equi-distribuite sulle modalità. Facciamo quindi N/C = 42/5 = 8,4 e siccome parliamo di imprese (non avrebbe senso una frequenza decimale!) arrotondiamo ad 8. Siccome a SRL è necessario associare la frequenza modale, gli associamo il valore (N/C) + 1 = 9,4 che arrotondiamo a 10. Abbiamo così ottenuto, mantenendo N=42, la distribuzione di frequenza con la massima dispersione possibile (vedi tabella in alto).

– fi con Dmin → La distribuzione di minima dispersione richiede che le frequenze siano concentrate sulla variabile modale. Portiamo quindi a 0 tutte le frequenza tranne quelle della modalità SRL che incrementiamo a 42. Abbiamo così ottenuto, mantenendo N=42, la distribuzione di frequenza con la minima dispersione possibile (vedi tabella in alto).

La dispersione relativa la calcoliamo con :

che nel nostro caso è

Ne consegue che il 31% delle unità osservate sono diverse dalla moda. Questo 0,31 di per se non ci da molte informazioni, occorre quindi calcolare δmax e δmin sulle distribuzioni di massima e minima dispersione fatte in precedenza :

Grazie a questi posso calcolare l'indice normalizzato :

Questo 0,41 mi permette di capire che la dispersione è più vicina a 0 che ad 1 e quindi che la variabile è poco dispersa (come avevamo intuito inizialmente ad occhio). L'indice di dispersione relativa δ è calcolabile per ogni variabile ma, se possibile, è preferibile utilizzare l'indice di Gini.

12 - Matteo Gazzano

D' =(D−Dmin)

(Dmax−Dmin)

δ=(42−29)

42=0,31

δ=(N − fmo)

N

δmin=(42−42)

42=0 δmax=

(42−10)42

=0,76

δ '=(δ−δmin)

(δmax−δmin)=

(0,31−0)(0,76−0)

=0,41

Page 13: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

La dispersione assolutaLa dispersione assoluta si calcola con l'indice di eterogeneità di Gini

che si può anche trovare espresso come

Anche in questo caso sono fondamentali i valori di massima e minima dispersione :– γ min = 0– γ max =

Ritornando al nostro esempio, per calcolare γ è necessario introdurre delle nuove colonne :Forma giuridica fi fi/N 1 - fi/N fi/N(1 - fi/N)

SPA 9 0,2143 0,7857 0,1684

SRL 29 0,6905 0,3095 0,2137

SNC 2 0,0476 0,9504 0,0454

SAS 1 0,0238 0,9762 0,0232

SCRL 1 0,0238 0,9762 0,0232Grazie a queste il calcolo diventa piuttosto veloce e posso determinare γ = 0,4739Tuttavia è evidente quanto sia conveniente utilizzare la formula alternativa (è più veloce perché richiede solo la colonna fi/N).Anche in questo caso, per una migliore comprensione del risultato, è necessario calcolare l'indice normalizzato NB : γ max =1 – (1/c) =1-(1/5) =0,8

Notiamo subito che l'indice di dispersione assoluta (0,59) è maggiore dell'indice di dispersione relativa (0,41). Questo è dovuto al fatto che il primo è più completo rispetto al secondo perché questo teneva conto solo della moda trascurando la distribuzione sulle altre modalità.Ne consegue che, su dati di questo tipo, si preferisce generalmente l'indice di dispersione assoluta.

Corrispondente all'indice di Gini è “l'entropia” o indice di Shannon.Questo è poco rilevante e utilizzato soprattutto nell'informatica. Ci limitiamo quindi alle formule :

ψmin = 0ψmax = ln(c)

Utilizzandole nel nostro esempio individuano i risultati ψ = 0,908 e ψ' = 0,56 che dimostrano le affinità con l'indice di Gini.

La dispersione sulle variabili quantitativeLa variabilità assolutaSulla misura assoluta della dispersione diciamo poco perché non è molto utilizzata. E' basata sulla differenza tra due valori |(xi -xj)| che mi dice quanto sono lontane tra loro le osservazioni. Questa la posso calcolare per qualsiasi coppia di osservazioni andando poi a formulare gli indici di dispersione assoluta.

La variabilità relativaLa misura relativa della dispersione è invece fondamentale e ha come termine di confronto la media aritmetica. Si prende quindi il valore dell'osservazioni e si calcola la distanza dalla media x i-μ. Costruiamo in pratica tutti gli scarti e poi li sintetizziamo. Ovviamente se facessimo la sintesi con la media otterremmo sempre zero (la media degli scarti è sempre zero) quindi, per utilizzarla occorre elevare gli scarti al quadrato.

13 - Matteo Gazzano

γ=∑i=1

c

( fiN

)(1− fiN

) γ=1−∑ ( fiN

)2

1−(1c)

γ ' =(γ−γmin)

(γmax−γmin)=

(0,4739−0)(0,8−0)

=0,5924

ψ=−∑ ( fiN

) ln ( fiN

)

Page 14: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Otteniamo così la formula della devianza :

∑ ( xi – μ)2 fiQuesta ha però un grave difetto : dipende dalla numerosità del collettivo.A partite dalla devianza si può però calcolare un altro indice, la varianza :

σ2= 1N∑ ( xi – μ)2 fi

Dividendo per N abbiamo eliminato il difetto della numerosità del collettivo. Ora però è sorto un problema relativo alle unità di misura, infatti la varianza genera un risultato in cui l'unità di misura è al quadrato e questo comporta delle complicazioni (nel caso del reddito verrebbe €2 !).Per ovviare a tale problema introduciamo un ultimo indice, lo scarto quadratico medio :

σ=√ 1N∑ (xi – μ)2 fi

Questo, detto anche “standard deviaton”, rappresenta la media quadratica (NB : quadratica e non aritmetica!) degli scarti ed è l'indice di dispersione relativa più importante.

ProprietàAnche questi sono indici non negativi. Le loro proprietà più importanti sono :

1) “La varianza è uguale al momento di ordine due meno la media al quadrato”

Data la formula della varianza σ 2= 1N∑ ( xi – μ)2 fi sviluppo il quadrato

e ottengo :

A questo punto mi accorgo che è il momento di ordine 2 (μ2) e che

semplificando e

Quindi Questo è un risultato fondamentale perché ci permette di calcolare la varianza come

e lo scarto quadratico medio come

E' quindi una proprietà che ha la funzione pratica di diminuire la complessità del calcolo.

2) Dato y=a+bxla varianza è invariante per traslazioni

σ 2(a+bx)=b2 σ 2( x)invece lo scarto quadratico medio risente (è equivariante) del cambiamento di scala

σ (a+bx)=∣b∣σ ( x)Quindi lo scarto quadratico non varia per dispersione (se si somma una costante si ha una traslazione in cui tutti i valori si spostano in un senso ma la forma dell'istogramma non cambia), ma risente dei cambiamenti di scala (moltiplicando per una costante, si moltiplica tutto lo scarto).

14 - Matteo Gazzano

1N∑ xi2 fi+ 1

N∑ μ2 fi− 2

N∑ μ xi fi

1N∑ xi2 fi

1N∑ μ2 fi= μ2 2

N∑ μ xi fi=2μ2

1N∑ xi2 fi+ 1

N∑ μ2 fi− 2

N∑ μ xi fi=μ2+μ2−2μ2= μ2−μ2

σ2=μ2−μ2σ=√ μ2−μ2

Page 15: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Lezione del 28/02/13Il calcolo della varianzaPrendiamo l'esempio delle case in vendita (inserendo le colonne utili a calcolare la varianza) :

X fi xi-μ (xi-μ)2 (xi-μ)2fi xi2 xi

2fi

1 36 -1,16 1,3456 48,4416 1 36

2 55 -0,16 0,00256 1,408 4 220

3 28 0,84 0,7056 19,7568 9 252

4 12 1,84 3,3856 40,6272 16 192

5 2 2,84 8,0656 32,2624 25 100

133 126,3609 750Abbiamo già calcolato la μ=2,16 Proviamo a calcolare quindi la varianza, nei due metodi che conosciamo :

1) Formula classica → σ2= 1N∑ ( xi – μ)2 fi=126,3609

133=0,95

2) Formula alternativa →

NB : E' evidente come il secondo metodo sia più rapido e meno esposto ad errori di calcolo e approssimazione.

La normalizzazione dell'indiceSe voglio confrontare il grado di variabilità, ho bisogno di un indice normalizzato perché è necessario che il numero sia adimensionale (non abbia unità di misura). Inoltre, anche nel caso in cui le unità di misura siano le stesse, potrebbero comunque sorgere delle problematiche.Ad esempio confrontando il peso delle madri e dei figli neonati. Ipotizzando infatti che la μ delle madri sia 65 kg e quella dei bambini 3kg, ci accorgiamo subito che 1kg è una differenza trascurabile nel primo caso e determinante nel secondo. Ho quindi bisogno di un indice che tenga conto dell'intensità media e che renda confrontabili gli scarti (in kg per le madri e in grammi per i bambini), le possibilità sono due :

1) Il coefficiente di variazione (o RSD deviazione standard relativa)

CV= σ∣μ∣

N.B. Essendo un indice di dispersione è sempre >0.E' possibile confrontare misure di dispersione riferite a distribuzioni di intensità disomogenee trasformando ogni variabile X in una nuova variabile Y: y = x\ μ c'è equivarianza per cambiamenti di scala (lo scarto quadratico medio di una variabile relativizzata alla media)

2) La normalizzazioneσ2

min → Rappresenta la situazione nella quale tutte le unità sono uguali a zero e quindi lo sono anche gli scarti. Di conseguenza σ2

min = 0. σ2

max → La situazione di massima dispersione è quella nella quale le osservazioni sono polarizzate. Nel ridistribuire le frequenze devo però lasciare invariata la media, dovrò quindi trovare il valore di f* per il quale μ rimane invariata.

15 - Matteo Gazzano

σ 2=μ2−μ2=750133

−(2,16)2=0,95

Page 16: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Nel nostro esempio :X fi Fi con σmax

1 36 f*

2 55

3 28

4 12

5 2 N-f*

133 f* lo calcolo come

[1f '+5(N − f ' )]N

= μ

In realtà c'è però una formula generale che mi da immediatamente il valore σmax

σmax=√ μ( x1+xc )−x1 x c−μ2

Nel nostro caso √2,16(1+5)−1∗5−(2,16)2=1,81

Quindi σ '= σσmax

=0,971,81

=0,54 che corrisponde ad una variabilità media.

La concentrazioneIl concetto di concentrazione riguarda i caratteri trasferibili (quelli che possono essere scambiati tra diverse unità statistiche, come ad esempio il reddito). L'obiettivo è quello di costruire una misura di questa caratteristica che, come si può vedere (il reddito non è concentrato quando è equidistribuito), è strettamente collegata alla variabilità.Esempio :I dati osservati dall'Auditel sugli ascolti (in milioni di telespettatori)

Canali Telespettatori

RAI 1 9

RAI 2 3

RAI 3 2

Rete4 7

Canale5 3

Italia1 2

La7 1

Altro 1

28Da questi dati osservati possiamo costruire la distribuzione di frequenza :X fi f/N F/N Xfi di Di

1 2 0,25 0,25 2 2 0,071

2 2 0,25 0,50 4 6 0,214

3 2 0,25 0,75 6 12 0,429

7 1 0,125 0,875 7 19 0,679

9 1 0,125 1 9 28 1

16 - Matteo Gazzano

Page 17: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

E' evidente che gli spettatori si concentrano su alcune reti, la situazione di equidistribuzione la si avrebbe se i 28 milioni fossero distribuiti equamente sui canali.Alla solita tabella aggiungiamo la colonna Xf i (l'intensità complessiva del carattere all'interno di ciascun gruppo), di (la cumulata dei valori) e Di (data da di/N). Le più rilevanti sono la prima e l'ultima, infatti grazie ad esse si deduce che il 25% dei canali più piccoli possiedono il 7% degli spettatori, il 50% possiede il 21%, il 75% il 43% etc.Se i telespettatori fossero equidistribuiti F/N sarebbe uguale a Di, invece questa è sempre più piccola di F/N. Per sintetizzare questo confronto è possibile utilizzare il diagramma di Lorentz:La bisettrice rappresenta la situazione di perfetta equidistribuzione, la realtà la vediamo però con la spezzata di concentrazione. L'area tra la bisettrice di equidistribuzione e la spezzata è detta area di concentrazione. Tanto più il numero di telespettatori è concentrato, tanto più grande sarà l'area ( perché la curva si abbassa).

Lezione del 04/03/13NB : La spezzata di concentrazione ha concavità verso l'alto. Non può essere diversamente perché a incrementi costanti sulla X coincidono incrementi necessariamente crescenti sulla Y.

Il calcolo dell'area

Abbiamo detto che l'area tra la bisettrice di equidistribuzione e la spezzata è detta area di concentrazione.Questa la calcolo come la differenza tra l'area del triangolo (quello azzurro) e l'area dei trapezi formati tra la

spezzata e l'asse delle ascisse (i cinque trapezi colorati a destra). In formule :

Nel nostro caso (premesso che poi si divide tutto per due) :• L'area del triangolo giallo si calcola moltiplicando l'altezza Di=0,071 per la base F/N = 0,25• L'area del trapezio rosso si calcola sommando la base maggiore Di = 0,214 e la base minore

Di=0,071 e moltiplicando per l'altezza F/N = 0,25e cose via, fino ad ottenere la seguente formula....

17 - Matteo Gazzano

A= 12− 1

2∑ (Di+Di−1)

fiN

A=12− 1

2(0,071⋅0,25)+(0,214+0,071)⋅0,25+(0,429+0,214)⋅0,25

+(0,429+0,214)⋅0,25+(0,769+0,429)⋅0,125+(1+0,679)⋅0,125=0,41

Page 18: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Questo 0,41 rappresenta però una misura di concentrazione assoluta, quindi il valore è difficilmente valutabile. E' quindi necessario calcolare Amax che coincide con il caso in cui tutti i telespettatori guardano lo stesso canale (in pratica sette canali hanno Di=0 e un canale ha Di=1).Di rimane quindi uguale a zero fino a che F/N non assume valore pari 0,875.Ne consegue che

Amax=( 12)⋅( 7

8)=0,4375

A questo punto possiamo calcolare l'indice di rapporto di concentrazione (indice di Gini). La cui formula generale è :

R= AAmax

che nel nostro caso fa 0,938.

Siamo quindi in una situazione in cui il carattere è fortemente concentrato.Riassumendo, le formule generali principali sono queste :

Gli indici di simmetriaUna caratteristica che non abbiamo trattatoè quella della simmetria o asimmetria delladistribuzione. Questa può infatti essere :

• Asimmetrica positivamente =La distribuzione ha una coda lungasui valori elevati ed è troncata suivalori valori bassi

• Asimmetrica negativamente =La distribuzione ha una coda lungasui valori bassi ed è troncata suivalori valori alti

• Simmetrica =Il caso classico della distribuzionegaussiana.

La simmetria della distribuzione è una caratteristica rilevante. Infatti se la distribuzione è asimmetrica la media non funziona molto bene ed il suo valore differisce da quello della mediana. Se invece la distribuzione è simmetrica la media funziona correttamente e tende a coincidere con la mediana.

Questa importante caratteristica si calcola attraverso gli indici di simmetria (come l'indice di Pearson) che si basano sui momenti terzi.

18 - Matteo Gazzano

A= 12− 1

2∑ (Di+Di−1)

fiN

Amax=(N −1)

2N

R= AAmax

Page 19: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

La curtosiLa curtosi è una caratteristica relativa alla forma della distribuzione che misura il grado di appiattimento nella parte centrale.

III = Distribuzione Gaussiana o normocurticaIII = Distribuzione LeptocurticaIII = Distribuzione Platicurtica

Per descrivere le caratteristiche si confrontano con la distribuzione gaussiana : la leptocurtica ha le code più alte ed è più appuntita al centro, mentre la platicurtica ha le code più basse ed più piatta al centro. Questa importante caratteristica

si calcola attraverso gli indici di curtosi che si basano sui momenti quarti.

Statistica descrittiva a più variabiliLa distribuzione congiunta di frequenza assolutaCi occupiamo ora delle situazioni in cui è necessario considerare contemporaneamente più di una variabile. Ad esempio nel caso in cui volessimo osservare il rapporto tra il titolo di studio dei padri e quello dei figli. Per questa analisi dovremmo costruire una tabella a doppia entrata :

Figlio

Padre

Licenzaelementare

Licenzamedia

Maturità Laurea Distribuzione difrequenza marginale

Licenza elementare 86 498 371 47 1002

Licenza media 3 80 174 45 302

Maturità 2 6 92 48 148

Laurea 0 5 23 35 63

Distribuzione di frequenza marginale

91 589 660 175 1515

Questa rappresenta la distribuzione congiunta di frequenza assoluta. Molto importanti sono la colonna e la riga di distribuzione di frequenza marginale che ci dicono com'è distribuito il carattere senza tener conto, rispettivamente, del titolo di studio dei figli e dei padri.

Dividendo per 1515 possiamo costruire la distribuzione congiunta di frequenza relativa :LE LM M L

5,68 32,87 24,49 3,1 66,14

0,2 5,28 4,48 2,97 19,93

0,13 0,4 6,07 3,17 9,77

0 0,33 1,52 2,31 4,16

6,01 38,88 43,56 11,55

Osservazione:– Nei genitori c'è una forte prevalenza di titoli di studio bassi– Sui figli c'è uno spostamento verso i titoli di studio più alti

19 - Matteo Gazzano

Page 20: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Le distribuzioni condizionatePer farle posso ad esempio prendere le famiglie nelle quali il titolo di studio del padre è la licenza elementare. In questo modo posso vedere qual'è la distribuzione del titolo di studio del figlio nel caso in cui il padre abbia la licenza elementare. Ovviamente posso farlo per tutti i casi e anche al contrario. Queste particolari distribuzioni sono fondamentali per capire l'effetto di classe sociale tra le diverse generazioni.

Lezione del 06/03/13Figlio

Padre

Licenzaelementare

Licenzamedia

Maturità Laurea Distribuzione difrequenza marginale

Licenza elementare 86 498 371 47 1002

Licenza media 3 80 174 45 302

Maturità 2 6 92 48 148

Laurea 0 5 23 35 63

Distribuzione di frequenza marginale

91 589 660 175 1515

Si consideri la tabella a doppia entrata sui titoli di studio del padre e del figlio, questa fornisce le frequenze congiunte assolute. Per ottenere le frequenze relative si dividono quelle assolute per il numero totale di unità osservate (nel nostro caso 1515). Esempio :91/1515 = 6,01Se si considera solo il titolo del figlio la modalità licenza elementare compare solo il 6.01% delle volte.

CondizionamentoDati due caratteri, possiamo osservare come, fissato un "sottoinsieme" di un carattere, si ridistribuisce l'altro. Nel nostro caso possiamo ottenere quattro distribuzioni condizionate considerando il titolo del padre e osservando come si distribuisce il titolo del figlio.Posso, ad esempio, osservare la distribuzione del titolo di studio del figlio nel caso in cui il padre abbia la licenza elementare. La distribuzione si valuterà restringendo il collettivo in base alle frequenze marginali (ogni frequenza della riga va divisa per il valore marginale). Nel nostro caso 86/1002 =8,58 e così via... Fino ad ottenere la tabella seguente :

Lic. Elem. Lic. Media Mat. Laurea

Lic. Elem. 8.58% 49.70 37.03 4.69 100%

Lic. Media 0.99 26.49 57.62 14.90 100%

Maturità 1.35 4.05 62.16 32.43 100%

Laurea 0.00 7.94 36.51 55.56 100%

6.01 38.88 43.56 11.55

La distribuzione marginale di colonna sarà sempre 100%, mentre la distribuzione marginale di riga avrà valori diversi indicanti la distribuzione del titolo del figlio indipendentemente da quello del padre.

20 - Matteo Gazzano

Page 21: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

L'indipendenza stocasticaI dati in tabella permettono di capire se in Italia l'ascensore sociale (processo che consente e agevola il cambiamento di stato sociale) funziona o meno. Si parla di ascensore perfetto (cioè che funziona) quando tutte le distribuzioni condizionate sono uguali tra loro e uguali anche alla frequenza marginale (cioè se tutte le quattro righe della tavola presentano valori perfettamente uguali). Ciò significa che l'accesso ai diversi livelli di studio è garantito per tutti e quindi che il titolo del padre e il titolo del figlio sono indipendenti. Questa situazione prende il nome di indipendenza stocastica.Se c'è indipendenza stocastica le variabili si dicono indipendenti, in caso contrario si dice che c'è connessione tra le variabili. Nel nostro esempio tra le due variabili c'è una forte connessione, infatti se si considerano i padri laureati, si nota che circa il 50% dei figli lo sono pure. Misurando quanto le due variabili sono connesse si ha il grado di mobilità sociale.Questa tavola rappresenta la distribuzione condizionata del padre rispetto al titolo di studio del figlio (è il contrario di quella verde).

L. E. L. M. M. L

L. E. 94.51 84.55 56.21 26.86 66.14

L. M. 3.36 13.58 26.36 25.71 19.93

M 2.20 1.02 13.94 27.43 9.77

L 0.00 0.85 3.48 20.00 4.16

100% 100% 100% 100%

In questo caso osserviamo dalla tabella di origine che le famiglie in cui il figlio possiede la licenza elementare sono 91 e di queste il 94,51% hanno anche il padre con stesso titolo.N.B. Le frequenze non sommano perfettamente a 100 per via degli arrotondamenti.Possiamo dedurre che se il figlio possiede la licenza elementare, quasi sicuramente l'avrà anche il padre, ciò significa che le distribuzioni sono condizionate e tra le due variabili c'è connessione.N.B. La connessione è una forma di interdipendenza, è una relazione simmetrica.

GeneralizzazioneConsiderate due variabili x e y. x assume i valori x1,x2,.., xi,...xr , con r pari al numero totale dei valori che la variabile può assumere N.B. Il pedice indica anche il numero della rigay assume i valori y1,y2,...,yj,...,yc con c pari al numero di modalità che può assumere la variabileN.B. Il pedice indica il numero della colonnaLa dimensione della tavola è r∙c.

X/Y Y1 Y2 ... Yj ... Yc

X1 f11 f12 f1j f1c f1+

X2 f21 f22 f2j f2c f2+

...

Xi fi1 fi2 fij fic fi+

...

Xr fr1 fr2 frj frc fr+

f+1 f+2 f+j f+c N

21 - Matteo Gazzano

Page 22: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Ricorda :- N è il numero totale delle osservazioni- fij è la generica frequenza congiunta associata alla i-esima riga e j-esima colonna- L'insieme dei (xi,yj,fij) individuano la distribuzione della frequenza congiunta assoluta associando a ciascuna frequenza la corrispondente coppia di valori xi yj-La distribuzione di frequenza marginale assoluta rispetto alla variabile y è (y j,f+j)- Le frequenze marginali relative si ottengono facendo f+i/N

Le frequenze marginali relative :

- per la variabile x (marginalizzazione rispetto alla colonna): fi+ = ∑j

f ij

- per la variabile y (marginalizzazione rispetto alla riga): f+j = ∑i

f ij

Definizione delle distribuzioni condizionate

• Distribuzione condizionata per riga (y condizionato a x=x i)

f(y|x=xi) = f ij / fi+

• Distribuzione condizionata per colonna ( x condizionata a y=y j)f(x|y=yj) = fij / f+j

L'indipendenza stocastica sulla base della distribuzione condizionata si ha quando tutte le distribuzioni condizionate sono uguali tra loro e pari alla distribuzione marginale corrispondente.La formula può essere espressa attraverso la condizione fij/fi+= f+j/ N con ∀i,jPoiché si tratta di una relazione simmetrica, considerando le distribuzioni per colonna, l'indipendenza stocastica è data da: fij\ fi+ = fi+\ NSe si considerano le frequenze condizionate di colonna e le si eguagliano alle rispettive frequenze marginali, si ha:fij / f+j = fi+\ N si ricava che: f ij / fi+ = f+j\ Ndalla relazione emerge che due variabili sono stocasticamente indipendenti se x è indipendente da y e per simmetria y lo è da x.

Lezione del 07/03/13Il grado di connessioneDue variabili si dicono connesse se non sono indipendenti stocasticamente.

Dalla relazionef ij

f + j

=f +i

N(∀i , j) è possibile ricavare le frequenze attese f ij=

( f +i f + j)N

che

dovrei rilevare per avere indipendenza stocastica. Per valutare il grado di connessione tra le variabili possiamo ragionare in termini di contingenze

C ij= f ij− f ij

Queste possono assumere qualsiasi valore. Se sono tutte uguali a zero allora f ij= f ij e questo vuol dire che siamo in una situazione di indipendenza stocastica. Ma se così non è avremmo sicuramente valori positivi e negativi. Infatti :

∑i∑

j

C ij=∑i∑

j

f ij−∑i∑

j

f ij=N −N =0

in alcune celle f ij> f ij e in altre f ij< f ij

Ciò che ci interessa è però il valore assoluto delle contingenze :– Se questi valori sono piccoli → il grado di connessione è basso– Se questi valori sono grandi → il grado di connessione è alto

Più lo scostamento è rilevante, più il grado di connessione tra le variabili è elevato.

22 - Matteo Gazzano

Page 23: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

L'indice che misura la connessione è l'indice di Pizzetti-Pearson :

χ 2=∑i∑

j

(C ij

2

f ij

)=∑∑ [( f ij− f ij)

2

f ij

]

χ2 è una somma di quadrati, può quindi assumere solo valori ≥ 0.

La normalizzazione• χ2

min = 0

E' il caso di indipendenza stocastica C ij=0(∀i , j)• Per trovare χ2

max facciamo un esempio :

Dalla tabella delle frequenze congiunte assolute :Figlio

Padre

Licenzaelementare

Licenzamedia

Maturità Laurea Distribuzione difrequenza marginale

Licenza elementare 86 498 371 47 1002

Licenza media 3 80 174 45 302

Maturità 2 6 92 48 148

Laurea 0 5 23 35 63

Distribuzione di frequenza marginale

91 589 660 175 1515

Calcoliamo la tabella delle frequenze attese :Figlio

Padre

Licenzaelementare

Licenzamedia

Maturità Laurea Distribuzione difrequenza marginale

Licenza elementare 60,2 389,6 438,5 115,7 1002

Licenza media 18,1 117,4 131,6 34,9 302

Maturità 8,9 57.5 64,5 17,1 148

Laurea 3,8 24,5 27,4 7,3 63

Distribuzione di frequenza marginale

91 589 660 175 1515

E quindi la tabella delle contingenze : Figlio

Padre

Licenzaelementare

Licenzamedia

Maturità Laurea Distribuzione difrequenza marginale

Licenza elementare 25,8 108,4 -65,5 -68,7 0

Licenza media -15,1 -37,4 42,4 10,1 0

Maturità -6,9 -51,5 27,5 30,9 0

Laurea -3,8 -19,5 -4,4 27,7 0

Distribuzione di frequenza marginale

0 0 0 0

23 - Matteo Gazzano

Page 24: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Per calcolare χ2 costruiamo ora una tavola con le contingenze al quadrato :

Figlio

Padre

Licenzaelementare

Licenzamedia

Maturità Laurea

Licenza elementare 665,64 11750,56 4290,25 4719,69

Licenza media 228,01 1398,76 1757,76 102,01

Maturità 47,61 2652,25 726,52 954,81

Laurea 14,41 380,25 19,36 767,29

E poi la tabella delle contingenze al quadrato divise per la frequenza attesa :Figlio

Padre

Licenzaelementare

Licenzamedia

Maturità Laurea

Licenza elementare 11,1 30,2 9,8 40,8

Licenza media 12,6 11,9 13,7 2,9

Maturità 5,3 46,1 11,7 55,8

Laurea 3,8 15,5 0,7 105,1

Otteniamo così χ2 = 377,1 che andremo a normalizzare creando la distribuzione di massima

connessione. Questa può essere costruita in due modi :

1) Strada più semplice ma meno precisaFiglio

Padre

Licenzaelementare

Licenzamedia

Maturità Laurea

Licenza elementare 1002 0 0 0

Licenza media 0 302 0 0

Maturità 0 0 148 0

Laurea 0 0 0 63

Questa operazione è possibile solo se la tabella è quadrata. In ogni caso non rispetta le distribuzioni marginali della tabella originale. Misurando la connessione su questa distribuzione otterremo χ2

max = 4545

e quindi χ2norm

= χ2/χ2max

= 0,083 che è un valore molto piccolo (causato dalla situazione estrema sulla

quale abbiamo calcolato χ2max

).

Se volessimo generalizzare per ridurre i calcoli, potremmo dimostrare che (se la tabella è quadrata) :χ max

2 =(r−1)N

NB : Se la tabella non fosse quadrata, come ad esempio :M F

Licenza elementare 33 30

Licenza media 42 35

Maturità 20 28

Laurea 5 7

100 100 200

Si può dimostrare che χ max2 =min(r−1) ,(c−1) N

Nel nostro caso (tabella 4x2) il minimo è 2 quindi χ max2 =(2−1)200=200

24 - Matteo Gazzano

Page 25: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

2) Strada più complessa ma più precisaFiglio

Padre

Licenzaelementare

Licenzamedia

Maturità Laurea Distribuzione difrequenza marginale

Licenza elementare 91 498 371 42 1002

Licenza media 0 91 174 37 302

Maturità 0 0 115 33 148

Laurea 0 0 0 63 63

Distribuzione di frequenza marginale

91 589 660 175 1515

In questo caso cerchiamo di condensare le frequenze in poche celle, compatibilmente con marginali delle frequenze osservate. Misurando la connessione su questa distribuzione otterremo χ2

max = 743,9

e quindi χ2norm

= χ2/χ2max

= 0,51 che è un valore decisamente più grande di quello ottenuto

precedentemente (perché la distribuzione è più realistica).

1] Caso in cui una della variabili è quantitativaEsempio : Numero di incidenti/genereX \ Y M F

0 75 29 154

1 23 18 41

2 1 2 3

3 1 1 2

100 100 200In questi casi posso calcolare degli indici come la media degli incidenti del collettivo :

μ(x)= 1N∑ xi f +i che nel nostro caso fa 0,265.

Oltre alla media marginale, posso calcolare anche la media condizionata. Ad esempio la media dei maschi o delle femmine.

Lezione del 11/03/13La media di x condizionatamente al valore y j della variabile y la calcoliamo come :

μ(x∣y)= 1f j∑ xi f ij

che nel nostro esempio :

μ(x∣M )= 1100

[0⋅75+1⋅23+2⋅1+3⋅1]=0,28

μ(x∣F )=0,25

Su queste medie possiamo fare alcune considerazioni :1) Come sono legate tra di loro la media marginale e la media condizionata ?

La media marginale è uguale alla media delle medie condizionate. Questo è vero nel caso in cui i gruppi siano di uguale numerosità. Se in numero dei maschi fosse il doppio di quello delle femmine, sarebbe necessario ponderare ogni gruppo per la numerosità.

Dimostrazione → la media delle

condizionate è la media marginale

25 - Matteo Gazzano

1N∑ xi∑ j x i f ij=

1N∑

i

xi∑j

f ij=1N∑

i

x i f +i= μ(x)

μ[μ (x∣y )]= 1N∑

j

μ( x∣y j)⋅ f + j=1N∑

j

[ 1f + j

∑ xi f ij ] f + j=1N∑

i∑

j

x i f ij

Page 26: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

2) Se ci fosse indipendenza stocastica ci aspetteremmo di trovare medie condizionate uguali tra loro e uguali alla media marginale. Questo vuol dire che possiamo valutare se il numero di incidenti dipende dal genere : nel caso in cui l'appartenenza al genere non influenzi il numero medio di incidenti ci si trova in una situazione di indipendenza in media.Questa è asimmetrica, infatti se una variabile è indipendente in media da un'altra, non è detto che sia vero anche il contrario (com'è invece per l'indipendenza stocastica). Nel nostro esempio le medie sono diverse e quindi vi è dipendenza in media. Ad occhio si nota che la differenza è piccola, perciò si ipotizza che il grado di dipendenza sia basso.Per saperlo con precisione dobbiamo però elaborare un apposito indice che ci permetta di accertare l'esistenza e il grado di indipendenza in media.

Il rapporto di correlazioneX \ Y M F

0 75 29 154

1 23 18 41

2 1 2 3

3 1 1 2

100 100 200Dato l'esempio già trattato in precedenza possiamo calcolareLa varianza marginale :

σ2( x)= 1N∑

i

( xi – μ(x))2 f +i

σ2( x)= 1200

[(0−0,265)2⋅154+(1−0,265)2⋅41+(2−0,265)2⋅3+(3−0,265)2⋅2]=0,2848

La varianza condizionata :

La media delle varianze :

Da questo risultato ci accorgiamo che la media delle varianze condizionate è sempre ≤ alla varianza marginale. Questo vale sempre ed è dovuto al fatto che a questo valore manca la componente che misura l'eterogeneità esterna tra i gruppi. Dimostriamolo :

Semplifichiamo ora i singoli elementi :3)

e siccome è la sommatoria degli scarti è tutto uguale a zero.

26 - Matteo Gazzano

σ 2( x)= 1N∑

i

[ x i – μ( x)]2 f +i=1N∑

i∑

j

[ xi – μ (x)]2 f ij=1N∑

i∑

j

[ x i – μ( x∣y j)+μ( x∣y j)−μ (x)]2 f ij

1N∑∑ [ x i – μ( x∣y j)]

2 f ij+1N∑∑ [ μ( x∣y j)– μ( x)]2 f ij+

2N∑∑ [ x i – μ( x∣y j)][μ( x∣y j)− μ(x)] f ij

2N∑∑ [ x i – μ( x∣y j)][μ( x∣y j )−μ(x)] f ij=

2N∑

j

[μ (x∣y j )− μ( x)]∑i

[ x i – μ( x∣y j)] f ij

∑i

[ xi – μ( x∣y j)] f ij

μ(σ 2(x∣y))=0,28455

σ2( x∣F )=0,2875

σ2( x∣M )= 1100

[(0−0,28)2⋅75+(1−0,28)2⋅23+(2−0,28)2⋅1+(3−0,28)2⋅1]=0,2816

σ 2( x∣Y j)=1

f + j∑

i

(x i – μ(x∣y j))2 f ij

μ(σ 2(x∣y))= 1N∑

j

σ 2( x∣y j) f + j

Page 27: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Rimaniamo quindi con :

Continuiamo ad analizzare i singoli elementi :1)

2)

In conclusione abbiamo :

La varianza marginale è data quindi dalla somma di due componenti :Il primo mi dice quanto i gruppi sono eterogenei al loro interno, il secondo mi dice quanto sono eterogenei tra di loro. Abbiamo quindi indipendenza in media quando tutte le medie condizionate sono uguali tra di loro e alla media marginale, ovvero quando σ2=0.Abbreviando possiamo indicare σ2 come :

→ media delle condizionate/varianza residua o tra gruppi/within→ varianza delle medie condizionate/ varianza spiegata o entro/ between

Questo ci è utile per costruire l'indice della dipendenza in media, cioè il rapporto di correlazione:

con

se E' il caso di indipendenza in media. Tutte le media condizionate uguali tra di loro e rispetto alla media marginale.

se E' il caso di perfetta dipendenza in media : la varianza all'interno di ciascun gruppo è zero (la variabile x assume un singolo valore in tutto il gruppo).

Lezione del 13/03/13Riprendiamo quindi il nostro esempio :X \ Y M F

0 75 29 154

1 23 18 41

2 1 2 3

3 1 1 2

100 100 200Per il quale avevamo già trovato :

μ(x∣M )=0,28μ(x∣F )=0,25

27 - Matteo Gazzano

σ2( x)= μ(σ2(x∣y))+σ2( μ(x∣y))

σ 2( x)=σ 2+σ2

σ2

σ 2

σ2=0

η(x∣y)2 = σ 2

σ( x)2 =1− σ2

σ(x)2

η(x∣y)2 =0

η(x∣y)2 =1

0≤η(x∣y)2 ≤1

σ2=0

1N∑

i

[ xi – μ( x∣y j)]2 f ij+

1N∑∑ [ μ(x∣y j )– μ (x)]2 f ij

1N∑∑ [ x i – μ( x∣y j)]

2 f ij=1N∑

j

[ 1f + j

∑i

[ xi−μ( x∣y j)]2 f ij ] f + j=

1N∑

j

σ 2(x∣y j) f + j= μ(σ2( x∣y))

1N∑∑ [ μ( x∣y j)– μ( x)]2 f ij=

1N∑

j

[ μ( x∣y j)– μ( x)]2 f + j=σ 2(μ( x∣y))

σ 2( x)= μ(σ2( x∣y))+σ2( μ(x∣y))

μ(x)=0,265

σ2( x)=0,2848σ 2( x∣M )=0,2816σ 2( x∣F )=0,2875

Page 28: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

L'unico elemento che ci manca da calcolare è

che nel nostro caso, avendo gruppi di stessa numerosità, possiamo individuare utilizzando la media aritmetica :

per quanto riguarda lo avevamo già calcolato come e quindi

possiamo verificare che

A questo punto è possibile calcolare il rapporto di correlazione :

→ E' una situazione molto vicina all'indipendenza in media.

NB : La dipendenza in media è una relazione più debole della connessione. Se c'è indipendenza stocastica, c'è anche indipendenza in media. Invece se c'è indipendenza in media, non è detto che vi sia indipendenza stocastica : due distribuzioni possono avere stessa media, ma essere comunque differenti tra di loro. Riassumendo :

– L'indipendenza in media è condizione necessaria all'indipendenza stocastica– L'indipendenza stocastica è condizione sufficiente all'indipendenza in media

Proviamo ora a misurare tenendo presente che dalla condizione di indipendenza stocastica

ricaviamo la formula delle frequenze attese : f ij=( f +i f + j)

NCostruiamo quindi la tabella delle frequenze atteseX \ Y M F

0 77 77 154

1 20,5 20,5 41

2 1,5 1,5 3

3 1 1 2

100 100 200e quella delle contingenze :X \ Y M F

0 -2 2

1 2,5 -2,5

2 -0,5 0,5

3 0 0

A questo punto, visto che χ 2=∑i∑

j

(C ij

2

f ij

) mi resta da fare

28 - Matteo Gazzano

σ 2=σ 2(μ( x∣y))= 1N∑

j

[ μ( x∣y j)−μ(x)]2 f + j

σ 2=12[(0,28−0,26)2+(0,25−0,265)2]=0,000225

σ 2 μ(σ 2(x∣y))=0,28455

σ2( x)=σ 2+σ2

η(x∣y)2 = σ 2

σ( x)2 = 0,000225

0,2848=0,00079

f ij

f + j

=f + j

N

χ 2

Page 29: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

la tabella delle contingenze al quadratoX \ Y M F

0 4 4

1 6,25 6,25

2 0,25 0,25

3 0 0e quella del rapporto tra le contingenze al quadrato e le frequenze atteseX \ Y M F

0 0,052 0,052

1 0,3 0,3

2 0,17 0,17

3 0 0

Ora posso finalmente calcolare χ 2=1,05 che, utilizzando χ max2 =200 , normalizziamo in

χ norm2 = 1,05

200=0,005 , un valore molto basso.

2] Caso in cui entrambe le variabili sono qualitativeRiprendiamo l'esempio dei titoli di studio per capire in che misura quello dei figli dipende da quello dei padri. Se il titolo di studio fosse una variabile quantitativa potremmo utilizzare la dipendenza in media, purtroppo non è così ma è possibile seguire lo stesso iter logico :

1) Abbiamo calcolato la varianza complessiva2) La abbiamo scomposta in due componenti (uno per l'eterogeneità esterna ed uno per quella interna)

X \ Y Licenzaelementare

Licenzamedia

Maturità Laurea

Licenza elementare 86 498 371 47 1002

Licenza media 3 80 174 45 302

Maturità 2 6 92 48 148

Laurea 0 5 23 35 63

91 589 660 175 1515

Nel nostro caso la misura da prendere in considerazione è l'indice di Gini

γ y=∑j

(f + j

N)(1−

f + j

N) che misuriamo sul titolo di studio dei figli :

γ y=91

1515(1−91)

1515+ 589

1515(1−589)

1515+ 66

1515(1−660)

1515+ 175

1515(1−175)

1515=0,642135 Questa è una

misura di dispersione complessiva che mi dice quanto è disperso il titolo di studio dei figli.

Calcoliamo ora l'indice condizionato per tutte e quattro le distribuzioni :1)

2) c 3)

4)

29 - Matteo Gazzano

γ( y∣X i)=∑j

(f ij

f +i

)(1−f ij

f +i

)

γ( y∣X 1)= 86

1002(1−86)

1002+ 498

1002(1−498)

1002+ 371

1002(1−371)

1002+ 47

1002(1−47)

1002=0,6063

γ( y∣X 2)=0,5757 γ( y∣X 3)=0,5069

γ( y∣X 2)=0,5519

Page 30: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Per ogni distribuzione condizionata abbiamo misurato quanto è disperso il titolo del figlio relativamente a quello del padre.Ora possiamo calcolare :

Questo valore corrisponde (solo concettualmente) alla varianza spiegata.Se lo confrontassimo con l'indice di Gini noteremmo che c, manca quindi un pezzo come nel caso delle varianze.Più precisamente, manca una misura di quanto queste distribuzioni siano diverse tra loro e rispetto alla distribuzione marginale. Posso quindi calcolare la distanza :

d ( y∣X i , y)=√∑j

(f ij

f +i

−f + j

N)

2

che possiamo scrivere come d ( y∣X i , y)2 =∑

j

(f ij

f +i

−f + j

N)

2

“Distanza euclidea”Lezione del 14/03/13Possiamo calcolare d2 per ogni distribuzione condizionata e poi applicare una misura di sintesi che indichiamo con “Dispersione spiegata”

Possiamo quindi dire che Tornando al nostro esempio :

X \ Y Licenzaelementare

Licenzamedia

Maturità Laurea

Licenza elementare 86 498 371 47 1002

Licenza media 3 80 174 45 302

Maturità 2 6 92 48 148

Laurea 0 5 23 35 63

91 589 660 175 1515

Abbiamo già calcolato

Ci manca quindi :

che otteniamo calcolando d ( y∣X i , y)2 =∑

j

(f ij

f +i

−f + j

N)

2

per tutte le distribuzioni,

ottenendo quattro valori :

Facendo la media di queste distanze otteniamo

30 - Matteo Gazzano

γ ( y∣x)=∑i

γ( y∣X )

f +i

N

γ ( y∣x)= 11515

[0,6063⋅1002+0,05757⋅302+0,5069⋅148+0,5519⋅63]=0,5883

γ ( y∣x)<γ y

γ y=∑ d 2( y∣x , y)2 f +i

Nγ y=γ y+ γ(y∣x)

γ y=0,6431

γ( y∣x1)=0,6063

γ( y∣x2)=0,5757

γ( y∣x3)=0,5069

γ( y∣x4)=0,5519

γ( y∣x)=0,5883

d 12=( 86

1002− 91

1515)

2

+( 4981002

− 5891515

)2

+( 3711002

− 6601515

)2

+( 471002

+ 1751515

)2

=0,0213

γ y

d 22=0,0387 d 3

2=0,2017 d 42=0,2980

γ y=0,0539

Page 31: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Ora possiamo introdurre un nuovo indice di dipendenza : l'indice di Gini-Goodman-Kruskal con 0≤τ≤1

τ = 0E' la situazione di indipendenza stocastica. Tutte le distanze sono uguali a zero eτ = 1E' il caso in cui non c'è dispersione all'interno delle distribuzioni : le variabili assumono un unico valore.

Nel nostro esempio :da cui si capisce che il legame è debole. Questo perché i titoli di studio dei figli sono

principalmente la licenza media e la maturità, caratteristica che si ripete generalmente anche nelle singole distribuzioni.

3] Caso in cui entrambe le variabili sono quantitativeIntroduciamo l'argomento con una serie di dati relativi al tasso di attività (indice relativo alla forza di lavoro) e al PIL pro capite.

Regione Tasso di attività Pil pro capite

Piemonte 66,9 27,2

Lombardia 68,3 34,1

Liguria 63,9 26,9

Toscana 66,7 27,9

Emilia 70,9 31

Lazio 63,6 29,3

Campagna 53,5 16,7

Puglia 53,5 17,1

Sicilia 52,3 16,8Quando i dati sono di questa natura possiamo costruire un “diagramma di dispersione” come questo :

Dal grafico si deduce che a valori crescenti della x corrispondono valori tendenzialmente crescenti della y.NB: la statistica evidenzia solo la relazione tra le due variabili senza indagare sulla natura causale.Vogliamo ora misurare la tendenza delle variabili a crescere congiuntamente. Per farlo dobbiamo pensare ai concetti di alto e basso, ovvero ciò che sta sopra o sotto la media.

31 - Matteo Gazzano

τ=γ y

γ y

=1−γ y

γ y

γ y=0

γ( y∣x)=0

τ=0,084

Page 32: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Calcoliamo quindi le medie delle variabili ottenendo : μx = 62,17μy = 25,22Supponendo ora, di utilizzare μx e μy come nuovi assi cartesiani, le coordinate attuali saranno uguali a x i-μx

e xi-μy. I valori alti saranno quelli con scarto dalla media positivo e i bassi quelli con lo scarto negativo. Ragionando sempre in termini di scarto dalla media :1° quadrante → Scarti positivi per entrambe le variabili2° quadrante → Scarti positivi per y e negativi per x3° quadrante → Scarti negativi per entrambe le variabili 4° quadrante → Scarti positivi per x e negativi per y

Se le due variabili tendono a crescere congiuntamente, i punti dovrebbero stare principalmente nel primo e terzo quadrante. Se fosse il contrario, la maggior parte dei punti dovrebbe addensarsi nel secondo e quarto quadrante. Inoltre, se le variabili vanno in direzioni opposte si ha discordanza, se vanno nella stessa direzione si ha concordanza. Sono concordi se i segni degli scarti sono uguali, sono discordi se i segni sono diversi.Per misurare questo aspetto utilizziamo la covarianza (o momento centrale di ordine uno) :

con :• σxy > 0 → Se c'è prevalenza di scarti concordi (i punti sono condensati nel 1° e 3° quadrante)• σxy < 0 → Se c'è prevalenza di scarti discordi (i punti sono condensati nel 2° e 4° quadrante)• σxy = 0 → Se non c'è ne discordanza ne concordanza : al variare di una variabile, l'altra

mediamente non cambia.

Caratteristiche :– Essendo il prodotto degli scarti, la covarianza ha come unità di misura il prodotto tra le unità

di misura delle variabili. E' quindi un indice complesso da confrontare.– Si può dimostrare che

(caso particolare della diseguaglianza di Chaucy-Schwartz).Questo ci dice che il valore della covarianza è di difficile interpretazione perché, a seconda della variabilità di x e y, il valore della σxy cambia.

Lezione del 18/03/13A partire dalla covarianza è possibile introdurre un nuovo indice :il coefficiente di correlazione lineare (detto indice di Brave – Pearson).

Questo misura il grado di interdipendenza lineare tra le due variabili e può assumere valori compresi tra -1 ed 1. Il segno deriva dalla covarianza, infatti il denominatore ha sempre valore positivo. Quindi, se l'indice è negativo le variabili sono discordi,

se positivo sono concordi. Analizziamo ora i casi limite :→ E' il caso in cui tra le due variabili esiste perfetta relazione lineare diretta. In pratica i

punti osservati stanno tutti su una retta inclinata positivamente (come nell'esempio).

32 - Matteo Gazzano

σ xy=1N∑ ( xi−μx)( y i− μy)

∣σ xy∣≤σ x σ y

ρxy=σ xy

(σ x σ y)

ρxy=1

Page 33: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

→ E' il caso in cui tra le due variabili sussiste perfetta relazione lineare inversaIn pratica i punti stanno tutti su una retta inclinata negativamente (come nell'esempio).

→ E' il caso in cui tra le due variabili vi sia assenza di relazione lineare, come nei seguenti esempi :

NB :

Ritorniamo ora al calcolo della covarianza. Abbiamo detto che

ma per semplificare il calcolo possiamo scriverla come

Completiamo quindi la tabella del nostro esempio con i dati utili :Regione Tasso di attività Pil pro capite x2 y2 xy

Piemonte 66,9 27,2 4475,61 739,84 1819,68

Lombardia 68,3 34,1 4664,89 1162,81 2329,03

Liguria 63,9 26,9 4083,21 723,62 1718,91

Toscana 66,7 27,9 4448,89 778,41 1860,93

Emilia 70,9 31 5026,81 961 2197,90

Lazio 63,6 29,3 4044,96 858,49 1863,48

Campagna 53,5 16,7 2862,25 278,89 893,45

Puglia 53,5 17,1 2851,56 292,41 913,4

Sicilia 52,3 16,8 2735,29 282,24 878,64Avendo già calcolato μx = 62,17 e μy = 25,22 possiamo direttamente ottenere :

Per giudicare questo valore è necessario calcolare

che nel nostro caso è un valore molto prossimo ad uno perché i punti sono molto vicini ad una situazione di perfetta linearità

NB : è confrontabile perché adimensionale.

33 - Matteo Gazzano

ρxy=−1

ρxy=0

σ xy=1N∑ (xi−μx)( y i− μy)

σ xy=1N∑ ( xi yi)−(μx μy)

σ x2=1

9(35193,47−62,172)=45,69

σ y2=1

9(14475,16−25,222)=39,14

σ xy2 = 1

9(14475−62,17⋅25,22)=40,37

χ 2=0→ηxy2 =0 → ρxy=0

ρxy

ρxy=40,37

√(45,69⋅39,14)=0,95

ρxy

Page 34: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

La regressione lineareIl diagramma di dispersione, rappresenta le coppie di valori (x i, yi). Dal punto di vista grafico mettiamo le xi sulle ascisse e le yi sulle ordinate descrivendo la relazione tra le variabili mediante una funzione g(x|a1,a2, …, ap) della quale è nota la forma, ma non i parametri. Noi vogliamo sintetizzare e semplificare le informazioni utilizzando una retta. Il principio di fondo è che data la funzione g, la distanza tra i valori osservati e quelli teorici sia il più piccola possibile. Cerchiamo quindi gli a1,a2, …, ap che ci consentano di costruire la funzione più vicina ai valori osservati.

Lezione del 20/03/13Riepilogando....Abbiamo un insieme di dati rappresentati da coppie di valori (x i, yi). L'obiettivo è quello di studiare la dipendenza di x da y, esplicitando una funzione che leghi le variabili.Di tale funzione è nota la forma g(x|a1,a2, …, ap), ma sono impliciti i coefficienti. Il nostro obiettivo è quindi individuare gli a1,a2, …, ap che meglio rappresentano la relazione tra x e y.Per farlo dobbiamo capire qual'è la funzione migliore. Si potrebbe pensare che sia quella che passa per tutti i punti, ma non è così perché non ci darebbe nessun vantaggio in termini di capacità di sintesi. La migliore è invece quella che passa il più vicino possibile ai punti osservati.

Definita la funzione migliore, passiamo alla pratica :

Date le coppie di valori (xi, yi), definisco una funzione g(x|a1,a2, …, ap)

che per ogni valore di xi mi da un valore teorico

Noi vogliamo che questi valori teorici y i siano il più vicino possibile ai valori osservati yi.

In pratica vogliamo trovare i coefficienti della funzione g che rendano più piccole possibili le

quantità y i− yi . Ne consegue che la funzione migliore è quella che minimizza

Quindi, secondo il principio dei minimi quadrati, dovrò fare :

Noi vogliamo interpolare la retta di equazione y=a+bx e quindi trovare i valori di a e b più vicini aivalori osservati.

Incominciamo tracciando (ad occhio) una retta y=a+bx e prendendo l'osservazione di coordinate (xi, yi). Distinguiamo quindi yi (il valore delle ordinate) e y i (il valore predetto dalla funzione g in corrispondenza di ogni xi).

è il valore che sta sulla retta e a noi interessa i termini di

La retta di regressione la si trova applicando il principio dei minimi quadrati, ma noi per semplificare prendiamo in considerazione :

Da cui deriva

Dal punto di vista geometrico stiamo osservando una traslazione degli assi.N.B: La distanza rappresenta la lunghezza del segmento che unisce il punto alla retta.

34 - Matteo Gazzano

y i=g (x∣a1, a2,… ,a p)

∑ ( y i− yi )2

min(a 1,a2, … ,a p)=∑ [ yi−g ( x∣a1, a2,… , a p)]

2

y i=a+bx i

y i− y i

y i= yi−μyxi=xi− μxy i=a '+b ' x

y i− yi

Page 35: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Dovrò quindi trovare i valori a' e b' che rendono più piccola possibile:

Sugli scarti dalla media, la retta è data da ma se tornassimo alla retta originale avremmo

e quindi la retta avrà equazione :

E' evidente che le due rette individuate differiscono solo per l'intercetta (A) che nella prima è assenta (perché la retta passa per l'origine).

Le proprietà :1) La retta di regressione passa necessariamente per l'origine del sistema di assi (μx ; μy)2) Prendiamo in considerazione le quantità

la somma dei residui è uguale a zero perché :

Abbiamo dimostrato che la retta, passando in mezzo ad una nuvola di punti, mette in equilibrio le distanze positive e le distanze negative.

3) → Corollario: se la somma degli scarti è pari a zero, allora la media dei valori osservati coincide con la media dei valori teorici

Torniamo al nostro esempio.Avevamo trovato e, e, e

Calcoliamo ora l'equazione della retta :

Otteniamo quindi y=0,88x-29,70

NB : Il coefficiente angolare ci dice quanto varia y al variare unitario di x

35 - Matteo Gazzano

y i− y1

i

∑ ( y i− y1

i)=0

∑ y i−Nμ y−Nσ xy

σ x2 μ x+

σ xy

σ x2 ∑ xi=Nμ y− Nμ y−N

σ xy

σ x2 μx+N

σ xy

σ x2 μx=0

μ y=μ( y1

i)

σ x2=45,69 σ xy=40,37 μx=62,17

A B

μ y=25,22

b '=σ xy

σ x2 = 40,37

45,69=0,88

a=μ y−bμx=25,22−(0,88⋅62,17)=−29,70

min(a ' ,b ' )=∑ ( y i−a '−b ' x i)2

δ(δa ' )

=∑ ( y i−a '−b' xi)2=−2∑ ( y i−a '−b ' xi)

δ(δb' )

=−2∑ ( y i−a '−b ' x i) x i

∑ y i−Na '−b '∑ x i=0

∑ y i xi−a '∑ x i−b' ∑ xi2=0

a ' =0

b '=∑( y i x i)

∑ x i2

=∑ [(x i−μx )( y i−μy)]

∑ (xi−μx)2 =

σ xy

σ x2

y1

i=σ xy

σ x2 ⋅x i

y1

i−μ y=σ xy

σ x2 ⋅( xi−μ x)

y1=μ y−

σ xy

σ x2 μ x+

σ xy

σ x2 x

Costante rispetto alla sommaN volte la media

pendenza

intercetta

Page 36: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Questa retta ci è utile per studiare la relazione tra x e y, infatti possiamo usarla per fare previsioni basandoci sui valori teorici. In particolare possiamo fare :

– Interpolazione → E' il caso in cui lavoro nel range di valori osservati.Se la retta descrive bene la situazione, si può fare una buona previsione.

– Estrapolazione → E' il caso in cui lavoro fuori dal range di valori osservati.Non è detto che la retta rappresenti bene la situazione reale.

Come si misura la bontà del modello ?Dobbiamo costruire un indice per misurare la bontà dell'adattamento.Partiamo da aggiungendo e togliendo i valori teorici :

Abbiamo scomposto la misura di quanto sono diversi tra loro i valori della y, scoprendo che la variabilità totale delle y dipende da :

– Varianza spiegata della regressione → La quota di variabilità che la retta di regressione è in grado di catturare (quanto varia y al variare di x)

– Varianza residua → La quota di variabilità che sfugge alla retta (variabilità dei residui)

Se tutti i punti fossero allineati, la dispersione sarebbe totalmente spiegata da e quindi dalla retta. Generalmente c'è però una quota di variabilità che sfugge alla retta ed è rappresentata da Tanto più alto è questo valore, tanto più alti sono i residui.L'indice che misura la bontà del modello è però il rapporto di correlazione lineare, anche detto indice di determinazione lineare :

Nel nostro esempio è pari a 0,91. Questo significa che più del 90% della variabilità complessiva osservata è spiegata dalla retta, il 9% dalla variabilità residua.

Lezione del 21/03/13Nella lezione scorsa abbiamo scomposto la variabilità totale di y nella varianza residua e nella varianza spiegata, ottenendo :

Da questa abbiamo definito un indice che misura quanta parte della variabilità complessiva è descritta dalla retta di regressione : l'indice di correlazione lineare che può assumere valori compresi tra 1 e 0. Passiamo ora ad analizzare il rapporto tra e:

Abbiamo dimostrato che ρ2 è il quadrato di ρxy.

36 - Matteo Gazzano

σ y2= 1

N∑ ( y i−μ y)

2

σ y2= 1

N∑ ( y i− y

1i+ y

1i− μ)2= 1

N∑ ( y i− y

1i)

2+ 1N∑ ( y

1i− μy)

2+2∑ ( yi− y1

i)( y1

i−μ y)

σ1

y2 σ y

2

σ y2=σ

1y2+σ y

2

σ1

y2

σ y2

σ y2

σ1

y2

ρ2=σ y

2

σ y2

σ y2=σ

1y2+σ y

2

ρ2=σ y

2

σ y2

ρxy e ρ2

σ1

y2= 1

N ∑ ( y1

i−μ y)2= 1

N ∑ [ μ y+σ xy

σ x2 ( xi−μx )−μ y]

2

=σ xy

2

σ x4⋅(

1N

)∑ (x i−μx)2=

σ xy2

σ x2 → ρ2=

σ xy2

(σ y2 σ x

2)

Page 37: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Il caso delle distribuzioni di frequenzaEsempio :X = EtàY = Numero di film visti al cinema nell'ultimo meseX\Y 0 1 2

20 6 13 10 29

30 4 11 3 18

40 17 11 4 32

50 16 14 0 30

60 22 4 0 26

65 53 17 135Per calcolare la retta di regressione dobbiamo trovare i valori che compongono a e b.

Ovvero :

Quindi :

Se avessimo lavorato direttamente sulle medie condizionate avremmo trovato lo stesso risultato ?Date le frequenze :

x1

x2

xi

xr

In generale, avremo una retta con e

Ma “c” e “d”, differiscono da “a” e “b” ?

1)

Quindi c = a

37 - Matteo Gazzano

b '=σ xy

σ x2

a=μ y−bμx

μx=1

135(20⋅29+30⋅18+40⋅32+50⋅30+60⋅26)=40,44

μ y=1

135(0⋅65+53⋅1+17⋅2)=0,64

σ x2= 1

N∑ (x i−μ x)

2 f +i=1N∑ xi

2 f +i−μx2

σ x2= 1

135(400⋅29+900⋅18+1600⋅32+2500⋅30+3600⋅26)−40,442=198,32

σ xy=1N∑∑ (xi−μ x)( yi− μy) f ij=

1N∑∑ xi yi f ij− μx μy

σ xy=1

135(20⋅0⋅6+20⋅1⋅13+30⋅1⋅11+40⋅1⋅11+50⋅1⋅14+60⋅1⋅4+20⋅2⋅10+30⋅2⋅3+40⋅2⋅4)−40,44⋅0.64=−4,80

Negativa perché levariabili sono

discordi.

a=0,64+0,0242⋅40,44=1,62

b= −4,80198,32

=0,0242

y=0,0242 x+1,62

μ( y∣x1) f +1

μ( y∣x2) f +2

μ( y∣xr) f +r

μ( y∣xi) f +i

μ( y∣x)=c+dxc= μ(μ( y∣x))−dμx d=

[σ x μ (y∣x)]

σ x2

μ y=μ(μ( y∣x))

Page 38: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

2)

Quindi d=b

Ne consegue che fare la regressione sulle medie condizionate da lo stesso identico risultato.

Nel nostro esempio :

da cui possiamo costruire la tabellaX\Y f+i

20 1,14 29

30 0,94 18

40 0,59 32

50 0,47 30

60 0,15 26

135Sulla quale possiamo lavorare direttamente per ottenere

Siamo ora in grado di costruire la retta di regressione :

A questo punto possiamo chiederci se mantengono più informazioni sul grado di variazione le medie condizionate o la retta di regressione.Nel primo caso abbiamo 135 soggetti osservati che vengono sintetizzati nei due valori che formano la retta. Nel secondo caso si parte invece dai cinque valori delle medie condizionate. E' quindi chiaro che la sintesi migliore sia quella che si ottiene operano direttamente sulle medie condizionate.

38 - Matteo Gazzano

σ x μ( y∣x )= 1N

x i μ( y∣x i) f +i−μx μy=1N ∑

i

xi [1f +i

∑j

y j f ij ] f +i−μ x μ y=1N ∑

i∑

j

xi y j f ij−μ x μ y=σ xy

μ( y∣x)

μ( y∣x1)=1

f +1∑ yi f ij=

129

[0⋅6+1⋅132⋅10]=1,14

μ y=1

135(1,14⋅29+0,94⋅18+0,59⋅32+0,47⋅30+0,15⋅26)=0,64

σ x2= 1

135[400⋅29+900⋅18 etc...]

σ xy=1

135(20⋅1,14⋅29+30⋅0,94⋅18+40⋅0,59⋅32+50⋅0,47⋅30+60⋅0,15⋅26)− μx μ y

Page 39: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Lezione del 25/03/13La relazione tra η2

y e 1ρ2y

Ci chiediamo se, circa la variabilità, spiega di più la curva delle medie condizionate o la retta di regressione. Per dare una risposta possiamo confrontare due componenti comuni di tali indici.La varianza residua condizionata :

La varianza residua di regressione :

Ci accorgiamo che differiscono solamente per gli scarti : nel primo caso dalla media e nel secondo caso dal valore teorico. Ora, siccome la media aritmetica ha la proprietà di minimizzare il valore degli scarti al quadrato, capiamo che (NB: sono uguali solo quando le medie condizionate sono perfettamente allineate).Ritorniamo agli indici :

Dalle loro formule si capisce che

Quindi η2y spiega sempre di più a meno che le medie condizionate non siano perfettamente

allineate. Questo risultato potevamo comunque aspettarcelo perché la relazione di dipendenza in media è più generale della relazione funzionale.

A questo punto possiamo anche formulare un indice che misuri quanta parte della dipendenza è spiegata dalla retta di regressione : il rapporto di dipendenza lineare.

δ1

y2=

ρ1

y2

η y2

con 0≥δ1

y2≤1

La regressione lineare multiplaPossono esservi situazioni in cui è necessario studiare la dipendenza di y da più variabili.Dato y=f(x;z) possiamo formulare un modello y=a+bx+cz

In questo caso avremmo ancora un sistema cartesiano, ma con una nuvola di punti di coordinate tridimensionali. Il fine è quello di trovare tra tutti i possibili piani, quello più vicino possibile ai valori osservati. Avremo quindi delle

y i e delle y2

i dove y2

i=a+bx i+cz i

Noi vogliamo trovare i valori dei coefficienti a, b e c per i quali la distanza valori teorici-valori osservati sia più piccola possibile. Tale valore lo chiamiamo S e lo formuliamo come

Per trovare facciamo le derivate prime

39 - Matteo Gazzano

σ y2= 1

N ∑ σ 2( y∣x i) f +i=1N ∑

i

( 1f +i

)[∑j

( y j−μ ( y∣x i)2) f ij ] f +i

σ1

y2= 1

N∑

i

( 1f +i

)[∑j

( y j− y1

i)2 f ij] f +i

Somma degli scarti dalla media

Somma degli scarti dal valore teorico

σ y2≤σ

1y2

ρ1

y2=1−

σ1

y2

σ y2

η y2=1−

σ y2

σ y2

η y2≥ ρ

1y2

S=∑ ( y i− y2

i)2=∑ ( y i−a−bxi−cz i)

2

min(a ,b ,c)

=S

Page 40: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

e le eguagliamo a zero.

A questo punto troviamo i valori dei parametri riscrivendo il sistema come :

Esempio :Rileviamo in nove diversi punti vendita informazioni su un prodotto, circa volume di vendite (y), prezzo (x) e spese promozionali (z).

y x z x2 z2 xy xz yz

4141 59 200 3481 40000 244319 11800 828200

4226 59 400 3481 160000 249334 23600 1690400

5000 59 600 3481 360000 295000 35400 3000000

1916 79 200 6241 40000 151364 15800 383200

2730 79 400 6241 160000 215670 31600 1092000

4113 79 600 6241 360000 324927 47400 2467800

1096 99 200 9801 4000 108504 19800 219200

2114 99 400 9801 160000 209286 39600 845600

3354 99 600 9801 360000 332046 59400 2012400NB : Tutti i prezzi sono stati combinati con tutte le spese promozionali. E' una situazione tipica degli studi sperimentali (non osservazionali).

Cosa succede se cambio l'unità di misura di una variabile ?Dato un modello y=a+bx+czcambiamo l'unità di misura x con x*=kxotteniamo y=a'+b'x+c'z con a'=a, b'=b/k e c'=c

40 - Matteo Gazzano

δ(δa)

=2∑ ( yi−a−bx i−cz i)

δ(δb)

=−2∑ ( y i−a−bxi−cz i) xi

∑ ( y i−a−bxi−cz i)=0

a=μ y−bμx−cμz

b=(σ z

2 σ xy−σ xz σ yz)(σ x

2 σ z2−σ xz

2 )

δ(δc)

=−2∑ ( yi−a−bx i−cz i) z i

∑ ( y i−a−bxi−cz i)xi=0

∑ ( y i−a−bxi−cz i) zi=0

c=(σ x

2 σ yz−σ xz σ xy)(σ x

2 σ z2−σ xz

2 )

Page 41: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Cominciamo a fare i conti.Iniziamo con le medie

Poi calcoliamo le varianze (utilizzando le colonne x2 e z2)

e infine le covarianze (utilizzando le colonne xy, xz e yz)

Lezione del 27/03/13Per determinare i coefficienti uso le formule ottenute precedentemente :

NB : Se il prezzo aumenta di 1 centesimo di €, perdiamo circa 56 unità di venduto. Se aumentiamo la spesa promozionale di 1€ la quantità venduta aumenta di 4 unità.

Casi particolari :

se

41 - Matteo Gazzano

μ( y )=3187,78μ(x)=79μ( z)=400

σ x2= 1

N∑ xi

2−μ( x)2= 19⋅58569−792=266,66

σ z2= 1

N∑ zi

2−μ( z)2=19⋅1680000−4002=26666,67

σ xy=1N∑ xi y i−μ (x) μ( y)= 1

9⋅2130450−3187,78⋅79=−15117,78

σ xz=0σ yz=118088,9

E' dovuto al fatto che sono regressori ortogonali, ovvero incorrelati. Se x e z fossero correlati, sarebbero parzialmente ridondanti.

a=μ y−bμx−cμz

b=(σ z

2 σ xy−σ xz σ yz)(σ x

2 σ z2−σ xz

2 )

c=(σ x

2 σ yz−σ xz σ xy)(σ x

2 σ z2−σ xz

2 )

b=(−15117,78⋅26666,67)(2666,67⋅26666,67)

=−56,69

c=(266,67⋅118088,9)(266,67⋅26666,67)

=4,43

a=5895,1

σ xz=0

b=(σ z

2 σ yx )(σ x

2 σ z2)

c=(σ x

2 σ xy2 )

(σ x2 σ z

2)

E' la formula della regressione lineare semplice, questo vuol dire che se X e Z non sono correlate

ottengo lo stesso risultato.

Page 42: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

se i coefficienti di regressione multipla sono diversi da quelli di regressione semplice. Se facciamo la regressione utilizzando solo x e y, il coefficiente risente di z e convoglia tale effetto in x. Otteniamo così un coefficiente B che risente sia di x che di z. E' il cosiddetto coefficiente al lordo. Per ottenere un valore più preciso dobbiamo scontare l'effetto di z ottenendo il coefficiente al netto. Quando i due coefficienti sono uguali e fare la regressione utilizzando solo y e x non altera il risultato.

La bontà del modelloPer misurare la bontà del modello nella regressione multipla possiamo utilizzare lo stesso concetto a cui abbiamo fatto riferimento per la regressione semplice. Partiamo dalla varianza residua che definiamo come

Da questa otteniamo il rapporto di correlazione lineare multipla con Ritorniamo al nostro esempio e facciamo tutti i conti.

Dopo aver calcolato tutte le varianze otteniamo

A questo punto potremmo farci due domande :1) Cattura più variabilità la retta o il piano ?

Il piano descrive di più perché è un modello più complesso. Questo si capisce anche dal fatto che la somma dei residui al quadrato è più piccola calcolata sul piano che sulla retta.I due modelli descrivono allo stesso modo solo quando c=0, in tutti gli altri casi

2) Di quanto migliora la spiegazione ?Per definirlo possiamo utilizzare un indice di miglioramento basato sulla differenza tra le varianze residue, che indichiamo (nella sua forma normalizzata) come :Questo sarà compreso tra 0 ed 1. = 0 → quando le varianze saranno uguali (la retta e il piano spiegano allo stesso modo)= 1 → quando (tutti i punti giacciono sul piano, non c'è varianza residua)

La regressione polinomialePartiamo con un esempio :X = Età del capofamiglia e Y = % del patrimonio che viene investita in titoli azionari

y x

9,14 20

9,79 30

11,62 40

19,09 50

17,02 60

15,07 70

15,52 80

42 - Matteo Gazzano

σ xz ≠ 0

Y

Z Y

X

X

Zσ xz=0

σxz

y2= 1

N∑ ( y i− y

xzi)

2

ηxz

y2=1−

σxz

y2

σ y2

yxz

1=5895,1−59,69⋅59+4,43⋅200

yxz

2=5895,1−59,69⋅59+4,43⋅400

ηxz

y2=0,9193

0≤ηxz

y2≤1

Se il piano è orizzontale

Se la varianzaresidua è

uguale a zero

σxz

y2<σ

xy2

( σx

y2−σ

xzy2 )

σx

y2

σxz

y2=0

Page 43: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Utilizzando i dati del grafico otteniamo la retta di regressione y=0,126x+7,6186 che ad occhio sembrerebbe non descrivere molto bene la relazione tra le variabili. Questa percezione è poi giustificata dal valore di R2=0,5135. La nuvola di punti ha infatti una forma che non si presta a tale adattamento (la relazione tra le variabili non è monotona e quindi poco compatibile con la retta). Potremmo allora usare una funzione più complessa. Proviamo con una parabola di equazione y=a+bx+cx2 e cerchiamo i valori di a,b e c che minimizzano

Per semplificare il procedimento facciamo x2=ze ci accorgiamo di essere di nuovo nel caso della regressione multipla. Otteniamo così un'equazione :y = -2,26 + 0,59x – 0,0047x2 con R2=0,7283 Questo valore è maggiore di quello ottenuto con la retta perché la parabola spiega di più.La somma dei residui al quadrato della parabola è infatti più piccola della somma dei residui al quadrato della retta. Tanto più complesso è il modello, maggiore è la parte di variabilità da esso spiegata. Questo è vero fino al grado massimo del polinomio pari ad N-1 (con N=numero di osservazioni). Generalmente si utilizzano però polinomi di grado basso perché all'aumentare della complessità del modello si perde la capacità di sintesi (non si riesce a capire la tendenza di fondo).R2 è il rapporto di correlazione parabolico con

Abbiamo visto che (uguali solo se c=0) perché la parabola spiega più della retta.Generalizzando possiamo dire che fino a (se la curva interseca tutti i dati).

NB : Nel caso dei “dati raggruppati”il polinomio che spiega di più èquello che interseca le medie condizionate.

Anche qui possiamo misurare il miglioramento definendo un apposito indice normalizzato, detto grado di miglioramento dalla retta alla parabola che possiamo generalizzare come a

Questo valore misura di quanto diminuisce la varianza residua all'aumentare della complessità del modello.

43 - Matteo Gazzano

η2

y2=1−

σ2

y2

σ y2

σ2

y2= 1

N∑ ( y i−a−bxi−cx i

2)2

Varianza dei residuirispetto alla parabolaη

2y2≥ ρ y

2

η(r)

y2≥ η

(r−1)y2 η

( N−1)y2=1

( σ1

y2−σ

2y2 )

σ1

y2

( σ(r−1)

y2− σ

(r)y2)

σ(r−1)

y2

S=∑ ( y i− y2

i)2=∑ ( yi−a−bx i−cx i

2)

Page 44: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

Riprendiamo ora i dati delle sette famiglie :y x x2(z) y2 z2 xy xz yz

9,14 20 400 83,54 160000 182,8 8000 3656

9,79 30 900 95,84 810000 293,7 27000 8811

11,62 40 1600 135,02 2560000 464,8 64000 18592

19,09 50 2500 364,43 6250000 954,5 125000 47725

17,02 60 3600 295,84 12960000 1032 216000 61920

15,07 70 4900 227,10 24010000 1054,9 343000 73843

15,52 80 6400 240,87 40960000 1241,6 512000 99328

1442,65 5224,3 1295000 313875Per ottenere

calcoliamo i singoli elementi :

Grazie ai quali troviamo l'equazione della retta :

y = 7,62 + 0,126x

44 - Matteo Gazzano

a=μy−bμx−cμx2

b=(σ z

2 σ xy−σ xz σ yz)(σ x

2 σ z2−σ xz

2 )

c=(σ x

2 σ yz−σ xz σ xy)(σ x

2 σ z2−σ xz

2 )

μ y=13,92μx=50μz=2900

σ y2= 1

N∑ y i

2− μ( y)2=12,37

σ x2=400

σ xy=1N∑ xi y i−μ (x) μ( y)=50,4

σ yz=4475,43

σ z2=4120000

σ xz=40000

a=μ y−bμx=7,62

b=σ xy

σ x2 =0,126

Page 45: Statistica - sharenotes.it · nel passaggio. Il fine della statistica è quello di controllare l'errore. La statistica descrittiva “Per statistica descrittiva si intende l'insieme

Matteo Gazzano – Statistica 2013

e quella della parabola :

y = -0,0047x2 + 0,5965x – 2,2614

FINE DELLA PARTE DI STATISTICA DESCRITTIVA

45 - Matteo Gazzano

a=μy−bμx−cμx2=−2,26

b=(σ z

2 σ xy−σ xz σ yz)(σ x

2 σ z2−σ xz

2 )=0,60

c=(σ x

2 σ yz−σ xz σ xy)(σ x

2 σ z2−σ xz

2 )=−0,0047