27
06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltà nel raccogliere tutte le informazionidi una popolazione. Informazioninon replicabili. Costi legati alla raccolta delle informazioni. Tempo necessario alla raccoltadelle informazioni. Adeguatezza delle tecniche statistiche nell’inferenza. Prima fase: definire la popolazione, ossia, l’insieme di tutte le osservazioni possibili, relativamente ad una data variabile o ad un dato fenomeno Esempio: Variabile: altezza degli studenti che frequentano l’Università in Italia Popolazione target: la popolazione oggetto di studio (ossia gli studenti che frequentano l’università in Italia) Popolazione accessibile: la popolazione dalla quale si estrae il campione casuale (non è detto siano accessibili le altezze di tutti gli studenti che frequentano l’università in Italia)

Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

1

Distribuzioni campionarie

Campioni casuali

Perché è necessario effettuare un campionamento?

� Difficoltà nel raccogliere tutte le informazioni di una popolazione.

� Informazioni non replicabili.

� Costi legati alla raccolta delle informazioni.

� Tempo necessario alla raccolta delle informazioni.

� Adeguatezza delle tecniche statistiche nell’inferenza.

Prima fase: definire la popolazione, ossia, l’insieme di tutte le osservazioni possibili, relativamente ad una data variabile o ad un dato fenomeno

Esempio: Variabile: altezza degli studenti che frequentano l’Università in Italia

Popolazione target: la popolazione oggetto di studio (ossia gli studenti

che frequentano l’università in Italia)

Popolazione accessibile: la popolazione dalla quale si estrae il campione

casuale (non è detto siano accessibili le altezze di tutti gli studenti che

frequentano l’università in Italia)

Page 2: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

2

Tecniche di campionamento

Non probabilistico

� Di convenienza- i primi 25 pazienti con una certa diagnosi al reparto di…

- le prime 100 persone che rispondono al telefono

� A scelta ragionata- (studi clinici: arruolamento)

- si utilizza quando l’ampiezza del campione è limitata

� Per quote- per gruppi (dati censuari o altre fonti) in base a determinate

caratteristiche (all’interno di ogni gruppo, a scelta ragionata)

� A valanga- soggetti che tendono ad occultare la loro identità

(contattato uno vengono contattati gli altri)

I risultati valgono solo per il campione.

Seguono l’orientamento dello sperimentatore.

Errori di rilevazione

Esempio: Vogliamo effettuare indagini sulle persone con alimentazione vegana.

Non potendo esaminare tutti gli individui della città in esame, decidiamo di esa-

minare un campione di persone. Per comodità, lo sperimentatore sceglie di svol-

gere l’intervista presso punti vendita che vendono anche alimenti macrobiotici.

I risultati dell’indagine hanno una validità limitata, poiché danno preferenza a

coloro che usano cibi macrobiotici.

Esempio: Il rapporto tra massa corporea e pressione arteriosa è influenzato dall’

età. Se gli intervistati hanno un’età media inferiore a quella nazionale, le conclu-

sioni tratte non possono essere applicate alla comunità nazionale.

Bias o distorsione nella selezione

Quando la scelta degli individui che compongono il campione è dettata dal caso, è possibile

prevedere e calcolare la differenza tra campione e popolazione.

Altri errori: nella definizione della popolazione, nello strumento di rilevazione, nelle mancate

risposte, nella codifica o elaborazione dei dati…

Page 3: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

3

Tecniche di campionamento

Non probabilisticoProbabilistico

� Si attribuisce ad ogni unità della popolazione una determinata probabilità positiva di essere

selezionata.

� Si utilizzano tecniche per la selezione casuale del campione.

Sistematico

Partendo dal numero 2

si seleziona l’unità con

passo 3.

Casuale semplice

Ogni elemento della popolazione è etichettato da un

numero.

Si estraggono 5 numeri a caso da 1 a 16, ad esempio 11,

5, 16, 3, 13.

11

5 16

313

Con reimmissione

Ogni elemento ha la stessa probabilità di

occorrenza di essere estratto

Senza reimmissione

Gli elementi estratti sono tutti diversi.

� Popolazione infinita

� Fattore di correzione: ������ ~ 1

Ogni elemento ha probabilità

di estrazione pari a � �⁄ .

Ad ogni estrazione la probabilità

di estrazione viene decrementa di

una unità al denominatore.

Page 4: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

4

Stratificato La popolazione viene suddivisa in strati.

Da ogni strato viene prelevato un numero k di elementi con un campionamento casuale

semplice.

11

3

4

1310

Per cilindrata

A grappolo

A B

CD

Si estraggono a caso dei sottogruppi.

Ad esempio B e C.

BC

Da ogni sottogruppo si estrae

un campionamento semplice

Distribuzione della media campionaria

E’ la distribuzione di probabilità associata alle medie campionarie calcolate su campioni casuali.

Esempio: Uno studio di associati ha 5 partners. A fine settimana ognuno di loro comunica il

numero di ore che sono state fatturate.

Partner Ore

Rossi 22

Bianchi 26

Neri 30

Esposito 26

Bruno 22

Si seleziona un campione casuale di

taglia 2. Determinare la distribuzione di

probabilità del numero di ore lavorate in

media per settimana.

Labels

1

2

3

4

5

Ad esempio, se sono selezionati Rossi ed Esposito:

22 + 26 = 48 La media è 24

Page 5: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

5

Partners Totale Media

1,2 48 24

1,3 52 26

1,4 48 24

1,5 44 22

2,3 56 28

2,4 52 26

2,5 48 24

3,4 56 28

3,5 52 26

4,5 48 24

Valori Freq.ass. Freq.rel.

22 1 0,1

24 4 0,4

26 3 0,3

28 2 0,2

Totale 10 1

Raggruppiamo le

medie così ottenute

in tabella

Distribuzione della media campionaria

Partners Ore

Rossi 22

Bianchi 26

Neri 30

Esposito 26

Bruno 22

Popolazione

La media della popolazione è:

� = 22 + 26 + 30 + 26 + 225

= 25,2

�[��] = 22 × 0,1 + 24 × 0,4 + 26 × 0,3 + 28 × 0,2= 25,2

��

La media della

popolazione coincide

con la media della

media campionaria.

Un po’ di terminologia…

Campione casuale semplice:

Rossi Esposito

�22,26)

Stima puntuale: il valore 22 + 26

2 = 24 rappresenta una stima (=approssimazione)

puntuale (=numerica) della media della popolazione, che è in genere incognita.

Il valore 24 appartiene al range di �� = 22,24,26,28Cambiando campione casuale, il valore della stima puntuale della media della popolazione

cambia.

Neri Esposito

�30,26)30 + 26

2 = 28

Quanto è variabile

questa stima puntuale?

Page 6: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

6

Partners Ore

Rossi 22

Bianchi 26

Neri 30

Esposito 26

Bruno 22

Popolazione

La varianza della popolazione è:

�� = �� 2 × �22 − 25,2)�+2 × �26 − 25,2)�+�30 − 25,2)� = 8,96

Valori Freq.ass. Freq.rel.

22 1 0,1

24 4 0,4

26 3 0,3

28 2 0,2

Totale 10 1

Distribuzione media campionaria

�����)= 22 − 25,2 � × 0,1 + 24 − 25,2 � × 0,4 + 26 − 25,2 � × 0,3 +26 − 25,2 � × 0,2 = 3,36Osserviamo che !

� ������ = �����)

Quando " → ∞ la quantità " − %" − 1 → 1 Si ha

!� =����)

Quando " → ∞, si effettua un campionamento da una popolazione infinita che equivale

ad una estrazione con reimmissione.

= &,'(� ×

������

Distribuzione della media campionaria

Si assuma di effettuare un campionamento di 2 unità statistiche da una popolazione di cardina-

lità 1000. L’esperimento consiste nel chiedere alla persona selezionata il numero di mesi trascorsi

prima di trovare un acquirente per il proprio garage. Si assuma che il numero di mesi varia da 1

a 4 e che abbiano la stessa percentuale di occorrenza nella popolazione.

Determinare la distribuzione della media campionaria.

X 1 2 3 4

Prob. 0,25 0,25 0,25 0,25

Sia X il numero di mesi necessari.

La distribuzione risulta

I possibili campioni (con ordinamento) sono:

�� � = 0,25 × [�1 − 2,5)�+�2 − 2,5)�+�3 − 2,5)�+�4 − 2,5)�]=1,25

� � = 0,25 × 1 + 2 + 3 + 4 = 2,5

Per ogni coppia, valutiamo

le frequenze assolute

Page 7: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

7

La distribuzione di probabilità della media campionaria risulta essere:

Per una estrazione senza reimmissione si ha

� �� = 2,5)�� �� = 0,625 = 1,252

Per questa seconda tabella la distribuzione di probabilità della media campionaria risulta essere:

� �� = 2,5)�� �� = 0,41 = 1,252 ×23

!� =����)

La deviazione standard della media campionaria si dice anche precisione della media campionaria.

� Popolazione infinita

� Estrazione con reimmissione

!� ×

������ =����)

� Popolazione finita

� Estrazione senza reimmissione

Al crescere di n, la deviazione standard

della media campionaria diminuisce.

Popolazione gaussiana standard

Page 8: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

8

Con quale distribuzione di probabilità?

X 1 2 3

Prob. 1/3 1/3 1/3

Si consideri la somma di due copie indipendenti di X:

X_1+X_2 2 3 4 5 6

Prob. 1/9 2/9 3/9 2/9 1/9

Esempio: Si consideri la seguente v.a. uniforme discreta sui valori 1,2,3

Distribuzione di probabilità

Distribuzione di probabilità

(X_1+X_2)/2 1 1,5 2 2,5 3

Prob. 1/9 2/9 3/9 2/9 1/9

La forma del grafico non

cambia se si considera la

media campionaria

Somma dei Punteggi

Media campionaria

Si consideri la somma di tre copie indipendenti di X:

X_1+X_2+X_3 3 4 5 6 7 8 9

Prob. 1/27 3/27 6/27 7/27 6/27 3/27 1/27

Il profilo comincia a

diventare gaussiano.

Distribuzione di probabilità

Somma di 1000

copie di X

La forma del grafico non

cambia se si considera la

media campionaria

Page 9: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

9

Questo è quello che accade lanciando più di un dado:

�~)+,-./0%1,.

�� + ��

�� + �� + �2

�� + �� + �2 + �3

�� + �� + �2 + �3 + ��

�� + �� + … + �(

Teorema del limite centrale: Se si considerano n copie indipendenti di una v.a. �, ossia

���, ��,…,��), la loro somma��+ ��+ … +�� al crescere di n si distribuisce secondo

una legge gaussiana.

Con quale media? � ��+ ��+ … + �� = � �� + � �� +⋯+ � ��Con quale varianza?

= %�506 ��+ ��+ … + �� = 506 �� + 506 �� +⋯+ 506 ��= %��

Se si considerano le medie (ossia le somme vengono divise per le taglie) il profilo della

distribuzione di frequenza ottenuta non cambia così come la media:

Cambia invece la varianza, che

si riduce essendo normalizzata

alla taglia.

Page 10: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

10

Come nel caso della somma di v.a., qualsiasi sia la distribuzione della popolazione, quando si

costruisce la distribuzione della media campionaria, al crescere della taglia, si ottiene una

distribuzione gaussiana

Teorema del limite centrale

Con quale media?� �� =�

Con quale varianza?

Se la popolazione ha media µ allora la media campionaria �� ha la stessa

media:

Se la popolazione ha deviazione standard σ allora la deviazione della me-

dia campionaria �� è pari alla deviazione σ diviso la radice quadrata della

taglia % : D �� = �8http://vis.supstat.com/2013/04/central-limit-theorem/

Regola empirica: Si assume valida

la approssimazione per n> 30

Distribuzione uniforme Distribuzione triangolare

Distribuzione a parabolaDistribuzione inversa di una gaussiana

(dal sito web: Charles Annis, P.E.)

Esempi

Page 11: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

11

Esempio: Il tempo di attesa ad uno sportello presso un ufficio postale può

essere rappresentato da una variabile aleatoria con media 176 sec e va-

rianza 256 sec^2. Qual è la probabilità che la media campionaria calcolata

su un campione casuale di 100 clienti sia compresa tra 175 sec e 178 sec?

� Essendo la taglia superiore a 30, per il teorema del limite centrale ��~" 176, ��(�:: .

; 175 < �� < 178 mediante standardizzazione:

= = �� − 176256/100 ?� =

175 − 176256/100 = −0,063 ?� =

178 − 176256/100 = 1,25

ossia bisogna calcolare ; −0,06 < = < 1,25

; −0,06 < = < 0,13 = 0,8944-0,4761

� In tal caso non si conosce la distribuzione della popolazione.

Esempio: Il contenuto di Coca-Cola in una singola bottiglia può subire piccole variazioni. I dati

indicano che il contenuto delle bottiglie segue una legge gaussiana con media 33cc e deviazio-

ne standard 1,5cc. Oggi, alle 8am, il responsabile del controllo di qualità ha selezionato 16 bot-

tiglie, trovando una media campionaria di 32,87cc.

i) Quanto vale la precisione della media campionaria?

ii) Selezionando un nuovo campione di 30 bottiglie, quale risulta essere la probabilità che la

media campionaria differisca da quella vera meno di 0,1?

i) La precisione della media campionaria è �,��(

ii) Si tratta di calcolare ; �� − � < 0,1 .

; �� − � < 0,1 = ; −0,1 < �� − � < 0,1

= ; − 0,11,5/ 30 <

�� − �1,5/ 30 <

0,11,5/ 30

= ; −0,37 < = < 0,37 = 0,6443 − 0,3557

Ricordando che −A < A < A si ha

= ; − 0,11,5/ 30 < = < 0,1

1,5/ 30

Page 12: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

12

iii) Se si richiede che la media campionaria differisca da quella vera per meno di 0,1 con

probabilità 95%, quante bottiglie bisogna selezionare?

Si tratta di determinare il valore di n tale che ; �� − � < 0,1 = 0,95.

; �� − � < 0,1 = ; −0,1 < �� − � < 0,1 = 0,95Come nel caso precedente

Quando si passa alla standardizzazione, si ha ; − 0,11,5/ % <

�� − �1,5/ % <

0,11,5/ % = 0,95

e quindi bisogna determinare i quantili della gaussiana standard tali che

0,95

B = 0,05

?:,:�� = −1,96 ?:,'C� = 1,96

; = D ?:,:�� = 0,025 e ; = D ?:,'C� = 0,975

Per determinare la taglia è necessario calcolare

0,11,5/ % = 1,96 0,1

1,96 =1,5%

1,960,1 = %

1,5% = 29,4

% = 865

Variabile aleatoria binomiale

Una distribuzione binomiale può essere

approssimata da una distribuzione gaus-

siana.

Diretta conseguenza del teorema del limite centrale.

0 1

Distribuzione di frequenza (assoluta) del numero

di volte in cui si è verificata Testa (0 o 1) nel

lancio (simulato) di una moneta, N=10.000 volte

�~E�1; 0,5)

Una v.a. binomiale di parametro 1 viene anche detta variabile aleatoria di Bernoulli:

X 0 1

P(X=x) q p

G = 0,5

Page 13: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

13

0 1 2

Distribuzione di frequenza (assoluta) del nume-

ro di volte in cui si è verificata Testa lanciando

N=10.000 volte 2 monete:

� 0 volte (per due Croci);

� 1 volta (una Testa e una Croce);

� 2 volte (due Teste)

Distribuzione di frequenza (assoluta) del nume-

ro di volte in cui si è verificata Testa lanciando

N=10.000 volte 3 monete:

� 0 volte (per tre Croci);

� 1 volta (una Testa e due Croci);

� 2 volte (due Teste e una Croce);

� 3 volte (tre Teste)

0 1 2 3

H~E�2; 0,5) H~E�3; 0,5)= �� + ����, ��~E�1; 0,5) ��, ��, �2~E�1; 0,5)

= �� + �� + �2

Distribuzione di frequenza (assoluta) del nume-

ro di volte in cui si verifica Testa lanciando

N=10.000 volte 5 monete:

5 Croci (somma 0); 4 Croci e 1 Testa (somma 1);

3 Croci e 2 Teste (somma 2); 2 Croci e 3 Teste

(somma 3); 1 Croci e 4 Teste (somma 4);

5 Teste (somma 5)

�� + �� + �2 +�3 +��

0 1 2 3 4 5 0 1 2 3 4 5 6 7 8 9 10

Distribuzione di frequenza (assoluta) del nume-

ro di volte in cui si verifica Testa lanciando

N=10.000 volte 10 monete:

10 Croci (somma 0); 9 Croci e 1 Testa (somma 1);

8 Croci e 2 Teste (somma 2); …; 1 Croce e 9 Teste

(somma 9); 0 Croci e 10 Teste (somma 10)

H~E�10; 0,5) = �� + �� +⋯+ ��:H~E�5; 0,5) =

��, ��, �2, �3 , ��~E�1; 0,5) ��, ��, �2, �3 , … , ��: ~E�1; 0,5)

Page 14: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

14

0 50

Distribuzione di frequenza

(assoluta) del numero di volte in

cui, lanciando N=10.000 volte 100

monete, si ottengono 0 Teste, 1

Testa, …, 50 Teste.

H~E�100; 0,5) = �� + �� +⋯+ ��::

Quando una v.a. binomiale è

normalizzata al numero dei lanci si

ottiene una media campionaria

%JK. L,-)+-)%JK. L,/0%1, = G6.M. -)+-0H

100~�� +⋯+ ��::

100

��, ��, �2, �3 , … , ��:: ~E�1; 0,5)

Al crescere

di n la varianza

diminuisce

La distribuzione

si concentra

attorno al

valore medio

NOP⋯PNQ� → G

Page 15: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

15

Questo risultato è noto come

legge dei grandi numeri

Al crescere del numero delle prove

la frequenza relativa converge alla

probabilità di occorrenza dell’evento

Nel lancio simulato di una moneta al computer

Esempio: Alle ultime elezioni politiche, in un certo seggio hanno votato 1000 persone.

Si sa che nelle precedenti elezioni, il partito A aveva ricevuto il 51% delle preferenze.

Basandosi sul dato precedente, calcolare la probabilità che alle ultime elezioni il partito abbia

avuto una percentuale di preferenze tra il 48% e il 53%.

Il numero di voti ricevuti dal partito A è una v.a. binomiale E�1000; 0,51)Il numero di voti ricevuti dal partito A normalizzato a 1000

rappresenta la media campionaria di un campione casuale

estratto da una popolazione bernoulliana. Quale?

X 0 1

P(X=x) 0,49 0,51

E�1000; 0,51) 1000

R��:::;:,��) �::: ~" 0,51;:,��×:,3'�:::

Per calcolare è necessario standardizzare, ossia

=-1,90

=1,27

= 0,8980 – 0,0287 = 86%

Proporzioni/Frequenze relative

Page 16: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

16

Il problema inverso

Esempio: Alle ultime elezioni politiche, in un certo seggio hanno votato 1000 persone. Si sa che

nelle precedenti elezioni, il partito A aveva ricevuto il 51% delle preferenze. Qual è l’intervallo

in cui la percentuale di preferenze attuali ricadrà presumibilmente con una confidenza del

95%.

0.40 0.45 0.50 0.55 0.60

0.0

00

0.0

05

0.0

10

0.0

15

0.0

20

0.0

25

x/1000

y

95%

1 − B = 0,951 − B 28 = 0,975; = D ?:,:�� = 0,025; = D ?:,'C� = 0,975

B 28 = 0,025

?:,:�� = −1,96?:,'C� = 1,96

Per determinare tale intervallo è necessario

trasformare Z nella v.a. E�1000; 0,51)

1000e fare la stessa operazione per i quantili

La risposta al quesito si ottiene trasformando i quantili della v.a. gaussiana standard

negli estremi G�, G� tali che ; G� < R��:::;:,��) �::: < G� = 0,95.

Il problema inverso

Esempio: Alle ultime elezioni politiche, in un certo seggio hanno votato 1000 persone. Si sa che

nelle precedenti elezioni, il partito A aveva ricevuto il 51% delle preferenze. Qual è l’intervallo

in cui la percentuale di preferenze attuali ricadrà presumibilmente con una confidenza del

95%.

G� − 0,510,51 × 0,49

1000

Con una probabilità del 95%, alle nuove elezioni, il partito A riceverà una percentuale di prefe-

renze tra il 48% e il 54%.

G� − 0,510,51 × 0,49

1000

=0,48=-1,96

=1,96 =0,54

Page 17: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

17

Esempio: Nell’esempio esaminato, si conosce la percentuale di preferenze alle precedenti

elezioni. Cosa accade se tale percentuale non è nota? E’ possibile determinare l’intervallo in cui

la percentuale di preferenze attuali ricadrà presumibilmente con una confidenza del 95%?

Exit Pool: A 100 cittadini all’uscita dal seggio elettorale viene chiesto per

quale partito hanno votato.

Ad esempio, il partito A ha ricevuto il 52,3% delle preferenze.

e può essere usato come valore «storico» per il calcolo dell’intervallo,

ossia negli estremi calcolati nell’esercizio precedente si sostituisce a 0,51 il valore 0,523

52,3% rappresenta una stima puntuale del valore p (la percentuale di preferenze effettiva)

0,523 Al posto di 0,49 si inserisce 1-0,523=0,477

=0,425

=0,621

[42,5%; 62,1%]

Intervalli di confidenza per proporzioni

L’intervallo G�; G� con

si dice intervallo di confidenza al 95% per la percentuale p dell’evento etichetta-bile come successo.

Cambiando campione casuale, cambia tale intervallo. Ad esempio per il 51%, l’intervallo

è [41,2%;60,8%]; per il 52,3% l’intervallo risulta [42,5%;61,2%] (n=100).

Page 18: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

18

Al crescere del livello di confidenza

l’intervallo si allarga

Quale valore viene modificato al crescere del livello di confidenza?

G� = G + ?:,:�� ×G × �1 − G)

% G� = G + ?:,'C� ×G × �1 − G)

%

G� = G − ?:,'C� ×G × �1 − G)

% G� = G + ?:,'C� ×G × �1 − G)

%

G� = G − 1,96 × G × �1 − G)%

G� = G + 1,96 × G × �1 − G)%

Notazioni:

Esempio: Qual è l’intervallo in cui la percentuale di preferenze attuali ricadrà presumibilmente

con una confidenza del 90%?

1 − B = 0,90 1 − B 28 = 0,95B 28 = 0,05?:,'� = 1,64; = D ?:,'� = 0,95

=48,4% =53,6%

Esempio: Qual è l’intervallo in cui la percentuale di preferenze attuali ricadrà presumibilmente

con una confidenza del 99%?

1 − B = 0,99 1 − B 28 = 0,995; = D ?:,''� = 0,995

B 28 = 0,005?:,''� = 2,57

G� = 0,51 − ?:,'� ×0,51 × 0,49

1000 G� = 0,51 + ?:,'� ×0,51 × 0,49

1000

=46,9%G� = 0,51 − ?:,''� ×0,51 × 0,49

1000 =55,1%G� = 0,51 + ?:,''� ×0,51 × 0,49

1000

1,64 1,64

2,57 2,57

Page 19: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

19

L'episodio pilota è un singolo episodio di una serie o di un serial

televisivo trasmesso prima del primo episodio regolare.

Di solito viene prodotto, e trasmesso, per valutare il primo responso

del pubblico e per vendere il programma ad una rete televisiva.

Spesso viene effettuata una proiezione in anteprima dell'episodio pilota a un pubblico

selezionato per analizzarne preventivamente le reazioni e valutare il target commerciale.

Quante persone selezionare?

Determinare il valore di n tale che la percentuale di gradimento G stimata differisca da quella

vera G per meno di, ad esempio 0,01, con probabilità 95%.

G → R��,U)� (frequenza relativa = media

campionaria popolazione di Bernoulli)

G (percentuale di gradimento vera)

; G − G < 0,01 = 0,95

; E�%, G)% − G < 0,01 = 0,95

;E�%, G)% − G

G × �1 − G)%

< 0,01G × �1 − G)

%= 0,95 0,01

G × �1 − G)%

= ?:,'C� Per quale valore

di p?

Sample size: i telefilm Pilota

506 E) G = G�1 − G)

0,25Assegnata una v.a. di Bernoulli, si ha

La funzione assume il suo valore massimo 0,25

in corrispondenza di p=0,5.

0,01G × �1 − G)

%= ?:,'C�

0,010,5 × �1 − 0,5)

%= ?:,'C�

Il valore risultante è 9604.

E’ necessario decrementare 9604 secondo un fattore di proporzionalità

che tenga conto della popolazione finita.

Determinare il valore di % tale che dove " è la taglia della popolazione (2000)

e %: è il valore determinato con l’ausilio dell’intervallo di confidenza (9604)

Nel caso esaminato,

n=1655,3 ossia 1656.

Supponiamo che il database dal quale possano essere

estratti i nominativi delle persone disponibili alla visio-

ne del telefilm pilota sia costituito da 2000 unità.

Page 20: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

20

Esempio: Un paesino conta 250 famiglie. Sono state campionate 40 famiglie, e di queste 15

leggono con assiduità il giornale locale . Determinare un intervallo di confidenza al 95%

per la percentuale di famiglie che legge il giornale locale.

G± ?��V/� UW×���UW)� × ���

���

varianza della popolazione di Bernoulli.

La popolazione da cui viene estratto il campione casuale ha nume-

rosità limitata. Il fattore di correzione viene usato per aggiornare la

G = 1540 = 0,375

?:,'C� = 1,96

G × �1 − G)% = 0,076

������ = 0,91

G� = 23,72%G� = 51,27%

Se non fosse stato usato il

fattore di correzione di con-

tinuità, allora

G� = 22,49%G� = 52,50%

Popolazione finita

Intervalli di confidenza per la media

��

Popolazione Non Gaussiana

Approssimazione gaussiana

se n > 30 (TCL)

Approssimazione gaussiana se

popolazione di Bernoulli

Popolazione Gaussiana

Distribuzione gaussiana

L’intervallo di confidenza è un intervallo di valori plausibili che accompagna la stima puntuale

di un parametro.

E’ possibile costruire intervalli di confidenza per la media della popolazione.

Come?

Page 21: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

21

Esempio: Il contenuto di Coca-Cola in una singola bottiglia può subire piccole variazioni. I dati

indicano che il contenuto delle bottiglie segue una legge gaussiana con media 33cc e deviazio-

ne standard 1,5cc. Oggi, alle 8am, il responsabile del controllo di qualità ha selezionato 16 bot-

tiglie, trovando una media campionaria di 32,87cc.

Costruire un intervallo di confidenza al livello del 95% per il contenuto medio delle bottiglie.

32,87cc rappresenta una stima puntuale del contenuto medio delle bottiglie.

E’ possibile determinare un intervallo, tale che il valore del contenuto medio

delle bottiglie (teorico) appartiene a tale intervallo con probabilità 95%?

0,95

?:,:�� = −?:,'C� = −1,96 ?:,'C� = 1,96

; −?:,'C�< = D ?:,'C� = 0,95

; −?:,'C�<�� − �� %8 D ?:,'C� = 0,95

; −?:,'C��% < �� − � D ?:,'C�

�% = 0,95

; �� − ?:,'C��% < � D �� +?:,'C�

�% = 0,95 32,87 − 0,735; 32,87 + 0,735

32,87 1,5

16

La v.a. E�%; G)% = 1

% �� + �� +⋯+ �� con ��, ��, … , �� v.a. indipendenti ed identica-

mente distribuite, con legge di probabilità è un esempio di statistica.

��, ��, … , ��Il vettore è un esempio di campione casuale

�: preferenza per il partito A o B

Y�: Andrea ��Y�) = preferenza partito di Andrea

La v.a.�� è tale che �� Y� = ��Y�): prima unità statistica

Y�: Giuseppe ��Y�) = preferenza partito di Giuseppe

La v.a.�� è tale che �� Y� = ��Y�): seconda unità statistica

� La v.a. �� è una copia della v.a. ��.

� La v.a. �� è indipendente dalla v.a. �� poiché la prima si riferisce ad un primo campionamento

casuale e la seconda si riferisce ad un secondo campionamento casuale.

Lo stimatore si dice corretto perché � R��;U)� = G. E�%; G)

% = 1% �� + �� +⋯+ ��

Statistiche corrette

Z:[\[\]^_`\abcbabd^ed`fb

E) G ,

Page 22: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

22

La v.a. �� = 1% �� + �� +⋯+ �� con

��, ��, … , ��Il vettore è un esempio di campione casuale

�: altezza studente UNIBAS

Y�: Andrea ��Y�) = altezza di Andrea

La v.a.�� è tale che �� Y� = ��Y�): prima unità statistica

Y�: Giuseppe ��Y�) = altezza di Giuseppe

La v.a.�� è tale che �� Y� = ��Y�): seconda unità statistica

� La v.a. �� è una copia della v.a. ��.

� La v.a. �� è indipendente dalla v.a. �� poiché la prima si riferisce ad un primo campionamento

casuale e la seconda si riferisce ad un secondo campionamento casuale.

La stimatore si dice corretto perché � �� = μ. �� = 1% �� + �� +⋯+ ��

Z:[\[\]^_`\abcbabd^ed`fb

��, ��, … , �� v.a. indipendenti ed identicamente

distribuite, con legge di probabilità hN è un esempio di statistica.

Parliamone davanti ad un bicchiere di birra…

In compagnia di

William S. Gosset (1876-1937)

A Student of Statistics

Quando non si conosce la varianza della popolazione

al suo posto si può usare la varianza campionaria.

Ai percentili della v.a. gaussiana vanno sostituiti

quelli della variabile aleatoria T-Student → -0i./)

In tal caso la distribuzione di �� è descritta dalla variabile

aleatoria T-Student.

Gradi di libertà

Varianza non nota

Page 23: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

23

Esempio: Il contenuto di Coca-Cola in una singola bottiglia può subire piccole variazioni. I dati

indicano che il contenuto delle bottiglie segue una legge gaussiana con media 33cc. Oggi, alle

8am, il responsabile del controllo di qualità ha selezionato 16 bottiglie, trovando una media

campionaria di 32,87cc e una deviazione standard campionaria di 1,5 cc .

Costruire un intervallo di confidenza al livello del 95% per il contenuto medio delle bottiglie.

32,87cc rappresenta una stima puntuale del contenuto medio delle bottiglie.

1,5cc rappresenta una stima puntuale della deviazione standard campionaria

delle bottiglie.

�� − �� %8 = =~"�0,1)

�� − �j %8

= k���

Al posto di si usa

gradi lib=16-1

; −?:,'C�< = D ?:,'C� = 0,95 ; −-:,'C�;�� < k D -:,'C�;�� = 0,95; −2,1314 < k D 2,1314 = 0,95

�� − �j %8 ; −2,1314 < �� − �

j %8 D 2,1314 = 0,95

; −2,1314 j% < �� − � D 2,1314 j

% = 0,95

; �� − 2,1314 j% < � D �� + 2,1314 j

% = 0,95

Page 24: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

24

; �� − 2,1314 j% < � D �� + 2,1314 j

% = 0,95

Viene sostituito con la media campionaria 32,87cc

; 32,87 − 2,1314 j% < � D 32,87 + 2,1314 j

% = 0,95

Viene sostituito con la deviazione campionaria 1,5cc

; 32,87 − 2,13141,5% < � D 32,87 + 2,13141,5% = 0,95

Viene sostituito con la taglia 16

; 32,87 − 2,1314 1,516 < � D 32,87 + 2,1314 1,516 = 0,95

[32,07; 33,06]Con probabilità pari al 95%, il contenuto medio delle bottiglie di coca cola assume un valore

compreso tra 32,07cc e 33,06cc. Cambiando campione casuale, l’intervallo cambia.

Esempio: Il contenuto di Coca-Cola in una singola bottiglia può subire piccole variazioni. I dati

indicano che il contenuto delle bottiglie segue una legge gaussiana con media 33cc. Oggi, alle

9am, il responsabile del controllo di qualità ha selezionato 16 bottiglie, trovando una media

campionaria di 32,97cc e una deviazione standard campionaria di 1,8 cc .

Costruire un intervallo di confidenza al livello del 95% per il contenuto medio delle bottiglie.

; �� − 2,1314 j% < � D �� + 2,1314 j

% = 0,95

Viene sostituito con la media campionaria 32,97cc

; 32,97 − 2,1314 j% < � D 32,97 + 2,1314 j

% = 0,95

Viene sostituito con la deviazione campionaria 1,8cc

; 32,97 − 2,13141,8% < � D 32,97 + 2,13141,8% = 0,95

Viene sostituito con la taglia 16

; 32,97 − 2,1314 1,816 < � D 32,97 + 2,1314 1,816 = 0,95

[32,01; 33,92] [32,07; 33,06]L’intervallo precedente è

Page 25: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

25

Osservazione: La v.a. T-Student è il rapporto tra due v.a.:

�� − �j %8

=�� − �

%lj =

�� − �� %8j �8

=

�� − �� %8j�

% − 1% − 1

= =m� % − 18

Rapporto tra variabili aleatorie

dove si è posto m�=����) ! j�

La v.a. S nella definizione della T-Student è la varianza campionaria, definita come:

j� = 1% − 1 �� − �� � + �� − �� � +⋯+ �� − �� �

� E’ un esempio di statistica.

Se la popolazione è gaussiana, è possibile caratterizzare la legge di probabilità di j�?

La statistica j� è uno stimatore corretto?

Di quale parametro?

Qual è la legge di probabilità di ?m�

Distribuzione campionaria della varianza

Si consideri la v.a. X con distribuzione di probabilità:

X 1 2 3 4

f(x) 0,2 0,1 0,3 0,4

Si elenchino i possibili campioni di dimensione 2 e si ricavi

la distribuzione di probabilità della varianza campionaria.

Coppie

(1,1)

(1,2)

(1,3)

(1,4)

(2,1)

(2,2)

(2,3)

(2,4)

Ad esempio, il valore di +o=0,5 corrispondente a (1,2) si ottiene calcolando [�1 − 1,5)�+

�2 − 1,5)�]/�2 − 1) = 0,5.

p�Zq = r; Zo = s)0,2×0,2=0,04

0,2×0,1=0,02

0,2×0,3=0,06

0,2×0,4=0,08

0,1×0,2=0,02

0,1×0,1=0,01

0,1×0,3=0,03

0,1×0,4=0,04

Coppie

(3,1)

(3,2)

(3,3)

(3,4)

(4,1)

(4,2)

(4,3)

(4,4)

rt uo1,0 0

1,5 0,5

2,0 2,0

2,5 4,5

1,5 0,5

2,0 0

2,5 0,5

3,0 2,0

rt uo2,0 2,0

2,5 0,5

3,0 0,0

3,5 0,5

2,5 4,5

3,0 2,0

3,5 0,5

4,0 0,0

p�Zq = r; Zo = s)0,3×0,2=0,06

0,3×0,1=0,03

0,3×0,3=0,09

0,3×0,4=0,12

0,4×0,2=0,08

0,4×0,1=0,04

0,4×0,3=0,12

0,4×0,4=0,16

Page 26: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

26

X 1 2 3 4

f(x) 0,2 0,1 0,3 0,4

vo 0,0 0,5 2,0 4,5

f(x) 0,30 0,34 0,20 0,16

� � = 1 × 0,2 + 2 × 0,1 + 3 × 0,3 + 4 × 0,4 = 2,9

506 � = �1 − 2,9)�× 0,2 + �2 − 2,9)�× 0,1 + �3 − 2,9)�× 0,3 + �4 − 2,9)�× 0,4 = 1,29

� jo = 0 × 0,3 + 0,5 × 0,34 + 2 × 0,2 + 4,5 × 0,16 = 1,29

� jo = 506 �

Media della popolazione

Varianza della popolazione

=�

La v.a. chi-quadrato è somma di quadrati di v.a. gaussiane standard.

w = 1 w = 2

w = 3w = 5

Page 27: Distribuzioni campionarieold06/05/2015 1 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltànelraccoglieretuttele informazionidi

06/05/2015

27

La variabile aleatoria ��� ! j� dove j� = �

��� �� − �� � + �� − �� � +⋯+ �� − �� �

ha distribuzione chi-quadrato con gradi di libertà % − 1.

�% − 1)�� j� = �� − �� �

�� + �� − �� �

�� +⋯+ �� − �� �

��

Infatti

Lo stimatore è corretto perché � j� = �� j�

Esempio: L’osservazione della durata (in ore) della batteria per cellulare di una data marca

in 24 esemplari di prodotto ha dato luogo ai seguenti risultati:

58,7 64,9 76,9 67,8 41,7 56,7 64,5 69,7 82,1 82,5 40,8 74,9

71,5 75,4 67,3 73,0 70,4 104 82,3 90,4 86,8 72,8 71,8 54,5

La media campionaria risulta 70,9. La varianza campionaria risulta 203,45.

E’ possibile determinare un intervallo di confidenza al 95% per la varianza della

popolazione?

E’ possibile usare una v.a. chi-quadrato con gradi di libertà 23.

1 −B 1 − B = 0,951 − B 28 = 0,975B 28 = 0,025

B/2B/2

=11,68

=38,07

; 11,68 < % − 1�� j� D 38,07 = 0,95 ; �% − 1)j�

38,07 < �� D �% − 1)j�11,68 = 0,95

; 23 × 203,4538,07 < �� D 23 × 203,45

11,68 = 0,95% ← 24, j� ← 203,45