32
STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili osservazioni relative ad un fenomeno. Popolazione é, ad esempio, l’insieme di tutti gli abitanti di una cittá, di una regione, degli iscritti a Matematica Informatica, ecc. Puo’ succedere (troppo costoso, troppo complicato,…) che non sia possibile analizzare singolarmente tutti gli elementi di una popolazione. Ad esempio : o il numero delle zanzare di uno stagno : non é possibile catturale tutte… o il numero dei leucociti nel sangue di una persona : si dovrebbe avere a disposizione tutto il sangue… o la percentuale di lampadine funzionanti : si dovrebbero provare tutte... Il campione é un sottoinsieme della popolazione, cioé un numero di elementi della popolazione che ne riproduce le caratteristiche. Non potendo conoscere i parametri che specificano la popolazione ( media,varianza,…) si utilizzano i dati del campione per poterli determinare. Queste tecniche statistiche si chiamano INFERENZA STATISTICA. ANALISI DATI CAMPIONE Molto importante é selezionare il campione in modo corretto, cioé : o rappresentativo della popolazione ( se, ad esempio, si estrae un campione da una popolazione umana per effettuare misurazioni sull’altezza non si puo’ avere un campione formato da soli maschi o sole femmine). o Formato da elementi fra di loro indipendenti (se, ad esempio, si estrae un campione da una popolazione umana per effettuare misurazioni sull’altezza non si puo’ avere un campione formato da elementi della stessa famiglia in quanto l’altezza dei figli dipende in parte da quella dei genitori).

STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili osservazioni relative ad un fenomeno. Popolazione é, ad esempio, l’insieme di tutti gli abitanti di una cittá, di una regione, degli iscritti a Matematica Informatica, ecc.

Puo’ succedere (troppo costoso, troppo complicato,…) che non sia possibile analizzare singolarmente tutti gli elementi di una popolazione. Ad esempio :

o il numero delle zanzare di uno stagno : non é possibile catturale tutte… o il numero dei leucociti nel sangue di una persona : si dovrebbe avere a disposizione tutto

il sangue… o la percentuale di lampadine funzionanti : si dovrebbero provare tutte...

Il campione é un sottoinsieme della popolazione, cioé un numero di elementi della popolazione che ne riproduce le caratteristiche.

Non potendo conoscere i parametri che specificano la popolazione ( media,varianza,…) si utilizzano i dati del campione per poterli determinare.

Queste tecniche statistiche si chiamano INFERENZA STATISTICA.

CARATTERISTICA X DELLA POPOLAZIONE

CARATTERISTICA X DEL CAMPIONE

ANALISI DATI CAMPIONE Molto importante é selezionare il campione in modo corretto, cioé :

o rappresentativo della popolazione ( se, ad esempio, si estrae un campione da una popolazione umana per effettuare misurazioni sull’altezza non si puo’ avere un campione formato da soli maschi o sole femmine).

o Formato da elementi fra di loro indipendenti (se, ad esempio, si estrae un campione da una popolazione umana per effettuare misurazioni sull’altezza non si puo’ avere un campione formato da elementi della stessa famiglia in quanto l’altezza dei figli dipende in parte da quella dei genitori).

Page 2: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Nel corso verranno esaminate alcune delle tecniche che permettono di ottenere informazioni circa i parametri sconosciuti di una caratteristica di una popolazione a partire dai dati di un campione.

La distribuzione campionaria La caratteristica relativa ad una popolazione ha una distribuzione (o legge) : conoscendo tutti i valori di una variabile ( si pensi ad esempio al peso di una popolazione umana) é possibile calcolarne la media, la varianza, la funzione di ripartizione cumulata, ecc. Ad esempio si consideri la popolazione umana costituita da n=20 elementi i cui dati relativi alle variabili altezza e peso sono riportati nella tabella seguente :

Tabella dei dati N ALTEZZA

(cm) PESO (kg)

N ALTEZZA(cm)

PESO (kg)

1 180 65 11 170 65 2 180 60 12 180 65 3 180 50 13 180 80 4 160 50 14 175 55 5 160 45 15 170 70 6 160 45 16 180 65 7 165 55 17 170 75 8 170 55 18 170 70 9 180 70 19 175 80 10 180 80 20 160 50

I principali indici statistici delle variabili altezza e peso sono :

Variabile N Media Mediana StDev Minimo Massimo Q1 Q3 ALTEZZA 20 172.25 172.50 7.66 160 180 166.25 180

PESO 20 62.50 65 11.23 45 80 51.25 70

- 2 -

Page 3: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

I valori assunti dalle due variabili sono riportati nelle seguenti tabelle e rappresentate dai grafici a barre.

Peso Conteggi 45 2 50 3 55 3 60 1 65 4 70 3 75 1 80 3

totale 20

Altezza Conteggi 160 4 165 1 170 5 175 2 180 8

totale 20

Tabella distribuzione variabile peso

valori Freq. Assoluta Freq. Relativa Freq. percentuale Freq. % cumulata 45 2 0.10 10 10 50 3 0.15 15 25 55 3 0.15 15 40 60 1 0.05 5 45 65 4 0.20 20 65 70 3 0.15 15 80 75 1 0.05 5 85 80 3 0.15 15 100

totale 20 1 100

- 3 -

Page 4: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

La caratteristica della popolazione su cui si intende svolgere l’analisi statistica é una variabile aleatoria che viene di solito indicata con la lettera X. Si consideri ora una popolazione dalla quale si vogliono estrarre dei campioni di numerositá n relativi ad una variabile X .

Ogni elemento della popolazione ha la stessa probabilitá di essere estratto, quindi estraendo n elementi questi avranno la stessa probabilitá di estrazione di ogni altra n-upla di elementi (insieme contenente n elementi) che si estraggono con le stesse modalitá . Ad ogni elemento estratto si fa corrispondere un valore reale, quindi i valori del campione si possono considerare come una possibile realizzazione di una variabile aleatoria X ed é possibile calcolare la media campionaria, la varianza campionaria, ecc. Per meglio capire il concetto di distribuzione campionaria si consideri il seguente esempio che prende in esame due popolazioni X e Y : POPOLAZIONE X x 1 2 3 4 5 P(x) 0.2 0.2 0.2 0.2 0.2

54321

0,250

0,225

0,200

0,175

0,150

POPOLAZIONE Y y 1 2 3 4 5 P(y) 0.4 0.2 0.2 0.1 0.1

54321

0,40

0,35

0,30

0,25

0,20

0,15

0,10

Nella prima popolazione, gli elementi cui corrispondono i valori da 1 a 5 sono equamente distribuiti, mentre nella seconda popolazione vi sono il 40 % di elementi con il numero 1, il 20 % con il numero 2 e cosi via.

- 4 -

Page 5: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Le medie e le varianze delle due popolazioni sono:

( )

( )

5

15

22

15

15

22

1

( ) ( ) 3

var( ) ( ) 2

( ) ( ) 2 .3

( ) ( ) 1 .81

X i ii

X ii

Y i ii

Y ii

E X x p x

X x E X

E Y y p y

V ar Y y E Y

µ

σ

µ

σ

=

=

=

=

= = =

= = − =

= = =

= = − =

Il problema del campionamento consiste nello stimare i parametri µ (media) e σ2 (varianza) delle popolazioni usando le informazioni fornite da un campione. Nella tabella seguente sono riportati tutti i possibili campioni di numerositá 2 ottenibili dalle due popolazioni, la probabilitá di estrazione, la media e varianza di ogni campione. Campioni (n=2) Probabilitá di estrazione Media Varianza X Y

(1,1) 0.2*0.2 = 0.04 0.4*0.4 = 0.16 1 0 (1,2) 0.04 0.2*0.4 = 0.08 1.5 0.25 (1,3) 0.04 0.2*0.4 = 0.08 2 1 (1,4) 0.04 0.2*0.4 = 0.08 2.5 2.25 (1,5) 0.04 0.2*0.4 = 0.08 3 4 (2,1) 0.04 0.4*0.2 = 0.08 1.5 0.25 (2,2) 0.04 0.2*0.2 = 0.04 2 0 (2,3) 0.04 0.2*0.2 = 0.04 2.5 0.25 (2,4) 0.04 0.2*0.1 = 0.02 3 1 (2,5) 0.04 0.2*0.1 = 0.02 3.5 2.25 (3,1) 0.04 0.4*0.2 = 0.08 2 1 (3,2) 0.04 0.2*0.2 = 0.04 2.5 0.25 (3,3) 0.04 0.2*0.2 = 0.04 3 0 (3,4) 0.04 0.2*0.1 = 0.02 3.5 0.25 (3,5) 0.04 0.2*0.1 = 0.02 4 1 (4,1) 0.04 0.1*0.4 = 0.08 2.5 2.25 (4,2) 0.04 0.1*0.2 = 0.02 3 1 (4,3) 0.04 0.1*0.2 = 0.02 3.5 0.25 (4,4) 0.04 0.1*0.1 = 0.01 4 0 (4,5) 0.04 0.1*0.1 = 0.01 4.5 0.25 (5,1) 0.04 0.1*0.4 = 0.08 3 4 (5,2) 0.04 0.1*0.2 = 0.02 3.5 2.25 (5,3) 0.04 0.1*0.2 = 0.02 4 1 (5,4) 0.04 0.1*0.1 = 0.01 4.5 0.25 (5,5) 0.04 0.1*0.1 = 0.01 5 0

- 5 -

Page 6: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Nelle tabelle seguenti sono riportate le distribuzioni campionarie delle medie e delle varianze delle due popolazioni X e Y .

DISTRIBUZIONE DELLA MEDIA DI X

x 1 1.5 2 2.5 3 3.5 4 4.5 5

p( x ) 0.04 0.08 0.12 0.16 0.20 0.16 0.12 0.08 0.04

DISTRIBUZIONE DELLA MEDIA DI Y

y 1 1.5 2 2.5 3 3.5 4 4.5 5

p( y ) 0.16 0.16 0.20 0.16 0.16 0.08 0.05 0.02 0.01

DISTRIBUZIONE DELLA VARIANZA DEI CAMPIONI ESTRATTI DA X

var(X) 0 0.25 1 2.25 4 p(var(X)) 0.20 0.32 0.24 0.16 0.08

DISTRIBUZIONE DELLA VARIANZA DEI CAMPIONI ESTRATTI DA Y

var(Y) 0 0.25 1 2.25 4

p(var(Y)) 0.26 0.30 0.24 0.12 0.08 Quindi:

• la variabile aleatoria X ha come media E( X ) = 3 = µX • la variabile aleatoria Y ha come media E( Y ) = 2.3 = µY.

Inoltre

5

ii=1

E(Var(X))= var(x ) (var( )) 0*0.20 0.25*0.32 1*0.24 2.25*0.16 4*0.08 1ip x = + + + +∑ =

E(Var(Y)) = 0.905 Questi valori non coincidono con la varianza delle rispettive popolazioni , ma con la metá di tali valori. La regola generale é che la varianza della distribuzione delle medie ha come valore quello della varianza della popolazione divisa per la numerositá campionaria. In generale X rappresenta una caratteristica della popolazione con E(X)=µ sconosciuta e Var(X)=σ2 sconosciuta. Se X1,X2,…,Xn é un campione estratto da X si considerano X1,X2,…,Xn variabili aleatorie con la stessa legge ( e quindi con uguale media e varianza) di X.

- 6 -

Page 7: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Il calcolo di media e varianza di 1 2 nn

X +X +...+XX =n

porta ai seguenti risultati :

• 1 1X ... E(X ) ... ( ) ...E(X)=E n nX E X nn n n

µ µ µn

µ+ + + + + +⎛ ⎞ = = =⎜ ⎟⎝ ⎠

=

• 2 2

1 12 2

X ... var(X ) ... var( )var(X)=var n nX X nn n n n

σ σ+ + + +⎛ ⎞ = =⎜ ⎟⎝ ⎠

=

Riassumendo la distribuzione delle medie ha la stessa media della distribuzione della

popolazione ma dispersione minore pari a 2

n nσ σ

= . Tale quantitá viene chiamata errore standard

della media ( mean standard error) e viene indicata con xσ . Quindi estraendo campioni casuali da una popolazione con media µ, la media campionaria sará vicina a µ.

STIMATORI (stima puntuale) Uno degli scopi della statistica inferenziale é quello di ottenere informazioni circa i parametri di una popolazione ( che si devono considerare fissi ) a partire da valori determinati in base al campione. I valori del campione possono essere considerati come i valori assunti da variabili aleatorie che hanno la stessa legge della popolazione dalla quale provengono. Ricapitolando : X1,X2,...,Xn sono n variabili aleatorie indipendenti con la legge uguale a X ; x1,x2,...,xn sono i valori assunti dalle n variabili aleatorie (realizzazione). Si cercano indicazioni il piú possibile precise sui parametri ignoti di una popolazione ( di solito media e varianza) attraverso i valori campionari. La metodologia per risolvere questi problemi viene definita stima . La stima dei parametri di una popolazione si effettua attraverso uno STIMATORE, funzione dei valori del campione, che fornisce un valore approssimato del parametro. Quindi uno stimatore é una funzione T(X1,X2,...,Xn) del campione. Il valore di uno stimatore per un dato (assegnato) campione viene detto STIMA. Riassumendo :

T(X1,X2,...,Xn) é uno STIMATORE

t(x1,x2,...,xn) é una STIMA

- 7 -

Page 8: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Lo stimatore T é in pratica una “regola” che si utilizza per determinare il possibile valore del parametro incognito (media, varianza). Quando la regola é stata stabilita saranno i valori del campione a determinare la stima t del parametro. Se una caratteristica X (v.a.) della popolazione ha legge f(x) significa che ciascun elemento del campione X1,X2,...,Xn é una v.a. di legge f(x) ed é possibile determinare f(x1),...,f(xn). É sempre nota la legge di X ma non sono noti ( sono incogniti) uno o piú parametri della sua distribuzione. X ha legge Binomiale [X~B(n,p)] -- ma --- p é sconosciuto X ha legge di Poisson [X~Poi(k)] -- ma --- k é sconosciuto X ha legge di Gaussiana [X~N(µ,σ)] -- ma --- µ e/o σ sono sconosciuti Riassumendo :che cosa significa estrarre un campione da X ? Se X ha legge f(x) una Binomiale con n=10 e con p incognito uno dei possibili grafici per f(x) é riportato sotto.

----- X1,X2,...,Xn ~ B(10,p)

o Il campione X1,X2,...,Xn estratto da X é formato da n v.a. ciascuna di legge B(10,p).

o I valori x1,x2,...,xn del campione dipendono dalla legge f(x).

Stimatori per la media (variabili quantitative) Sia X una caratteristica di legge f(x) della popolazione P. Si suppone tale legge conosciuta ma avente media µ incognita. La principale proprietá che deve avere uno stimatore é quella di essere il piú possibile vicino al parametro che si deve stimare.Uno stimatore con questa proprietá si dice non distorto o accurato . Uno stimatore T si dice non distorto se la sua media (E(T)) é uguale al parametro da stimare;in altre parole lo stimatore puo’ assumere valori diversi dalla media µ della popolazione ma la media dei valori assunti sará uguale a µ.

- 8 -

Page 9: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

ESEMPIO : X variabile quantitativa ( relativa ad una popolazione P) di media µ incognita. 1 2 n

nX +X +...+XX =

n é uno stimatore non distorto per µ in quanto n(X )=E µ .

Quali fra i seguenti stimatori sono non distorti ?

11

X +XS =2

2 SI NO 1 22

X +X +XS =2

3 SI NO 1 23

X +X +XS =3

3 SI NO

Stimatori per la proporzione (variabili qualitative) Quando si vuole stimare il valore di una proporzione si procede assumendo come valore dello stimatore il valore della proporzione rispetto ai dati del campione. ESEMPIO Una scatola contiene palline rosse e bianche. Si vuole stimare la proporzione di palline rosse attraverso i dati di un campione. Indicando con NR il numero di rosse e N la numerositá del campione si ottiene che la stima della proprzione vale

NRpN

=

ESEMPIO Sia una popolazione composta da 3 individui di sesso femminile e 1 di sesso maschile. Si estraggono campioni di numerositá 2 per stimare la proporzione di individui di sesso femminile.

1 2 3 , , , F F F MΩ =

La caratteristica X ha legge di Bernoulli di parametro p=0.75, cioé

3( ) 0.7541( ) 0.254

P X F

P X M

= = =

= = =

X X1 X2 X3 X4

x F1 F2 F3 M

- 9 -

Page 10: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Nella tabella seguente sono riportati i possibili campioni e la loro frequenza:

numero campione

Composizione Frequenza numero campione

Composizione Frequenza

1 M M 1/16 9 F1 F2 1/16 2 M F1 1/16 10 F1 F3 1/16 3 M F2 1/16 11 F2 F1 1/16 4 M F3 1/16 12 F2 F3 1/16 5 F1 M 1/16 13 F3 F3 1/16 6 F2 M 1/16 14 F3 F1 1/16 7 F3 M 1/16 15 F3 F2 1/16 8 F1 F1 1/16 16 F3 F3 1/16

Se si utilizza quale stimatore Sp di p la frequenza degli individui di sesso femminile nel campione si ottengono i seguenti valori :

o nel campione [M,M] la frequenza di individui di sesso femminile vale zero (1 volta) o nel campione [M,F] la frequenza di individui di sesso femminile vale 0.5 ( 6 volte) o nel campione [F,F] la frequenza di individui di sesso femminile vale 1 (9 volte)

La tabella seguente riporta la legge dello stimatore Sp

Sp frequenza 0 1/16

0.5 6/16 1 9/16

Si puo’ osservare che nessuno degli stimatori vale 0.75 che é la vera frequenza nella popolazione. Lo stimatore Sp é non distorto in quanto E(Sp)=0.75, infatti :

E(Sp)=0*1/16 + 0.5*6/16 + 1*9/16 = 0.75. Stimatori per la varianza (variabili quantitative) L’errore di campionamento degli stimatori non distorti é misurato dalla varianza E[(T-µ)2].

Si é giá visto che la varianza della media di un campione di n elementi vale 2

var(X)nσ

= .

Come si puo’ costruire lo stimatore della varianza ? Se la media della popolazione non é nota viene stimata dalla media campionaria x .

- 10 -

Page 11: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Lo stimatore S2 cercato potrebbe avere espressione : ( )2

2

1

1 n

ii

R X Xn =

= −∑ .

Si vuole verificare se é non distorto, cioé se E(S2)=σ2. Le seguenti operazioni servono per verificare se lo stimatore é o no distorto :

o Si osserva che vale la seguente uguaglianza : ( ) ( )i iX X X Xµ µ− = − + −

o Quindi si ha che : ( ) ( ) ( ) ( ) ( )2 22 2 *i i iX X X X X X Xµ µ µ− = − + − + − −

o Ripetendo la stessa operazione per tutti gli n elementi del campione si ha :

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

2 22

1 1

2 2

1 1

2 *

2

n n

i i ii i

n n

i ii i

X X X X X X X

X X n X X X X

µ µ

µ µ

= =

= =

µ⎡ ⎤− = − + − + − − =⎢ ⎥⎣ ⎦

= − + − + − −

∑ ∑

∑ ∑

1. Essendo inoltre ( )1

0n

ii

X X=

− =∑

Si ha che

o ( ) ( ) ( )2 22

1 1

n n

i ii i

E X E X X n E Xµ µ= =

⎛ ⎞ ⎡ ⎤ ⎡ ⎤− = − + −⎜ ⎟ ⎢ ⎥ ⎢ ⎥⎣ ⎦⎝ ⎠ ⎣ ⎦∑ ∑

o ( ) ( )2 2 2

1 1

n n

i ii i

E X E X nµ µ σ= =

⎛ ⎞ ⎡ ⎤− = − =⎜ ⎟ ⎣ ⎦⎝ ⎠∑ ∑

o ( )22

var( )E X Xnσµ⎡ ⎤− = =⎢ ⎥⎣ ⎦

o ( )2 2

1

1n

ii

nE X Xn

σ=

−⎡ ⎤− =⎢ ⎥⎣ ⎦∑

Ne segue che (2

2

1

1 n

ii

)R X Xn =

= −∑ é DISTORTO.

Si verifica facilmente che lo stimatore non distorto per la varianza é:

( )2

2

1

11

n

ii

S Xn =

= −− ∑ X

- 11 -

Page 12: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Se la media della popolazione é nota (µ nota) allora lo stimatore non distorto della varianza vale

( )2

2

1

1 n

ii

R X Xn =

= −∑

ESEMPIO Si consideri la popolazione :

POPOLAZIONE X

x 1 5 7 9 P(x) 0.25 0.25 0.25 0.25

La media vale 5.5 e la varianza 8.75.

( )

5

15

22

1

( ) ( ) 5.5

var( ) ( ) 8.75

X i ii

X ii

E X x p x

X x E X

µ

σ

=

=

= = =

= = − =

Nella tabella seguente sono riportati tutti i 16 campioni di numerositá 2 , la media e la somma dei quadrati degli scarti dalla mediadi ciascuno.

Valori campione

Media ( )22

1i k

i

X X=

−∑

[1,1] (1+1)/2=1 0 [1,5] 3 2 2(1 3) (5 3)− + − =8 [1,7] 4 18 [1,9] 5 32 [5,1] 3 8 [5,5] 5 0 [5,7] 6 2 [5,9] (5+7)/2=7 8 [7,1] 4 18 [7,5] 6 2 [7,7] 7 0 [7,9] 8 2 [9,1] 5 32 [9,5] 7 8 [9,7] 8 2 [9,9] 9 0

- 12 -

Page 13: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

La somma delle varianze di ciascun campione vale

( ) ( )2 22 22 2

1 1 1 1

1 1 140 8.754 4 16

k k

i k i kj i j i

x x x x= = = =

⎡ ⎤ ⎡ ⎤⎛ ⎞ ⎛ ⎞− = − = =⎢ ⎥ ⎢ ⎥⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ⎢ ⎥⎢ ⎥ ⎣ ⎦⎣ ⎦

∑ ∑ ∑ ∑

essendo, in questo caso, n=2 si ha :

( )

( )

2 222

1 1

2 222

1 1

1 1 8.75 4.3754 2

1 1 8.75 8.75 ( )1 4 1

k

i kj i

k

i kj i

R x xn

S x xn

= =

= =

⎧ ⎫⎡ ⎤⎪ ⎪⎛ ⎞= − = =⎢ ⎥⎨ ⎬⎜ ⎟⎝ ⎠ ⎢ ⎥⎪ ⎪⎣ ⎦⎩ ⎭

⎧ ⎫⎡ ⎤⎪ ⎪⎛ ⎞= − = =⎢ ⎥⎨ ⎬⎜ ⎟− ⎝ ⎠ ⎢ ⎥⎪ ⎪⎣ ⎦⎩ ⎭

∑ ∑

∑ ∑ VAR X=

Un altro criterio per giudicare la bontá di uno stimatore é il criterio della consistenza. Uno stimatore T di µ e consistente se, al tendere della dimensione del campione all'infinito,

P[T=µ]=1 ció significa che, man mano che la dimensione del campione aumenta, la stima ottenuta tende al vero valore del parametro ignoto. Condizione sufficiente é che la varianza dello stimatore per n grande tenda a zero.

E possibile verificare che la media campionaria X é uno stimatore consistente del parametro µ della popolazione.

Infatti applicando la disuguaglianza di Cebicev alla variabile casuale media si ottiene

2 2

2 2lim lim 1 lim 1 1x

n n nP x

nσ σ

µ εε ε→∞ →∞ →∞

⎛ ⎞ ⎛ ⎞− < ≥ − = − =⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠

per cui si puo affermare che la media campionaria converge stocasticamente, o in probabilitá, alla media della popolazione.

Questo significa che é la probabilitá che si verifichi la relazione x = µ che tende alla certezza, ma non che per n grande si ha sempre x = µ .

Infine, si consideri il criterio dell'efficienza. Se Tl e T2 sono ambedue stimatori non distorti di µ , ma per le loro varianze campionarie vale 2

122σ σ< , é da considerarsi preferibile Tl, che viene definito piú

efficiente o piú preciso.

- 13 -

Page 14: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

ESERCIZI Esercizio 1 Si vuole analizzare il comportamento dello stimatore media campionaria per stimare la media µ

di una variabile quantitativa (altezza) di una popolazione X .

X X1 X2 X3 x 160 171 173

Si estraggono campioni di numerositá 2. o Calcolare il valore di µ (media della popolazione) o Scrivere in una tabella tutti i possibili campioni di numerositá 2 estratti dalla popolazione e i

relativi valori della media campionaria.

CAMPIONE Media campionaria [160, 171] 165.5 ...... .....

o Costuire la tabella della distribuzione (legge ) della variabile media campionaria e calcolarne la

media.

Esercizio 2 Una scatola contiene 5 palline rosse e 10 palline nere. Si vuole stimare la percentuale di palline

nere mediante l’estrazione di campioni di numerositá 2. o Calcolare il valore di p (frequenza di palline nere nella popolazione) o Quali valori assume lo stimatore Sp? o Con quale frequenza vengono assunti i valori di Sp ? o Quale é la legge di Sp ? o Calcolare E(Sp).

Esercizio 3 Ripetere l’esercizio 2 nel caso in cui la scatola contenga 10 palline rosse e 10 palline nere . Confrontare la legge della variabile media campionaria nei due casi.

- 14 -

Page 15: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Intervalli di confidenza per la media La media X costituisce una stima puntuale di µ, ma poiché viene ottenuta attraverso una funzione dei valori campionari, varia al variare dei valori del campione estratto. É quindi molto rischioso fornire informazioni sulla media della popolazione in questo modo. Adottando invece una stima per intervallo é possibile avere informazioni sia sul valore numerico del parametro incognito che sul grado di attendibilitá (probabilitá) della stima stessa. Costruire un intervallo di confidenza (o fiducia) per il parametro incognito θ significa scegliere un valore 1-α ∈ [0,1] e determinare un intervallo (a,b) in modo che :

La probabilitá che il parametro θ incognito appartenga ad (a,b) sia uguale a 1-α P(θ∈ (a,b))=1- α

dove: 1- α = livello di significativitá α = probabilitá di errore Intervalli di confidenza per la media da popolazione di legge Normale con varianza nota Sia X una caratteristica della popolazione ( X é una variabile aleatoria) con media µ incognita , varianza nota e X2σ 1,X2,...,Xn un campione estratto da X. [ X~N(µ, ) ] 2σ Un intervallo di confidenza per la media µ a livello di fiducia (o significativitá) 1- α é un intervallo centrato in x tale che :

P(µ∈ ( X -δ, X +δ))=1- α Quindi : P( µ∈ ( X -δ, X +δ)) = P( X -δ < µ < X +δ) = P(| X -µ| < δ) =

| |

/ /µ δ

σ σ

⎛ ⎞− ⎟⎜ ⎟<⎜ ⎟⎜ ⎟⎟⎜⎝ ⎠XP

n n

Poiché Z = ( )

/

X

n

µ

σ

− ha legge N(0,1) si ha che :

- 15 -

Page 16: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

| |/ /µ δ

σ σ

⎛ ⎞− ⎟⎜ ⎟<⎜ ⎟⎜ ⎟⎟⎜⎝ ⎠XP

n n= | |

σ⎛ ⎞⎟⎜ < ⎟⎜ ⎟⎟⎜⎝ ⎠

P Zn

= 1- α

| |/δ

σ⎛ ⎞⎟⎜ < ⎟⎜ ⎟⎟⎜⎝ ⎠

P Zn

= / /δ δ

σ σ⎛ ⎞⎟⎜− < < ⎟⎜ ⎟⎟⎜⎝ ⎠

P Zn n

=

= / /δ δ

σ σ⎛ ⎞ ⎛⎟ ⎟⎜ ⎜< − <−⎟ ⎟⎜ ⎜⎟ ⎟⎟ ⎟⎜ ⎜⎝ ⎠ ⎝

P Z P Zn n

⎞⎠=

1/ /δ δ

σ σ

⎡ ⎤⎛ ⎞ ⎛ ⎞⎟ ⎟⎜ ⎜⎢ ⎥< − − <⎟ ⎟⎜ ⎜⎟ ⎟⎟ ⎟⎢ ⎥⎜ ⎜⎝ ⎠ ⎝ ⎠⎣ ⎦P Z P Z

n n= -1+2*

σ⎛ ⎞⎟⎜ < ⎟⎜ ⎟⎟⎜⎝ ⎠

P Zn

= 1- α.

Utilizzando questa ultima uguaglianza si ottiene :

12

12

1 ;2/ /

P Z zn n

zn

α

α

δ α δσ σσδ

⎛ ⎞⎟⎜ < = − =⎟⎜ ⎟⎟⎜⎝ ⎠

=

L’intervallo di confidenza cercato risulta :

1 12 2

,X Z X Zn nα ασ σ

− −

⎛ ⎞⎟⎜ ⎟− +⎜ ⎟⎜ ⎟⎟⎜⎝ ⎠

ESEMPIO Si estrae un campione di numerositá n=100 da una popolazione di legge N(µ,225). Si determini un intervallo di confidenza per la media a livello 95%. Si deve determinare il valore di δ tale che

| | | | 0.951,5225 / 100

δ δ⎛ ⎞ ⎛⎟ ⎟⎜ ⎜< = <⎟ ⎟⎜ ⎜⎟ ⎟⎟ ⎟⎜ ⎜⎝ ⎠ ⎝P Z P Z

⎞=

Si deve determinare il valore di z tale che l’area a sinistra di –z valga 0.025 e quella a destra di z valga 0.025.

- 16 -

Page 17: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Il livello di fiducia ( o confidenza) del 95% significa che 1- α = 0.95, cioé che α=0.05.

0.97512

1.96Z Zα−= =

Riassumendo : 1.96 2.941.5δ δ= ⇒ = per cui : 2.94, 2.94µ ⎡ ⎤∈ − +⎢ ⎥⎣ ⎦X X

In generale l’ampiezza dell’intervallo di confidenza vale

12

2 ασ

−z

n

quindi il valore dipende sia dal livello che dal numero di elementi del campione. Piú precisamente AUMENTA all’aumentare del livello e DIMINUISCE all’aumentare del numero di elementi del campione. Si noti che l’intervallo di confidenza é una variabile aleatoria. Per ottenere un risultato numerico si deve sostituire a X il valore x relativo ai dati del campione. In questo caso si ottiene una REALIZZAZIONE dell’intervallo di fiducia.

intervallo di confidenza 2.94, 2.94

realizzazione intervallo di confidenza 2.94, 2.94

X X

x x

⎡ ⎤⇒ − +⎢ ⎥⎣ ⎦⎡ ⎤⇒ − +⎢ ⎥⎣ ⎦

- 17 -

Page 18: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Esempi di 1

2

Z α−

Intervallo di confidenza a livello 90% 0.9512

1.65Z Zα−= =

Intervallo di confidenza a livello 95% 0.9751

2

1.96Z Zα−= =

Intervallo di confidenza a livello 99% 0.9951

2

2.58Z Zα−= =

- 18 -

Page 19: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

In generale se si vuole determinare un intervallo di confidenza per la media a livello (1-α) si deve

determinare il valore z tale che ( )2α> =P Z z , cioé la somma delle aree delle due “code” deve valere

α. ESERCIZIO Sia X una popolazione di legge Normale di media sconosciuta e varianza uguale a 16, cioé X~N(µ,16). Si estrae da X un campione di numerositá 64 e si osserva un valore 64 10.5x = .

• Determinare gli intervalli di confidenza per la media a livello 90%, 95% e 99%, calcolando per ciascuno l’ampiezza.

• Determinare l’ampiezza degli intervalli nel caso in cui il campione abbia numerositá 81 e si abbia

ancora 81 10.5=x • Commentare i risultati ottenuti.

ESEMPIO DI SIMULAZIONE DI INTERVALLI DI CONFIDENZA

• La media della popolazione vale zero e la varianza vale 1. • Il livello di confidenza vale 0.90. • Tutti gli intervalli hanno la stessa ampiezza. • Su 22 intervalli 2 non contengono il valore vero della media.

- 19 -

Page 20: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Scelta della numerosità campionaria

L’ampiezza dell’intervallo di confidenza per la media µ con σ2 noto è, a livello 1-α,

12

2* ασ

−z

n

_____|________________|_______________|_____

1

2ασ

−−X z

n X

12ασ

−+X z

n

Ciò significa che, usando X quale stimatore di µ, l’errore E= | X -µ | è minore o uguale a

12ασ

−z

n con livello 1-α.

In una situazione nella quale sia possibile scegliere la numerosità campionaria n si può determinare il valore di n in modo che l’errore che si commette stimando la media µ con X sia minore o uguale ad un valore specificato E.

Riassumendo si ha che, quando

2

12α σ

−⎛ ⎞⎜≅ ⎜⎜ ⎟⎝ ⎠

zn

E⎟⎟ l’errore | X -µ | non eccede un valore prefissato E.

Il valore

2

12α σ

−⎛ ⎞⎜≅ ⎜⎜ ⎟⎝ ⎠

zn

E⎟⎟ deve ovviamente essere arrotondato agli interi.

ESEMPIO Si vuole determinare il valore di n in modo che l’errore E sia uguale a 1.5 stimando, a livello 95%,la media del peso in grammi di cubi di plastica con σ2=4 (σ=2)

22

12 1.96 2 6.83 7

1.5

α σ−

⎛ ⎞∗⎛ ⎞⎜ ⎟≅ = =⎜ ⎟⎜ ⎟ ⎝ ⎠⎜ ⎟

⎝ ⎠

zn

E≅

- 20 -

Page 21: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

NOTA Nella costruzione degli intervalli di confidenza per la media sono presenti le seguenti variabili :

• n numerosità campionaria; • 2E ampiezza dell’intervallo di confidenza; • 1-α livello di confidenza; • σ deviazione standard.

_____|________________|_______________|_____

1

2ασ

−−X z

n X

12ασ

−+X z

n

Sono spesso da esaminare le seguenti relazioni :

• fissando sia il valore del livello di confidenza 1-α che di σ la dimensione dell’intervallo diminuisce all’aumentare di n;

• quando il valore del livello di confidenza 1-α è fissato ,all’aumentare di σ si deve aumentare il valore della numerosità campionaria n per avere una ampiezza fissata dell’intervallo.

• se il valore di σ è fissato e il livello di confidenza 1-α aumenta, si deve aumentare il valore di n per avere una ampiezza desiderata.

- 21 -

Page 22: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Intervallo di confidenza per la media unilaterale

1. Intervallo di confidenza sinistro a livello 1-α è :

1X znασµ −≤ +

0 1X z

nασ

−+

2. Intervallo di confidenza destro a livello 1-α è :

1X znασ µ−− ≤

1X z

nασ

−− 0

- 22 -

Page 23: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Intervalli di confidenza per la media con varianza sconosciuta Nel caso in cui la popolazione X da cui viene estratto il campione abbia sia la media che la varianza sconosciuta si procede nel modo seguente :

• X stima la media µ • S2 stima la varianza σ2

La variabile aleatoria

1

/µ −−= ∼ nXT t

S n

T ha legge t di Student con n-1 gradi di libertá. In questo caso si ha :

P(µ∈ ( X -δ, X +δ))=1- α Quindi : P( µ∈ ( X -δ, X +δ)) = P( X -δ < µ < X +δ) = P(| X -µ| < δ) =

| |

/ /µ δ⎛ ⎞− ⎟⎜ ⎟<⎜ ⎟⎜ ⎟⎟⎜⎝ ⎠

XPS n S n

Poiché T = | |

/µ−X

S n ha legge t di Student con n-1 gradi di libertá :

| |

/ /µ δ⎛ ⎞− ⎟⎜ ⎟<⎜ ⎟⎜ ⎟⎟⎜⎝ ⎠

XPS n S n

= | |/δ⎛ ⎞⎟⎜ < ⎟⎜ ⎟⎟⎜⎝ ⎠

P TS n

= 1- α

| |/δ⎛ ⎞⎟⎜ < ⎟⎜ ⎟⎟⎜⎝ ⎠

P TS n

= =/ /δ δ⎛ ⎞⎟⎜− < < ⎟⎜ ⎟⎟⎜⎝ ⎠

P TS n S n

=

= / /δ δ⎛ ⎞ ⎛⎟ ⎟⎜ ⎜< − <−⎟ ⎟⎜ ⎜⎟ ⎟⎟ ⎟⎜ ⎜⎝ ⎠ ⎝

P T P TS n S n

⎞⎠

=

1/ /δ δ⎡ ⎤⎛ ⎞ ⎛ ⎞⎟ ⎟⎜ ⎜⎢ ⎥< − − <⎟ ⎟⎜ ⎜⎟ ⎟⎟ ⎟⎢ ⎥⎜ ⎜⎝ ⎠ ⎝ ⎠⎣ ⎦

P T P TS n S n

= -1+2*/δ⎛ ⎞⎟⎜ < ⎟⎜ ⎟⎟⎜⎝ ⎠

P TS n

= 1- α.

- 23 -

Page 24: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Quindi l’intervallo di confidenza, a livello 1-α, per la media vale

1 1

2 2

,n nX t X tn nα ασ σ− −

⎛ ⎞⎟⎜ ⎟− +⎜ ⎟⎜ ⎟⎟⎜⎝ ⎠

ESEMPIO Sia X1,X2,...,X9 un campione estratto da una popolazione di legge normale di media e varianza sconosciute. Si vuole determinare un intervallo di confidenza per la media µ a livello 1-α = 0.90.

Si deve determinare il valore di δ tale che | | 0.9/ 9δ⎛ ⎞⎟⎜ < =⎟⎜ ⎟⎟⎜⎝ ⎠

P TS

oppure

| | 0.1/ 9δ⎛ ⎞⎟⎜ > =⎟⎜ ⎟⎟⎜⎝ ⎠

P TS

. La legge di T é t8, cioé t di Student con 8 gradi di libertá.

80.05 1.86

/ 9t

Sδ = = quindi 1.86

3Sδ = .

L’intervallo di confidenza é quindi :

1.86 , 1.863 3

⎛ ⎞⎟⎜ − + ⎟⎜ ⎟⎟⎜⎝ ⎠S SX X

L’intervallo di confidenza costruito é una variabile aleatoria e, come per gli stimatori, non dipende dai valori che le variabili aleatorie X1,...,Xn assumono ma dalla loro legge. Quando vengono esaminati i dati relativi ad un campione specifico allora si ha una REALIZZAZIONE dell’intervallo di confidenza.

1.86 , 1.863 3

⎛ ⎞⎟⎜ − + ⎟⎜ ⎟⎟⎜⎝S SX X

⎠ é un intervallo di confidenza

1.86 , 1.863

⎛ ⎞⎟⎜ − + ⎟⎜ ⎟⎟⎜⎝ 3⎠s sx x é una realizzazione con s e x calcolati dai dati campionari

- 24 -

Page 25: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Intervallo di confidenza al 95% per la media relativo a 20 campioni di numerositá 100 (media popolazione µ=0,varianza sconosciuta)

n Media StDev 1 100 -0.040 1.072 (---------*---------) 2 100 0.125 0.961 (---------*---------) 3 100 0.040 1.098 (---------*---------) 4 100 0.018 0.976 (---------*---------) 5 100 -0.044 1.016 (---------*---------) 6 100 -0.010 1.058 (---------*----------) 7 100 -0.190 0.926 (----------*---------) 8 100 -0.064 1.097 (---------*---------) 9 100 -0.039 1.010 (---------*---------) 10 100 -0.029 0.913 (----------*---------) 11 100 0.008 0.934 (---------*---------) 12 100 0.129 0.854 (---------*----------) 13 100 0.133 1.262 (---------*---------) 14 100 0.010 0.970 (---------*----------) 15 100 0.037 1.018 (---------*---------) 16 100 0.116 1.062 (---------*---------) 17 100 0.010 1.066 (---------*----------) 18 100 0.072 1.169 (---------*---------) 19 100 -0.006 1.036 (---------*---------) 20 100 0.071 0.964 (----------*---------) ----------+---------+---------+------ -0.20 0.00 0.20

• La media della popolazione vale zero e la varianza é sconosciuta. • Il livello di confidenza vale 0.95. • Tutti gli intervalli hanno ampiezza diversa. • Tutti gli intervalli contengono la media µ=0.

- 25 -

Page 26: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Approssimazione della distribuzione t di Student con la distribuzione normale. Quando la numerosita’ campionaria è grande (n > 30) la distibuzione t di Student puo’ essere approssimata con la legge normale standard Z~N(0,1). Quindi , utilizzando le tavole , si ha che :

1( ) (n )P T t P Z zα α−> = >

ESERCIZIO Completare la seguente tabella e commentare i risultati ottenuti.

livello (1-α) 5( )P T tα

α> = 100( )P T tα

α> = ( )P Z zα>

0.90 0.95 0.99

Intervalli di confidenza per la frequenza di una variabile di Bernoulli Se la popolazione ha legge di Bernoulli, cioè X~B(p), con p sconosciuto si vuole costruire un intervallo di confidenza per p . Se X~B(p), si ha che

( 1)( 0) (1

P X pP X p p

= =⎧⎨ )= = −⎩

E(X)=p e VAR(X)=p(1-p).

Se X1,X2,...,Xn è un campione estratto da X lo stimatore di p vale :

1 2 ...ˆ nX X Xpn

+ + +=

Se la numerosita’ campionaria n è abbastanza grande si puo’ utilizzare il Teorema del Limite Centrale

per approssimare la distribuzione dello stimatore di p(1-p)ˆ p con Z~N p,n

⎛ ⎞⎜ ⎟⎝ ⎠

.

- 26 -

Page 27: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

La stima della varianza vale :

( )2 1 ˆ ˆ(1 )1ps p p

n= −

Un intervallo di confidenza per p a livello 1-α è quindi :

1 12 2

ˆ ˆ ˆ ˆ(1 ) (1 )ˆ ˆ,p p pp Z p Zn nα α

− −

⎛ ⎞− −− +⎜ ⎟⎜ ⎟

⎝ ⎠

p

ESEMPIO

Una scatola contiene palline Rosse e Blu in numero sconosciuto. Si estraggono n=100 palline e si vuole costruire un intervallo di confidenza per la frequenza p di palline Rosse a livello 95%.

L’intervallo di confidenza vale :

0.975 0.975ˆ ˆ ˆ ˆ(1 ) (1 )ˆ ˆ,

100 100p p pp Z p Z

⎛ ⎞− −− +⎜ ⎟⎜ ⎟

⎝ ⎠

p

Se i dati di un campione forniscono quale risultato che il numero di palline Rosse è 70 si ha che : 70ˆ 0.7

100p = = e quindi la realizzazione dell’intervallo di confidenza vale :

0.975 0.975

7 7 7 7(1 ) (1 )7 710 10 10 10,10 100 10 100

Z Z

⎛ ⎞− −⎜ ⎟

⎜ ⎟− +⎜ ⎟⎜ ⎟⎝ ⎠

7 7 7 7(1 ) (1 )7 710 10 10 101.96 , 1.96

10 100 10 100

⎛ ⎞− −⎜ ⎟

⎜ ⎟− +⎜ ⎟⎜ ⎟⎝ ⎠

- 27 -

Page 28: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Intervalli di confidenza bilaterali per la varianza da popolazione di legge Normale

Sia X una popolazione di legge Normale di media e varianza sconosciute . Si vuole costruire un intervallo di confidenza per la varianza a livello 1-α.

La variabile aleatoria 2

2

( 1S nCσ−

=) ha legge chi-quadro con n-1 gradi di liberta’.

Di seguito è riportato il grafico della distribuzione chi-quadro al variare di n.

chi quadro con n=2 gradi di liberta’

chi quadro con n=3 gradi di liberta’

chi quadro con n=5 gradi di liberta’

chi quadro con n=10 gradi di liberta’

Si puo’ osservare che, a differenza della distribuzione normale e della t di Student NON è una

distibuzione simmetrica.

- 28 -

Page 29: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Costruzione dell’intervallo di confidenza. Si devono determinare due valori C1 e C2 tali che

P( C1 ≤ C ≤ C2 ) = 1-α

2

21-2 2

2 22

1-2 2

( 1)P( C1 C C2 ) = P C

( 1) ( 1) P 1C

S n C

S n S nC

α α

α α

σ

σ α

⎛ ⎞−≤ ≤ ≤ ≤ =⎜ ⎟

⎝ ⎠⎛ ⎞

− −⎜ ⎟≤ ≤ = −⎜ ⎟⎜ ⎟⎝ ⎠

dove , per esempio con α=0.10 2 20.95 , 11 1

2 22 20.05 , 1 , 1

2 2

n n

n n

C

C

α α

α α

χ χ

χ χ

− , 1− − −

−−

= =

= =

Se la media µ è nota, l’intervallo di confidenza per la varianza vale :

2 22

1-2 2

PC

S n S nCα α

σ⎛ ⎞⎜ ⎟≤ ≤⎜ ⎟⎜ ⎟⎝ ⎠

- 29 -

Page 30: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

ESEMPIO Se X1,X2,..,X15 è un campione estratto da una popolazione di legge X~N(µ,σ2) con la media µ sconosciuta si ha che l’intervallo di confidenza per la varianza a livello 90% è :

( ) ( )2 2

i=1 i=12 20.05, 1 0.95, 1

2 2 2 2

2 2 2 20.05, 1 0.95, 1 0.05,14 0.95,14

1 1( 1) ( 1)1 1 ,

( 1) ( 1) 14 14, ,

n n

i i

n n

n n

X n X nn n

S n S n S S

µ µ

χ χ

χ χ χ χ

− −

− −

⎛ ⎞⎡ ⎤ ⎡ ⎤− ∗ − − ∗ −⎜ ⎟⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠⎛ ⎞ ⎛ ⎞− − ∗ ∗

=⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

∑ ∑

Dalle tavole si ricava che :

20.95 ,14

20.05 ,14

6.751

23.685

χ

χ

=

=

e quindi l’intervallo di confidenza vale :

2 2 2 2

2 20.05,14 0.95,14

14 14 14 14, ,23.685 6.751

S S S Sχ χ

⎛ ⎞ ⎛ ⎞∗ ∗ ∗ ∗=⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠

Se è noto il valore di S2 relativo al campione ( si indica con s2) si puo’ determinare una

realizzazione dell’intervallo di confidenza.

- 30 -

Page 31: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

Intervalli di confidenza unilaterali per la varianza da popolazione di legge Normale

INFERIORE

22

21 , 1

( 1)

n

n S

α

σχ − −

−≤

21 , 1nαχ − −

SUPERIORE

22

2, 1

( 1)

n

n S

α

σχ −

−≤

2

1 , 1nαχ − −

- 31 -

Page 32: STATISTICA 1- parte 1/2 - unige.itstatprob.dima.unige.it/DIDATTICA/ALESSANDRIA... · STATISTICA 1- parte 1/2 In statistica la parola popolazione indica l’insieme di tutte le possibili

- 32 -