21
1 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA Metodi statistici e probabilistici per l’ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain 2 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

Embed Size (px)

Citation preview

Page 1: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

1

1STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Metodi statistici e probabilistici per l’ingegneriaCorso di Laurea in Ingegneria Civile

A.A. 2009-10

Facoltà di Ingegneria, Università di PadovaDocente: Dott. L. Corain

2STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

STATISTICHE,

DISTRIBUZIONI CAMPIONARIE

E INFERENZA

Page 2: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

2

3STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

SOMMARIO

DEFINIZIONE DI INFERENZA

STATISTICHE E DISTRIBUZIONI CAMPIONARIE

STIMA PUNTUALE

STIMA INTERVALLARE

VERIFICA DI IPOTESI

CARTE DI PROBABILITÀ

4STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

INFERENZAL’inferenza statistica può essere definita come la disciplina

che utilizza l’informazione campionaria, per fare delle affermazioni sulla popolazione da cui il campione è stato tratto, in particolare sui parametri della distribuzione della popolazione stessa (solitamente µ e σ, vedere “La rappresentazione e la sintesi dei dati”) .

Le affermazioni della statistica inferenziale sono di due tipi:STIMA: si vuole indicare un valore plausibile per il parametro della popolazione, sotto una delle 2 forme:1. un valore ben definito (STIMA PUNTUALE)2. un intervallo in cui molto verosimilmente il parametro

sia incluso (STIMA INTERVALLARE)VERIFICA DI IPOTESI: indicare quale tra due specifiche ipotesi sul parametro (nulla o alternativa) sia da accettare

Page 3: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

3

5STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

INFERENZA SUI PROCESSI PRODUTTIVISi è visto come le distribuzioni di probabilità consentono di modellare e descrivere un fenomeno/processo di interesse. In relazione a questo obiettivo tuttavia, non è realistico pensare di conoscere i parametri che regolano tali fenomeni/processi e quindi è necessario ricorrere all’inferenza per stimare tali parametri e per risolvere dei problemi decisionali che li riguardano. Ad esempio non èplausibile che sia possibile conoscere con esattezzao una dimensione media di una variabile numerica critica

dal punto di vista delle prestazioni/qualità di un materiale, prodotto o processo

o la frazione di unità non conformi, non idonee o difettose presenti in un processo di fabbricazione

o la capacità di processo di rispondere alle specifiche di progettazione

6STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

I metodi inferenziali presuppongono che il campione di dati (x1,..., xn), ottenuto dalla popolazione di interesse, sia un campione casuale, cioè ottenuto in modo che le osservazioni {xi} siano indipendenti ed identicamente distribuite (IID).Ogni funzione dei dati campionari, che non contiene parametri ignoti, viene definita statistica. La media e la varianza campionaria (e la deviazione std), oltre a essere indici descrittivi della tendenza centrale e della variabilitàdel campione, sono esempi di statistiche. Notiamo che le statistiche, in quanto funzioni di v.a. sono loro stesse v.a.Se conosciamo la legge di distribuzione della popolazione dalla quale è preso il campione, possiamo determinare la legge di distribuzione della statistica, detta distribuzione campionaria.

STATISTICHE E DISTRIBUZIONI CAMPIONARIE

Page 4: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

4

7STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

CAMPIONAMENTO

Come conseguenza delle proprietà della distribuzione di una combinazione lineare di v.a. normali, se x=(x1,..., xn), èun campione casuale di numerosità n, estratto da una v.a. Xnormale con media µ e varianza σ 2, allora la media campionaria X ∼ N(µ , σ 2/n).

CAMPIONAMENTO DA DISTRIBUZIONE NORMALE

In virtù del Teorema del Limite Centrale, senza riferimento al tipo di distribuzione della popolazione, la legge di distribuzione della media campionaria sopra citata è ancora approssimativamente valida:

Il grado di approssimazione dipende dalla particolare forma della distribuzione di X: più è simmetrica migliore èl’approssimazione.

CAMPIONAMENTO DA ALTRE DISTRIBUZIONI

2

,d σX N µ

n

8STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

CAMPIONAMENTO DA DISTRIBUZIONE BERNOULLIANA

Page 5: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

5

9STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

CAMPIONAMENTO DA DISTRIBUZIONE DI POISSON

10STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Una variabile casuale è caratterizzata dalla sua legge di probabilità che è identificata dai suoi parametri. Dato un valore plausibile dei parametri, siamo in grado di descrivere e rappresentare un modello statistico per la caratteristica di interesse.Possiamo definire come stimatore di un parametro ignoto, la statistica (che è una variabili casuale) che corrisponde a tale parametro. Uno stimatore puntuale è una statistica che produce un singolo valore numerico. Un particolare valore numerico, ottenuto sulla base dei dati campionari, èdetto stima.Uno stimatore intervallare è un intervallo casuale entro cui il vero valore del parametro cade con un livello di probabilitàassegnata (livello di confidenza). Questi intervalli sono usualmente indicati come intervalli di confidenza.

STIMA DEI PARAMETRI DI UNA VARIABILE CASUALE

Page 6: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

6

11STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Preso un campione casuale di n osservazioni da una v.c. X, la media campionaria x, la varianza campionaria s2, la deviazione standard campionaria s, sono rispettivamente stimatori puntuali della media della popolazione µ, della varianza della popolazione σ 2 e della deviazione standard della popolazione σ.Agli stimatori sono richieste alcune importanti proprietà, tra le quali le più rilevanti sono

PROPRIETÀ DI UNO STIMATORE

o non distorsione: il valore atteso (la media) dello stimatore deve essere uguale al parametro da stimare

o minima varianza: (in qualità di v.c.) ad uno stimatore èrichiesto di avere la minore variabilità possibile, rispetto a tra tutti i possibili stimatori del parametro

o consistenza: al crescere della numerosità campionaria, la varianza dello stimatore deve tendere a zero

12STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Mentre la media campionaria x e la varianza campionaria s2, sono stimatori non distorti della media della popolazione µ, della varianza della popolazione σ2, la deviazione standard campionaria s NON è uno stimatore non distorto della deviazione standard della popolazione σ.

MEDIA, VARIANZA E DEVIAZIONE STANDARD CAMPIONARIE

Page 7: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

7

13STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

INTERVALLI DI CONFIDENZA

14STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

INTERVALLI DI CONFIDENZA

Page 8: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

8

15STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

INTERVALLI DI CONFIDENZAINTERVALLO DI CONFIDENZA DELLA MEDIA CON VARIANZA NOTA

Furthermore, a 100(1 − α)% upper confidence bound on µ is

whereas a 100(1 − α)% lower confidence bound on µ is

16STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

INTERVALLI DI CONFIDENZAINTERVALLO DI CONFIDENZA DELLA MEDIA CON VARIANZA IGNOTA

Notiamo che la distribuzione di riferimento non è la normale, bensì la v.a. t di Student.

Page 9: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

9

17STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

INTERVALLI DI CONFIDENZAINTERVALLO DI CONFIDENZA DELLA PROPORZIONE

18STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

INTERVALLI DI CONFIDENZACONDIZIONI PER L’INFERENZA A DUE CAMPIONI

Page 10: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

10

19STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

INTERVALLI DI CONFIDENZA DELLA DIFFERENZA DELLE MEDIE

VARIANZE NOTE

VARIANZE IGNOTE MA UGUALI

20STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

INTERVALLI DI CONFIDENZA DELLA DIFFERENZA DELLE MEDIE

VARIANZE IGNOTE E DIVERSE

Page 11: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

11

21STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

INTERVALLO DI CONFIDENZA DELLA DIFFERENZA DI DUE PROPORZIONI

22STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

IpotesiNulla

Ipotesi Alternativa

VERIFICA D’IPOTESIUna ipotesi statistica è una affermazione sui parametri di una distribuzione di probabilità.

L’ipotesi nulla corrisponde allo “stato delle cose” che possiamo presumere vero se non sono intervenuti fattori di cambiamento. Ad esempio: “il processo è sotto controllo” o “il processo è conforme”.L’ipotesi alternativa corrisponde invece ad una eventuale situazione di allontanamento dall’ipotesi nulla che l’analista vorrebbe mettere in evidenza in caso si verificasse.L’ipotesi alternativa può essere bilateriale (simbolo “≠”, come nell’esempio) o unilateriale (simbolo “>” o ”<”, a seconda dell’interesse dell’analista).

Page 12: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

12

23STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

ERRORE DI I° E II° TIPO

24STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

ERRORE DI I° E II° TIPO

Page 13: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

13

25STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

PROCEDURA DECISIONALELa procedura decisionale per condurre una verificare di ipotesi consta dei seguenti passi:

specificare l’ipotesi nulla e l’ipotesi alternativa di interesseconsiderare l’appropriata statistica (meglio detta “statistica test”) in relazione alle ipotesi di cui soprafissare l’errore di I tipo α (detto anche “livello di significatività del test”) ad un valore accettabile; questa operazione identifica nella distribuzione della statistica test due regioni: la regione di accettazione e la regione di rifiuto (detta anche “regione critica”)in base ai dati campionari (ottenuti da un campione casuale IID dalla popolazione sotto indagine) calcolare il valore osservato della statistica testse tale valore appartiene alla regione critica si deve rifiutare l’ipotesi nulla, altrimenti apparterrà alla regione di accettazione e non si può rifiutare l’ipotesi nulla

26STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

IL P-VALUE NELLA PROCEDURA DECISIONALE

In alternativa al considerare le due regioni di accettazione e rifiuto, è possibile prendere la decisione in base al p-value:Il p-value rappresenta la probabilità di osservare un valore della statistica test uguale o più estremo del valore che si calcola a partire dal campione, quando l’ipotesi H0 è vera.Il p-value è anche chiamato livello di significatività os-servato, in quanto coincide con il più piccolo livello di significatività in corrispondenza del quale H0 è rifiutata. In base a questo approccio, la regola decisionale per rifiutare H0 è la seguente:

Se il p-value è maggiore o uguale a α, l’ipotesi nulla non è rifiutata.Se il p-value è minore di α, l’ipotesi nulla è rifiutata.

Page 14: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

14

27STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Consideriamo ad esempio il caso di una verifica di ipotesi sulla media (σ nota) dove la statistica test Z ha una distribuzione normale standard. In base ai dati campionari, il valore osservato della statistica test è +1.50.Naturalmente, la decisione presa in base alla regione di accettazione/rifiuto è coerente a quella presa in base alla regola del p-value (= 0.0668 × 2).

UN ESEMPIO

28STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

ANALOGIA TRA VERIFICA D’IPOTESI E INTERVALLI DI CONFIDENZAPur rispondendo ad obiettivi e motivazioni sostanzialmente diverse, stima intervallare e verifica di ipotesi presentano molte analogie, tanto che queste due procedure inferenziali hanno come comune origine l’espressione della distribu-zione di probabilità di una stessa statistica test.Prendiamo, ad esempio, il caso della verifica di ipotesi sulla media (σ nota) ed il corrisponde problema di stima intervallare di µ (σ nota): entrambe le procedure si riferiscono alla distribuzione normale standard della statistica Z (vedi slide seguente). Fissato il livello di significatività α ed il livello di confidenza a (1− α), si può facilmente verificare che il valore µ0 sotto ipotesi ècompreso nell’intervallo di confidenza se e solo se l’ipotesi nulla viene accettata.Questo risultato è generalizzabile a tutte le altre procedure di stima intervallare e alla corrispondente verifica di ipotesi.

Page 15: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

15

29STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

VERIFICA D’IPOTESI SULLA MEDIA (VARIANZA NOTA)

H1 nell’equazione 3-22 rappresenta una ipotesi alternativa a due code (o bilaterale)La procedura per testare questa ipotesi consiste:considerare un campione casuale di n osservazioni della variabile casuale X,− calcolare la statistica test, e − rigettare H0 se |Z0| > Zα/2, dove Zα/2 è il percentile

superiore a livello α/2 della distribuzione normale standard

30STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

VERIFICA D’IPOTESI SULLA MEDIA (VARIANZA IGNOTA)

Per le ipotesi alternative a due code, rigettare H0 se |t0| > tα/2,n-1, dove tα/2,n-1, è il percentile superiore a livello α/2 della distribuzione t con n − 1 gradi di libertàPer l’ipotesi alternativa ad una coda,

se H1: µ1 > µ0, rigettare H0 if t0 > tα,n − 1, e se H1: µ1 < µ0, rigettare H0 if t0 < −tα,n − 1

Si potrebbe inoltre calcolare il P-value del t-test

Page 16: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

16

31STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

ESEMPIO

32STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

ESEMPIO

Page 17: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

17

33STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

ESEMPIO

34STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

VERIFICA D’IPOTESI SULLA PROPORZIONE

Page 18: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

18

35STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

VERIFICA D’IPOTESI SULLA DIFFERENZE DI 2 MEDIE (VARIANZE NOTE)

36STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

VERIFICA D’IPOTESI SULLA DIFFERENZE DI 2 MEDIE (VARIANZE IGNOTE)

VARIANZE IGNOTE MA UGUALI

Page 19: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

19

37STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

VERIFICA D’IPOTESI SULLA DIFFERENZE DI 2 MEDIE (VARIANZE IGNOTE)

VARIANZE IGNOTE E DIVERSE

38STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

VERIFICA D’IPOTESI SULLA DIFFERENZE DI 2 PROPORZIONI

Page 20: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

20

39STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

VALUTAZIONE DELLA POTENZA DEL TEST

40STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

RELAZIONE TRA POTENZA DEL TEST E DIMENSIONE CAMPIONARIA

Page 21: Statistiche, distribuzioni campionarie e inferenzalivio/PDF/Statistiche, distribuzioni campionarie... · zione di probabilità di una stessa statistica test. Prendiamo, ad esempio,

21

41STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

CURVA OPERATIVA CARATTERISTICA