330

dispense di Probabilita' e Statistica

  • Upload
    vunhi

  • View
    267

  • Download
    12

Embed Size (px)

Citation preview

Page 1: dispense di Probabilita' e Statistica
Page 2: dispense di Probabilita' e Statistica

i

PARTE PRIMA

PROBABILITA’

CAPITOLO I - Gli assiomi della probabilita

1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . pag. 1

1.2 Definizione assiomatica di probabilita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2.1 Logica degli eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2.2 Campo di Borel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.3 Assiomi della probabilita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3 Probabilita condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.4 Eventi indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.5 Formula di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.6 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

CAPITOLO II - Variabili aleatorie

2.1 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.1.1 Funzione di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .25

2.1.2 Densita di probabilita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.2 Momenti di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.3 Distribuzioni notevoli in Probabilita e Statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . .33

2.3.1 Distribuzione uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.3.2 Distribuzione normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .34

2.3.3 Distribuzione Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.3.4 Distribuzione esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.3.5 Distribuzione di Maxwell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .38

2.3.6 Distribuzione t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

Page 3: dispense di Probabilita' e Statistica

ii

2.3.7 Distribuzione Chi-quadrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.3.8 Distribuzione F di Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .42

2.3.9 Distribuzione binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

2.3.10 Distribuzione di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

2.3.11 Distribuzione geometrica e ipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

2.3.12 Distribuzione Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.3.13 Distribuzione di Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

2.4 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

CAPITOLO III - Variabili aleatorie multidimensionali

3.1 Coppie di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

3.1.1 Momenti congiunti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

3.1.2 Coppie di v.a. indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3.1.3 Coppie di v.a. discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3.2 Caso di n variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

3.3 Trasformate delle densita di probabilita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

3.3.1 Funzione caratteristica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

3.3.2 Funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

3.4 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

CAPITOLO IV - Trasformazioni di variabili aleatorie

4.1 Generalita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

4.2 Funzioni di una variabile casuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

4.2.1 Calcolo della funzione di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .96

4.2.2 Calcolo diretto della densita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

4.2.3 Trasformazioni invertibili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

4.2.4 Momenti di Y (ω) = g[X(ω)] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

4.2.5 Trasformazioni lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

4.3 Funzioni di due o piu variabili casuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

4.4 Trasformazioni n-dimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

4.5 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

Page 4: dispense di Probabilita' e Statistica

iii

CAPITOLO V - Processi stocastici

5.1 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

5.1.1 Momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .128

5.1.2 Processi indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

5.1.3 Processi senza memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

5.1.4 Processi stazionari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

5.2 Esempi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .130

5.3 Processi di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

5.4 Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

5.4.1 Matrice di transizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .138

5.4.2 Classificazione degli stati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .141

5.4.3 Probabilita invarianti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

***********************************************

PARTE SECONDA

STATISTICA

CAPITOLO VI - Statistica descrittiva

6.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

6.2 Distribuzioni di frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

6.3 Indici di tendenza centrale e di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

6.3.1 Medie, moda, mediana, quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

6.3.2 Indici di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

6.3.3 Stem-and-leaf e box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

6.4 Distribuzioni congiunte di frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

6.5 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

6.6 Regressione multipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

6.7 Regressione non lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

Page 5: dispense di Probabilita' e Statistica

iv

6.8 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

CAPITOLO VII - Distribuzioni campionarie

7.1 Modelli statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .181

7.2 Teoria dei campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

7.3 Distribuzione campionaria delle medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

7.3.1 Campionamento con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

7.3.2 Campionamento senza ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

7.4 Distribuzione campionaria delle varianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

7.4.1 Campionamento con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

7.4.2 Campionamento senza ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

7.5 Distribuzione campionaria delle frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

7.6 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197

CAPITOLO VIII - Stime di parametri

8.1 Stima puntuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

8.1.1 Stima puntuale di medie e varianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

8.1.2 Stima di massima verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

8.1.3 Metodo dei momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

8.2 Stima per intervalli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211

8.2.1 Intervalli di confidenza per la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .212

8.2.1.1 Popolazione con varianza nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212

8.2.1.2 Popolazione con varianza sconosciuta . . . . . . . . . . . . . . . . . . . . . . . . . 215

8.2.2 Intervalli di confidenza per la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224

8.3 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228

CAPITOLO IX - Test parametrici di ipotesi statistiche

9.1 Principi generali di un test statistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239

9.2 Test parametrici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241

9.3 Test di Neyman-Pearson tra ipotesi semplici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242

9.4 Test parametrici con ipotesi composte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245

Page 6: dispense di Probabilita' e Statistica

v

9.4.1 Test sul valor medio per il modello normale . . . . . . . . . . . . . . . . . . . . . . . . . 246

9.4.1.1 Modello Normale-1: popolazione con varianza nota . . . . . . . . . . . 246

9.4.1.2 Modello Normale generale: varianza sconosciuta . . . . . . . . . . . . . . 249

9.4.1.3 Popolazione con distribuzione non Normale . . . . . . . . . . . . . . . . . . . 250

9.4.2 Test sulla varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258

9.4.3 Test di Fisher per il rapporto tra varianze . . . . . . . . . . . . . . . . . . . . . . . . . . .263

9.4.4 Test di incorrelazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265

9.4.5 Ipotesi H0 e H1 composte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .266

9.4.6 Test del rapporto di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .268

9.5 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269

CAPITOLO X - Test non parametrici

10.1 Test sulla legge di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279

10.1.1 Test di Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280

10.1.2 Test Chi-quadrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282

10.2 Test di omogeneita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292

10.2.1 Test dei segni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293

10.2.2 Test dei ranghi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295

10.2.3 Test di Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297

10.2.4 Test Chi-quadrato di omogeneita per piu campioni . . . . . . . . . . . . . . . . . 298

10.3 Test di indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303

10.3.1 Test Chi-quadrato di indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .303

10.3.2 Test di Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305

10.4 Test sulla casualita di un campione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307

10.4.1 Test di correlazione seriale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308

10.4.2 Run test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310

BIBLIOGRAFIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313

APPENDICE

Tavole delle distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315

Normale standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316

Page 7: dispense di Probabilita' e Statistica

vi

t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317

Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318

Chi-quadrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320

Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321

Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322

Page 8: dispense di Probabilita' e Statistica

vii

Page 9: dispense di Probabilita' e Statistica

GLI ASSIOMI DELLAPROBABILITA’

1.1 Introduzione

Nel Calcolo delle Probabilita si elaborano modelli matematici per la valutazione ri-gorosa del concetto primitivo di probabilita che un esperimento casuale si concretizziin un determinato evento. Ma cos’e la probabilita di un evento? Ne esistono almenoquattro definizioni principali, da cui si originano altrettante teorie matematiche,elaborate dalla seconda meta del XXVII secolo fino ai giorni nostri. Esse sono:

1) Definizione classica: la probabilita P (A) di un evento A e il rapporto tra ilnumero NA dei casi favorevoli e il numero N dei casi possibili:

P (A) = NA/N.

E’ questa una definizione aprioristica, nel senso che P (A) e definita senza far ricorsoad alcuna effettiva prova sperimentale. La sua applicabilita e limitata allo studio diquel fenomeni casuali in cui si puo assumere che il numero N dei casi possibili siafinito, e che questi siano tutti, a priori, egualmente probabili.

2) Definizione frequentista, ovvero basata sul concetto, particolarmente familiareai fisici, di frequenza relativa di un evento: se un esperimento e ripetuto n volte, el’evento A si presenta nA volte, allora la sua probabilita e il limite della frequenzarelativa:

P (A) = limn→∞nA/n

quando il numero delle prove tende ad infinito. Questa definizione implica l’ipotesipreliminare che le prove ripetute si svolgano in condizioni identiche, il che, al paridella definizione classica, ne restringe l’applicabilita a una classe piuttosto ristrettadi fenomeni casuali.

3) Definizione soggettivista, come misura di un’opinione personale: la probabilitadi un evento e il grado di fiducia che si ha nel verificarsi di esso. Per esempio:

1

Page 10: dispense di Probabilita' e Statistica

2 ASSIOMI DELLA PROBABILITA’

la probabilita che in un processo giudiziario l’imputato sia giudicato colpevole euna misura della nostra conoscenza dei fatti e della nostra abilita deduttiva. Taledefinizione si formalizza adottando lo schema tipico delle scommesse regolate dacondizioni di equita: la probabilita dell’evento e misurata dal prezzo che un individuoritiene equo pagare per ricevere ”1” se l’evento si realizza, e ”0” se non si verifica.

4) Definizione assiomatica, la cui formalizzazione matematica (che e quella cheseguiremo) risale ad A. N. Kolmogorov (1933). Essa consiste nell’introdurre unopportuno insieme di assiomi, verificando a posteriori il significato fisico e la validitadella teoria matematica cosı precisata.

1.2 Definizione assiomatica di probabilita

Oggetto della teoria matematica sviluppata nel Calcolo delle Probabilita e un generi-co esperimento casuale, la cui singola esecuzione e chiamata prova dell’esperimento.Il risultato (o esito) della prova si indica con ω. L’insieme di tutti i possibili esiticostituisce lo spazio campione Ω associato all’esperimento casuale. Un evento Arelativo al medesimo esperimento e un certo insieme di risultati ω, ovvero un sot-toinsieme dello spazio campione Ω . Se un risultato ω ∈ A, si dice che esso realizzal’evento A. Se l’insieme A ⊂ Ω e costituito da un solo elemento ω, allora quest’ultimoprende il nome di evento elementare; altrimenti A e un evento composto.

1.2.1 Logica degli eventi

Le definizioni che seguono riguardano operazioni sugli eventi, e si possono formal-mente rappresentare come indicato nello schema riassuntivo di Fig.1.1.

• Dati due eventi A, B ⊆ Ω, si dice che A implica B se e A ⊂ B.

• I due eventi sono incompatibili se non esiste alcun risultato ω che realizzi siaA che B, ovvero se e A ∩B = ®, dove ® e l’insieme vuoto.

• Al contrario, se A e B non sono incompatibili, l’insieme non vuoto (A ∩ B) ecostituito da tutti i risultati ω che realizzano sia A che B.

• L’insieme (A∪B) indica invece la realizzazione dell’evento A, oppure dell’eventoB, oppure di entrambi.

• Se non si realizza un evento A, allora si realizza il suo complementare in A =Ω \ A in Ω, negazione dell’evento A. Ne segue subito che Ω e l’evento certo e® e l’evento impossibile.

Page 11: dispense di Probabilita' e Statistica

1.2 – Definizione assiomatica di probabilita 3

Figura 1.1

1.2.2 Campo di Borel

Gli eventi Ai, i = 1, 2, . . . relativi ad un determinato esperimento casuale sonosottoinsiemi dello spazio campione Ω, sui quali effettuiamo operazioni di unione,intersezione, differenza come indicato in Fig.1. Al fine di attribuire a ciascun eventouna misura di probabilita, si richiede a tali eventi di soddisfare il seguente requisitofondamentale: qualunque operazione su di essi deve essere a sua volta un eventodefinito in Ω.

Questa proprieta si formalizza dicendo che gli eventi devono costituire un campo C,ovvero una classe additiva di insiemi Ai , non vuota e chiusa rispetto alla negazionee all’unione. Se esiste un insieme numerabile1 di infiniti eventi Ai, questi devonoformare un campo di Borel (o σ-algebra) cosı definito:

Definizione 1. Un campo di Borel B e la classe costituita da una infinita numerabile

1Ricordiamo che un insieme di infiniti elementi e numerabile se esiste una corrispondenza uno-a-uno tra gli elementi dell’insieme e tutti gli interi positivi. Ad esempio: l’insieme IR dei numerireali non e numerabile; l’insieme 1, 2, 3, .. e numerabile.

Page 12: dispense di Probabilita' e Statistica

4 ASSIOMI DELLA PROBABILITA’

di insiemi Ai ∈ Ω, tale che:

1) Ai ∈ B ⇔ Ai = Ω\Ai ∈ B

2) Ai ∈ B ⇔∞⋃

i=1

Ai ∈ B;∞⋂

i=1

Ai ∈ B

3) ® ∈ B; Ω ∈ B.

Dunque, un campo di Borel e caratterizzato dalla proprieta che qualsiasi operazionesugli insiemi che lo formano da luogo ad un insieme nello stesso campo, anche se gliinsiemi sono una infinita numerabile.

Esempio 1.1: lancio di un dado

Consideriamo come singola prova di un esperimento casuale il classico esempio dellancio di un dado, che ha come risultati (eventi) possibili ω l’uscita di un numerointero, compreso tra 1 e 6. Lo spazio campione e Ω = 1, 2, 3, 4, 5, 6, ovvero ecostituito da un numero finito di elementi ω, cui si attribuisce il significato di eventielementari. Essi formano un insieme di eventi necessari e a due a due incompati-bili, poiche i ∩ j = ® per ogni i 6= j = 1, .., 6. Ma esistono molti altri eventiin questo esperimento casuale: ad esempio, l’uscita di un numero pari, che e cos-tituita dall’evento E = 2, 4, 6 composto dai tre eventi elementari che lo realiz-zano; oppure l’uscita di un numero ”basso” definita dall’evento E′ = 1, 2; ecc.Inoltre: l’intersezione 2, 4, 6 ∩ 1, 2, che coincide con l’evento elementare 2,indica l’evento: ”uscita di un numero pari e basso”. L’evento: 1, 3, 5 ∪ 5, 6indica l’uscita di un numero dispari, oppure di un numero maggiore di 4, oppuredi un numero dispari e maggiore di 4” (ovvero dell’intersezione dei due eventi, cos-tituita dall’evento elementare 5). Il complementare dell’insieme A = 1, 2, 3, 5composto dai numeri primi minori di 7, ovvero l’evento Ω\A = 4, 6, indica l’uscitadi un numero che non sia primo (negazione di A).

Tutti i possibili eventi si presentano in questo esperimento come sottoinsiemi di Ω ,ed e facile verificare che il loro numero complessivo e la somma delle combinazionidi classe k di sei elementi:

6∑

k=0

(6k

)= 26 = 64,

compresi l’insieme vuoto (per k = 0) e l’insieme Ω (per k = 6). Essi costituisconoun campo C, perche soddisfano tutte le condizioni di additivita sopra precisate.

Se pero siamo interessati solo ad alcuni eventi relativi a questo esperimento, e preferi-bile definire una diversa classe additiva, che costituisca un campo C′ contenente ilminor numero possibile di eventi, compresi quelli che interessano. Si puo costruirequesto campo C′ con successive operazioni di unione e negazione che, a partire dagliinsiemi dati, coinvolgano tutti gli eventi che via via si aggiungono. Ad esempio, se

Page 13: dispense di Probabilita' e Statistica

1.2 – Definizione assiomatica di probabilita 5

siamo interessati all’evento: ”uscita di un numero pari”, il campo C′ da consideraree composto dai quattro insiemi:

C′ : ®, 2, 4, 6, 1, 3, 5, Ω

che costituiscono rispettivamente: la ”negazione” 1, 3, 5 dell’evento ”numero pari”;l’unione Ω degli eventi ”pari” e ”dispari”, e la negazione dell’evento unione Ω . C’ eun campo, perche qualsiasi operazione sugli insiemi che lo compongono da luogo aun insieme anch’esso contenuto in C′. Al contrario, la classe:

C” : ®, 2, 4, 6, 1, 3, 5, 1, 2, Ω

non e un campo, perche 2, 4, 6 ∪ 1, 2 = 1, 2, 4, 6 6∈ C”. /

Esempio 1.2: misura di una grandezza

Il valore teorico di una generica grandezza fisica e espresso da un numero reale, e intal senso alla sua misura sperimentale associamo uno spazio campione Ω costituitodall’asse reale (o da un suo intervallo, se siamo in grado di precisarlo a priori). Perdefinire una classe additiva di eventi che sia compatibile con l’esperimento della mis-urazione, suddividiamo l’asse reale in intervalli di ampiezza assegnata (ad esempio:gli intervalli aperti a sinistra e chiusi a destra, di ampiezza unitaria e aventi percentro tutti i numeri interi), in modo che qualsiasi risultato della misurazione possaappartenere ad uno di tali intervalli. Quindi, con operazioni successive di unione enegazione, aggiungiamo altrettanti insiemi agli intervalli inizialmente considerati. Illimite a cui tende la classe degli eventi cosı definiti e il campo di Borel B associ-ato alla misura sperimentale che effettuiamo. Si puo dimostrare che tale campo diBorel si genera anche a partire da tutti gli intervalli (−∞, x1] con x1 reale qualsiasi;esso contiene anche tutti gli intervalli [x1, x2], (x1, x2), i punti x = x1 e l’infinitanumerabile delle loro unioni e intersezioni. /

1.2.3 Assiomi della probabilita

Siamo ora in grado di attribuire una misura di probabilita a ciascun evento Ai la cuicollezione, come si e appena visto, forma nel caso piu generale un campo di Borel B.

Definizione 2. La probabilita e un funzionale P : B → [0, 1] che verifica i seguentiassiomi:

I. P (Ω) = 1II. i 6= j, Ai ∩Aj = ® ⇐⇒ P (Ai ∪Aj) = P (Ai) + P (Aj).

La formulazione matematica del modello probabilistico e cosı completa: essa consistenell’insieme (Ω,B, P ) chiamato spazio di probabilita, e permette di assegnare un

Page 14: dispense di Probabilita' e Statistica

6 ASSIOMI DELLA PROBABILITA’

numero reale non negativo P (Ai) che chiamiamo probabilita di Ai, agli eventi cheformano un campo di Borel B, costituito da sottoinsiemi di uno spazio campione Ωassociato all’esperimento casuale.

L’assioma I attribuisce probabilita 1 all’evento certo Ω, senza tuttavia escludere apriori che esistano altri eventi, diversi da Ω, con probabilita 1. Se e teoricamentepossibile un evento A 6= Ω tale che P (A) = 1, si dice che questo evento e quasi certo.

L’assioma II esprime la proprieta additiva del funzionale P tra due eventi fra loroincompatibili. Tale proprieta si generalizza subito a un insieme finito o infinito dieventi a due a due incompatibili, con una delle due relazioni seguenti:

II ′) i 6= j, Ai ∩Aj = ® ⇐⇒ P

(n⋃

i=1

Ai

)=

n∑

i=1

P (Ai)

rII”) i 6= j, Ai ∩Aj = ® ⇐⇒ P

(∞⋃ni=1Ai

)=

∞∑

i=1

P (Ai)

l’ultima delle quali esprime la additivita infinita, o σ-additivita, dell’insieme Ai, i =1, 2, . . . di eventi a due a due incompatibili.

Dagli assiomi I), II) della probabilita si deducono svariate proprieta di P . Le piusignificative sono le seguenti:

• C1. P (Ai) = 1− P (Ai)

• C2. P (®) = 0

• C3. Ai ⊂ Aj : P (Ai) ≤ P (Aj)

• C4. ∀Ai ∈ B : 0 ≤ P (Ai) ≤ 1

• C5. Ai ∩Aj 6= ® : P (Ai ∪Aj) = P (Ai) + P (Aj)− P (Ai ∩Aj).

La proprieta C1 si dimostra considerando che per l’assioma I si ha P (Ω) = P (Ai ∪Ai) = 1, e poiche Ai e il suo complementare sono incompatibili, si ricava per l’assiomaII: P (Ai) + P (Ai) = 1.

La C2 si deduce dalla C1 perche l’insieme vuoto e il complementare di Ω e quindiP (®) = 1− P (Ω) = 0.

La C3 afferma che P e un funzionale crescente di B in [0, 1], e si dimostra applicandol’assioma II agli eventi (incompatibili) Ai e (Aj\Ai). Si trova: P (Aj) = P (Ai ∪(Aj\Ai)) = P (Ai) + P (Aj\Ai) e poiche’ l’insieme (Aj\Ai) non e vuoto per ipotesi,risulta P (Aj\Ai) ≥ 0.

La C4 si prova osservando che se Ai ⊂ Ω non e vuoto, e anche ® = Ω ⊂ Ai e per laC3 valgono entrambe le diseguaglianze: P (Ai) ≥ P (®) = 0 e P (Ai) ≤ P (Ω) = 1.

Page 15: dispense di Probabilita' e Statistica

1.2 – Definizione assiomatica di probabilita 7

W

AiAj

Ai Aj Ai Aj

Figura 1.2

La C5 e la generalizzazione dell’assioma II per eventi non incompatibili, e si dimostracome segue. Consideriamo l’evento Ai∪Aj = Ai∪ (Ai∩Aj) che si puo esprimere (v.Fig. 1.2) mediante l’unione dei due eventi incompatibili Ai e (Ai∩Aj). Per l’assiomaII si ha allora P (Ai ∪ Aj) = P (Ai) + P (Ai ∩ Aj). Ma anche Aj e esprimibile conl’unione: (Ai ∩ Aj) ∪ (Ai ∪ Aj) di due eventi incompatibili, e per esso l’assiomaII fornisce: P (Aj) = P (Ai ∩ Aj) + P (Ai ∩ Aj). Eliminando P (Ai ∩ Aj) dalle dueprecedenti eguaglianze, si ricava la C5.

Esempio 1.3: eventi elementari equiprobabili

Si e visto (Esempio 1.1) che nel lancio di un dado sei eventi elementari, a due adue incompatibili, costituiscono lo spazio campione Ω = 1, 2, 3, 4, 5, 6. Per gliassiomi I e II’ si ha subito: P (Ω) = P (1 ∪ 2 ∪ . . . ∪ 6) =

∑i Pi = 1 e se

ammettiamo che ciascun evento elementare abbia uguale probabilita di realizzarsi(ovvero se operiamo con un dado ”non truccato”), la probabilita di ciascuno vale:

∀i = 1, .., 6 : P (i) = 1/6.

Sempre per l’assioma II’, l’evento composto: ”esce un numero pari” ha probabilita

P (2, 4, 6) = P (2) + P (4) + P (6) = 1/2

mentre l’uscita di un ”numero che non sia primo” ha probabilita

P (4, 6) = P (4) + P (6) = 2/6 = 1/3.

Se si effettua per due volte il lancio dello stesso dado non truccato, gli eventi ele-mentari sono 62 = 36, e la probabilita che esca due volte lo stesso numero vale

P (11, 22, 33, 44, 55, 66) =∑

i

P (ii) = 6/36 = 1/6. /

Page 16: dispense di Probabilita' e Statistica

8 ASSIOMI DELLA PROBABILITA’

Questo esempio esprime il seguente risultato di carattere generale:

Se lo spazio campione consiste di un numero finito N di eventi elementari equi-probabili, la probabilita di un evento Ai composto da NA eventi elementari vale

P (Ai) = NA/N (1.1)

e coincide con la definizione ”classica” di probabilita, citata nella Introduzione.

Esempio 1.4

Nel lancio di una moneta, i possibili eventi elementari sono soltanto due: T = esce”testa” e C = esce ”croce”. Lo spazio campione associato ad una singola provae Ω = TC; se la moneta e lanciata due volte si ha Ω = TT, TC, CT, CC e pern prove ripetute Ω e formato da 2n eventi elementari equiprobabili, con probabilita1/2n. Sulla base del risultato espresso dalla (1.1), si verifica subito che nei lanciripetuti della moneta si ha:

PC nel secondo di due lanci = 1/2

PC nei primi due di tre lanci = 1/4

PT in due qualsiasi di quattro lanci = 3/8

PT per la prima volta all’n-esimo lancio = 1/2n. /

Esempio 1.5: distribuzione uniforme in [0, T ]

Estendiamo al caso continuo il risultato dell’Esempio 1.3. Supponiamo che lo spaziocampione sia l’intervallo [0, T ] ∈ IR e che gli eventi Ai relativi ad un esperimentocasuale siano una infinita numerabile di intervalli in [0, T ]. Supponiamo inoltre chesi richieda di assegnare uguali probabilita ad eventi definiti da intervalli di ugualeampiezza. Questa ipotesi implica la definizione di una distribuzione uniforme diprobabilita in [0, T ], e determina univocamente P (Ai). Infatti, se pensiamo di sud-dividere Ω in n intervalli I di eguale ampiezza T/n e senza elementi comuni, perl’assioma II’ la loro probabilita vale P (I) = 1/n. Un evento A definito dalla unionedi k intervalli I ha probabilita

P (A) =k

n=

kT

nT=

L(A)L(Ω)

,

uguale al rapporto tra le ampiezze L(A), L(Ω) degli intervalli A ed Ω. In particolare,se Ω e l’intervallo unitario, P (A) coincide con la misura di Lebesgue di A. E poiche lamisura di Lebesgue e una funzione continua degli intervalli, se ne deduce il seguenterisultato.

Page 17: dispense di Probabilita' e Statistica

1.3 – Probabilita condizionata 9

In una distribuzione uniforme di probabilita nell’intervallo [O, T ], la probabilitadel generico evento Ai di ampiezza L(Ai) vale:

P (Ai) =L(Ai)

T.

Ne segue, tra l’altro, che ogni punto t di Ω ha probabilita nulla: P (t) = 0, ∀t ∈ [0, T ]poiche t e un insieme di misura nulla.

1.3 Probabilita condizionata

Assegnato un evento Aj ∈ B con probabilita non nulla, la probabilita di un altroevento Ai ∈ B, condizionata da Aj si indica con P (Ai | Aj) e vale:

P (Ai | Aj) =P (Ai ∩Aj)

P (Aj). (1.2)

Essa indica la probabilita che che si realizzi Ai sapendo che Aj si e verificato; oppure:la probabilita di Ai in una prova valida solo se si verifica anche Aj . Le probabilitacondizionate soddisfano tutte le proprieta che discendono dagli assiomi I, II. Inparticolare:

• Se Ai ⊂ Aj , allora Ai ∩Aj = Ai e quindi:

Ai ⊂ Aj =⇒ P (Ai | Aj) = P (Ai)/P (Aj) > P (Ai).

• Se Ai ⊃ Aj , allora Ai ∩Aj = Aj e quindi:

Ai ⊃ Aj =⇒ P (Ai | Aj) = 1.

• Se Ai e Aj sono incompatibili, allora Ai ∩Aj = ® e quindi:

Ai ∩Aj = ® =⇒ P (Ai | Aj) = 0.

La definizione (1.2) si puo anche scrivere:

P(Ai ∩Aj) = P(Aj)P(Ai | Aj) (1.3)

e si estende al caso di n eventi A1, .., An ∈ B nella forma seguente

P(A1 ∩A2 ∩ ... ∩An) = P(A1)P(A2 | A1)P(A3 | A1 ∩A2) · · ·· · ·P(An | A1 ∩A2 ∩ · · · ∩An−1) (1.4)

che esprime la legge delle probabilita composte, molto utile in svariate appli-cazioni, come mostra l’esempio che segue.

Page 18: dispense di Probabilita' e Statistica

10 ASSIOMI DELLA PROBABILITA’

Esempio 1.6: estrazione senza reimbussolamento

Da un’urna contenente 6 palline bianche e 4 nere si estrae una pallina per volta,senza reintrodurla nell’urna. Indichiamo con Bi l’evento: ”esce una pallina biancaalla i-esima estrazione” e con Ni l’estrazione di una pallina nera. L’evento: ”esconodue palline bianche nelle prime due estrazioni” e rappresentato dalla intersezioneB1 ∩B2, e la sua probabilita vale, per la (1.3):

P (B1 ∩B2) = P (B1)P (B2 | B1).

Ora, P (B1) vale 6/10, perche nella prima estrazione Ω e costituito da 10 elementi:6 palline bianche e 4 nere. La probabilita condizionata P (B2 | B1) vale 5/9, perchenella seconda estrazione se e verificato l’evento B1 lo spazio campione consiste di 5palline bianche e 4 nere. Si ricava pertanto: P (B1 ∩B2) = 1/3. In modo analogo siha che

P (N1 ∩N2) = P (N1)P (N2 | N1) = (4/10) · (3/9) = 4/30.

Se l’esperimento consiste nell’estrazione successiva di 3 palline, la probabilita chequeste siano tutte bianche vale, per la (1.4):

P (B1 ∩B2 ∩B3) = P (B1)P (B2 | B1)P (B3 | B1 ∩B2)

dove la probabilita P (B3 | B1∩B2) si calcola supponendo che si sia verificato l’eventocondizionante B1 ∩ B2. Lo spazio campione per questa probabilita condizionatae allora costituito da 4 palline bianche e 4 nere, per cui P (B3 | B1 ∩ B2) = 1/2 equindi: P (B1 ∩B2 ∩B3) = (1/3) · (1/2) = 1/6. La probabilita dell’estrazione di trepalline nere e invece:

P (N1 ∩N2 ∩N3) = P (N1)P (N2 | N1)P (N3 | N1 ∩N2) =410· 39· 28

=130

. /

1.4 Eventi indipendenti

Due eventi Ai, Aj si dicono statisticamente indipendenti se e solo se:

P (Ai ∩Aj) = P (Ai)P (Aj) . (1.5)

Tale definizione esprime il concetto intuitivo di indipendenza di un evento da unaltro, nel senso che il verificarsi di Ai non influisce sulla probabilita del verificarsidi Aj , ovvero non la condiziona. Infatti, per la definizione (1.2) di probabilitacondizionata, si ha che se vale la (1.5) risulta:

P (Ai | Aj) = P (Ai)P (Aj)/P (Aj) = P (Ai).

Page 19: dispense di Probabilita' e Statistica

1.4 – Eventi indipendenti 11

e dunque la conoscenza del verificarsi di Aj non modifica la valutazione della prob-abilita dell’evento Ai da esso statisticamente indipendente.

Si noti bene che il concetto di indipendenza e del tutto differente da quello di in-compatibilita. In effetti, due eventi incompatibili (per i quali si ha Ai ∩ Aj = ®)sono strettamente dipendenti statisticamente, poiche il verificarsi dell’uno esclude ilverificarsi dell’altro. Per la proprieta C2 del §1.2.3, la probabilita della loro inter-sezione e nulla: P (Ai ∩ Aj) = 0 e di conseguenza, per confronto con la (1.5), dueeventi incompatibili possono essere anche statisticamente indipendenti solo nel casobanale in cui almeno uno di essi abbia probabilita nulla, ovvero sia quasi impossibile.

Se due eventi con probabilita non nulla sono statisticamente indipendenti, la leggedelle probabilita totali espressa dalla proprieta C5 del §1.2.3 si modifica nella re-lazione seguente:

P (Ai ∪Aj) = P (Ai) + P (Aj)− P (Ai)P (Aj).

La definizione di indipendenza si estende al caso di un insieme finito o infinito dieventi Ai, i quali si dicono statisticamente indipendenti se e solo se, per qualunquesottoinsieme A1, . . . , An di n eventi, si verifica la condizione:

P (A1 ∩A2 ∩ . . . ∩An) = P (A1)P (A2) · · ·P (An). (1.6)

Cio significa, in particolare, che tre eventi A,B,C sono statisticamente indipendentise lo sono a due a due, e se inoltre:

P (A ∩B ∩ C) = P (A)P (B)P (C).

Esempio 1.7

Nel lancio di un dado non truccato, si considerino gli eventi: A = esce un numerominore di 3 e B = esce un numero pari. Questi due eventi sono statisticamenteindipendenti. Infatti, le loro probabilita valgono: P (A) = P (1, 2) = 1/3;P (B) =P (2, 4, 6) = 1/2 e la probabilita della loro intersezione vale:

P(1, 2) ∩ (2, 4, 6) = P (2) = 1/6 ≡ P (A)P (B).

Come verifica, si puo osservare che la probabilita dell’evento A condizionata da Bcoincide con la sua probabilita non condizionata:

P(1, 2) | (2, 4, 6) =P(1, 2) ∩ (2, 4, 6)

P (2, 4, 6)=

1/61/2

= 1/3 ≡ P (1, 2)

Nel lancio ripetuto di una moneta (cfr. l’Esempio 1.4) in cui lo spazio campione eΩ = TT, TC, CT, CC, si considerino gli eventi composti: A1 = TT, TC, A2 =

Page 20: dispense di Probabilita' e Statistica

12 ASSIOMI DELLA PROBABILITA’

TC,CT e A3 = TT,CT, ciascuno con probabilita 1/2. I tre eventi non sonostatisticamente indipendenti, anche se lo sono a due a due. Infatti:

P (A1 ∩A2) = PTC = 1/4 = P (A1)P (A2)

P (A1 ∩A3) = PTT = 1/4 = P (A1)P (A3)

P (A2 ∩A3) = PCT = 1/4 = P (A2)P (A3),

ma si ha anche:

P (A1 ∩A2 ∩A3) = P (®) = 0 6= P (A1)P (A2)P (A3)

e dunque non e verificata la condizione (1.6) per n = 3. /

Esempio 1.8: componenti in serie e in parallelo

Si abbia un generico sistema (ad es. una macchina, un dispositivo di controllo, uncircuito, una rete di comunicazione tra centri abitati, ecc.) costituito da n compo-nenti con funzionamento statisticamente indipendente, che sono operativi ciascunocon probabilita Pi, i = 1, . . . , n. Il collegamento e in serie se tutti i componentidevono essere operativi perche lo sia il sistema; e in parallelo se e sufficiente il fun-zionamento di un solo componente per rendere operativo il sistema.

Indichiamo con Ai l’evento: ”e operativo l’i-esimo componente” e con B l’evento:”il sistema e operativo”. L’intersezione degli eventi Ai, i = 1, . . . , n indica l’evento:”tutti i componenti sono operativi”, e l’intersezione delle loro negazioni Ai = Ω\Ai

e l’evento: ”nessun componente e operativo”.

Poiche Ai sono indipendenti, le loro probabilita soddisfano la (1.6), per cui nelcollegamento in serie si ha subito:

P (B) = P (A1 ∩A2 ∩ .. ∩An) = P (A1)P (A2)..P (An) =n∏

i=1

Pi.

Nel collegamento in parallelo, P (B) e invece eguale alla probabilita che almeno uncomponente sia operativo, e percio vale

P (B) = 1− P (A1 ∩A2 ∩ .. ∩An) = 1−n∏

i=1

(1− Pi). /

1.5 Formula di Bayes

Si abbia una sequenza finita o numerabile di eventi Ai ∈ B ⊂ Ω con probabilita nonnulle, e soddisfacente alle seguenti ipotesi:

Page 21: dispense di Probabilita' e Statistica

1.5 – Formula di Bayes 13

1) i 6= j : Ai ∩Aj = ®2)

⋃∞i=1 Ai = Ω.

La prima condizione stabilisce che gli eventi devono essere a due a due incompatibili;la seconda impone che il loro insieme sia esaustivo, ossia tale che in ogni provadell’esperimento casuale si realizza uno e uno solo tra gli eventi Ai (v. Fig. 1.3).

W

A

A

A

A

A

1

2

3

4

5

E

Figura 1.3

Definito un arbitrario evento E ⊂ Ω con probabilita non nulla, e chiaro per le ipotesifatte che se si verifica E, deve anche essersi verificato almeno uno degli eventi Ai,che in tal senso si possono considerare come possibili ”cause” dell’evento E che estato registrato.

La probabilita condizionata P (Ai | E), detta probabilita a posteriori, e’ quella cheattribuiamo ad Ai sapendo che si e verificato E, ed e legata alla probabilita a prioriP (Ai) dalla seguente formula di Bayes:

P (Ai | E) =P (Ai)P (E | Ai)∑

j

P (Aj)P (E | Aj). (1.7)

Essa mostra che la conoscenza del verificarsi di E modifica la probabilita che ”apriori” siamo portati ad attribuire all’evento Ai.

Per dimostrare la (1.7), si osservi che ricorrendo due volte alla definizione di proba-bilita condizionata, si ha anzitutto:

P (Ai | E) =P (Ai ∩ E)

P (E)=

P (E ∩Ai)P (E)

=P (Ai)P (E | Ai)

P (E). (1.8)

Inoltre, per l’ipotesi 2) e tenendo conto che E ⊂ Ω, si puo scrivere:

E = E ∩ Ω = E ∩ (⋃

j

Aj) =⋃

j

(E ∩Aj).

Page 22: dispense di Probabilita' e Statistica

14 ASSIOMI DELLA PROBABILITA’

Ma per l’ipotesi 1) anche gli eventi (E∩Aj) ed (E∩Ak), con j 6= k, sono incompatibilia due a due. Quindi per l’assioma II” si ha:

P (E) = P

j

(E ∩Aj)

=

j

P (E ∩Aj) =∑

j

P (Aj)P (E | Aj) (1.9)

che, sostituita nella (1.8), prova la (1.7).

La (1.9) e detta Formula delle probabilita totali, ed e assai utile in molte ap-plicazioni perche permette di valutare la probabilita dell’evento E se e nota la suaprobabilita condizionata dalla sequenza degli eventi Ai di cui si conoscono le prob-abilita a priori.

Esempio 1.9: Controllo statistico della qualita

Al montaggio di 200 apparecchiature uguali contribuiscono tre tecnici con abilitadifferenti. Il primo tecnico monta 50 apparecchiature, che al collaudo risultanoperfette nel 90% dei casi; il secondo ne monta 85, perfette all’80%, e il terzo nemonta 65, perfette nel 70% dei casi. Si vuole determinare la probabilita che unapparecchio di buona qualita, scelto a caso, sia stato montato del terzo tecnico.

Indichiamo con E l’evento rappresentato dalla buona qualita del montaggio, e conA1, A2, A3 il montaggio effettuato da ciascuno dei tre tecnici. I tre eventi Ai sonoesaustivi (la loro unione e lo spazio campione dei 200 apparecchi montati) ed in-compatibili (il montaggio da parte di un tecnico esclude quello di un altro). Leprobabilita a priori di questi tre eventi sono note:

P (A1) =50200

= 0.25, P (A2) =85200

= 0.425, P (A3) =65200

= 0.325.

La probabilita dell’evento E nella ipotesi che l’apparecchio scelto sia stato montatodal primo tecnico, e la probabilita condizionata: P (E | A1) = 0.90 che e nota dalcollaudo; e cosı pure risulta: P (E | A2) = 0.80, P (E | A3) = 0.70. La probabilitada determinare e quella relativa al montaggio effettuato dal terzo tecnico, sapendoche e stata scelta una apparecchiatura perfetta. Essa si ricava applicando la (1.7) evale:

P (A3 | E) =P (A3)P (E | A3)

P (A1)P (E | A1) + P (A2)P (E | A2) + P (A3)P (E | A3)= 0.287. /

Esempio 1.10: trasmissione di un segnale binario

In un sistema di comunicazione digitale, un segnale binario X e trasmesso nellaforma ”0” oppure ”1”, con probabilita di trasmissione di ciascuna delle due formeche indichiamo rispettivamente con P (X0) e P (X1). La trasmissione e affetta dadisturbi aleatori (rumore), per cui esiste una probabilita non nulla che il segnalericevuto, che indichiamo con Y , sia diverso da quello emesso X (v. Fig. 1.4).

Page 23: dispense di Probabilita' e Statistica

1.5 – Formula di Bayes 15

Figura 1.4

Canale simmetrico

Supponiamo dapprima che i due eventi (esaustivi) X0 = X = 0 e X1 = X = 1si realizzino con probabilita P (X0) = 0.4 e P (X1) = 0.6; e inoltre che la probabilitadi errore nella trasmissione del segnale ”0” sia uguale alla probabilita di errore nellatrasmissione del segnale ”1”, e valga P ∗ = 0.25. Si vuole determinare le probabilitadi ricevere ”1” e di ricevere ”0”.

Indichiamo con Y0 ed Y1 la ricezione del segnale nelle forme ”0” ed”1”. Se il segnaletrasmesso e ”0” esso ha, per ipotesi, probabilita P ∗ di essere distorto in ”1”. QuindiP (Y1 | X0) = P ∗ = 0.25. Se invece il segnale trasmesso e ”1”, ha probabilita(1 − P ∗) di essere ricevuto inalterato: P (Y1 | X1) = 0.75. Applicando la (1.9) siricava pertanto

P (Y1) = P (Y1 | X0)P (X0) + P (Y1 | X1)P (X1) = 0.25 · 0.4 + 0.75 · 0.6 = 0.55.

La probabilia di ricezione del segnale nella forma ”0” si calcola invece come segue:

P (Y0) = P (Y0 | X0)P (X0) + P (Y0 | X1)P (X1) = 0.75 · 0.4 + 0.25 · 0.6 = 0.45

o meglio, se gia si conosce P (Y1), come probabilita della negazione dell’evento Y1:

P (Y0) = P (Ω)− P (Y1) = 1− 0.55.

Canale non simmetrico

Supponiamo ora che la probabilita di trasmissione del segnale in forma non distortavari a seconda della forma del segnale trasmesso, e precisamente:

P (X0 non distorto) = 0.8, P (X1 non distorto) = 0.9

essendo P (X0) = 1/3. Si vuole determinare la probabilita P (E) che il segnalericevuto sia errato. Essa si calcola applicando ancora la (1.9) e vale:

P (E) = P (Y0 | X1)P (X1) + P (Y1 | X0)P (X0) = 0.1 · 23

+ 0.2 · 13

= 0.13. /

Page 24: dispense di Probabilita' e Statistica

16 ASSIOMI DELLA PROBABILITA’

1.6 Problemi risolti

1.1. Da un mazzo di 52 carte se ne sceglie una a caso. Quanto vale la probabilitadi estrarre una figura o una carta di fiori? E quella di estrarre una figura e un fiori?

Soluzione. L’evento estrazione di una figura non influisce sulla probabilita dell’e-vento estrazione di un fiori, per cui essi sono statisticamente indipendenti. Nesegue:

Pfigura ∪ fiori = Pfigura+ Pfiori − Pfigura ∩ fiori=1252

+1352− 3

52=

1126

Pfigura ∩ fiori = Pfigura · IPfiori =1252· 1352

=352

.

1.2. Se A e C sono eventi incompatibili con B, allora P (A ∪B|C) = P (A|C). Veroo falso?

Risposta: Vero , perche:

&%

'$A

ÁÀ

¿

C

&%

'$B

P (A ∪B|C) =P [(A ∪B) ∩ C]

P (C)=

P (A ∩ C)P (C)

= P (A|C).

1.3. Nel lancio ripetuto di due dadi non truccati, la somma dei risultati e un numeropari. Quanto vale la probabilita di aver totalizzato 8 ?

Risposta: La probabilita che la somma sia 8 e

P8 = P(6 + 2) ∪ (5 + 3) ∪ (4 + 4) ∪ (3 + 5) ∪ (2 + 6) =536

.

Sapendo che e uscito un numero pari, si ha invece

P8|pari =P8 ∩ pari

Ppari =P80.5

=518

.

1.4. Gli eventi A1, A2 sono incompatibili, esaustivi e con uguale probabilita. Se unterzo evento C ⊂ Ω ha probabilita condizionate P (C|A1) = P (C|A2) = 0.5, alloraP (A1|C) = 1/4. Vero o falso?

Page 25: dispense di Probabilita' e Statistica

1.6 – Problemi risolti 17

Risposta: Falso , perche P (A1) = P (A2) = 0.5 e se si applica la formula di Bayessi ricava:

P (A1|C) =P (A1)P (C|A1)

P (A1)P (C|A1) + P (A2)P (C|A2)=

0, 5 · 0.50.5(0.5 + 0.5)

=12.

1.5. Se gli eventi A, B sono incompatibili, allora P (A) ≤ P (B). Vero o falso?

Risposta: Vero , perche se sono incompatibili allora A ⊆ B = Ω − B da cui sideduce, per gli assiomi della probabilita, che P (A) ≤ P (B).

1.6. L’urna A contiene 2 palline bianche e 3 nere; l’urna B ne contiene 4 bianche e1 nera; l’urna C ne contiene 3 bianche e 4 nere. Si sceglie a caso un’urna, e si estraeuna pallina bianca. Calcolare la probabilita che essa provenga dall’urna C.

Soluzione. Le probabilita di scegliere a caso una delle tre urne sono uguali: P (A) =P (B) = P (C) = 1/3. Indichiamo con E l’evento estrazione di una pallina bianca.Le probabilita che essa sia estratta dall’urna A, oppure B o C sono:

P (E|A) = 2/5; P (E|B) = 4/5; P (E|C) = 3/7

e la probabilita totale di estrarre una pallina bianca da una qualsiasi delle tre urnevale

P (E) =13

(25

+45

+37

)=

57105

.

La probabilita di averla estratta dall’urna C e data dalla formula di Bayes:

P (C|E) =P (C)P (E|C)

P (E)=

(1/3)(3/7)57/105

=519

.

1.7. Due ditte forniscono il medesimo prodotto. Se esso proviene dalla ditta A, laprobabilita che si guasti prima dell’istante t vale 1 − e−t; se invece proviene dalladitta B questa probabilita vale 1−e−2t. Il prodotto puo essere acquistato con ugualeprobabilita da A o da B, e non e nota la ditta fornitrice. Tuttavia, e stato osservatoche il prodotto si guasta in un intervallo di tempo 1 ≤ t ≤ 2. Determinare laprobabilita che esso sia stato acquistato dalla ditta A.

Soluzione. Indichiamo con E l’evento: guasto in 1 ≤ t ≤ 2 e con P (A) = P (B) =0.5 le probabilita che il prodotto provenga da A o da B. La probabilita di guastodel prodotto A nell’intervallo di tempo 1 ≤ t ≤ 2 vale

P (E|A) = 1− e−2 − [1− e−1] = e−1 − e−2

e quella del prodotto B nello stesso intervallo e

P (E|B) = 1− e−2·2 − [1− e−2·1] = e−2 − e−4.

Page 26: dispense di Probabilita' e Statistica

18 ASSIOMI DELLA PROBABILITA’

La probabilita a posteriori P (A|E) e data dalla formula di Bayes:

P (A|E) =P (A)P (E|A)

P (A)P (E|A) + P (B)P (E|B)

=e−1 − e−2

e−1 − e−2 + e−2 − e−4=

e2(e− 1)e3 − 1

' 0.6652 .

1.8. Abbiamo sul tavolo 9 carte coperte: due di esse sono di cuori, tre di fiori equattro di picche. Calcolare la probabilita che, scelte simultaneamente due carte acaso, siano di seme diverso.

Soluzione. Indichiamo con QQ, FF, PP gli eventi: “estrazione di due cuori”,oppure “due fiori”, o “due picche”. Lo spazio campione Ω e costituito da

(92

)= 36

eventi possibili (numero di combinazioni di 9 elementi a 2 a 2). Tra essi, esistono:(

22

)= 1 evento QQ;

(32

)= 3 eventi FF;

(42

)= 6 eventi PP.

La probabilita di estrarre due carte dello stesso seme vale:

P [QQ ∪ FF ∪ PP] = PQQ+ PFF+ PPP =136

+336

+636

=518

.

La probabilita di estrarre due carte di seme diverso e :

Pseme diverso = 1− P [QQ ∪ FF ∪ PP] =1318

.

1.9. Una sorgente emette una sequenza di tre segnali binari equiprobabili nellaforma “0” e “1”. Sapendo che almeno due segnali sono stati emessi nella forma “1”,calcolare la probabilita che sia stato emesso “0” nella prima emissione.

Soluzione. Lo spazio campione contiene 23 = 8 eventi (= numero delle disposizionicon ripetizione di 2 elementi a 3 a 3). Questi sono:

(000) (001) (011) (100) (010) (101) (110) (111)

e la probabilita che sia stato emesso “1” almeno due volte vale

P (E) ≡ P ( “1” per due o tre volte) =48

= 0.5.

La probabilita di emissione di un primo “0” condizionata da E vale:

P (primo “0”|E) =P [(primo “0”) ∩ E]

P (E)=

1/80.5

= 0.25 .

Page 27: dispense di Probabilita' e Statistica

1.6 – Problemi risolti 19

1.10. In un primo turno elettorale il polo A ha avuto il 45% dei voti, e il polo B havinto con il 55% dei suffragi. Si ripetono le elezioni con i medesimi votanti, e dagliexit-poll risulta che: 1) il 10% di colori che avevano votato A hanno spostato il votosu B; 2) il 20% dei vecchi elettori di B hanno votato A. Chi ha vinto (secondo gliexit-poll) il secondo turno?

Soluzione. Definiamo i seguenti eventi e le loro probabilita:

A1 = voto per A al primo turno : P (A1) = 0.45B1 = voto per B al primo turno : P (B1) = 0.55E = voto cambiato : P (E|A1) = 0.10, P (E|B1) = 0.20.

La probabilita che gli elettori abbiano votato A al secondo turno e

P (A2) = P (A1)[1− P (E|A1)] + P (B1)P (E|B1) = 0.45 · 0.9 + 0.55 · 0.20 = 0.515.

Poiche gli eventi A2 e B2 sono esaustivi, ha vinto A con il 51.5% contro B che haavuto il 48.5% .

1.11. Sul tavolo ci sono due mazzi di carte. Il mazzo A e completo ed ha 52 carte(ossia tredici per ognuno dei quattro semi). Dal mazzo B sono state tolte tutte lefigure. Si estrae una carta a caso da uno dei due mazzi, ed e un asso. Qual’e laprobabilita che l’asso sia stato estratto dal mazzo B ?

Soluzione. Le probabilita a priori di scegliere uno dei due mazzi sono uguali: P (A) =P (B) = 0.5. Se E e l’evento “estrazione di un asso”, le probabilita di estrarlo da Ao da B sono:

P (E|A) =452

=113

, P (E|B) =440

=110

.

La probabilita a posteriori che l’asso sia stato estratto dal mazzo B vale, per laformula di Bayes:

P (B|E) =P (B)P (E|B)

P (A)P (E|A) + P (B)P (E|B)=

0.5 · 0.10.5(0.1 + 1/13)

=1323' 0.5652 .

1.12. Si utilizza un prodotto fornito in percentuali uguali da due ditte A e B. E’stato calcolato che, scelto a caso un esemplare difettoso, la probabilita che esso siastato fornito dalla ditta A vale IP(A|difettoso ) = 0.25. Se la produzione del prodottoda parte della ditta A ha un difetto di qualita del 5%, qual’e il difetto di qualitanella produzione della ditta B ?

Soluzione. Le probabilita a priori che la ditta fornitrice sia A oppure B sono uguali:P (A) = P (B) = 0.5. Se D e l’evento: “prodotto difettoso”, si sa che P (D|A) = 0.05.Inoltre e stato calcolato che

P (A|D) =0.5 · 0.05

0.5 · 0.05 + 0.5 · P (D|B)= 0.25.

Page 28: dispense di Probabilita' e Statistica

20 ASSIOMI DELLA PROBABILITA’

Dunque risolvendo rispetto alla probabilita richiesta:

P (D|B) =0.050.25

− 0.05 = 0.15 = 15% .

1.13. Tre macchine A, B, C producono, rispettivamente, il 60%, il 30% e il 10%del numero totale dei pezzi prodotti da una fabbrica. Le percentuali di produzionedifettosa di queste macchine sono, rispettivamente, del 2%, 3% e 4%. Viene estrattoa caso un pezzo che risulta difettoso. Determinare la probabilita che quel pezzo siastato prodotto dalla macchina C.

Soluzione. Le probabilita che i pezzi siano prodotti dalla macchina A,B oppure Csono:

P (A) = 0.6, P (B) = 0.3, P (C) = 0.1.

Se D e l’evento: pezzo difettoso, si sa che

P (D|A) = 0.02, P (D|B) = 0.03, P (D|C) = 0.04

e dunque la probabilita totale che il pezzo sia difettoso vale

P (D) = 0.6 · 0.02 + 0.3 · 0.03 + 0.1 · 0.04 = 0.025.

Per la formula di Bayes la probabilita richiesta e

P (C|D) =P (C)P (D|C)

P (D)=

0.1 · 0.040.025

= 0.16 .

1.14.Un’urna contiene 1 pallina nera (N) e 2 palline bianche (B). Si estrae casual-mente una pallina dall’urna e, dopo averne osservato il colore, la si rimette nell’urnaaggiungendo altre 2 palline del colore estratto e 3 palline del colore non estratto.Calcolare la probabilita che in 4 estrazioni successive, effettuate secondo la regolasopra stabilita, si ottenga la stringa (ordinata) BNNB.

Soluzione. Indichiamo con Bi , Ni (i = 1, . . . , 4) gli eventi: si ha una pallina Bianca(Nera) alla i-esima estrazione. Dopo ogni estrazione cambia lo spazio campione, ese gli esiti delle prime tre estrazioni seguono la sequenza voluta: B1N2N3 il numerodelle palline presenti nell’urna quando avviene la i-esima estrazione si modifica comesegue:

i Nere Bianche1 1 22 4 43 6 74 8 10

Page 29: dispense di Probabilita' e Statistica

1.6 – Problemi risolti 21

Allora si ha

P (B1) =23, P (N2|B1) =

48

=12,

P (N3|N2 ∩B1) =613

, P (B4|N3 ∩N2 ∩B1) =1018

=59

e di conseguenza la probabilita che si verifichi la sequenza BNNB vale:

P (B1 ∩N2 ∩N3 ∩B4) =23· 12· 613· 59

=10117

' 0.08547 .

1.15. Un segnale binario X, emesso nella forma ” 1 ” con probabilita P (X1) = 0, 75,e inviato su un canale di trasmissione non simmetrico nel quale la probabilita dierrore nella trasmissione di X1 vale p = 0, 08. Il segnale X e ricevuto nella formaY = 1 con probabilita P (Y1) = 0, 70. Calcolare:

a) la probabilita P (Y1|X0) che il segnale ” 0 ” sia ricevuto nella forma ” 1 ”;

b) la probabilita totale di errore nella ricezione del segnale.

Soluzione.

a) La probabilita che X sia emesso nella forma “0” e P (X0) = 1−P (X1) = 0.25, e laprobabilita di una trasmissione corretta del segnale “1” e P (Y1|X1) = 1−0.08 = 0.92.

Per la formula delle probabilita totali, la probabilita (nota) che il segnale sia ricevutonella forma “1” si puo scrivere:

P (Y1) = 0.70 = P (X0)P (Y1|X0) + P (X1)P (Y1|X1) = 0.25P (Y1|X0) + 0.75 · 0.92

e risolvendo rispetto a P (Y1|X0):

P (Y1|X0) =0.70− 0.75 · 0.92

0.25= 0.04 .

b) La probabilita di errore nella ricezione del segnale risulta:

Perrore = P (X0)P (Y1|X0) + P (X1)P (Y0|X1) == 0.25 · 0.04 + 0.75 · 0.08 = 0.07 .

1.16. Due urne contengono palline bianche e nere in proporzioni diverse. Sianop1 e p2 le probabilita di estrarre una pallina bianca rispettivamente dall’urna U1 edall’urna U2. Luca vince se estraendo due palline almeno una e bianca. Egli puoscegliere tra due modalita di estrazione:

A) Sceglie a caso una delle due urne, estrae una pallina, la rimette nell’urna da cuie stata estratta, quindi sceglie di nuovo a caso un’urna ed estrae la seconda pallina.

Page 30: dispense di Probabilita' e Statistica

22 ASSIOMI DELLA PROBABILITA’

B) Sceglie a caso una delle due urne, estrae una pallina, la rimette nell’urna da cuie stata estratta, e sempre dalla stessa urna estrae una seconda pallina.

Quale tra le due procedure e piu conveniente per la vittoria di Luca?

Soluzione. Indichiamo con Ui la scelta di una delle due urne, con Ni l’evento:pallina nera alla i-esima estrazione e con E l’evento estrazione di almeno unapallina bianca. Si ha anzitutto:

IP(Ui) = 0.5 ; IP(E) = 1− IP(N1 ∩N2).

Con la procedura A le due estrazioni sono statisticamente indipendenti, con IP(N1) =IP(N2) :

IP(N1 ∩N2) = IP(N1)IP(N2) = IP(U1)IP(N1|U1) + IP(U2)IP(N1|U2) ×× IP(U1)IP(N2|U1) + IP(U2)IP(N2|U2) = 0.5(1− p1) + 0.5(1− p2)2.

In tale ipotesi si ricava:

IPA(E) = 1−(

1− p1

2+

1− p2

2

)2

= p1 + p2 − (p1 + p2)2

4.

Con la procedura B, la probabilita di estrarre due Nere dalla medesima urna vale:

i = 1, 2 : IP(N1 ∩N2|Ui) = IP(N1|Ui)IP(N2|Ui) = (1− pi)2.

Quindi:

IP(N1 ∩N2) = IP(U1)IP(N1 ∩N2|U1) + IP(U2)IP(N1 ∩N2|U2)= 0.5(1− p1)2 + 0.5(1− p2)2

e si ottiene:

IPB(E) = 1−[(1− p1)2

2+

(1− p2)2

2

]2

= p1 + p2 − p21 + p2

2

2.

La differenza tra le due probabilita e

IPA(E)− IPB(E) = −(p1 + p2)2

4+

p21 + p2

2

2=

(p1 − p2)2

4> 0

e quindi IPA(E) > IPB(E) .

Page 31: dispense di Probabilita' e Statistica

VARIABILI ALEATORIE

2.1 Definizioni

Il risultato di una prova di un generico esperimento casuale non e sempre esprimibiledirettamente in termini di numeri reali (si pensi per esempio al lancio di una moneta,o all’estrazione da un’urna di palline con colori diversi). Tuttavia, nello sviluppo delCalcolo delle probabilita siamo interessati ad associare un numero reale x = X(ω)a qualsiasi risultato ω di ogni prova dell’esperimento casuale.

Il funzionale X : Ω → IR che cosı si viene a definire e chiamato variabile aleatoria ocasuale (abbreviata nel seguito con v.a.) se soddisfa a queste due condizioni:

1. X e una funzione a valori reali definita sullo spazio di probabilita’ (Ω,B, P ) emisurabile, nel senso che le immagini inverse di intervalli Bi ⊆ IR appartengonoal campo di Borel degli eventi Ai:

X−1(Bi) = Ai ∈ B.

2. Per ogni numero reale x, l’insieme ω : X(ω) ≤ x e ancora un evento in B.

La v.a. X(ω) e dunque una funzione che fa corrispondere a ciascun risultato ωdell’esperimento casuale un elemento x di IR, e ad ogni evento Ai ∈ B ⊆ Ω unintervallo Bi ⊆ IR come e illustrato in Fig. 2.1. L’intervallo Bi appartiene a unainfinita numerabile di insiemi che costituiscono un campo di Borel B∗ su X(Ω) ⊆ IR.In particolare, all’evento impossibile ® ∈ Ω e associato l’insieme vuoto dei numerireali, e all’evento certo Ω e associato l’intervallo X(Ω) ⊆ IR. Inoltre, poiche ilfunzionale X e definito su uno spazio di probabilita, la v.a. associa alla proba-bilita P (Ai) = P [X−1(Bi)], definita su Ω, una eguale probabilita immagine P ∗(Bi),definita su X(Ω). Quest’ultima misura la probabilita che la v.a. X(ω) assuma valorireali x ∈ Bi, ed e tale che

P ∗(Bi) = P [X−1(Bi)] = P (Ai).

23

Page 32: dispense di Probabilita' e Statistica

24 VARIABILI ALEATORIE

W w

w

A

X

X

= X( )

B = X(A )

PP*

0 1

ii

P(A ) = P*(B )ii

i

x

R

R

Figura 2.1

Nel seguito indicheremo una v.a. con la lettera maiuscola (per es. X), mentre ilgenerico valore reale che essa puo assumere sara indicato con la lettera minuscolacorrispondente. La v.a. X(ω) assume un valore x ∈ IR con una ben definita proba-bilita, che e indotta in X(Ω) ⊆ IR dalla probabilita P (ω) che si verifichi ω ∈ Ω. Inconclusione, una variabile aleatoria e la trasformazione

(Ω,B, P ) X−→ (IR,B∗, P ∗)

che associa ad ogni elemento ω ∈ Ω una coppia di numeri reali (x, P ∗(x)) = (X(ω),P (ω)) con P ∗(x) = P (ω) ∈ [0, 1].

Esempio 2.1

Nel lancio di una moneta per due volte, in cui Ω = TT, TC, CT,CC, definiamo lav.a. X(ω) che a ciascuno dei 4 possibili eventi elementari associa un ”guadagno” 1se esce T , e una ”perdita” di una unita se esce C. La v.a. X(ω) assume allora trevalori discreti:

x1 = X(ω = CC) = −2x2 = X(ω = TC) = X(ω = CT ) = 0x3 = X(ω = TT ) = 2

e l’immagine di Ω e il sottoinsieme: X(Ω) = −2, 0, 2 ⊂ IR. Poiche i quattro eventielementari sono equiprobabili con probabilita P (ω) = 1/4, si ha che la probabilitaimmagine, indotta in X(Ω) per ciascuno dei tre valori di X, vale rispettivamente:

P ∗(−2) = P (TT ) = 1/4P ∗(0) = P (TC ∪ CT ) = 1/2P ∗(2) = P (CC) = 1/4. /

Page 33: dispense di Probabilita' e Statistica

2.1 – Definizioni 25

2.1.1 Funzione di distribuzione

Per la proprieta 2 di X(ω), l’insieme ω : X ≤ x e un evento in B, che d’orain poi scriveremo piu sinteticamente con (X ≤ x). Ad esso e possibile assegnareuna probabilita P (X ≤ x) = PX−1(−∞, x) che al variare di x ∈ IR definisce lafunzione ordinaria di variabile reale:

FX(x) = P (X ≤ x).

Questa funzione e chiamata funzione di distribuzione (cumulata), o funzione di ri-partizione di X(ω). Dunque, FX(x) definisce la distribuzione delle probabilita dieventi in un esperimento casuale e, con riferimento alla v.a. X(ω) che associamo atale esperimento, misura la probabilita che X(ω) assuma valori minori o uguali alreale x. Sulla base degli assiomi del Calcolo delle probabilita, e sempre non negativa,monotona non decrescente tra 0 e 1, tale che:

limx→−∞FX(x) ≡ FX(−∞) = 0, lim

x→+∞FX(x) ≡ FX(+∞) = 1

ed e continua a destra:

limξ→x+

FX(ξ) ≡ FX(x+) = FX(x).

Se X(ω) assume un numero finito o una infinita numerabile di valori reali xi, i =1, .., n,.. con probabilita Pi, allora e chiamata v.a. discreta. La sua funzione didistribuzione, illustrata in Fig. 2.2a), e una funzione costante a tratti con punti didiscontinuita in xi:

xi ≤ x < xi+1 : FX(x) =i∑

r=1

Pr, con∑

i

Pi = 1.

Al contrario, se FX(x) e continua e derivabile ovunque tranne al piu in un insiemenumerabile di punti, allora X(ω) e una v.a. continua, definita in un insieme continuoX(Ω) ⊆ IR come illustrato in Fig. 2.2b).

Se infine l’immagine di Ω attraverso X e un insieme continuo X(Ω) ⊆ IR, ma FX(x)ha un insieme numerabile di punti di discontinuita, allora la v.a. si definisce di tipomisto (v. Fig. 2.2c).

La probabilita che una v.a. X(ω) assuma valori in un intervallo (x1, x2] aperto asinistra, e data da:

P (x1 < X ≤ x2) = FX(x2)− FX(x1). (2.1)

Infatti si ha: (−∞, x2] = (−∞, x1]∪(x1, x2] e poiche gli intervalli a secondo membrorappresentano eventi incompatibili ne segue che

P (X ≤ x2) = FX(x2) = P (X ≤ x1)+P (x1 < X ≤ x2) = FX(x1)+P (x1 < X ≤ x2)

Page 34: dispense di Probabilita' e Statistica

26 VARIABILI ALEATORIE

1

11

1 1

0 00-2 2 x xx

( )FX

x ( )FX

x( )FX

x

.25

.25

.75

.75

a) v.a. discreta b) v.a. continua c) v.a. mista

Figura 2.2

da cui la (2.1). Se se pero X(ω) e continua, la probabilita che assuma un valoreassegnato x1 e nulla, perche x1 e un insieme di misura nulla (cfr. l’Esempio 1.5).Ne segue, tenuto conto della incompatibilita degli eventi (X = x1) e (x1 < X ≤ x2),che per v.a. continue la (2.1) vale anche con il doppio segno di uguaglianza:

P (x1 ≤ X ≤ x2) = P (X = x1) + P (x1 < X ≤ x2) = FX(x2)− FX(x1).

Esempio 2.2

La v.a. definita nell’Esempio 2.1 a proposito del lancio ripetuto di una moneta ediscreta perche puo assumere solo i tre valori x1 = −2, x2 = 0, x3 = 2. La suafunzione di distribuzione vale:

FX(x) = P (X ≤ x) =

0 per x < −21/4 per x ∈ [−2, 0)3/4 per x ∈ [0, 2)1 per x ≥ 2

(2.2)

ed il suo grafico e riportato in Fig. 2.2a). Un modo piu espressivo per scriverequesta funzione costante a tratti consiste nel far uso della funzione scalino unitarioo di Heaviside, cosı definita:

U(x− x∗) =

1 per ogni x ≥ x∗

0 per ogni x < x∗.(2.3)

Con essa, la (2.2) diventa

FX(x) = 14U(x + 2) + 1

2U(x) + 14U(x− 2) (2.2′)

ed ha il vantaggio di mostrare sia i punti di discontinuita di FX(x), sia l’ampiezzadel gradino in ognuno di tali punti.

Esempio 2.3

Page 35: dispense di Probabilita' e Statistica

2.1 – Definizioni 27

La funzione di variabile reale:

FX(x) =

0 per x < 03x2 − 2x3 per x ∈ [0, 1]1 per x > 1

(2.4)

e tale che FX(0) = 0; FX(1) = 1 e la sua derivata F ′X(x) = 6x(1 − x) e non

negativa per ogni x ∈ [0, 1]. Essa puo dunque essere riguardata come la funzione didistribuzione di una v.a. X(ω) continua nell’intervallo [0, 1], il cui grafico e riportatoin Fig. 2.2b). /

Esempio 2.4

L’esperimento consiste nell’estrazione a caso di un numero x compreso tra 0 e 1.Definiti i tre eventi composti:

A1 = ω : x ∈ [0, 14 ] , A2 = ω : x ∈ (1

4 , 34 ] , A3 = ω : x ∈ (3

4 , 1] aventi probabilita P (A1) = P (A3) = 1

4 ; P (A2) = 12 , associamo ad essi la v.a.

X(ω) =

0 se ω ∈ A1

x se ω ∈ A2

1 se ω ∈ A3.

La sua funzione di distribuzione si calcola come segue:

x < 0 : F (x) = P (X < 0) = 0 (2.5)0 ≤ x ≤ 1

4 : F (x) = P (X ≤ 0) = P (A1) = 14

14 < x ≤ 3

4 : F (x) = P (X ≤ 0) + P (14 < X ≤ x) = 1

4 + (x− 14) = x

34 < x < 1 : F (x) = P (X ≤ 0) + P (1

4 < X ≤ 34) = 3

4x ≥ 1 : F (x) = P (X ≤ 0) + P (1

4 < X ≤ 34) + P (X ≤ 1) = 3

4 + 14 = 1.

Questa funzione e discontinua nei punti x = 0 ed x = 1 e continua altrove, e definisceuna v.a. mista la cui distribuzione di probabilita e indicata nella Fig. 2.2c). /

2.1.2 Densita di probabilita

• V.a. continue. Data una v.a. X(ω) continua in X(Ω) ⊆ IR e scelto un insiemeB ⊆ X(Ω), introduciamo la funzione integrabile fX(x) : IR→ [0, +∞) tale che

BfX(x)dx = P (X ∈ B). (2.6)

Tale funzione fX(x) si chiama densita di probabilita o funzione di densita di X(ω),e il suo integrale misura la probabilita che X(ω) abbia valori x ∈ B. Per gli assiomidel Calcolo delle probabilita, essa deve soddisfare le seguenti proprieta:

fX(x) ≥ 0;∫

SfX(x)dx = 1 (2.7)

Page 36: dispense di Probabilita' e Statistica

28 VARIABILI ALEATORIE

x

f ( )xX

xd

f ( )xX

xddP( ) =w

0

xP(X )

Figura 2.3

dove S e il supporto di fX(x), ossia l’insieme S = x ∈ IR : fX(x) > 0. Per ladefinizione di funzione di distribuzione cumulata, si ha

∫ x

−∞fX(t)dt = P (X ≤ x) = FX(x) (2.8)

e quindi anche, se B e l’intervallo elementare (x, x + dx]:

P (x < X ≤ x + dx) = FX(x + dx)− FX(x) =∫ x+dx

xfX(t)dt ∼= fX(x)dx. (2.9)

La quantita elementare dP (ω) = dFX(x) = fX(x)dx misura pertanto, a meno diinfinitesimi di ordine superiore, la probabilita elementare che X(ω) assuma valori in(x, x + dx]. Da quanto esposto discende anche che

fX(x) =dFX(x)

dx(2.10)

quasi ovunque in X(Ω), ovvero: la densita di probabilita e uguale alla derivata dellafunzione di distribuzione di X(ω), tranne al piu in un insieme di punti di misuranulla, nei quali FX(x) non e derivabile.

Page 37: dispense di Probabilita' e Statistica

2.1 – Definizioni 29

00 1/4 3/4 11 xxx

xf ( )Xxf ( )

Xxf ( )

X

1

1/4

-2 0 2

1/4

1/2

a) v.a. discreta b) v.a. continua c) v.a. mista

Figura 2.4

Esempio 2.5

La v.a. continua con funzione di distribuzione definita dalla (2.3) dell’Esempio 2.3,ha come densita di probabilita la funzione

fX(x) =

0 per x < 06x(1− x) per x ∈ [0, 1]0 per x > 1,

che e un arco di parabola su un supporto di ampiezza unitaria, come mostrato inFig. 2.4b). /

• V.a. discrete e miste. Affinche le formule precedenti continuino a valere in pre-senza di v.a. discrete o miste, e necessario utilizzare la funzione impulsiva o funzionedelta di Dirac. Si tratta della funzione generalizzata cosı definita:

∀x 6= x∗ : δ(x− x∗) = 0 , δ(x− x∗) e infinita per x∗ = 0∫ ∞

−∞δ(x− x∗)dx = 1 ,

∫ ∞

−∞ϕ(x)δ(x− x∗)dx = ϕ(x∗)

dove ϕ(x) e una arbitraria funzione di x, continua per x = x∗. La primitiva diδ(x − x∗) che si annulla per x → −∞ e la funzione gradino unitario definita nella(2.3):

U(x− x∗) =∫ x

−∞δ(ξ − x∗)dξ.

Per mezzo della funzione impulsiva, la densita di una v.a. discreta che assume valoriin x1, x2, . . . con probabilita pi, i = 1, 2, . . . si puo esprimere nel modo seguente:

fX(x) =∑

i

piδ(x− xi) con∑

i

pi = 1 (2.11)

Page 38: dispense di Probabilita' e Statistica

30 VARIABILI ALEATORIE

e si rappresenta graficamente con una successione di impulsi come indicato in Fig.2.4a). Essa mostra la densita di probabilita della v.a. che abbiamo associato allancio ripetuto di una moneta, che si ricava derivando la (2.2’) e vale

fX(x) = 14δ(x + 2) + 1

2δ(x) + 14δ(x− 2). (2.12)

La v.a. mista considerata nell’Esempio 2.4 ha invece una densita che si puo esprimerecome segue:

fX(x) = U(x− 14)− U(x− 3

4) + 14δ(x) + 1

4δ(x− 1)

ed e mostrata in Fig. 2.4c). La densita (2.11) di una v.a. discreta si scrive anchespesso nella seguente forma semplificata:

fX(xi) = pi , i = 1, 2, . . . ; fX(x) = 0, ∀x 6= xi

che non richiede l’introduzione della funzione impulsiva.

2.2 Momenti di variabili aleatorie

Si chiama momento di ordine q di una v.a. reale X(ω), dotata di densita fX(x), laquantita

EXq =∫ ∞

−∞xq · fX(x)dx =

ΩXq(ω)P (ω)dω (2.13)

(per q intero positivo) se esiste, finito, l’integrale∫ |x|qfX(x)dx. Se X(ω) e una

v.a. discreta, tenuto conto della (2.11) e della proprieta integrale della funzioneimpulsiva, i suoi momenti valgono:

EXq =∑

i

pi

∫ ∞

−∞xqδ(x− xi)dx =

i

pixqi . (2.14)

I momenti sono importanti parametri indicatori di certe proprieta di X(ω). PoichefX(x) ≥ 0, i momenti di ordine pari, se esistono, sono sempre non negativi. I piunoti sono senza dubbio quelli per q = 1 e q = 2.

Si chiama valor medio o valore atteso o ancora speranza matematica di X(ω) ilmomento del primo ordine:

EX =∫ ∞

−∞x · fX(x)dx (2.15)

indicato anche con la notazione mX , che per v.a. discrete vale:

EX =∑

i

pixi, i = 1, 2, . . . . (2.15′)

Page 39: dispense di Probabilita' e Statistica

2.2 – Momenti di variabili aleatorie 31

Il valor medio e un parametro di posizione, e si puo interpretare come il baricentrodella distribuzione di probabilita definita dalla densita fX(x). L’integrale (2.15) chelo definisce puo essere esteso al supporto S di fX(x), se questo e diverso da IR. In-oltre, se il supporto e limitato: S = [a, b], EX puo essere determinato agevolmenteanche se, invece della densita, si conosce la funzione di distribuzione FX(x). Infatti,calcolando per parti l’integrale e tenendo conto che FX(a) = 0, FX(b) = 1, si ricava:

EX =∫ b

axfX(x)dx = [xFX(x)]ba −

∫ b

aFx(x)dx = b−

∫ b

aFX(x)dx. (2.15”)

Osserviamo ancora che il valor medio ha proprieta di linearita analoghe a quelledell’integrale con cui e definito: date n v.a. X1(ω), .., Xn(ω), la media di una lorocombinazione lineare e uguale alla combinazione lineare delle medie:

Ea1X1 + . . . + anXn = a1EX1+ . . . . + anEXn.

Spesso i momenti di ordine superiore al primo vengono calcolati proprio rispetto alvalor medio mx di X(ω), operando una traslazione x′ = x − mx che individua loscarto dalla media. Si definiscono cosı i momenti centrali di ordine q = 2, 3, ..n:

E(X −mX)q =∫ ∞

−∞(x−mX)q · fX(x)dx

il piu importante dei quali e quello di ordine 2, chiamato varianza di X(ω) e indicatocon σ2

X :

σ2X = E(X −mX)2 =

∫ ∞

−∞(x−mX)2 · fX(x)dx. (2.16)

Per v.a. discrete la varianza e definita come la somma:

σ2X =

i

pi(xi −mX)2. 2.16′

Le dimensioni di σ2X sono ovviamente diverse da quelle della v.a. cui si riferisce;

anche per questo motivo e spesso usata la sua radice quadrata positiva σX , chee chiamata scarto quadratico medio o deviazione standard, la quale conserva ledimensioni di X(ω).

La varianza si puo interpretare come il momento d’inerzia della distribuzione diprobabilita, rispetto alla retta baricentrica x = mX e, insieme con la deviazionestandard, e un parametro che misura la dispersione della distribuzione rispetto alsuo valor medio. Dalla sua definizione si ricava:

σ2X =

∫ ∞

−∞(x2 − 2xmX + m2

X) · fX(x)dx = EX2 − 2mXmX + m2X

Page 40: dispense di Probabilita' e Statistica

32 VARIABILI ALEATORIE

ovvero:σ2

X = EX2 − E2Xdove EX2 e il momento (non centrale!) del secondo ordine di X(ω). E poicheun momento di ordine pari non puo essere negativo, si ha sempre σ2

X ≥ 0, ovveroanche: EX2 ≥ E2X.Il significato della varianza e ben illustrato dalla seguente

Diseguaglianza di Tchebyshev. Si puo dimostrare che data una v.a. X(ω) con vari-anza finita, per ogni reale k > 0 risulta:

IP(|X −mX | ≥ k) ≤ σ2X/k2.

Questa diseguaglianza mostra che la probabilita che X(ω) assuma valori al di fuori diun intorno di raggio k del suo valor medio, non supera il rapporto σ2

x/k2. Quindi, aldecrescere di σ2

X aumenta la probabilita che tutti i valori di X(ω) siano concentratiattorno al suo valor medio.

Una v.a. X(ω) puo essere priva di alcuni suoi momenti, o anche di tutti: in-fatti, perche esistano EXq con q = 1, 2, . . . devono esistere finiti gli integrali∫ |x|qfX(x)dx. Se poi esistono questi momenti, alcuni di essi possono essere nulli.Ad esempio, tutte le v.a. che hanno una densita di probabilita simmetrica, tale cioeche fX(x) e una funzione pari, hanno momenti di ordine dispari che sono nulli:

fX(x) = fX(−x) ⇔ EXq = 0 per q = 1, 3, 5, . . .

perche definiti dall’integrale di una funzione dispari; e cio vale anche per le v.a.discrete, se definite da una successione simmetrica di impulsi.

D’altra parte, accertata l’esistenza dei momenti finiti di una v.a., non e assicuratoche essi individuino la sua densita’ di probabilita fX(x). Infatti, possono esisterevariabili aleatorie che hanno tutti i loro momenti uguali, ma differenti distribuzioni diprobabilita. Perche una successione EXq di momenti individui univocamenteuna densita di probabilita, devono essere soddisfatte ulteriori condizioni. Una diqueste e la seguente, che citiamo senza dimostrazione.

Condizione sufficiente per l’unicita di fX(x). Data una successione di momentifiniti di una v.a. X(ω), se esiste un k 6= 0 tale che

EX2q · k2q

(2q)!→ 0 per q → +∞ (2.17)

allora la successione EXq, q = 1, 2, . . . individua univocamente la densita di pro-babilita di X(ω).

Page 41: dispense di Probabilita' e Statistica

2.3 – Distribuzioni notevoli in Probabilita e Statistica 33

Esempio 2.6

La v.a. discreta definita nell’Esempio 2.1, che ha densita data dalla (2.12), hamomenti di ordine dispari che sono nulli (infatti fX(x) e simmetrica), e quelli diordine pari valgono:

EXq =∑

i

pixqi =

14(−2)q +

142q = 2(q−1), q = 2, 4, 6, . . .

La successione di questi momenti individua univocamente la densita (2.12), perchee soddisfatta la condizione (2.17) con k = 1/2:

EX2q · (1/2)2q

(2q)!=

22q(1/2)2q

2 · (2q)!=

12 · (2q)! → 0 per q → +∞. /

2.3 Distribuzioni notevoli in Probabilita e Statistica

2.3.1 Distribuzione uniforme

E’ la generalizzazione della legge di eventi equiprobabili gia esaminata nell’Esempio1.5. Una v.a. X(ω) uniformemente distribuita nell’intervallo [a, b] ha densita

fX(x) =1

b− aper a ≤ x ≤ b ; fX(x) = 0 altrove. (2.18)

Si noti che fX(x) soddisfa entrambe le condizioni (2.7) richieste ad una funzionedensita di probabilita. La funzione di distribuzione cumulata e

FX(x) =

0 per x < a(x− a)/(b− a) per a ≤ x ≤ b1 per x > b

a b x a b x

1b-a

f ( )xX F ( )x

X

1

0

Figura 2.5 - Distribuzione uniforme

Page 42: dispense di Probabilita' e Statistica

34 VARIABILI ALEATORIE

ed i momenti valgono

EXq =∫ b

a

xq

b− adx =

bq+1 − aq+1

(b− a)(q + 1).

In particolare, si ha subito che il valor medio di X(ω) e ovviamente:

mX =a + b

2e la varianza vale:

σ2X =

a2 + ab + b2

3−m2

X =(b− a)2

12.

2.3.2 Distribuzione normale

Una v.a. reale X(ω) ha una distribuzione normale o gaussiana se la sua densita vale

fX(x) =1√

2πσX

exp

[−(x−mX)2

2σ2X

], x ∈ IR (2.19)

dove i parametri mX ∈ IR e σ2X > 0 sono rispettivamente il valor medio e la varianza

di X(ω). La distribuzione normale, che si indica con la notazione N (mX , σ2X), ha

la seguente funzione di distribuzione:

FX(x) =1√

2πσX

∫ x

−∞exp

[−(x−mX)2

2σ2X

]dx =

12

+ erf(

x−mX

σX

)(2.20)

dove erf (z) e la funzione degli errori:

erf (z) =1√2π

∫ z

0e−

t2

2 dt,

soddisfacente tra l’altro le proprieta:

erf (−z) = −erf (z) ; limz→∞ erf (z) = 1/2

e nota quantitativamente attraverso i suoi valori tabulati. Ne segue che FX(x) emonotona crescente tra 0 e 1, e vale 1/2 per x = mX perche la densita (2.19) esimmetrica rispetto al suo valor medio (v. Fig. 2.6).

La v.a. Z(ω) che e distribuita con legge normale N (0, 1), ovvero ha media nulla evarianza unitaria, prende il nome di normale standard. Si puo facilmente provare(con i metodi che saranno esposti nel Capitolo 4) che la sua densita si ricava dalla(2.19) mediante il cambiamento di variabile:

z =x−mX

σX, (2.21)

Page 43: dispense di Probabilita' e Statistica

2.3 – Distribuzioni notevoli in Probabilita e Statistica 35

0.1

0.2

0.3

X X= 0.05s

X

2 = 0.05sX

2

mX

f ( )x x

mX

0

0.5

1

F ( )

0.1 0.20.3

Figura 2.6 - Distribuzioni normali

il che significa che la densita e la funzione di distribuzione di Z(ω) sono:

fZ(z) =1√2π

e−z2

2 , FZ(z) =12

+ erf (z). (2.22)

Si noti che nella (2.21) σX e la deviazione standard di X(ω), e quindi z e un numeropuro. Poiche erf (z) si ricava direttamente dalla tabella dei valori della funzionedegli errori, nel calcolo di misure di probabilita riguardanti distribuzioni normalicon media e varianza note, e spesso assai piu comodo effettuare la trasformazione(2.21) e operare sulla variabile standardizzata Z(ω) che ha legge N (0, 1). Questaprocedura e usuale nei metodi statistici che saranno esposti in un prossimo Capitolo.

Ad esempio, dalla tabella di erf (z) che e riportata in Appendice si ricava subito:

P (|X −mX | ≤ σX) = P (|Z| ≤ 1) = FZ(1)− FZ(−1) = 2 erf (1) ' 0.6826P (|X −mX | ≤ 2.15 σX) = P (|Z| ≤ 2.15) = 2 erf (2.15) ' 2 · 0.4842 = 0.9684P (|X −mX | ≤ 3σX) = P (|Z| ≤ 3) = FZ(3)− FZ(−3) = 2 erf (3) ' 0.9974.

Da questo calcolo si deduce, tra l’altro, che ogni v.a. normale N (mX , σ2X) assume

valori compresi tra mX−σX e mX +σX con probabilita che e circa uguale a 0.6826, ela probabilita sale a 0.9974 (avvicinandosi a quella dell’evento certo) se si consideral’intervallo [mX − 3σX ,mX + 3σX ].

La grande importanza che la legge di distribuzione normale riveste nei metodi dellaStatistica matematica e dovuta al seguente Teorema, che trovera svariate appli-cazioni nelle stime campionarie di cui ci occuperemo nei Capitoli 7,8 e 9.

Page 44: dispense di Probabilita' e Statistica

36 VARIABILI ALEATORIE

Teorema Limite CentraleSi abbia una successione Xi(ω), i ∈ IN+ di variabili aleatorie statisticamenteindipendenti, con uguali densita di probabilita fi(xi) aventi valor medio EXi =µ e varianza σ2

i = σ2 finite. Allora la densita di probabilita della loro somma:

Sn(ω) =n∑

i=1

Xi(ω)

converge, per n → +∞, alla distribuzione normale N (nµ, nσ2).

Sulla base di questo Teorema, e possibile usare la legge normale per descrivere in ter-mini probabilistici tutti quei fenomeni fisici che si possono considerare come prodottidalla sovrapposizione di un elevato numero di cause statisticamente indipendenti edaventi la medesima natura aleatoria. Nella Statistica, il teorema e indispensabileper definire le proprieta aleatorie dei valori medi di campioni estratti casualmenteda una popolazione.

2.3.3 Distribuzione Gamma

Una v.a. che assume valori in IR+ e distribuita con legge Gamma di parametri λ eα > 0 se ha densita di probabilita

fX(x) =λα

Γ(α)e−λxxα−1, x ≥ 0. (2.23)

Γ(α) e la funzione speciale cosı definita:

Γ(α) =∫ ∞

0e−ttα−1dt, (2.24)

le cui proprieta sono definite nei testi che riportano i suoi valori tabulati. Ricordiamoin particolare che

Γ(12) =

√π

Γ(α + 1) = αΓ(α) = α! per α ∈ IN+

Γ(α + 12) = 1 · 3 · 5 · · · (2α− 1)

√π/2α.

Questa distribuzione ha valor medio e varianza che valgono:

mX =α

λ, σ2

X =α

λ2,

e se α ≥ 1 ha un massimo per x = (α− 1)/λ (v Fig. 2.7).

Page 45: dispense di Probabilita' e Statistica

2.3 – Distribuzioni notevoli in Probabilita e Statistica 37

0

a

a

a

a

= 0.5

= 1 : esponenziale

= 2

= 3

l = 4

x

f ( )xX

4

2

Figura 2.7 - Distribuzioni Gamma ed esponenziale (per α = 1)

2.3.4 Distribuzione esponenziale

Per α = 1, la distribuzione Gamma si riduce a quella esponenziale definita dalladensita

fX(x) = λe−λx, λ > 0; x ≥ 0. (2.25)

La sua funzione di distribuzione cumulata e

FX(x) = 1− e−λx, x ≥ 0 (2.26)

ed ha momenti finiti di qualsiasi ordine, che valgono

q = 1, 2, . . . : EXq = λ

∫ ∞

0xqe−λxdx =

1λq

∫ ∞

0tqe−tdt =

q!λq

poiche l’ultimo integrale e la funzione Gamma Γ(q + 1) = q! definita con la (2.34).In particolare, valor medio e varianza valgono

mX =1λ

, σ2X = EX2 −m2

X =1λ2

.

Si noti che la successione dei momenti di X(ω) definisce univocamente la densitaesponenziale: infatti essi soddisfano la condizione (2.17) per ogni reale k ∈ (0, λ):

EX2q · k2q

(2q)!=

2q)!λ2q

· k2q

(2q)!=

(k

λ

)2q

→ 0 per q → 0 : 0 < k < λ.

La distribuzione esponenziale e assai utilizzata negli studi di affidabilita (di un di-spositivo o di un materiale) con tasso di guasto costante λ. Se X(ω) e il tempo

Page 46: dispense di Probabilita' e Statistica

38 VARIABILI ALEATORIE

di attesa perche si verifichi il guasto, l’affidabilita del dispositivo, definita come laprobabilita di non subire guasti nell’intervallo di tempo (0, t), e data da

R(t) = 1− FX(t) = e−λt =1λ

fX(t).

La distribuzione esponenziale dei tempi di attesa ha una notevole proprieta: per ognit, s ∈ IR la probabilita di attendere un evento per un tempo t + s, sapendo di avergia atteso il tempo s, e uguale alla probabilita di attendere l’evento per una duratadi tempo t. Infatti, ricordando la definizione (1.2) di probabilita condizionata, si ha

P (X > t + s | X > s) =P (X > t + s ∩ X > s)

P (X > s)=

P (X > t + s)P (X > s)

=

=1− FX(t + s)

1− FX(s)= e−λt = 1− FX(t) = P (X > t).

Si dice percio che la legge esponenziale e “senza memoria”, nel senso che il tempos gia trascorso non influenza la probabilita che l’evento si verifichi in qualunqueistante successivo all’istante s in cui e iniziata l’osservazione.

2.3.5 Distribuzione di Maxwell

Si dimostrera nel Capitolo IV che il vettore V (ω) avente come componenti cartesianeortogonali tre variabili aleatorie statisticamente indipendenti e con uguale distri-buzione normale N (0, σ2), e una v.a. con densita di probabilita

fV (v) =√

v2

σ3exp

(− v2

2σ2

), v ≥ 0. (2.27)

La densita (2.27) definisce la distribuzione di Maxwell, che ha valor medio e varianzauguali a

EV = 2σ√

2/π ; σ2V = σ2(3− 8/π) (2.28)

dove σ2 e, come detto, la varianza delle componenti di V (ω). Si osservi anche chefV (v) non e simmetrica rispetto al suo valor medio: infatti ha un massimo perv =

√2σ 6= EV .

La distribuzione di Maxwell e di grande importanza nella Meccanica statistica,perche e il modello probabilistico della velocita di agitazione termica delle molecoledi un gas in equilibrio termodinamico. Se indichiamo con m la massa molecolare,con T la sua temperatura e con k la costante di Boltzmann, allora risulta

σ2 =kT

m,

Page 47: dispense di Probabilita' e Statistica

2.3 – Distribuzioni notevoli in Probabilita e Statistica 39

e il valor medio dell’energia cinetica T della molecola del gas in equilibrio e ugualea ET = 1

2mEV 2. Ma sostituendo il valore di σ2 nelle (2.28) si ottiene:

EV 2 =kT

m

(3− 8

π

)− 8kT

mπ=

3kT

m,

da cui segue il noto risultato che nel modello maxwelliano le molecole di gas inequilibrio possiedono una energia cinetica media che vale

ET =32kT.

= 1s

= 3s

= 2s

0

f ( )v

v

V

Figura 2.8 - Distribuzioni di Maxwell

Assai simile alla maxwelliana e la distribuzione di Rayleigh, riguardante le pro-prieta probabilistiche di un vettore bidimensionale

V (ω) =√

X21 (ω) + X2

2 (ω)

le cui componenti, statisticamente indipendenti, hanno legge normale N (0, σ2). Lasua densita di probabilita e la funzione

fV (v) =v

σ2exp

(− v2

2σ2

), v ≥ 0,

con valor medio e varianza che valgono:

EV = σ√

π/2, σ2V = σ2(2− π/2).

2.3.6 Distribuzione t-Student

La v.a. X(ω) che puo assumere qualsiasi valore x ∈ IRha una distribuzione chiamatat-Student con n gradi di liberta, n = 1, 2, 3, . . . (dallo pseudonimo dello statistico

Page 48: dispense di Probabilita' e Statistica

40 VARIABILI ALEATORIE

britannico W.S. Gosset) se la sua densita di probabilita vale:

fX(x) =Γ

(n + 1

2

)

√nπ · Γ

(n

2

)(

1 +x2

n

)−n+12

(2.29)

dove Γ(·) e la funzione Gamma (2.24).

Il suo valor medio e nullo: EX = 0 per ogni n e la sua varianza, che e definitasolo per n > 2, vale

σ2X =

n

n− 2.

n = 6

n = 4

n = 2

N (0, 1)

0 x

xf ( )X

Figura 2.9 - Confronto tra distribuzioni t-Student e Normale standard

Per n = 1, la distribuzione t-Student si riduce alla distribuzione di Cauchy:

fX(x) =1

π(1 + x2),

che ha valor medio nullo ma e priva dei momenti di ordine superiore, perche l’integrale(2.13) che li definisce diverge per q ≥ 2.

Poiche n e intero, il coefficiente di normalizzazione nella (2.29) si determina facil-mente utilizzando le proprieta della funzione Gamma, in modo che per n pari:n = 2k, k = 1, 2, . . . la densita t-Student si puo riscrivere nella forma:

fX(x) =1 · 3 · 5 · · · (2k − 1)

√π

2k√

2kπ(k − 1)!

(1 +

x2

2k

)−(k+12)

(2.29′)

e per n dispari: n = 2k + 1, k = 1, 2, . . . si ha:

fX(x) =2k · k!

1 · 3 · 5 · · · (2k − 1)π√

2k + 1

(1 +

x2

2k + 1

)−(k+1)

. (2.29′′)

Page 49: dispense di Probabilita' e Statistica

2.3 – Distribuzioni notevoli in Probabilita e Statistica 41

La distribuzione t-Student ha questa interessante proprieta: per n →∞ essa tendealla distribuzione normale standard N (0, 1), ma ha una dispersione piu elevata perpiccoli valori di n > 2. Per questo motivo, essa trova frequenti applicazioni inStatistica, quando la stima dei valori medi di una popolazione e da effettuare supiccoli campioni (v. Capitolo 8).

2.3.7 Distribuzione Chi-quadrato

Una v.a. che assume valori x ∈ IR+ ha una distribuzione Chi-quadrato con n gradi diliberta, che si indica con il simbolo χ2

n, se la sua densita di probabilita e la funzione

fX(x) =x

n2−1e−

x2

2n/2 · Γ(n/2), x ≥ 0 (2.30)

0 20

0.25

n = 4

n = 6

n = 10

x

f ( )xX

Figura 2.10 - Distribuzioni Chi-quadrato

Essa si ricava anche come un caso particolare della distribuzione Gamma, ponendonella (2.23) α = n/2, λ = 1/2. Ha valor medio e varianza che valgono

EX = n, σ2X = 2n,

e si puo dimostrare che e la distribuzione di una v.a. definita come la sommadei quadrati di n variabili aleatorie indipendenti Xi(ω) aventi distribuzioni normalistandard:

χ2n(ω) =

n∑

i=1

X2i (ω), EXi = 0, σ2

Xi= 1.

Per questo motivo, e assai utile in Statistica per la valutazione delle varianze dicampioni estratti da una popolazione (v. Capitolo 8).

Per una sua notevole proprieta asintotica, al crescere di n la distribuzione Chi-quadrato tende ad assumere una forma “a campana” simmetrica rispetto al suo

Page 50: dispense di Probabilita' e Statistica

42 VARIABILI ALEATORIE

valor medio, e si puo dimostrare che per n >> 1 e ben approssimata da una leggenormale N (n, 2n) con media n e varianza 2n.

2.3.8 Distribuzione F di Fisher

Un’altra distribuzione di frequente uso nei test statistici (v. Capitolo 9) e quella diuna v.a. X(ω) definita come il rapporto:

X(ω) =nχ2

m(ω)mχ2

n(ω)

tra due variabili aleatorie con distribuzione Chi-quadrato ad m e n gradi di liberta(e divise per il loro grado di liberta). Questa distribuzione, che si indica con lanotazione F (m,n) ed e anche chiamata di Snedecor, ha densita di probabilita

fX(x) =(

m

n

)m2 ·

Γ(

m + n

2

)

Γ(

m

2

(n

2

) · x(m2−1)

[1 +

mx

n

]m+m2

, x ≥ 0 (2.31)

1

n = 4, m = 2

n = 6, m = 4

n = 8, m = 6

0 1 2 4x

f ( )xX

3

Figura 2.11 - Distribuzioni F (m,n) di Fisher

dove Γ(·) e sempre la funzione Gamma (2.24). Il suo valor medio dipende solo dalparametro n, vale

EX =n

n− 2se n > 2

e quindi tende a 1 per n →∞; la varianza vale invece

s2X =

2n2(m + n− 2)m(n− 2)2(n− 4)

se n > 4.

Page 51: dispense di Probabilita' e Statistica

2.3 – Distribuzioni notevoli in Probabilita e Statistica 43

2.3.9 Distribuzione binomiale

Proseguiamo l’illustrazione delle leggi probabilistiche piu note, considerando ora dueimportanti distribuzioni discrete, la binomiale e quella di Poisson, il cui interesse estrettamente legato allo studio degli esiti di una successione di prove ripetute edindipendenti di un esperimento casuale, la cui formulazione probabilistica e dovutaa Bernoulli. Ne esaminiamo ora i risultati fondamentali.

Consideriamo un esperimento casuale i cui esiti siano rappresentati da due soli eventi,che definiremo con successo (S) o fallimento (F) della prova effettuata. Supponiamoinoltre che n prove di tale esperimento siano ripetute ”in modo indipendente”, valea dire in modo tale che l’esito di una prova sia indipendente da qualsiasi prefissatasequenza di esiti nelle prove precedenti. Indichiamo con p la probabilita di successoe con q = 1 − p la probabilita del fallimento. Poiche le prove sono statisticamenteindipendenti, la probabilita di una assegnata sequenza di successi e fallimenti e datadal prodotto delle probabilita degli eventi S ed F . Ne segue che una sequenza din prove, contenente k successi e n − k fallimenti, ha probabilita pkqn−k. D’altraparte, il numero di sequenze costituite da n esiti e contenenti k successi e ugualeal numero di combinazioni di classe k di n elementi, dato dal coefficiente binomiale(nk

). Inoltre, ciascuna sequenza e statisticamente indipendente dalle altre, per cui

la probabilita Pn,k di ottenere, in n prove, k successi e n-k fallimenti e data dallaformula di Bernoulli:

Pn,k =

(n

k

)pkqn−k (2.32)

Se poi il successo e il fallimento sono equiprobabili, allora si ha p = q = 12 , e la

formula diventa:

Pn,k =

(n

k

)12n

, 2.42′

in cui la probabilita in oggetto e il rapporto tra i casi favorevoli e i casi possibilidefiniti in uno spazio campione costituito da 2n eventi equiprobabili.

In modo analogo, la probabilita Pn(k1 ≤ k ≤ k2) che in n prove il numero di successisia compreso tra k1 e k2 si valuta considerando l’unione degli eventi: Ek = S sipresenta k volte con k1 ≤ k ≤ k2, ciascuno dei quali ha probabilita espressa dalla(2.42). Poiche gli eventi Ek sono incompatibili a due a due, la probabilita della lorounione vale, per il secondo assioma:

Pn(k1 ≤ k ≤ k2) =k2∑

k=k1

P (Ek) =k2∑

k=k1

(n

k

)pkqn−k. (2.33)

Page 52: dispense di Probabilita' e Statistica

44 VARIABILI ALEATORIE

Esempio 2.7

1) Si lancia per dieci volte una moneta. In ogni lancio l’evento ”testa” e l’evento”croce” sono equiprobabili, per cui la probabilita che esca ”testa” per cinque voltevale, per la (2.42’):

P10,5 =(

105

)(1/210) =

10!5!(10− 5)! · 210

= 0.246.

Per determinare la probabilita che ”testa” esca non piu di cinque volte, bisognainvece considerare come ”successi” anche tutte le sequenze che contengono k =0, 1, .., 4 volte ”testa”. Ne segue che la probabilita totale e data dalla (2.33) e vale

P10,k≤5 = (1/210)5∑

k=0

(10k

)=

10!210

5∑

k=0

1k!(10− k)!

= 0.623. /

2) Da un’urna contenente 5 palline bianche e 15 nere si fanno n estrazioni, conreimbussolamento della pallina estratta in ogni prova. La probabilita di estrarretutte le palline bianche si determina considerando che in ogni prova, la probabilitadi estrarre una pallina bianca vale p = 1/4, e quella di estrarre una pallina nera eq = 3/4. Applicando la (2.32) si ottiene:

Pn,5 =(

n5

)· (1/4)5(3/4)n−5 =

(n5

)3n−5

4n.

Dunque, dopo n = 5 estrazioni la probabilita cercata vale 1/45 = 9.76 · 10−4; dopo6 estrazioni cresce al valore 6 · 3/46 = 4.39 · 10−3, ecc. /

Primo principio delle prove ripetute.

Per la formula di Bernoulli la probabilita di non avere alcun successo dopo n provedi un esperimento casuale in cui p > 0 vale

Pn,0 =

(n

0

)p0qn−0 = qn

e quella di ottenere almeno un successo e Pn,k>0 = 1 − qn. Poiche 0 < q < 1,ripetendo all’infinito le prove si ottiene

limn→∞Pn,k>0 = 1

ovvero: continuando le prove all’infinito, prima o poi si avra certamente almeno unsuccesso.

Page 53: dispense di Probabilita' e Statistica

2.3 – Distribuzioni notevoli in Probabilita e Statistica 45

Secondo principio delle prove ripetute.

Chiediamoci ora quale e il numero medio delle prove che si dovranno eseguire perottenere il primo successo. Definiamo a tale scopo il tempo di attesa T (ω), o nu-mero d’ordine delle prima prova in cui si verifica il successo. T (ω) e una variabilealeatoria discreta, che assume valori interi positivi k = 1, 2, .., n,.. aventi ciascuno laprobabilita Pk = pqk−1 con cui si realizza una sequenza di (k − 1) fallimenti seguitidal primo successo. Se si ripetono le prove all’infinito, e se p > 0, si sa per il Primoprincipio che le Pk soddisfano la condizione

∑k Pk = 1. Dalla definizione di valor

medio di T (ω) si ricava allora

ET =∞∑

k=1

kPk =∞∑

k=1

kpqk−1 = p +∞∑

k=2

kpqk−1 = p + q ·∞∑

r=1

(r + 1)pqr−1 =

= p + q

( ∞∑

r=1

rpqr−1 +∞∑

r=1

Pr

)= p + q(ET+ 1).

Da questa si ottiene: pET = p + q = 1, e quindi

ET =1p. (2.34)

Resta cosı provato il seguente risultato: il numero medio delle prove che occorreeseguire per ottenere il primo successo e il reciproco della probabilita di successo.

La variabile aleatoria discreta X(ω) che assume un numero finito di valori x =k = 0, 1, 2.., n con una probabilita data dalla (2.32) si dice dotata di distribuzionebinomiale ed e indicata con la notazione B(n, p). La sua densita di probabilita e lasuccessione di n + 1 impulsi:

fX(x) =n∑

k=0

(n

k

)pkqn−kδ(x− k), p + q = 1 (2.35)

e la corrispondente funzione di distribuzione e la funzione a gradini

FX(x) =n∑

k=0

(n

k

)pkqn−kU(x− k)

Page 54: dispense di Probabilita' e Statistica

46 VARIABILI ALEATORIE

0 5 10 15 20 x

xf ( )X N (10, 6)

0.1

Figura 2.12 - Approssimazione di una distribuzione binomiale con n = 25, p = 0.4.

dove U(x − k) e la funzione di Heaviside (2.3), primitiva della funzione impulsiva.Il valor medio della distribuzione binomiale vale:

Ex =∫

xn∑

k=0

(n

k

)pkqn−kδ(x− k)dx =

n∑

k=0

k

(n

k

)pkqn−k =

= npn∑

k=1

k(n− 1)!k!(n− k)!

pk−1qn−k = npn−1∑

r=0

(n− 1

r

)prqn−1−r = np(p + q)n−1 = np

e in modo analogo si puo calcolare che la sua varianza e σ2X = npq.

Se n = 1, la (2.45) si riduce alla distribuzione di Bernoulli, la cui densita

fX(x) = qδx + pδ(x− 1)

e semplicemente la somma di due impulsi che rappresentano la probabilita di avereun fallimento o un successo in una singola prova dell’esperimento casuale.

L’applicazione delle formule (2.32),(2.33) puo comportare difficolta pratiche per val-ori elevati di n e di k. Esistono pero formule asintotiche che permettono un rapidocalcolo approssimato di Pn,k e Pn(k1 ≤ k ≤ k2), con una accuratezza che cresce conil numero n delle prove. Queste formule approssimate si basano su due teoremi, cheora enunciamo senza dimostrazione.

Teorema locale di asintoticita (di Moivre - Laplace)

Se p > 0 e la probabilita di un successo, la probabilita che in n prove indipendentisi abbiano k successi e tale che:

limn→∞Pn,k =

1√2πnpq

exp

[−(k − np)2

2npq

](2.36)

Page 55: dispense di Probabilita' e Statistica

2.3 – Distribuzioni notevoli in Probabilita e Statistica 47

uniformemente per tutti gli interi k per i quali il rapporto z = (k−np)/npq assumevalori in un intervallo finito.

Il secondo membro della (2.36) e la densita di una v.a. normaleN (np, npq) con medianp e varianza npq. Dunque il Teorema ci assicura che se n e npq sono sufficientementegrandi, la distribuzione binomiale e approssimabile nel continuo dalla legge normale:

B(n, p) ∼ N (np, npq) n, npq >> 1. (2.36′)

e a parita di n l’approssimazione e migliore quando p = q = 0.5. La Fig. 2.12mostra il confronto tra la distribuzione binomiale con n = 25, p = 0.4 e quellanormale definita dalla densita (2.19) con mX = np = 10, σ2

x = npq = 6. Labinomiale B(25, 0.4) non e simmetrica rispetto al suo valor medio, perche cio siverifica solo se p = q = 1

2 . Inoltre, n e ben lontano dai valori elevati che garantisconouna buona approssimazione della probabilita Pn,k. Tuttavia, un controllo numericomostra che il massimo valore assoluto della differenza tra Pn,k e i valori fX(k) delladensita normale per x = k (che si verifica per k = 11) rimane comunque inferiore a3.34 · 10−3.

Teorema integrale di asintoticita

Se p > 0 e la probabilita di un successo, la probabilita che in n prove indipendentiil numero dei successi sia compreso tra k1 e k2 soddisfa la condizione

limn→∞Pn(k1 ≤ k ≤ k2) =

1√2πnpq

∫ k2

k1

exp

[−(x− np)2

2npq

]dx (2.37)

uniformemente in [k1, k2].

Usando la funzione degli errori erf (z) per il calcolo dell’integrale definito, la (2.37)mostra che se n e grande e npq >> 1 la probabilita in oggetto si puo calcolare conbuona approssimazione mediante la formula asintotica:

Pn(k1 ≤ k ≤ k2) ∼= erf

[k2 − np√

npq

]− erf

[k1 − np√

npq

]. (2.38)

Applichiamo quest’ultimo teorema per calcolare la probabilita che, dato un ε > 0piccolo a piacere, sia verificata la diseguaglianza: |k/n− p| ≤ ε. Per la (2.38) con ngrande si ha

P|k/n− p| ≤ ε = Pn[n(p− ε) ≤ k ≤ n(p + ε)]∼= erf (ε

√n/pq)− erf (−ε

√n/pq) = 2erf (ε

√n/pq) (2.39)

e passando al limite per n →∞ :

limn→∞P|k/n− p| ≤ ε = 2 lim

n→∞ erf (ε√

n/pq) = 1.

Page 56: dispense di Probabilita' e Statistica

48 VARIABILI ALEATORIE

Il risultato ottenuto esprime l’importante

Legge dei grandi numeri (o Teorema di Bernoulli) :

Dato un ε > 0 piccolo a piacere, la probabilita dell’evento |k/n− p| ≤ ε tende ad1 col crescere del numero delle prove indipendenti.

In altre parole, se il numero delle prove e sufficientemente grande, allora il rapportotra il numero dei successi e quello delle prove e ”quasi certamente” prossimo allaprobabilita p che si attribuisce al singolo successo.

Allo stesso tempo, bisogna anche tenere conto che se X(ω) ha una distribuzionebinomiale, lo scarto assoluto V (ω) = X − np tra il valore di X e il suo valore attesoe una variabile casuale che al crescere di n tende alla Normale con media nulla evarianza

σ2V = E(V − 0)2 = E(X − np)2 = σ2

X = npq.

Dunque, a parita di p la dispersione degli esiti delle prove rispetto al loro valoreatteso cresce con il numero delle prove effettuate. E’ questa circostanza che puocausare la “rovina del giocatore” che dopo ogni perdita decide di ripetere la stessascommessa nella speranza che, prima o poi, il prossimo esito gli sia favorevole.

Esempio 2.8

1. Sapendo che la probabilita che un certo prodotto sia difettoso e p = 0.005, sivuole calcolare la probabilita che tra 10.000 esemplari di questo prodotto, scelti acaso, ve ne siano 40 difettosi. Essa e data dalla (2.32) con n = 10.000, k = 40, eil suo valore e ben approssimato dalla formula asintotica (2.36). Tenuto conto chenp = 50, npq = 49.75 si ottiene:

Pn,k∼= 1√

49.75 · 2πexp

[−(40− 50)2

2 · 49.75

]= 0.0207.

Il valore esatto alla quarta cifra decimale, calcolato con la (2.32), e invece: Pn.k =0.0197. Per calcolare la probabilita che tra i 10.000 esemplari scelti a caso ve ne sianonon piu di 70 che risultano difettosi, bisogna valutare Pn(k ≤ 70) e per ottenerneuna buona approssimazione basta applicare la (2.38) assumendo k1 = 0 e k2 = 70.Si ricava:

P (k ≤ 70) ∼= erf

(70− np√

npq

)− erf

(−np√npq

)= erf (2.84)− erf (−7.09) = 0.9975. /

2. Si lancia n volte una moneta. Come sappiamo, l’evento ”testa” ha probabilitap = 1/2. Definiamo ora l’evento:

E = |k/n− 1/2| ≤ 0.05

Page 57: dispense di Probabilita' e Statistica

2.3 – Distribuzioni notevoli in Probabilita e Statistica 49

il quale indica che il numero k di ”teste” risultante da n prove e compreso tra 0.45ne 0.55n. Si chiede: quante volte dobbiamo lanciare la moneta affinche la probabilitadi E non sia inferiore a 0.997? Dobbiamo valutare n in modo che sia verificata ladiseguaglianza: P (E) ≥ 0.997. Applicando la (2.39) con ε = 0.05 si ha:

P (E) ∼= 2erf (0.05√

n/pq) = 2erf (0.05√

4n) ≥ 0.997

per cui n deve soddisfare la condizione: erf (0.05√

4n) ≥ 0.4985. Dai valori tabulatidella funzione degli errori si desume che, arrotondando per eccesso, deve essere:

0.05√

4n > 2.95, da cui: n > 871. /

= 1.5l

= 5l

0 1 2 3 4 5 x x0 5 10

0.20.2

f ( )X

x

6

Figura 2.13 - Distribuzioni di Poisson

2.3.10 Distribuzione di Poisson

Si e detto che l’approssimazione di Pn,k fornita dalla formula asintotica (2.36’) peg-giora al descescere del prodotto npq. Se allora p e molto piccolo, bisogna che n siacomunque cosı grande da rendere soddisfatta la condizione: npq ∼= np >> 1. Cio siverifica per l’appunto nel caso dell’Esempio 2.8 in cui, pur essendo p = 0.005, si hanp = 50 e npq = 49.75. Se invece si ha: n >> 1, p << 1 in modo che il prodotto npe dell’ordine dell’unita, la (2.46’) non e piu valida. Si dimostra che essa puo esseresostituita dalla nuova formula asintotica:

Pn,k∼= (np)k

k!e−np (2.40)

che nella sua forma limite esprime il seguente

Page 58: dispense di Probabilita' e Statistica

50 VARIABILI ALEATORIE

Teorema di Poisson (degli eventi rari):Se n →∞ e p → 0 in modo che il prodotto np → λ ∼ 1, allora

Pn,k → λk

k!e−λ. (2.41)

Esempio 2.9

In un sistema costituito da 1000 componenti, la probabilita che ciascun componentesi guasti indipendentemente dagli altri in un certo intervallo di tempo vale p = 10−3.Si vuole conoscere la probabilita che il sistema sia in funzione nell’intervallo di tempoin esame. L’evento che qui si considera e E = nessun componente si guasta, ed ilguasto con probabilita p rappresenta il singolo successo nel nostro problema di proveripetute. Si ha pertanto: n = 1000, k = 0, np = 1 e la probabilita da determinarenon si approssima con la (2.36’), bensı con la formula di Poisson (2.40):

Pn,0 =(

10000

)(1− 10−3)1000 ∼= e−1 = 0.368. /

La variabile aleatoria discreta X(ω) che assume valori k = 0, 1, 2, ..n, . . . con proba-bilita data dalla (2.41) ha densita costituita dalla successione di impulsi

fX(x) = e−λ∞∑

k=0

λk

k!δ(x− k) (2.42)

che definisce una distribuzione di Poisson. Il valor medio e la varianza di X(ω)coincidono con il parametro λ. Infatti:

EX =∞∑

k=0

ke−λ λk

k!= e−λ

∞∑

k=0

λk

(k − 1)!= λe−λ

∞∑

r=0

λr

r!= λe−λeλ = λ

e con calcoli analoghi si ricava che anche σ2X = λ. La Fig. 2.13 mostra i grafici di

fX(x) per due diversi valori del suo parametro λ.

La distribuzione di Poisson ha notevole interesse nella definizione statistica dellalegge di emissione di particelle. Si consideri infatti il fenomeno costituito dalla emis-sione casuale di un numero n >> 1 di particelle nel tempo T . La probabilita diemissione di una singola particella nell’intervallo di tempo [0, t0) e p = t0/T . Sel’intervallo [0, t0) che si considera e molto minore di T , risulta: p << 1 e la prob-abilita che k particelle siano emesse prima di t0 e data con buona approssimazionedalla formula di Poisson (2.40) con np = nt0/T = λ:

Pk particelle emesse in [0, t0) ' (nt0/T )k

k!exp

(−nt0

T

).

Page 59: dispense di Probabilita' e Statistica

2.3 – Distribuzioni notevoli in Probabilita e Statistica 51

Se n, T → +∞ in modo che n/T → 1, allora λ → t0 e la distribuzione del numerodi particelle emesse in [0, t0) tende alla densita di Poisson:

fX(x) = e−t0∞∑

k=0

tk0k!

δ(x− k).

Piu in generale, la legge (2.42) e anche il modello di esperimenti casuali caratterizzatidal conteggio in un intervallo temporale [0, T ] di eventi statisticamente indipendenti(Processi di Poisson), aventi un numero medio di realizzazioni per unita di tempouguale ad α. Si dismostra infatti che il numero di tali eventi che si verificano in unintervallo temporale di ampiezza t << T ha legge di Poisson (2.42) con parametroλ = αt.

2.3.11 Distribuzioni geometrica e ipergeometrica

Nello schema di Bernoulli delle prove ripetute e indipendenti di un esperimentocasuale con probabilita di successo p, la probabilita che in una sequenza di (k + 1)prove si realizzino k fallimenti seguiti dal primo successo vale:

IPFFF · · ·FFS = p(1− p)k.

x0 10 20 30

f (x)X

0.1

0.2

Figura 2.14 - Distribuzione geometrica per p = 0.2.

La variabile casuale X(ω) che assume valori discreti k = 0, 1, 2, . . . con la proba-bilita ora definita, ha una distribuzione chiamata geometrica, avente come densitadi probabilita la funzione:

fX(x) =∞∑

k=0

p(1− p)kδ(x− k), 0 < p < 1 (2.43)

Page 60: dispense di Probabilita' e Statistica

52 VARIABILI ALEATORIE

mostrata in Fig. 2.14. Questa v.a. rappresenta quindi il numero di prove che occorrefare prima che si verifichi un successo. Per tale motivo, se si misura il tempo in unitacoincidenti con il numero di prove effettuate, X(ω) e anche chiamata tempo di attesa(discreto) del primo successo.

Si badi a non confondere questo tempo di attesa X(ω) con la v.a. T (ω) sopraintrodotta per ricavare il Secondo principio delle prove ripetute, la quale non puoavere valore nullo. X = k con k = 0, 1, . . . indica il numero dei fallimenti F cheprecedono il successo S, mentre T = k con k = 1, 2, . . . indica la prima prova in cuisi verifica un successo.

La funzione di distribuzione cumulata del tempo di attesa X(ω) vale

FX(x) =x∑

k=0

p(1− p)kU(x− k).

Se in particolare x = n ∈ IN, essa misura la probabilita IP(X ≤ n) ed e uguale alprodotto p · sn, dove

sn =1p[1− (1− p)n+1]

e la ridotta n-esima della serie geometrica∑

k(1 − p)k di ragione 1 − p, la quale econvergente perche (1− p) e un reale positivo minore di 1. Dunque si ha:

IP(X ≤ n) = FX(n) = psn = 1− (1− p)n+1. (2.44)

Ricordando il risultato espresso dalla (2.34), il valor medio della distribuzione geo-metrica vale:

mX = ET − 1 =1p− 1 =

1− p

p

mentre la sua varianza risulta:σ2

X =1− p

p2.

Cosı come la distribuzione esponenziale, anche la geometrica e senza memoria. In-fatti, scelti due interi positivi i, j si ricava, applicando anche la (2.44):

IP(X > i + j | X > j) =IP(X > i + j ∩ X > j)

P (X > j)=

IP(X > i + j)P (X > j)

=

=(1− p)i+j+1

(1− p)j+1= (1− p)i = 1− FX(i) = IP(X > i),

e questo risultato si puo cosı interpretare: la circostanza che gia si sono verificati jinsucessi consecutivi non influenza il tempo di attesa del prossimo successo.

Per quanto detto, la distribuzione geometrica e l’analogo discreto della distribuzioneesponenziale §2.3.4, definita sull’intero semiasse IR+, e trova frequenti applicazioninella teoria dei giochi o negli studi di affidabilita riguardanti fenomeni in cui si puoindividuare una variabile casuale definita sull’insieme dei numeri naturali.

Page 61: dispense di Probabilita' e Statistica

2.3 – Distribuzioni notevoli in Probabilita e Statistica 53

Esempio 2.10

Un giocatore del Totocalcio compila una colonna segnando in modo casuale per 13volte uno dei 3 possibili risultati: “1, X, 2” e gioca la stessa colonna ad ogni concorso.Quante giocate deve fare, in media, prima di vincere con un “13” ?

Consideriamo qui il caso teorico che e anche il piu sfavorevole. Se il giocatore segnaciascun risultato senza conoscere le squadre di calcio coinvolte in ciascuna delle 13partite, ognuna delle 13 previsioni ha probabilita 1/3 di successo. Di conseguenza,la probabilita che si realizzi un insieme di 13 previsioni esatte di altrettanti risultatiindipendenti (ossia la probabilita di successo) e p = 1/313 ' 6 · 10−7.

Il numero di giocate che e necessario effettuare prima di “fare un 13” con quella solacolonna ha una distribuzione geometrica con tale probabilita p, e il numero mediodi giocate da effettuare prima di avere un successo e

mX = 313 − 1 = 1 594 322.

Per sollevare il giocatore dallo sconforto, si puo aggiungere che questo parametrodi posizione e comunque assai poco significativo. Infatti, la varianza della stessadistribuzione geometrica e enormemente elevata:

σ2X = (313 − 1) · 313 ' 2.54 · 1012,

per cui ci si puo aspettare che la probabilita di ottenere il primo successo dopo unnumero piu ragionevole di tentativi, diciamo n = 50, non sia del tutto irrilevante.Dalla (2.44) si ricava pero: IP(X ≤ 50) = 1− [1− 1/313]51 ' 0.000032, ed e presum-ibile che questo risultato cosı poco favorevole riesca a scoraggiare definitivamente ilgiocatore. /

Distribuzione ipergeometrica

Un insieme e costituito da N elementi di cui NA sono di tipo ”A”, e NB = N−NA ditipo ”B”. Se da questo insieme si fanno n estrazioni in blocco (o senza ripetizione),nel campione di n elementi cosı estratto il numero di elementi del tipo ”A” e unavariabile casuale discreta X(ω), la cui densita di probabilita e definita dalla seguenteformula ipergeometrica:

fX(x) =

(NA

x

)(NB

n− x

)

(N

n

) per x = 0, 1, 2, . . . , n (2.44′)

ed e nulla altrove.

Infatti, fissato un intero x, il numeratore che compare nella (2.44’) e il numero deglieventi ”favorevoli”: x elementi di tipo ”A” su n estratti , che si calcola come

Page 62: dispense di Probabilita' e Statistica

54 VARIABILI ALEATORIE

prodotto tra il numero di combinazioni di x elementi del tipo ”A” e il numero dicombinazioni di (n− x) elementi di tipo ”B”; il denominatore e il numero di eventi”possibili” (ed equiprobabili) che si possono verificare nella estrazione in blocco din elementi da un insieme di N ; e dunque per la definizione classica di Probabilita,il loro rapporto definisce la probabilita che X(ω) assuma il valore x.

Il valor medio e la varianza di fX(x) valgono:

E(X) =nNA

N, σ2

X =nNA(N −NA)(N − n)

N2(N − 1).

Esempio 2.11

Si effettua l’estrazione simultanea di due palline da un’urna che ne contiene NA = 4rosse e NB = 3 nere. Calcolare la probabilita di estrarre due palline di colore diverso.Si applica la (2.44’) con n = 2, x = 1, N = 7 e si ottiene subito:

IP(Rossa ∩Nera) =

(41

)(31

)

(72

) =1221' 0.57. /

2.3.12 Distribuzione Beta

Una v.a. che assume valori nell’intervallo unitario [0, 1] ha una distribuzione Betase la sua densita vale

fX(x) =

Axb(1− x)c per x ∈ [0, 1], b, c > −10 altrove

(2.45)

con A definito come segue:

A =Γ(b + c + 2)

Γ(b + 1)Γ(c + 1),

dove Γ(·) e la funzione Gamma (2.24).

Page 63: dispense di Probabilita' e Statistica

2.3 – Distribuzioni notevoli in Probabilita e Statistica 55

0 0.5 1 x

f (x)X

1.0

1.5

0.5

2.0

2.5

1

2

3

4

56

Figura 2.15 - Distribuzioni Beta

Questa densita, dipendente da due parametri b, c, ha un massimo per x = b/(b+c) seb e c sono entrambi positivi, ma diventa infinita agli estremi dell’intervallo unitariose b e c sono entrambi negativi: b, c ∈ (−1, 0). Inoltre, se b = c = 0 la (2.45)coincide con la densita uniforme fX(x) = 1 nell’intervallo unitario, e per b = c = 1rappresenta la densita parabolica:

fX(x) = 6x(1− x), x ∈ [0, 1].

Per la grande generalita con cui, modificando i due parametri, puo essere definitaanaliticamente la distribuzione delle probabilita nell’intervallo unitario, questa leggee molto utile per rappresentare le proprieta statistiche di coefficienti aleatori chepossono essere presenti in molti modelli matematici di fenomeni reali.

Il valor medio e la varianza di fX(x) si esprimono in funzione dei parametri b e c, evalgono:

EX =b + 1

b + c + 2; σ2

X =(b + 1)(c + 1)

(b + c + 2)2(b + c + 3). (2.46)

La Fig. 2.15 mostra alcuni grafici della distribuzione Beta, ottenuti assumendo perb e c i valori qui elencati, unitamente ai corrispondenti valori del coefficiente A,calcolati in base alle proprieta della funzione Gamma:

grafico 1: b = −1/2 c = −1/2 A = 1/π2: b = 1/2 c = 1/2 A = 8/π3: b = 1 c = 1 A = 64: b = 1 c = 2 A = 125: b = 3 c = 2 A = 206: b = 3 c = 3 A = 140

Page 64: dispense di Probabilita' e Statistica

56 VARIABILI ALEATORIE

1

2

3

0 0.5 1 1.5 x

f (x)X

b = 2

b = 0.5

b = 1

a

a

= 1

= 3

Figura 2.16 - Distribuzioni di Weibull W (α, β) al variare di α e β.

2.3.13 Distribuzione di Weibull

Una legge probabilistica che generalizza il modello esponenziale, e dipendente dadue parametri come la densita Beta, e la distribuzione di Weibull W (α, β) la cuidensita e la funzione

fX(x) =

αβxβ−1 exp(−αxβ), 0 ≤ x < +∞; α, β ∈ IR+

0 altrove.(2.47)

Utilizzando la definizione della funzione Gamma (2.24), si puo ricavare che il valoreatteso e la varianza di fX(x) valgono:

EX =1αβ

Γ(1 + 1/β), σ2X = α−2/β[Γ(1 + 2/β)− Γ2(1 + 1/β)].

Al pari della distribuzione Beta, la disponibilita di due parametri α, β rende questalegge assai adatta a rappresentare il modello probabilistico di certe grandezze chepossono assumere valori casuali sull’intero semiasse positivo.

Il parametro β > 0 e il piu significativo, e definisce la forma della distribuzionedi Weibull. Se 0 < β < 1, fX(x) ha un asintoto verticale x = 0; se β = 1 ladistribuzione coincide con quella esponenziale con parametro λ = α; e se β > 1,fX(x) si annulla per x → 0+ e presenta un massimo per

x =(

β − 1αβ

)1/β

.

Il parametro α > 0 e un fattore di scala che concentra su bassi valori di x (oppuredisperde sul semiasse positivo) le masse di probabilita della distribuzione stessa,come e illustrato in Fig. 2.16.

Page 65: dispense di Probabilita' e Statistica

2.4 – Problemi risolti 57

Questa distribuzione ha un ruolo importante negli studi di affidabilita di materiali odi sistemi per i quali si assume che il tasso di guasto non sia costante (come e statofatto a proposito della distribuzione esponenziale), ma sia una assegnata funzione

λ(t) = αβ(αt)β−1

del tempo di attesa t del guasto. In tal caso, individuati i parametri α e β,l’affidabilita del materiale diventa la seguente funzione del tempo di attesa:

R(t) = 1− FX(t) = e−αtβ

dove FX(x) e la funzione di distribuzione cumulata di W (α, β), ossia la primitiva difX(x) che si annulla per x = 0.

Se la variabile casuale puo assumere soltanto valori nell‘intervallo γ ≤ x < +∞con γ > 0, il semplice cambio di variabile y = x − γ porta alla definizione diuna distribuzione di Weibull W (α, β, γ) dipendente da tre parametri α, β, γ, aventedensita

fX(x) = αβ(x− γ)β−1 exp[−α(x− γ)β], γ ≤ x < +∞; α, β, γ ∈ IR+

con valor medio traslato della quantita γ e la stessa varianza di W (α, β).

2.4 Problemi risolti

2.1. Una variabile casuale X(ω) ha densita di probabilita parabolica nell’intervallox ∈ [−0.5, 0.5] e nulla altrove. Calcolare la probabilita che assuma valori minori dix = −0.3.

Soluzione. La probabilita richiesta e uguale a quella che una v.a. ξ(ω) = X + 0.5 ,avente la medesima distribuzione parabolica definita nell’intervallo [0, 1], abbia valoriξ ≤ 0.2.

Poiche la densita di probabilita di ξ(ω) e

f(ξ) =

6ξ(1− ξ) per ξ ∈ [0, 1]0 altrove

,

si ricava

P (x < −0.3) = P (ξ ≤ 0.2) = 6∫ 0.2

0ξ(1− ξ)dξ = 3 · 0.4− 2 · 0.08 = 0.104 .

2.2. Calcolare la funzione di distribuzione cumulata di una variabile casuale uni-formemente distribuita nell’intervallo x ∈ [0, 2].

Page 66: dispense di Probabilita' e Statistica

58 VARIABILI ALEATORIE

Soluzione. Indichiamo con X(ω) questa variabile casuale. La sua densita di proba-bilita e fX(x) = 1/2 per x ∈ [0, 2] ed e nulla altrove.

La funzione di distribuzione cumulata e il suo integrale tra −∞ e x, ossia

FX(x) =

0 per x < 0

FX(0) +∫ x

0dx/2 = x/2 per 0 ≤ x ≤ 2

FX(2) = 1 per x > 2.

2.3. Una variabile aleatoria X(ω) ha media nota µ e varianza σ2 = 2. Utiliz-zando la diseguaglianza di Tchebyshev, determinare un limite inferiore alla seguenteprobabilita: IP(|X − µ| ≤ 1.5).

Soluzione. Se si applica la diseguaglianza di Tchebyshev si ha che

IP(|X − µ| ≥ 1.5) ≤ σ2X

(1.5)2=

89

da cui si ricava

IP(|X − µ| < 1.5) = 1− IP(|X − µ| ≥ 1.5) ≥ 1− 89

=19

.

2.4. Data la funzione

f(x) =

c · x cosx, per 0 ≤ x ≤ π/2;0, per x < 0;x > π/2,

determinare c ∈ IR in modo che f(x) risulti la densita di probabilita di una variabilealeatoria X(ω) e calcolare la probabilita dell’evento E = X ≤ π/4.Soluzione. f(x) deve soddisfare la proprieta

c

∫ π/2

0x cosxdx = c [x sinx + cosx]π/2

0 = c

2− 1

)= 1

per cui deve essere: c = 2/(π − 2) .

La probabilita richiesta e IP(X ≤ π/4) = FX(π/4) dove la funzione di distribuzionecumulata FX(x) vale:

FX(x) =2

π − 2

∫ x

0t cos tdt =

2π − 2

[t sin t + cost]x0 =2

π − 2(x sinx + cosx− 1).

Dunque si ottiene:

IP(X ≤ π/4) =2

π − 2

4

√2

2+√

22− 1

)=

√2

π − 2

4+ 1−

√2)' 0.46 ,

Page 67: dispense di Probabilita' e Statistica

2.4 – Problemi risolti 59

2.5. Una variabile aleatoria X(ω) con valori nell’intervallo 1 ≤ x ≤ 2 ha leggef(x) = α/x2. Determinare la costante α ∈ IR della densita di probabilita, il valormedio e la varianza di X(ω).

Soluzione. Se f(x) e una densita, deve soddisfare la proprieta:

α

∫ 2

1

dx

x2= α

(−1

2+ 1

)=

α

2= 1

per cui deve essere: α = 2 . Valor medio e varianza di X si determinano comesegue:

mX = 2∫ 2

1

dx

x= 2 log 2 ' 1.386

σ2X = EX2 −m2

X = 2∫ 2

1dx− 4 log2 2 = 2(1− 2 log2 2) ' 0.078 .

2.6. La variabile aleatoria X(ω) ha densita di probabilita

f(x) =32(x− 1)2, 0 ≤ x ≤ 2

e nulla altrove. Calcolare la probabilita che X(ω) assuma valori in un intorno diraggio δ = 0.5 del suo valor medio.

Soluzione. Il valor medio di X vale

mX =32

∫ 2

0x(x− 1)2dx =

32

[x4

4+

x2

2− 2x3

3

]2

0

= 1

(infatti nell’intervallo 0 ≤ x ≤ 2 la funzione f(x) e una parabola con vertice nelpunto (1, 0)).

Pertanto si deve calcolare la probabilita IP|X − 1| < 0.5, integrando la densitanell’intervallo (1− 0.5) ≤ x ≤ (1 + 0.5):

IP|X − 1| < 0.5 =32

∫ 3/2

1/2(x− 1)2dx = 3

∫ 3/2

1(x− 1)2dx =

18

.

2.7 Una variabile casuale X ha densita di probabilita:

f(x) =

x− 14x3 per 0 ≤ x ≤ 2

0 altrove

Determinare la media, la varianza e la mediana di X.

Page 68: dispense di Probabilita' e Statistica

60 VARIABILI ALEATORIE

Soluzione.

E(X) =∫ 2

0x

(x− x3

4

)dx =

[x3

3− x5

20

]2

0

=1615

E(X2) =∫ 2

0x2

(x− x3

4

)dx =

[x4

4− x6

24

]2

0

=43

da cui:

σ2X =

43−

(1615

)2

= 16(

112− 16

225

)' 0.195 .

Per calcolare la mediana x si deve imporre:∫ x

0

(x− x3

4

)dx =

[x2

2− x4

16

]x

0

=12

(x2 − x4

8

)=

12.

Si risolve quindi l’equazione biquadratica x4 − 8x2 + 8 = 0, ricercandone l’unicaradice che appartiene all’intervallo 0 ≤ x ≤ 2. Posto y = x2 si ricava:

y =

4 + 2√

2 ⇒ x1,2 = ±√

4 + 2√

2 ' ±2.613 , da scartare

4− 2√

2 ⇒ x3,4 = ±√

4− 2√

2 ' ±1.0924.

Dunque la mediana di X vale x =√

4− 2√

2 ' 1.0924 .

2.8 Il tempo di attesa di un guasto in un dispositivo ha legge esponenziale con valormedio µ = 11 mesi. Calcolare la probabilita che il guasto si verifichi NON PRIMAdi 6 mesi dopo l’ultimo controllo.

Soluzione. La densita f(x) e la funzione di ripartizione F (x) della distribuzioneesponenziale con parametro λ = 1/µ = 1/11 sono rispettivamente:

f(x) =111

e−x/11; F (x) = 1− e−x/11, 0 ≤ x < +∞.

La probabilita richiesta vale

IP(X ≥ 6) = 1− IP(X < 6) = 1− F (6) = e−6/11 ' 0.5795 .

2.9. Il giocatore A lancia un dado non truccato per 4 volte, e vince se esce almenouna volta il 6. Il giocatore B lo lancia 8 volte, e vince se il 6 esce almeno due volte.Chi ha maggiore prababilita di vincere e perche ?

Soluzione. In ogni lancio la probabilita che esca il 6 vale p = 1/6 (equiprobabilita di6 eventi). La probabilita di avere k = 0 successi in n = 4 prove indipendenti vale,per la formula di Bernoulli:

P4,0 =

(40

) (16

)0 (56

)4

=(

56

)4

' 0.48226

Page 69: dispense di Probabilita' e Statistica

2.4 – Problemi risolti 61

per cui la probabilita di vittoria per A e

P (A) = 1− P4,0 ' 0.51774.

Per il giocatore B, la probabilita di avere non piu di k = 1 successo in n = 8 prove(perdendo cosı la scommessa) e

P8(0 ≤ k ≤ 1) =

(80

) (16

)0 (56

)8

+

(81

) (16

) (56

)7

=(

56

)8

+86

(56

)7

' 0.6046

per cui la sua probabilita di vittoria vale

P (B) = 1− P8(0 ≤ k ≤ 1) ' 0.3936.

Poiche P (A) > P (B), il giocatore A ha la maggior probabilita di vittoria.

2.10. Da un’urna con 4 palline bianche e 12 nere si effettuano estrazioni ripetutecon reimbussolamento. Qual’e in media il numero di prove necessarie per estrarrela prima pallina bianca?

Risposta. La probabilita di estrarre una pallina bianca vale p = 4/16 = 1/4. Per ilSecondo Principio delle prove ripetute e indipendenti, il valor medio del “tempo diattesa” T (ω) del primo successo (estrazione di una pallina bianca) e

E(T ) = 1/p = 4 .

2.11. Dieci simboli binari sono trasmessi su un canale simmetrico avente probabilitadi errore p = 0.01. Calcolare la probabilita di ricevere almeno un simbolo errato.

Soluzione. La probabilita di ricezione corretta e q = 0.99. In n = 10 prove ripetutee indipendenti (emissione di un simbolo), la probabilita di ricevere correttamentetutti i 10 simboli vale

P10,0 = q10 = (0.99)10 ' 0.9044

e dunque la probabilita di ricevere almeno 1 simbolo errato e

P10,k≥1 = 1− P10,0 = 1− (0.99)10 ' 0.0956 .

2.12. Al giocatore di basket Joe e attribuita una percentuale di realizzazione dicanestri del 60%, e al giocatore Nick del 45%. Joe deve effettuare 5 tiri al canestro,e Nick ne effettua 3. Supera la prova chi fallisce non piu di un canestro. Chi fra idue ha la piu alta probabilita di vincere?

Page 70: dispense di Probabilita' e Statistica

62 VARIABILI ALEATORIE

Soluzione. Ogni tiro al canestro effettuato da Joe ha probabilita di successo p = 0.6.Se k e il numero di canestri effettuati in n tiri, la probabilita che Joe superi la provae

P5(4 ≤ k ≤ 5) =

(54

)(0.6)4 · 0.4 +

(55

)(0.6)5 = (0.6)4(2 + 0.6) ' 0.337 .

Per Nick che effettua 3 tiri, ciascuno con probabilita di successo p = 0.45, la proba-blita di superare la prova e

P3(2 ≤ k ≤ 3) =

(32

)(0.45)2 · 0.55+

(33

)(0.45)3 = (0.45)2(3 · 0.55+0.45) ' 0.425 .

Quindi la piu alta probabilita di vittoria spetta a Nick .

2.13. La ricezione casuale di un numero k di telefonate nell’intervallo di tempo [0, t0]ha legge di Poisson con parametro λ = t0. Calcolare la probabilita IP(2 ≤ k ≤ 4) diricevere da due a quattro telefonate (2 incluso) entro l’istante t0 = 1.

Soluzione. La funzione di distribuzione cumulata della legge di Poisson con parametroλ = t0 = 1 e

F (x; λ = 1) =1e

∞∑

k=0

1k!

U(x− k)

ed esprime la probabilita di ricevere x telefonate entro l’istante t0 = 1. La probabilitarichiesta vale:

IP1 < x ≤ 4 = F (4;λ = 1)− F (1;λ = 1) =1e

(12

+13!

+14!

)=

1724e

' 0.26 .

2.14. Si effettuano 600 lanci di un dado non truccato. Calcolare un valore ap-prossimato della probabilita che il “5” esca un numero di volte compreso tra 94 e106.

Soluzione. La probabilita di successo (“esce il 5”) in ogni prova vale p = 1/6. Peril Teorema integrale di asintoticita delle prove bernoulliane, in n = 600 prove laprobabilita richiesta si approssima con

P600(94 ≤ k ≤ 106) ' erf

[106− 100√

600 · (1/6)(5/6)

]− erf

[94− 100√

600 · (1/6)(5/6)

]=

= 2 erf[

69.1287

]= 2 erf(0.657) ' 0.4844 .

2.15. Un messaggio di 1200 simboli binari viene trasmesso su un canale simmetricocon probabilita di errore p = 0.25. Determinare una approssimazione valida dellaprobabilita di ricevere da 250 a 320 simboli errati.

Page 71: dispense di Probabilita' e Statistica

2.4 – Problemi risolti 63

Soluzione. In n = 1200 prove bernoulliane per le quali si ha np = 300 e np(1− p) =225, la probabilita richiesta si approssima con

Pn(250 ≤ k ≤ 320) ' erf(

320− 300√225

)− erf

(250− 300√

225

)= erf

(43

)+ erf

(103

)

' 0.4082 + 0.4996 = 0.9078 .

2.16. L’esperimento consiste nel lancio, effettuato per due volte, di un dado nontruccato. Se si effettuano tre prove di questo esperimento, qual’e la probabilita chein una delle tre prove esca due volte lo stesso numero ?

Risposta. Indichiamo con E = 11, 22, 33, 44, 55, 66 l’evento: “esce due volte lostesso numero”. Lo spazio campione e costituito da 62 = 36 eventi (= numero didisposizioni con ripetizione di 6 elementi a 2 a 2). Quindi la probabilita che sirealizzi l’evento E vale P (E) = 6/36 = 1/6 ≡ p. Per la formula di Bernoulli conn = 3, k = 1 si trova:

P3,1 =

(31

)· 16·(

56

)2

=2572

= 0.34722 .

2.17. Si sa che la probabilita di errore in ricezione di una sequenza di 150 segnalitrasmessi con modalita statisticamente indipendenti e p = 0.01. Determinare laprobabilita che due dei segnali ricevuti siano errati.

Soluzione. Nella trasmissione di n = 150 segnali con probabilita di errore p = 0.01,si ha np = 1.5. Per la formula di Bernoulli il valore esatto della probabilita richiestae

P150,2 =

(1502

)(0.01)2(0.99)148 .

Poiche np e prossimo all’unita, questa si approssima con la legge di Poisson deglieventi rari:

P150,2 ' (1.5)2

2· e−1.5 =

98

e−3/2 ' 0.251 .

2.18. Calcolare il valore atteso della variabile aleatoria Y = 1 + X2 dove X(ω) hauna distribuzione binomiale B(n, p) con n = 10, p = 0.5.

Soluzione. Si deve calcolare E1 + X2 = 1 + EX2, dove X(ω) ∼ B(10, 0.5) havalor medio e varianza che valgono:

EX = np = 5 ; σ2X = np(1− p) = 5/2.

Page 72: dispense di Probabilita' e Statistica

64 VARIABILI ALEATORIE

Poiche il momento del secondo ordine di X vale

EX2 = σ2X + E2x = 5/2 + 25 = 55/2 ,

si ricava:E1 + X2 = 1 + 55/2 = 57/2 .

2.19. Si effettua per 5 volte il lancio simultaneo di due dadi non truccati. Calcolare:1) la probabilita che la somma dei numeri usciti sia minore di 6 in tutti i 5 lanci; 2)la probabilita che la somma sia compresa tra 6 e 7 in non piu di due lanci.

Soluzione. Indichiamo con E1 = 11, 12, 13, 14, 22, 23 l’evento: la somma e minoredi 6 . Lo spazio campione e costituito da

(72

)= 21 eventi (= numero di combinazioni

con ripetizione di 6 elementi a 2 a 2). Quindi la probabilita che si realizzi l’eventoE1 vale

P (E1) =621

=27≡ p.

1) Per la formula di Bernoulli con n = 5, k = 5 si trova:

P5,5 =(

27

)5

' 0.002 .

2) Anche l’evento E2 = 15, 24, 33, 16, 25, 34 = la somma e compresa tra 6 e 7 e costituito da 6 eventi semplici, per cui ha una probabilita ancora uguale a 2/7. Laprobabilita che E2 si realizzi 0, 1 o al massimo 2 volte su 5 lanci e allora

P5(0 ≤ k ≤ 2) =2∑

k=0

(5k

) (27

)k (57

)5−k

=

=(

57

)5

+ 5 · 27

(57

)4

+ 10 ·(

27

)2 (57

)3

=(

57

)3

· 11549

' 0.855 .

2.20. Nella successione di prove indipendenti di un esperimento casuale, la prob-abilita di successo e p = 0.35. Applicando la legge dei grandi numeri, calcolare ilnumero delle prove che e necessario effettuare perche con probabilita non inferiorea 0.90 si abbia un numero di successi compreso tra 0.3n e 0.4n.

Soluzione. Se p = 0.35, per il Teorema integrale di asintoticita al crescere di n laprobabilita che il numero k di successi sia compreso tra 0.3n e 0.4n si avvicina a:

IP0.3n ≤ k ≤ 0.4n = erf

(0.4n− 0.35n√0.35(1− 0.35)n

)− erf

(0.3n− 0.35n√0.35(1− 0.35)n

)

' 2 erf(0.1048√

n).

Page 73: dispense di Probabilita' e Statistica

2.4 – Problemi risolti 65

Se si vuole che questa probabilita sia non inferiore a 0.90, occorre che erf(0.1048√

n) ≥0.45. Dalla tabella della funzione degli errori si ricava:

z = 0.1048√

n ≥ 1.65 ⇒ n ≥(

1.650.1048

)2

= 248

ottenuto arrotondando per eccesso alle unita.

2.21. Nella nostra dotazione di 1200 utensili, 500 unita sono fornite dalla dittaA e 700 dalla ditta B. Da controlli di qualita risulta che la produzione della dittaA e difettosa con probabilita pA = 0.005 e quella della ditta B con probabilitapB = 0.002. Quante estrazioni casuali di utensili dalla dotazione potremo effettuare,in media, prima di trovarne uno difettoso ?

Risposta. Calcoliamo le probabilita degli eventi: A = estrazione di un utensileprodotto da A; B = estrazione di un utensile prodotto da B; E = estrazionedi un utensile difettoso. Esse valgono:

P (A) =nA

n=

5001200

=512

P (B) =nB

n=

7001200

=712

P (E) = P (A)P (E|A) + P (B)P (E|B) =512

0.005 +712

0.002 ' 0.00325 .

Per il Secondo Principio delle prove ripetute, il numero medio di estrazioni che sieffettuano prima di trovare un elemento difettoso e l’inverso di P (E):

E“tempo di attesa” = 1/0.00325 = 308

arrotondato per eccesso alle unita.

2.22. Un evento ha una probabilita costante p = 0, 01 di verificarsi in ogni prova diun certo esperimento. Calcolare la probabilita che esso si verifichi almeno 3 volte su100 prove indipendenti dell’esperimento in questione:

a) facendone una valutazione esatta;

b) facendone una valutazione approssimata con l’uso della distribuzione di Poisson.

Soluzione

a) Per ottenere una valutazione esatta si applica la formula di Bernoulli:

P100(k ≥ 3) = 1− P100(0 ≤ k ≤ 2) =

= 1−[(0.99)100 + 100 · 0.01(0.99)99 +

(1002

)(0.01)2(0.99)98

]=

= 1− (0.99)98 · 2.4651 = 1− 0.9206268 = 0.0793732 .

Page 74: dispense di Probabilita' e Statistica

66 VARIABILI ALEATORIE

b) Utilizzando la legge di Poisson degli eventi rari con np = 100 · 0.01 = 1, si ricava

P (k ≤ 2) '2∑

k=0

e−1

k!=

52

e−1 = 0.9196986

e di conseguenza:P (k ≥ 3) = 1− P (k ≤ 2) ' 0.080 .

2.23. Si effettuano tre tiri verso un medesimo bersaglio. Le probabilita di colpirlo alprimo, al secondo e al terzo colpo sono, rispettivamente, uguali a p1 = 0.4, p2 = 0.5e p3 = 0.7.

a) Qual e la probabilita di aver colpito il bersaglio una sola volta dopo i tre tiri?

b) Qual e la probabilita di aver colpito il bersaglio almeno una volta dopo i tre tiri?

Soluzione. Indichiamo con Sk = successo: bersaglio colpito al k-esimo tiro oppureFk = fallimento: bersaglio mancato al k-esimo tiro i possibili esiti di ognuno deitre tiri. Questi eventi hanno probabilita:

P (Sk) = pk , P (Fk) = 1− pk , k = 1, 2, 3,

a) Nella sequenza dei tre tiri (con esiti statisticamente indipendenti), gli eventi incui si verifica un solo successo sono tre, e le rispettive probabilita sono le seguenti:

PS1 ∩ F2 ∩ F3 = p1(1− p2)(1− p3) = 0.4 · 0.5 · 0.3 = 0.06PF1 ∩ S2 ∩ F3 = (1− p1)p2(1− p3) = 0.6 · 0.5 · 0.3 = 0.09PF1 ∩ F2 ∩ S3 = (1− p1)(1− p2)p3 = 0.6 · 0.5 · 0.7 = 0.21 .

La probabilita di aver colpito il bersaglio una sola volta e la somma di queste:

P(S1 ∩ F2 ∩ F3) ∪ (F1 ∩ S2 ∩ F3) ∪ (F1 ∩ F2 ∩ S3) = 0.06 + 0.09 + 0.21 = 0.36 .

b) La probabilita di avere avuto almeno un successo vale:

1− PF1 ∩ F2 ∩ F3 = 1− (1− p1)(1− p2)(1− p3) = 1− 0.6 · 0.5 · 0.3 = 0.91 .

2.24. Da una recente indagine della polizia stradale risulta che il 45% degli auto-mobilisti guida ancora in citta senza allacciare le cinture di sicurezza. Se un agentecontrolla a caso 10 vetture in circolazione, qual’e la probabilita che egli riscontriquesta infrazione almeno 8 volte ?

Page 75: dispense di Probabilita' e Statistica

2.4 – Problemi risolti 67

Risposta. Il successo S in ognuno degli n = 10 controlli consiste nel riscontro dellainfrazione, ed ha probabilita teorica p = 0.45. Per la formula di Bernoulli, la prob-abilita che si verifichino almeno 8 successi vale

P10(8 ≤ k ≤ 10) =10∑

k=8

(10k

)pk(1− p)10−k =

=

(108

)(0.45)8(0.55)2 + 10 · (0.45)9 · 0.55 + (0.45)10 =

= (0.45)8[45 · (0.55)2 + 4.5 · 0.55 + (0.45)2

]' 0.0274 .

Page 76: dispense di Probabilita' e Statistica

68 VARIABILI ALEATORIE

Page 77: dispense di Probabilita' e Statistica

VARIABILI ALEATORIEMULTIDIMENSIONALI

L’insieme X1(ω), X2(ω), . . . , Xn(ω) di n variabili aleatorie, definite su un medesi-mo spazio di probabilita (Ω,B, P ), costituisce le n componenti di un vettore aleatorioX(ω) n−dimensionale che opera la trasformazione (Ω,B, P ) → (IRn,B∗, P ∗) asso-ciando ad ω l’ennupla (x1, . . . , xn) ∈ IRn, e all’evento A ∈ B l’insieme B = X−1(A) ⊆IRn con probabilita P ∗(B) = P (X−1(B)) = P (A).

In questo Capitolo esamineremo le principali proprieta del vettore aleatorio X(ω) ge-neralizzando le definizioni ed i risultati gia esposti nel precedente Capitolo a propos-ito di una v.a. unidimensionale. Per comprendere le novita che questa analisi com-porta, conviene iniziare a trattare il caso n = 2.

3.1 Coppie di variabili aleatorie

Consideriamo due variabili aleatorie reali X(ω) e Y (ω), componenti di un vettorealeatorio bidimensionale X(ω) = X1 = X(ω), X2 = Y (ω), che ad ogni eventoelementare ω di un esperimento casuale associano rispettivamente i numeri realix ∈ Dx ⊆ IR ed y ∈ Dy ⊆ IR come illustrato nello schema di Fig. 3.1.

L’intersezione B′ dei due eventi: (X ≤ x) e (Y ≤ y), cioe l’area ombreggiata infigura, e ancora un evento in B, la cui probabilita e una funzione FXY (x, y) delledue variabili reali:

FXY (x, y) = P(X ≤ x) ∩ (Y ≤ y) (3.1)

che si chiama funzione di distribuzione congiunta (o mista) della coppia di variabilialeatorie. Essa misura la probabilita che si verifichino entrambi gli eventi: (X ≤ x) e(Y ≤ y); e sempre positiva con valori compresi tra 0 e 1, non decrescente e continuaa destra rispetto a ciascuna delle variabili x, y. Le sue proprieta sono:

FXY (−∞,−∞) = FXY (−∞, y) = FXY (x,−∞) = 0;

69

Page 78: dispense di Probabilita' e Statistica

70 VARIABILI ALEATORIE MULTIDIMENSIONALI

FXY (+∞,+∞) = 1.

y

xB

B'

X

X

w

W

A

X w(x,y) = ( )

Figura 3.1

Se esiste la derivata mista di FXY (x, y), si chiama densita di probabilita congiuntadella coppia (X(ω), Y (ω)) la funzione

fXY (x, y) =∂2FXY (x, y)

∂x∂y(3.2)

soddisfacente le condizioni:

fXY (x, y) ≥ 0 ,

∫ ∫ ∞

−∞fXY (x, y)dxdy = 1.

La Fig. 3.2 mostra il grafico qualitativo della densita congiunta di una coppia div.a. che assumono valori reali in X(Ω) = Dx(y) · Dy(x) ⊂ IR2. La probabilita cheesse abbiano valori in un insieme B e data dall’integrale doppio:

P (X ∈ B) =∫ ∫

BfXY (x, y)dxdy. (3.3)

In particolare, se questo insieme e l’intersezione B′ = (X ≤ x) ∩ (Y ≤ y), laprobabilita P (B′) e data dal volume indicato in figura, che vale

P (B′) =∫ x

−∞dx′

∫ y

−∞fXY (x′, y′)dy′ = FXY (x, y).

Il volume che nella stessa figura e compreso tra due piani paralleli a distanza in-finitesima dy, misura la probabilita dell’evento E = (X ∈ Dx) ∩ (Y ∈ [y, y + dy])e vale:

P (E) = dy ·∫

Dx(y)fXY (x, y)dx. (3.4)

Ma poiche (X ∈ Dx) = (X ≤ +∞) e l’evento certo, risulta anche

P (E) = PY ∈ [y, y + dy] = FY (y + dy)− FY (y) = dFY (y) (3.4′)

Page 79: dispense di Probabilita' e Statistica

3.1 – Coppie di variabili aleatorie 71

x

B'

d

dF ( )

f ( )

X( )W

Y

XYx,y

P(B') = F ( )XY

x,y

y

yy

Figura 3.2

dove FY (y) = FXY (+∞, y) e la funzione di distribuzione della v.a. Y (ω), che oraprende il nome di funzione di distribuzione marginale di Y (ω). Confrontando la(3.4) con la (3.4’) risulta pertanto:

Dx(y)fXY (x, y)dx =

dFY (y)dy

= fY (y). (3.5)

L’integrale a primo membro ha il significato di densita di probabilita relativa allasola v.a. Y (ω), e individua la densita di probabilita marginale di Y (ω). Essa siottiene integrando la densita mista su tutti i valori che puo assumere l’altra v.a. concui fa coppia. In modo analogo si definiscono: la funzione di distribuzione marginaledi X(ω):

FX(x) = FXY (x,+∞) ≡ P(X ≤ x) ∩ (Y ≤ y)e la sua densita di probabilita marginale:

fX(x) =∫

Dy(x)fXY (x, y)dy.

3.1.1 Momenti congiunti

Data una coppia di v.a. X(ω), Y (ω) entrambe definite in (−∞,+∞), si chiamamomento congiunto (o misto) di ordine (p + q) l’integrale doppio:

EXpY q =∫ ∞

−∞

∫ ∞

−∞xpyqfXY (x, y)dxdy (p,q interi positivi.)

Il momento centrale congiunto di ordine (p+ q) della coppia e definito dall’integraledoppio:

E(X −mX)p(Y −mY )q =∫ ∞

−∞

∫ ∞

−∞(x−mX)p(y −mY )qfXY (x, y)dxdy

Page 80: dispense di Probabilita' e Statistica

72 VARIABILI ALEATORIE MULTIDIMENSIONALI

in cui le realizzazioni di X ed Y sono valutate rispetto ai valori medi delle lorodistribuzioni marginali. I momenti centrali con p = 2, q = 0 e p = 0, q = 2 siidentificano rispettivamente con le varianze di X(ω) ed Y (ω). Il momento centralecongiunto del secondo ordine si chiama covarianza di X(ω) ed Y (ω):

Cov (X, Y ) =∫ ∞

−∞

∫ ∞

−∞(x−mX)(y −mY )fXY (x, y)dxdy (3.6)

ed e sicuramente il piu importante dal punto di vista applicativo. Sviluppandol’integrale a secondo membro si ricava subito l’importante relazione:

Cov(X, Y ) = EXY −mY EX−mXEY +mXmY = EXY −mXmY (3.7)

la quale mostra che la covarianza e la differenza tra il momento misto del secondoordine e il prodotto delle medie marginali. Se queste due quantita sono uguali,ovvero se la covarianza e nulla, le v.a. si dicono non correlate.

La covarianza interviene sempre nella espressione della varianza di una combinazionelineare di due o piu variabili aleatorie. Infatti, per la proprieta di linearita del valormedio, la varianza di Z(ω) = aX(ω) + bY (ω) vale:

σ2Z = E(Z −mZ)2 = E[(aX + bY )−EaX + bY ]2

= E[a(X − EX) + b(Y −EY )]2= Ea2(X −EX)2 + b2(Y − EY )2 + 2ab(X − EX)(Y −EY )= a2σ2

X + b2σ2Y + 2ab Cov(X, Y ). (3.8)

Se poi X(ω) e Y (ω) sono non correlate, allora la (3.8) si riduce alla seguente:

(X, Y ) non correlate =⇒ σ2Z = a2σ2

X + b2σ2Y

e dunque la varianza di una loro combinazione lineare e la somma delle varianze,moltiplicate per il quadrato dei rispettivi coefficienti. La (3.8) si estende al caso diuna combinazione lineare Z(ω) = a1X1(ω) + . . . + anXn(ω) di n variabili aleatorie,per la quale si ricava:

σ2Z =

n∑

i=1

a2i σ

2Xi

+ 2n−1∑

i=1

n∑

j=i+1

aiajCov(XiXj)

che si riduce alla prima sommatoria se ciascuna coppia (XiYj) e non correlata.

Pur essendo un momento di ordine pari, la covarianza puo anche essere negativa,come si verifica facilmente dalla definizione (3.6). Si chiama coefficiente di corre-lazione tra X ed Y il rapporto

ρ(X,Y ) =Cov(X,Y )

σXσY, |ρ(X,Y )| ≤ 1 (3.9)

Page 81: dispense di Probabilita' e Statistica

3.1 – Coppie di variabili aleatorie 73

tra la covarianza e il prodotto degli scarti quadratici medi di X(ω) ed Y (ω). Vedremoin un prossimo Capitolo, nell’ambito del metodi regressivi di previsione relativiall’analisi statistica di campioni estratti da due popolazioni, che questo coefficienteadimensionale e una misura della interdipendenza lineare tra le due v.a., nel sensoche da una indicazione sulla accuratezza con cui una variabile aleatoria puo essereapprossimata come funzione lineare di un’altra. Se X(ω) e Y (ω) sono non correlate(linearmente), si ha ρ(x, y) = 0; se invece il modulo del coefficiente di correlazione eprossimo all’unita, allora e giustificata l’approssimazione: X(ω) ' aY (ω) + b che lelega mediante una legge lineare.

3.1.2 Coppie di v.a. indipendenti

Come diretta conseguenza del concetto di indipendenza di due eventi, X(ω) e Y (ω)sono dette statisticamente indipendenti se lo sono gli eventi (X ≤ x) e (Y ≤ y), inmodo che

P(X ≤ x) ∩ (Y ≤ y) = P (X ≤ x) · P (Y ≤ y). (3.10)

In tale ipotesi, la funzione di distribuzione congiunta e il prodotto delle funzioni didistribuzione marginali:

FXY (x, y) = FX(x)FY (y) (3.11)

da cui discende subito una analoga proprieta per la loro densita mista:

fXY (x, y) = fX(x)fY (y). (3.12)

Se X(ω) e Y (ω) sono statisticamente indipendenti, tenuto conto della (3.12) si hache il loro momento congiunto si identifica con il prodotto dei rispettivi momenti diordine p e q:

(X,Y ) indipendenti =⇒ (3.13)

EXpY q =∫ ∞

−∞xpfX(x)dx

∫ ∞

−∞yqfY (y)dy = EXpEY q.

Ne segue, tenuto conto della (3.7), che due v.a. indipendenti sono anche non corre-late:

(X,Y ) indipendenti =⇒ EXY = mXmY =⇒ Cov(X,Y ) = 0.

Si badi pero che non e vero il contrario: infatti l’indipendenza e una condizionesufficiente ma non necessaria per la non correlazione. Due v.a. possono avere covar-ianza nulla, anche se non sono statisticamente indipendenti. Dunque, l’indipendenzastatistica e una condizione piu restrittiva della non correlazione.

OSSERVAZIONE

Page 82: dispense di Probabilita' e Statistica

74 VARIABILI ALEATORIE MULTIDIMENSIONALI

La statistica congiunta di una coppia di v.a. e completamente nota solo se si conoscela loro densita mista fXY (x, y), ovvero anche la funzione di ripartizione congiuntaFXY (x, y). Da essa, infatti, e possibile dedurre le distribuzioni marginali ed i mo-menti di ogni ordine, sempreche esistano. Se pero le v.a. sono statisticamenteindipendenti, per quanto si e visto in questo paragrafo la conoscenza delle singoledistribuzioni marginali e sufficiente a descrivere compiutamente la loro statisticacongiunta.

Esempio 3.1

Si assuma che la traccia di un oggetto su uno schermo radar circolare, di rag-gio a, si possa trovare con eguale probabilita in qualsiasi punto P dello schermo.All’esperimento consistente nella ricezione casuale di una traccia sullo schermo, enaturale associare le variabili aleatorie R(ω), Θ(ω), coordinate polari del punto P. Sivuole determinare la loro densita di probabilita congiunta fRΘ(r, θ), le due densitamarginali ed i momenti misti.

0 a

Q

R

a

x

y2

1/ ap

p

f ( )XY

x,y

Figura 3.3

La probabilita che la traccia P si trovi nell’elemento di superficie dσ = rdrdθ vale:

dP (ω) = P(R, Θ) ∈ dσ =dσ

πa2=

r

πa2drdθ

e ricordando la (3.3) si puo scrivere

dP (ω) = fRΘ(r, θ)drdθ.

Eguagliando si ricava la densita mista:

fRΘ(r, θ) =

r/(πa2), 0 ≤ r ≤ a; 0 ≤ θ ≤ 2π;0, altrove

(3.14)

il cui grafico e mostrato in Fig. 3.3.

Page 83: dispense di Probabilita' e Statistica

3.1 – Coppie di variabili aleatorie 75

Le densita marginali si ricavano applicando la (3.5):

fR(r) =∫ 2π

0

r

πa2dθ =

2r

a2, 0 ≤ r ≤ a

fΘ(θ) =∫ a

0

r

πa2dr =

12π

, 0 ≤ θ ≤ 2π

e sono nulle al di fuori dei rispettivi intervalli. Dunque, la densita di probabilita diR(ω) per 0 ≤ r ≤ a e un segmento di retta, e quella di Θ(ω) e uniforme in [0, 2π].

Il prodotto delle due densita marginali e uguale alla densita mista: fR(r)fΘ(θ) =fRΘ(r, θ), per cui si puo concludere che le due v.a. sono statisticamente indipendenti.Il loro momento del secondo ordine e uguale al prodotto dei rispettivi valori medi:

ERΘ =∫ a

0

∫ 2π

0rθ

r

πa2drdθ =

23a · π = mR ·mΘ,

e ovviamente la covarianza tra R e Θ e nulla, perche essendo indipendenti sono anchenon correlate.

La probabilita che la traccia si trovi nel centro dello schermo in un cerchio di raggior0 << a (oppure anche: nel centro di un bersaglio circolare, nella ipotesi che la trac-cia cada comunque sul bersaglio) si puo facilmente calcolare utilizzando la densitacongiunta (3.14), e vale:

PR ≤ r); 0 ≤ Θ ≤ 2π = 2π

∫ r0

0

r

πa2dr =

(r0

a

)2

.

Esempio 3.2

E’ nota la densita congiunta di una coppia di variabili aleatorie. Essa vale

fXY (x, y) =

8xy, per 0 ≤ x ≤ 1; 0 ≤ y < x0 altrove

ed assume valori maggiori di zero nel dominio D = DX(y) ∪DY (x) = [0, x) ∪ (y, 1].Si vuole determinare le densita e i momenti marginali, e il loro momento congiuntodi ordine due.

Le densita marginali si calcolano come segue:

fX(x) =∫

DX(y)fXY (x, y)dy = 8

∫ x

0xydy = 4x3, x ∈ [0, 1]

fY (y) =∫

DY (x)fXY (x, y)dy = 8

∫ 1

yxydx = 4y(1− y2), y ∈ [0, 1],

Page 84: dispense di Probabilita' e Statistica

76 VARIABILI ALEATORIE MULTIDIMENSIONALI

e il loro grafico e mostrato, insieme con la densita mista, in Fig. 3.4. I valori medi ele varianze delle distribuzioni marginali si calcolano, come di consueto, applicandole loro definizioni:

EX = 4∫ 1

0x4dx =

45

EY = 4∫ 1

0y2(1− y2)dy =

815

σ2X = 4

∫ 1

0x5dx− E2X =

23− 16

25=

275

σ2Y = 4

∫ 1

0y3(1− y2)dy −E2Y =

13− 64

225=

11225

.

Il prodotto delle densita marginali non e uguale alla densita congiunta: cio significache la coppia X(ω), Y (ω)) non e statisticamente indipendente. Calcoliamo percio illoro momento misto:

EXY =∫ 1

0dx

∫ x

0xyfXY (x, y)dy = 8

∫ 1

0x2dx

∫ x

0y2dy =

49

f ( )XY x,y

0 1

1 x = yD ( ) D ( )

X Yxx

x

y

yy

.0 1

4

f ( )

f ( )

X

Y

Figura 3.4

dal quale si deduce la seguente covarianza:

Cov (X,Y ) = EXY − EXEY =4

225.

Il coefficiente di correlazione della coppia, definito dalla (3.9), nel caso in esame vale

ρ(X, Y ) =4

225√

275· 11225

' 0.492366

e il suo valore sensibilmente minore dell’unita mostra che le due variabili aleatoriesono poco correlate statisticamente, nel senso precisato alla fine del §3.1.2.

Page 85: dispense di Probabilita' e Statistica

3.1 – Coppie di variabili aleatorie 77

3.1.3 Coppie di v.a. discrete

Se X(ω) e Y (ω) assumono rispettivamente valori reali xi ed yj con i = 1, 2, . . . , n,j = 1, 2, . . .m, indichiamo con Pij = P(X = xi) ∩ (Y = yj) la probabilita che lacoppia (X, Y ) assuma i valori (xi, yj). Ovviamente, per gli assiomi della probabilitale Pij devono soddisfare la condizione:

n∑

i=1

m∑

j=1

Pij = 1.

La distribuzione mista, i momenti e le distribuzioni marginali della coppia discretasi esprimono, sulla base delle definizioni date nei paragrafi precedenti, facendo usodella funzione scalino unitario (2.3) e della funzione impulsiva. Cosı , la loro funzionedi distribuzione congiunta e data da

FXY (x, y) =n∑

i=1

m∑

j=1

PijU(x− xi)U(y − yj) (3.15)

e la corrispondente densita di probabilita congiunta e l’insieme bidimensionale diimpulsi:

fXY (x, y) =n∑

i=1

m∑

j=1

Pijδ(x− xi)δ(y − yj). (3.16)

Le rispettive funzioni di distribuzione marginali si ottengono sommando rispetto atutti i valori assunti dall’altra v.a.:

FX(x) =n∑

i=1

m∑

j=1

PijU(x− xi), ∀x ∈ Dx

FY (y) =m∑

j=1

n∑

i=1

PijU(y − yj), ∀y ∈ Dy

mentre le densita marginali valgono rispettivamente:

fX(x) =n∑

i=1

m∑

j=1

Pijδ(x− xi), ∀x ∈ Dx

fY (y) =m∑

j=1

n∑

i=1

Pijδ(y − yj), ∀y ∈ Dy. (3.17)

I loro momenti congiunti sono definiti dalle somme:

EXpY q =n∑

i=1

m∑

j=1

Pijxpi y

qj

Page 86: dispense di Probabilita' e Statistica

78 VARIABILI ALEATORIE MULTIDIMENSIONALI

E(X −mX)p(Y −mY )q =n∑

i=1

m∑

j=1

Pij(xi −mX)p(yj −mY )q (3.18)

e in particolare la loro covarianza vale

Cov (X,Y ) =n∑

i=1

m∑

j=1

Pij(xi −mX)(yj −mY ). (3.19)

Esempio 3.3

In una coppia di v.a. discrete, X(ω) puo assumere i valori (−2, 0, 2) e Y (ω) i valori(−1, 0, 1). Le probabilita miste Pij , con i, j = 1, 2, 3 hanno i valori riportati nellatabella di Fig. 3.5 e danno luogo, ricordando la (3.16), a una densita mista FXY (x, y)che e rappresentata dalla distribuzione di impulsi di Fig. 3.6. Si vuole calcolare ledensita marginali, la covarianza e il coefficiente di correlazione della coppia.

x = - 2 1/8 1/3 1/8

x = 0 0 1/12 0

x = 2 1/4 0 1/12

y = - 1 y = 0 y = 11

1

2

2

3

3

jj

i

i

Pij Pijij

Pij

= 1

7/12

1/12

1/3

3/8 5/12 5/24

Figura 3.5

Nella colonna a destra della tabella di Fig. 3.5 sono indicate le probabilita che siottengono sommando, per ogni i, rispetto a tutti i valori dell’indice j. I risultati dellesomme forniscono le probabilita marginali di X(ω), che per la prima delle (3.17) hadensita

fX(x) =712

δ(x + 2) +112

δ(x) +13δ(x− 2).

Allo stesso modo, le probabilita marginali di Y (ω) sono ricavate nella riga sottostantela stessa tabella, e forniscono la densita marginale:

fY (y) =38δ(y + 1) +

512

δ(y) +524

δ(y − 1).

Queste distribuzioni marginali hanno i seguenti momenti del primo e secondo ordine:

mX = −2 · 712

+ 2 · 13

= −12; EX2 =

73

+43

=113

; σ2X =

113− 1

4=

4112

Page 87: dispense di Probabilita' e Statistica

3.2 – Caso di n variabili aleatorie 79

mY = −38

+524

= −16; EY 2 =

38

+524

=712

; σ2Y =

712− 1

36=

59.

Poiche il prodotto delle densita marginali non e uguale alla densita mista assegnata,le due variabili aleatorie non sono statisticamente indipendenti. La loro covarianzasi puo calcolare applicando la (3.19), ma e piu comodo determinarla ricordando la(3.7):

Cov (X, Y ) = EXY −mXmY =28− 2

8− 2

4+

212−mXmY = −1

3− 1

12= − 5

12.

Siamo ora in grado di determinare il coefficiente di correlazione della coppia, che perla (3.9) risulta:

ρ(X,Y ) = − 5

12√

4112· 59

' −0.3024.

y

y

10-1

x

x

2

-2

f ( )x,yXY

0 2-2

-1 0 1

yf ( )Y

xf ( )X

Figura 3.6

3.2 Caso di n variabili aleatorie

L’estensione formale ad n dimensioni delle definizioni e dei risultati ottenuti neiprecedenti paragrafi si effettua senza particolari difficolta. Se in uno spazio di prob-abilita (Ω,B, P ) si definiscono le n v.a. X1(ω), X2(ω), .., Xn(ω), il vettore aleatorio

X(ω) = [X1(ω), X2(ω), . . . , Xn(ω)]T ,

dove T indica la trasposta, ha una funzione di distribuzione FX(x) : IRn → [0, 1]la quale misura la probabilita che si verifichino simultaneamente gli eventi (Xi ≤xi), i = 1, .., n:

FX(x1, x2, . . . , xn) = P(X1 ≤ x1) ∩ (X2 ≤ x2) ∩ . . . ∩ (Xn ≤ xn). (3.20)

Page 88: dispense di Probabilita' e Statistica

80 VARIABILI ALEATORIE MULTIDIMENSIONALI

La (3.20) ha il significato di funzione di distribuzione congiunta delle n v.a. Xi(ω),mentre la funzione di distribuzione marginale di una tra le Xi(ω) si deduce da questamandando a +∞ tutte le sue variabili indipendenti, tranne xi:

FXi(xi) = FX(+∞, . . . , +∞, xi,+∞, . . . , +∞).

La derivata parziale mista di ordine n di FX(x1, .., xn), se esiste, e la densita diprobabilita fX(x) : IRn → IR del vettore X(ω), ovvero la densita di probabilitacongiunta delle v.a. Xi(ω):

fX(x1, x2, .., xn) =∂nFX(x1, . . . , xn)

∂x1 . . . ∂xn

e il suo integrale di ordine (n − 1), fatto rispetto a tutte le variabili indipendentitranne una xi, e la densita marginale della v.a. Xi(ω):

fXi(xi) =∫ ∞

−∞. . .

∫ ∞

−∞fX(x1, . . . , xn)dx1 · · · dxi−1dxi+1 · · · dxn. (3.21)

Se le Xi(ω) sono statisticamente indipendenti, allora la densita congiunta e il prodottodelle n densita marginali:

fX(x1, . . . , xn) = fX1(x1) · fX2(x2) · · · fXn(xn)

e questa proprieta implica che le Xi(ω) siano anche indipendenti a due a due.

Il valor medio del vettore aleatorio X(ω) e il vettore n-dimensionale:

mX = EX = [mX1 ,mX2 , . . . ,mXn ]T .

che ha per componenti i valori medi di ciascuna distribuzione marginale:

i = 1, .., n : mXi =∫ ∞

−∞xi · fXi(xi)dxi.

Nel caso n-dimensionale si possono definire svariati momenti congiunti, a secondadelle componenti del vettore X(ω) che vi sono coinvolte. Particolare importanzahanno i momenti centrali del secondo ordine relativi a ciascuna coppia (Xi, Xj), chesono gli elementi della matrice di covarianza:

CX = [Cov(Xi, Xj)] i, j = 1, 2, . . . , n.

Si tratta di una matrice simmetrica n · n, definita non negativa: det(CX) ≥ 0, incui gli elementi della diagonale principale coincidono con la varianza di ciascunacomponente Xi(ω). Ricordando la definizione (3.9) del coefficiente di correlazioneρij = ρ(Xi, Xj), la matrice di covarianza si puo scrivere:

CX =

σ21 ρ12σ1σ2 . . . ρ1nσ1σn

ρ21σ2σ1 σ22 . . . ρ2nσ2σn

. . . . . . . . . . . .ρn1σnσ1 ρn2σ

nσ2 . . . σ2n

(3.22)

Page 89: dispense di Probabilita' e Statistica

3.2 – Caso di n variabili aleatorie 81

ed e anche il prodotto di matrici:

CX = DX ·RX ·DX (3.22′)

dove DX e la matrice diagonale delle deviazioni standard σi, e RX e la matrice dicorrelazione:

RX =

1 ρ12 . . . ρ1n

ρ21 1 . . . ρ2n

. . . . . . . . . . . .ρn1 ρn2 . . . 1

.

Il suo determinante ha proprieta che richiamano quelle del coefficiente di correlazione(3.9) tra due v.a. Infatti, poiche anche RX e simmetrica, si vede subito che 0 ≤det(RX) ≤ 1, e questo determinante vale 1 nel caso in cui le Xi(ω) sono tutte a duea due non correlate, perche allora la matrice di correlazione si riduce alla matriceidentica, e la matrice di covarianza degenera nella matrice diagonale delle varianze:

(Xi, Xj) non correlate : RX = I; CX =

σ21 . . . 0

. . . . . . . . .0 . . . σ2

n

; det CX = Πiσ

2i .

Nel caso limite opposto, si puo invece dimostrare che l’annullarsi del determinantedella matrice di covarianza – e quindi per la (3.22’) anche di det(RX) – e condizionenecessaria e sufficiente perche almeno una delle Xi(ω) sia una combinazione linearedelle altre (n− 1) variabili aleatorie:

Xi(ω) = a0 + a1X1(ω) + . . . + ai−1Xi−1(ω) + ai+1Xi+1(ω) + . . .

. . . + anXn(ω) ⇐⇒ Det (CX) = 0, Det (RX) = 0

con a1, .., ai−1, ai+1, .., an costanti non nulle. Si osservi che la condizione ora enuncia-ta non implica affatto (tranne nel caso banale n = 2) che ciascuna coppia (Xi, Xj) sialegata da una relazione lineare del tipo Xi(ω) = aXj(ω) + b. Come vedremo subitonell’Esempio che segue, e possibile definire sistemi di tre (o piu) v.a. che non sonolinearmente dipendenti a due a due, in cui tuttavia almeno una Xi(ω) e combinazionelineare delle rimanenti. Il caso che tratteremo riguarda un insieme di tre variabilialeatorie discrete, per il quale e immediato applicare i risultati appena ottenuti,che sono validi per un generico vettore aleatorio con componenti sia continue chediscrete.

Esempio 3.4

L’esperimento consiste nella estrazione casuale di una pallina da un’urna che necontiene 10 di cui 3 bianche, 2 nere e 5 rosse. Definiamo tre v.a. X(ω), Y (ω), Z(ω),e decidiamo di assegnare ad esse il valore 0 oppure 1 a seconda che si realizzinodeterminati eventi. Precisamente:

se si estrae una pallina

bianca → X = 1nera o rossa → X = 0

Page 90: dispense di Probabilita' e Statistica

82 VARIABILI ALEATORIE MULTIDIMENSIONALI

se si estrae una pallina

nera → Y = 1bianca o rossa → Y = 0

se si estrae una pallina

rossa → Z = 1bianca o nera → Z = 0.

Si vuole studiare la statistica mista del vettore aleatorio: X(ω) = [X, Y, Z]T . A talfine calcoliamo dapprima le probabilita

Pijk = P(X = i) ∩ (Y = j) ∩ (Z = k), i, j, k = 0, 1

dell’intersezione di tre degli eventi sopra definiti. Tenuto conto della equiprobabilitadell’estrazione di una pallina di colore bianco, nero o rosso, le Pijk valgono:

P100 =310

; P010 =15; P001 =

12; P000 = P011 = P101 = P110 = P111 = 0.

La densita di probabilita congiunta e la sequenza di impulsi:

fX(x, y, z) =1∑

i,j,k=0

Pijkδ(x− i)δ(y − j)δ(z − k)

e le densita marginali di ciascuna v.a. valgono:

fX(x) =1∑

i=0

δ(x− i)1∑

j,k=0

Pijk =710

δ(x) +310

δ(x− 1)

fY (y) =1∑

j=0

δ(y − j)1∑

i,k=0

Pijk =45δ(y) +

15δ(y − 1)

fZ(z) =1∑

k=0

δ(z − k)1∑

i,j=0

Pijk =12δ(z) +

12δ(z − 1).

Calcoliamone ora i valori medi:

mX =∑

i,j,k

i · Pijk =310

, mY =∑

i,j,k

j · Pijk =15, mZ =

i,j,k

k · Pijk =12

che utilizziamo per determinare le covarianze di ciascuna coppia:

Cov(X,Y ) = EXY −mXmY =∑

i,j,k

ij · Pijk −mXmY = 0− 310· 15

= − 350

Cov(X,Z) = EXZ −mXmZ =∑

i,j,k

ik · Pijk −mXmZ = 0− 310· 12

= − 320

Cov(Y, Z) = EY Z −mY mZ =∑

i,j,k

jk · Pijk −mY mZ = 0− 15· 12

= − 110

Page 91: dispense di Probabilita' e Statistica

3.3 – Trasformate della densita di probabilita 83

poiche i loro momenti del secondo ordine (non centrali) sono tutti nulli. Dunque letre variabili aleatorie sono correlate a due a due. Calcoliamo anche le loro varianze:

σ2X =

i,j,k

(i−mX)2Pijk =21100

; σ2Y =

i,j,k

(j −mY )2Pijk =425

σ2Z =

i,j,k

(k −mZ)2Pijk =14,

da cui ricaviamo subito i rispettivi scarti quadratici medi: σX∼= 0.458, σY =

0.4, σZ = 0.5. Siamo ora in grado di calcolare i coefficienti di correlazione i quali,applicando la (3.9) a ciascuna coppia, valgono:

ρ(X, Y ) ∼= −0.327, ρ(X.Z) ∼= −0.654, ρ(Y,Z) = −0.5

e ci indicano che X,Y, Z non formano coppie di v.a. linearmente dipendenti. Tut-tavia, la matrice di covarianza di X(ω) = [X, Y, Z]T e la seguente:

CX =

21/100 −3/50 −3/20−3/50 4/25 −1/10−3/20 −1/10 1/4

e ha determinante nullo, cosı come RX. Il rango di queste matrici e 2: cio significache una delle tre v.a. e combinazione lineare delle altre due. Precisamente, e facilevedere che sussiste la relazione: Z(ω) = X(ω) + Y (ω). Infatti, dai calcoli svolti sipuo verificare che il valor medio di Z(ω) e la somma di mX ed mY , mentre la suavarianza soddisfa la proprieta (3.8) con a = b = 1:

σ2Z = σ2

X + σ2Y + 2 Cov(X, Y ) =

21100

+425− 2 · 3

50=

14,

che vale per una combinazione lineare di v.a. X(ω) e Y (ω) tra loro correlate.

3.3 Trasformate della densita di probabilita

3.3.1 Funzione caratteristica

La funzione caratteristica ϕX(u) : IR → C di una variabile aleatoria X(ω) e latrasformata di Fourier (a meno del fattore 1/2π) della sua densita di probabilitafX(x):

ϕX(u) = EeiuX =∫ ∞

−∞eiuxfX(x)dx. (3.23)

Per la definizione di momento di una v.a., essa rappresenta il valor medio dellafunzione complessa

g(X) = eiuX = cos(uX) + i · sin(uX)

Page 92: dispense di Probabilita' e Statistica

84 VARIABILI ALEATORIE MULTIDIMENSIONALI

della v.a. X(ω), per cui si puo anche scrivere:

ϕX(u) = Ecos(uX)+ i · Esin(uX).

La definizione (3.23) e valida per qualsiasi variabile aleatoria: continua, discreta omista. Se pero la v.a. e discreta e assume valori in xk con probabilita pk, la suafunzione caratteristica puo anche essere espressa nella forma equivalente:

ϕX(u) =∑

k

eiuxk · pk =∑

k

cos(uxk)pk + i∑

k

sin(uxk)pk. (3.23′)

Le principali proprieta di ϕX(u) sono le seguenti.

1. Dalla sua definizione (3.23) si deduce subito che ϕX(0) = 1.

2. |ϕX(u)| ≤ 1, dove il segno di uguaglianza vale, salvo casi eccezionali, solo peru = 0.

Dimostrazione: tenuto conto che |eiux| = [cos2(ux) + sin2(ux)]1/2 = 1, si ricava:

|ϕX(u)| =∣∣∣∣∫ ∞

−∞eiuxfX(x)dx

∣∣∣∣ ≤∫ ∞

−∞|eiux|fX(x)dx =

∫ ∞

−∞fX(x)dx = 1.

3. Se Y (ω) e una funzione lineare Y = aX + b della variabile casuale X(ω) che hafunzione caratteristica ϕX(u), allora:

ϕY (u) = eiub · ϕX(au).

Dimostrazione: basta osservare che si puo scrivere

ϕY (u) = EeiuY = Eeiu(aX+b) = EeiuaX · eiub = eiub · EeiuaX

e per la (3.23) e appunto: EeiuaX = ϕX(au).

4. Se X1, X2 sono v.a. statisticamente indipendenti e hanno rispettivamente funzionicaratteristiche ϕ1(u) e ϕ2(u), allora la funzione caratteristica della loro somma Y =X1 + X2 e uguale al prodotto delle rispettive funzioni caratteristiche:

ϕY (u) = ϕX1+X2(u) = ϕ1(u) · ϕ2(u).

Dimostrazione: poiche per la (3.12) la densita mista f12(x1, x2) di due v.a. indipen-denti e uguale al prodotto delle rispettive densita marginali, si ha:

ϕX1+X2(u) = Eeiu(X1+X2) =∫ ∞

−∞eiu(X1+X2)f12(x1, x2) =

=∫ ∞

−∞eiuX1f1(x1)dx1 ·

∫ ∞

−∞eiuX2)f2(x2)dx2 = ϕ1(u)ϕ2(u).

Page 93: dispense di Probabilita' e Statistica

3.3 – Trasformate della densita di probabilita 85

5. Una funzione caratteristica ϕX(u) e legata ai momenti della variabile casualeX(ω) da una relazione assai importante che e spesso utile nelle applicazioni. Questasua proprieta, che riportiamo senza dimostrazione, si puo enunciare come segue.

Se esiste, finito, il momento EXq di ordine q della variabile casuale X(ω), alloraesiste, ed e continua, la derivata di ordine q della sua funzione caratteristica:

ϕ(q)X (u) =

∫ ∞

−∞(ix)q · eiux · fX(x)dx

la quale per u = 0 vale:

ϕ(q)X (0) = iq · EXq. (3.24)

Se esiste ϕ(r)X (0) con r pari, allora esiste finito il momento EXr e vale la (3.24).

Se esiste ϕ(r)X (0) ed r e dispari, allora esiste EX(r−1).

Ne segue anzitutto che la (3.24) permette il calcolo dei momenti di ordine pari diX(ω), che si possono ottenere per derivazione della sua funzione caratteristica. Sepoi ϕX(u) ammette uno sviluppo in serie di Mc Laurin, allora per la (3.24) si ricavaanche:

ϕX(u) =∞∑

q=0

uq

q!ϕ

(q)X (0) =

∞∑

q=0

(iu)q

q!EXq (3.25)

che puo essere utilizzata per la determinazione di ϕX(u) qualora non si conosca ladensita ma siano noti, ed esistano finiti, tutti i momenti della variabile aleatoria.

6. Dalla teoria delle trasformate di Fourier si ha che, sotto la condizione di assolutaintegrabilita della funzione caratteristica, vale la formula di inversione:

fX(x) =12π

∫ ∞

−∞e−iux · ϕX(u)du (3.26)

la quale permette di determinare fX(x) se e nota la funzione caratteristica ϕX(u).Combinandola con la (3.25), la formula di inversione permette anche di calcolare ladensita di probabilita di una variabile aleatoria, a partire dalla conoscenza di tutti isuoi momenti (supposto che esistano finiti).

7. La definizione (3.23) si estende senza difficolta al caso di variabili aleatorie mul-tidimensionali. Precisamente, data la v.a. vettoriale X = X1, . . . , Xn con densitafx(x1, . . . , xn), la sua funzione caratteristica ϕx(u1, .., un) : IRn → C e la funzione din variabili:

ϕx(u1, .., un) = Eei(u1X1+...+unXn) =

=∫ ∞

−∞ei(u1X1+...+unXn) · fx(x1, . . . , xn)dx1 . . . .dxn.

Page 94: dispense di Probabilita' e Statistica

86 VARIABILI ALEATORIE MULTIDIMENSIONALI

In particolare, per n = 2 la funzione caratteristica e la trasformata di Fourier delladensita mista delle due componenti di X = X1, X2, e se queste sono statistica-mente indipendenti vale la relazione:

ϕx(u1, u2) = ϕx1(u1)ϕx2(u2).

Anche la formula di inversione si estende facilmente al caso multidimensionale; peresempio, per n = 2 si ha:

fx(x1, x2) =1

4π2

∫ ∞

−∞

∫ ∞

−∞exp[−i(u1x1 + u2x2)]ϕx(u1, u2)du1du2.

Esempio 3.5

Si conoscono i momenti di una v.a. X(ω) che e definita nell’intervallo [0,1], ma dicui non si conosce la densita. Questi momenti valgono:

q = 1, 2, . . . : EXq = 1/(q + 1).

Si vuole determinare la distribuzione e la funzione di densita di X(ω). Per la (3.25)la funzione caratteristica di X(ω) e data da

ϕX(u) =∞∑

q=0

(iu)q

q!(q + 1)=

∞∑

s=1

(iu)s−1

s!=

1iu

∞∑

s=1

(iu)s

s!.

Me se si tiene conto dello sviluppo in serie della funzione esponenziale:

ex =∞∑

s=0

xs

s!= 1 +

∞∑

s=1

xs

s!,

si ottiene:

ϕX(u) =eiu − 1

iu=

sinu

u− i

cosu− 1u

.

La funzione trovata e la trasformata di Fourier della funzione:

fX(x) =

1 se x ∈ [0, 1]0 altrove

come si puo facilmente verificare sostituendola nella definizione (3.23). Infatti

∫ 1

01 · eiuxdx =

1iu

[eiux

]1

0=

eiu − 1iu

= ϕX(u).

Pertanto, X(ω) e uniformemente distribuita nell’intervallo [0, 1].

Esempio 3.6

Page 95: dispense di Probabilita' e Statistica

3.3 – Trasformate della densita di probabilita 87

La variabile casuale discreta X(ω) con densita di probabilita

FX(x) =12δ(x− 1) +

12δ(x + 1)

assume valori per x = ±1 con probabilita p(±1) = 1/2 (v. Fig. 3.7a). Applichiamola (3.23’) per calcolarne la funzione caratteristica, sostituendo ad xk (con k = 1, 2)i valori ±1 e le corrispondenti probabilita pk = 1/2. Si ottiene subito:

ϕX(u) =12

(eiu + e−iu

)=

12[(cosu + i sinu) + (cosu− i sinu)] = cosu.

1

1

a/2f (x)X

f (x)X

f (x)X

0

0

-1

-1

1

1 2 3

1dc

a b(u)

X

(u)X

(u)X

(u)X

0 0

a-a

Figura 3.7 - Funzioni caratteristiche e loro antitrasformate di Fourier

Esempio 3.7

Calcoliamo la funzione caratteristica di una v.a. uniformemente distribuita nell’inter-vallo −a ≤ x ≤ a, che ha densita

fX(x) =

1/2a, per |x| ≤ a0 altrove.

(3.27)

Per la definizione (3.23) si ha:

ϕX(u) =∫ a

−aeiux · 1

2adx =

12a

[eiux

iu

]a

−a

=eiua − e−iua

2iua=

2i sin(ua)2iua

=sin(ua)

ua

il cui grafico, insieme a quello di fX(x), e mostrato in Fig. 3.7b).

Page 96: dispense di Probabilita' e Statistica

88 VARIABILI ALEATORIE MULTIDIMENSIONALI

Esistono tutti i momenti EXq della densita uniforme (2.18): per la definizione(2.13) quelli di ordine dispari sono tutti nulli, e quelli di ordine pari valgono:

k = 1, 2, . . . : EX2k =∫ a

−ax2k 1

2adx =

1a

∫ a

0x2kdx =

a2k

2k + 1.

La loro conoscenza permette di sfruttare un’altra via per la determinazione dellafunzione caratteristica: infatti se si applica la (3.25) anziche la definizione (3.23) siritrova:

ϕX(u) =∞∑

k=0

(iu)2k

(2k)!a2k

2k + 1=

∞∑

k=0

i2k (ua)2k+1

ua(2k + 1)!=

1ua

∞∑

k=0

(−1)k (ua)2k+1

(2k + 1)!=

sin(ua)ua

poiche l’ultima sommatoria e lo sviluppo in serie della funzione sin(ua).

Esempio 3.8

Calcoliamo ancora la funzione caratteristica della v.a. con densita

fX(x) =a

2e−a|x| con a > 0, x ∈ IR

mostrata in Fig. 3.7c). Dalla definizione (3.23) si ricava:

ϕX(u) =a

2

∫ 0

−∞eiuxeaxdx +

a

2

∫ ∞

0eiuxe−axdx =

=a

2

[ex(iu+a)

iu + a

]0

−∞+

a

2

[ex(iu−a)

iu− a

]∞

0

=a

2

(1

iu + a− 1

iu− a

)=

a2

a2 + u2.

Esempio 3.9

Calcoliamo infine la funzione caratteristica di una variabile casuale X(ω) che halegge normale N (µ, σ2), applicando ancora la (3.23). Conviene anzitutto introdurrela variabile ausiliaria Y = X − µ che e anch’essa normale, ma con media nulla ela stessa varianza σ2. Per la proprieta 3) la funzione caratteristica di X e legata aquella di Y dalla relazione

ϕX(u) = Eeiu(Y +µ) = eiuµϕY (u). (3.28)

Determiniamo ora quest’ultima:

ϕY (u) =1

σ√

∫ ∞

−∞eiuy exp

[− y2

2σ2

]dy =

1σ√

∫ ∞

−∞exp

[−y

(y

2σ2− iu

)]dy.

L’ultimo integrale si calcola con la formula:∫ ∞

−∞e−y(py+q)dy =

√π

pe−q2/2p dove p =

12σ2

, q = −iu

Page 97: dispense di Probabilita' e Statistica

3.3 – Trasformate della densita di probabilita 89

e fornisce

ϕY (u) = exp

(−u2σ2

2

).

Dalla (3.28) si deduce quindi la funzione caratteristica di X(ω) ∼ N (µ, σ2), che e laseguente funzione complessa:

ϕX(u) = exp

(iuµ− u2σ2

2

).

Si noti, come caso particolare, che se X(ω) e normale standard (µ = 0, σ = 1) la suafunzione caratteristica, mostrata in Fig. 3.7d), e la funzione esponenziale gaussianacon valori reali:

X(ω) ∼ N (0, 1) : ϕX(u) = e−u2/2 ∈ (0, 1].

3.3.2 Funzione generatrice dei momenti

La funzione generatrice dei momenti µX(u) : IR→ IR di una variabile casuale X(ω)e la trasformata di Laplace della sua densita di probabilita fX(x):

µX(u) = EeuX =∫ ∞

−∞euxfX(x) (3.27)

ed esiste se l’integrale che la definisce e finito in un intorno di u = 0. Le sue principaliproprieta, in parte simili a quelle della funzione caratteristica, sono le seguenti.

1. µX(0) = 1.

2. Se Y (ω) e una funzione lineare Y = aX + b della v.a. X(ω), dotata di funzionegeneratrice dei momenti µX(u), allora:

µY (u) = eub · µX(au).

3. Se X1, X2 sono v.a. statisticamente indipendenti con funzioni generatrici µ1(u) eµ2(u), allora la funzione generatrice dei momenti della loro somma Y (ω) = X1 +X2

e il prodotto delle rispettive funzioni generatrici:

µY (u) = µx1+x2(u) = µ1(u) · µ2(u).

4. Se la v.a. X(ω) ha funzione generatrice dei momenti in un intorno |u| ≤ uo diu = 0, allora i suoi momenti EXq esistono finiti, e sono uguali alla derivata diordine q di µX(u) calcolata nell’origine:

µ(q)X (0) = Exq. (3.28)

Page 98: dispense di Probabilita' e Statistica

90 VARIABILI ALEATORIE MULTIDIMENSIONALI

Inoltre, nell’intorno |u| ≤ uo la funzione generatrice dei momenti ammette lo sviluppoin serie:

µX(u) =∞∑

q=0

uq

q!µ

(q)X (0) =

∞∑

q=0

uq

q!EXq. (3.29)

Si noti che, a differenza della funzione caratteristica ϕX(u), l’esistenza di µX(u)garantisce l’esistenza di tutti i momenti di X(ω), i quali sono calcolabili utilizzandole formule precedenti che non coinvolgono l’unita immaginaria.

Esempio 3.10

La funzione generatrice dei momenti di una v.a. X(ω) con distribuzione esponenzialefX(x) = λ · e−λx, λ > 0, x ∈ IR+ vale

µX(u) =∫ ∞

0eux · λe−λxdx = λ

∫ ∞

0e−(λ−u)xdx =

−λ

λ− u

[e−(λ−u)x

]∞0

λ− u

ed e mostrata in Fig. 3.8. L’esistenza di µX(u) finita in un intorno |u| ≤ uo < λ diu = 0 garantisce l’esistenza dei momenti di fX(x). Utilizzando la (3.28), si possonocalcolare questi momenti verificando un risultato gia ottenuto per altra via nel §2.3.4.

u( )X

xf ( )X

l

l

1

0

m

Figura 3.8 Generatrice dei momenti di una distribuzione esponenziale

Infatti:

q = 1, 2, 3, . . . : µ(q)X (u) =

dq

duq

λ− u

)=

q!λ(λ− u)q+1

e queste derivate, calcolate per u = 0, forniscono:

µ(q)X (0) = EXq =

q!λq

.

Page 99: dispense di Probabilita' e Statistica

3.4 – Problemi risolti 91

Al contrario, a partire dalla conoscenza dei momenti si puo determinare univoca-mente la legge di X(ω). Infatti, e soddisfatta la condizione (2.17) per l’unicita difX(x):

EX2q · k2q

(2q)!=

(2q)!λ2q

· k2q

(2q)!=

(k

λ

)2q

→ 0 per q → +∞, 0 < k < λ.

La serie (3.29) determina la funzione generatrice dei momenti:

∞∑

q=0

uq

q!· q!λq

=∞∑

q=0

(u

λ

)q

=1

1− u/λ=

λ

λ− u= µX(u)

perche la serie geometrica di ragione u/λ converge per |u| < λ. Una volta ricavataµX(u), da questa si ottiene, con una antitrasformata, la densita esponenziale fX(x).

3.4 Problemi risolti

3.1. La variabile aleatoria Z = 3X − Y con X e Y non correlate ha varianzaσ2

Z = 9σ2X − σ2

Y . Vero o falso?

Risposta: E’ Falso perche σ2Z = 9σ2

X + σ2Y .

3.2. Una coppia di variabili aleatorie discrete X, Y con valori xi = 0, 1 e yj = 0, 1, 2ha probabilita congiunte Pij che valgono:

P00 = P02 = 1/12; P01 = P10 = P11 = 1/6; P12 = 1/3.

Determinare: le densita marginali, i loro valori medi e la covarianza della coppia.

Soluzione:

fX(0) =2∑

j=0

P0j = 1/12+1/6+1/12 = 1/3 fX(1) =2∑

j=0

P1j = 1/6+1/6+1/3 = 2/3

fY (0) =1∑

i=0

Pi0 = 1/12 + 1/6 = 1/4 fY (1) =1∑

i=0

Pi1 = 1/6 + 1/6 = 1/3

fY (2) =1∑

i=0

Pi2 = 1/12 + 1/3 = 5/12

EX = 1 · (2/3) = 2/3 EY = 1 · (1/3) + 2 · (5/12) = 7/6

Page 100: dispense di Probabilita' e Statistica

92 VARIABILI ALEATORIE MULTIDIMENSIONALI

sxy =1∑

i=0

2∑

j=0

Pijxiyj−EXEY = 1/6+(1/3)·2−(2/3)(7/6) = 5/6−7/9 = 1/18

3.3. Una coppia (X, Y ) di variabili aleatorie ha densita congiunta

f(x, y) = 8xy, 0 ≤ x ≤ 1; 0 ≤ y ≤ x

e nulla altrove. a) Determinare le densita marginali di X e Y ; b) dire se sono statis-ticamente indipendenti giustificando la risposta; c) calcolare il momento congiuntoEXY .Soluzione.

a) Il supporto della densita congiunta e il triangolo del piano (x, y) delimitato dallerette y = x; y = 0 e x = 1. La densita marginale di X si ottiene integrando f(x, y)rispetto ad y sull’intervallo Dy(x) = [0, x] ; quella di Y integrando f(x, y) rispettoad x sull’intervallo Dx(y) = [y, 1] :

fX(x) = 8x

∫ x

0ydy = 4x3 , 0 ≤ x ≤ 1

fY (y) = 8y

∫ 1

yxdx = 4y(1− y2) , 0 ≤ y ≤ 1.

b) X e Y non sono indipendenti perche

fX(x)fY (y) = 16x3y(1− y2) 6= f(x, y).

c) Il momento congiunto vale

EXY =∫ ∫

xyf(x, y)dxdy = 8∫ 1

0x2dx

∫ x

0y2dy =

83

∫ 1

0x5dx =

49

.

3.4. Calcolare la covarianza della coppia (X,Y ) di variabili casuali discrete chehanno valori xi = 0, 1 e 2 ed yj = 0 e 2 con probabilita congiunte P00 = P20 = P22 =1/6; P10 = 1/3; P02 = P12 = 1/12.

Soluzione. Occorre dapprima calcolare le densita marginali e i valori medi di X eY :

fX(0) =2∑

j=0

P0j =16

+12

=14

, fX(1) =2∑

j=0

P1j =13

+112

=512

fX(2) =2∑

j=0

P2j =16

+16

=13

Page 101: dispense di Probabilita' e Statistica

3.4 – Problemi risolti 93

fY (0) =2∑

i=0

Pi0 =16

+13

+16

=23

, fY (2) =2∑

i=0

Pi2 =112

+112

+16

=13

EX =512

+ 2 · 13

=1312

, EY = 2 · 13

=23

da cui si ottiene:

sxy =2∑

i=0

2∑

j=0

Pijxiyj − EXEY = 2 · 112

+ 4 · 16− 13

12· 23

=56− 13

18==

19

Page 102: dispense di Probabilita' e Statistica

94 VARIABILI ALEATORIE MULTIDIMENSIONALI

3.5. Date due variabili aleatorie X,Y e due costanti non nulle a, b, vale l’identita:Cov(aX, bY ) = (a + b)Cov(X, Y ). Vero o Falso, e perche ?

Risposta: e Falso , perche vale a · b · Cov(X,Y ).

3.6. X e Y sono due variabili aleatorie indipendenti aventi distribuzione di Poissoncon parametri rispettivamente λX = 2 e λY = 3. Calcolare la probabilita IP[(X ≤1) ∩ (Y ≤ 1)] e il momento EXY .Soluzione. Le densita di probabilita marginali di X e Y sono:

fX(x) = e−2∞∑

k=0

2k

k!δ(x− k) ; fY (y) = e−3

∞∑

h=0

3h

h!δ(y − h)

dove δ(·) sono funzioni impulsive nei punti xi, yj = 0, 1, 2, . . .

Poiche X e Y sono indipendenti, la loro densita congiunta e il prodotto delle densitamarginali, e cosı per la loro funzione di distribuzione congiunta che vale:

F (x, y) = FX(x)FY (y) = e−5∞∑

i=0

∞∑

j=0

2i3j

i!j!U(x− xi)U(y − yj)

dove U(·) e la funzione a gradino unitario nei punti xi e yj . La probabilita richiestae uguale a F (1, 1) e percio vale:

IP[(X ≤ 1) ∩ (Y ≤ 1)] = e−51∑

i=0

1∑

j=0

2i3j

i!j!=

= e−5

(2030

0!0!+

20 · 30!1!

+2 · 30

1!0!+

2 · 31!1!

)= 12e−5 ' 0.0808 .

I valori medi marginali coincidono con i ripettivi parametri di Poisson λX , λY , esempre per la loro indipendenza statistica si ricava subito che

EXY = mXmY = 2 · 3 = 6 .

3.7. Due variabili aleatorie X,Y sono distribuite con legge normale, rispettivamenteN (−2, 2) e N (1, 4) e hanno momento congiunto EXY = 0.6. Calcolare il lorocoefficiente di correlazione.

Soluzione. La covarianza della coppia e

sxy = EXY −mXmY = 0.6 + 1 · 2 = 6.2

e quindi il coefficiente di correlazione vale

ρ(X, Y ) =sxy

σXσY=

2.62√

2' 0.9192 .

Page 103: dispense di Probabilita' e Statistica

TRASFORMAZIONI DIVARIABILI ALEATORIE

4.1 Generalita

Si presenta di frequente il problema di determinare le proprieta statistiche di unavariabile casuale Y (ω) che e il risultato della trasformazione subita da un’ altravariabile casuale X(ω) con distribuzione nota. Ad esempio, Y (ω) puo essere l’uscitadi un sistema con caratteristica di funzionamento nota ed espressa matematicamentedalla funzione di variabile reale g(x), al quale sia stato applicato un ingresso casualeX(ω) secondo lo schema indicato in Fig. 4.1. La variabile casuale X(ω) associaad ogni evento ω di un esperimento casuale il numero reale x ∈ Dx, realizzazionedell’ingresso aleatorio. Questo ingresso e trasformato dal sistema secondo la leggedeterministica g(x), ed in uscita si presenta nella forma y = g(x). Dunque la funzioneg(x), definita in Dx, fa corrispondere all’evento ω il numero reale y ∈ DY , genericarealizzazione della funzione di variabile aleatoria:

Y (ω) = g[X(ω)]. (4.1)

L’aleatorieta di Y (ω) puo anche essere dovuta a disturbi aleatori nella trasformazionedi un ingresso deterministico X, oppure ad imperfezioni nelle componenti costi-tutive del sistema stesso. In tal caso, il modello prababilistico della funzione ditrasferimento che caratterizza il sistema e del tipo: g(α(ω);x) dove α(ω) e unavariabile casuale reale con statistica nota, e l’uscita del sistema sara la funzioneY (ω; x) = g[α(ω);x] della variabile casuale α(ω), che e ora definita da una trasfor-mazione in cui x ha il ruolo di un parametro deterministico.

Le due forme di aleatorieta possono anche essere presenti simultaneamente. Si con-sideri un ingresso aleatorio X(ω) che e trasformato da un sistema con caratteristicadi funzionamento g(x, α(ω)). L’uscita Y (ω) sara allora aleatoria per l’effetto com-binato di X(ω) e di α(ω), ossia una funzione di due variabili casuali:

Y (ω) = g[Z(ω)], Z(ω) = X(ω), α(ω) : Ω → IR2

95

Page 104: dispense di Probabilita' e Statistica

96 TRASFORMAZIONI DI VARIABILI ALEATORIE

X( )w

g(x)X( )w Y( )w Y( )w

w

W

x

y

g(x)

Figura 4.1

che sono le componenti di un vettore aleatorio bidimensionale con statistica che sisuppone conosciuta.

Generalizzando la formulazione di queste trasformazioni a sistemi piu complessi,si puo infine definire un vettore aleatorio m-dimensionale Y(ω) = g[Z(ω)], che conlegge definita dalla funzione vettoriale g si puo esprimere come funzione di un vettorealeatorio n-dimensionale Z(ω) avente densita di probabilita nota.

Nel paragrafo che segue studieremo anzitutto la trasformazione (4.1), e mostreremocome si determina la legge probabilistica della funzione di variabile casuale Y (ω), sesono note: la funzione caratteristica g(x) e la densita di probabilita fX(x) dell’in-gresso aleatorio.

4.2 Funzioni di una variabile casuale

4.2.1 Calcolo della funzione di distribuzione

Un metodo generale per ottenere la statistica della funzione di variabile casualedefinita nella (4.1), per il quale non si richiedono ipotesi restrittive sulla funzionecaratteristica g(x), consiste nel determinare la sua funzione di distribuzione FY (y)mediante una opportuna integrazione della densita in ingresso fX(x), che per ipotesie nota e definita sul supporto Dx. Per la definizione di funzione di distribuzione diuna variabile casuale, e tenuto conto della (4.1), si ha:

FY (y) = P (Y ≤ y) = P [g(X) ≤ y].

Se ora indichiamo con Ex(y) = x ∈ Dx : g(x) ≤ y l’insieme dei valori di xappartenenti a Dx e tali da verificare la condizione: g(x) ≤ y, si puo dire cheP [g(X) ≤ y] e la probabilita che X(ω) assuma valori in Ex(y). Dunque, per la

Page 105: dispense di Probabilita' e Statistica

4.2 – Funzioni di una variabile casuale 97

definizione di densita di probabilita risulta

FY (y) = P [X ∈ Ex(y)] =∫

Ex(y)fX(x)dx. (4.2)

-y

y

y x

g(x)

y

y

x

g(x)

f (x)X

f (x)X

f (y)Y

f (y)Y

0 1

0 1

Yf (0)

0

a

b

Figura 4.2 - Casi a,b

La densita di probabilita fY (y) si ottiene quindi, come ci e noto, per derivazione:fY (y) = dF (y)/dy.

Esempio 4.1: dispositivi elettronici

a) Un dispositivo raddrizzatore a doppia semionda con funzione di trasferimento:g(x) = |x| e sottoposto a un ingresso aleatorio X(ω) con distribuzione normaleN (1, 1/2). Per valutare la funzione di distribuzione FY (y) in uscita, osserviamo che

Ex(y) = x ∈ IR : |x| < y = [−y, y], se y > 0,

0 se y ≤ 0.

Pertanto la (4.2) fornisce:

FY (y) =∫ y

−yfX(x)dx = FX(y)− FX(−y), y > 0

dovefX(x) =

1√π

e−(x−1)2 , FX(x) = 1/2 + erf [√

2(x− 1)]

sono la densita e la funzione di distribuzione dell’ingresso normale con media 1 evarianza 1/2. Per y ≤ 0 si ha invece FY (y) = 0.

Page 106: dispense di Probabilita' e Statistica

98 TRASFORMAZIONI DI VARIABILI ALEATORIE

La densita in uscita si ricava per derivazione:

fY (y) =dFX(y)

dy− dFX(−y)

dy= fX(y) + fX(−y) =

1√π

[e−(y−1)2 + e−(y+1)2

]

se y > 0, mentre fY (y) = 0 per y ≤ 0. Il dispositivo trasforma i segnali negativirestituendoli, con una eguale misura di probabilita, in valori positivi nel segnale diuscita (v. Fig. 4.2a).

b) Il raddrizzatore a semionda con caratteristica:

g(x) =x + |x|

2=

x se x ≥ 0,0 se x < 0

e ingresso con la medesima legge normale N (1, 12), sopprime invece i segnali negativi

e trasmette inalterati quelli positivi. Infatti il dominio di integrazione nella (4.2)vale:

y < 0 : Ex(y) = 0 =⇒ FY (y) = 0

y ≥ 0 : Ex(y) = (−∞, y] =⇒ FY (y) =∫ y

−∞fX(x)dx = FX(y).

Dunque FY (y) ha una discontinuita per y = 0, e si puo scrivere

FY (y) = FX(y)U(y)

dove U(y) e la funzione a gradino unitario in y = 0. Per derivazione rispetto ad yotteniamo quindi la seguente densita:

fY (y) = fX(y)U(y) + FX(0)δ(y)

che e illustrata in Fig. 4.2b). L’uscita del dispositivo e dunque una variabile casualemista, perche dotata di una distribuzione continua in [0, +∞) che riproduce il segnaledi ingresso in tale intervallo, alla quale si aggiunge l’impulso FX(0) per y = 0. Siosservi che l’entita di tale impulso e uguale alla misura di probabilita da attribuireall’insieme dei segnali negativi che sono stati soppressi.

c) Il dispositivo con caratteristica

g(x) =−1, x ≤ 0

1, x > 0

che ha un ingresso aleatorio con distribuzione normale N (1, 1), lo trasforma in unavariabile casuale discreta con valori ±1. Infatti la funzione di distribuzione in uscitaFY (y) si determina come segue:

y < −1 : Ex(y) = 0 =⇒ FY (y) = 0

Page 107: dispense di Probabilita' e Statistica

4.2 – Funzioni di una variabile casuale 99

−1 ≤ y < 1 : Ex(y) = (−∞, 0] =⇒ FY (y) =∫ 0

−∞fX(x)dx = FX(0)

y ≥ 1 : Ex(y) = IR =⇒ FY (y) =∫ +∞

−∞fX(x)dx = 1.

Dunque FY (y) e la funzione costante a tratti:

FY (y) = FX(0)U(y + 1) + [1− FX(0)]U(y − 1)

x

g(x)

-1

-1

1

1 x

g(x)

f (x)X

f (x)X

X

f (y)Y

f (y)Y

F (x)

F (y)Y

0

0

1 2-1

-1

1

0 1-1

1

0

c

d

Figura 4.2 - Casi c,d

dove FX(0) e la funzione di distribuzione della normale in ingresso, calcolata perx = 0:

FX(0) = 0.5 + erf[(0−mx)/σ] = 0.5− erf(1) ' 0.16.

La distribuzione in uscita ha pertanto due “gradini”, di altezza rispettivamente 0.16per y = −1 ed 1 − 0.16 = 0.84 per y = 1. Per derivazione rispetto ad y si ricavasubito la densita in uscita:

fY (y) = FX(0)δ(y + 1) + [1− FX(0)]δ(y − 1)

che e quella di una v.a. discreta (v. Fig. 4.2c) che assume valori ±1 con probabilitap(1) = 0.84 e p(−1) = 0.16.

d) Un ingresso normale standard N (0, 1) e applicato a un limitatore di segnale lacui caratteristica:

g(x) =

−1, x < −1x, −1 ≤ x ≤ 1+1, x > 1

Page 108: dispense di Probabilita' e Statistica

100 TRASFORMAZIONI DI VARIABILI ALEATORIE

e mostrata in Fig. 4.2d). Calcoliamo la distribuzione in uscita FY (y) suddividendoDY = IR in tre intervalli:

y < −1 : Ex(y) = 0 =⇒ FY (y) = 0

−1 ≤ y < 1 : Ex(y) = (−∞, y] =⇒ FY (y) =∫ y

−∞fX(x)dx = FX(y)

y ≥ 1 : Ex(y) = IR =⇒ FY (y) =∫ +∞

−∞fX(x)dx = 1.

Pertanto FY (y) e la funzione

FY (y) = FX(y)U(y + 1) + [1− FX(y)]U(y − 1),

dove FX(y) = 0.5+ erf(y) e la distribuzione normale in ingresso, calcolata per x = y.

Nell’intervallo −1 ≤ y < +1 la distribuzione in uscita riproduce quella in ingressoed ha due discontinuita agli estremi di questo intervallo, con “gradini” di ampiezzaFX(−1) = 0.5 + erf(−1) = 0.1587 (v. Fig. 4.2d).

Per derivazione di FY (y) – che in questo caso deve essere effettuata derivando op-portunamente i prodotti di due funzioni di y – si ottiene la seguente densita diprobabilita:

fY (y) = fX(y)U(y + 1) + FX(−1)δ(y + 1)− fX(y)U(y − 1)++[1− FX(1)]δ(y − 1) =

=1√2π

e−y2/2[U(y + 1)− U(y − 1)] +[12

+ erf(−1)][δ(y + 1) + δ(y − 1)].

Questa e una densita mista che ha ancora legge normale standard per y ∈ [−1, 1],e nulla all’esterno di tale intervallo, e presenta due impulsi uguali per y = ±1di intensita p(±1) = 0.1587, che e uguale alla massa di probabilita contenuta inciascuna delle due “code” della distribuzione di ingresso che sono state eliminatenella risposta del sistema (v. Fig. 4.2d).

4.2.2 Calcolo diretto della densita

Se e nota fX(x) e se g(x) e continua e derivabile in Dx, si puo ottenere direttamentela densita di probabilita fY (y) applicando il seguente

TEOREMA

Se x(j)(y), j = 1, .., N e l’insieme numerabile delle radici reali dell’equazione

g(x)− y = 0

Page 109: dispense di Probabilita' e Statistica

4.2 – Funzioni di una variabile casuale 101

nella variabile x, allora la densita di probabilita della variabile casuale Y (ω) definitadalla (4.1) vale:

fY (y) =N∑

j=1

fX(x(j)(y))|g′(x(j)(y))| (4.3)

dove con g′(x(j)(y)) si indica la derivata di g, calcolata per x = x(j)(y). Qualoraesistano valori y per cui l’equazione: g(x)− y = 0 non ammette soluzioni reali, si hafY (y) = 0.

g(x)

x xx

y

dy

dx1 dx 2

2( )1( )

xE (y)

Figura 4.3

Dimostrazione. Con riferimento alla Fig. 4.3, la probabilita elementare dP che Y (ω)assuma valori compresi tra y e y + dy vale

fY (y)dy = P (y < Y ≤ y + dy) = P [y < g(X) ≤ y + dy] == P [x(1) − |dx1| < X ≤ x(1)]+

+P [x(2) < X ≤ x(2) + dx2] = fX(x(1))|dx1|+ fX(x(2))dx2

dove x(1,2) sono le due radici reali che si ricavano dall’equazione g(x) − y = 0, einoltre:

dxj =dy

g′(x(j)), j = 1, 2

sono gli incrementi elementari subiti dalla variabile reale x a seguito di un incrementopositivo dy della variabile dipendente. Pertanto:

fY (y)dy =

fX(x(1))|g′(x(1))| +

fX(x(2))|g′(x(2))|

dy

che, dividendo per dy, dimostra la (4.3) con N = 2.

Esempio 4.2: Caratteristica con legge quadratica

Page 110: dispense di Probabilita' e Statistica

102 TRASFORMAZIONI DI VARIABILI ALEATORIE

Un dispositivo trasforma un ingresso casuale che ha distribuzione uniforme in Dx =[−1, 1], con la legge quadratica:

g(x) = x2.

Scelto un generico y ∈ IR, i valori di x ∈ Dx che soddisfano la condizione: x2 ≤ yappartengono al dominio Ex(y) = [−√y,

√y] se 0 ≤ y ≤ 1, e per la formula (4.2) si

ricava

FY (y) =∫ √

y

−√yfX(x)dx = FX(

√y)− FX(−√y).

Se la distribuzione in ingresso e uniforme in −1 ≤ x ≤ 1, si ha in tale intervallo:fX(x) = 1/2; FX(x) = (x + 1)/2 e quindi:

FY (y) =√

y + 12

− −√y + 12

=√

y, 0 ≤ y ≤ 1. (4.4)

0

g( )

-

E ( )

f ( )

f ( )

-1 0 1

0.5

X

Y

x

x

x

x

y

y

y

yy

Figura 4.4 - Trasformazione con legge quadratica

La densita fY (y) si puo calcolare per derivazione, oppure applicando direttamentela (4.3) come segue. Assegnato y ∈ IR, le radici dell’equazione g(x)− y = x2− y = 0sono:

x(1)(y) = −√y; x(2)(y) =√

y

e sono reali solo se y ≥ 0. Poiche Dx = [−1, 1], si hanno due soluzioni distinte per0 ≤ y ≤ 1. Dunque il dominio Dy e l’intervallo [0, 1] e in esso, tenuto conto che

g′(x(1)) = 2x(1) = −2√

y; g′(x(2)) = 2x(2) = 2√

y,

la densita incognita vale:

fY (y) =1

2√

y[fX(−√y) + fX(

√y)] =

12√

y

(12

+12

)=

12√

y

che coincide con la derivata della (4.4).

Page 111: dispense di Probabilita' e Statistica

4.2 – Funzioni di una variabile casuale 103

4.2.3 Trasformazioni invertibili

La (4.3) si modifica in una formula assai notevole quando la caratteristica del sistemae una funzione g(x) che, oltre ad essere continua e derivabile, e anche invertibile inDx. In tale ipotesi, l’equazione g(x) − y = 0 ha al piu una sola radice reale x(1) =g−1(y) coincidente con la funzione inversa di g(x). Per il teorema di derivazionedelle funzioni inverse, vale l’identita

1g′(x(1)(y))

=dg−1(y)

dy

che, sostituita nella (4.3) con N = 1, porta alla formula seguente:

fY (y) = fX [x = g−1(y)]

∣∣∣∣∣dg−1(y)

dy

∣∣∣∣∣ . (4.5)

che prende il nome di Teorema del cambio di variabile.

Anche la determinazione diretta della funzione di distribuzione FY (y) si risolve, nelcaso di trasformazioni invertibili, applicando formule notevoli. Per la loro deduzionee pero necessario distinguere i due casi seguenti.

• g(x) invertibile e crescente in Dx: il dominio Ex(y) e l’intervallo aperto a sinistra:

Ex(y) = x ∈ Dx : g(x) ≤ y = (−∞, g−1(y)]

per cui si ricava

FY (y) =∫ g−1(y)

−∞fX(x)dx = FX [g−1(y)]. (4.6)

• g(x) invertibile e decrescente in Dx: il dominio Ex(y) e l’aperto a destra

Ex(y) = x ∈ Dx : g(x) ≤ y = [g−1(y), +∞)

e di conseguenza:

FY (y) =∫ ∞

g−1(y)fX(x)dx = 1− FX [g−1(y)]. (4.6′)

Esempio 4.3: Generazione di numeri casuali

Applicando la teoria delle trasformazioni invertibili, e possibile determinare la carat-teristica che deve avere un dispositivo da utilizzare per trasformare un ingresso ca-suale in una uscita avente prescritte proprieta statistiche. Si assuma che l’ingressosia dotato di densita continua in DX ⊆ IR. La sua funzione di distribuzione FX(x) eallora una funzione continua, monotona crescente in IR. Se la funzione caratteristica

Page 112: dispense di Probabilita' e Statistica

104 TRASFORMAZIONI DI VARIABILI ALEATORIE

g(x) del dispositivo in cui e immesso il segnale coincide con FX(x), in uscita si ricavaper la (4.6):

FY (y) =∫ g−1(y)

−∞fX(x)dx = FX [g−1(y)] = FX [F−1(y)] = y

con y ∈ [0, 1]. Inoltre, si constata subito che per y < 0 e FY (y) = 0, e per y > 1si ha FY (y) = 1. Dunque, la funzione di distribuzione in uscita e quella di unavariabile casuale con distribuzione uniforme in DY = [0, 1], per cui il dispositivogenera numeri casuali equiprobabili in tale intervallo.

Inversamente, proponiamoci di generare una uscita casuale continua Y (ω) con unaassegnata funzione di distribuzione FY (y) anch’essa, ovviamente, monotona cres-cente e quindi invertibile in DY ⊆ IR. Allo scopo, e sufficiente trasformare uningresso uniformemente distribuito in DX = [0, 1] con un dispositivo avente carat-teristica g(x) = F−1

Y (x) uguale alla inversa della funzione caratteristica richiesta inuscita. Infatti per tale trasformazione si ha:

Ex(y) = x ∈ [0, 1] : g−1(x) < y = [0, FY (y)].

Quindi, tenuto conto che fX(x) = 1 in [0, 1], la funzione di distribuzione in uscita,che si calcola ancora con la (4.6), vale:

∫ FY (y)

01 · dx = FY (y)

1

xx

x

0

xg( )

xg( )

y

y

y

y

F ( )y-1X

E ( )yX

E ( )yX

xX

F ( )

Xxf ( )

Xxf ( )

1

10

1

10

yf ( )Y

yf ( )Y

xF ( )Y-1

x0 1

yF ( )Y

Page 113: dispense di Probabilita' e Statistica

4.2 – Funzioni di una variabile casuale 105

Figura 4.5 - Generazione di numeri casuali

che e la distribuzione desiderata. Ad esempio, per generare numeri casuali distribuiticon continuita nell’intervallo DY = [0, 2] con densita fY (y) = y/2, si calcola anz-itutto la corrispondente funzione di distribuzione FY (y) = y2/4, e si determina lacaratteristica

g(x) = F−1Y (x) = 2

√x.

Il dispositivo che trasforma un segnale uniformemente distribuito in [0,1] secondola legge g(x) = 2

√x ha in uscita segnali casuali con la distribuzione probabilistica

richiesta. Infatti

g−1(y) =y2

4; FY (y) =

∫ g−1(y)

0dx =

y2

4; fY (y) =

dFY (y)dy

=y

2.

4.2.4 Momenti di Y (ω) = g[X(ω)]

Una volta determinata la densita della funzione di variabile aleatoria, i suoi momentidi ordine q = 1, 2, . . . si possono calcolare mediante la loro definizione:

EY q =∫

DY

yqfY (y)dy. (4.7)

Tuttavia, qualora non interessi calcolare esplicitamente la densita fY (y) ma soloalcuni suoi momenti, e possibile determinarli direttamente utilizzando la conoscenzadella densita del segnale di ingresso. A tal fine si utilizza la formula seguente:

EY q =∫

Dx

gq(x)fX(x)dx (4.8)

che definisce il momento di ordine q di una generica funzione g della variabile casualedotata di densita fX(x). Si puo facilmente dimostrare la (4.8) nell’ipotesi che g(x)sia invertibile. Infatti, utilizzando infatti la (4.5) e integrando per sostituzione si ha:

EY q) =∫

Dy

yqfY (y)dy =∫

Dy

yqfX(x = g−1(y))

∣∣∣∣∣dg−1(y)

dy

∣∣∣∣∣ dy =

=∫

Dx

gq(x)fX(x)

∣∣∣∣∣dg−1

dy

∣∣∣∣∣ ·∣∣∣∣dy

dx

∣∣∣∣ dx =∫

Dx

gq(x)fX(x)dx.

In particolare, il valor medio mY si puo calcolare come segue:

mY = EY =∫

DX

g(x)fX(x)dx (4.9)

e la varianza con la nota formula:

σ2Y = EY 2 −m2

Y

Page 114: dispense di Probabilita' e Statistica

106 TRASFORMAZIONI DI VARIABILI ALEATORIE

dove il momento di ordine q = 2 e dato da

EY 2 =∫

Dx

g2(x)fX(x)dx.

4.2.5 Trasformazioni lineari

Un sistema lineare opera la trasformazione dell’ingresso X(ω) con legge: g(x) =ax + b dove a, b ∈ IR sono costanti ed a 6= 0. Si tratta dunque di una particolaretrasformazione invertibile in DX(−∞, +∞), in cui

g−1(y) =y − b

a;

dg−1(y)dy

=1a

= cost.

Per la (4.5) la densita di probabilita in uscita vale:

fY (y) = fX

(x =

y − b

a

)· 1|a| (4.10)

e, a meno di un fattore costante, ha la medesima legge probabilistica dell’ingressoX(ω). Questo risultato mostra una rilevante proprieta dei sistemi lineari: essi nonalterano la legge probabilistica del segnale di ingresso: Se ad esempio X(ω) e unsegnale gaussiano, essi restituiscono in uscita un segnale che e ancora gaussiano,sebbene con momenti diversi.

Il valor medio del segnale di uscita da un sistema lineare vale, per la (4.9):

mY =∫

Dx

(ax + b)fX(x)dx = a ·mX + b

ed e percio calcolabile immediatamente, come funzione lineare del valor medio mX

della variabile aleatoria di ingresso. Il momento del secondo ordine risulta:

EY 2 =∫

DX

(a2x2 + 2abx + b2)fX(x)dx = a2EX2+ 2abmX + b2,

per cui la varianza di Y (ω) vale:

σ2Y = EY 2 −m2

Y = a2[EX2 −m2X ] = a2σ2

X . (4.11)

Essa e uguale alla varianza del segnale di ingresso nel sistema lineare, moltiplicataper a2.

Esempio 4.4: Distribuzione parabolica in [a, b].

Si e visto nel §2.3.12 che la distribuzione parabolica sul supporto x ∈ [0, 1] e unaparticolare distribuzione Beta con densita fX(x) = 6x(1− x). Per determinare una

Page 115: dispense di Probabilita' e Statistica

4.2 – Funzioni di una variabile casuale 107

densita di probabilita parabolica FY (y) su un supporto limitato generico [a, b], esufficiente operare la trasformazione lineare:

y = g(x) = a + (b− a)x, y ∈ [a, b]

la cui inversa vale

x = g−1(y) =y − a

b− a,

dg−1(y)dy

=1

b− a.

Applichiamo quindi la (4.10) per ottenere:

fY (y) =

f [x = g−1(y)]1

|b− a| =6

(b− a)3(y − a)(b− y), y ∈ [a, b]

0 altrove.

v

q

ddD0 0

f (d)

d

d

32

A A

Figura 4.6 - Moto aleatorio di un grave

Esempio 4.5: traiettoria di un grave

Si consideri la traiettoria parabolica di un grave, lanciato (in assenza di resistenzadell’aria) con una velocita iniziale v nella direzione individuata dall’angolo ϑ indicatoin Fig. 4.6. Se ϑ(ω) e una variabile aleatoria uniformemente distribuita in Dϑ =[π/6, π/3], la distanza d del punto di caduta e la funzione di variabile aleatoria

d(ω) = g[ϑ(ω)] = A sin 2ϑ(ω)

con A = v2/g, dove g e l’accelerazione di gravita. Poiche g(ϑ) non e invertibile inDϑ, cerchiamo le radici dell’equazione: A sin 2ϑ − d = 0 appartenenti a Dϑ. Essesono:

ϑ(1)(d) =12

arcsind

A; ϑ(2)(d) =

π

2− 1

2arcsin

d

A

Page 116: dispense di Probabilita' e Statistica

108 TRASFORMAZIONI DI VARIABILI ALEATORIE

e sono reali, non coincidenti, se√

3A/2 ≤ d < A. In tale intervallo si ha

g′(ϑ(1)) = 2A cos 2ϑ(1) = 2√

A2 − d2; g′(ϑ(2)) = −g′(ϑ(1))

e quindi, per la (4.3):

fd(d) =1

2√

A2 − d2[fϑ(ϑ(1)(d)) + fϑ(ϑ(2)(d))].

Poiche fϑ(ϑ) = 6/π = cost, si ottiene

fd(d) =6

π√

A2 − d2, per

√3

A≤ d < A

mentre fd(d) = 0 al di fuori di tale intervallo. Il valor medio di d(ω) si calcolaagevolmente applicando la (4.9):

md =∫ π/3

π/6A sin 2ϑ · 6

πdϑ =

3A

π

e per la sua varianza si ottiene:

σ2d = Ed2 −m2

d =6A2

π

∫ π/3

π/6sin2 2ϑdϑ−m2

d =

=3A2

3+√

32

)−m2

d = A2

(12

+3√

34π

− 9π2

).

4.3 Funzioni di due o piu variabili casuali

Supponiamo ora che Y (ω) sia il risultato della trasformazione g(x1, x2, . . . , xn) subitada n variabili casuali X1(ω), X2(ω), . . . , Xn(ω) di cui si conosce la densita di proba-bilita congiunta f(x1, x2, . . . , xn), definita in DX ⊆ IRn. La funzione di distribuzionedi

Y (ω) = g[X1(ω), X2(ω), . . . , Xn(ω)]

si calcola con una facile estensione della formula (4.2). Precisamente, definito ildominio

EX(y) = (x1, x2, . . . , xn) ∈ DX : g(x1, x2, . . . , xn) ≤ y,si ha ora:

FY (y) = P (Y ≤ y) = P [g(X1, .., Xn) ≤ y] =∫

EX(y)f(x1, .., xn)dx1 · ·dxn. (4.12)

La densita di probabilita di Y (ω) si ottiene poi come derivata della funzione di di-stribuzione calcolata con la (4.12), e in casi particolari si puo anche determinare

Page 117: dispense di Probabilita' e Statistica

4.3 – Funzioni di due o piu variabili casuali 109

direttamente dalle densita marginali di X1(ω), . . . , Xn(ω), come mostra l’Esempioche segue.

Anche per i momenti di Y (ω) vale una formula analoga alla (4.8). Infatti, se sononote g(x1, . . . , xn) e la densita congiunta f(x1, . . . , xn), essi si possono determinarecalcolando l’integrale

EY q =∫

DX

gq(x1, . . . , xn)f(x1, . . . , xn)dx1 · · · dxn. (4.13)

Page 118: dispense di Probabilita' e Statistica

110 TRASFORMAZIONI DI VARIABILI ALEATORIE

Esempio 4.6: somma di due variabili casuali

Consideriamo la funzione somma:

Y (ω) = X1(ω) + X2(ω)

di due variabili aleatorie con densita mista nota e definita in D12 = IR2. Il dominiodi integrazione nella (4.12) e il semipiano:

E12(y) = (x1, x2) ∈ IR2 : −∞ < x1 ≤ y − x2;−∞ < x2 < +∞

y = x + x1

1

2

12

2

x

x

0 y

y

E (y)

Figura 4.7

indicato in Fig. 4.7. Si ricava allora:

FY (y) =∫ +∞

−∞dx2

∫ y−x2

−∞f(x1, x2)dx1 (4.14)

e derivando rispetto ad y:

fY (y) =∫ +∞

−∞f(y − x2, x2)dx2. (4.15)

Un caso notevole si ha nell’ipotesi che X1(ω) e X2(ω) siano statisticamente indipen-denti, con densita che indichiamo con f1(x1) e f2(x2) in IR. Poiche la loro densitacongiunta e uguale al prodotto di queste due densita marginali, le (4.13) e (4.14)diventano:

FY (y) =∫ +∞

−∞f2(x2)dx2

∫ y−x2

−∞f1(x1)dx1 (4.13′)

fY (y) =∫ +∞

−∞f1(y − x2)f2(x2)dx2 = f1(y) ∗ f2(y) (4.14′)

dove l’asterisco indica il prodotto di convoluzione delle densita f1(x1), f2(x2) e sipuo anche scrivere nella forma equivalente:

f1(y) ∗ f2(y) =∫ +∞

−∞f1(x1)f2(y − x1)dx1.

Page 119: dispense di Probabilita' e Statistica

4.3 – Funzioni di due o piu variabili casuali 111

La (4.14’) esprime il seguente

TEOREMA DI CONVOLUZIONE

Se due variabili casuali sono statisticamente indipendenti, la densita della lorosomma e uguale alla convoluzione delle rispettive densita.

Se in particolare le due densita marginali hanno come supporto IR+, vale a dire:f1(x1) = f2(x2) = 0 per x1, x2 < 0, allora f1(y − x2) = 0 per x2 > y, per cui la(4.14’) si puo riscrivere nella forma:

fY (y) =∫ ∞

0f1(y − x2)f2(x2)dx2 =

∫ y

0f1(y − x2)f2(x2)dx2. (4.16)

2

2

11

1

x

1x

2x

2x

0

y = +

C

C1

2

Figura 4.8

Supponiamo ad esempio che le variabili casuali X1(ω), X2(ω) siano indipendenti euniformemente distribuite nell’intervallo fondamentale [0, 1]. Le loro densita val-gono: f1(x1) = f2(x2) = 1 in tale intervallo, e sono nulle altrove. Per determinarela funzione di distribuzione della loro somma, basta osservare che per la (4.14) essae uguale all’area del dominio di integrazione E12(y) da definirsi come segue (v. Fig.4.8):

E12(y) =

0, per y < 0C1, per 0 ≤ y < 1C2, per 1 ≤ y < 2[0, 1]× [0, 1], per y ≥ 2.

Pertanto, indicando con m(Ci) la misura degli insiemi Ci, si ricava:

FY (y) =

0, per y < 0m(C1) = y2/2, per 0 ≤ y < 1m(C2) = 2y − 1− y2/2, per 1 ≤ y < 21, per y ≥ 2

Page 120: dispense di Probabilita' e Statistica

112 TRASFORMAZIONI DI VARIABILI ALEATORIE

e per derivazione nei vari intervalli di DY = [0, 2]:

fY (y) =

y, per 0 ≤ y < 12− y, per 1 ≤ y < 2.

Dunque la v.a. Y (ω) = X1(ω) + X2(ω) somma di distribuzioni uniformi indipen-denti, ha la distribuzione triangolare di Fig. 4.9. Essa si poteva anche calcolaredirettamente usando il Teorema di convoluzione. Dalla (4.16), tenuto conto che f1

ed f2 sono nulle al di fuori dell’intervallo [0,1], si ricava infatti:

0 ≤ y < 1 : fY (y) =∫ y

0f1(y − x2) · 1 · dx2 =

∫ y

0f1(x1)dx1 = y

1 ≤ y < 2 : fY (y) =∫ 1

0f1(y − x2) · 1 · dx2 +

∫ y

1f1(y − x2)f2(x2)dx2 =

=∫ y

y−1f1(x1)dx1 =

∫ 1

y−1dx1 = 2− y.

21

1

0 y

f (y)

F (y)Y

Y

Figura 4.9 - Distribuzione triangolare

Il valor medio di Y (ω) vale ovviamente mY = 1, come si verifica subito dal calcolodell’integrale:

mY =∫

D12

(x1 + x2)f(x1)f(x2)dx1dx2 = EX1+ EX2 = 1.

Il momento del secondo ordine di Y (ω) vale:

EY 2 =∫

D12

(x1 + x2)2f(x1)f(x2)dx1dx2 = EX21+ EX2

2+ 2EX1X2

dove EX21 = EX2

2 = 1/3 ed inoltre: EX1X2 = EX1EX2 = 1/4, perchel’indipendenza statistica implica una covarianza nulla. Pertanto si ricava:

EY 2 =23

+12

=76, σ2

Y = EY 2 −m2Y =

76− 1 =

16

Page 121: dispense di Probabilita' e Statistica

4.3 – Funzioni di due o piu variabili casuali 113

e la varianza di Y (ω) e uguale alla somma delle varianze di X1(ω) e X2(ω), in accordocon la (3.8) usata per variabili casuali indipendenti.

Somma o differenza di distribuzioni normali indipendenti

Usando il Teorema di convoluzione si puo anche dimostrare un risultato notevoleassai utile, per esempio, nei problemi di induzione statistica:

la somma (o differenza) di due v.a. normali e indipendenti e ancora una v.a.normale, con media uguale alla somma (o differenza) delle medie e varianza ugualealla somma delle varianze.

Infatti, se X1, X2 sono indipendenti ed hanno legge normale, rispettivamente conmedie e varianze m1,m2 e σ2

1, σ22 la loro somma (o differenza) Y = X1 ±X2 ha una

densita data dalla (4.14’):

fY (y) =∫ +∞

−∞f1(y − x2)f2(±x2)dx2 =

=1

2πσ1σ2

∫ +∞

−∞exp

[−(y − x2 −m1)2

2σ21

]exp

[−(±x2 −m2)2

2σ22

]dx2 =

=exp

[−(y −m1)2

2σ21

− m22

2σ22

]

2πσ1σ2

∫ +∞

−∞exp

[−x2

(σ2

1 + σ22

2σ21σ

22

x2 − y −m1

σ21

∓ m2

σ22

)]dx2.

L’ultimo integrale si puo calcolare usando la formula:

∫ +∞

−∞e−x2(px2+q)dx2 =

√π

pe−q2/4p con p =

σ21 + σ2

2

2σ21σ

22

, q = −y −m1

σ21

∓ m2

σ22

,

e dopo alcuni ulteriori calcoli si perviene al risultato

fY (y) =1√

2π(σ21 + σ2

2)exp

[−(y −m1 ∓m2)2

2(σ21 + σ2

2)

]

che e appunto una funzione di densita normale, con media mY = m1±m2 e varianzaσ2

Y = σ21 + σ2

2.

Esempio 4.7: modulo di un vettore aleatorio

Cosideriamo un vettore ~V = X1~i + X2

~j le cui componenti X1(ω), X2(ω) secondouna coppia di assi cartesiani ortogonali sono variabili casuali statisticamente in-dipendenti, ciascuna con distribuzione normale N (0, σ2). Il suo modulo

V = g(X1, X2) =√

X21 + X2

2

Page 122: dispense di Probabilita' e Statistica

114 TRASFORMAZIONI DI VARIABILI ALEATORIE

e una variabile aleatoria la cui funzione di distribuzione si puo determinare appli-cando la (4.12) con

f(x1, x2) = f1(x1)f2(x2) =1

2πσ2exp

(−x2

1 + x22

2σ2

).

Passando a coordinate polari nel piano (x1 = ρ cosϑ, x2 = ρ sinϑ) il dominio diintegrazione nella (4.12) si scrive:

E12(v) = (ρ, ϑ) ∈ Dρϑ : 0 ≤ ρ ≤ v; 0 ≤ ϑ ≤ 2π

per cui la funzione di distribuzione di V vale:

FV (v) =∫ 2π

0dϑ

∫ v

0

12πσ2

e−ρ2/2σ2ρdρ =

1σ2

∫ v

0ρe−ρ2/2σ2

dρ (4.17)

se ρ ≥ 0, ed e nulla per v < 0. Derivando rispetto a v sotto il segno di integrale, siricava la seguente densita di probabilita di V (ω):

fV (v) =dF (v)

dv=

v

σ2e−v2/2σ2

, v ≥ 0

che e una distribuzione di Rayleigh (cfr. §2.3.5) con parametro σ uguale alla devia-zione standard delle densita normali delle due componenti.

Il metodo di calcolo appena applicato si puo agevolmente estendere allo studio delmodulo di un vettore aleatorio in IR3:

V (ω) =√

X21 (ω) + X2

2 (ω) + X22 (ω)

le cui componenti sono variabili casuali indipendenti, ancora distribuite con leggenormale N (0, σ2) e densita congiunta

f(x1, x2, x3) = f1(x1)f2(x2)f3(x3) =1

σ3(2π)3/2exp

(−x2

1 + x22 + x2

3

2σ2

).

Se passiamo a un sistema di coordinate sferiche (ρ ≥ 0, ϑ ∈ [0, π], ϕ ∈ [0, 2π]) lafunzione di distribuzione di V (ω) e definita dall’integrale triplo:

FV (v) =∫

EX(v)f(x1 = ρ cosϑ cosϕ, x2 = ρ cosϑ sinϕ, x3 = ρ sinϑ) ρ2 sinϑdρdϑdϕ

da calcolarsi sul dominio:

EX(v) = (ρ, ϑ, ϕ) ∈ Dρϑϕ : 0 ≤ ρ ≤ v; 0 ≤ ϑ ≤ π; 0 ≤ ϕ ≤ 2π.

Si ricava allora, per v ≥ 0:

Page 123: dispense di Probabilita' e Statistica

4.3 – Funzioni di due o piu variabili casuali 115

FV (v) =∫ 2π

0dϕ

∫ π

0dϑ

∫ v

0

1σ3(2π)3/2

e−ρ2/2σ2ρ2senϑdρ =

√2

σ3√

π

∫ v

0ρ2e−ρ2/2σ2

la cui derivata prima fornisce la seguente densita di probabilita di V (ω):

fV (v) =dF (v)

dv=√

2v2

σ3√

πexp

(− v2

2σ2

), v ≥ 0.

Si ricava cosı la distribuzione di Maxwell gia presentata nel §2.3.5 del Capitolo II.

Esempio 4.8: Probabilita di un guasto

Nella teoria della previsione dei guasti, il tempo che intercorre tra l’istante in cui unsistema inizia il suo funzionamento e quello in cui cessa di funzionare e una variabilealeatoria con la distribuzione esponenziale definita nel §2.3.4. Consideriamo oraun sistema S costituito da due componenti S1, S2 e indichiamo con X1(ω), X2(ω)gli istanti in cui ciascuno di questi cessa il suo funzionamento. Assumendo comemodello di probabilita dei guasti due leggi esponenziali:

f1(x1) = c1e−c1x1 , f2(x2) = c2e

−c2x2 , x1, x2 ≥ 0 (4.18)

t

A

B

0 t x1

x2

Figura 4.10

e supponendo che X1(ω), X2(ω) siano statisticamente indipendenti, determiniamola legge probabilistica della variabile casuale T (ω) che rappresenta l’istante in cuicessa di funzionare il sistema complessivo S. Allo scopo, facciamo una delle seguentiipotesi:

1. S si guasta se si guasta almeno uno dei suoi componenti (che in tal caso sonocollegati in serie);

2. S si guasta solo se si guastano entrambi i componenti (collegamento in paral-lelo);

Page 124: dispense di Probabilita' e Statistica

116 TRASFORMAZIONI DI VARIABILI ALEATORIE

3. Il componente S1 funziona dall’istante t = 0, e quando si guasta entra infunzione S2 (collegamento ausiliario: S si guasta solo quando si guasta S2).

1. Nel caso di componenti collegati in serie, T (ω) e la funzione:

T (ω) = g(X1, X2) = min[X1(ω), X2(ω)]

e il calcolo di FT (t) e da effettuare con la (4.12), integrando sul dominio EX(t) =(x1, x2) : min(x1, x2) ≤ t = A(t)−B(t) mostrato in Fig. 4.10, dove A,B sono gliinsiemi:

A(t) = (x1, x2) : (0 ≤ x1 ≤ t) ∪ (0 ≤ x2 ≤ t)B(t) = (x1, x2) : (0 ≤ x1 ≤ t) ∩ (0 ≤ x2 ≤ t).

Ne segue la funzione di distribuzione

FT (t) =∫ t

0f1(x1)dx1 +

∫ t

0f2(x2)dx2 −

∫ t

0f1(x1)dx

∫ t

0f2(x2)dx2 =

= F1(t) + F2(t)− F1(t)F2(t)

e la densita di probabilita

fT (t) =dF (t)

dt= [1− F2(t)]f1(t) + [1− F1(t)]f2(t).

Sostituendo le espressioni (4.18) e le relative funzioni di distribuzione note, si ricava:

fT (t) = (c1 + c2)e−(c1+c2)t, t ≥ 0.

Dunque, nel sistema con componenti in serie il tempo di attesa del guasto ha ancoralegge esponenziale. Il suo valor medio (e quindi la vita media del sistema complessivo)e mT = 1/(c1 + c2), minore della vita media dei singoli componenti, e la varianzavale σ2

T = 1/(c1 + c2)2.

2. Esaminiamo ora la statistica del sistema con componenti che funzionano in par-allelo. Per esso l’istante del guasto e la variabile casuale

T (ω) = g(X1, X2) = max[X1(ω), X2(ω)]

e il dominio di integrazione nella (4.12) diventa

EX(t) = (x1, x2) : (0 ≤ x ≤ t) ∩ (0 ≤ x ≤ t) ≡ B(t).

Si ricava percio

FT (t) =∫ t

0f1(x1)dx

∫ t

0f2(x2)dx2 = F1(t)F2(t)

Page 125: dispense di Probabilita' e Statistica

4.3 – Funzioni di due o piu variabili casuali 117

e la densita di probabilita

fT (t) = F2(t)f1(t) + F1(t)f2(t)

la quale, usando le (4.18), si riscrive:

fT (t) = c1e−c1t + c2e

−c2t − (c1 + c2)e−(c1+c2)t.

Il valor medio e la varianza di questa distribuzione valgono:

mT =∫ ∞

0fT (t)tdt =

1c1

+1c2− 1

c1 + c2

σ2T =

∫ ∞

0t2fT (t)dt−m2

T =1c21

+1c22

− 1(c1 + c2)2

per cui il sistema in esame ha vita media maggiore di quella del sistema con com-ponenti in serie; tuttavia cresce anche la dispersione di fT (t) rispetto al suo valormedio.

in serie

in parallelo

ausiliario

3

2

1

0 42 t

f (t)T

Figura 4.11 - Probabilita di un guasto

3. Consideriamo infine il sistema con collegamento ausiliario. Poiche S2 entra infunzione solo quando ha smesso di funzionare S1, l’istante del guasto del sistema ela somma

T (ω) = g(X1, X2) = X1(ω) + X2(ω)

delle variabili casuali che rappresentano gli istanti del guasto di S1 ed S2. Quindi(si veda l’Esempio 4.6) la densita di T (ω) e il prodotto di convoluzione delle densitaesponenziali di X1(ω) ed X2(w). Essa si puo determinare direttamente applicandola (4.16):

fT (t) = c1c2

∫ t

0e−c1(t−x2) · e−c2x2dx2 =

= c1c2

∫ t

0e−c1t · e−x2(c2−c1)dx2 = c1c2e

−c1t∫ t

0e−x2(c2−c1)dx2

Page 126: dispense di Probabilita' e Statistica

118 TRASFORMAZIONI DI VARIABILI ALEATORIE

da cui risulta:

c1 6= c2 : fT (t) =c1c2

c2 − c1

(e−c1t − e−c2t

)

c1 = c2 = c : fT (t) = c2te−ct.

La vita media del sistema e la varianza di T (ω) sono quelle proprie di una sommadi variabili casuali indipendenti, e risultano quindi uguali alla somma delle medie edelle varianze di X1(ω), X2(ω):

mT =1c1

+1c2

; σ2T =

1c21

+1c22

.

La Fig. 4.11 mostra le densita che si ricavano assumendo c1 = 1, c2 = 2 nei tre casiora considerati.

4.4 Transformazioni n-dimensionali

Il metodo di calcolo della funzione di distribuzione di Y (ω) = g(X1, X2, . . . , Xn(ω),esplicitato dalla formula (4.12), non e piu applicabile se g : IRn → IRm con m >1, ovvero se e una applicazione da DX ⊆ IRn a DY ⊆ IRm che definisce le mtrasformazioni:

Yj(ω) = gj [X(ω)] j = 1, . . . .,m > 1 (4.19)

dal vettore aleatorio n-dimensionale X(ω) nel vettore aleatorio m-dimensionale Y(ω)= Yj(ω).Se m = n, si puo pero estendere al caso multidimensionale il metodo di calcolodiretto della densita fY(y), gia introdotto nel §4.2.2, servendosi del seguente

TEOREMA I

Sia g(x) = gi(x1, .., xn) : IRn → IRn continua e derivabile in DX, e Y(ω) =g[X(ω)] : Ω → IRn. Se x(k)(y), k = 1, .., N e l’insieme numerabile di N radici realidel sistema: g(x) − y = 0 nelle n incognite xi, allora la densita di probabilita delvettore n-dimensionale Y(ω) e data da:

fY(y) =N∑

k=1

fX(x(k)(y))|J(x(k)(y))| (4.20)

dove fX(x) e la densita nota del vettore X(ω), e J(x) e il determinante jacobianodella trasformazione (4.19) con m = n, entrambi da calcolare per x = x(k)(y). Seesistono valori y per cui il sistema g(x)− y = 0 non ammette soluzioni reali, allorafY(y) = 0.

Page 127: dispense di Probabilita' e Statistica

4.4 – Transformazioni n-dimensionali 119

• Trasformazione invertibile. Un caso particolare si ha quando g(x), oltre al esserecontinua e dotata di derivate parziali continue, e anche invertibile in DX. In tal casog : DX → DY e un diffeomorfismo, ed e possibile applicare il seguente Teorema, chegeneralizza al caso n-dimensionale la formula (4.5).

TEOREMA II

Siano DX, DY due aperti di IRn, e g : DX → DY un diffeomorfismo. Allora ladensita di probabilita di Y(ω) = g[X(ω)] e data da:

fY(y) = fX[x = g−1(y)] · |J−1(y)| (4.21)

dove g−1(y) e la inversa di g(x), e J−1(y) e lo Jacobiano della trasformazione inversaY → X:

J−1(y) = det

(∂g−1

∂y

)= det

(∂xi

∂yj

); i, j = 1, 2, . . . , n.

Infatti, se g e invertibile il sistema: g(x) − y = 0 ha al piu una sola radice realex(1) = g−1(y) e dal Teorema I, tenuto conto che J−1(y) = 1/J(x(1)) dove J(x) e loJacobiano della trasformazione diretta X → Y, si ricava la (4.21).

• Trasformazione lineare. Se infine g(x) e lineare:

gi(x1, . . . , xn) = ai1x1 + . . . + ainxn + bi, i = 1, .., n

allora, detta A = [aij ] la matrice n× n dei coefficienti della trasformazione Y(ω) =AX(ω)+b, si ha: J(x) = det(A); J−1(y) = det(A−1) e la densita di Y(ω) vale, peri Teoremi precedenti:

fY(y) =fX[x = A−1(y − b)]

| det(A)| = fX[x = A−1(y − b)] · | det(A−1)|, (4.22)

che generalizza la (4.10) al caso n-dimensionale.

Page 128: dispense di Probabilita' e Statistica

120 TRASFORMAZIONI DI VARIABILI ALEATORIE

Momenti del vettore Y = g(x)

Per quanto riguarda i momenti di Y(ω), indichiamo con EYq il vettore colonnale cui n componenti sono i valori attesi di ciascuna componente Yi(ω) del vettorealeatorio Y(ω) = g[X(ω)]. Se e nota la densita di probabilita di X(ω), il vettoreEYq si puo calcolare nel modo seguente:

EYq =∫

DX

gq(x) · fX(x)dx, x ∈ DX ⊆ IRn

che estende al caso n-dimensionale la formula (4.8).

Esempio 4.9

X1(ω) e X2(ω) sono due variabili casuali note e indipendenti, con densita

f1(x1) = 4x31, 0 ≤ x1 ≤ 1; f2(x2) =

23x2, 1 ≤ x2 ≤ 2

e nulle al di fuori degli intervalli sopra definiti. Queste sono le densita marginali delvettore aleatorio X(ω) : Ω → DX ⊆ IR2 che ha densita di probabilita

fX(x) = f1(x1)f2(x2) =83x3

1x2

sul dominio DX = (x1, x2) : 0 ≤ x1 ≤ 1; 0 ≤ x2 ≤ 2. Un dispositivo concaratteristica

g(x) = g1(x), g2(x), g1(x) = a(x1 + x2); g2(x1) = −bx1

con a, b > 0, trasforma X(ω) in un vettore aleatorio Y(ω) : Ω → IR2 di componentiY1(ω) = g1[(X(ω)] e Y2(ω) = g2[X(ω)], avente valori nel dominio

DY = (y1, y2) : a(1− y2/b) ≤ y1 ≤ a(2− y2/b); −b ≤ y2 ≤ 0.

che e mostrato in Fig. 4.12. Si vuole determinare la densita congiunta e le densitamarginali di Y(ω). Poiche e generato da una trasformazione lineare, Y(ω) si puoscrivere:

Y(ω) = AX(ω), con A =[

a a−b 0

]

e la sua densita si ricava dalla (4.22). Con semplici calcoli si ottiene:

det(A) = ab; A−1 =[

0 −1/b1/a 1/b

]

Page 129: dispense di Probabilita' e Statistica

4.4 – Transformazioni n-dimensionali 121

1

1

0

0

a 2a 3a

- b

y

y

1

1

2

2

1x

2x

g : D DX Y

2

C

C

Figura 4.12

e la trasformazione inversa x = A−1y e definita da

x1 = −y2/bx2 +y1/a + y2/b.

Pertanto, per ogni (y1, y2) ∈ DY la densita mista vale

fY(y) =83f1(x1 = −y2/b)f2(x2 = y1/a + y2/b) · 1

ab= − 8

3ab4y32

(y1

a+

y2

b

).

Le densita marginali di ciascuna componente si possono determinare integrandofY(y) rispetto all’altra variabile (si ricordi la (3.5)). Cosı , per ottenere la densitamarginale f(y1) di Y1(ω) si deve integrare ”per verticali” sui due sottoinsiemi C1, C2

di Fig. 4.12, tali che C1 ∪ C2 = DY, e si ricava:

a ≤ y1 ≤ 2a : f(y1) =∫ 0

b(1−y1/a)fY(y)dy2 = − 8

3ab4

∫ 0

b(1−y1/a)y32

(y1

a+

y2

b

)dy2

=2

15a2

[5y1

(1− y1

a

)4

+ 4a

(1− y1

a

)5]

;

2a ≤ y1 ≤ 3a : f(y1) =∫ b(2−y1/a)

−bfY(y)dy2 =

=2

15a2

5y1

[1−

(2− y1

a

)4]− 4a

[1 +

(2− y1

a

)5]

.

Per determinare la densita marginale di Y2(ω) si integra invece rispetto a y1 “perorizzontali” e si ricava:

f(y2) =∫ a(2−y2/b)

a(1−y2/b)fY(y)dy1 = − 8

3ab4

∫ a(2−y2/b)

a(1−y2/b)y32(y1/a + y2/b)dy2 = −4y3

2

b4

Page 130: dispense di Probabilita' e Statistica

122 TRASFORMAZIONI DI VARIABILI ALEATORIE

0 2 4 6- 4

1 a = 2b = 4

f(y ) f(y )12

Figura 4.13

per y2 ∈ [−b, 0], mentre f(y2) = 0 al di fuori di questo intervallo.

Il prodotto delle due densita marginali, che sono riportate in Fig. 4.13, non e ugualealla densita congiunta fY(y). Cio indica che le due componenti del vettore Y(ω)prodotto dalla trasformazione non sono statisticamente indipendenti, come inveceaccade per le componenti del vettore trasformato X(ω).

Se le dimensioni di Y(ω) ∈ IRm e X(ω) ∈ IRn non sono uguali (per esempio m < n),conviene spesso usare, al posto di Y(ω), un vettore incrementato Z(ω) ∈ IRn, che sicostruisce assegnandogli un numero n −m di componenti aleatorie fittizie. Questoaccorgimento permette di studiare la trasformazione X → Z con i metodi forniti daiTeoremi I e II sopra citati (si veda al riguardo il Problema 4.2 che segue).

4.5 Problemi risolti

4.1. Nel circuito di Fig. 4.14, che e percorso da una corrente I di 0.02 Ampere, leresistenze valgono ro = 500 Ohm e r1 = 1000 ± 10% Ohm. La tolleranza con cuisi conosce il valore di r1 suggerisce di considerare quest’ultima come una variabilecasuale distribuita nell’intervallo 900 ≤ r1 ≤ 1100 con legge parabolica. Calcolareil valor medio, la varianza e la densita di probabilita della differenza di potenzialeV (ω) e della conduttanza Γ(ω) = 1/r1 .

Soluzione. La densita di probabilita della resistenza r1 si determina applicando laformula ricavata nel’Esempio 4.4:

fR(r1) =6

2003(r1−900)(1100−r1) =

3400

(r1

100− 9

) (11− r1

100

), r1 ∈ [900, 1100].

La differenza di potenziale e la funzione:

Page 131: dispense di Probabilita' e Statistica

4.5 – Problemi risolti 123

V

r

r

0

1

I

Figura 4.14

V (ω) = g(r1) = I(ro + r1) = 10 + 0.02r1(ω),

anch’essa definita da una trasformazione lineare, la cui densita di probabilita, tenutoconto che

r1 = g−1(V ) = 50(V − 10);dg−1

dV= 50,

si ricava applicando la (4.10):

fV (V ) = fR[r1 = 50(V − 10)] · 50 =332

(V − 28)(32− V )

28 32 V

V

1 11100 900

G

Gf( ) f( )

Figura 4.15

e rappresenta una distribuzione parabolica nell’intervallo 28 ≤ V ≤ 32 Volt. Il suovalor medio e mV = 28 + 4mX = 30 Volt, e la sua varianza vale, per la (4.11):σ2

V = 16σ2X .

La conduttanza e definita dalla trasformazione

Γ(ω) = g[X(ω)] =1

900 + 200x

Page 132: dispense di Probabilita' e Statistica

124 TRASFORMAZIONI DI VARIABILI ALEATORIE

che e invertibile in DX = [0, 1]. La trasformazione inversa e

x = g−1(Γ) =1

200Γ− 9

2;

dg−1(Γ)dΓ

= − 1200Γ2

e applicando la (4.5) conduce alla seguente densita di Γ(ω):

f(Γ) = 6(

1200Γ

− 92

) (1− 1

200Γ+

92

)1

200Γ2=

=3

(200Γ)2

(1Γ− 900

) (1100− 1

Γ

)

che ha come supporto l’intervallo DΓ = [1/1100, 1/900]. Per la non-linearita dellatrasformazione, questa distribuzione non e piu simmetrica in DΓ (v. Fig. 4.15).Infatti il suo valor medio si puo ottenere applicando la (4.9):

mΓ = 6∫ 1

0

x(1− x)900 + 200x

dx =3

100

(5 +

994

log911

)' 0.001002

ed e minore del punto medio dell’intervallo DΓ. In modo analogo si calcola lavarianza di Γ(ω), che risulta:

σ2Γ = EΓ2 −m2

Γ = 6∫ 1

0

x(1− x)(900 + 200x)2

dx−m2Γ =

=6

(200)2

(10 log

119− 2

)−m2

Γ ' 2.0393 · 10−9.

4.2. Lo spazio percorso da un corpo che si muove di moto rettilineo e uniformecon velocita aleatoria V0(ω), a partire da una posizione iniziale pure aleatoria erappresentata da Y0(ω), e definito da

Y (ω; t) = Y0(ω) + V0(ω)t, 0 ≤ t ≤ 1 (4.23)

dove Y0(ω) e V0(ω) sono due variabili casuali indipendenti aventi, rispettivamente,distribuzioni uniforme e parabolica in [0,1]:

f1(y0) = 1, y0 ∈ [0, 1]f2(v0) = 6v0(1− v0), v0 ∈ [0, 1]

e il parametro t ∈ [0, 1] e il tempo (adimensionalizzato). Calcolare, al variare deltempo t, la funzione di densita di Y(ω, t) dato dalla (4.23).

Soluzione. Per calcolare fY (y; t) si puo definire i due vettori aleatori:

Z(ω; t) = Y (ω; t), V0(ω) ∈ DZ(t)X(ω) = Y0(ω), V0(ω) ∈ DX = DZ(t = 0)

Page 133: dispense di Probabilita' e Statistica

4.5 – Problemi risolti 125

DX

t 1

1

0 1+t 2 z = y1

z = v02

0v

0v

D (t)Z

yt

y - 1

t

=

=

Figura 4.16

dove il dominio

DZ(t) = (z1, z2) : z2t ≤ z1 ≤ 1 + z2t; 0 ≤ z2 ≤ 1

e mostrato in Fig. 4.16. Studiamo la trasformazione z = g(x; t) con t parametro,definita da

z1 = g1(x; t) = y0 + v0tz2 = g2(x2) = v0.

La trasformazione inversa e

x1 = y0 = g−11 (z; t) = z1 − z2t

x2 = v0 = g−12 (z) = z2

ed ha determinante jacobiano che vale:

det(A−1) =dg−1

dz=

[1 −t0 1

]= 1.

Quindi la densita di Z(ω; t) e, per la (4.22):

fZ(z; t) = f1(y0 = z1 − z2t)f2(v0 = z2) = 6z2(1− z2)

se z ∈ DZ(t), ed e nulla altrove.

La densita Y (ω; t) si ricava come densita marginale della distribuzione del vettoreZ(ω; t), e si ottiene integrando fZ(z; t) rispetto alla sua componente fittizia z2 = v0:

fY (y; t) = 6∫

DY (t)v0(1− v0)dv0

Page 134: dispense di Probabilita' e Statistica

126 TRASFORMAZIONI DI VARIABILI ALEATORIE

dove il dominio di integrazione, come risulta dalla Fig. 4.16, vale

DY (t) =

[0, y/t], per 0 ≤ y ≤ t[0, 1], per t ≤ y ≤ 1[(y − 1)/t, 1], per 1 ≤ y ≤ 1 + t.

1

1

0 2

t = 0

t = 0.5

t = 1

y

f (y ; t)Y

Figura 4.17 - Densita di probabilita al variare di t ∈ [0, 1]

Effettuando l’integrazione si ricava:

fY (y; t) =

y2(3t− 2y)/t3, per 0 ≤ y ≤ t1, per t ≤ y ≤ 11− (y − 1)2(3t− 2y + 2)/t3, per 1 ≤ y ≤ 1 + t.

La Fig. 4.17 mostra il grafico di tale densita per alcuni valori di t. Nella applicazionemeccanica, da essa si puo ricavare, per esempio, la probabilita che in un istantegenerico del moto il sistema abbia percorso uno spazio non superiore ad un assegnatovalore y.

Page 135: dispense di Probabilita' e Statistica

PROCESSI STOCASTICI

5.1 Definizioni

Si chiama processo stocastico X(ω, t) una famiglia X(ω)t di variabili aleatoriedefinite su uno stesso spazio di probabilita (Ω,B, P ) con t variabile indipendente inun sottoinsieme T ⊂ IR+.

I processi stocastici sono modelli matematici di grandezze aleatorie che evolvono neltempo. In quanto tali, possono essere interpretate in due modi differenti:

1. come un insieme di variabili aleatorie X(ω, t1), . . . X(ω, tn) definite in una suc-cessione di istanti t1, . . . tn ⊂ IR+ prefissati, oppure

2. come un insieme di funzioni del tempo t, dette realizzazioni di X, ciascunadelle quali e originata da un evento casuale.

Una conoscenza completa della natura di un processo stocastico richiede la definizionedelle distribuzioni congiunte di un qualsiasi insieme di variabili casuali X(ω, tk), k =1, . . . , n appartenenti alla famiglia. Se indichiamo con

X1 = X(ω, t1), . . . Xn = X(ω, tn)

le n variabili aleatorie con cui si identifica il processo negli istanti t1, . . . , tn, lastatistica di ordine n del processo e dunque nota se si conosce la sua funzione didistribuzione di ordine n, che per definizione e la funzione di n variabili:

Fn(x1, . . . , xn; t1, . . . , tn) = P [(X1 ≤ x1) ∩ · · · ∩ (Xn ≤ xn)], n = 1, 2, . . . (5.1)

Se esiste la sua derivata mista di ordine n, si chiama densita di probabilita di ordinen del processo la funzione:

fn(x1, . . . , xn; t1, . . . , tn) =∂nFn(x1, . . . , xn; t1, . . . , tn)

∂x1 . . . ∂xn. (5.2)

127

Page 136: dispense di Probabilita' e Statistica

128 PROCESSI STOCASTICI

Ad esempio, la statistica del secondo ordine di un processo stocastico e nota se,fissati due istanti t1, t2, e definita la densita di probabilita congiunta (o la funzionedi distribuzione congiunta) della coppia di variabili aleatorie X1(ω) = X(ω, t1) eX2(ω) = X(ω, t2). Come noto, la conoscenza di f2(x1, x2; t1, t2) permette tra l’altrodi determinare le densita marginali di X1 e X2, i loro valori medi, e il grado dicorrelazione esistente tra gli stati del medesimo processo in due istanti di tempo.

Fissato invece un istante t1 = t, la statistica del primo ordine del processo e definitadalla densita f(x; t) della variabile aleatoria X(ω, t = t1), la quale coincide con ladensita marginale

f(x; t) =∫

f2(x1, x2; t1, t2)dx2 (5.3)

della distribuzione del secondo ordine.

Se ne deduce che la conoscenza della statistica di ordine n del processo implica laconoscenza di tutte le statistiche di ordine inferiore. Tuttavia, e di solito assai arduodisporre della densita di qualsivoglia ordine n di un processo: spesso ci si limitaa studiare la sua statistica del primo e del secondo ordine, nella quale rientrano imomenti del processo che sono qui elencati.

5.1.1 Momenti

Il valore atteso di X(ω, t) e il valore atteso della variabile casuale X(ω) in un asseg-nato istante t:

m(t) = E(X)t =∫

xf1(x, t)dx (5.4)

ed e dunque, in generale, una funzione ordinaria della variabile reale t.

Fissati due istanti t1, t2, il momento congiunto del secondo ordine delle variabilicasuali X1, X2 e chiamato autocorrelazione R(t1, t2) del processo:

R(t1, t2) = E(X1X2) =∫ ∫

x1x2f2(x1, x2; t1, t2)dx1dx2, (5.5)

ed e una funzione degli istanti considerati.

L’autocovarianza C(t1, t2) del processo e la covarianza della coppia X1, X2 che vale:

C(t1, t2) = E[(X1 −m(t1))(X2 −m(T2))] = R(t1, t2)−m(t1)m(t2).

La varianza σ2(t) del processo e l’autocovarianza per t1 = t2 = t:

σ2(t) = C(t, t) = R(t, t)−m2(t) (5.6)

ed e pure essa, in generale, funzione del tempo t.

Page 137: dispense di Probabilita' e Statistica

5.1 – Definizioni 129

5.1.2 Processi indipendenti

Due processi X(ω, t), Y (ω, t) si dicono statisticamente indipendenti se, date le succes-sioni di istanti t1, . . . , tn, t′1, . . . , t′m l’insieme di variabili aleatorie X(ω, tk), k =1, . . . , n e indipendente dall’insieme delle Y (ω, t′h), h = 1, . . . , m ovvero se la lorodensita congiunta di ordine n + m soddisfa:

fn+m(x1, . . . , xn; t1, . . . tn; y1, . . . , ym; t′1, . . . t′m) = fn(x1, . . . , tn)fm(y1 . . . , t′m)

per ogni intero n ed m.

5.1.3 Processi senza memoria

Fissato un istante t = t1 ∈ IR+, le proprieta di X(ω, t1) dipendono in generale daquelle che ha avuto il processo in istanti precedenti, ed influiscono su quelle che avranegli istanti futuri.

Un processo e chiamato ”senza memoria” se la variabile aleatoria X(ω, t1) e statis-ticamente indipendente dalle variabili aleatorie X(ω, th) per ogni h 6= 1 intero.

Cio significa che lo stato del processo nell’istante che si considera e indipendente dalsuo passato e dal suo futuro: la sua densita di probabilita di ordine n vale

fn(x1, . . . , tn) = f1(x1, t1)f1(x2, t2) · · · f1(xn, tn)

ed e quindi nota in base alla sola statistica del primo ordine del processo. Il piuclassico esempio di processo senza memoria e il rumore bianco citato nel paragrafoche segue.

5.1.4 Processi stazionari

a) Stazionarieta in senso stretto

Un processo stocastico e stazionario in senso stretto se le proprieta dei due processiX(ω, t), X(ω, t+ ε) sono invarianti rispetto a una traslazione dei tempi, in modo che

fn(x1, . . . , xn; t1, . . . , tn) = fn(x1, . . . , xn; t1+ε, . . . , tn+ε)

per ogni ε ∈ IR e ogni intero n.

Per questa definizione la stazionarieta in senso stretto implica:

• densita’ del primo ordine indipendente dal tempo:

f1(x, t) = f1(x, t + ε) = f1(x);

Page 138: dispense di Probabilita' e Statistica

130 PROCESSI STOCASTICI

• valore atteso costante rispetto a t:

E(X) =∫

xf1(x)dx = mX ;

• densita del secondo ordine e autocorrelazione che dipendono solo dalla dif-ferenza τ = t2 − t1 tra gli istanti considerati:

R(t1, t2) =∫ ∫

x1x2f2(x1, x2, τ)dx1dx2 = R(τ). (5.6)

b) Stazionarieta in senso lato

Un processo stocastico X(ω, t) e stazionario in senso lato (o debolmente stazionario)se ha momenti tale che

|E(X)| = cost < +∞E(X2) < +∞, R(t1, t2) = R(τ). (5.7)

La stazionarieta debole riguarda dunque solo i momenti del primo e secondo ordinedel processo, e non le corrispondenti densita, come avviene nella definizione in sensostretto: quest’ultima implica la stazionarieta in senso lato ma non viceversa.

5.2 Esempi notevoli

Nel definire il modello matematico di un fenomeno fisico mediante un processo sto-castico, si usa spesso esprimerlo in termini analitici come una funzione ordinaria dit contenente una o piu variabili casuali αi(ω) come parametri:

X(ω, t) = X(αi(ω), t).

In tal caso le statistiche del processo dipendono dalla distribuzione di probabilitacongiunta che si assegna all’insieme delle variabili casuali αi(ω), e si ricavano coni metodi noti descritti dalla teoria della trasformazione di variabili casuali, che orasono da applicare trattando il tempo t come un parametro della trasformazione.

In altre applicazioni si definiscono invece processi stocastici speciali, che sono ilrisultato di una modellizzazione del fenomeno reale basata su opportune ipotesi dinatura probabilistica.

Esempio 5.1

Date le variabili casuali indipendenti a(ω), b(ω), formiamo il processo

X(ω, t) = a + bt.

Page 139: dispense di Probabilita' e Statistica

5.2 – Esempi notevoli 131

Esso e costituito da una famiglia di rette, che sono le realizzazioni del processo, e lasua media nell’istante t e la funzione lineare del tempo che si ricava in termini dellemedie di a(ω), b(ω):

E(X) = E(a) + E(b)t.

Fissati gli istanti t1, t2, l’autocorrelazione del processo vale

R(t1, t2) = E(a + bt1)E(a + bt2) = E(a2) + E(ab)(t1 + t2) + E(b2)t1t2

e la sua autocovarianza e

C(t1, t2) = σ2a + σ2

b t1t1 + Cov(a, b)(t1 + t2).

La varianza del processo al tempo t e percio

σ2(t) = σ2a + σ2

b t2 + 2tCov(a, b)

e poiche a(ω), b(ω) sono indipendenti si riduce a

σ2(t) = σ2a + σ2

b t2.

Si tratta di un processo non stazionario, nemmeno in senso debole.

5.2. Rumore di Rice

Un modello di rumore aleatorio in circuiti elettrici e rappresentato dal processo:

X(ω, t) =n∑

j=1

Aj cos(νjt + Φj)

con Aj , νj , Φj variabili aleatorie note. La statistica di X(ω, t) e completamentedefinita dalle distribuzioni di probabilita congiunte di queste 3n variabili casuali.

Una sua versione molto semplificata puo essere descritta dal processo

X(ω, t) = a cos(νt + Φ(ω)) (5.8)

con fase aleatoria uniformemente distribuita in [0, 2π], ed a, ν costanti reali deter-ministiche. Le realizzazioni di questo processo sono funzioni cosinusoidali del tempo,con eguale ampiezza e frequenza ma con fasi differenti, probabilisticamente definiteda una densita uniforme in [0, 2π]. Si ottiene facilmente:

E(x) = E[a cos(νt + Φ)] =a

∫ 2π

0cos(νt + Φ)dΦ = 0

R(t1, t2) = a2E[cos(νt1 + Φ) cos(νt2 + Φ)] =12a2 cos ν(t2 − t1); σ2

X =a2

2.

Dunque il processo (5.8) e debolmente stazionario.

Page 140: dispense di Probabilita' e Statistica

132 PROCESSI STOCASTICI

5.3. Trasmissione binaria semicasuale

In relazione alla emissione di un segnale in forma binaria equiprobabile ad intervalliregolari di tempo T , definiamo il processo

X(ω, t) = Xn(ω), (n− 1)T ≤ t ≤ nT (5.9)

dove n = . . . ,−1, 0, 1, 2, . . . e le Xn sono variabili casuali statisticamente indipen-denti con eguali densita

f(xn) =12[δ(xn + 1) + δ(xn − 1)].

T Tt t

1 1

- 1 - 1

Y(t)X(t)

A( )w

trasmissione binaria semicasuale rumore binario

Figura 5.1

X(ω, t) e’ un processo debolmente stazionario che si chiama trasmissione binariasemicasuale: le sue realizzazioni assumono casualmente valori ±1 ad intervalli ditempo T ed i valori che assume sono indipendenti da quelli che assume in ogni altrointervallo. Si ricava facilmente:

E(X) = 0

E(X2) =12

∫x2

n[δ(xn + 1) + δ(xn − 1)]dxn = 1

e inoltre si sa che E(XnXm) = 0 per n 6= m perche le Xn sono indipendenti. Quindi:

σ2X = 1

R(t1, t2) =

1 se (n− 1)T ≤ t1, t2 < nT0 altrimenti.

Page 141: dispense di Probabilita' e Statistica

5.2 – Esempi notevoli 133

5.4. Rumore binario

E’ una generalizzazione della trasmissione binaria semicasuale, in cui ciascuna real-izzazione e traslata nel tempo di una quantita aleatoria A(ω) indipendente dalle Xn

e avente densita uniforme nell’intervallo [0, T ]. La sua rappresentazione analitica epercio

Y (ω, t) = X(ω, t)[t−A(ω)] (5.10)

dove X(ω, t) e la trasmissione binaria semicasuale. Una generica traiettoria delprocesso e indicata in Fig. 5.1, insieme con quella del processo semicasuale X(ω, t).

Il valore atteso e la varianza del rumore binario Y (ω, t) sono uguali a quelli di X(ω, t)perche la traslazione rispetto al tempo non modifica i momenti a t prefissato; la suaautocorrelazione e invece diversa se τ = t2 − t1 ≤ T , perche l’appartenenza di t1, t2al medesimo intervallo dipende dai valori che assume A(ω). Si ha in tal caso:

R(t1, t2) = P (A ≤ T − |τ |) =∫ T−|τ |

0dA = 1− |τ |

T= R(τ)

se |τ | ≤ T , mentre R = 0 se |τ | > T . Dunque anche il rumore binario e un processodebolmente stazionario. Per come e stato costruito, esso e il modello probabilisticoche si associa a prove ripetute ed indipendenti di un esperimento casuale, che avven-gono con eguale probabilita di successo o di fallimento, ad uguali intervalli di tempoT.

5.5. Rumore bianco

E’ uno speciale caso limite del rumore binario, che si definisce quando T → 0 eσ2 → ∞ in modo che il prodotto σ2T tende a un valore finito. Per le sue parti-colari proprieta e per la semplicita della sua descrizione in termini matematici, eampiamente usato per approssimare un gran numero di fenomeni fisici aleatori.

5.6. Passeggiate a caso

Consideriamo ancora le successioni di infinite prove ripetute a intervalli uguali ditempo T di un generico esperimento casuale con eguale probabilita di successo odi fallimento. Associamo alla successione una funzione del tempo a gradino chein corrispondenza di ciascuna prova ha un incremento della quantita s se l’esitoe un successo e decresce della quantita −s se e un fallimento. Questa funzione agradino (v. Fig. 5.2) e una realizzazione di un processo stocastico X(ω, t) chiamatopasseggiate a caso.

Se nelle prime n prove si sono avuti k successi, il valore della generica realizzazionedel processo al tempo t = nT e

x(nT ) = ks− (n− k)s = (2k − n)s.

Page 142: dispense di Probabilita' e Statistica

134 PROCESSI STOCASTICI

Per la formula di Bernoulli (2.42), la probabilita dell’evento X(nT ) = (2k − n)svale:

P [X(nT ) = (2k − n)s] =

(n

k

)12n

e il valor medio del processo X(ω, t) per (n− 1)T < t ≤ nT risulta:

E(X) =n∑

k=0

(n

k

)(2k − n)s

2n= 0.

La varianza e uguale al momento del secondo ordine del processo al tempo t, enell’istante t = nT vale:

σ2(t) = s2n∑

k=0

(n

k

)(2k − n)2

2n= ns2 =

ts2

T.

Se n e sufficientemente grande, per il Teorema di asintoticita di Moivre–Laplace(2.46) la probabilita dell’evento X(nT ) = (2k−n)s e approssimata dalla gaussiana:

P [X(nT ) = (2k − n)s] '√

2nπ

exp

[−(2k − n)2

2n

].

s

0

X(t)

T t

Figura 5.2 - Passeggiate a caso

Se infine a t costante effettuiamo un passaggio al limite per s, T → 0, e se s tendea zero come

√T , si ottiene un nuovo processo stocastico chiamato moto browni-

ano o processo di Wiener–Levy, che rappresenta il modello matematico del motoirregolare di particelle libere di muoversi in un mezzo fluido.

Page 143: dispense di Probabilita' e Statistica

5.2 – Esempi notevoli 135

5.7. Processo di Poisson

Consideriamo una scelta casuale di istanti ti in IR+, e definiamo il processo X(ω, t)tale che X(ω, 0) = 0 e la differenza X(ω, t2) − X(ω, t1) sia uguale al numero dipunti ti in [t1, t2]. La famiglia di funzioni cosı definita si chiama processo di Poisson.Ogni sua realizzazione e una funzione a scala con gradino unitario nei punti casualiti, come indicato in Fig. 5.3. Se invece fissiamo l’istante t, allora X(ω, t) e unavariabile aleatoria il cui valore coincide con il numero k di punti nell’intervallo [0, t].Per la legge degli eventi rari (2.51) la probabilita dell’evento E = k punti in [0, t]e approssimata da

Pk,t ' (λt)k

k!e−λt,

per cui X(ω, t) per ogni fissato t e distribuita con legge di Poisson con parametro λt.

1

5

10

X(t)

t ti0

Figura 5.3 - Processo di Poisson

La statistica del primo ordine del processo e quella della distribuzione di Poisson:

mX(t) = λt, σ2X(t) = λt.

Scelti poi due istanti generici t1, t2 > 0, si puo calcolare che

R(t1, t2) = E(X1X2) =

λt2 + λ2t1t2 se t1 ≥ t2λt1 + λ2t1t2 se t1 ≤ t2

e quindiC(t1, t2) = R(t1, t2)−mX(t1)mX(t2) = λ ·min(t1, t2).

Il processo di Poisson non e stazionario; e pero un processo con incrementi stazionariin senso lato. Si definisce incremento di Poisson il processo

Y (ω, t) =X(ω, t + ε)−X(ω, t)

ε(5.11)

Page 144: dispense di Probabilita' e Statistica

136 PROCESSI STOCASTICI

che per ogni t fissato ha valori uguali al rapporto k/ε, dove k e il numero di puntinell’intervallo [t, t + ε]. Il valor medio degli incrementi di Poisson e costante e vale:

E(Y ) =E(X(t + ε))− E(X(t))

ε= λ,

e l’autocorrelazione risulta:

R(t1, t2) =

λ2 se |τ | > ε

λ2 + λε − λ|τ |

ε2se |τ | < ε

dove τ = t2 − t1.

Facendo tendere ε a zero, si ottiene un nuovo processo stocastico debolmente staziona-rio Z(ω, t), che definisce gli impulsi di Poisson:

Z(ω, t) = limε→0

Y (ω, t) =dX(ω, t)

dt=

i

δ(t− ti). (5.13)

Questo processo consiste nella successione di infiniti impulsi unitari negli istanticasuali ti, ed e facile verificare che ha media ed autocorrelazione date da

E(Z) = λR(t1, t2) = λ2 + λδ(t1 − t2) = λ[λ + δ(τ)].

5.3 Processi di Markov

X(ω, t) e chiamato ”processo di Markov” se per ogni n e per t1 < t2 < ... < tn ∈ IR+

si ha:

P [X(ω, tn) ≤ xn|xn−1, tn−1, . . . , x1, t1] = P [X(ω, tn) ≤ xn|xn−1, tn−1].

In tale processo la distribuzione in probabilita all’istante tn e condizionata soltantodalle proprieta statistiche che ha avuto nell’istante immediatamente precedente tn−1,e ha ”perso la memoria” della sua storia prima di tn−1. Ne segue che la densita diprobabilita di ordine n del processo vale:

fn(x1, t1, . . . , xn, tn) = f1(x1, t1)f(x2, t2|x1, t1) · · · f(xn, tn|xn−1, tn−1)

e per la definizione di probabilita condizionata si puo calcolare come:

fn(x1, t1, . . . , xn, tn) =f2(x1, t1; x2, t2) · · · f2(xn, tn; xn−1, tn−1)

f1(x1, t1) . . . f1(xn−1, tn−1).

Page 145: dispense di Probabilita' e Statistica

5.4 – Catene di Markov 137

Quest’ultima formula mostra che le proprieta di un processo di Markov sono notese si conosce la sua statistica fino al secondo ordine, che e definita dalle densitacongiunte delle coppie (xi, xj), i, j = 1, . . . n.

Fissati tre istanti t1 < t2 < t3 (e tralasciando di indicarli tra gli argomenti dellevarie densita, per semplicita di scrittura), si ha in particolare che:

f(x1, x2, x3) =f2(x1, x2)f2(x2, x3)

f1(x2)

e poiche per definizione di probabiita condizionata si ha

f2(x1, x2) = f(x1|x2)f1(x2), f2(x2, x3) = f(x3|x2)f1(x2),

sostituendo si ricava:

f(x1, x2, x3) = f(x1|x2)f(x3|x2)f1(x2).

Se ora interessa valutare la probabilita condizionata:

f(x1, x3|x2) =f(x1, x2, x3)

f1(x2),

quest’ultima per la formula precedente risulta uguale a:

f(x1, x3|x2) = f(x1|x2)f(x3|x2).

Il risultato mostra che le variabili casuali X1, X3, condizionate da X2, sono indipen-denti. Questo significa che sotto la condizione che sia noto lo stato presente X2,il passato del processo markoviano e indipendente dal suo futuro. In questo sensosi puo affermare che l’ipotesi markoviana e l’analogo probabilistico dei problemi aivalori iniziali della Meccanica, che sono descritti da equazioni differenziali la cuisoluzione al tempo t2 > t1 e univocamente determinata se si assegna lo stato inizialex(t1) del sistema dinamico, e tale soluzione non dipende dal valore che essa assumein qualche istante t3 > t2.

5.4 Catene di Markov

Di solito nel processo di Markov il tempo t varia in un insieme continuo T ∈ IR+. Sel’insieme dei tempi e discreto, ossia T ⊆ IN dove IN e l’insieme dei numeri naturali,il processo discreto che ne risulta si chiama catena di Markov. Precisamente, si hala seguente

DEFINIZIONE. Si chiama catena di Markov il processo stocastico tale che:

Page 146: dispense di Probabilita' e Statistica

138 PROCESSI STOCASTICI

• t ∈ T ⊆ IN;

• le variabili casuali Xn assumono tutte valori nello stesso insieme numerabilediscreto E ⊂ IN, chiamato spazio degli stati;

• esistono reali non negativi pij(n) con i, j ∈ E, n ∈ N tali da soddisfare laproprieta di Markov:

pij(n)=P (Xn+1 = j|Xn = i,Xn−1 = in−1, . . . , X1 = i1) = P (Xn+1 = j|Xn = i).

Se pij non dipendono da n, la catena e omogenea.

5.4.1 Matrice di transizione

Se l’insieme E degli stati e finito, i numeri pij sono gli elementi di una matricequadrata P il cui ordine e uguale alla cardinalita di E. Questa matrice si chiamamatrice di transizione ed ha le seguenti proprieta:

• pij ≥ 0;

• la somma degli elementi di ogni sua riga vale 1. Infatti, in conseguenza degliassiomi della probabilita per ogni i si deve avere:

j

pij =∑

j

P (Xn+1 = j|Xn = i) = P (Xn+1 ∈ E|Xn = i) = 1.

La matrice di transizione definisce univocamente gli stati j di Xn+1 qualora sianonoti gli stati i di Xn. Inoltre, la sua conoscenza permette di determinare ancheprobabilita congiunte del tipo:

P(m)ij = P (Xn+m = j|Xn = i) = p

(m)ij ,

cioe la probabilita che dopo m passi successivi all’istante t = n (nel quale la catena sitrova nello stato i) essa si trovi nello stato j. Infatti, se definiamo con Pm = [p(m)

ij ] lamatrice di transizione dopo m passi successivi all’n–esimo, sfruttando la definizionedi p

(m)ij si ricava che essa e il risultato del prodotto matriciale

Pm = Pm−1P

da cui ponendo m = 2, 3, . . . si ottiene: P2 = PP = P2, P3 = P2P = P3, . . . e perricorrenza:

Pm = Pm.

Page 147: dispense di Probabilita' e Statistica

5.4 – Catene di Markov 139

Poiche la variabile aleatoria Xn assume valori in E, la sua legge probabilistica e de-scritta da un vettore riga con dimensioni uguali alla cardinalita di E, che indichiamocon

w = (w1, w2, . . . , wk, . . .); wk = P (Xn = k)

e tale da soddisfare per ogni valore intero dell’indice k:

wk ≥ 0;∑

k

wk = 1

in modo che w sia una densita discreta su E. Indichiamo in particolare con

v = (v1, v2, . . . , vh, . . .), vh = P (X0 = h)

lo stato probabilistico della catena nell’istante iniziale t0. Dopo n passi della catena,la legge degli stati e definita dal vettore w avente le componenti:

wk =∑

h

P (Xn = k|X0 = h)P (X0 = h) =∑

h

p(n)hk vh.

Pertanto le leggi dei due stati (quello iniziale e quello della catena dopo n passi)sono legate dalla relazione:

w = vPn.

Se ne conclude che le leggi congiunte degli stati n = 1, 2, . . . sono determinate uni-vocamente dalla matrice di transizione P e dalla legge iniziale v. Infatti, si puodimostrare che data una matrice di transizione P e una legge su E, esiste sempreuna catena di Markov associata a P e con legge iniziale v.

Esempio 5.8

1

2

3

0.8

0.4

0.30.3

0.5

0.2

0.5

Figura 5.4

Consideriamo tre nodi (i, j = 1, 2, 3) di un generico grafo i quali – per esempioa seguito di indagini statistiche effettuate su determinati campioni rappresentatividegli stati di un sistema – risultano collegati fra loro con le probabilita di transizioneindicate in Fig. 54.

Page 148: dispense di Probabilita' e Statistica

140 PROCESSI STOCASTICI

Supponiamo di dover studiare una successione di transizioni tra questi stati, cheavviene in successivi istanti t1, t2, . . . tn, . . . sempre con le medesime probabilita ditransizione, e a partire dall’istante t0 nel quale lo stato del sistema si trova nelnodo 2 con probabilita 1. Si ha un problema di questo tipo, per esempio, quandosi studia il flusso di abitanti tra centri urbani limitrofi, oppure le variazioni dellaconcentrazione di un elemento inquinante in ambienti collegati, ecc. Il suo modellomatematico naturale e una catena di Markov omogenea definita sullo spazio deglistati E = (1, 2, 3) in cui le variabili casuali Xn = X(tn) possono assumere i valori diE con probabilita da determinare. E’ nota la legge iniziale perche per t = t0 si haP (X0 = 1) = 0, P (X0 = 2) = 1, P (X0 = 3) = 0, e quindi

v = (v1, v2, v3) = (0, 1, 0).

Se pij e la probabilita di transizione dallo stato i allo stato j, essa si trova sullai–esima riga e j–esima colonna della matrice di transizione della catena, che vale

P =

0 0.8 0.2

0.4 0.3 0.3

0.5 0.5 0

.

Se vogliamo conoscere la legge w(1) dello stato X1 = X(t1) basta applicare a v questamatrice di transizione. Si scrive allora

(w(1)1 , w

(1)2 , w

(1)3 ) = (0, 1, 0)P

e si ottiene:w(1) = (0.4, 0.3, 0.3)

ossia: dopo un passo della catena il sistema si trova nello stato 1 con probabilita 0.4e negli stati 2 o 3 con probabilita 0.3. Si noti che il risultato e conforme agli assiomidella probabilita totale, perche in t = t1 la somma delle probabilita degli stati deveessere uguale all’unita.

Se ora vogliamo conoscere la legge dello stato X2 = X(t2) si puo applicare la matricedi transizione al vettore riga w(1) appena trovato; ma e anche possibile calcolaresubito w(2) a partire dallo stato iniziale, scrivendo:

(w(2)1 , w

(2)2 , w

(2)3 ) = (0, 1, 0)P2

dove

P2 = PP =

0.42 0.34 0.24

0.27 0.56 0.17

0.2 0.55 0.25

.

Page 149: dispense di Probabilita' e Statistica

5.4 – Catene di Markov 141

Si ricava in ogni caso:w(2) = (0.27, 0.56, 0.17)

che definisce univocamente la legge della catena dopo due passi, e cosı si puo pro-seguire per n = 3, 4, . . . . /

5.4.2 Classificazione degli stati

Nella teoria delle catene di Markov, dati due stati i, j ∈ E si dice che i comunica

con j se esiste un intero n > 0 tale che p(n)ij > 0, e si scrive in tal caso: i → j.

Cio significa che nella catena e possibile passare dallo stato i allo stato j in n passi.Si badi che i → j non implica necessariamente l’inverso: j → i; si puo tutt’al piuaffermare che:

i → j, j → h ⇒ i → h

perche se esistono n,m tali che p(n)ij > 0, p

(m)jh > 0, allora

p(n+m)ih =

k

p(n)ik p

(m)kh ≥ p

(n)ij p

(m)jh > 0

e quindi i comunica con h (attraverso j).

• Due stati (i, j) comunicano se esistono due interi n,m (anche diversi) tali chep(n)ij > 0 e p

(m)ji > 0, ovvero se e possibile passare da i a j in n passi e la j ad i in m

passi.

• Un sottoinsieme C ⊂ E e una classe chiusa se gli stati di C non comunicano congli stati appartenenti all’insieme complementare di C in E. Se Xk ∈ C, allora perqualsiasi n ≥ k si avra Xn ∈ C, e pertanto se la catena raggiunge una classe chiusavi restera per sempre.

• Una classe chiusa C e irriducibile se e solo se tutte le coppie dei suoi staticomunicano fra loro. Se l’unica classe irriducibile e E, allora la stessa catena diMarkov si dice irriducibile, perche tutti i suoi stati comunicano.

• Se invece uno stato costituisce da solo una classe irriducibile, questo stato sichiama assorbente.

• Se esiste un intero m > 0 tale che p(m)ij > 0 per ogni coppia (i, j), la matrice di

transizione P si dice regolare e tale e la catena di Markov associata a tale matriceregolare. Una catena regolare e irriducibile, ma non vale sempre l’inverso: esistonocatene irriducibili che non sono regolari. Un criterio sufficiente per la regolarita dellacatena e il seguente:

• Se la catena e irriducibile e inoltre esiste un h ∈ E tale che phh > 0, allora lacatena e regolare.

Page 150: dispense di Probabilita' e Statistica

142 PROCESSI STOCASTICI

• Stati transitori e ricorrenti. Indichiamo con τj(ω) = min[n : Xn(ω) = j] lavariabile aleatoria che definisce il primo istante in cui la catena di Markov visita lostato j. Il numero ρij = P (τj < +∞|Xn = i) e la probabilita che la catena visitiprima o poi lo stato j partendo dallo stato i. Uno stato si dice transitorio se ρii < 1,vale a dire se con probabilita maggiore di zero la catena che parte dallo stato i nonvi ritorna piu. Si dice ricorrente (o anche persistente) se ρii = 1, ovvero prima o poivi ritorna con probabilita 1.

• In una catena irriducibile tutti gli stati sono ricorrenti. Se l’insieme E degli statie finito, uno stato i e transitorio se e solo se esiste uno stato j tale che i → j ma jnon comunica con i.

Nella catena dell’Esempio 5.8 (e illustrata dal grafo di Fig. 5.4) tutti gli stati co-municano, perche P2 ha elementi che sono tutti > 0. Quindi la catena e irriducibilee non ci sono stati assorbenti. Inoltre, poiche nella matrice di transizione esiste unh = 2 tale che p22 > 0, e soddisfatta la condizione sufficiente per affermare che lacatena e anche regolare. Tutti gli stati sono ricorrenti perche prima o poi la catenaritorna in ciascuno di essi; non esistono stati transitori.

Esempio 5.9

Consideriamo il grafo di Fig. 5.5 nel quale cinque nodi, numerati progressivamente,sono tra loro variamente collegati e supponiamo che il passaggio tra i nodi avvenganel verso indicato e con le probabilita indicate.

1 2

3

4

5

0.5

0.5

0.5

10.25

1 0.25

1

Figura 5.5

A questo grafo si puo associare una catena di Markov costituita da cinque stati,identificati dal vettore E = 1, 2, 3, 4, 5 con matrice di transizione

Page 151: dispense di Probabilita' e Statistica

5.4 – Catene di Markov 143

P =

1/2 0 0 1/2 01/2 0 1/4 0 1/40 0 1 0 01 0 0 0 00 1 0 0 0

i cui elementi pij coincidono con le probabilita di transizione assegnate in figura. Sinoti anzitutto che la somma degli elementi su ogni riga vale 1 (probabilita dell’eventocerto). Inoltre:

• Poiche p3,3 = 1, una volta che la catena entra nello stato 3 non vi esce piu. Lostato 3 e assorbente e quindi ricorrente.

• Gli stati 1 e 4 comunicano tra loro ma non con gli altri stati. La classe 1, 4e chiusa e irriducibile.

• Gli stati 2 e 5 sono transitori poiche la catena che parte da uno di essi, conprobabilita maggiore di zero non vi ritornera piu andando a finire o nella classeirriducibile 1, 4 o nello stato assorbente.

In conclusione la catena e l’unione di due classi irriducibili I1 = 3, I2 = 1, 4 edi un insieme T = 2, 5 di stati transitori:

E = I1 ∪ I2 ∪ T.

5.4.3 Probabilita invarianti

Supponiamo che l’insieme E degli stati sia finito, con cardinalita N . Una probabilitav = (v1, v2, . . . , vN ) si dice invariante o stazionaria se

v = vP , (5.12)

ovvero se la transizione da uno stato con legge v riproduce uno stato con la medesimalegge. Se gli stati iniziali di X0 hanno una legge stazionaria, allora Xn ha legge

w = vPn = vPPn−1 = vPn−1 = . . . = v,

per cui se la legge iniziale e stazionaria, tutte le Xn hanno la stessa legge.

Si puo dimostrare (Teorema di Markov–Kakutani) che una matrice di transizione suun insieme finito di stati ha sempre almeno una probabilita invariante. Per la suaunicita e pero necessario che la matrice di transizione sia anche regolare nel sensodefinito nel paragrafo precedente. Vale infatti a tale proposito il

Page 152: dispense di Probabilita' e Statistica

144 PROCESSI STOCASTICI

TEOREMA DI MARKOV. Se P e una matrice di transizione regolare si ha

limn→∞ p

(n)ij = πj

dove π = (π1, . . . , πN ) e l’unica probabilita invariante di P.

Una importante conseguenza del Teorema di Markov e la seguente. Se v e la legge in-iziale degli stati della catena, sappiamo che la legge di Xn e w = vPn. La probabilitache Xn assuma il valore j si puo scrivere

P (Xn = j) =∑

i∈E

vip(n)ij

che per n →∞ tende a

limn→∞P (Xn = j) =

i∈E

viπj = πj .

Questo mostra che qualunque sia la legge iniziale degli stati della catena, la legge diXn converge alla distribuzione invariante π.

Per la definizione espressa con la (5.13), questa distribuzione invariante soddisfal’equazione matriciale:

π[P− I] = 0

dove I e la matrice identica. Perche essa abbia soluzioni non banali occorre chedet[P− I] = 0, ovvero che λ = 1 sia un autovalore di P. Dunque π e l’autovettoreriga associato all’autovalore unitario della matrice regolare di transizione, e le suecomponenti πj si possono ricavare risolvendo il seguente sistema lineare di N equazioni:

j = 1, . . . , N : πj =N∑

i=1

pijπi (5.13)

in modo che siano soddisfatte le condizioni

πj ≥ 0;N∑

j=1

πj = 1 (5.14′)

stabilite dagli assiomi della probabilita.

La catena dell’Esempio 5.8 e regolare: quindi per il Teorema di Markov i suoi staticonvergono ad un’unica probabilita invariante che si puo determinare applicando le(5.13) le quali richiedono unicamente la conoscenza della matrice di transizione. Siha cosı il sistema lineare:

π1 = 0.4π2 + 0.5π3

Page 153: dispense di Probabilita' e Statistica

5.4 – Catene di Markov 145

π2 = 0.8π1 + 0.3π2 + 0.5π3

π3 = 0.2π1 + 0.3π2

il quale, tenuto conto della condizione (5.14’), ha questa unica soluzione:

π = (0.30054, 0.4918, 0.20766). (5.14)

Si puo dunque affermare che la catena, con il trascorrere del tempo (ovvero in unasuccessione di infinite transizioni che avvengono con le probabilita indicate) cadrain uno dei tre stati rispettivamente con le probabilita invarianti date dalla (ref5e15).

Esempio 5.10

Nel grafo di Fig. 5.6 sia E = 1, 2, 3, 4, 5 l’insieme dei suoi nodi. Assumiamo che dalnodo i = 1, 2, . . . , 5 avvengano transizioni casuali ad un nodo adiacente, con egualeprobabilita di passaggio a tutti i nodi contigui. Se indichiamo con ki il numero dei

1 2

5

34

Figura 5.6

nodi adiacenti all’i–esimo, con questa ipotesi si definisce su E una catena di Markovcon le seguenti probabilita di transizione:

pij =

1/ki se j e adiacente a i0 altrimenti.

Pertanto la matrice di transizione della catena vale

P =

0 1/3 0 1/3 1/31/3 0 1/3 0 1/30 1/3 0 1/3 1/3

1/3 0 1/3 0 1/31/4 1/4 1/4 1/4 0

.

Questa e una matrice regolare: infatti, qualunque sia lo stato iniziale della catena,dopo un passo il processo si puo trovare con probabilita non nulla in ciascuno deglialtri stati. Cio ci assicura che P2 e composta da elementi tutti positivi, e soddisfala definizione di regolarita con m = 2. Per il Teorema di Markov esiste dunque unaunica probabilita invariante π = π1, . . . , π5 per gli stati della catena. Questa sidetermina cercando la soluzione del sistema (5.13) che nel nostro caso si scrive:

π1 =13(π2 + π4) +

14π5

Page 154: dispense di Probabilita' e Statistica

146 PROCESSI STOCASTICI

π2 =13(π1 + π3) +

14π5

π3 =13(π2 + π4) +

14π5

π4 =13(π1 + π3) +

14π5

π5 =13(π1 + π2 + π3 + π4).

La sua soluzione soddisfacente la (5.14’) e:

π =

316

,316

,316

,316

,14

.

Qualunque sia la legge iniziale degli stati della catena, per n → ∞ essa tende allalegge π ora calcolata. Ad esempio, se supponiamo di partire dal centro del grafo,assumeremo la legge iniziale v = 0, 0, 0, 0, 1. Dopo un passo gli stati della catenahanno legge:

w(1) = vP =

14,14,14,14, 0

;

dopo due passi:

w(2) = w(1)P =

16,16,16,16,13

e al crescere del numero n di passi le componenti di w(n) tendono a πj , j = 1, 2, . . . , 5.

Page 155: dispense di Probabilita' e Statistica

STATISTICA DESCRITTIVA

6.1 Introduzione

Una valutazione approssimata della misura di probabilita da assegnare a un eventocasuale si puo effettuare in modo empirico se, sulla base della definizione frequen-tista di probabilita gia accennata nella Introduzione del Capitolo I, si determinala frequenza degli esiti favorevoli di un esperimento casuale ripetuto n volte. Sel’esperimento ripetuto consiste nella rilevazione di certe caratteristiche di una popo-lazione (o universo), ovvero di un generico insieme di N oggetti o individui (conN che puo anche essere infinito), il risultato di n prove e una serie di dati, la cuianalisi porta a determinare una legge di probabilita empirica per la caratteristicadella popolazione che vogliamo studiare.

E’ bene precisare subito che le serie di dati da esaminare statisticamente sono quelleche si deducono dalla osservazione di un campione della popolazione, ossia di un nu-mero n limitato (e possibilmente piccolo) dei suoi N elementi. Per ottenere risultatiattendibili sulle caratteristiche dell’intera popolazione, occorre percio che i cam-pioni siano adeguatamente scelti in modo da essere effettivamente rappresentatividell’universo dal quale sono stati estratti. In secondo luogo, occorre svilupparei metodi che attraverso l’analisi dei campioni consentano di stimare in modo at-tendibile le caratteristiche o parametri della popolazione che si intende esaminare.Il campionamento e i metodi di stima dei parametri sono oggetto della Statisticainferenziale, di cui ci occuperemo nei Capitoli che seguono. In questo Capitolo cilimiteremo, in via preliminare, ad esporre le tecniche in uso per l’organizzazionedegli n dati raccolti, e per la rappresentazione delle probabilita empiriche che daessi si deducono.

Le n osservazioni effettuate possono avere come obiettivo la definizione di caratteriqualitativi della popolazione, consistenti in certe caratteristiche di natura non nu-merica (come ad esempio il colore, il grado di istruzione, l’attivita professionale, lapreferenza per un candidato,...) oppure di caratteri quantitativi (ad es. il peso, lalunghezza, il reddito,...) che si riferiscono invece a qualsiasi grandezza misurabile.A loro volta, i caratteri quantitativi possono essere discreti se assumono solo un

147

Page 156: dispense di Probabilita' e Statistica

148 STATISTICA DESCRITTIVA

numero limitato di valori, oppure continui con valori in un assegnato intervallo diIR.

Nei riguardi dei possibili risultati dell’esame di un carattere qualitativo, che sonochiamati modalita, osserviamo che in certi casi essi sono comunque suscettibili di unordinamento (come ad esempio il grado di istruzione sopra citato), mentre spessonon hanno alcun ordinamento rispetto alle altre modalita (il colore, il sesso,...). Inentrambi i casi, e sempre possibile associare a ciascuna modalita un numero reale,in modo che la serie di dati risultante dalle osservazioni sia ancora riconducibile adun insieme di numeri reali, definito su un sottoinsieme (discreto) di IR.

Nel seguito illustreremo le tecniche che si utilizzano per descrivere serie di datirelativi a tutti quei caratteri di una popolazione che siano comunque rappresentabilicon punti discreti dell’asse reale, oppure appartenenti ad uno o piu intervalli di IR.

6.2 Distribuzioni di frequenze

Consideriamo dunque una serie di n dati numerici x1, x2, . . . , xn ricavati da al-trettante osservazioni fatte sugli elementi di una popolazione, e relativi ad un suocarattere quantitativo X continuo, oppure discreto ma con un numero elevato dimodalita. Questi dati si chiamano determinazioni di X oppure realizzazioni o valoriempirici. Indicato con ∆ ⊆ IR l’insieme delle modalita del carattere, definiamoneuna partizione ∆i, i = 1, . . . , m in m classi tra loro disgiunte, tale che la lorounione coincida con ∆, e con intervalli ∆i aperti a destra:

∆i = [ai, bi), ∆ =⋃

i

∆i, ∆i ∩∆j = ®, i 6= j = 1, 2, .., m.

Ad ogni classe ∆i, avente ai e bi come confini inferiore e superiore, si associa poi lasua ampiezza bi − ai (non necessariamente uguale per ogni indice i) e il suo valorecentrale xi che e la semisomma dei suoi confini.

La scelta delle classi ∆i e arbitraria, ma deve essere fatta in modo da ottenere unarappresentazione significativa dei dati raccolti sul carattere da studiare: e preferibileche il loro numero sia elevato, ma nello stesso tempo occorre evitare di definireintervalli parziali che contengano pochi dati della serie. Di regola, e bene che i datiin ciascuna classe siano maggiori o uguali a 5, e si sceglie un numero di classi chenon si scosti troppo dalla parte intera di m′ = 1 + (10/3) log10 n.

Se la serie si riferisce a un carattere discreto con modalita appartenenti all’insiemeIN dei numeri naturali, si puo assumere queste modalita come valori centrali dialtrettante classi di ampiezza uguale e unitaria.

Poiche per definizione ogni dato raccolto appartiene ad una ed una sola classe ∆i

della partizione, si puo procedere al calcolo delle seguenti quantita:

Page 157: dispense di Probabilita' e Statistica

6.2 – Distribuzioni di frequenze 149

• la frequenza assoluta ni di ciascuna classe (a volte chiamata anche “incidenza”)che e il numero di elementi della serie che appartengono alla classe ∆i. Si notiche si avra: n1 + n2 + . . . + nm = n;

• la frequenza relativa fi = ni/n di ciascuna classe, detta anche probabilitaempirica, e tale che f1 + f2 + . . . + fm = 1.

• la frequenza cumulata Ni, somma delle prime i frequenze assolute:

Ni = n1 + n2 + .. + ni =i∑

j=1

nj ;

• la frequenza cumulata relativa Fi, somma delle prime i probabilita empiriche:

Fi = f1 + f2 + . . . + fi =Ni

n=

1n

i∑

j=1

nj .

Con i dati raccolti si puo costruire un istogramma che rappresenta la distribuzionedelle frequenze per ciascuna classe del campione. Questa si ottiene riportando sulleascisse le varie classi ∆i, e sulle ordinate i valori della funzione costante a tratti:

ϕn(x) =ni

∆i, x ∈ ∆i, i = 1, ..,m

che misura la frequenza assoluta per unita di ampiezza della classe ∆i. Per semplicitadi scrittura, in questa formula e in quelle che seguono indichiamo con il simbolo ∆i

sia la i-esima classe, sia la misura della sua ampiezza bi − ai. In tal modo ciascunrettangolo dell’istogramma ha un’area proporzionale alla frequenza assoluta ni, e lasua area totale e proporzionale alla numerosita n della serie di dati.

In modo analogo si puo costruire l’istogramma delle frequenze relative, chiamato an-che distribuzione delle probabilita empiriche. Esso si ottiene riportando la funzionecostante a tratti:

fn(x) =ni

n∆i≡ fi

∆i, x ∈ ∆i, i = 1, .., m

e la sua area complessiva e uguale ad 1 (ovvero alla probabilita dell’evento certo).Una distribuzione di frequenze relative, riguardante il campione esaminato nell’Esempio6.1 che segue, e mostrata in Fig. 6.1. Al crescere della numerosita n del campione eper intervalli parziali ∆i sufficientemente piccoli, la funzione fn(x) sara una buonaapprossimazione della densita di probabilita fX(x) di quel particolare carattere Xdella popolazione da cui e stato estratto il campione. Se la popolazione e compostada infiniti elementi, nel passaggio al limite si ha:

limn→∞

ni

n≡ lim

n→∞ fi = IP(X ∈ ∆i) =∫

∆i

fX(x)dx.

Agli istogrammi delle frequenze si possono associare:

Page 158: dispense di Probabilita' e Statistica

150 STATISTICA DESCRITTIVA

• il poligono delle frequenze relative, che unisce le ordinate fn(xi) calcolate incorrispondenza dei valori centrali xi delle singole classi (v. Fig. 6.1). Se sieffettua il doppio passaggio al limite di fn(xi) per n → ∞ e ∆i → 0, ∀ i,il poligono delle frequenze relative tende al grafico della densita fX(x) delcarattere X dell’intera popolazione;

• il grafico delle frequenze cumulate Ni e delle frequenze cumulate relative Fi.Un esempio di quest’ultimo e mostrato in Fig. 6.2. Al crescere di n e per ∆i suf-ficientemente piccoli, esso approssima il grafico della funzione di distribuzionecumulata FX(x) della variabile casuale X(ω) che rappresenta il carattere dellapopolazione oggetto di studio.

• Alla distribuzione delle frequenze cumulate si associa spesso un grafico chiam-ato ogiva, il quale e la spezzata che unisce i punti (sup∆i, Ni) di ogni classe, apartire dal punto (a1, 0) coincidente con l’estremo inferiore della prima classe.Con lo stesso criterio, si costruisce anche l’ogiva percentuale che unisce i punti(sup ∆i, Fi) nella distribuzione delle frequenze cumulate relative. L’ogiva per-centuale (v. Fig. 6.2) fornisce una immediata valutazione approssimata (perdifetto) della percentuale di elementi del campione che hanno un valore minoreo uguale a una quantita prefissata.

6.3 Indici di tendenza centrale e di dispersione

6.3.1 Medie, moda, mediana, quantili

Cosı come nel calcolo delle probabilita si usano i momenti per individuare alcuneproprieta rappresentative della distribuzione probabilistica di una variabile aleatoria,nella Statistica descrittiva si definiscono i seguenti parametri di posizione per ledistribuzioni di frequenze.

• La media pesata

x =1n

m∑

i=1

nixi (6.1)

dove xi e il valore centrale delle classi. Se la serie di dati non e raggruppata inclassi, in modo che m ≡ n e ni = 1 per ogni i, allora x e la media aritmetica,che in generale non e uguale alla media pesata.

• La media spuntata xt (trimmed mean), che e la media dei dati calcolata con-siderando solo il 90% (o qualche altra percentuale) dei dati centrali. Essa sidetermina ordinando anzitutto la serie dei dati secondo la sequenza crescente:

x1 ≤ x2 ≤ x3 ≤ . . . ≤ xn (6.2)

Page 159: dispense di Probabilita' e Statistica

6.3 – Indici di tendenza centrale e di dispersione 151

Si eliminano il primo 5% e l’ultimo 5% dei dati della serie cosı ordinata, e sieffettua la media (6.1) dei rimanenti.

• La moda (Mo), che e il valore centrale della classe con la frequenza piu el-evata. Se esiste piu di una classe con un valore massimo delle frequenze, ladistribuzione e detta multimodale e questo parametro perde il suo significatodi indice di posizione centrale.

• La mediana x, che si puo definire come il valore di x che divide in parti ugualila superficie coperta dall’istogramma delle frequenze relative. Se i dati xi sonon determinazioni del carattere X(ω), la mediana e tale che

IP(X ≤ x) = IP(X > x) = 1/2.

Per calcolare la mediana bisogna fare riferimento alla serie di dati ordinata comenella (6.2), e si determina la classe ∆k = [ak, bk) con indice k = 1, 2, . . . , m allaquale appartiene l’(n/2)-esimo dato nella serie cosı ordinata, se n e pari, oppurel’(n + 1)/2-esimo dato della serie, se n e dispari.

Se nk, fk sono la frequenza assoluta e relativa di questa classe e Nk−1, Fk−1 sono lefrequenze cumulate della classe che la precede, allora per la definizione di medianadeve essere:

12

=Nk−1

n+

∫ x

ak

nk

n∆kdx =

Nk−1

n+

nk

n∆k(x− ak)

per cui il valore delle mediana risulta:

x = ak +∆k

nk

(n

2−Nk−1

)= ak +

∆k

fk

(12− Fk−1

). (6.3)

Quando la serie di dati non e raggruppata in classi, allora si procede some segue.

− se n e dispari, la mediana x coincide con il dato che occupa la (n + 1)/2-esimaposizione nella serie ordinata;

− se n e pari, la mediana e la media aritmetica tra i due dati della serie ordinatache occupano la (n/2)-esima posizione e quella successiva.

Per distribuzioni unimodali (in cui l’istogramma delle frequenze ha un solo massimo)e simmetriche, i quattro parametri di posizione ora definiti coincidono, ma in generalecio non avviene.

• Quantile. In modo analogo alla mediana, si definiscono in Statistica altri indicidi posizione chiamati quantili o frattili, i quali suddividono l’asse reale (sulquale si riportano le modalita del carattere) in due intervalli con probabilita

Page 160: dispense di Probabilita' e Statistica

152 STATISTICA DESCRITTIVA

assegnata. Precisamente, dato il reale q ∈ [0, 1], si chiama quantile q-esimo delcarattere X(ω) il valore xq ∈ IR tale che

IP(X ≤ xq) = FX(xq) = q

ovvero: e il valore massimo delle modalita per cui la frequenza cumulata rela-tiva non supera il valore q.

Se la funzione di distribuzione cumulata FX(x) di X(ω) e continua e invertibile,allora si deduce subito che xq = F−1

X (q). Se espressi in percentuale, i quantilivengono chiamati percentili, e inoltre in casi particolari assumono anche nomi affini.Ad esempio: il decimo quantile x0,1 e chiamato primo decile; il quantile x0,25 e ilprimo quartile; il quinto decile x0,5 non e altro che la mediana x, e cosı via.

Quando i dati della serie ordinata sono raggruppati in classi, il suo quantile di ordineq si determina come per la mediana. Precisamente, indicata con ∆k la classe cuiappartiene l’(n · q)-esimo dato, se n e pari, oppure l’(n + 1) · q-esimo dato, se n edispari, allora ripetendo il calcolo gia fatto per la mediana risulta:

xq = ak +∆k

nk(nq −Nk−1) = ak +

∆k

fk(q − Fk−1) (6.3′)

che si riduce alla (6.3) per q = 0.5.

Quando invece i dati non sono raggruppati in classi, il suo quantile di ordine q sidefinisce come quel dato che e preceduto da (n · q) dati della serie ordinata. Quindisi trova nella (n + 1) · q-esima posizione della sequenza x1 < x2 < . . . < xk < . . . xn,e si calcola come segue.

- se (n + 1)q e un numero intero, allora xq coincide con l’(n + 1)q-esimo dato xk

con k = (n + 1)q;

- se (n + 1)q non e intero ed e compreso tra gli interi k e k + 1, si assume comequantile xq la media aritmetica tra i dati xk e xk+1 della serie ordinata.

• Media mobile. Si usa di frequente per analizzare le serie temporali che si ot-tengono nel rilevamento di dati su fenomeni caratterizzati da una qualche pe-riodicita (settimanale, mensile o stagionale, come ad esempio il traffico urbanoo aeroportuale, la vendita di quotidiani,...) per evitare che le fluttuazioni peri-odiche dei dati raccolti impediscano di mettere in evidenza le tendenze a medioe lungo termine che interessa rilevare. Data la serie temporale x1, x2, . . . , xn,la sua media mobile xt+h su ogni sequenza di k dati consecutivi e definita da

xM (t + h) =k∑

j=1

pj xt+j , con t = 0, 1, 2, . . . , n− k ;∑

j

pj = 1 6.3”

Page 161: dispense di Probabilita' e Statistica

6.3 – Indici di tendenza centrale e di dispersione 153

1 7 14 21 28

5

10

15

serie temporale

media

mobile

Figura 6.0

dove: k indica la periodicita delle rilevazioni; h (compreso tra 1 e k) e un indiceche determina la collocazione delle medie mobili all’interno dell’intervallo di kdati della serie (di solito: h = 1; h = (k + 1)/2 se k e dispari; oppure h = k);e infine pj sono pesi che di solito si scelgono costanti (pj = 1/k,∀j) ma chepossono anche essere scelti arbitrariamente per rappresentare nel modo piuadeguato il particolare fenomeno rilevato con la serie statistica.

Ad esempio, si abbia la serie temporale raccolta in quattro settimane di osservazionigiornaliere xi che e riportata nella seconda colonna della Tabella che segue.

1 4 15 8 11 8,28

2 5 16 5 12 7,71

3 3 17 2 13 7,43

4 6 0 6,43 18 7 14 7,86

5 8 1 7,00 19 8 15 7,51

6 12 2 7,28 20 11 16 7,86

7 10 3 7,71 21 14 17 8,86

8 5 4 8,14 22 8 18 9,57

9 7 5 8,71 23 5 19 10,71

10 6 6 8,86 24 9 20 11,14

11 9 7 9,00 25 12 21 11,00

12 12 8 9,43 26 16

13 13 9 9,14 27 14

14 11 10 8,57 28 13

media

mobilei x ti

media

mobilei x ti

La media mobile settimanale (k = 7) dei dati, calcolata in modo che ogni valoresia collocato al centro dell’intervallo di dati di riferimento (h = (k + 1)/2 = 4), eassumendo pesi costanti pj = 1/7, ha il valore indicato nella quarta colonna e il suografico e mostrato in Figura 6.0.

Page 162: dispense di Probabilita' e Statistica

154 STATISTICA DESCRITTIVA

6.3.2 Indici di dispersione

Quando i dati sono raggruppati in classi, l’indice di dispersione centrale della distri-buzione di frequenze e la varianza:

σ2 =1n

m∑

i=1

ni(xi − x)2 (6.4)

ovvero la somma dei quadrati degli scarti xi − x tra ogni valore centrale e la mediapesata della distribuzione. La sua radice quadrata positiva σ e lo scarto quadraticomedio o deviazione standard della distribuzione.

Si chiama inoltre coefficiente di variazione il numero puro Cv = σ/x, rapporto trala deviazione standard e la media dei dati.

Se gli n dati xi non sono raggruppati in classi, la loro varianza e diversa dalla (6.4),e vale:

σ2 =1n

n∑

i=1

(xi − x)2. (6.4′)

Una interessante proprieta di quest’ultima varianza (6.4’) e la seguente. Supponiamoche i dati osservati si riferiscano a un miscuglio di m gruppi Ai, i = 1, . . . ,m (comecaso molto speciale, questo miscuglio puo anche identificarsi con l’insieme delle classi∆i prima definite). Se ogni gruppo contiene ni dati xri con ri = 1, . . . , ni, la mediaaritmetica e la varianza dei dati appartenenti a ciascun gruppo sono rispettivamente:

xAi =1ni

ni∑

ri=1

xri , σ2i =

1fi

fi∑

ri=1

(xri − xAi)2. (6.4”)

Il parametro:

σ2W =

1n

m∑

i=1

niσ2i

e la media pesata delle varianze calcolate all’interno (“within”) dei singoli gruppi,e si avvicina alla varianza (6.4’) se tutti i gruppi riproducono in modo omogeneo ladispersione che caratterizza gli n dati osservati. Il parametro:

σ2B =

1n

m∑

i=1

ni(xAi − x)2

e la varianza delle singole medie rispetto alla media aritmetica, ed e un indice dellaeterogeneita tra (“between”) i vari gruppi. Con alcuni calcoli si puo dimostrare chela varianza (6.4’) si puo scomporre nella somma delle due precedenti:

σ2 = σ2W + σ2

B,

Page 163: dispense di Probabilita' e Statistica

6.3 – Indici di tendenza centrale e di dispersione 155

per cui si puo sinteticamente esprimere come la somma tra la media delle varianzee la varianza delle medie. Il confronto tra i valori di σ2

W e σ2B puo essere utile per

effettuare una scelta corretta di un campione della popolazione, secondo le procedureche verranno illustrate nel prossimo Capitolo.

Il momento centrale di ordine 3 di una distribuzione e, per definizione:

m3 =1n

m∑

i=1

ni(xi − x)3. (6.5)

Quest’ultimo e utile per calcolare il coefficiente di asimmetria della distribuzione difrequenze, il quale e il numero puro:

α3 =m3

σ3(6.6)

dove σ e lo scarto quadratico medio della distribuzione. Questo coefficiente e nullose la distribuzione e simmetrica; e negativo se e asimmetrica “a sinistra” (cio siverifica quando la moda e minore della mediana e della media); ed e positivo se ladistribuzione di frequenze e asimmetrica “a destra”.

Esempio 6.1

Si misura il peso X, espresso in Kg, di un campione di 100 individui estratti a casoda una popolazione. La sequenza degli n = 100 valori osservati xi, ordinata comenella (6.2), e la seguente:

59.6, 59.8, 60.2, 60.3, 61.8, 62.5, 62.7, 62.95, 63.3, 64.1, 64.15, 64.3, 64.4, 64.9, 65.02,65.1, 65.15, 65.25, 65.28, 65.3, 65.35, 65.4, 65.45, 65.55, 65.6, 65.6, 65.66, 65.75, 65.9,66, 66.1, 66.24, 66.35, 66.55, 66.6, 66.65, 66.76, 66.78, 66.9, 67, 67.1, 67.24, 67.35,67.55, 67.6, 67.6, 67.66, 67.75, 67.79, 67.8, 67.81, 67.82, 67.85, 67.95, 68, 68.1, 68.17,68.2, 68.29, 68.3, 68.31, 68.34, 68.35, 68.4, 68.48, 68.55, 68.6, 68.65, 68.76, 68.78,68.9, 69, 69.1, 69.2, 69.3, 69.55, 69.6, 69.6, 69.66, 69.75, 69.79, 69.8, 69.8, 69.8, 70.8,70.9, 71, 71.1, 71.17, 71.2, 71.29, 71.3, 71.5, 71.8, 72, 72.2, 73, 73.2, 73.8, 74.2.

Poiche il minimo vale 59.6 Kg e il massimo e 74.2 Kg, scegliamo un intervallo ∆ =[59.5, 74.5) che contenga tutti i valori registrati, e suddividiamolo in 5 classi di egualeampiezza ∆i = 3 (sebbene per la regola citata in precedenza il numero di classi piuadeguato sarebbe 8 perche m′ = 1 + (10/3) · 2 = 7.6). Utilizzando le osservazionifatte si puo costruire la seguente tabella di contingenza:

Page 164: dispense di Probabilita' e Statistica

156 STATISTICA DESCRITTIVA

1 [59.5 , 62.5) 61 5 0,05 5 0,05 0,0166

2 [62.5 , 65.5) 64 18 0,18 23 0,23 0,06

3 [65.5 , 68.5) 67 42 0,42 65 0,65 0,14

4 [68.5 , 71.5) 70 27 0,27 92 0,92 0,09

5 [71.5 , 74.5) 73 8 0,08 100 1,00 0,0266

i classe x n ND i i i ifi

iDiFfi

la quale riporta: i valori centrali, le frequenze assolute e relative e quelle cumulate,per ognuna delle classi scelte. Dalla tabella si puo notare subito che

∑i ni = 100 = n

e∑

i fi = 1. L’ultima colonna serve per costruire l’istogramma delle frequenzerelative che e mostrato in Fig. 6.1. L’ogiva percentuale e invece mostrata in Fig.6.2. Valutando la sua ordinata per x = 70, si ricava che almeno l’80% degli individuidel campione ha un peso non superiore a 70 Kg (il dato esatto, rilevato dalla serieordinata, e 84%).

La moda della distribuzione di frequenze e x = 67 (il valore centrale della classe incui ni e massima). La media pesata vale:

x =1

100(61 · 5 + 64 · 18 + 67 · 42 + 70 · 27 + 73 · 8) = 67.45,

mentre la media aritmetica dei dati e 67.5275. La media spuntata e piu vicina allamedia aritmetica: si calcola su 90 dati raggruppati nelle quattro classi superiori,perche si ottiene “tagliando le code” della serie, ossia sopprimendo i primi 5 dati egli ultimi 5 dati della serie ordinata secondo valori crescenti. Essa vale:

xt =190

[64 · 18 + 67 · 42 + 70 · 27 + 73 · (8− 5)] = 67.50.

La mediana cade nella terza classe, e applicando la (6.3) con k = 3 si ricava:

x = 65.5 +342

(50− 23) = 67.42.

La varianza definita dalla (6.4) vale:

σ2 =1

100

5∑

i=1

ni(xi − 67.45)2 = 8.5275,

Page 165: dispense di Probabilita' e Statistica

6.3 – Indici di tendenza centrale e di dispersione 157

61 64 67 70 73 Kg

0.10

D i

0

D i

f i

xx

0.05

0.15

Figura 6.1

61 64 67 70 73 Kg0

1

0.25

ogiva percentuale

F i

0.50

0.75

Figura 6.2

mentre quella relativa ai 100 dati non raggruppati, definita dalla (6.4’), vale 8.7092.Se ora consideriamo separatamente i gruppi di dati appartenenti a ciascuna classe∆i, le loro medie aritmetiche e varianze, fornite dalla (6.4”), valgono:

x∆1 = 60.34 x∆2 = 64.477 x∆3 = 67.233 x∆4 = 69.831 x∆5 = 72.71σ2

1 = 0.5984 σ22 = 0.9364 σ2

3 = 0.85716 σ24 = 0.8446 σ2

5 = 0.8486.

Si noti, in particolare, che le medie x∆i non sono i valori centrali xi delle classi. Siricavano le seguenti varianze “parziali” del miscuglio:

σ2W = 0.8547, σ2

B = 7.8545

la cui somma: 0.8547 + 7.8545 = 8.7092 e appunto uguale alla varianza dei datinon raggruppati. Poiche σ2

B >> σ2W si deduce, come d’altra parte e ovvio, che le

Page 166: dispense di Probabilita' e Statistica

158 STATISTICA DESCRITTIVA

cinque classi sono molto eterogenee, ossia che non e possibile assumerne una sola perrappresentare adeguatamente la sequenza dei dati osservati. Il momento centrale diordine 3 si calcola applicando la (6.5):

m3 =1

100

5∑

i=1

ni(xi − 67.45)3 = −2.6932,

per cui il coefficiente di asimmetria (6.6) della distribuzione di frequenze vale:

α3 = − 2.6932√(8.5275)3

= −0.14.

Esso indica che la frequenza dei dati nelle classi inferiori alla terza (contenente lamoda) e minore della frequenza dei dati nelle classi superiori (la quarta e la quinta). /

6.3.3 Stem-and-leaf e box-plot

Ci sono altri modi per avere una rappresentazione sbrigativa, anche se grossolana,dei dati di una serie statistica. Uno di essi e il diagramma stem-and-leaf (“a ramo efoglia”) il quale si basa, come per gli istogrammi, su una preventiva suddivisione in mclassi di uguale ampiezza delle modalita di un carattere quantitativo. Si dispongonosu una colonna (il “ramo”) le prime cifre significative (le centinaia, o le decineo le unita,...) dell’estremo inferiore di ogni classe, e alla destra di ogni numeroincolonnato si riportano le “foglie”, ovvero la cifra successiva (le decine, o le unita,o i decimi,...) di ciascun dato xi che appartiene a quella classe. Ne risulta undiagramma di m righe si completa scrivendo in una prima colonna, posta a sinistradel “ramo”, le frequenze cumulate a partire dalle due classi estreme, in modo cherisultino incolonnati i seguenti valori: N1, N2, . . . , 1−Nm−2, 1−Nm−1. Fa eccezionela riga della classe che contiene la mediana, nella quale si scrive (tra parentesi) lasua frequenza assoluta anziche quella cumulata.

Ad esempio, data la serie statistica degli n = 11 dati seguenti:

1.7 1.9 1.95 2.11 2.2 2.25 2.4 2.52 2.85 3.1 3.35

e suddiviso l’insieme dei dati in m = 3 classi di ampiezza unitaria, questo risultarappresentato dal seguente diagramma stem-and-leaf:

unita decimi

3 1 799(6) 2 122458

2 3 13.

Page 167: dispense di Probabilita' e Statistica

6.3 – Indici di tendenza centrale e di dispersione 159

Ovviamente si puo costruire piu di un diagramma per ciascuna serie di dati, ela scelta piu conveniente e quella che meglio illustra la disposizione dei dati nellaserie ordinata, in modo che il diagramma si presenti come una struttura a barre lacui lunghezza ricorda, almeno grossolanamente, l’istogramma delle frequenze che siricava con le modalita precisate nel §6.2.

Se, come ulteriore esempio, riconsideriamo le serie di 100 dati esaminata nell’Esempio6.1, suddivisa in m = 8 classi di ampiezza 0.2, il suo diagramma stem-and-leaf cheha come ramo le decine e il seguente:

decine unita

2 5 99

5 6 0019 6 2223

29 6 44444555555555555555(25) 6 666666666677777777777777746 6 88888888888888888999999999999916 7 0011111111

6 7 223334.

Se pero costruiamo il diagramma a partire da un “ramo” che rappresenti le unita,allora si deve considerare un numero doppio di classi (m = 16) e si ottiene unostem-and-leaf plot molto piu dettagliato, ma anche piu complicato da determinare:

unita decimi

2 59 68

4 60 235 61 88 62 5799 63 3

14 64 1134929 65 01122334456667939 66 0123566779

(15) 67 01235666778888946 68 0112233334456677929 69 012356667788816 70 8914 71 011223586 72 024 73 028

1 74 2.

Page 168: dispense di Probabilita' e Statistica

160 STATISTICA DESCRITTIVA

Entrambi i diagrammi rappresentano con efficacia l’addensarsi dei dati nell’intervallo(65, 70) Kg. e la loro scarsa dispersione rispetto al valore centrale.

• Box-plot. Un altro grafico di semplice esecuzione che si traccia per avere unasommaria indicazione sulla distribuzione dei dati di una serie statistica e il box-ploto diagramma a scatola.

In una cornice, con base graduata sui valori del carattere rappresentato, si disegnauna “scatola” rettangolare che si estende dal primo quartile x0.25 al terzo quartilex0.75. La differenza x0.75 − x0.25 e chiamata escursione interquartile. Si suddividepoi la scatola in due rettangoli riportando anche il valore della mediana x0.5, e sitracciano due segmenti esterni che collegano le parti laterali della “scatola” ai valoriestremi x1 ed xn della serie statistica ordinata (v. Fig. 6.3).

Il grafico che ne risulta indica in modo efficace la dislocazione della meta centraledei dati della serie (cioe di quel 50% dei dati che sono contenuti nella “scatola”) e laeventuale asimmetria della loro distribuzione, che si riconosce subito nel caso in cuila posizione della mediana suddivida la scatola in due parti fortemente disuguali.

1.5 2.0 2.5 3.0 3.5 58 60 62 64 66 68 70 72 74 76

a b

Figura 6.3 - Esempi di diagrammi a scatola

La Fig. 6.3a) mostra il box-plot che rappresenta gli 11 dati della serie statisticasopra introdotta. Poiche (n + 1)/4 = 12/4 = 3 e intero, il suo primo quartile e ilterzo dato della serie ordinata, e il terzo quartile e il nono dato:

x0.25 = 1.95 ; x0.75 = 2.85.

Quindi la scatola ha una ampiezza uguale all’escursione interquartile 2.85−1.95 = 0.9ed e suddivisa in due parti disuguali dal valore della mediana x0.5 = 2.25, che e ilsesto dato della serie ordinata.

La Fig. 6.3b) riporta invece il box-plot relativo alla serie di 100 dati dell’Esempio6.1. Poiche (n + 1)/2 non e intero, il suo primo quartile e la media aritmeticatra il 25-esimo e il 26-esimo dato della serie, ovvero x0.25 = 65.6 (questi due datisono addirittura uguali); e il terzo quartile e la media aritmetica tra il 75-esimo e il76-esimo:

x0.75 =69.55 + 69.6

2= 69.575.

La mediana della serie di dati non raggruppati, che e diversa da quella prima calco-

Page 169: dispense di Probabilita' e Statistica

6.4 – Distribuzioni congiunte di frequenze 161

lata applicando la (6.3), e la media aritmetica tra il 50-esimo dato e il 51-esimo:

x0.5 =67.8 + 67.81

2= 67.805.

Il diagramma a scatola che ne risulta rivela con buona evidenza una bassa escursioneinterquartile e una moderata asimmetria della distribuzione dei dati.

6.4 Distribuzioni congiunte di frequenze

I metodi di analisi dei dati raccolti che sono stati illustrati nei paragrafi precedentisi possono impiegare anche quando il campione e la collezione di n dati riguardantidue caratteri differenti di una medesima popolazione, che indichiamo con X e Y . Intal caso il campione si presenta come un insieme di n coppie

(x1, y1), (x2, y2), . . . , (xn, yn) (6.7)

in cui i numeri reali xk e yk, k = 1, . . . , n, sono le determinazioni di X e di Y .Indicati con ∆x, ∆y ⊆ IR gli insiemi delle modalita dei due caratteri, suddividiamo∆x in m intervalli, ∆y in ` intervalli, e definiamo una arbitraria partizione di ∆ =∆x ×∆y ⊆ IR2 in m · ` classi disgiunte, costituite dai rettangoli

∆ij = [ai, bi)× [cj , dj), i = 1, 2, . . . , m; j = 1, 2, . . . , `

aventi come valore centrale il punto

(xi, yj) = ((ai + bi)/2, (cj + dj)/2).

L‘analisi delle coppie di dati (6.7) porta allora alla valutazione empirica approssimatadelle quantita gia definite nel Capitolo 3. Precisamente, si puo determinare:

• il numero nij di coppie in cui la modalita di X appartiene all’intervallo [ai, bi) equella di Y appartiene all’intervallo [cj , dj). Questo numero nij e la frequenzaassoluta congiunta della classe ∆ij ;

• la frequenza relativa congiunta fij = nij/n che, se divisa per l’area della classe∆ij , porta alla costruzione di un istogramma tridimensionale rappresentantela distribuzione delle probabilita empiriche congiunte;

• la frequenza cumulata congiunta Nij , che e la somma delle frequenze assolutecongiunte delle classi ∆rs con r ≤ i ed s ≤ j ;

• la frequenza cumulata relativa congiunta Fij = Nij/n, che e la somma delleprobabilita empiriche congiunte frs con r ≤ i, s ≤ j ;

• le probabilita empiriche marginali dei caratteri X e Y , che sono rispettiva-mente:

i = 1, . . . , m : fi =1n

j=1

nij ; j = 1, . . . , ` : fj =1n

m∑

i=1

nij .

Page 170: dispense di Probabilita' e Statistica

162 STATISTICA DESCRITTIVA

L’organizzazione dei dati raccolti nel campione (6.7) si puo effettuare costruendotabelle a doppia entrata analoghe a quella di Fig. 3.5. che riportano per ogni classe∆ij i valori di una delle grandezze sopra elencate.

Covarianza

Il piu importante momento centrale di una distribuzione empirica congiunta e lacovarianza dei dati su X e Y rilevati nel campione. In Statistica si usa indicarla consxy e, in analogia con le (3.19), (3.7) vale:

sxy =1n

m∑

i=1

j=1

nij(xi − x)(yj − y) ≡ 1n

m∑

i=1

j=1

nijxiyj − x · y (6.8)

dove xi, yj sono i valori centrali di X e Y nella classe ∆ij , e x, y sono le mediedelle distribuzioni empiriche marginali di X e Y , definite come nella (6.1). Se lemodalita delle n coppie di dati (xk, yk) non sono state raggruppate in classi, allorala covarianza dei dati si puo calcolare con la somma:

sxy =1n

n∑

k=1

(xk − x)(yk − y) =1n

n∑

k=1

xkyk − x · y, (6.8′)

dove x, y sono le medie aritmetiche dei dati xk e yk. Nel paragrafo che segue vedremocome, insieme con le varianze marginali di X e Y , la covarianza (6.8) sia di fonda-mentale importanza per definire, attraverso l’analisi del campione (6.7), il grado dicorrelazione lineare esistente tra le modalita dei due caratteri della popolazione chesono stati esaminati.

Contingenza e indice di connessione

Supponiamo ora che i due caratteri X, Y siano statisticamente indipendenti. In taleipotesi, ogni realizzazione di X non e condizionata dalle realizzazioni di Y o vice-versa, e ricordando la proprieta (3.12) del Capitolo 3 le frequenze relative congiuntefij = nij/n rilevate dal campione dovrebbero teoricamente essere uguali al prodotto:fifj = (ni/n)(nj/n) delle probabilita empiriche marginali, per ogni i = 1, . . . , m ej = 1, . . . , `. E’ assai raro che cio si verifichi in una generica coppia del campioneesaminato, e per valutare in che misura sia rispettata nel campione questa legge diindipendenza si puo determinare la differenza tra queste due quantita, moltiplicateper n. Il parametro statistico che ne risulta e

cij = nij − ninj

n

e si chiama contingenza della coppia (i, j). Poiche coinvolge unicamente le frequenzeassolute (miste e marginali) delle varie classi, essa si puo impiegare anche quando sie in presenza di caratteri qualitativi di una popolazione (mentre invece la covarianzasi riferisce esclusivamente a caratteri quantitativi).

Piu utile ai fini pratici e un indice che si basa sulla media quadratica delle contingenzerilevate per ogni coppia del campione, che prende il nome di indice di connessione

Page 171: dispense di Probabilita' e Statistica

6.5 – Regressione lineare 163

χ2 di Pearson ed e cosı definito:

χ2 = nm∑

i=1

j=1

(nij − ninj/n)2

ninj= n

m∑

i=1

j=1

n2ij

ninj− 1

.

Questo indice, che e nullo solo quando tutti i dati del campione soddisfano rigo-rosamente la gia citata legge di indipendenza (3.12), e usato nei tests che sarannotrattati nel §10.3 del Capitolo 10, atti a verificare ipotesi di indipendenza statisticatra due caratteri qualsiasi di una popolazione.

6.5 Regressione lineare

Supponiamo di essere interessati a scoprire se e come il carattere Y della popolazionee in qualche modo legato al carattere X. Se riportiamo sul piano (x, y) i punti concoordinate (xk, yk) forniti dal campione (6.7), si ottiene un cosiddetto diagrammadi dispersione (del tipo che verra mostrato in Fig. 6.4), dal quale si puo in certicasi intuire che il carattere X influenza il carattere Y . Una valutazione statisticaquantitativa di come cio avviene si ha solo se si ipotizza una relazione analiticay = f(x) in cui le modalita di Y sono espresse in funzione di quelle del carattere X,pensato come una variabile indipendente. La stima di questa funzione e chiamataregressione di Y su X.

La scelta della legge f dipende ovviamente da caso a caso, ma quella che si usa disolito e anche la piu semplice: la funzione lineare. In altre parole, si effettua unaregressione lineare quando si ipotizza che i dati yk forniti dal campione (6.1) sianodeducibili dai dati xk secondo la legge:

y = f(x) = a + bx (6.9)

e si determinano i coefficienti a, b in modo che la stessa descriva “nel miglior modopossibile” il legame tra i dati osservati nel campione.

La determinazione di a, b viene fatta minimizzando lo scarto quadratico medio tratutti i valori yk osservati e quelli che si ottengono in funzione di xk dalla relazionelineare (6.9). Questo scarto quadratico medio vale:

S(a, b) =1n

n∑

k=1

[yk − f(xk)]2 =1n

n∑

k=1

(yk − a− bxk)2 (6.10)

e, interpretato come funzione dei coefficienti incogniti a, b, ha derivate parziali

∂S

∂a=

2n

n∑

k=1

(a− yk + bxk)

∂S

∂b=

2n

n∑

k=1

(bx2k − xkyk + axk)

Page 172: dispense di Probabilita' e Statistica

164 STATISTICA DESCRITTIVA

le quali si annullano per

a− 1n

k

yk +b

n

k

xk = 0

b

n

k

x2k −

1n

k

xkyk +a

n

k

xk = 0. (6.11)

Ricerchiamo i punti di stazionarieta di S(a, b). Dal sistema (6.11) si ricava:

a =1n

k

yk − b

n

k

xk = y − bx

b

n

k

x2k −

1n

k

xkyk + x(y − bx) = 0

dove x, y sono i valori medi di X, Y . Usando ora l’espressione (6.8’) della covarianzadei dati, si ottiene:

a = y − sxy

σ2x

x , b =sxy

σ2x

(6.12)

dove σ2x e la varianza della distribuzione marginale di X.

Il punto di stazionarieta (6.12) e un minimo per S(a, b). Infatti, sia le derivateseconde di S(a, b) che il determinante della matrice Hessiana sono positivi:

∂2S

∂a2= 2 ;

∂2S

∂b2=

2n

k

x2k > 0;

∂2S

∂a∂b= 2x

det(H) =∂2S

∂a2

∂2S

∂b2−

(∂2S

∂a∂b

)2

= 4

(1n

k

x2k − x2

)= 4σ2

x > 0.

Se ne conclude che la stima migliore dei valori del carattere Y , fatta sulla base delleosservazioni del carattere X secondo la legge lineare (6.9), e fornita dalla retta diregressione:

y = y +sxy

σ2x

(x− x) (6.13)

il cui coefficiente angolare e direttamente proporzionale alla covarianza dei dati(xk, yk). Se indichiamo con

ξ = x− x, η = y − y (6.14)

gli scarti delle due modalita rispetto alle loro medie aritmetiche, la (6.13) si scrivepiu semplicemente:

η = bξ (6.13′)

che nel piano traslato (ξ, η) con origine in (x, y) e l’equazione della retta di regressioneper gli scarti (di Y su X) rispetto alle loro medie. Il coefficiente b, definito nella(6.12), si chiama coefficiente di regressione lineare di Y su X, ed e il parametro piu

Page 173: dispense di Probabilita' e Statistica

6.5 – Regressione lineare 165

importante nella stima della regressione che abbiamo effettuato: esso e una misuradella variazione del carattere Y per una assegnata variazione del carattere X.

La legge lineare (6.13) non e esatta: esiste una differenza tra f(xk) = a + bxk e idati yk effettivamente osservati. Questa differenza si chiama residuo:

rk = yk − f(xk) = yk − a− bxk

ed in generale e diversa da zero per ogni k. Tuttavia, la somma dei residui e nulla:infatti ricordando il risultato (6.12) si ha sempre:

k

rk =∑

k

(yk − a− bxk) = n(y − a− bx) = 0.

Se valutiamo l’errore commesso, calcolando il minimo dello scarto quadratico medioS(a, b), che si ha per a, b definiti dalla (6.12), questo errore minimo fornisce unaindicazione quantitativa sulla validita della ipotesi fatta sulla dipendenza lineare diY da X. Sostituiamo nella (6.10) le espressioni (6.12) di a, b, usando le definizioni(??) degli scarti ξ, η. Si trova che l’errore quadratico medio di cui sono affette le(6.13), (6.13’) vale:

ε =1n

k

(ηk − sxy

σ2x

ξk

)2

=1n

k

η2k +

s2xy

nσ4x

k

ξ2k −

2sxy

nσ2x

k

ξkηk =

= σ2y +

s2xy

σ2x

− 2s2xy

σ2x

= σ2y

(1− s2

xy

σ2xσ2

y

)= σ2

y [1− ρ2(X, Y )]

dove:ρ(X, Y ) =

sxy

σxσy∈ [−1, 1]

e il coefficiente di correlazione tra i dati delle coppie (cfr. la 3.9), detto anche”coefficiente di determinazione lineare”.

Dunque, la stima effettuata mediante la relazione lineare (6.13) e esatta se |ρ| = 1 ein tal caso si dice che esiste una perfetta correlazione tra X ed Y . La stima e validase |ρ| e molto prossimo a 1, e non e efficace per piccoli valori di |ρ|, perche allorai caratteri X e Y sono scarsamente correlati e l’errore quadratico medio ε cresce,avvicinandosi al valore σ2

y della varianza dei dati yk, che puo anche essere elevata.Al limite per ρ → 0, la covarianza sxy e il coefficiente di regressione b tendono azero, con la conseguenza che i valori stimati di yk tendono alla loro media aritmeticay. In questo caso limite i caratteri X e Y sono non correlati, nel senso che non sipuo dire che esista una relazione lineare che lega le loro realizzazioni.

Dobbiamo pero anche osservare che la non correlazione non esclude la possibilita diuna loro dipendenza con legge diversa da quella lineare (per esempio: quadratica,come descritto nel §6.7 che segue). A conferma di questa affermazione basta ricordareche la non correlazione e una proprieta piu debole della indipendenza statistica(§3.1.1, 3.1.2).

Page 174: dispense di Probabilita' e Statistica

166 STATISTICA DESCRITTIVA

La radice quadrata positiva dell’errore ε sopra calcolato si chiama errore standardσxy della regressione lineare, e vale:

σxy = σy

√1− ρ2(X, Y ). (6.14)

Esempio 6.2

Da n = 12 osservazioni dei caratteri X e Y di una popolazione si ricavano le seguentecoppie di dati (xk, yk):

(65, 68) (63, 66) (67, 68) (64, 65)(68, 69) (62, 66) (70, 68) (66, 65)(68, 71) (67, 67) (69, 68) (71, 70)

che in Fig. 6.4 sono rappresentate da 12 punti del piano (x, y). Si vuole verificarese, e con quale errore standard, si puo affermare che le modalita di Y dipendono daquelle di X con una legge di regressione lineare del tipo (6.13).

.

.

.

.

.

.

.

.

.

..

.

y = a + bxsxy

60 6262

64

64

66

66

68

68

70

70

72

72

74 x

x

y

y

x

h

Figura 6.4 - Regressione lineare

Le medie aritmetiche e le varianze marginali valgono:

x =112

k

xk =80012

= 66.6

y =112

k

yk =81112

= 67.583

σ2x =

112

k

x2k − x2 =

5341812

− 4444.44 = 7.056

σ2y =

112

k

y2k − y2 =

5484912

− 4567.5 = 3.243.

La covarianza della coppie di dati, da calcolare applicando la (6.8’), vale:

sxy =112

k

xkyk−66.6 ·67.583 =54107

12−4505.55 = 4508.916−4505.55 = 3.36117.

Page 175: dispense di Probabilita' e Statistica

6.6 – Regressione multipla 167

Ne segue, applicando la (6.12), che i coefficienti a, b della retta di regressione di Ysu X valgono:

b =3.361177.056

= 0.4763

a = 67.583− 0.4763 · 66.6 = 35.826.

Sulla base dei valori osservati, la migliore stima dei valori di Y e dunque fornitadalla retta di regressione:

y = 35.826 + 0.4763 · xche e indicata in Fig. 6.4, e nel piano traslato degli scarti (ξ, η) con origine nel punto(x = 66.6, y = 67.583) ha equazione

η = 0.4763 · ξ.Per valutare l’errore quadratico medio ε della regressione effettuata, e sufficientecalcolare ancora il coefficiente di correlazione delle coppie di dati, che vale:

ρ(X, Y ) =sxy

σxσy=

3.361172.656 · 1.8

= 0.7027.

Il suo valore “ragionevolmente” vicino all’unita indica che la legge di dipendenzalineare di Y da X puo essere sostenuta, almeno in un modello di previsione statisticadi prima approssimazione. Da questo calcolo si ricava:

ε = σ2y [1− ρ2(X, Y )] = 3.243(1− 0.49378) = 1.6416

la cui radice quadrata e l’errore standard della regressione lineare:

σxy =√

ε = 1.28125.

Se si riportano in Fig. 6.4 le rette di equazione y = a + bx ± σxy, si puo osservareche nella regione compresa tra queste due rette cadono 8 dei 12 punti campionari:dunque internamente alle due rette si trova il 66.6% delle osservazioni registratenel campione con numerosita n = 12. Questo risultato percentuale da una indi-cazione approssimata sulla significativita della regressione effettuata. Nell’ambitodella teoria dei campioni, che sara sviluppata nei prossimi Capitoli, si vedra che alcrescere di n le distribuzioni dei dati xk e yk tendono teoricamente a leggi normalicon medie rispettivamente uguali a x e y. Cio significa che al crescere di n anchela distribuzione dei punti del piano (x, y) attorno alla retta di regressione tende allalegge normale, e in tale circostanza il calcolo delle probabilita per leggi normali (cfr.§2.3.2) prevede che il 68.27% (anziche il 66.6%) dei punti campionari siano internialle rette y = a + bx± σxy /.

6.6 Regressione multipla

Il metodo di regressione lineare visto nel precedente paragrafo si puo estendere allostudio della dipendenza di un carattere Y da piu caratteri X, Z, . . . della medesima

Page 176: dispense di Probabilita' e Statistica

168 STATISTICA DESCRITTIVA

popolazione. Consideriamo in particolare il caso in cui, avendo a disposizione unaserie di n terne (xk, yk, zk) riguardanti tre caratteri X, Y, Z della popolazione, sivoglia studiare la regressione lineare di Y sui due regressori X e Z, che si supponenon siano linearmente dipendenti l’uno dall’altro. Introdotti allora gli scarti dei datirispetto alle loro medie aritmetiche:

ξ = x− x, η = y − y, ζ = z − z,

si poneη = f(ξ, ζ) = b1ξ + b2ζ (6.15)

che generalizza la (6.13’) e si determinano i coefficienti di regressione parziale b1, b2

che rendono minima la media dei quadrati delle differenze tra ηk e f(ξk, ζk):

S(b1, b2) =1n

k

(ηk − b1ξk − b2ηk)2. (6.16)

Annullando le derivate parziali di S(b1, b2), che valgono:

∂S

∂b1=

2n

n∑

k=1

(b1ξ2k + b2ξkζk − ξkηk)

∂S

∂b2=

2n

n∑

k=1

(b2ζ2k + b1ξkζk − ηkζk),

si ottiene il sistema

b1

n

k

ξ2k +

b2

n

k

ξkζk =1n

k

ξkηk

b2

n

k

ζ2k +

b1

n

k

ξkζk =1n

k

ζkηk. (6.17)

Se teniamo conto che per definizione le varianze marginali e le covarianze tra i datidelle coppie (xk, yk), (xk, zk), (yk, zk) sono rispettivamente:

σ2x =

1n

k

ξ2k, σ2

y =1n

k

η2k, σ2

z =1n

k

ζ2k

sxy =1n

k

ξkηk, sxz =1n

k

ξkζk, syz =1n

k

ηkζk,

si ottiene la seguente soluzione del sistema (6.17):

b1 =sxyσ

2z − sxzsyz

σ2xσ2

z − s2xz

b2 =syzσ

2x − sxzsxy

σ2xσ2

z − s2xz

. (6.18)

Questi sono i valori dei coefficienti parziali di regressione che, introdotti nella (6.15),determinano l’equazione del piano di regressione di Y sui due caratteri X e Z,stimata in modo da rendere minimo l’errore quadratico medio (6.16).

Page 177: dispense di Probabilita' e Statistica

6.7 – Regressione non lineare 169

Questa regressione multipla perde significato se i caratteri X, Z sono legati da unarelazione rigorosamente lineare, in modo che per ogni k risulti xk = c1+c2zk. Infatti,si noti che i denominatori comuni ai due coefficienti (6.18) si possono anche scrivere:

σ2xσ2

z − s2xz = σ2

xσ2z [1− ρ2(X,Z)],

e si annullano per |ρ(X, Z)| = 1, ossia quando X e Z sono legati da una relazionelineare. Al contrario, quando X e Z sono completamente scorrelati si ha ρ(X, Z) = 0,e in tal caso b1 e b2 si identificano con i coefficienti delle regressioni semplici di Y ,effettuate separatamente su X e su Z.

Ripristinando nella (6.15) le variabili originarie al posto degli scarti, si ricava subitoche l’equazione di questa regressione multipla nel sistema di riferimento (x, y, z) e

y = f(x, z) = a + b1x + b2z (6.16′)

con a = y − b1x− b2z , e b1, b2 dati dalle (6.18).

6.7 Regressione non lineare

Se la regressione semplice lineare di Y su X, trattata nel §6.5, non ha un esitosoddisfacente perche il suo errore standard (6.14) e troppo elevato, si deve cercareuna legge f(x), non piu lineare, che meglio approssimi la relazione esistente tra idati del campione (sempreche, naturalmente, questa relazione esista). Si puo peresempio effettuare una regressione quadratica:

η = f(ξ) = b1ξ + b2ξ2 (6.19)

per scarti tra i dati di Y su X, oppure scegliere altre leggi (esponenziale, logaritmica,iperbolica,..) che pensiamo siano piu adatte a rappresentare la relazione cercata.

Nel caso della regressione (6.19), i coefficienti b1, b2 si possono ancora calcolare mi-nimizzando lo scarto quadratico medio tra ηk e f(ξk), ma e piu comodo determi-narli utilizzando i risultati della regressione multipla appena effettuata nel paragrafoprecedente.

A tal fine, si introduce la definizione di un carattere fittizio Z = X2 e si sostituisceil suo scarto ζ = z − z al posto di ξ2 nella (6.19). Con tale posizione, la regres-sione quadratica (6.19) e equivalente alla regressione lineare multipla (6.15), che ecertamente non singolare perche ζ, pur essendo una funzione di ξ, non dipende lin-earmente da quest’ultima. I coefficienti parziali di questa regressione multipla, giadeterminati nella (6.18), sono anche quelli che rendono minimo l‘errore quadraticomedio nella regressione (6.19). Pertanto, in termini delle variabili originarie x, y, laregressione quadratica di Y su X risulta definita da

y = f(x) = a + b1x + b2x2 (6.20′)

con b1, b2 dati ancora dalle (6.18), e inoltre

a = y − b1x− b2z = y − b1x− b2

n

k

x2k. (6.20)

Page 178: dispense di Probabilita' e Statistica

170 STATISTICA DESCRITTIVA

Il medesimo artificio, consistente nell’introdurre uno o piu caratteri fittizi, e general-mente usato, in Statistica, per effettuare altre speciali regressioni non lineari che sipossono rendere formalmente equivalenti a regressioni lineari multiple.

Esempio 6.3

Si ha motivo di ritenere che le modalita del carattere Y di una popolazione abbianoun minimo per un certo valore (incognito) di un secondo carattere X della medesimapopolazione. Si vuole ricercare questo minimo mediante l’analisi di 10 coppie di dati(xk, yk), ricavate da osservazioni fatte ad intervalli costanti di X. Dalla serie di dati,che e la seguente:

(10, 37) (15, 27) (20, 31) (25, 27) (30, 36)(35, 44) (40, 45) (45, 51) (50, 62) (55, 66) ,

..

..

.

...

..

0 10 20

20

40

60

80

30 40 50 60 70 x

y

y = 39.209 - 0.9433 x + 0.0269 x2

Figura 6.5 - Regressione quadratica

si ricava che x = 32.5, y = 42.6. Calcolati gli scarti di xk e yk rispetto a questemedie, effettuiamo la regressione quadratica (6.19) di Y su X, ricavando dapprimale modalita zk del carattere fittizio Z = X2. Esse sono:

100, 225, 400, 625, 900, 1225, 1600, 2025, 2500, 3025

ed hanno media aritmetica z = 1262.5. Calcolando quindi anche gli scarti ζk =zk − z, siamo in grado di effettuare la regressione lineare multipla (6.61) di Y suidue regressori X e Z = X2. Procedendo con i seguenti calcoli:

σ2x =

110

k

ξ2k = 206.25 σ2

y =110

k

η2k = 169.84

σ2z =

110

k

ζ2k = 904406.30 sxy =

110

k

ξkηk = 167

sxz =110

k

ξkζk = 13406.25 syz =110

k

ηkζk = 11745

si ricava dalle (6.18):b1 = −0.9433 , b2 = 0.0269

Page 179: dispense di Probabilita' e Statistica

6.8 – Problemi risolti 171

e dalla (6.20):a = 39.209.

La parabola che rende minimo l’errore quadratico medio della regressione (6.20’) epertanto:

y = 39.209− 0.9433x + 0.0269x2

e il suo grafico e mostrato in Fig. 6.5. Il minimo della parabola di regressione sitrova nel punto (

− b1

2b2,−b2

1 − 4ab2

4b2

)= (17.4887, 30.96)

del piano (x, y) e fornisce una risposta al nostro problema, che ovviamente nonsarebbe stato possibile ottenere attraverso una regressione lineare. /

6.8 Problemi risolti

6.1. Da un campione con numerosita n = 16 si estrae la seguente serie statistica didati (non raggruppati in classi):

10, 14, 8, 11, 11, 15, 12, 9, 12, 17, 10, 5, 6, 14, 12, 13.

Calcolare: la media aritmetica, la media pesata, la media spuntata, la moda e lamediana della serie.

Soluzione: La serie ordinata per valori crescenti e

5, 6, 8, 9, 10, 10, 11, 11, 12, 12, 12, 13, 14, 14, 15, 17.

La media aritmetica e uguale alla media pesata e vale

x =116

[5+6+8+9+2 · 10+2 · 11+3 · 12+13+2 · 14+15+17] =17916

= 11.1875 .

La media spuntata vale

xt =114

[6 + 8 + 9 + 2 · 10 + 2 · 11 + 3 · 12 + 13 + 2 · 14 + 15] =15714

= 11.214286 .

La moda e la determinazione che ha la maggiore frequenza, ossia 12 .

La mediana e la media aritmetica tra l’ottavo e il nono dato della serie ordinata:

x =x8 + x9

2=

11 + 122

= 11.5 .

6.2. Da 10 osservazioni del carattere di una popolazione si ricavano questi valori:

Page 180: dispense di Probabilita' e Statistica

172 STATISTICA DESCRITTIVA

5.8, 7, 4.7, 5, 5.2, 6.1, 6.5, 7.6, 4.1, 6.3.

Rappruppati questi dati in 4 classi di ampiezza unitaria, calcolare: la media dellevarianze σ2

W , la varianza delle medie σ2B e la varianza delle osservazioni effettuate.

Soluzione: Dai dati della serie ordinata:

4.1, 4.7, 5, 5.2, 5.8, 6.1, 6.3, 6.5, 7, 7.6

si ricava questa tabella per le frequenze e le varianze dei dati in ciacuna classe:

classe xAi ni σ2i

[4, 5) 4.4 2 0.09[5, 6) 5.3 3 0.115[6, 7) 6.3 3 0.02666[7, 8) 7.3 2 0.09

La media aritmetica dei dati non raggruppati vale

x =110

[4.1 + 4.7 + 5 + 5.2 + 5.8 + 6.1 + 6.3 + 6.5 + 7 + 7.6] = 5.83.

La media delle varianze σ2i vale:

σ2W =

110

4∑

i=1

niσ2i = 0.0787

e la varianza delle medie e

σ2B =

110

4∑

i=1

ni(xAi − 5.83)2 = 0.9814 .

La loro somma e uguale alla varianza dei dati non raggruppati:

σ2 =110

10∑

k=1

(xk − 5.83)2 = σ2W + σ2

B = 0.0787 + 0.9814 = 1.0601 .

6.3. Dalle osservazioni effettuate su due caratteri X, Y di una popolazione si rica-vano questi campioni:

A : (5, 124) (9, 300) (4, 112) (7, 160) B : (4, 112) (5, 124) (5, 120) (4, 124).

Quale dei due mostra un maggior grado di dipendenza statistica tra i caratteriosservati?

Page 181: dispense di Probabilita' e Statistica

6.8 – Problemi risolti 173

Soluzione. Indichiamo con (xi, yj), i, j = 1, . . . , 4 i dati delle quattro coppie cam-pionarie. Nel campione A nessun dato si ripete, per cui la frequenza congiunta diciascuna coppia e quelle marginali valgono:

n11 = n22 = n33 = n44 = 1, nij = 0 per i 6= j

ni = nj = 1.

Con queste frequenze si calcola l’indice di connessione di Pearson per il campione A:

χ2A = n

i=j

1− 1

= 4(4− 1) = 12.

Nel campione B i dati sono:

x1 = 4, x2 = 5y1 = 112, y2 = 120, y3 = 124

e le relative frequenze si possono disporre nella seguente tabella a doppia entrata:

nij 112 120 124 nj

4 1 0 1 25 0 1 1 2ni 1 1 2 4

Ne segue che l’indice di connessione per il campione B vale:

χ2B = 4

(1

2 · 1 +1

2 · 2 +1

2 · 1 +1

2 · 2 − 1)

= 2.

Quindi i due caratteri hanno il maggior grado di dipendenza statistica nel campione A ,perche il suo indice χ2 e maggiore di quello di B.

6.4. Determinare la mediana dei seguenti insiemi di dati campionari, non raggrup-pati in classi:

A = 10 5 3 11 9B = 11 8 8 17 9 11 15 8C = 12 11 10 4 12 7

Page 182: dispense di Probabilita' e Statistica

174 STATISTICA DESCRITTIVA

Soluzione. Ordiniamo i dati dei campioni per valori crescenti:

A = 3 5 9 10 11 (n = 5)B = 8 8 8 9 11 11 15 17 (n = 8)C = 4 7 10 11 12 12 (n = 6).

Nel campione A (n dispari) la mediana e il terzo dato: x(A) = 9 .

Nei campioni B e C (n pari) le mediane sono la media aritmetica dei due valoricentrali:

x(B) = (9 + 11)/2 = 10 ; x(C) = (10 + 11)/2 = 10.5 .

6.5. Determinare la retta di regressione per i seguenti dati sperimentali (xk, yk):

(10, 121) (20, 98) (30, 75) (40, 59) (50, 38)

ricavati in 5 prove sui caratteri X e Y di una popolazione, e calcolare l’errore stan-dard della regressione effettuata.

Soluzione.

x =15(10 + 20 + . . . + 50) = 30

y =15(121 + 98 + . . . + 38) = 78.2

σ2x =

15[(10− 30)2 + . . . + (50− 30)2] = 200

σ2y =

15[(121− 78.2)2 + . . . + (38− 78.2)2] = 843.76

sxy =15[(10− 30)(121− 78.2) + . . . + (50− 30)(38− 78.2)] = −410

a = 78.2 +410200

· 30 = 139.7 ; b = −410200

= −2.05.

La retta di regressione e quindi: y = 139.7− 2.05x .

Il coefficiente di correlazione tra i dati delle coppie vale:

ρ(X, Y ) =−410√

200 · 843.76= −0.99807,

per cui l’errore standard della regressione risulta:

σxy =√

843.76[1− (0.99807)2] ' 1.80 .

6.6. Calcolare la mediana, il secondo decile e il terzo quartile di questi due insiemidi dati campionari non raggruppati:

A = 8 22 23 12 29 15 11 7 31 8; B = 18 15 6 21 19.

Page 183: dispense di Probabilita' e Statistica

6.8 – Problemi risolti 175

Soluzione. Nel campione A in cui n = 10, ordinato per valori crescenti xk conk = 1, . . . , 10:

7 8 8 11 12 15 22 23 29 31,

la mediana x, il secondo decile x0.2 e il terzo quartile x0.75 valgono:

x = (x5 + x6)/2 = (12 + 15)/2 = 13.5

(n + 1) · 0.2 = 2.2 ⇒ x0.2 = (x2 + x3)/2 = (8 + 8)/2 = 8

(n + 1) · 0.75 = 8.25 ⇒ x0.75 = (x8 + x9)/2 = (23 + 29)/2 = 26 .

Nel campione B in cui n = 5, ordinato per valori crescenti xk con k = 1, . . . , 5:

6 15 18 19 21,

la mediana x e i quantili x0.2, x0.75 valgono:

x ≡ x3 = 18

(n + 1) · 0.2 = 1.2 ⇒ x0.2 = (x1 + x2)/2 = (6 + 15)/2 = 10.5

(n + 1) · 0.75 = 4.5 ⇒ x0.75 = (x4 + x5)/2 = (19 + 21)/2 = 20 .

6.7. E’ dato il campione

(−2, 5) (5, 31) (2, 22) (−1, 12) (6, 45)

ricavato da 5 osservazioni (xk, yk) dei caratteri (X,Y ). Dopo aver operato la regres-sione lineare di Y su X determinando la stima y, calcolare i residui rk = yk − yk.

Soluzione. Con lo stesso procedimento seguito nel Problema 6.5 si calcola anzitutto:

x = 2; y = 23; σ2x = 10; sxy = 43.4

da cui si ottiene:

a = 23− 43.410

· 2 = 14, 32; b =43.410

= 4.34.

Dunque la regressione lineare di Y su X consiste nella stima: y = 14.32 + 4.34x .

I residui valgono:

r1 = 5− (14.32− 4.34 · 2) = -0.64

r2 = 31− (14.32 + 4.34 · 5) = -5.02

r3 = 22− (14.32 + 4.34 · 2) = -1

r4 = 12− (14.32− 4.34) = 2.02

r5 = 45− (14.32 + 4.34 · 6) = 4.64 .

Verifica: la somma dei residui e zero.

Page 184: dispense di Probabilita' e Statistica

176 STATISTICA DESCRITTIVA

6.8. Le frequenze assolute n(i) dei voti riportati da 50 studenti in una prova scrittad’esame sono le seguenti:

n(< 18) = 15, n(18) = 4, n(19) = 1, n(20) = 4, n(21) = 2, n(23) = 3, n(24) =4, n(25) = 5, n(26) = 1, n(27) = 5, n(28) = 2, n(29) = 1, n(30) = 3

e la media aritmetica dei voti e 20.98. Si vuole costruire un istogramma delle fre-quenze dei voti, composto da 7 classi (aperte a destra): la prima comprendente leinsufficienze, e le altre sei di ampiezza ∆x = 2, centrate sui voti 19, 21, . . . , 29. Qualedeve essere l’ampiezza della prima classe (insufficienze) perche la media pesata chene risulta sia uguale a quella aritmetica?

Soluzione. Con i dati del problema si costruisce la seguente tabella di contingenza:

i classe ∆i xi ni

1 ? ? 152 [18,20) 19 53 [20,22) 21 64 [22,24) 23 35 [24,26) 25 96 [26,28) 27 67 [28,30] 29 6

Se la media ponderata e uguale a quella aritmetica nota, deve essere

20.98 =150

(15x1 + 5 · 19 + 6 · 21 + 3 · 23 + 9 · 25 + 6 · 27 + 6 · 29)

da cui si ricava:x1 =

19815

= 13.2.

Poiche x1 e il valore centrale della classe ∆1, questa deve avere ampiezza uguale a

2(18− 13.2) = 9.6 ⇒ ∆1 = [8.4, 18).

6.9. Calcolare l’altezza di ciascuna barra dell’istogramma delle frequenze relativef(i) dei voti nel Problema 6.8, in modo che la sua area complessiva sia uguale ad 1.

Soluzione. Se indichiamo con ∆i l’ampiezza delle 7 classi del Problema 6.8 e con hi

le altezze delle barre dell’istogramma, deve essere

h1 =n1

50∆1; i = 2, . . . , 7 : hi =

ni

50∆i=

ni

50 · 2 = 0.01 · ni

per cui si ricava

h1 =15

50 · 9.6= 0.03125

h2 = 0.05 h3 = 0.06 h4 = 0.03 h5 = 0.09 h6 = 0.06 h7 = 0.06 .

Page 185: dispense di Probabilita' e Statistica

6.8 – Problemi risolti 177

Verifica:

7∑

i=1

∆ihi = 9.6 · 0.03125 + 2(0.05 + 3 · 0.06 + 0.03 + 0.09) = 0.3 + 0.7 = 1.

6.10. (a) Determinare la retta di regressione di Y su X per la seguente serie statisticadi 5 coppie (xk, yk) di osservazioni: (1, 8) (2, 12) (3, 22) (4, 28) (5, 30).

(b) Calcolare il coefficiente di correlazione ρ(X, Y ).

(c) Si puo affermare che la stima lineare e valida? Perche?

(d) Calcolare l’errore standard σxy della regressione effettuata.

Soluzione.

(a) Con calcoli analoghi a quelli del Problema 6.5 si ricava:

x = 15/5 = 3 ; y = 100/5 = 20

σ2x =

15(1 + 4 + 9 + 16 + 25)− 9 = 2

σ2y =

15(64 + 144 + 484 + 784 + 900)− 400 = 75.2

sxy =15(8 + 2 · 12 + 3 · 22 + 4 · 28 + 5 · 30)− 3 · 20 = 12

da cui:b = 12/2 = 6 ; a = 20− 6 · 3 = 2 .

Dunque la retta di regressione e: y = 2 + 6x .

(b) coefficiente di correlazione: ρ(X, Y ) =12√

2 · 75.2' 0.9785 .

(c) SI , perche il coefficiente di correlazione e molto prossimo ad 1.

(d) errore standard: σxy =√

75.2[1− (0.9785)2] ' 1.7888 .

6.11. In una indagine su 180 famiglie si rileva la spesa annuale X sostenuta perl’acquisto di quotidiani e quella annuale Y effettuata per l’acquisto di CD musicali.L’importo delle spese e espresso in migliaia di lire e raggruppato in 3 classi ∆xi peri quotidiani e 4 classi ∆yj per i CD. La tabella riporta il numero nij di famiglie chehanno sostenuto spese appartenenti alle classi ∆xi e ∆yj .

Y ∈ [0− 200) [200− 400) [400− 600) [600− 800)X ∈ [50− 250) 15 35 26 10

[250− 450) 12 22 10 8[450− 650) 6 12 24 0

Page 186: dispense di Probabilita' e Statistica

178 STATISTICA DESCRITTIVA

(a) Calcolare la media pesata della spesa totale Z = X + Y ;

(b) dire se i caratteri X e Y sono correlati, giustificando la risposta;

(c) calcolare la deviazione standard di Z.

Soluzione.

(a) La media pesata di Z e la somma delle medie pesate di X e Y . I valori centralie le frequenze marginali di X nelle tre classi sono:

x1 = 150, n1· = 86; x2 = 350, n2· = 52; x3 = 550, n3· = 42.

Per le spese Y , suddivise in 4 classi, si ha:

y1 = 100, n·1 = 33; y2 = 300, n·2 = 69; y3 = 500, n·3 = 60; y4 = 700, n·4 = 18.

Quindi le medie pesate di X e Y valgono:

X =1

180(150 · 86 + 350 · 52 + 550 · 42) = 301.1

y =1

180(3300 + 20700 + 30000 + 12600) = 370

da cui si ottiene Z = 301.1 + 370 = 671.1 .

(b) La covarianza dei due caratteri vale

sxy = E(XY )−X · Y =1

180(15 · 150 · 100 + 35 · 150 · 300 +

+ . . . + 24 · 550 · 700)− 301.1 · 370 = 114694.44− 111407 = 3287.44

e poiche e diversa da zero, i due caratteri sono correlati .

(c) La deviazione standard di Z vale σZ =√

σ2X + σ2

Y + 2sxy dove:

σ2X = (1502 + 3502 + 5502)/180− (301.1)2 = 26061.01

σ2Y = (1002 + 3002 + 5002 + 7002)/180− 3702 = 31766.67

e sostituendo si ottiene:

σZ =√

64402.56 = 253.776 .

6.12. (a) Determinare la retta di regressione y = f(x) per la seguente serie statisticadi 5 coppie (xk, yk) di osservazioni: (−2,−2) (1, 0) (2, 2) (3, 1) (6, 4).

(b) Calcolare la varianza dei residui rk = yk − f(xk).

Soluzione (a):

Page 187: dispense di Probabilita' e Statistica

6.8 – Problemi risolti 179

x = 2; y = 1; σ2x =

4 + 1 + 9 + 4 + 365

− 4 =345

sxy =4 + 3 + 4 + 24

5− x · y = 7− 2 = 5

b = 5 · 534

=2534

; a = 1− 2534· 2 = 1− 25

17.

La retta di regressione e:

y = 1− 2517

+2534

x ' -0.47 + 0.7353 x .

(b) La varianza dei residui e uguale al valore minimo dello scarto quadratico medio,ovvero al quadrato dell’errore standard σxy. Infatti, poiche la variabile residuo

r = yk − (a + bxk), k = 1, . . . , 5

ha media nulla, si ha

σ2r = E[r − Er]2 = Er2 =

15

5∑

k=1

[yk − a− bxk]2 = σ2y −

s2xy

σ2x

= (σxy)2.

Allora e sufficiente calcolare ancora

σ2y =

4 + 1 + 4 + 165

− 1 = 4

per ottenere:

σ2r = 4− 52 · 5

34=

1134' 0.3235 .

Page 188: dispense di Probabilita' e Statistica

180 STATISTICA DESCRITTIVA

Page 189: dispense di Probabilita' e Statistica

DISTRIBUZIONICAMPIONARIE

7.1 Modelli statistici

I primi tre Capitoli di questo libro hanno trattato la formulazione matematica di unmodello probabilistico per un generico esperimento casuale. Si e visto che un modelloprobabilistico e definito in modo completo quando si precisa lo spazio di probabilita(Ω,B, P ) da associare all’esperimento in studio, ovvero lo spazio campione Ω deipossibili esiti, il campo di Borel B degli eventi Ai, e il funzionale P : B → [0, 1]. Intale modello la probabilita P che si assegna al generico evento Ai ∈ B e univocamentedefinita, e si calcola sulla base della distribuzione probabilistica che si assume nota,ed adeguata a descrivere il fenomeno aleatorio oggetto di studio.

Tuttavia, nell’analisi di un fenomeno reale cui si attribuisce natura casuale, o diuna popolazione di individui o di oggetti dotati di caratteri aventi anch’essi naturacasuale, la legge di probabilita cui questi obbediscono e raramente nota in formacompleta. Piu spesso si puo soltanto affermare a priori che P appartiene a unafamiglia P di leggi probabilistiche (per esempio: alla famiglia delle leggi normali,o binomiali, ....) che e la collezione delle leggi di probabilita ammissibili nella de-scrizione matematica di quel particolare carattere aleatorio. Ci si trova cosı di frontea un problema che per certi aspetti e l’inverso di quello affrontato nel Calcolo delleprobabilita, ovvero: determinare la legge P ∈ P del carattere, sulla base di in-formazioni relative a probabilita empiriche ricavate da un campione estratto dallapopolazione.

Di questo problema si occupa la Statistica inferenziale la quale, attraverso l’analisidei dati forniti dal campione, ha lo scopo di definire univocamente, e “nel migliormodo possibile”, la legge probabilistica incognita P che descrive la natura aleatoriadi quel particolare carattere della popolazione.

Una volta assegnata la famiglia delle leggi probabilistiche che riteniamo ammissibili,l’insieme (Ω,B,P) costituisce il modello statistico per il fenomeno casuale (o per ilcarattere della popolazione) che si sta studiando. Nel seguito supporremo di esami-nare un carattere quantitativo di una popolazione o, al piu, un carattere in qualchemodo suscettibile di un ordinamento. In tal caso, ogni elemento P ∈ P dipenderain generale da un insieme di parametri incogniti θi ∈ Θ ⊆ IR, che varia a seconda

181

Page 190: dispense di Probabilita' e Statistica

182 DISTRIBUZIONI CAMPIONARIE

della famiglia P che caratterizza il modello statistico.

I modelli che piu frequentemente si adottano nella Statistica inferenziale fanno rife-rimento a note leggi di distribuzione di probabilita, tra cui quelle citate nel §2.3. Sead esempio stiamo studiando un carattere che puo assumere casualmente qualsiasimodalita in un intervallo limitato ma incognito, il modello statistico piu pertinentee quello uniforme con due parametri, che si indica con R(θ1, θ2) ed e definito dallafamiglia di densita:

f(x, θ1, θ2) =1

θ2 − θ1, x ∈ [θ1, θ2],

i cui parametri incogniti sono da ricercarsi nel dominio

Θ = (θ1, θ2) : −∞ < θ1 < θ2 < +∞.Se si suppone che il carattere sia distribuito normalmente, con valor medio da de-terminarsi, si ricorre al seguente modello Normale-1:

N (θ, σ2) : θ ∈ Θ = IR, f(x, θ) =1

(2πσ)1/2exp

[−(x− θ)2

2σ2

].

Se invece della distribuzione normale teorica si conosce il valor medio e si vuoledeterminare la varianza, si definisce il modello Normale-2:

N (µ, θ) : θ ∈ Θ = IR+ , f(x, θ) =1

(2πθ)1/2exp

[−(x− µ)2

],

e se si vuole determinare sia il valor medio che la varianza, il modello statistico diriferimento e quello Normale generale:

N (θ1, θ2) : f(x, θ1, θ2) =1

(2πθ2)1/2exp

[(x− θ1)2

2θ2

]

nel quale i due parametri incogniti sono da ricercare nel dominio

Θ = (θ1, θ2) : −∞ < θ1 < +∞, θ2 > 0.Il modello che si assume per effettuare la statistica dei dati risultanti da una sequenzadi n prove ripetute e indipendenti, con probabilita di successo incognita, e quelloBinomiale:

Bi(n, θ) : θ ∈ Θ = (0, 1), f(x, θ) =n∑

k=0

(n

k

)θk(1− θ)n−kδ(x− k),

e se la probabilita di successo teorica e molto piccola si usa, come prescritto dallalegge degli eventi rari, il modello di Poisson:

Π(θ) : θ ∈ Θ = IR+ , f(x, θ) = e−θ∞∑

k=0

θk

k!δ(x− k).

Infine, negli studi di affidabilita e per la previsione statistica dei guasti si puo ricor-rere al modello esponenziale:

E(θ) : θ ∈ Θ = IR+, f(x, θ) = θeθx, x ≥ 0.

Page 191: dispense di Probabilita' e Statistica

7.2 – Teoria dei campioni 183

7.2 Teoria dei campioni

La valutazione dei parametri incogniti che sono presenti in un modello statisticodel tipo, per esempio, di quelli appena citati, si effettua con l’esame di una piccolaparte della popolazione, opportunamente scelta con criteri di casualita medianteestrazione di n elementi della popolazione. Questa parte della popolazione, sullaquale si concentrano le osservazioni atte a fornire le informazioni mancanti al modellostatistico, e il campione di grandezza (o numerosita) n.

La scelta degli elementi di popolazione che vanno a costituire il campione puo es-sere effettuata in molti modi diversi, ma deve comunque seguire regole precise conl’obiettivo di riprodurre nel miglior modo possibile tutte le proprieta di quel carat-tere della popolazione che si vuole studiare. I metodi di campionamento piu notisono:

• il campionamento casuale, che si ottiene effettuando estrazioni statisticamenteindipendenti da un insieme di individui che hanno tutti la medesima proba-bilita di essere estratti ;

• il campionamento stratificato, nel quale la popolazione e anzitutto suddivisa ingruppi di individui con caratteristiche omogenee. Da ciascuno di questi stratidi popolazione si estrae quindi un numero di individui che e proporzionale allanumerosita del gruppo stesso;

• il campionamento a grappoli, il cui metodo consiste invece nella suddivisionedella popolazione in tanti gruppi di individui eterogenei, ognuno dei quali siarappresentativo delle caratteristiche dell’intera popolazione. Il campione daesaminare e in tal caso uno qualsiasi di questi gruppi, che puo essere scelto perestrazione o per comodita di elaborazione dei dati.

Si utilizzano anche metodi di campionamento piu raffinati, che con tecniche diversecombinano tra loro quelli ora citati. Tuttavia, nel seguito ci limiteremo a trattareunicamente le tecniche da sviluppare quando si effettua un campionamento casuale.

In questo contesto, la condizione di equiprobabilita delle estrazioni implica teorica-mente che nella definizione del campione, l’estrazione di ciascuno degli n elementi dauna popolazione finita debba essere effettuata con ripetizione, ovvero assicurando lapossibilita che l’elemento scelto possa ripresentarsi ad una qualsiasi estrazione suc-cessiva. Questa condizione si verifica, per esempio, quando nella estrazione di npalline da un’urna, ogni pallina estratta viene reimbussolata, al fine di non modifi-care la popolazione da cui si effettua ogni estrazione successiva.

Se questa condizione non si verifica, l’estrazione e chiamata senza ripetizione oin blocco, e modifica le probabilita teoriche delle successive estrazioni, perche con-dizionate da quella gia effettuata che non puo piu ripetersi. I risultati che ricaveremonell’ipotesi di equiprobabilita delle estrazioni, dovranno pertanto essere corretti, seesse avvengono senza ripetizione. Tuttavia, questa correzione e significativa solose la popolazione e costituita da pochi individui, mentre diventa trascurabile se la

Page 192: dispense di Probabilita' e Statistica

184 DISTRIBUZIONI CAMPIONARIE

numerosita N degli individui della popolazione e elevata, ed e teoricamente nullaper N →∞, ossia per popolazioni di infiniti elementi.

In ogni caso, un campione casuale di grandezza (numerosita) n, scelto per effettuarela statistica su un carattere quantitativo X della popolazione, sara descritto daun insieme X = X1, X2, . . . , Xn di n elementi, al quale corrisponde l’insiemex = x1, x2, . . . , xn degli n valori osservati.

Teoricamente, se facessimo tendere a +∞ la numerosita del campione che estraiamoda una popolazione infinita, allora il campione coinciderebbe con la popolazionestessa, e la distribuzione delle probabilita empiriche che si potrebbe ricavare secondola tecnica spiegata nel Capitolo precedente si identificherebbe con la densita di pro-babilita del carattere X della popolazione. Ma i metodi della indagine statistica sibasano proprio sull’ipotesi opposta: quella di avere a disposizione un campione connumerosita n molto minore degli N individui della popolazione.

Se la collezione degli n elementi del campione e casuale, in generale a ciascunapossibile scelta corrispondera un valore diverso della osservazione xi fatta a propo-sito dell’i-esimo elemento del campione estratto dalla popolazione. Di conseguenza,l’insieme X che descrive il generico campione di grandezza n deve essere riguardatocome un vettore aleatorio, insieme di n variabili casuali Xi, i = 1, .., n, le quali sonostatisticamente indipendenti nel caso che il campione sia stato estratto casualmentee con ripetizione.

Si chiama statistica campionaria, o anche riassunto campionario, qualsiasi quantitag(X) che si esprime per mezzo delle n variabili casuali Xi, e che interessa valutare invista della stima dei parametri del modello statistico. Una statistica campionaria eanch’essa una variabile casuale Gn = g(X), e come tale e dotata di una distribuzionedi probabilita che chiameremo distribuzione campionaria della statistica Gn.

Un esempio di statistica di un campione di ordine n e la variabile casuale

Gn =1n

(Xq1 + Xq

2 + . . . .. + Xqn) (7.1)

che ha il significato di momento campionario di ordine q, e per q = 1 diventa lamedia campionaria cosı definita:

µn =1n

(X1 + X2 + . . . . + Xn). (7.2)

L’indice n introdotto nella notazione sta ad indicare che tale media risulta dall’esamedi un campione di grandezza n del carattere X della popolazione, e serve per di-stinguere tale media campionaria dal valor medio µ (eventualmente incognito) delladistribuzione teorica del carattere X, che e stata definita nel modello statistico.

La varianza campionaria e la variabile aleatoria definita dalla seguente statistica:

S2n =

1n

n∑

i=1

(Xi − µn)2 (7.3)

Page 193: dispense di Probabilita' e Statistica

7.3 – Distribuzione campionaria delle medie 185

che in generale potra assumere valori diversi dalla varianza teorica σ2 (eventualmenteincognita) della distribuzione probabilistica dal carattere X. La sua radice quadratapositiva Sn e la deviazione standard campionaria.

Se dalla medesima popolazione si estraggono diversi campioni di grandezza n, allorai valori che assumono le loro statistiche – e in particolare la media campionaria(7.2) e la varianza campionaria (7.3) – saranno in generale diversi e distribuiti conleggi probabilistiche che sono definite dalle rispettive distribuzioni campionarie. Neidue paragrafi che seguono ricaveremo in dettaglio le proprieta delle distribuzionicampionarie di queste due statistiche.

7.3 Distribuzione campionaria delle medie

Per valutare il valore atteso della distribuzione campionaria delle medie µn definitadalla (7.2), dobbiamo prendere in considerazione tutti i possibili campioni di gran-dezza n che possono essere estratti dalla popolazione, e fissare l’attenzione sull’i-esimo elemento Xi di questi campioni. Questo e una variabile casuale con la medes-ima distribuzione teorica del carattere X della popolazione, poiche e il risultato diestrazioni casuali dalla popolazione stessa. Indichiamo con fX(x) tale distribuzioneteorica del carattere, con µ la sua media e con σ2 la sua varianza, eventualmentesconosciute. Si ricava:

Eµn = E

1n

i

Xi

=

1n

i

EXi =1n· nEX =

1n· n · µ = µ (7.4)

Dunque, il valor medio della distribuzione campionaria della statistica µn coincidecon il valor medio µ della distribuzione teorica del carattere X.

La varianza della distribuzione campionaria delle medie (che e diversa dalla statistica(7.3), di cui ci occuperemo nel paragrafo che segue) e per definizione la quantita

σ2n = E[µn −Eµn]2 = Eµ2

n + µ2 − 2µnµ = Eµ2n − µ2

=1n2

E(X1 + . . . + Xn)2 − µ2 , (7.4′)

e per ricavarne una espressione significativa, occorre distinguere a seconda dellaprocedura che e stata seguita per estrarre il campione.

7.3.1 Campionamento con ripetizione

Se il campione e stato estratto con ripetizione da una popolazione finita di N ele-menti, oppure se N →∞, allora le variabili casuali Xi sono statisticamente indipen-denti, con uguali densita di probabilita f(xi) = fX(x). Si ha in tal caso:

E(X1 + . . . + Xn)2 =∫

(x1 + . . . + xn)2f(x1)f(x2) · · · f(xn)dx1 · · · dxn =

Page 194: dispense di Probabilita' e Statistica

186 DISTRIBUZIONI CAMPIONARIE

=∫

(x21 + . . .+x2

n +2x1x2 +2x1x3 + . . .+2xn−1xn)f(x1)f(x2) · · · f(xn)dx1 · · · dxn =

= EX21+ . . . + EX2

n+ 2n∑

i,j=1

EXiEXj.

Ma poiche le distribuzioni di tutte le Xi hanno momenti uguali a quelli della densitateorica fX(x), e inoltre il numero di combinazioni di n elementi a due a due valen(n− 1)/2 , risulta:

E(X1 + . . . + Xn)2 = n EX2+ n(n− 1)µ2.

Sostituendo questo risultato nella (7.4’) si ottiene:

σ2n =

EX2n

+n− 1

nµ2 − µ2 =

1n

[EX2 − µ2] =σ2

n. (7.5)

Dunque, la varianza della distribuzione campionaria delle medie e uguale alla vari-anza teorica della distribuzione del carattere X, divisa per la numerosita del cam-pione.

La radice quadrata positiva della quantita (7.5):

σn =σ√n

(7.5′)

e chiamata errore standard della media campionaria.

Dalla (7.5) si deduce anche che, nella ipotesi di una distribuzione teorica della popo-lazione con varianza σ2 non nulla, valgono le seguenti notevoli proprieta di conver-genza della media campionaria:

• Convergenza in media quadratica della statistica µn al valor medio µ delladistribuzione teorica fX(x). Infatti:

limn→∞σ2

n = limn→∞E(µn − µ)2 = 0.

• Legge debole dei grandi numeri. Fissato un ε > 0 arbitrario, per ladiseguaglianza di Chebyshev (v. §2.2) si ha:

IP|µn − µ| ≥ ε ≤ σ2n

ε2=

σ2

nε2

per cui, passando al limite:

limn→∞ IP|µn − µ| ≥ ε = 0. (7.6)

E’ cosı dimostrato che la statistica µn converge in probabilita al valor medioteorico µ, quando la numerosita del campione tende ad infinito.

Page 195: dispense di Probabilita' e Statistica

7.3 – Distribuzione campionaria delle medie 187

Infine, e di grande importanza il fatto che per grandi campioni e possibile deter-minare non solo i momenti del primo e del secondo ordine, ma anche la densita stessadella distribuzione campionaria delle medie. Precisamente, basandosi sul TeoremaLimite Centrale enunciato nel §2.3.2, si puo dimostrare che:

al crescere di n la distribuzione campionaria delle medie approssima la legge nor-male N (µ, σ2/n) che ha media µ e varianza data dalla (7.5).

Dimostrazione. La media campionaria (7.2) relativa a campioni estratti con ripe-tizione da una popolazione finita (oppure da una popolazione infinita) si puo ancheesprimere come µn = Sn/n, dove Sn e la somma di n variabili casuali indipen-denti che hanno la medesima densita di probabilita. Quindi, per il Teorema LimiteCentrale, la sua densita converge, per n →∞, alla distribuzione normale con media

Eµn =1n

ESn =1n· nµ = µ

e varianza

σ2n =

1n2

σ2(Sn) =1n2· nσ2 =

σ2

n,

ossia converge alla legge N (µ, σ2/n).

Per facilitare i calcoli relativi ai test statistici, al posto della media campionaria µn

si usa spesso la variabile media campionaria standardizzata gia introdotta nel §2.3.2,e definita dal rapporto

Zn =µn − µ

σn. (7.6′)

In base al Teorema Limite Centrale, si puo affermare che per n sufficientementegrande la distribuzione di Zn e ben approssimata dalla legge normale standardN (0, 1) con media nulla e varianza uguale ad 1.

7.3.2 Campionamento senza ripetizione

Se il campione e estratto senza ripetizione (“in blocco”) da una popolazione con unnumero finito N di elementi, le n variabili aleatorie Xi non sono piu indipendenti,perche ogni estrazione modifica la composizione della popolazione da cui devono es-sere scelti i successivi elementi del campione. Ne segue, per la legge delle probabilitacomposte (1.4), che la densita di probabilita congiunta del campione X non e piu ilprodotto delle densita f(xi), bensı il seguente prodotto di densita condizionate:

f(x1, . . . , xn) = f(x1)f(x2|x1)f(x3|x1, x2) · · · f(xn|x1, x2, . . . , xn−1).

Si puo dimostrare che in tal caso il valor medio della distribuzione campionaria dellastatistica µn e ancora uguale alla media teorica µ, ma la sua varianza vale:

σ2n =

σ

n

2 · N − n

N − 1. (7.7)

Page 196: dispense di Probabilita' e Statistica

188 DISTRIBUZIONI CAMPIONARIE

A parita di grandezza n del campione, se N > n non e molto elevato essa e dunqueminore della (7.5) che e valida per un campionamento con ripetizione, ma tende alvalore (7.5) quando N →∞.

Esempio 7.1

Illustriamo i risultati precedenti con il seguente esempio. In una popolazione costi-tuita da N = 5 elementi, il carattere X oggetto di studio assume rispettivamente ivalori: 2, 3, 6, 8, 11. Da essa si estraggono tutti i possibili campioni di grandezzan = 2, allo scopo di valutare la media del carattere, che evidentemente ha il valoreteorico µ = 6.

• Campionamento con ripetizione. Il numero di campioni con numerosita 2 che pos-siamo casualmente estrarre con ripetizione dalla popolazione e uguale al numero delledisposizioni con ripetizione di 5 elementi a due a due, ossia 52 = 25. In dettaglio, ipossibili campioni sono i seguenti:

2, 2 2, 3 2, 6 2, 8 2, 113, 2 3, 3 3, 6 3, 8 3, 116, 2 6, 3 6, 6 6, 8 6, 118, 2 8, 3 8, 6 8, 8 8, 1111, 2 11, 3 11, 6 11, 8 11, 11.

(7.8)

Ciascuno di questi campioni ha una media campionaria µn che vale, rispettivamente:

2 2.5 4 5 6.52.5 3 4.5 5.5 74 4.5 6 7 8.55 5.5 7 8 9.5

6.5 7 8.5 9.5 11

(7.9)

e se valutiamo le frequenze relative di ciascuna di queste medie campionarie, pos-siamo costruire il grafico a) di Fig. 7.1. Esso rappresenta una densita di probabilitadiscreta che definisce la distribuzione campionaria delle medie relativa alla statisticain oggetto. Il valor medio di questa distribuzione vale:

Eµn =125

[2 + 3 + 6 + 8 + 11 + 2(2.5 + 4 + 5 + 5.5 + 6.5 + 8.5 + 9.5) + 4.7] = 6

e, in accordo con la (7.4), coincide con il valore teorico µ prima citato.

Se ci proponiamo di valutare µ attraverso il valore della statistica µn che ricaviamoda un solo campione estratto casualmente, e assai probabile che il risultato nonsia uguale a 6. L’errore medio che possiamo compiere e legato alla dispersione delladistribuzione di figura rispetto al suo valor medio, e si valuta calcolandone la varianzaσ2

n definita dalla (7.4). Si trova:

σ2n =

125

[(2− 6)2 + 2(2.5− 6)2 + . . . + 2(9.5− 6)2 + (11− 6)2] =13525

= 5.4.

Page 197: dispense di Probabilita' e Statistica

7.3 – Distribuzione campionaria delle medie 189

2 21 13 34 45 56 67 78 89 910 1011 110 0mn

mn

1/25

2/252/20

4/25

4/20

mnf ( )

25

mnf ( )

20

a) campionamento con ripetizione b) campionamento senza ripetizione

Figura 7.1

Questa varianza della distribuzione delle medie campionarie e legata alla varianzateorica del carattere X, Infatti si verifica subito che, come previsto dalla (7.5) conn = 2, e la meta della varianza teorica σ2 che vale:

σ2 =15[(2− 6)2 + (3− 6)2 + . . . + (11− 6)2] = 10.8 .

La radice quadrata di σ2n vale σn = 2.32379. Questo e l’errore standard che si

commette nel valutare il valor medio del carattere, attraverso l’analisi della statisticaµn effettuata su un suo campione di grandezza n = 2.

• Campionamento senza ripetizione. In tal caso, il numero totale di campioni chepossiamo estrarre e uguale alle disposizioni senza ripetizione di 5 elementi a due adue, e vale

5!(5− 2)!

= 20.

I campioni sono quelli dell’insieme (7.8) privato degli elementi sulla diagonale princi-pale, che contengono valori ripetuti. Le 20 possibili medie campionarie sono ancoraindicate nella (7.9), con esclusione dei valori 2, 3, 6, 8, 11 che si trovano sulla diago-nale principale. La distribuzione delle frequenze relative di queste medie campionariee mostrata nel grafico b) di Fig. 7.1. Questa distribuzione ha ancora valor medioEµn = 6 ma varianza minore che, in accordo con la (7.7), vale:

σ2n =

220

[(2.5− 6)2 + (4− 6)2 + . . . + (9.5− 6)2] = 4.05 ≡ 34· σ2

2.

L’errore standard nella valutazione della media del carattere e quindi leggermenteinferiore, e vale σn = 2.01.

Esempio 7.2: Distribuzione della differenza di medie campionarie

Le lampadine prodotte dall’azienda A hanno una vita media µA di 1400 ore, condeviazione standard σA = 200 ore; quelle dell’azienda B hanno vita media µB = 1200ore, con deviazione standard σB = 100 ore. Si prova un campione casuale di n = 125lampadine estratte dalla produzione dell’azienda A, e un campione di m = 100

Page 198: dispense di Probabilita' e Statistica

190 DISTRIBUZIONI CAMPIONARIE

lampadine provenienti dalla produzione dell’azienda B. Calcolare la probabilita chele lampadine fornite dal produttore A abbiano una vita media:

1) di almeno 160 ore maggiore di quelle fornite da B;

2) che differisce per meno di 150 ore dalla vita media di quelle prodotte da B.

Le distribuzioni campionarie delle medie µn e µm dei due campioni sono entrambeapprossimabili con leggi normali, aventi valore atteso uguale a quello della popo-lazione da cui sono estratti:

Eµn = µA = 1400, Eµm = µB = 1200.

Le loro deviazioni standard, per la (7.5’), sono rispettivamente:

σn =σA√125

= 17.888 ; σm =σB√100

= 10.

Definiamo la variabile casuale d(ω) che denota la differenza tra le medie campionarie:

d(ω) = µn − µm.

Essa ha una distribuzione con valor medio

Ed = Eµn − Eµm = 1400− 1200 = 200 ore,

e la sua varianza si determina applicando la (3.8) del Capitolo III, dopo aver posto:a = 1, b = −1, X ≡ µn, Y ≡ µm:

σ2(d) = σ2n + σ2

m − 2 Cov (µn, µm).

Se i due campioni estratti sono statisticamente indipendenti, la loro covarianza enulla e anche d(ω) ha legge normale, come dimostrato nell’Esempio 4.6 del capitolo4, con deviazione standard

σ(d) =√

σ2n + σ2

m =√

(17.888)2 + 102 ' 20.49 ore.

Per calcolare le probabilita richieste, usiamo la variabile casuale standardizzata:

Z(ω) =d− Ed

σ(d)=

d− 20020.49

che ha una distribuzione normale N (0, 1) e calcoliamo i valori z che essa assume perd = 160 e per d = ±150. Si trova subito:

d = 160 : z0 = −1.952d = −150 : z1 = −17.08

d = 150 : z2 = −2.44 .

Le probabilita cercate si ricavano allora utilizzando la (2.32) e la Tabella dei valoridi erf(z) che si trova in Appendice:

IP(d ≥ 160) = P (Z ≥ z0) =12

+ erf (1.952) = 0.9744

IP(|d| < 150) = IP(z1 < Z < z2) = erf (−2.44)− erf (−17.08) =

' 12− erf (2.44) = 0.5− 0.4927 = 0.0073 .

Page 199: dispense di Probabilita' e Statistica

7.4 – Distribuzione campionaria delle varianze 191

7.4 Distribuzione campionaria delle varianze

7.4.1 Campionamento con ripetizione

Se il modello statistico che si assume per studiare la popolazione e quello normale,e se il campione e estratto con ripetizione da una popolazione finita, oppure se lapopolazione e infinita, la statistica (7.3), chiamata varianza campionaria, ha unadistribuzione che si puo dedurre applicando il seguente, importante:

TEOREMA (Chi-quadrato)

Se da una popolazione normalmente distribuita con varianza σ2 si estraggono cam-pioni casuali di numerosita n, la variabile aleatoria

Qn(ω) =nS2

n

σ2≡ 1

σ2

i

(Xi − µn)2 (7.10)

ha una distribuzione χ2n−1 con (n− 1) gradi di liberta’.

Ricordando le proprieta della distribuzione Chi-quadrato, gia presentata nel Capitolo2, la variabile Qn ha dunque la densita (2.40) con n−1 al posto di n, ha valor medioEQn = n− 1 e varianza σ2Qn = 2(n− 1).

10

1f ( )

nS2

f ( )nS2^

nS2^

n = 21

n = 11

s = 12

2 3

0.5

1.5

E

nS2E

Figura 7.2 - Distribuzioni campionarie della varianza

La varianza campionaria S2n e definita, per la (7.10), dalla trasformazione lineare

S2n = g(Qn) =

σ2

nQn ,

e usando le formule di trasformazione per funzioni di variabili casuali la sua distri-buzione campionaria ha una densita di probabilita che si ricava applicando la (4.5)o la (4.10) del Capitolo 4. Poiche si ha

g−1(S2n) =

nS2n

σ2;

dg−1

dS2n

=n

σ2,

Page 200: dispense di Probabilita' e Statistica

192 DISTRIBUZIONI CAMPIONARIE

si ricava:

f(S2n) = fχ2

n−1

(Qn =

nS2n

σ2

)·∣∣∣∣∣dg−1

dS2n

∣∣∣∣∣ = fχ2n−1

(Qn =

nS2n

σ2

)· n

σ2. (7.11)

In Fig. 7.2 sono riportate con linea continua due distribuzioni campionarie di S2n,

calcolate assumendo σ2 = 1 e n = 11 e 21. Il loro valor medio vale:

ES2n =

σ2

nEQn =

n− 1n

σ2 (7.12)

e la sua varianza si puo calcolare come segue:

σ2(S2n) = E(S2

n)2 − σ4(n− 1)2

n2=

(σ2

n

)2

EQ2n −

σ4(n− 1)2

n2=

=σ4

n2[EQ2

n − (n− 1)2] =σ4

n2[EQ2

n −E2Qn] =σ4

n2σ2Qn =

2(n− 1)n2

· σ4

dove σ2 e la varianza teorica della popolazione con distribuzione normale. Pern >> 1, si puo accettare il risultato: σ2(S2

n) ∼= 2σ4/n, e di conseguenza la deviazionestandard della distribuzione campionaria delle varianze e ben approssimata da:

σ(S2n) ∼= σ2

√2/n. (7.13)

La (7.12) mostra un risultato degno di nota:

il valor medio della statistica S2n non coincide con la varianza teorica σ2 della

popolazione.

Questa proprieta, che come vedremo e assai importante ai fini della stima dellavarianza sconosciuta di un carattere della popolazione, e invece soddisfatta dallaseguente statistica:

S2n =

n

n− 1S2

n ≡1

n− 1

i

(Xi − µn)2 (7.14)

che chiameremo varianza campionaria corretta, la quale ha evidentemente valor medio

ES2n =

n

n− 1ES2

n = σ2. (7.15)

La distribuzione campionaria di questa varianza corretta S2n si ricava facilmente

invertendo la trasformazione (7.14) e usando la (7.11). Anche essa si esprime intermini della densita Chi-quadrato della variabile

Qn =n

σ2· S2

n =n− 1σ2

· S2n ,

Page 201: dispense di Probabilita' e Statistica

7.4 – Distribuzione campionaria delle varianze 193

e vale:

f(S2n) = f

(S2

n =n− 1

nS2

n

)· n− 1

n= fχ2

n−1

(Qn =

n− 1σ2

S2n

)· n− 1

σ2. (7.16)

Le distribuzioni (7.16) che si ottengono per n = 11 e n = 21 sono riportate con lineatratteggiata in Fig. 7.2, e sono confrontate con le distribuzioni campionarie (7.11)della statistica S2

n. La varianza della distribuzione “corretta” (7.16) vale:

σ2(S2n) = E(S2

n)2 − σ4 = σ4

[EQ2

n(n− 1)2

− 1

]=

σ4

(n− 1)2σ2(Qn) =

2n− 1

σ4.

La sua deviazione standard e percio

σ(S2n) = σ2

√2

n− 1(7.17)

e per n >> 1 e assai vicina a quella della distribuzione delle varianze campionarieS2

n.

7.4.2 Campionamento senza ripetizione

Se il campione e estratto “in blocco” da una popolazione con un numero finito Ndi elementi, tenuto conto delle osservazioni fatte nel §7.3.2 la distribuzione campio-naria di S2

n non e piu quella definita con la (7.11). Calcoli piu laboriosi mostrano,in particolare, che anche il suo valor medio e diverso dal valore (7.12), e deve esseremodificato in:

ES2n =

N

N − 1· n− 1

nσ2. (7.18)

Da quest’ultima segue che la varianza campionaria corretta S2n con valor medio

uguale alla varianza teorica, si modifica in tal caso nella statistica:

S2n =

N − 1N

· n

n− 1· S2

n =N − 1

N· 1n− 1

i

(Xi − µn)2 , (7.19)

da usare al posto della statistica (7.14).

Page 202: dispense di Probabilita' e Statistica

194 DISTRIBUZIONI CAMPIONARIE

Esempio 7.3

Riprendiamo lo studio dei 25 campioni (7.8) che si possono estrarre con ripetizionedalla popolazione costituita da 5 elementi con valore 2, 3, 6, 8, 11, che come si e giavisto ha varianza teorica σ2 = 10.8. Ciascuno di essi ha una statistica S2

n (con n =2) che vale:

0 0.25 4 9 20.250.25 0 2.25 6.25 164 2.25 0 1 6.259 6.25 1 0 2.25

20.25 16 6.25 2.25 0

(7.20)

e il calcolo delle frequenze relative porta alla definizione di una distribuzione cam-pionaria discreta, che e mostrata nel grafico a) di Fig. 7.3. Il valor medio di taledistribuzione vale:

ES2n =

125

[4(2.25 + 6.25) + 2(0.25 + 4 + 9 + 1 + 16 + 20.25)] =275

= 5.4

e, in accordo con il risultato (7.12), e la meta della varianza teorica σ2. Ne segue chela varianza campionaria corretta, il cui valor medio coincide con σ2, e la statisticaS2

n = 2S2n i cui valori possibili sono il doppio di quelli riportati nella (7.20).

2 212 1214 144 416 166 618 188 820 2010 1022 220 0

5/25 4/20

2/252/20

4/25

f ( ) f ( )

25 20

a) campionamento con ripetizione b) campionamento senza ripetizionenS2

nS2

nS2

nS2

nS2E nS

2E s2

s2

Figura 7.3

Campionamento senza ripetizione. I 20 possibili campioni estratti senza ripetizionedalla stessa popolazione hanno tutti varianze S2

n non nulle, definite nella (7.20) conesclusione dei valori sulla diagonale principale. La distribuzione delle loro frequenzerelative e mostrata nel grafico b) di Fig. 7.3, ed ha valor medio

ES2n =

120

[4(2.25 + 6.25) + 2(0.25 + 4 + 9 + 1 + 16 + 20.25)] =274

= 6.75.

Osservando che274

=54· 27

5=

54· 12· σ2 ,

si riconosce che il risultato ottenuto verifica la (7.18), valida per campioni senzaripetizione. Inoltre, in tal caso la varianza campionaria corretta e definita, per la

Page 203: dispense di Probabilita' e Statistica

7.5 – Distribuzione campionaria delle frequenze 195

(7.19), dalla statistica

S2n =

45· 2 · S2

n =85S2

n ,

il cui valor medio coincide con la varianza teorica della popolazione. Infatti:

ES2n =

85ES2

n =85· 27

4=

545

= σ2.

7.5 Distribuzione campionaria delle frequenze

Supponiamo che il carattere X della popolazione da cui si estrae il campione abbiadue sole modalita, il cui esame puo dar luogo a realizzazioni di due soli eventi casualiincompatibili ed esaustivi (vero/falso, bianco/nero,....). In tale ipotesi il modellostatistico per X e quello Binomiale, in cui p e la probabilita teorica di “successo”(X e vero, bianco,...) e q = 1− p e la probabilita di “fallimento”.

Indichiamo ora con ns il numero (ossia anche la frequenza assoluta) di “successi” rile-vati in un campione casuale estratto da questa popolazione con n prove indipendenti.La distribuzione campionaria f(ns) di queste frequenze e definita dalla probabilitadi osservare ns successi, la quale e data dalla formula di Bernoulli (2.42). Dunqueanche f(ns) e binomiale, descritta dalla densita discreta (2.45) del Capitolo 2 edefinita sull’insieme dei numeri interi positivi. Se n e sufficientemente grande, essasi approssima nel continuo con una legge normale (v. Fig. 7.4) con media e varianzache valgono:

Ens = np , σ2(ns) = npq . (7.21)

Ne segue, ad esempio, che le probabilita di osservare un numero di successi maggioredi k0 oppure compreso tra k1 e k2 si approssimano, per un campione di numerositan sufficientemente grande, con

IP(ns > k0) ' IP(Z > z0) =12− erf (z0)

IP(k1 ≤ ns ≤ k2) ' IP(z1 ≤ Z ≤ z2) = erf (z2)− erf (z1)

dove si e posto:

zi =ki − np√

npq.

La frequenza relativa dei successi: Y = ns/n, e invece una variabile aleatoria convalori in IR+, la cui distribuzione e definita dalla densita

fY (y) = f(ns = ny) · n ∼ n · N (p, pq/n).

Per n sufficientemente grande, essa si approssima con una distribuzione normaleavente valor medio e varianza che valgono:

EY =Ens

n=

np

n= p ,

Page 204: dispense di Probabilita' e Statistica

196 DISTRIBUZIONI CAMPIONARIE

N (8, 7.84)

8642 10 12 14 n s

n s

0

f( )

Figura 7.4 - Distribuzione campionaria delle frequenze nell’Esempio 7.4

σ2Y =

σ2(ns)n2

=npq

n2=

p(1− p)n

. (7.22)

Esempio 7.4

Dall’analisi della produzione di un utensile, risulta che il 2% del prodotto di fabbri-cazione e difettoso. Si vuole calcolare la probabilita che in un lotto di 400 utensiliappena consegnati a un cliente quelli difettosi siano almeno 12.

Il lotto in questione si puo considerare un campione estratto con n = 400 proveripetute e indipendenti da una popolazione di infiniti elementi. Durante la sceltadel campione, ciascuna estrazione avviene con una probabilita teorica p = 0.02 diavere un prodotto difettoso (nel nostro caso, la scelta di un utensile difettoso e il“successo”).

La distribuzione campionaria delle frequenze ns di utensili difettosi, mostrata in Fig.7.4, e approssimabile con una curva normale con media e deviazione standard chevalgono:

Ens = np = 400 · 0.02 = 8

σ(ns) =√

np(1− p) =√

400 · 0.02 · 0.98 = 2.8.

Si deve determinare la probabilita IP(ns ≥ 12), rappresentata dall’area ombreggiatain figura. Per calcolarla, utilizziamo la variabile standardizzata

Z =ns − Ens

σ(ns),

che per ns = 12 vale z = 1.428. Ricordando quindi la (2.32) e usando la Tabella dierf(z) in Appendice, si ricava:

IP(ns ≥ 12) = 1− IP(Z < 1.428) ' 12− erf (1.43) =

12− 0.4236 = 0.0764.

Page 205: dispense di Probabilita' e Statistica

7.6 – Problemi risolti 197

In Fig. 7.4 sono anche disegnati i rettangoli con base unitaria e altezza uguale alleprobabilita (2.42) di avere un campione con ns successi. La probabilita ora calcolatae approssimata dall’area di questi rettangoli che si trova a destra di ns = 12.

Si badi pero che l’insieme di questi rettangoli non deve essere confuso con l’isto-gramma delle frequenze empiriche delle modalita di un carattere X, che e statodefinito del Capitolo precedente. Infatti, se le osservazioni da rilevare nel campi-one riguardano due possibili modalita (“successo” o “fallimento”) di un carattere,l’istogramma delle loro frequenze sara costituito da due soli rettangoli, con altezzaproporzionale rispettivamente al numero dei successi e dei fallimenti che si osservanoin quel particolare campione esaminato. I rettangoli di Fig. 7.4 hanno invece baseunitaria, centrata sulle possibili frequenze ns della modalita “successo”, e altezzauguale alla probabilita bernoulliana di osservare queste frequenze di successo.

7.6 Problemi risolti

7.1. Si estrae un campione di numerosita n = 64 da una popolazione con varianzaσ2 = 121. Calcolare la probabilita di avere una media campionaria che differisce perpiu di 2 unita da quella incognita della popolazione.

Soluzione. La distribuzione campionaria delle medie si approssima con una leggenormale avente media Eµn uguale alla media teorica µ e varianza σ2

n = σ2/n =121/64 = (11/8)2. Se introduciamo la variabile standardizzata

Zn =µn − µ

σn

la probabilita richiesta si calcola nel modo seguente:

P (|µn − µ| > 2) = P (σn|Zn| > 2) = P (|Zn| > 2 · 8/11 = 1.4545) = 1− 2 erf(1.4545)

e dalla Tabella di erf(z) si ricava:

P (|µn − µ| > 2) ' 1− 2 · 0.427 = 0.146 .

7.2. Si estrae un campione Xi da 50 osservazioni di un carattere avente un modellostatistico normale N (2, 1), ma e noto soltanto il numero Z di osservazioni dalle qualirisulta Xi ≤ 0, i = 1, . . . , 50. Determinare la legge di Z(ω).

Soluzione. Le 50 osservazioni sono altrettante prove ripetute e indipendenti di unesperimento casuale. Se chiamiamo “successo” l’evento S = Xi ≤ 0, esso si verificacon probabilita

p = IPX ≤ 0 =12

+ erf(

0− µ

σ

)=

12− erf(2) =

12− 0.4772 = 0.0228.

La variabile casuale Z che rappresenta il numero di eventi S che si verificano in 50prove ha pertanto distribuzione binomiale con parametri n = 50, p = 0.0228:

Z ∼ B(50, 0.0228) .

Page 206: dispense di Probabilita' e Statistica

198 DISTRIBUZIONI CAMPIONARIE

7.3. Si dispone di un campione di 100 osservazioni del carattere X di una popo-lazione, la cui deviazione standard e nota e vale σ = 120. Qual’e la probabilita chela media campionaria differisca per piu di 3 unita da quella incognita del carattereX ?

Risposta. La distribuzione campionaria delle medie si approssima con una leggenormale avente media Eµn uguale alla media teorica µ e deviazione standardσn = σ/

√100 = 12.

Se Zn e la corrispondente variabile standardizzata, la probabilita richiesta vale

P (|µn − µ| > 3) = P (σn|Zn| > 3) = P (|Zn| > 0.25) = 1− 2 erf(0.25)

e dalla Tabella di erf(z) si ricava:

P (|µn − µ| > 3) ' 1− 2 · 0.0987 = 0.9026 .

7.4. In un lotto di 50 pile, la loro tensione in uscita ha una deviazione standarddi 25V . Se da questo lotto ne estraiamo senza ripetizione n = 25, qual’e la proba-bilita che la media delle pile estratte differisca per piu di 1 Volt dalla media teoricadichiarata dal costruttore ?

Risposta. Poiche il campione di n = 25 pile e estratto in blocco da una popolazionedi N = 50 elementi, la distribuzione campionaria della tensione media ha leggenormale con deviazione standard

σn = σ

√N − n

n(N − 1)= 2

√50− 25

25(50− 1)=

27

e per renderla normale standard si puo definire la variabile campionaria

Zn =µn − µ

σn=

72(µn − µ).

La probabilita rischiesta vale quindi:

P (|µn − µ| > 1) = P (|Zn| > 3.5) = 1− 2 erf(3.5)

e dalla Tabella di erf(z) si ricava:

P (|µn − µ| > 1) ' 1− 2 · 0.4998 = 4 · 10−4 .

7.5. La lunghezza di 3000 lamine e distribuita normalmente con media µ = 68 mme scarto quadratico medio σ = 3 mm. Si estraggono, con ripetizione, 80 campioni di25 lamine ciascuno. Determinare in quanti campioni ci si deve aspettare una mediacompresa tra 66, 8 e 68, 3 mm.

Soluzione. La distribuzione campionaria delle medie ricavate dai campioni di nu-merosita n = 25 e normale, con media µn = µ = 68 e deviazione standard σn =3/√

25 = 0.6 mm.

Page 207: dispense di Probabilita' e Statistica

7.6 – Problemi risolti 199

Introdotta la variabile standardizzata Zn = (µn−68)/0.6, la probabilita che la mediacampionaria sia compresa tra 66.8 e 68.3 mm. si calcola come segue:

P (66.8 ≤ µn ≤ 68.3) = P [(66.8− 68)/0.6 ≤ Zn ≤ (68.3− 68)/0.6] == P (−2 ≤ Zn ≤ 0.5) = erf(0.5) + erf(+2)

e dalla Tabella di erf(z) si ricava:

P (66.8 ≤ µn ≤ 68.3) = 0.1915 + 0.4772 = 0.6687 = p.

Per la legge dei grandi numeri, p e il valore del rapporto tra il numero Nx di campioniin cui P (66.8 ≤ µn ≤ 68.3) e il numero totale dei campioni estratti. Quindi

0.6687 =Nx

80⇒ Nx = 80 · 0.6687 ' 53

arrotondato all’unita per difetto.

7.6. Data la popolazione dei numeri 0, 2, 4, 6, 8:

a) calcolare la media µ e la varianza σ2 della popolazione;

b) elencare i possibili campioni di numerosita n = 2 estraibili con ripetizione da talepopolazione;

c) elencare i possibili valori della media campionaria X e le relative probabilita;

d) sulla base dei dati ricavati al punto precedente, calcolare la media µX e la varianzaσ2

Xdella media campionaria X, verificando che valgono le uguaglianze: µX = µ;

σ2X

= σ2/n.

Soluzione.

a) Media e varianza valgono

µ =205

= 4 , σ2 =16 + 4 + 4 + 16

5= 8 .

b) I campioni di numerosita 2 estraibili con ripetizione sono 52 = 25, e precisamente:

0,0 0,2 0,4 0,6 0,82,0 2,2 2,4 2,6 2,84,0 4,2 4,4 4,6 4,86,0 6,2 6,4 6,6 6,88,0 8,2 8,4 8,6 8,8 .

c) Le medie di ciascun campione valgono rispettivamente:

0 1 2 3 41 2 3 4 52 3 4 5 63 4 5 6 74 5 6 7 8

Page 208: dispense di Probabilita' e Statistica

200 DISTRIBUZIONI CAMPIONARIE

e quindi i possibili valori di X hanno queste probabilita:

p(0) = 1/25, p(1) = 2/25, p(2) = 3/25, p(3) = 4/25, p(4) = 1/25,p(5) = 4/25, p(6) = 3/25, p(7) = 2/25, p(8) = 1/25.

d) µX =125

(2 + 3 · 2 + 4 · 3 + 5 · 4 + 4 · 5 + 3 · 6 + 2 · 7 + 8) =10025

= 4 ≡ µ

σ2X =

125

(16 + 2 · 9 + 3 · 4 + 4 + 4 + 3 · 4 + 2 · 9 + 16) =10025

= 4 ≡ σ2/2 .

7.7. I pacchi da sei bottiglie di acqua minerale confezionati da uno stabilimentohanno un peso medio di 9, 3 Kg., con varianza σ2 = 0, 4 Kg2. Calcolare la probabilitache un campione di n = 20 pacchi proveniente dallo stabilimento abbia un peso totalemaggiore di 184 Kg.

Soluzione. La distribuzione campionaria del peso medio di ogni pacco ha valor medioEµn = µ = 9.3 Kg e varianza

σ2n = σ2/n = 0.4/20 = 0.02 Kg2.

La probabilita richiesta e uguale a quella che un singolo pacco abbia un peso maggioredi 184/20 = 9.2 Kg. e si calcola come

IP(

Zn ≥ 9.2−Eµnσn

)= IP(Zn ≥ −0.7071) =

12

+erf(0.7071) ' 12

+0.26 = 0.76 .

7.8. Due fornitori riforniscono lo stesso negozio di CD; il primo ne fornisce il 70%,e il secondo il 30% del totale. Da un’indagine campionaria della ditta acquirenterisulta che il 94% dei CD del primo fornitore ha un diametro maggiore di 12.45 cm.e il 10% maggiore di 12.58 cm. Inoltre, l’8% dei CD del secondo fornitore ha undiametro minore di 12.45 cm. e il 95% e minore di 12.6 cm. Assumendo che ladistribuzione dei diametri dei CD sia normale,

a) determinare la percentuale dei CD ricevuti dal negozio con diametro compresotra 12.4 e 12.6 cm.

b) avendo venduto un CD con un diametro non compreso tra 12.4 e 12.6 cm., qual’ela probabilita che quel CD provenga dal secondo fornitore?

Soluzione.

a) Occorre anzitutto determinare la media e la varianza delle distribuzioni campi-onarie normali dei CD ricevuti dai due fornitori. Se X e la variabile casuale cheindica il diametro, e Z quella standardizzata, dai dati del problema si ha che perquelli del primo fornitore:

0.94 = IP(X ≥ 12.45) = IP(

Z ≥ 12.45− µ1

σ1

)= 0.5− erf

(12.45− µ1

σ1

)

0.10 = IP(X ≥ 12.58) = IP(

Z ≥ 12.58− µ1

σ1

)= 0.5− erf

(12.58− µ1

σ1

)

Page 209: dispense di Probabilita' e Statistica

7.6 – Problemi risolti 201

ossia:erf

(µ1 − 12.45

σ1

)= 0.44 ; erf

(12.58− µ1

σ1

)= 0.40.

Dalla Tabella di erf (z) si trova:

µ1 − 12.45 = 1.56 σ1

12.58− µ1 = 1.285 σ1

e risolvendo il sistema si ricava: µ1 = 12.5213 , σ1 = 0.0457.

Analogamente, dai dati campionari sui CD del secondo fornitore, si ricava:

0.08 = IP(X ≤ 12.45) = IP(

Z ≤ 12.45− µ2

σ2

)= 0.5 + erf

(12.45− µ2

σ2

)

0.95 = IP(X ≤ 12.6) = IP(

Z ≤ 12.6− µ2

σ2

)= 0.5 + erf

(12.6− µ2

σ2

)

ossia:erf

(µ2 − 12.45

σ2

)= 0.42 ; erf

(12.6− µ2

σ2

)= 0.45.

Dalla Tabella di erf (z) si trova:

µ2 − 12.45 = 1.41 σ2

12.6− µ2 = 1.645 σ2

e risolvendo il sistema si ricava: µ2 = 12.519 , σ1 = 0.049.

Definiamo ora gli eventi: E = 12.4 cm. ≤ X ≤ 12.6 cm.; F1 = CD del primo fornitore;F2 = CD del secondo fornitore e calcoliamo:

IP(E|F1) = erf(

12.6− µ1

σ1

)− erf

(12.4− µ1

σ1

)

= erf(1.7221) + erf(2.654) ' 0.4575 + 0.496 = 0.9535

IP(E|F2) = erf(

12.6− µ2

σ2

)− erf

(12.4− µ2

σ2

)

= erf(1.653) + erf(2.4285) ' 0.45 + 0.4924 = 0.9424.

La probabilita totale che i CD abbiano diametro compreso tra 12.4 e 12.6 cm. e

IP(E) = IP(F1)IP(E|F1)+IP(F2)IP(E|F2) = 0.7·0.9537+0.3·0.9424 = 0.95017 ' 95% .

b) L’evento E′ = X 6∈ (12.4, 12.6) ha probabilita IP(E′) = 1 − IP(E) = 0.05, einoltre:

IP(E′|F1) = 1− IP(E|F1) = 0.0465 ; IP(E′|F2) = 1− IP(E|F2) = 0.0576.

La probabilita ”a posteriori” che e richiesta vale dunque:

IP(F2|E′) =0.30 · IP(E′|F2)

0.70 · IP(E′|F1) + 0.30 · IP(E′|F2)= 0.3467 .

Page 210: dispense di Probabilita' e Statistica

202 DISTRIBUZIONI CAMPIONARIE

Page 211: dispense di Probabilita' e Statistica

STIME DI PARAMETRI

Dopo aver precisato le proprieta di due tra le statistiche campionarie piu impor-tanti, ossia la media (7.2) e la varianza (7.3), in questo Capitolo ci occupiamodelle metodologie che, utilizzando i dati desunti dalla osservazione di un campionedella popolazione, consentono di determinare i valori piu attendibili da attribuireai parametri incogniti θi presenti nel modello statistico che e stato adottato per lapopolazione stessa. I metodi di stima che possiamo sviluppare sono di due tipi:

• stima puntuale, se si utilizza una statistica campionaria Gn = g(X1, . . . , Xn)con l’obiettivo di determinare il valore corretto di un parametro incognito ϑdella popolazione;

• stima per intervalli di confidenza se, oltre al valore approssimato del parametroincognito da stimare, si precisa anche il grado di approssimazione della stimapuntuale effettuata, determinando la probabilita che il valore stimato ap-partenga a un prefissato intervallo.

Nei due paragrafi che seguono sono illustrate le modalita con cui si perviene a questidue tipi di stima parametrica.

8.1 Stima puntuale

Una statistica campionaria Gn = g(X1, . . . , Xn), utilizzata per stimare il valore inco-gnito di un parametro θ del modello statistico della popolazione, si chiama stimatorepuntuale di ϑ.

Avendo a disposizione le realizzazioni (x1, . . . , xn) di un campione, sono molti glistimatori puntuali che possiamo definire. Per esempio: se ϑ e un valor medio,possiamo scegliere come suo stimatore il riassunto (7.2), oppure la mediana (6.3)della distribuzione di frequenze nel campione esaminato. Se ϑ e una varianza, duesuoi stimatori possono essere la statistica (7.3), oppure quella “corretta” (7.14).

Quale statistica scegliere, per avere i risultati piu attendibili? Il criterio da seguirenella scelta si basa sulla verifica che lo stimatore abbia ben definite proprieta, chesono precisate dalle definizioni che seguono.

203

Page 212: dispense di Probabilita' e Statistica

204 STIME DI PARAMETRI

• Stimatore corretto. La statistica Gn e uno stimatore corretto, o imparziale,o non distorto (“unbiased”) di θ se il suo valore atteso coincide con il valoreteorico del parametro da stimare, per qualsiasi legge probabilistica compatibilecon il modello statistico della popolazione:

EGn = θ, ∀ P (x, θ) ∈ P. (8.1)

• Stimatore consistente. La statistica Gn e uno stimatore consistente “in pro-babilita” se, per qualsiasi ϑ compatibile con il modello statistico, esso convergeal valore teorico ϑ con probabilita 1 quando la numerosita del campione tendead infinito:

limn→∞ IP(|Gn − ϑ| ≤ ε) = 1, ∀ε > 0. (8.2)

Gn e invece consistente “in media quadratica” se per n →∞ si annulla il suoerrore quadratico medio:

limn→∞E(Gn − ϑ)2 = 0 (8.2′)

e in tal caso e anche consistente in probabilita.

Se Gn e uno stimatore corretto, il suo errore quadratico medio coincide conla varianza σ2(Gn). Pertanto e anche consistente (in media quadratica e inprobabilita) se la varianza della sua distribuzione campionaria tende a zeroper n →∞:

limn→∞σ2(Gn) = 0. (8.2′′)

• Stimatore efficiente. Scelti due stimatori G(1)n e G

(2)n entrambi corretti,

diciamo che G(1)n e lo stimatore piu efficiente tra i due se ha una distribuzione

campionaria con una varianza minore di quella della distribuzione campionariadi G

(2)N :

σ2(G(1)n ) ≤ σ2(G(2)

n ) (8.3)

per ogni numerosita n del campione e per ogni valore teorico ϑ del parametroda stimare.

Tenuto conto delle precedenti proprieta di una statistica campionaria, siamo ora ingrado di enunciare il seguente:

CRITERIO DI STIMA PUNTUALE: Una statistica Gn(X1, . . . , Xn) e il migliorstimatore di ϑ se e il piu efficiente nell’insieme degli stimatori corretti e consi-stenti.

Il valore ϑ = gn(x1, . . . , xn) del miglior stimatore, calcolato utilizzando le n deter-minazioni xi del campione, e la stima ottima del parametro ϑ.

Page 213: dispense di Probabilita' e Statistica

8.1 – Stima puntuale 205

8.1.1 Stima puntuale di medie e di varianze

Sulla base del criterio appena enunciato, non e difficile definire la stima ottima perle medie e per le varianze di una popolazione di infiniti elementi, descritta da unmodello statistico normale.

Riguardo al valor medio, i risultati ricavati nel Capitolo precedente ed espressi dalle(7.4) e (7.6) mostrano che la media campionaria µn definita dalla (7.2) e uno stima-tore corretto e consistente (sia in probabilita che in media quadratica) della mediateorica µ. Ma essa e anche il piu efficiente tra gli stimatori corretti e consistenti.Limitiamoci a chiarire quest’ultima affermazione con due esempi.

1). Dato un campione estratto da una popolazione con media µ e varianza σ2,consideriamo come statistica Gn una generica combinazione lineare delle variabilicasuali indipendenti X1, . . . , Xn:

Gn =n∑

i=1

aiXi in cuin∑

i=1

ai = 1 (8.4)

e con almeno due coefficienti ai che siano diversi da 1/n (perche altrimenti Gn

coinciderebbe con la media campionaria µn). Il valore atteso della statistica (8.4)vale:

EGn =n∑

i=1

aiEXi =n∑

i=1

aiµ = µ

e quindi anche Gn e uno stimatore non distorto della media µ. Ricordando i calcoligia effettuati nel §3.1.1, la sua varianza vale

σ2(Gn) =n∑

i=1

a2i σ

2(Xi) =n∑

i=1

a2i σ

2

e si puo anche scrivere

σ2(Gn) = σ2n∑

i=1

(ai − 1

n+

1n

)2

= σ2n∑

i=1

(ai − 1

n

)2

+σ2

n> σ2

n

perche per almeno due coefficienti ai la differenza ai−1/n e diversa da zero. Dunquela varianza di Gn e sempre maggiore della varianza σ2

n della media campionaria µn,e per la (8.3) si deduce che µn e piu efficiente della statistica (8.4). Inoltre, σ2(Gn)e maggiore di zero per qualsiasi numerosita del campione, e tale che

limn→∞σ2(Gn) = σ2

∞∑

i=1

a2i > 0.

Quindi Gn non e nemmeno uno stimatore consistente della media µ. /

2). La mediana x di una distribuzione campionaria di frequenze, definita nella (6.3),e anch’essa uno stimatore non distorto di µ, e si puo calcolare che per n >> 1 hauna varianza che vale:

σ2(x) =π

2nσ2.

Page 214: dispense di Probabilita' e Statistica

206 STIME DI PARAMETRI

Dunque x e anche uno stimatore consistente, perche la sua varianza tende a zeroper n →∞. Tuttavia, per n finito quest’ultima e maggiore della varianza (7.5) delladistribuzione campionaria di µn, e quindi µn e piu efficiente di x. /

Poiche si puo dimostrare che µn e piu efficiente di qualsiasi stimatore della media,si puo concludere che la statistica (7.2) e il miglior stimatore di µ, e di conseguenzala stima ottima del valor medio vale :

µ =1n

n∑

i=1

xi . (8.5)

Riguardo alla stima puntuale della varianza di una popolazione normale, nel §7.4si e ricavato che il valor medio della distribuzione campionaria di S2

n, definita nella(7.3), non soddisfa la condizione (8.1). Pertanto, la statistica S2

n e uno stimatoredistorto della varianza σ2 della popolazione.

Al contrario, in un campionamento con ripetizione la statistica “corretta” (7.14)soddisfa entrambe le proprieta di non distorsione e di consistenza perche, ricordandoi risultati gia ottenuti nel §7.4.1, e tale che

ES2n =

σ2

n− 1EQn =

σ2

n− 1(n− 1) = σ2

limn→∞σ2(S2

n) = limn→∞

2n− 1

· σ4 = 0.

Inoltre, anche per S2n si puo dimostrare che e il piu efficiente tra gli stimatori corretti

e consistenti della varianza. Si puo pertanto concludere che la statistica (7.14) e ilmiglior stimatore della varianza σ2 della popolazione, e che la sua stima ottimaeffettuata con campioni estratti con ripetizione vale:

σ2 =1

n− 1

n∑

i=1

(xi − µn)2 . (8.5′)

E’ proprio questo valore che viene restituito dalla maggior parte dei software dielaborazioni statistiche, quando si chiede la varianza di una assegnata serie di dati.

Se il campione e estratto in blocco da un numero N non elevato di elementi, ri-cordando la (7.19) la stima (8.5’) si corregge moltiplicandola per il coefficiente(N − 1)/N .

8.1.2 Stima di massima verosimiglianza

E’ un metodo di stima puntuale assai efficace e attendibile, che spesso puo essereapplicato con successo per valutare qualsiasi parametro incognito (non necessaria-mente coincidente con le medie o le varianze) presente nel modello statistico chesi adotta per studiare una popolazione. Il procedimento per ottenere una stima dimassima verosimiglianza e il seguente.

Page 215: dispense di Probabilita' e Statistica

8.1 – Stima puntuale 207

Supponiamo che la popolazione sia descritta da un modello statistico con densitaf(x, ϑ) dipendente da un parametro incognito ϑ ∈ Θ ⊂ IR, ed occorra stimareϑ con l’analisi di una statistica campionaria Gn, di cui sono note n osservazioniindipendenti x1, x2, . . . , xn. Queste osservazioni sono le realizzazioni di n variabilicasuali indipendenti: Xi, i = 1, . . . , n, ciascuna con densita f(xi, ϑ). Poiche sonoindipendenti, la loro densita di probabilita congiunta vale, come detto nel Capitolo3:

L(ϑ; x1, . . . , xn) = f(x1, ϑ)f(x2, ϑ) · · · f(xn, ϑ). (8.6)Questa densita, interpretata come una funzione ordinaria della variabile reale ϑ edipendente dagli n parametri xi, e detta verosimiglianza per la realizzazione x =x1, .., xn del campione.

Si chiama stima di massima verosimiglianza per il parametro ϑ quel valore (se esi-ste) della variabile indipendente, per cui la funzione L(ϑ;x1, . . . , xn) ha un massimonel dominio di interesse Θ del parametro da stimare. Questo valore si indica conMLE(ϑ) (Maximum Likelihood Estimation), e deve soddisfare la condizione:

L[ϑ = MLE(ϑ);x1, . . . , xn] = supϑ∈Θ

L(ϑ; x1, . . . , xn).

Se per qualsiasi realizzazione del campione la verosimiglianza L(ϑ; x1, . . . , xn) haun massimo in Θ, e se L(ϑ;x1, . . . , xn) e derivabile rispetto a ϑ, allora la stimadi massima verosimiglianza MLE(ϑ) e un suo punto di stazionarieta che soddisfal’equazione: dL(ϑ;x)/dϑ = 0. Poiche L(ϑ;x) non e identicamente nulla in Θ,quest’ultima equazione si puo anche scrivere:

d

dϑlog L(ϑ;x) =

d

dϑlog[f(ϑ; x1) · · · f(ϑ; xn)] =

d

n∑

i=1

log f(ϑ;xi) = 0

ed effettuando la derivata si ricava la seguente equazione di verosimiglianza:n∑

i=1

∂f(ϑ, xi)∂ϑ

· 1f(ϑ, xi)

= 0. (8.7)

Per la maggior parte dei modelli statistici di uso piu frequente non e difficile verificareche i punti di stazionarieta che soddisfano la (8.7) corrispondono effettivamente a unmassimo di L(ϑ;x), per cui la soluzione della equazione di verosimiglianza (suppostoche esista e sia unica in Θ) fornisce la stima MLE(ϑ), espressa in termini delleosservazioni xi rilevate nel campione.

Se il parametro incognito ϑ e il valor medio µ di una popolazione di infiniti elementi,si puo anche dimostrare che la stima di massima verosimiglianza del valor mediocoincide con la media campionaria µn e di conseguenza, per quanto si e visto nelparagrafo precedente, fornisce la stima ottima del valor medio della popolazione.

Verifichiamo questa sua proprieta nell’ipotesi che siano state fatte n osservazionisu una popolazione cui si attribuisce un modello statistico normale N (ϑ, σ2). Ogniosservazione ha una distribuzione

f(xi, ϑ) =1

σ√

2πexp

[−(xi − ϑ)2

2σ2

], i = 1, . . . , n

Page 216: dispense di Probabilita' e Statistica

208 STIME DI PARAMETRI

e la funzione di verosimiglianza vale:

L(ϑ;x) =n∏

i=1

1σ√

2πexp

[−(xi − ϑ)2

2σ2

]=

1(2πσ2)n/2

exp

[−

n∑

i=1

(xi − ϑ)2

2σ2

].

Per determinare il suo punto di massimo calcoliamo le derivate prime:

df(xi, ϑ)dϑ

=1

σ√

2π· xk − ϑ

σ2exp

[−(xi − ϑ)2

2σ2

]=

xk − ϑ

σ2f(xi, ϑ)

per cui l’equazione di verosimiglianza (8.7) si scrive:

1σ2

n∑

i=1

(xi − ϑ) = 0.

Poiche σ2 > 0, si ricava: x1 + x2 + . . . + xn − nϑ = 0, da cui

MLE(ϑ) =1n

(x1 + x2 + . . . + xn) = µn.

Al contrario, con calcoli del tutto analoghi si puo mostrare che in un modelloN (µ, ϑ)Normale-2, la stima di massima verosimiglianza per ϑ non concide con la stimaottima della varianza che si ottiene invece con la statistica (7.14). Infatti, tenutoconto che le densita di ciascuna osservazione Xi del campione sono

f(xi, ϑ) =1√2πϑ

exp

[−(xi − µ)2

],

le loro derivate valgono:

df(xi, ϑ)dϑ

=1√2πϑ

exp

[−(xi − µ)2

] [(xi − µ)2

2ϑ2− 1

]=

(xi − µ)2 − ϑ

2ϑ2· f(xi, ϑ)

e l’equazione di verosimiglianza per ϑ e in tal caso:

12ϑ2

n∑

i=1

[(xi − µ)2 − ϑ] =1

2ϑ2

[n∑

i=1

(xi − µ)2 − nϑ

]= 0.

La sua soluzione e:

MLE(ϑ) =1n

n∑

i=1

(xi − µ)2

e coincide con la varianza campionaria (7.2) che e una stima distorta della varianzateorica σ2.

Questo metodo di stima puntuale e comunque particolarmente efficace quando sidevono determinare parametri incogniti che non siano la media o la varianza della

Page 217: dispense di Probabilita' e Statistica

8.1 – Stima puntuale 209

distribuzione teorica ipotizzata nel modello statistico. I due esempi che seguonoillustrano la sua applicazione per questo tipo di stime.

Esempio 8.1

Si vuole stimare il valore del parametro c ∈ IR nel modello statistico esponenzialedel tipo

E(λ + c) ∼ f(x, c) = (λ + c)e−(λ+c)x, x ≥ 0che si attribuisce a una popolazione dalla quale e stato estratto, con ripetizioni, uncampione di numerosita n. Definita la funzione di verosimiglianza (8.6) con ϑ = c,le derivate delle densita f(xi, c) valgono:

df(xi, c)dc

= e−(λ+c)xi − xi(λ + c)e−(λ+c)xi =(

1λ + c

− xi

)f(xi, c)

e di conseguenza l’equazione di verosimiglianza en∑

i=1

(1

λ + c− xi

)=

n

λ + c−

n∑

i=1

xi = n

(1

λ + c− µn

)= 0.

La stima di massima verosimiglianza per il parametro c e pertanto:

MLE(c) =1µn

− λ.

Si noti che MLE(c) = 0 implica: µn = 1/λ, e questo risultato verifica che la stima dimassima verosimiglianza per il valor medio µ = 1/λ di una popolazione con modelloesponenziale E(λ) coincide con la media campionaria µn /.

Esempio 8.2

Si estrae con ripetizioni un campione di numerosita n da una popolazione avente uncarattere X con valori in (0, 1], al quale si decide di assegnare un modello statisticodescritto dalla densita

fX(x, b) =

(1 + b)xb per x ∈ (0, 1]0 altrove,

con b ∈ IR parametro incognito. Per stimarlo, osserviamo che ogni elemento Xi delcampione ha densita

f(xi, b) = (1 + b)xbi

la cui derivata valedf(xi, b)

db= xb

i [1 + (1 + b) log xi] =(

11 + b

+ log xi

)f(xi, b).

L’equazione di verosimiglianza (8.7) si scrive:n∑

i=1

(1

1 + b+ log xi

)=

n

1 + b+

n∑

i=1

log xi =n

1 + b+ log(x1x2 · · ·xn) = 0,

e risolvendola rispetto a b si ottiene:

MLE(b) = −1− n

log(x1x2 · · ·xn). /

Page 218: dispense di Probabilita' e Statistica

210 STIME DI PARAMETRI

8.1.3 Metodo dei momenti

Si tratta di un metodo di stima puntuale che e concettualmente assai semplice, esebbene in generale non fornisca risultati molto precisi, e molto utile per otteneresimultaneamente la stima di piu di un parametro incognito presente nel modellostatistico.

Precisamente, assumiamo che il modello di popolazione sia descritto da una densitafX(x;ϑ1, ϑ2, . . . , ϑM ) dipendente da M parametri incogniti, e che questa sia dotatadei suoi primi M momenti:

EXq(ϑ1, ϑ2, . . . , ϑM ), q = 1, . . . , M

noti come assegnate funzioni degli M parametri incogniti.

Estratto dalla popolazione un campione di numerosita n, consideriamo gli M mo-menti campionari di ordine q, gia definiti nella (7.0). Indichiamo con g

(q)n (x1, . . . , xn)

le realizzazioni di questi M momenti campionari, che possiamo calcolare utilizzandoi dati xi. Imponendo che ciascuna realizzazione uguagli il corrispondente momentodella densita teorica, si perviene al seguente sistema di M equazioni nelle M incog-nite ϑq:

q = 1, . . . , M : EXq(ϑ1, ϑ2, . . . , ϑM ) = g(q)n (x1, . . . , xn) (8.8)

la cui soluzione (se esiste, e se e unica in Θ) fornisce la stima degli M parametriincogniti, espressa in termini degli n dati osservati. Al posto di qualche momentocampionario del tipo (7.1) si puo anche utilizzare, per migliorare l’approssimazionedei risultati, i corrispondenti momenti campionari centrali, come per esempio lastima ottima (8.5) della varianza.

Esempio 8.3

Si assume che il carattere X di una popolazione possa avere valori uniformementedistribuiti in un intervallo di IR da determinare. Il modello statistico per X e percioquello uniforme R(ϑ1, ϑ2) avente come parametri incogniti gli estremi di tale inter-vallo, ed e descritto dalla densita costante (2.28) con momenti del primo e secondoordine che valgono:

EX =12(ϑ1 + ϑ2), EX2 =

13(ϑ2

1 + ϑ1ϑ2 + ϑ22).

Per stimare i due estremi incogniti, si estrae un campione casuale con numerositan = 10 dal quale si ricavano i seguenti dati xi:

1.4, 3.05, 1.9, 0.45, 2.2, 4.1, 3.5, 2.7, 4.25, 0.95.

La media campionaria e il momento campionario di ordine 2 risultano rispettiva-mente:

g(1)n ≡ µn =

110

i

xi = 2.45, g(2)n =

110

i

x2i = 7.523.

Page 219: dispense di Probabilita' e Statistica

8.2 – Stima per intervalli 211

Applichiamo il metodo dei momenti, scrivendo la (8.8) per q = 1, 2. Si ricava ilsistema:

ϑ1 + ϑ2 = 2 · 2.45ϑ2

1 + ϑ1ϑ2 + ϑ22 = 3 · 7.523

la cui soluzione fornisce:

ϑ1 = 0.3143 , ϑ2 = 4.8857. /

Esempio 8.4

Si ha motivo di ritenere che un parametro X, presente nel modello matematico di unfenomeno fisico aleatorio, possa assumere casualmente valori compresi nell’intervallo[0, 1], con legge non uniforme, bensı soddisfacente un modello statistico Beta B(b, c),descritto dalla densita che e definita nella (2.53) del Capitolo II. Essa dipende daidue parametri incogniti b, c > −1, che ci proponiamo di stimare mediante l’analisi diun campione costituito, per esempio, dai risultati xi di n osservazioni indipendentidel fenomeno fisico oggetto di studio.

Poiche il valor medio e la varianza della distribuzione teorica sono funzioni note deidue parametri incogniti definite nella (2.54), conviene usare i dati del campione percalcolare le stime ottime µ, σ2 della media e della varianza, e uguagliarle alle loroespressioni teoriche. Si ricava in tal modo il seguente sistema:

µ =b + 1

b + c + 2

σ2 =(b + 1)(c + 1)

(b + c + 2)2(b + c + 3)

che ha come soluzione:

b =µ2(1− µ)

σ2− (1 + µ)

c = µ− 2 +µ(1− µ)2

σ2

con µ e σ2 definite rispettivamente dalle (8.5) e (8.5’) /.

8.2 Stima per intervalli

La stima ottima ϑ di un parametro ϑ che abbiamo ricavato nel paragrafo precedente,si determina esaminando i dati forniti da uno dei tanti campioni che casualmentee possibile estrarre dalla popolazione. Cio significa che il valore empirico ottenutoe da considerare approssimato, perche assai raramente esso coincidera con il verovalore del parametro.

Page 220: dispense di Probabilita' e Statistica

212 STIME DI PARAMETRI

Se pero si conosce la distribuzione campionaria della statistica usata per stimarequesto parametro, siamo in grado di valutare l’errore commesso, e di definire l’inter-vallo [ϑmin ≤ ϑ ≤ ϑmax] che, con probabilita γ ∈ [0, 1] molto prossima ad 1, contieneil vero valore del parametro in questione.

Questo metodo di stima, che evidentemente migliora e completa i risultati che si ot-tengono con una semplice stima puntuale, si chiama stima per intervalli. L’intervallo[ϑmin, ϑmax] tale che

IP(ϑmin ≤ ϑ ≤ ϑmax) ≥ γ ∀ ϑ ∈ Θ

si chiama intervallo di confidenza o intervallo fiduciario, i suoi estremi sono i limitifiduciari, e γ e il livello fiduciario o probabilita fiduciaria, che si sceglie in anticipoe quantifica, per cosı dire, il “nostro grado di accettazione” dell’errore commessonella stima. Espressa in percentuale, la probabilita γ esprime anche il livello disignificativita della stima effettuata. Fissato γ, quanto piu piccolo e l’intervallo diconfidenza, tanto migliore e l’approssimazione della stima puntuale effettuata.

La stima intervallare piu frequente usa un intervallo fiduciario simmetrico, centratosul valore empirico ϑ calcolato, e prende anche il nome di stima a due code se lacondizione:

IP(ϑ− δ ≤ ϑ ≤ ϑ + δ) ≥ γ ∀ ϑ ∈ Θ

implica l’esclusione delle regioni piu esterne (le “code”) di una distribuzione di tiponormale.

In altri casi, e invece preferibile effettuare stime a una coda, che sono definite dacondizioni del tipo:

IP(ϑ ≤ ϑmax) ≥ γ, IP(ϑmin ≤ ϑ) ≥ γ ∀ ϑ ∈ Θ

in cui gli intervalli di confidenza sono limitati solo a destra o a sinistra.

La definizione delle distribuzioni campionarie delle medie e delle varianze che estata effettuata nei §7.3 e 7.4 del Capitolo precedente, ci permette di determinareper questi due parametri le stime intervallari che seguono.

8.2.1 Intervalli di confidenza per la media

8.2.1.1. Popolazione con varianza nota.

Supponiamo dapprima che la popolazione da cui e stato estratto il campione abbiauna distribuzione teorica con media µ incognita da determinare, e varianza nota σ2.

Se la popolazione ha un modello statistico Normale N (θ, σ2), anche la media cam-pionaria µn ha una distribuzione normale, che per le (7.4) e (7.5’) ha media µ edeviazione standard σ/

√n, per qualunque valore della numerosita n del campione.

Se la popolazione ha una distribuzione teorica che non e normale, per il TeoremaLimite Centrale la distribuzione campionaria delle medie ha ancora legge normaleN (µ, σ2/n) se la numerosita del campione e sufficientemente elevata (in pratica, sen ≥ 30).

Page 221: dispense di Probabilita' e Statistica

8.2 – Stima per intervalli 213

In entrambi i casi, fissato il livello fiduciario γ e introdotta la variabile normalestandard

Zn =µn − µ

σ/√

n∼ N (0, 1), (8.9)

si puo determinare un intervallo di confidenza simmetrico, centrato sul valore em-pirico µn della media campionaria, calcolando il valore di z per cui si ha:

IP(

µn − σ√n

z ≤ µ ≤ µn +σ√n

z

)= IP

(|µn − µ| ≤ σ√

nz

)

= IP(|Zn| ≤ z) = 2 erf (z) = γ. (8.10)

Questo valore di z che soddisfa la (8.10), e che indichiamo con zq ≡ z(1+γ)/2 (v.il grafico a) di Fig. 8.1) e il quantile di ordine q = (1 + γ)/2 della legge Normalestandard, e viene chiamato coefficiente fiduciario. Ricordando che il quantile zq diordine q della distribuzione N (0, 1) e quel valore di Z tale che

FZ(zq) =12

+ erf(zq) = q ,

esso si puo ricavare dalla Tabella di erf(z) riportata in Appendice, ricercando nellesue colonne il numero piu prossimo al valore q − 0.5 (ovvero al valore γ/2), even-tualmente interpolando tra due valori vicini.

g g

z zz gz0 0

(0,1) (0,1)

-z

g1

2g1

g1

2

N N

a) stima con intervallo simmetrico b) stima a una coda

1+2

g 1+2

g

Figura 8.1 - Intervalli di confidenza

Calcolati il valore empirico µn e il coefficiente fiduciario zγ , l’intervallo di confidenzasimmetrico per una stima al livello fiduciario γ risulta pertanto:

µn − σ√n

z(1+γ)/2 ≤ µ ≤ µn +σ√n

z(1+γ)/2 (8.11)

ed ha come estremi i limiti fiduciari:

µn ± σ√n

z(1+γ)/2 . (8.11′)

In modo analogo si puo procedere per determinare i limiti superiori o inferiori diintervalli di confidenza per le stime a una coda. Ad esempio, il valore zγ di z che

Page 222: dispense di Probabilita' e Statistica

214 STIME DI PARAMETRI

soddisfa la seguente condizione:

IP(

µ ≤ µn +σ√n

z

)= IP

(µn − µ ≥ −z

σ√n

)= IP(Zn ≥ −z) =

= 1− IP(Zn ≤ −z) = 1− [1/2 + erf (−z)] = 1/2 + erf (z) = γ

e il quantile di ordine q = γ della leggeN (0, 1) e definisce il limite fiduciario superioreper il seguente intervallo di confidenza a una coda:

−∞ < µ ≤ µn +σ√n

zγ (8.12)

che e mostrato nel grafico b) di Fig. 8.1. Esso si determina ricercando nella Tabelladi erf(z) il valore di z che corrisponde a una probabilita uguale a γ−1/2. Allo stessomodo si determina il limite fiduciario inferiore dell’intervallo di confidenza:

µn − σ√n

zγ ≤ µ < +∞ , (8.13)

dove zγ e ancora il quantile di ordine γ di N (0, 1), soddisfacente la condizione:

IP(

µ ≥ µn − σ√n

z

)= IP

(µn − µ ≤ z

σ√n

)= IP(Zn ≤ z) = 1/2 + erf (z) = γ.

OSSERVAZIONE 8.1

I limiti fiduciari ora determinati si prestano anche alla risoluzione dei seguenti pro-blemi di stima, collegati a quello della determinazione di un intervallo di confidenzasimmetrico.

• Determinazione del livello fiduciario. Fissato lo scarto

δ = |µn − µ| = σ√n

z(1+γ)/2

nella stima del valor medio µ attraverso il risultato empirico µn, la probabilitafiduciaria con cui si puo affermare che µ = µn ± δ e data dal valore di γ chesoddisfa la condizione:

z(1+γ)/2 =√

n

σδ ,

il quale per la (8.10) vale:

γ = 2 erf

(z =

√n

σδ

). (8.14)

• Determinazione della numerosita del campione. Fissato il livello fiduciario γ,la numerosita del campione che e necessaria per sostenere che il valor mediostimato vale µ = µn ± δ si calcola imponendo la condizione:

z(1+γ)/2σ√n≤ δ

Page 223: dispense di Probabilita' e Statistica

8.2 – Stima per intervalli 215

con z(1+γ)/2 che soddisfa la (8.10). Da questa si ottiene:

n ≥(

z(1+γ)/2σ

δ

)2

. (8.15)

8.2.1.2 Popolazione con varianza sconosciuta.

Supponiamo ora che la popolazione da cui e stato estratto il campione abbia unadistribuzione teorica in cui anche la varianza σ2, in aggiunta alla media µ da deter-minare, sia sconosciuta.

In tal caso, per effettuare una stima intervallare di µ ci si basa sulla densita t-Studentillustrata nel §2.3.6 del Capitolo II, alla quale fa riferimento il seguente:

TEOREMA 8.1 (t-Student)

Se da una popolazione normalmente distribuita si estraggono campioni casuali dinumerosita n con media campionaria µn e varianza campionaria corretta S2

n, allorala variabile casuale

Tn =(µn − µ)

√n

Sn

(8.16)

ha una distribuzione t-Student con ν = n− 1 gradi di liberta.

Ne segue che se la popolazione ha una distribuzione teorica normale, una volta deter-minate le realizzazioni delle due statistiche campionarie (7.2) e (7.14) con numerositan qualsiasi, una stima intervallare simmetrica per µ con livello fiduciario γ si potraeffettuare determinando quel valore tq di t che soddisfa la condizione:

IP

(µn − Sn√

nt ≤ µ ≤ µn +

Sn√n

t

)= IP

(|µn − µ| ≤ Sn√

nt

)=

= IP(|Tn| ≤ t) = γ. (8.17)

Il coefficiente fiduciario tq per questa stima a due code e il quantile della distribuzio-ne t-Student con ν = n− 1 gradi di liberta, che lascia alla sua destra un’area ugualealla probabilita (1− γ)/2. Esso si puo ricavare da una apposita Tabella dei quantilidelle distribuzioni t-Student che e riportata in Appendice, e per un prefissato gradodi liberta ν e il valore che si trova nella colonna del quantile

q = 1− 1− γ

2=

1 + γ

2. (8.17′)

L’intervallo di confidenza simmetrico per una stima di µ al livello fiduciario γ epertanto:

µn − Sn√n

tq ≤ µ ≤ µn +Sn√

ntq. (8.18)

Si noti che i suoi limiti fiduciari si ottengono dalla (8.11’) sostituendo σ, ora incog-nito, con Sn (n qualsiasi), e il coefficiente zq con tq. In modo simile, si ricavano i

Page 224: dispense di Probabilita' e Statistica

216 STIME DI PARAMETRI

seguenti intervalli di confidenza a una coda:

−∞ < µ ≤ µn +Sn√

ntq , µn − Sn√

ntq ≤ µ < +∞ , (8.19)

i cui limiti fiduciari superiore o inferiore sono da determinare calcolando il coefficientetq che e ora il quantile della distribuzione t-Student con ν = n− 1 gradi di liberta,con q = γ.

Le formule (8.17)-(8.19) sono state ricavate nella ipotesi che la popolazione sia nor-malmente distribuita, e valgono anche per piccoli campioni (n < 30) estratti casual-mente da questa. Se invece la popolazione non e normalmente distribuita, non sonosoddisfatte le ipotesi del precedente Teorema. In tal caso si puo pero dimostrare cheil Teorema 8.1 vale ancora per n sufficientemente grande, circostanza in cui, comesi e detto nel §3.2.6, la distribuzione t-Student tende alla legge Normale standardidentificandosi con la variabile aleatoria Zn definita con la (8.9).

Ne segue che le stime intervallari per la media di una popolazione con distribuzionediversa da quella normale si ottengono ancora, se la numerosita del campione esufficientemente elevata (n ≥ 30), calcolando i coefficienti fiduciari zγ che compaiononelle (8.11)-(8.15), dopo aver sostituito in queste formule la deviazione standardincognita σ con il valore empirico della statistica campionaria Sn.

Riportiamo qui, per comodita, le espressioni di Sn che si deducono dall’analisi delladistribuzione campionaria delle varianze effettuata nel §7.4 del Capitolo VII.

Se il campione di numerosita n e estratto con ripetizione da una popolazione finita,oppure se la popolazione e infinita, si ha

Sn =√

n

n− 1Sn. (8.20)

Se il campione e estratto senza ripetizione da una popolazione con un numero finitodi N elementi, allora

Sn =

√N − 1

N

n

n− 1Sn , (8.21)

dove Sn e la radice quadrata positiva della varianza campionaria (7.2):

Sn =

√√√√ 1n

n∑

i=1

(Xi − µn)2.

Esempio 8.5

La media e la deviazione standard del diametro di un campione di 200 utensiliprodotti da una fabbrica sono rispettivamente µn = 0.824 cm e Sn = 0.042 cm.Nell’ipotesi che il campione sia stato estratto con ripetizione da un numero elevatodi pezzi fabbricati, determinare: 1) i limiti fiduciari al 95% e al 99% per il diametro

Page 225: dispense di Probabilita' e Statistica

8.2 – Stima per intervalli 217

medio dei tondini in produzione; 2) la numerosita n del campione che si dovrebbeesaminare per poter concludere, al livello fiduciario γ = 0.95, che l’errore nella stimadella media e inferiore a 0.001 cm.

1) Il campione e estratto da una popolazione avente distribuzione non nota, conmedia e varianza pure sconosciute. La numerosita n e sufficiente per asserire che ilimiti fiduciari sono dati da

µn ± Sn√200

· zq

con Sn che per la (8.20) vale

Sn =√

200199

· 0.042 = 0.04210 cm

e zq con q = (1 + γ)/2 si ricava dalla Tabella di erf(z).

Al livello fiduciario γ = 0.95, si trova dalla Tabella che γ/2 = 0.475 = erf (1.96),e quindi zq = 1.96. Al livello γ = 0.99, si ha invece zq = 2.575, interpolando tra ivalori piu vicini a γ/2 = 0.495. Si ottengono pertanto i seguenti risultati:

al livello γ = 0.95 : µ = 0.824± 0.0421√200

· 1.96 = 0.824± 0.00583 cm.

al livello γ = 0.99 : µ = 0.824± 0.0421√200

· 2.575 = 0.824± 0.00766 cm.

2) Per stimare il valor medio con un errore inferiore a δ = 0.001, occorre che n

soddisfi la condizione (8.15) con Sn = 0.0421 al posto di σ incognita. Al livello difiducia del 95% si deve percio avere (arrotondando per eccesso perche n e intero):

n ≥(

1.96 · 0.04210.001

)2

= 6778. /

esempio 8.6

Dieci misurazioni della lunghezza di un oggetto danno come risultato una mediaµn = 4.38 cm e una deviazione standard Sn = 0.0036 cm. Si vuole determinare ilimiti fiduciari al 95% e al 99% della lunghezza effettiva dell’oggetto.

Il campione e l’insieme di dieci prove ripetute e indipendenti consistenti nella mi-surazione della lunghezza dell’oggetto, e si puo considerare estratto con ripetizionedalla popolazione delle infinite misurazioni teoricamente possibili. In accordo con ilTeorema di asintoticita per prove ripetute e indipendenti (v. §2.3.9 del Capitolo II), ilmodello statistico da adottare e quello Normale-2, con media e varianza sconosciute.

Poiche abbiamo a disposizione un piccolo campione (n = 10), i limiti fiduciari perla media µ si calcolano usando la distribuzione t-Student con ν = n − 1 = 9 gradidi liberta, e sono definiti dalla (8.18) con

Sn =√

109· 0.0036 ' 0.0632 cm

Page 226: dispense di Probabilita' e Statistica

218 STIME DI PARAMETRI

calcolato applicando la (8.20). Al livello fiduciario γ = 0.95 il quantile q dato dalla(8.17’) vale

q =1 + 0.95

2= 0.975

e al livello fiduciario γ = 0.99:

q =1 + 0.99

2= 0.995 .

La Tabella dei quantili della distribuzione t-Student con 9 gradi di liberta (v. Appen-dice) fornisce rispettivamente i seguenti coefficienti fiduciari: tq = 2.262 e tq = 3.25.Pertanto, in applicazione della (8.18) si ricava che i limiti fiduciari per il valor mediodella lunghezza dell’oggetto sono:

al livello γ = 0.95 : µ = 4.38± 0.0632√10

· 2.262 = 4.38± 0.04516 cm.

al livello γ = 0.99 : µ = 4.38± 0.0632√10

· 3.25 = 4.38± 0.06495 cm. /

Esempio 8.7

Da una popolazione di 200 voti in centesimi di un esame scolastico si estrae uncampione casuale di 50 voti che ha media µn = 75 e varianza S2

n = 100. Calcolare:1) i limiti fiduciari al 95% per la stima della media dei voti; 2) il livello fiduciariocon cui potremo affermare che tale media vale 75± 1.

1) Il campione e estratto senza ripetizione da una popolazione finita con N = 200elementi, con media e varianza sconosciute. Poiche n > 30, possiamo calcolare ilimiti fiduciari applicando la (8.11’) dopo aver sostituito, al posto di σ incognita, lastima corretta di Sn che questa volta e data dalla (8.21). Il suo valore e prossimo aquello della deviazione standard campionaria, e vale

Sn =

√200− 1

200· 5050− 1

S2n =

√199196

· 100 = 10.0762.

Il coefficiente fiduciario zγ per γ = 0.95 vale zγ = 1.96 (v. l’Esempio 8.5 precedente).Pertanto i limiti fiduciari per la stima della media dei voti sono:

µ = 75± 10.0762√50

· 1.96 == 75± 2.793.

2) Per valutare il livello fiduciario di una stima intervallare del valor medio con unerrore non superiore a ±1, si applica la (8.14) con δ = 1 e Sn = 10.0762 al posto diσ. Si ricava allora:

γ = 2 erf

( √50

10.0762

)' 2 erf (0.70) = 2 · 0.258 = 0.516 .

Page 227: dispense di Probabilita' e Statistica

8.2 – Stima per intervalli 219

Cio significa che una stima in cui si afferma che µ e uguale al valore empirico con loscarto massimo di una unita, ha soltanto il 51.6% di probabilita di essere vera. /

Esempio 8.8

Con un montacarichi che ha un limite di sicurezza di 8200 kg si devono trasportare25 casse, scelte a caso da un lotto ricevuto in ditta. Si sa che il peso medio diciascuna cassa e µ = 300 kg, con deviazione standard σ = 50 kg. Si vuole calcolare:

1) la probabilita che il peso delle 25 casse non superi il limite di sicurezza del mon-tacarichi;

2) il numero massimo di casse che e possibile caricare, se si vuole rimanere al disotto del limite di sicurezza di 8200 kg. con una probabilita del 99.9%.

1) In questo problema si assume di conoscere i parametri µ e σ2 del modello statisticoper la popolazione delle casse, e poiche non conosciamo il numero N di elementi dellapopolazione da cui e stato estratto il campione di n = 25 casse, si intende che questoe stato scelto da una popolazione infinita.

La distribuzione campionaria delle medie dei pesi ha valor medio E(µn) = µ = 300kg e deviazione standard che per la (7.5’) vale σn = σ/

√25 = 10 kg.

Si deve determinare la probabilita fiduciaria γ per un test a una coda sul peso delle25 casse del campione, al quale si richiede di non superare il limite di sicurezza di8200 kg. Questo limite di sicurezza e raggiunto se ciascuna cassa ha un peso mediodi µ∗n = 8200/25 = 328 kg. Quindi, la probabilita da calcolare e γ = IP(µn < 328).Introducendo, al solito, la variabile standardizzata

Zn =µn − E(µn)

σn=

µn − 30010

,

al peso limite µ∗n di ciascuna cassa corrisponde il valore standardizzato z∗ = 2.8. Siricava dunque:

γ = IP(µn < 328) = IP(Zn < 2.8) =12

+ erf(2.8) =12

+ 0.4974 = 0.9974.

2) Nella seconda domanda e invece fissato il livello fiduciario γ = 0.999, e si richiedeil numero n di casse che soddisfa la condizione:

P

(µn ≤ 8200

n

)= 0.999

ovvero anche il valore zγ di Zn che soddisfa:

IP(Zn ≤ zγ) =12

+ erf(zγ) = 0.999 .

Dall’esame della Tabella dei valori di erf(z) risulta: zγ = 3.1 per cui, ricordandol’espressione della variabile stardardizzata Zn, si ricava che deve essere:

zγ = 3.1 =8200/n− 300

50/√

n.

Page 228: dispense di Probabilita' e Statistica

220 STIME DI PARAMETRI

Si ottiene percio la seguente equazione nella incognita n:

60n + 31√

n− 1640 = 0

che ha soluzione n = 24, 76. Da essa si deduce che per non superare il limitedi sicurezza con probabilita fiduciaria γ = 0.999, e necessario caricare un numeromassimo di 24 casse. /

Esempio 8.9

Dall’analisi di 500 sferette da cuscinetto prodotte in uno stabilimento, si ricava cheesse hanno un peso medio di 5.02 grammi, con deviazione standard σ = 0.30 gr.

1) Determinare la probabilita fiduciaria con cui si puo affermare che il peso mediodelle sferette in produzione vale µ = 5.02± 0.02 gr.

2) Dai 500 elementi esaminati si estrae senza ripetizione un campione di n = 100sferette. Calcolare la probabilita che questo campione abbia un peso complessivocompreso tra 496 e 500 gr., oppure maggiore di 510 gr.

1) Per il primo problema, si assume che il modello statistico per il peso delle sfer-ette abbia varianza nota σ2 = (0.3)2 = 0.09 gr2, e media µ da stimare mediantei dati forniti da un campione di numerosita n = 500 estratto con ripetizione dallapopolazione degli elementi in produzione. Si richiede la probabilita fiduciaria γ peruna stima intervallare di µ con uno scarto massimo δ = 0.02 gr. Essa si determinaapplicando la (8.14), e dalla Tabella di erf(z) si ricava:

γ = 2 erf

(√500 0.020.30

)= 2erf (1.49) = 2 · 0.4319 = 0.8638.

2) Nel secondo problema, occorre determinare la distribuzione campionaria dellemedie dei pesi, che risulta da un generico campione di n = 100 sferette estrattosenza ripetizione da una popolazione di N = 500 elementi. Per il Teorema LimiteCentrale, questa distribuzione campionaria e ben approssimata dalla legge normalecon valor medio Eµn = µ = 5.02, e varianza da calcolare applicando la (7.7):

σ2n =

σ2

100· 500− 100

499= 7.2144 · 10−4gr2.

Si chiede di determinare le probabilita IP(4.96 ≤ µn ≤ 5) e IP(µn ≥ 5.10) che sonorappresentate dalle aree evidenziate in Fig. 8.2. La variabile casuale standardizzata

Zn =µn −Eµn√

σ2n

=µn − 5.02

0.027

assume, in corrispondenza degli estremi richiesti per µn, i seguenti valori:

µn = 4.96 : z1 = −2.22µn = 5 : z2 = −0.74µn = 5.10 : z3 = 2.96

Page 229: dispense di Probabilita' e Statistica

8.2 – Stima per intervalli 221

5 5.14.9 mn

mnE

4.96 5.02

Figura 8.2

per cui le probabilita cercate sono:

IP(4.96 ≤ µn ≤ 5) = IP(−2.22 ≤ Zn ≤ −0.74) = erf (2.22)− erf (0.74) = 0.2164

IP(µn ≥ 5.10) = IP(Zn ≥ 2.96) =12− erf (2.96) = 0.0015. /

Esempio 8.10

Da un campione di n = 100 votanti intervistati all’uscita dai seggi in un ballottaggioelettorale risulta che il 55% di essi si e espresso a favore del candidato A. Si vuoledeterminare:

1) i limiti fiduciari al 95% e al 99% sulla percentuale di voti favorevoli al candidatoA ;

2) Il numero n di interviste necessarie per affermare, al livello fiduciario γ = 0.95,che il candidato sara eletto.

L’universo costituito dall’elettorato attivo si suddivide in elettori favorevoli o con-trari al nostro candidato A. Se indichiamo con p la probabilita (incognita) chel’elettore sia a lui favorevole, la popolazione degli elettori che hanno votato Ae distribuita con legge binomiale, avente una media Ens = 100p e varianzaσ2(ns) = 100p(1 − p), dove ns e il numero di “successi” (voti a favore) riscon-trati nel campione di elettori intervistati. Consideriamo tutti i possibili campionidi grandezza n = 100 estratti da questa popolazione, e valutiamo la distribuzionecampionaria delle frequenze relative Y = ns/100. Nel §7.5 e stato ricavato che ancheY ha una distribuzione binomiale, che si puo approssimare con una legge normaleavente valor medio e deviazione standard date dalla (7.22):

EY =E(ns)100

= p

σY =σ(ns)100

=

√p(1− p)

100.

1) La prima domanda richiede una stima intervallare per la frequenza relativa Y divoti favorevoli, che effettuiamo introducendo la variabile standardizzata:

Z =Y − p

σY=

Y − p√p(1− p)/n

.

Page 230: dispense di Probabilita' e Statistica

222 STIME DI PARAMETRI

Si deve determinare l’intervallo di confidenza:

p− zqσY ≤ p ≤ p + zqσY

con zq da calcolare per i livelli fiduciari richiesti usando la Tabella di erf(z), e pre-cisamente: zq = 1.96 al livello γ = 0.95; zq = 2.58 al livello γ = 0.99.

Dalle osservazioni sul campione ricaviamo che il valor medio della distribuzione dellefrequenze relative di voti favorevoli e EY = p = 0.55, e la sua deviazione standardvale:

σY =√

0.55 · 0.45100

= 0.04975.

Si ottengono cosı i seguenti limiti fiduciari:

al livello γ = 0.95 : p = 0.55± 1.95 · 0.04975 = 0.55± 0.0975al livello γ = 0.99 : p = 0.55± 2.58 · 0.04975 = 0.55± 0.128.

Dunque, arrotondando gli scarti alla seconda decimale, si conclude che al livellofiduciario γ = 0.95 il candidato avra una percentuale di voti che va dal 45% al 65%;al livello fiduciario γ = 0.99 avra una percentuale compresa tra il 42% e il 68%.

2) Il candidato sara eletto se Y > 0.50, e per stimare al livello di fiducia γ = 0.95 laprobabilita che venga eletto, bisogna imporre che

IP(Y > 0.50) = IP(Z > z0) =12− erf (z0) = 0.95 ,

dove z0 e il valore della variabile standardizzata per Y = 0.5, che scriviamo infunzione di n:

z0 =0.5− 0.55√0.55 · 0.45/n

= −0.1005√

n. (8.22)

Ricercando nella Tabella di erf(z) il valore z0 che soddisfa: erf (z0) = −0.45 ericordando che erf (−z) = − erf (z), si ricava: z0 = −1.645. Se sostituiamo questovalore nella (8.22) si ottiene, arrotondando per eccesso:

n =(

1.6450.1005

)2 ∼= 268.

Occorrerebbero pertanto 268 interviste per affermare, con un rischio di sbagliarelimitato al 5%, che il candidato A vincera il ballottaggio. /

Esempio 8.11

Un campione Auditel di 1000 spettatori di un programma televisivo e costituito dana = 700 adulti e nb = 300 bambini. Dal rilevamento dei dati di ascolto di unprogramma di nuova produzione risulta che questo e gradito da 280 adulti e da 240bambini. Si vuole conoscere, ai livelli di fiducia γ = 0.95 e 0.99, i limiti fiduciariper il maggior gradimento del programma da parte dei bambini, rispetto a quellomostrato dagli adulti.

Page 231: dispense di Probabilita' e Statistica

8.2 – Stima per intervalli 223

Si considerino due campioni che supponiamo statisticamente indipendenti: quello co-stituito dagli spettatori adulti e quello dei bambini. Le frequenze relative Ya e Yb concui si riscontra il gradimento dello spettacolo nei due campioni sono rispettivamente:

Ya =280700

= 0.4 = pa; Yb =240300

= 0.8 = pb.

Le distribuzioni campionarie di queste due frequenze relative, che indicano anchela percentuale pa, pb di gradimento del programma da parte dei due campioni, sonoapprossimabili (cfr. §7.5) con leggi normali aventi hanno valori medi EYa = pa =0.4 e EYb = pb = 0.8. Le rispettive varianze valgono, per la (7.22):

σ2a =

pa(1− pa)na

=0.4 · 0.6

700= 0.000343

σ2b =

pb(1− pb)nb

=0.8 · 0.2

300= 0.000533.

Definiamo ora la variabile casuale

d(ω) = Yb − Ya

che rappresenta la differenza tra la frequenza relativa di gradimento da parte deibambini, e quella riscontrata negli adulti. Se d(ω) ha realizzazioni maggiori dizero, significa che il programma ha un maggior gradimento da parte dei bambini, eviceversa se d < 0. Dalle osservazioni sul campione si ha che il suo valor medio eovviamente

Ed = EYb − EYa = 0.4 ,

e la deviazione standard di questa distribuzione campionaria vale, per la (3.8) delCapitolo III:

σd =√

σ2a + σ2

b =√

0.000343 · 0.000533 = 0.0296.

Una stima per intervalli del maggior gradimento da parte dei bambini si effettuacalcolando il seguente intervallo di confidenza:

Ed − zqσd ≤ d ≤ Ed+ zqσd

dove, al solito, zq e il coefficiente fiduciario per la differenza standardizzata Z =(d− 0.4)/σd, e vale zq = 1.96 al livello γ = 0.95; zq = 2.58 al livello γ = 0.99.

I limiti fiduciari per la differenza di gradimento ai livelli di fiducia richiesti sonoallora:

al livello γ = 0.95 : d = 0.4± 1.96 · 0.0296 = 0.4± 0.058al livello γ = 0.99 : d = 0.4± 2.58 · 0.0296 = 0.4± 0.076.

In termini percentuali, il risultato e il seguente:

• al livello fiduciario del 95%, il maggior gradimento del programma da parte deibambini (rispetto a quello dimostrato dagli adulti) e da valutare tra il 34.2% e il45.8%;

• al livello fiduciario del 99%, si stima invece compreso tra il 32.4% e il 47.6% /.

Page 232: dispense di Probabilita' e Statistica

224 STIME DI PARAMETRI

8.2.2 Intervalli di confidenza per la varianza

Se si conosce la distribuzione campionaria delle varianze, e possibile determinare unintervallo di confidenza per la varianza σ2 della popolazione da cui e stato estrattoil campione di numerosita n.

Nel §7.4 si e visto che cio e possibile se il modello statistico della popolazione halegge normale, perche in tal caso dal Teorema Chi-quadrato si deduce che la stimaottima della varianza:

S2n =

σ2

n− 1Qn (8.23)

e distribuita con la densita (7.16), la quale a sua volta e calcolabile attraverso lalegge Chi-quadrato con ν = n− 1 gradi di liberta della variabile aleatoria Qn.

Non e facile determinare i valori della distribuzione Chi-quadrato definita nella (2.20)e, come per la legge t-Student, si ricorre di solito ai valori tabulati dei suoi quantiliχq, che sono riportati per diversi gradi di liberta in una Tabella della Appendice.

Denotiamo allora per comodita con χj = χq=qj il quantile della distribuzione Chi-quadrato che, per definizione, e tale da soddisfare la condizione:

IP(Qn ≤ χj) = qj ∈ [0, 1].

Se si impone che Qn assuma valori in un intervallo [χ1, χ2] con un assegnato livellofiduciario γ, tenendo conto della (8.23) si ha

IP(χ1 ≤ Qn ≤ χ2) = IP(

χ1 ≤ n− 1σ2

S2n ≤ χ2

)=

= IP(

n− 1χ2

S2n ≤ σ2 ≤ n− 1

χ1S2

n

)= γ. (8.24)

12

g1

2

g

2

g

2

g

0 c c c1 2E Qn

f Qn( )

Figura 8.3

Un intervallo di confidenza per la varianza σ2 si ricava percio, al livello fiduciarioγ, determinando due quantili χ1, χ2 che soddisfano la (8.24). La scelta non e unica,ma di solito si determinano quelli che escludono due code della distribuzione Chi-quadrato, aventi la medesima area uguale a (1− γ)/2. Con tale scelta (v. Fig. 8.3)

Page 233: dispense di Probabilita' e Statistica

8.2 – Stima per intervalli 225

i due quantili sono tali che:

q1 =1− γ

2; q2 =

1 + γ

2(8.25)

e definiscono un intervallo fiduciario che, pur non essendo centrato sul valor mediodella distribuzione campionaria di S2

n, la suddivide in due parti con uguale areaγ/2, a destra e a sinistra del valor medio il quale, come si e visto nel §7.4, coincideproprio con la varianza teorica della popolazione. La probabilita che σ2 assumavalori in questo intervallo e uguale alla probabilita fiduciaria γ assegnata. La stimaintervallare al livello fiduciario γ, per la varianza di una popolazione distribuita conlegge normale, e dunque:

n− 1χ2

S2n ≤ σ2 ≤ n− 1

χ1S2

n (8.26)

con quantili dati dalla (8.25) e dove S2n e una realizzazione della varianza campionaria

corretta (7.14).

In modo analogo si possono effettuare stime a una coda della varianza, tali dasoddisfare condizioni del tipo:

IP(Qn ≥ χ1) = IP(

σ2 ≤ n− 1χ1

S2n

)= γ

IP(Qn ≤ χ2) = IP(

σ2 ≥ n− 1χ2

S2n

)= γ (8.27)

nelle quali χ1, χ2 sono i quantili della Chi-quadrato per cui

q1 = 1− γ ; q2 = γ ,

e “tagliano” un’area della distribuzione campionaria che e uguale a 1− γ, rispetti-vamente a sinistra di χ1 e a destra di χ2.

Caso di grandi campioni

Nel §2.3.7 si e detto che per n >> 1 la distribuzione Chi-quadrato e ben approssimatadalla legge Normale con media n e varianza 2n. Di conseguenza, se il campione usatoper una stima intervallare della varianza ha numerosita n elevata (almeno maggioredi 30), la variabile aleatoria Qn ha una distribuzione prossima ad N (n, 2n), e lavariabile

Zn =Qn − n√

2n=

(n− 1)S2n

σ2− n

√2n

(8.28)

e prossima alla Normale standard. In tal caso, la stima intervallare di σ2 al livellofiduciario γ si puo effettuare imponendo che sia IP(|Zn| ≤ zq) = γ, dove Zn e datodalla posizione (8.28) e zq e, al solito, il quantile della Normale standard di ordineq = (1 + γ)/2 = q2 che soddisfa

erf (zq) = γ/2.

Page 234: dispense di Probabilita' e Statistica

226 STIME DI PARAMETRI

Se ricaviamo σ2 dalla (8.28) e, tenuto conto che n >> 1, assegnamo un valoreunitario al rapporto (n− 1)/n, si deduce allora che l’intervallo di confidenza (8.26)puo essere ben approssimato dal seguente:

S2n

1 +√

2n

zq

≤ σ2 ≤ S2n

1−√

2n

zq

(8.26′)

che e piu comodo da calcolare perche richiede solo la determinazione di zq anzichequella di χ1 e χ2.

Esempio 8.12

Per stimare la varianza di un coefficiente di resistenza aerodinamica Cx, si effettuano12 prove in una galleria del vento sul medesimo modello della struttura in esame. Dairisultati delle prove si ricava che il valor medio empirico del coefficiente di resistenzae circa 0.3, con varianza campionaria S2

n = 0.015. Si vuole determinare: 1) i limitifiduciari per la varianza teorica σ2(Cx) del coefficiente di resistenza, al livello difiducia γ = 0.9 ; 2) il livello fiduciario con cui si puo affermare che σ2(Cx) ≤ 0.03.

Teoricamente, non sarebbe possibile assumere per Cx un modello statistico normale,perche N (µ, σ2) e definito sull’insieme dei numeri reali, mentre Cx > 0. Tuttavia, sipuo facilmente verificare che la curva gaussiana (2.29) con un valor medio µX ' 0.3e varianza di un’ordine di grandezza inferiore, ha valori trascurabili al di fuori di unintervallo non negativo 0 < x < 0.6). Di conseguenza, il modello statistico normalesi puo ritenere compatibile con il nostro Cx e una stima intervallare di σ2(Cx) si puoeffettuare applicando le precedenti formule (8.24)-(8.27).

1) Per una distribuzione Chi-quadrato con ν = n−1 = 11 gradi di liberta, i quantilicalcolati con la (8.25) sono:

q1 =1− γ

2= 0.05 ; q2 =

1 + γ

2= 0.95

e la Tabella dei quantili χq in Appendice fornisce: χ1 = 4.57; χ2 = 19.7. Il valoreempirico della varianza campionaria corretta e:

S2n =

1211

S2n = 0.01636

e applicando la (8.26) si ottiene, al livello fiduciario γ = 0.9, la seguente stimaintervallare della varianza teorica:

0.0091 =11 · 0.01636

19.7≤ σ2(Cx) ≤ 11 · 0.01636

4.57= 0.0393.

2) per determinare il livello fiduciario per una stima a una coda tale che σ2(Cx) ≤0.03, usiamo la prima delle (8.27) ricercando il valore del quantile χ1−γ che soddisfala condizione:

n− 1χ1−γ

S2n =

11 · 0.01636χ1−γ

= 0.03 ,

Page 235: dispense di Probabilita' e Statistica

8.2 – Stima per intervalli 227

ossia: χ1−γ = 5.998. Per ν = 11, la Tabella dei quantili fornisce i valori χ = 5.58per q = 0.1, e χ = 7.58 per q = 0.25. Interpolando linearmente tra questi dati perottenere il valore di q corrispondente al quantile 5.998, ricaviamo:

q = 0.1 +0.25− 0.17.58− 5.58

· (5.998− 5.58) ' 0.13

da cui γ = 1 − q = 0.87 . Questo e il livello fiduciario con cui si puo affermare cheσ2(Cx) ≤ 0.03.

Esempio 8.13

Da una popolazione di N = 300 elementi avente un carattere X distribuito conlegge normale N (µ, σ2 = 150) si estraggono senza ripetizione n = 101 esemplari.Si desidera effettuare, al livello fiduciario γ = 0.98, una stima intervallare per lavarianza del carattere X risultante nei 101 elementi del campione.

In questo problema la varianza teorica e nota, e il suo valore e da utilizzare pereffettuare una stima sulla varianza campionaria S2

n. Si riscrive la (8.24) nella formaseguente:

IP(χ1 ≤ Qn ≤ χ2) = IP(

χ1 ≤ n− 1σ2

S2n ≤ χ2

)=

= IP

(σ2

n− 1χ1 ≤ S2

n ≤σ2

n− 1χ2

)= 0.98

e si ricavano dalla Tabella in Appendice i quantili della distribuzione Chi-quadratocon ν = 100 gradi di liberta, corrispondenti a

q1 =1− 0.98

2= 0.01 ; q2 =

1 + 0.982

= 0.99 ,

che valgono: χ1 = 70.1 ; χ2 = 136. Si deducono i seguenti limiti fiduciari per lastima ottima della varianza campionaria:

105.15 =150 · 70.1

100≤ S2

n ≤150 · 136

100= 204.

Ricordando poi che il campione e stato estratto senza ripetizione, questa statisticae legata alla varianza campionaria S2

n dalla relazione (7.19):

S2n =

N − 1N

· n

n− 1S2

n =299300

· 101100

S2n = 1.00663S2

n ,

per cui la stima intervallare richiesta e

105.84 ≤ S2n ≤ 205.35 . (8.29)

I limiti fiduciari per S2n sono molto vicini a quelli calcolati per S2

n, perche la nu-merosita del campione e superiore a 30.

Page 236: dispense di Probabilita' e Statistica

228 STIME DI PARAMETRI

Per lo stesso motivo, e anche possibile approssimare il risultato richiesto effettuandouna stima intervallare sulla variabile normale standard (8.28). Nel nostro caso, peravere risultati coerenti con i precedenti non e pero lecito approssimare all’unita ilrapporto (n − 1)/n, perche il suo valore esatto e stato usato nel ricavare la (8.29).Risolvendo la posizione (8.28) rispetto a S2

n ricaviamo il seguente intervallo di con-fidenza approssimato:

(1−

√2n

zq

)σ2 n

n− 1≤ S2

n ≤(

1 +√

2n

zq

)σ2 n

n− 1.

Se sostituiamo zq = 2.33 risulta:

101.81 ≤ S2n ≤ 201.17

e dividendo i limiti fiduciari per 1.00663, si ottiene la seguente approssimazionedell’intervallo di confidenza per S2

n:

102.48 ≤ S2n ≤ 202.50,

da confrontare con il risultato “esatto” (8.29) che e stato ottenuto usando i coeffi-cienti fiduciari della distribuzione Chi-quadrato.

8.3 Problemi risolti

8.1. La connessione a un sito Internet e ogni volta accettata con probabilita ϑ, 0 ≤ϑ ≤ 1. Se X(ω) e la variabile aleatoria che rappresenta il numero di tentativinecessari per avere il collegamento, qual’e il modello statistico da assumere per lavariabile Y (ω) = X−1 ? In n giorni diversi si osserva il numero di tentativi che sonostati necessari per la connessione, e se ne calcola la media campionaria µn. Questastatistica e uno stimatore non distorto di EY ?

Soluzione. Se X = k, k = 1, 2, . . . definisce il numero d’ordine della prima provain cui si e verificato un successo, Yk = Xk − 1 indica il numero dei fallimenti cheprecedono il primo successo. Il modello statistico di Y e quello della distribuzionegeometrica :

f(Y = k) = ϑ(1− ϑ)k, k = 0, 1, 2, . . .

che ha media

EY =1− ϑ

ϑ=

1ϑ− 1.

Per il Secondo Principio delle prove bernoulliane, la distribuzione delle medie cam-pionarie di X e l’inverso della probabilita ϑ:

Eµn = E

X1 + . . . + Xn

n

=

= EY + 1 = EX.

Page 237: dispense di Probabilita' e Statistica

8.3 – Problemi risolti 229

Quindi µn non e uno stimatore corretto di EY , ma lo e di EX.8.2. Consideriamo la funzione

f(x, ϑ) = ϑx + 1− ϑ/2 per 0 ≤ x ≤ 1

e nulla altrove, dipendente dal parametro reale ϑ.

a) Per quali valori di ϑ la funzione e una densita di probabilita ?

b) Calcolare, in funzione di questi valori, la media della variabile aleatoria che hauna densita di probabilita f(x, ϑ).

c) Sia ora Xk, k = 1, . . . , n un campione di numerosita n del carattere X. Definitele due statistiche:

Sn =112− 6

n

n∑

k=1

Xk, Tn = 12

(1n

n∑

k=1

Xk − 12

),

quale delle due e uno stimatore non distorto di ϑ ?

Soluzione.

a) L’integrale di f(x, ϑ) vale 1 e non dipende da ϑ:

∫ 1

0

(ϑx + 1− ϑ

2

)dx =

ϑ

2+ 1− ϑ

2= 1.

Quindi f(x, ϑ) e una densita per qualsiasi valore reale di ϑ .

b) EX =∫ 1

0x

(ϑx + 1− ϑ

2

)dx =

[ϑx3

3+

x2

2− ϑx2

4

]1

0

=12

12.

c) Calcoliamo i valori medi delle due statistiche:

ESn =112− 6

nE

n∑

k=1

Xk

=

112− 6

n· nEX =

112− 6

(12

12

)= −35

12− ϑ

2

ETn = 12

(1n

E

n∑

k=1

Xk

− 1

2

)= 12

(1n· nEX − 1

2

)= 12

(12

12− 1

2

)= ϑ.

Lo stimatore corretto di ϑ e Tn perche il suo valor medio coincide con il parametroϑ da stimare.

8.3. Da una popolazione di N = 1000 sbarre metalliche si estrae in blocco uncampione di n = 200 elementi. Stimare la lunghezza media µ delle sbarre e lo scartoquadratico medio σn della distribuzione campionaria delle medie, sapendo che lalunghezza media del campione e x = 21 cm e che la radice quadrata della varianza

campionaria e Sn =√

1n

∑ni=1(xi − x)2 = 0.5 cm.

Page 238: dispense di Probabilita' e Statistica

230 STIME DI PARAMETRI

Soluzione.

Poiche la media campionaria e una stima corretta del valor medio della popolazione,si ha subito che µ = 21 cm.

Il campione e estratto senza ripetizione da N elementi, per cui la distribuzionecampionaria delle medie ha uno scarto quadratico medio che vale

σn =σ√n·√

N − n

N − 1

e per calcolarlo bisogna stimare la varianza σ2 incognita della popolazione. La stimaottima della varianza e

σ2 =N − 1

N· n

n− 1S2

n =999

5 · 199· 0.25 ' 0.251

e sostituendo la sua radice quadrata si ricava:

σn =

√σ2

200·√

1000− 2001000− 1

=√

0.251 · 4999

' 0.0317 cm.

8.4. Da una popolazione di N = 3000 studenti universitari maschi si e estratto uncampione di n = 100 elementi, i cui pesi sono raccolti nella seguente tabella:

pesi numero studenti

[60, 65) 10[65, 70) 14[70, 75) 16[75, 80) 20[80, 85) 18[85, 90) 12[90, 95) 20

Stimare il peso medio di tutta la popolazione e lo scarto quadratico medio dellamedia nei due casi: a) di estrazione bernoulliana e b) di estrazione in blocco. (Siassuma come valore del peso di ogni classe il valore centrale).

Soluzione. Per ognuna delle sette classi calcoliamo: i valori centrali, gli scarti rispettoalla media e i loro quadrati. Ne risulta la seguente tabella:

∆i ni xi xi − x (xi − x)2

[60, 65) 10 62.5 -14.9 222.01[65, 70) 14 67.5 -9.9 98.01[70, 75) 16 72.5 -4.9 24.01[75, 80) 20 77.5 0.1 0.01[80, 85) 18 82.5 5.1 26.01[85, 90) 12 87.5 10.1 102.01[90, 95) 20 92.5 15.1 228.01

Page 239: dispense di Probabilita' e Statistica

8.3 – Problemi risolti 231

per completare la quale si e gia utilizzato il primo risultato:

x =1

100(62.5·10+67.5·14+72.5·16+77.5·20+82.5·18+87.5·12+92.5·10) = 77.4 .

La stima ottima della varianza incognita della popolazione, effettuata con un cam-pione estratto con ripetizione, e

σ2 =199

(222.01 · 10 + 98.01 · 14 + 24.01 · 16 + 0.01 · 20 +

+26.01 · 18 + 102.01 · 12 + 228.01 · 10) =794999

Pertanto nel caso di estrazione bernoulliana (“con ripetizione”) lo scarto quadraticomedio della media vale

σn =σ√n

=√

79499900

' 0.896 .

Nel caso di estrazione in blocco (“senza ripetizione”), la precedente stima dellavarianza deve essere moltiplicata per il coefficiente correttivo (N − 1)/N , che perosi puo trascurare perche 2999/3000 ' 1. Allora per estrazioni in blocco risulta:

σn =σ√n·√

N − n

N − 1=

√79499900

·√

29002999

' 0.896 · 0.983 ' 0.880 .

8.5. La durata di cinque valvole di una certa popolazione fornisce il campione:

637, 632, 636, 637, 633 ore.

Ricavare la stima corretta della vita media delle valvole e della sua varianza.

Soluzione:

µ =637 + 636 + 637 + 633 + 632

5= 635 ore

σ2 =4 + 1 + 4 + 9 + 4

4=

112

= 5.5 (ore)2.

8.6. Sia X una variabile casuale normale di media µ e varianza σ2. Siano X1, X2,X3 le variabili casuali indipendenti descritte dalle tre determinazioni x1, x2, x3 di uncampione da essa estratto con ripetizione. Per stimare il parametro µ si consideranoi due stimatori X3 e S3 definiti, rispettivamente, da:

X3 =X1 + X2 + X3

3, S3 =

15X1 +

15X2 +

35X3.

1) Gli stimatori X3 e S3 generano stime corrette di µ ? Perche ?

Page 240: dispense di Probabilita' e Statistica

232 STIME DI PARAMETRI

2) Confrontando le rispettive varianze, stabilire quale tra i due stimatori e il piuefficiente.

Soluzione. 1) I valori medi delle due statistiche valgono:

EX3 =EX1+ EX2+ EX3

3=

3= µ

ES3 =ES1+ ES2+ 3ES3

5=

5= µ

e poiche sono uguali a µ, entrambe le statistiche generano stime corrette di µ .

2) Tenuto conto che Xi sono indipendenti, le varianze di X3 e S3 valgono:

σ2X3 =19

[σ2(X1) + σ2(X2) + σ2(X3)

]=

19· 3σ2 =

σ2

3

σ2S3 =125

[σ2(X1) + σ2(X2) + 9σ2(X3)

]=

1125

σ2

e poiche σ2(X3) < σ2(S3), ne segue che X3 e il piu efficiente .

8.7. Da una popolazione molto grande di sfere si estraggono n = 50 sfere il cuipeso medio e x = 195 g. Sapendo che la varianza dell’universo e σ2 = 156.25 g2,determinare l’intervallo di confidenza per la stima della media µ al livello γ = 1−α =0.95.

Soluzione. La popolazione e molto grande, e la numerosita del campione e maggioredi 30. Qualunque sia il modello statistico della popolazione, si puo approssimare ladistribuzione campionaria delle medie con una Normale con media x = µ = 195 g.e deviazione standard

σn =σ√n

=√

156.2550

=√

3.125 ' 1.7677 g .

L’intervallo di confidenza I per la media e tale che: 195− σnzγ < µ < 195 + σnzγ ,dove zγ e il coefficiente fiduciario per la variabile standardizzata Zn = (µn − µ)/σn

al livello fiduciario γ = 0.95. Si determina zγ usando la Tabella di erf(z) :

erf(zγ) =γ

2= 0.475 ⇒ zγ = 1.96.

e sostituendo si ricava:

1.95− 1.7677 · 1.96 < µ < 1.95 + 1.7677 · 1.96 ⇒ I = (191.53, 198.46) .

8.8. Le ripetute e numerose misurazioni di un certo angolo, effettuate mediante unteodolite assai preciso, descrivono una variabile casuale normale, incentrata sullavera misura µ dell’angolo e di scarto quadratico medio σ = 0.1′′. Stimare, mediante

Page 241: dispense di Probabilita' e Statistica

8.3 – Problemi risolti 233

un intervallo di confidenza di livello 0.99, il valore incognito µ attraverso un campionedi 9 misure la cui media risulta essere x = 48′′.

Soluzione. La popolazione ha legge normale con varianza nota, per cui la dis-tribuzione campionaria delle medie e una normale N (µ, σ2/n) per qualunque n,ed e descritta dalla variabile standardizzata

Zn =x− µ

σ/√

n= 30(48− µ).

Il suo coefficiente fiduciario zγ al livello γ = 0.99 vale:

erf(zγ) =γ

2= 0.495 ⇒ zγ = 2.58

per cui si ricava:

48− zγ

30< µ < 48 +

30⇒ I = (47.914, 48.086) .

8.9. Da una popolazione di 3000 studenti universitari si estrae un campione (senzaripetizione) di 200 studenti. Sia x = 170 cm l’altezza media del campione e s2 =20, 25 cm2 la varianza del campione. Determinare l’intervallo di confidenza dellamedia al livello di fiducia del 98%.

Soluzione. La popolazione ha varianza teorica sconosciuta, per cui bisogna stimarla.Il campione e estratto in blocco da un numero elevato di elementi: la stima di σ2 e

σ2 =n

n− 1s2 =

200199

· 20.25 = 20.35176 ⇒ σ = 4.511.

La distribuzione campionaria delle medie ha quindi deviazione standard

σn = σ ·√

N − n

n(N − 1)= 4.511 ·

√14

2999' 0.308.

Al livello di fiducia γ = 1−α = 0.98, la variabile standardizzata Zn = (170−µ)/0.308ha un coefficiente fiduciario zγ che vale:

erf(zγ) =γ

2= 0.49 ⇒ zγ = 2.33

per cui si ricava:

170− 0.308zγ < µ < 48 + 0.308zγ ⇒ I = (169.28, 170.72) .

8.10. Nel misurare il coefficiente di dilatazione lineare di un metallo, uno sperimen-tatore stima che la deviazione standard e di 0.05 mm. Quanto deve essere grande il

Page 242: dispense di Probabilita' e Statistica

234 STIME DI PARAMETRI

campione delle misure affinche egli abbia la fiducia del 99% che l’errore, nello stimareil coefficiente medio, non sia superiore a 0.01 mm ?

Risposta. La variabile standardizzata per la distribuzione campionaria dei coeffici-enti medi µn e

Zn =µn − µ

σn=√

n

0.55· (µn − µ)

e il suo coefficiente fiduciario al livello γ = 0.99 (lo stesso dell’esercizio VI.2) ezγ = 2.58.

Affinche l’errore µn−µ nella stima di µ sia minore o uguale a 0.01 mm, deve essere:

0.05√n· zγ = µn − µ ≤ 0.01 ossia n ≥

(0.05 · 2.58

0.01

)2

= (12.9)2 = 166.41

e quindi, arrotondando all’unita per eccesso: n ≥ 167 .

8.11. Da una popolazione normalmente distribuita si estrae un campione di 10anelli di diametro medio x = 28.2 cm, con scarto quadratico medio del campionepari a s = 5.29 cm. Determinare l’intervallo di confidenza per la stima del diametromedio della popolazione con livello di fiducia γ = 1− α = 0.95.

Soluzione. E’ stato estratto (si sottintende: con ripetizione) un piccolo campione(n < 30) da una popolazione normale con varianza sconosciuta. Si usa quindi lastatistica

Tn =(x− µ)

√n

Sn

= (28.2− µ)√

n

Sn

in cuiSn√

n=

1√n· s ·

√n

n− 1=

s√n− 1

=5.293

= 1.763 cm.

L’intervallo richiesto e

28.2− 1.763 · tγ < µ < 28.2 + 1.763 · tγ ,

dove tγ e il quantile di ordine q = (1+γ)/2 della distribuzione t-Student con n−1 = 9gradi di liberta.

Al livello di fiducia γ = 0.95, si ha: q = 0.975 ; tγ = 2.262 e sostituendo si ottienel’intervallo fiduciario:

I = (28.2− 1.763 · 2.262, 28.2 + 1.763 · 2.262) ' (24.21, 32.19) cm.

8.12. Vengono effettuate in tempi diversi 20 misurazioni della concentrazione di uncerto elemento in un materiale, e si osserva una media µn = 1.23 e una varianzacorretta S2

n = 0.4. Nell’ipotesi che questa concentrazione abbia un modello statisticonormale con parametri sconosciuti, determinare l’intervallo fiduciario al livello 0.95

Page 243: dispense di Probabilita' e Statistica

8.3 – Problemi risolti 235

per la sua media e la sua varianza. Quale sarebbe invece l’intervallo fiduciario perla media, se si supponesse che il modello normale avesse varianza nota σ2 = 0.4 ?

Soluzione. Se la popolazione normale ha varianza sconosciuta, la distribuzione cam-pionaria delle medie ha legge t-Student con n−1 = 19 gradi di liberta. In una stimaintervallare della media si ha:

µn − Sn√n· tq < µ < µn +

Sn√n· tq

con tq = quantile di ordine q = (1 + γ)/2 = 0.975 della t-Student con 19 gradi diliberta, che vale tq = 2.093. Sostituendo si ottiene:

1.23−√

0.420

· 2.093 < µ < 1.23 +√

0.420

· 2.093 ⇒ I ' (0.934, 1.526) .

La distribuzione campionaria delle varianze ha legge χ2 con 19 gradi di liberta, e lastima intervallare della varianza sconosciuta della popolazione e

n− 1χ2

S2n < σ2 <

n− 1χ1

S2n

dove χ2 e il quantile di ordine q = (1 + γ)/2 = 0.975, e χ1 e il quantile di ordineq = (1− γ)/2 = 0.025 della legge χ2

19.

Dalle Tavole risulta: χ1 ≡ χ0.025 = 8.91, χ2 ≡ χ0.975 = 32.9 e sostituendo:

1932.9

< σ2 <19

8.91⇒ 0.231 < σ2 < 0.853 .

Se il modello normale avesse varianza nota σ2 = 0.4, si dovrebbe assumere una di-stribuzione campionaria delle medie con legge normale e deviazione standard σn =σ/√

n =√

0.02. La stima intervallare della media sarebbe

1.23−√

0.02 · zγ < µ < 1.23 +√

0.02 · zγ

dove: erf(zγ) = γ/2 = 0.475, ovvero: zγ = 1.96. Sostituendo si ottiene:

0.953 < µ < 1.507 .

8.13. In 10 prove su strada un motore di autoveicolo ha consumato in media 12.75litri di carburante per 100 Km. e la varianza campionaria e risultata S2

n = 3.5.Nell’ipotesi che la distribuzione dei consumi segua una legge normale, stimare allivello fiduciario del 99% il massimo della media dei consumi di quel motore.

Soluzione. Si tratta di determinare un intervallo di confidenza unilaterale inferioreper la media µ di una popolazione normale con varianza incognita. Questo intervallodi confidenza e

−∞ < µ < µn +Sn√

nt0.99

Page 244: dispense di Probabilita' e Statistica

236 STIME DI PARAMETRI

doveSn√

n=

1√n·√

n

n− 1S2

n =√

3.59' 0.6236

e t0.99 e il quantile di ordine γ = 0.99 della distribuzione t-Student con n − 1 = 9gradi di liberta.

Dalle Tavole risulta: t0.99 = 2.821, e sostituendo si ricava la stima:

µ < 12.75 + 0.6236 · 2.821 ' 14.51 litri .

8.14. Si esamina un campione di 100 pile prodotte dalla ditta A e un secondocampione di 150 pile messe in commercio dalla ditta B. La media campionaria dellatensione in uscita delle pile prodotte dalla ditta A risulta µA = 12.2 Volt; quelladella ditta B e µB = 11.7 Volt. Si suppone inoltre che i due campioni siano statiprelevati da popolazioni distribuite normalmente e con uguali varianze σ2 = 0.12.Determinare, al livello di fiducia del 90%, l’intervallo di confidenza per la differenzaδ tra le tensioni medie delle pile prodotte dalle due ditte.

Soluzione. La distribuzione campionaria della differenza δ = µA − µB tra le medieha legge normale, con media δ = 12.2− 11.7 = 0.5 Volts e varianza

σ2δ =

σ2A

nA+

σ2B

nB=

0.12100

+0.12150

= 0.002 (Volt)2.

Il valor medio di δ ha la seguente stima intervallare:

δ − σδzγ < µδ < δ + σδzγ ,

con zγ tale che erf(zγ) = γ/2 = 0.45. Dalle Tavole di erf(z) si ricava: zγ = 1.645 esostituendo:

0.5−√

0.002 · 1.645 < µδ < 0.5−√

0.002 · 1.645 ⇒ I ' (0.426, 0.573) Volts .

8.15. Un campione di n = 16 elementi di una popolazione con legge normale aventemedia µ e varianza σ2 incognite, ha mostrato una media campionaria xn = 68 eduna varianza campionaria corretta s2

n = 9.

a) Determinare l’intervallo di confidenza per la stima della media µ al livello diconfidenza del 95%.

b) Calcolare la probabilita fiduciaria γ con cui si puo affermare che µ e compresonell’intervallo 68± 1.31475.

Soluzione.

a) Si dispone di un piccolo campione, estratto da una popolazione normale convarianza sconosciuta. Al livello γ = 0.95, la stima intervallare di µ e la seguente:

x− sn√n· tq < µ < x +

sn√n· tq

Page 245: dispense di Probabilita' e Statistica

8.3 – Problemi risolti 237

in cui tq e il quantile di ordine q = (1 + γ)/2 = 0.975 della distribuzione t-Studentcon 16− 1 = 15 gradi di liberta, e vale: t0.975 = 2.131. Sostituendo si ricava:

68− 34· 2.131 < µ < 68 +

34· 2.131 ⇒ I ' (66.40, 69.60) .

b) Se si vuole affermare che:

|x− µ| = sn√n· tq =

34· tq = 1.31475,

allora deve essere: tq = 1.31475 · 4/3 = 1.753. Nella distribuzione t-Student con 15gradi di liberta, questo e il valore del quantile di ordine

q =1 + γ

2= 0.95 da cui: γ = 0.90 .

8.16. Un campione di n = 25 elementi estratto da una popolazione con leggenormale ha una media campionaria µn = 10 e varianza campionaria corretta S2

n = 2.Determinare gli intervalli di confidenza per la stima della media µ e della varianzaσ2 della popolazione, al livello fiduciario del 95%.

Soluzione. La distribuzione campionaria delle medie ha legge t-Student con 24 gradidi liberta. Al livello γ = 0.95, la stima intervallare per µ e

µn − Sn√n· tq < µ < µn +

Sn√n· tq

dove tq e il quantile di ordine q = (1 + γ)/2 = 0.975 della t-Student con 24 gradi diliberta, che vale t0.975 = 2.064. Sostituendo si trova:

10−√

25· 2.064 < µ < 10 +

√2

5· 2.064 ⇒ Iµ ' (9.42, 10.58) .

La distribuzione campionaria delle varianze ha legge χ2 sempre con 24 gradi diliberta, e la stima intervallare per σ2 e:

24χ2· S2

n < σ2 <24χ1· S2

n.

Se γ = 0.95, χ1 e χ2 sono rispettivamente i quantili di ordine q1 = 0.025 e q2 = 0.975della distribuzione χ2, e valgono: χ1 = 12.4, χ2 = 39.4. Sostituendo si ricava:

2439.4

· 2 < σ2 <24

12.4· 2 ⇒ I(σ2) ' (1.22, 3.87) .

8.17. Da una popolazione normale con varianza sconosciuta si estrae un campionedi 9 elementi che ha una media xn = 100 e varianza campionaria corretta S2

n = 0, 65.

Page 246: dispense di Probabilita' e Statistica

238 STIME DI PARAMETRI

Determinare la probabilita fiduciaria γ con cui si puo affermare che la media µ dellapopolazione e compresa in un intervallo di estremi 100± 0, 5.

Soluzione. La probabilita γ si definisce come segue:

γ = IP(|Tn| ≤ tq) = IP

(|xn − µ| = Sn√

ntq ≤ 0.5

)

dove tq e il coefficiente fiduciario per una variabile Tn che ha legge t-Student con 8gradi di liberta. Esso deve soddisfare la condizione

tq ≤ 0.5 ·√

90.65

' 1.861,

e dalla tavola della distribuzione t-Student con ν = 8 si ricava che il quantile chesoddisfa tale condizione con il segno di uguaglianza vale q = 0.95. Si ricava percio

q ≡ 1 + γ

2= 0.95 ⇒ γ = 0.9 .

8.18. Si estrae un campione da una popolazione il cui carattere X ha media incog-nita e varianza σ2 = 9. Quale la numerosita minima che deve avere il campione perpoter affermare, con probabilita almeno del 90%, che la media campionaria si scostaper non piu di 2 da quella incognita di X ?

Risposta. La probabilita richiesta si calcola imponendo:

zγ · σ√n

= zγ ·√

9n≤ 2

dove zγ , coefficiente fiduciario della variabile standardizzata Zn = (x−µ)/σn, e taleche erf(zγ) = γ/2 = 0.45.

Dalla Tabella di erf(z) risulta: zγ = 1.65 e quindi, sostituendo e arrotondandoall’unita per eccesso, si ricava:

1.65 · 3√n≤ 2 ⇒ n ≥

(1.65 · 3

2

)2

= 6.125 ' 7 .

Page 247: dispense di Probabilita' e Statistica

TEST PARAMETRICI DIIPOTESI STATISTICHE

9.4 Principi generali di un test statistico

Si chiama ipotesi statistica qualsiasi ipotesi fatta sulla forma o sulle proprieta delladistribuzione probabilistica osservata in un esperimento che coinvolge una variabilealeatoria.

Uno degli scopi fondamentali della Statistica Matematica consiste nella definizionedei metodi per verificare la validita di ipotesi fatte riguardo a questa variabile aleato-ria, sulla base sia di considerazioni teoriche, sia della analisi dei dati osservati in uncampione.

L’ipotesi formulata su un generico fenomeno aleatorio e usualmente chiamata ipotesinulla, e indicata con H0. Possiamo suddividere le ipotesi statistiche in due grandicategorie:

• Ipotesi parametriche, che si riferiscono a certi parametri della distribuzioneteorica di una o piu popolazioni, la quale si assume gia definita nella famigliadelle funzioni di distribuzione FX(x) compatibili con il modello statistico adot-tato per ciascuna popolazione. In generale, una ipotesi parametrica e specifi-cata da una ipotesi nulla del tipo:

H0 : ϑ ∈ Θ0 ⊂ Θ (9.28)

per un parametro incognito ϑ (eventualmente multidimensionale) che si assumeappartenente ad un determinato sottoinsieme Θ0 del dominio Θ compatibilecon il modello statistico. Il test ha come obiettivo la verifica della validitadella ipotesi (9.28).

• Ipotesi non parametriche, fatte per esempio sulla forma o sulla naturastessa della funzione di distribuzione FX(x) del carattere aleatorio da stu-diare, oppure riguardanti proprieta aleatorie congiunte di piu caratteri dellemedesima popolazione, oppure ancora relativi a popolazioni differenti.

239

Page 248: dispense di Probabilita' e Statistica

240 TEST PARAMETRICI

Una ipotesi non parametrica e specificata da una ipotesi nulla del tipo:

H0 : FX(x) ∈ F0 ⊂ F (9.29)

in cui F0 e una classe appropriata di funzioni — appartenente alla famiglia F dellefunzioni di distribuzione compatibili con il modello statistico — che si assume con-tenga la vera funzione di distribuzione FX(x) carattere X (eventualmente multidi-mensionale) che esaminiamo con il campione.

Le ipotesi nulle del tipo (9.28) o (9.29) si chiamano semplici se Θ0 oppure F0 con-tengono solo un elemento; si dicono composte in caso contrario.

Si chiama test statistico la regola che ci permette di decidere se, e in quale misura,accettare o respingere una ipotesi nulla del tipo (9.1) o (9.2), esaminando le osser-vazioni fatte su una statistica campionaria.

L’impostazione di un test statistico si effettua nel modo seguente.

1. Si definisce una legge probabilistica per il carattere aleatorio X, compatibilecon il modello statistico della popolazione su cui si effettua il test.

2. Si definisce l’ipotesi nulla H0 da verificare.

3. Si definisce una ipotesi alternativa H1 che e una ipotesi da considerare validaquando si rifiuta H0, e nei due casi sopra esaminati e rispettivamente del tipo:

H1 : ϑ ∈ Θ1 con Θ1 = Θ \Θ0 (9.1′)

H1 : FX(x) ∈ F1 con F1 = F \ F0 . (9.2′)

4. Si definisce una statistica campionaria Gn(X1, . . . , Xn) con distribuzione notaquando l’ipotesi nulla H0 e vera.

5. Si suddivide lo spazio G delle possibili osservazioni campionarie in due insiemidisgiunti: l’insieme A detto regione di accettazione di H0, e il suo comple-mentare C = G \ A detto regione di rifiuto o regione critica.

6. Si assume come criterio decisionale la regola di accettare l’ipotesi nulla H0 sela realizzazione osservata della statistica Gn appartiene ad A, e di rifiutarla seappartiene alla regione critica.

La decisione di accettare o rifiutare l’ipotesi nulla in seguito alle osservazioni delcampione e sempre affetta da due tipi di errore, che sono definiti come segue.

L’errore di prima specie α e quello che commettiamo se rigettiamo l’ipotesi nullaH0 quando essa e vera:

α = IP(H1|H0) ≡ IP(Gn ∈ C |H0 vera). (9.30)

L’errore di seconda specie β e quello che commettiamo se accettiamo H0 mentreinvece e vera l’ipotesi alternativa:

β = IP(H0|H1) ≡ IP(Gn ∈ A |H1 vera). (9.31)

Page 249: dispense di Probabilita' e Statistica

9.5 – Test parametrici 241

Il livello di significativita del test e la massima probabilita con la quale siamodisposti a rischiare di commettere un errore di prima specie.

Sulla base della ipotesi fatta sulla legge della distribuzione campionaria, possiamodefinire la probabilita α di commettere un errore di prima specie, e quindi riconoscereil livello di significativita del test ovvero, in modo equivalente, il livello di fiduciadel test che e specificato dalla quantita 1− α.

Le probabilita α, β di errore variano, ovviamente, al variare degli insiemi A e Ccon cui abbiamo scelto la regione di accettazione e quella di rifiuto. D’altra parte,sono possibili infinite suddivisioni dello spazio delle osservazioni campionarie, e diregola si opera in modo da scegliere la regione di accettazione A in modo da renderepiccolo l’errore di prima specie (solitamente, α = 0.05 oppure 0.01). Tuttavia, man-tenendo fissa la numerosita n dei campioni, al decrescere di α cresce la probabilitaβ dell’errore di seconda specie. Fissato α, si deve pertanto ricercare la suddivisionedello spazio G che rende minimo l’errore β.

Si definisce potenza di un test la quantita W = 1 − β ∈ [0, 1] che misura laprobabilita di respingere l’ipotesi nulla H0 quando e vera l’ipotesi alternativa H1.

La determinazione della potenza di un test e spesso difficile, perche per il suo calcoloesplicito occorre conoscere anche la distribuzione campionaria di Gn quando e veral’ipotesi alternativa H1 la quale, per giunta, spesso non e semplice ma composta.Nei casi in cui cio e possibile, il test (se esiste) in cui fissato α l’errore β e minimosi chiama “il test piu potente” tra quelli con α assegnato.

A sua volta, la potenza di un test con α assegnato cresce al crescere della numerositadei campioni, che e comunque limitata per motivi di ordine pratico. Fissato anchen, se l’ipotesi alternativa e composta, il grafico della potenza W (gn) in funzione deipossibili valori empirici gn che puo assumere la statistica campionaria Gn si chiamacurva di potenza del test. Se invece di riportare la potenza W (gn) si riporta l’erroredi seconda specie β, si ha la curva caratteristica operativa β(gn) del test.

In questo Capitolo tratteremo piu in dettaglio alcune tecniche in uso per effettuarela verifica di ipotesi parametriche per le quali, come vedremo, esiste sotto certecondizioni un criterio per la definizione di un test di massima potenza. Nel Capitoloseguente tratteremo infine i metodi piu comuni per effettuare test di ipotesi nonparametriche.

9.5 Test parametrici

In un test statistico sul parametro ϑ di una distribuzione FX(x;ϑ) compatibile conil modello statistico della popolazione, l’ipotesi nulla e quella alternativa sono deltipo (9.28), (9.1’). Tre esempi molto particolari sono i seguenti. Se si assume:

H0 : ϑ = ϑ0 ; H1 : ϑ = ϑ1, (9.32)

si imposta un test fra due ipotesi semplici, perche queste sono definite su due insiemiΘ0 e Θ1 costituiti entrambi da un solo elemento. Se invece si assume:

H0 : ϑ = ϑ0 ; H1 : ϑ > ϑ0 oppure ϑ 6= ϑ0 , (9.33)

Page 250: dispense di Probabilita' e Statistica

242 TEST PARAMETRICI

l’ipotesi alternativa e composta, perche Θ1 = (ϑ0, +∞) oppure Θ1 = (−∞, ϑ0) ∪(ϑ0, +∞). E ancora: se per un modello Normale-2 N (ϑ1, ϑ2) si fa l’ipotesi nulla:

H0 : ϑ1 = ϑ10 , ϑ2 = ϑ20 ; Θ0 ∈ IR2 = ϑ10, ϑ20,questa e una ipotesi semplice per i due parametri incogniti (media e varianza); seinvece l’ipotesi nulla e H0 : ϑ1 = ϑ10 e si lascia la varianza indeterminata, alloraH0 e composta.

Nei test parametrici anche le ipotesi alternative, come quelle nulle, sono sempreristrette alla classe delle distribuzioni FX(x; ϑ) ammissibili dal modello statistico,le quali si suppone abbiano legge nota anche se dipendente da certi parametri dastimare. Questa circostanza consente — almeno in certi casi in cui le ipotesi alter-native sono soggette ad opportune restrizioni — di valutare anche i rischi di secondaspecie β e quindi la potenza del test parametrico effettuato.

Accettato un livello di significativita α, per riconoscere il test parametrico di mas-sima potenza tra quelli ammissibili occorre definire la regione di rifiuto C in mododa avere un rischio di seconda specie β che sia il minore possibile. La soluzione diquesto problema esiste sempre nel caso del test parametrico tra ipotesi semplici checonsideriamo nel paragrafo che segue.

9.6 Test di Neyman-Pearson tra ipotesi semplici

Assumiamo le due ipotesi semplici (9.32) per il parametro ϑ ∈ IRdi una distribuzioneFX(x, ϑ) assolutamente continua con densita fX(x, ϑ). La regione critica per iltest piu potente tra quelli che hanno un prefissato livello di significativita si puodeterminare applicando un Teorema che si puo cosı enunciare.

TEOREMA (di Neyman-Pearson, 1933)

Sia Gn(X) una statistica campionaria, con valore empirico noto attraverso le nosservazioni (x1, . . . , xn) = x su un campione X estratto da una popolazione confunzione di distribuzione assolutamente continua. Scelto arbitrariamente un realepositivo c, il test piu potente, tra quelli per cui si ha α = IP(Gn(X) ∈ C |H0), esisteed e quello per cui la regione critica C e l’insieme

C =x : `(x) =

L(ϑ0,x)L(ϑ1,x)

< c

, c ∈ IR+

dove `(x) e il “rapporto di verosimiglianza” tra le funzioni (8.6), calcolate per ϑ = ϑ0

e ϑ = ϑ1.

Ad ogni c > 0 corrisponde dunque in questo test una partizione ottimale dello spaziocampionario. Reciprocamente, scelto un livello di significativita α, la condizione(9.6) definisce la regione critica C che rende minimo l’errore di seconda specie β.Illustriamo questo Teorema con l’esempio che segue.

Page 251: dispense di Probabilita' e Statistica

9.6 – Test di Neyman-Pearson tra ipotesi semplici 243

Esempio 9.1

Assumiamo un modello statistico Normale-1 N (ϑ, σ2) con varianza nota e media dadeterminare, scegliendo tra l’ipotesi nulla che essa valga ϑ0 = 0 e l’ipotesi alternativache il suo valore sia ϑ1 = 2. Nelle due ipotesi che ci interessano, le funzioni diverosimiglianza per le realizzazioni di un campione di numerosita n sotto l’ipotesinulla e quella alternativa, sono (cfr. §8.1.2):

L(ϑ0;x) =n∏

i=1

1σ√

2πexp

[− x2

i

2σ2

]=

1(2πσ2)n/2

exp

[−

n∑

i=1

x2i

2σ2

].

L(ϑ1;x) =n∏

i=1

1σ√

2πexp

[−(xi − 2)2

2σ2

]=

1(2πσ2)n/2

exp

[−

n∑

i=1

(xi − 2)2

2σ2

]

e il rapporto di verosimiglianza vale:

`(x) =

exp

[− 1

2σ2

i

x2i

]

exp

[− 1

2σ2

(∑

i

x2i + 4n− 4

i

xi

)] =

=1

exp(−2n

σ2

)exp

(−2nµn

σ2

) = exp[−2n

σ2(µn − 1)

],

dove e stata introdotta la realizzazione µn della statistica campionaria da usare neltest, che e la media campionaria (7.2).

Secondo il teorema di Neyman-Pearson, per ogni arbitrario c > 0 il test piu potentee quello per cui `(x) < c. Nel nostro caso, cio comporta che nella distribuzione cam-pionaria delle medie la regione “ottimale” di rifiuto e quella definita dalla condizione:

µn > 1− σ2

2nlog c ≡ h. (9.34)

Scelto ora un rischio di prima specie α, si determina il valore di h tenendo conto chela distribuzione campionaria delle medie ha legge normale N (µn, σ2/n). Infatti, seH0 e vera, il valor medio di questa distribuzione e nullo e dunque:

α = IP(µn > h |H0) =√

n

σ√

∫ ∞

hexp

(−nµ2

n

2σ2

)dµn =

12− erf

(h√

n

σ

). (9.35)

Una volta valutato h, tenuto conto che se e vera H1 la distribuzione campionaria hamedia Eµn = 2, si determina anche l’errore di seconda specie β:

β = IP(µn ≤ h |H1) =

=√

n

σ√

∫ h

−∞exp

(−n(µn − 2)2

2σ2

)dµn =

12

+ erf

[(h− 2)

√n

σ

], (9.36)

Page 252: dispense di Probabilita' e Statistica

244 TEST PARAMETRICI

( ,1)N q0 ( ,1)N q1

0 1 2 m n

ab

H :0 H :1

H0: accettoA H0: rifiutoC

Figura 9.1 - Test di Neyman-Pearson per ipotesi semplici

dal quale si ricava la potenza W = (1− β) del test.

Scelto invece un arbitrario c > 0, la (9.34) definisce la regione di rifiuto per il testpiu potente tra quelli che hanno rischi di prima e seconda specie definiti dalle (9.35)e (9.36).

La Fig. 9.1 illustra le distribuzioni campionarie delle medie µn per le due ipotesisemplici, nel caso in cui la varianza nota del modello statistico vale σ2 = 16, esi effettua un test tra le ipotesi semplici sopra precisate, al livello di significativitaα = 0.1, disponendo di un campione di numerosita n = 16. Dalla (9.35) si ha subito:erf(h) = 0.4 da cui si ricava, usando la Tabella in Appendice, che h ∼= 1.3. A questovalore di h corrisponde, ancora per la (9.34), un valore di c uguale a

c = exp[2n(1− h)

σ2

]= e−0.57 ' 0.565 .

Dalla (9.36) si ricava allora:

β = 0.5 + erf (−0.7) ' 0.24

e la potenza del test vale W ' 0.76.

Le conclusioni da trarre sono allora le seguenti. Accettato un livello di significativitaα = 0.01,

• se la media empirica osservata da un campione di 16 elementi e minore di µn =h = 1.3, si accetta l’ipotesi nulla dichiarando che la media teorica della distribuzionenormale nel modello N (ϑ, 16) e µ = 0;

• se la media empirica e maggiore di µn = 1.3, si rifiuta l’ipotesi nulla e si accettal’ipotesi alternativa, dichiarando che µ = 2.

Per definire la regione critica C, si puo anche fissare un valore positivo di c, peresempio c = 1. Con tale scelta, in base al Teorema di Neyman-Pearson la regioneottimale di rifiuto definita dalla (9.34) e µn > h = 1, per un test con rischi di prima

Page 253: dispense di Probabilita' e Statistica

9.7 – Test parametrici con ipotesi composte 245

e seconda specie che valgono:

α = IP(µn > 1 |H0) = 1/2− erf(1) ' 0.1587β = P (µn < 1 |H1) = 1/2 + erf(−1) = α

e in tal caso risultano uguali. Sebbene la potenza di questo test cresca al valoreW = 0.8413, bisogna tener conto che essa e determinata per l’insieme dei test in cuisi accetta un rischio di prima specie α = 0.1587 che e ben maggiore del precedente.Si osservi infatti, piu in generale, che:

• al diminuire di α, aumenta h e quindi si restringe la regione di rifiuto; in tal casopero cresce β e quindi diminuisce la potenza del test;

• fissato un h < 2, al crescere della grandezza n del campione decrescono sia α che β(infatti l’argomento della funzione degli errori nella (9.36) e negativo). Ne consegueche, una volta definito il livello di significativita α, al crescere della grandezza delcampione aumenta la potenza del test.

9.7 Test parametrici con ipotesi composte

Un test con entrambe le ipotesi semplici, del tipo che abbiamo appena studiato,si incontra raramente nelle applicazioni. E’ invece assai piu frequente il caso incui entrambe le ipotesi H0,H1 (o almeno una di esse) sono composte. In questoparagrafo tratteremo questi tipi di test parametrici, assumendo dapprima che solol’ipotesi alternativa sia composta.

Data una ipotesi nulla del tipo (9.28), le ipotesi alternative che si usano piu spessosono:

1) H1 : ϑ 6= ϑ0 2) H1 : ϑ > ϑ0 3) H1 : ϑ < ϑ0. (9.37)

Nel caso 1) il test si chiama bidirezionale; nel caso 2) e unidirezionale superioreo con“con coda a destra”, e nel caso 3) e unidirezionale inferiore o “con coda asinistra”.

C’e una stretta relazione tra un test con ipotesi di questo tipo e la determinazione diun intervallo di confidenza per ϑ, gia trattato nel Capitolo 8. Infatti, consideriamoun test bidirezionale per H0 al livello di significativita α. Una volta definita la dis-tribuzione campionaria della statistica Gn, da usare quando e vera l’ipotesi nulla suϑ, una regione A di accettazione di H0 e un intervallo delle realizzazioni campionariecontenente gn = ϑ0 (v. Fig. 9.2). L’area sottesa dalla distribuzione campionaria inquesto intervallo deve essere uguale ad 1 − α, perche α e il rischio di prima speciedefinito dalla (9.30) e misura la somma delle due aree della distribuzione che sonoesterne alla regione di accettazione. Dunque, la regione di accettazione del test bidi-rezionale al livello di significativita α e un intervallo Iγ soddisfacente la condizione:

IP(Gn ∈ A |H0 vera) = IP(gn ∈ Iγ) ≥ γ = 1− α, (9.38)

ossia e un intervallo di confidenza per una stima di ϑ al livello fiduciario γ = 1− α.Questo intervallo non e unico: esiste, in generale, una famiglia Iγ,α = Iγ di insiemi

Page 254: dispense di Probabilita' e Statistica

246 TEST PARAMETRICI

1 - =a g

bb b

gnq0

H0H1

H1

H1

A = IgC C

Figura 9.2

che soddisfano la (9.11). Il test piu potente (se esiste) e quello in cui la regione diaccettazione A dell’ipotesi nulla e l’intervallo Iγ ∈ Iγ,α che ha ampiezza minore.

Questo risultato vale anche per i test unidirezionali definiti dalle ipotesi alternative 2)e 3) nella (9.37), ai quali corrispondono intervalli di confidenza aperti rispettivamentea sinistra o a destra.

Per la valutazione dell’errore di seconda specie β del test, che e definito dalla (9.31),occorre tenere presente che nelle ipotesi alternative composte si ammette che ilparametro ϑ possa assumere qualsiasi altro valore ϑ1 ∈ IR− ϑ0, e quindi a ciascunarealizzazione campionaria gn = ϑ1 corrisponde un differente errore di seconda specie.Esso e dunque una funzione β(ϑ1) del valore empirico ϑ1 osservato nella statisticacampionaria, e la potenza del test e la funzione W (ϑ1) = 1− β(ϑ1).

Stabilito il rischio di prima specie α che si e disposti ad accettare, la valutazioneesplicita della regione di accettazione di H0 si effettua applicando i metodi per ladeterminazione degli intervalli di confidenza che sono stati esposti nel Capitolo 8,e per tale motivo dipende dal parametro su cui si deve effettuare il test, dalla nu-merosita del campione di cui disponiamo, e dal modello statistico della popolazioneda cui tale campione e stato estratto.

9.7.1 Test sul valor medio per il modello normale

Consideriamo in dettaglio il caso di piu frequente interesse nelle applicazioni: quelloin cui la popolazione ha un modello statistico normale e quindi le distribuzionicampionarie sono anche esse normali con media ϑ0 = µ0 se H0 e vera, oppure ϑ1 =µ1 ∈ IR−µ0 se e vera l’ipotesi alternativa H1. Per procedere nel test occorre anzituttodistinguere il caso in cui la varianza della popolazione e nota (in cui si applicherannoi metodi del §8.2.2.1) da quello in cui e incognita (ed e quindi necessario usare ledistribuzioni t-Student come spiegato nel §8.2.2.2).

9.4.1.1 Modello Normale-1: popolazione con varianza σ2 nota

Page 255: dispense di Probabilita' e Statistica

9.7 – Test parametrici con ipotesi composte 247

In tal caso le distribuzioni campionarie normali associate alle ipotesi H0 ed H1 hannouguale varianza σ2

n = σ2/n e non devono essere stimate. Per qualunque numerositan del campione, si puo determinare la regione di accettazione del test e l’errore diseconda specie usando la Tabella di erf(z) come segue.

• Test bidirezionale. Il test bidirezionale piu potente per il valor medio, al livellodi significativita α, e quello in cui si assume come regione di accettazione di H0

l’intervallo di confidenza simmetrico rispetto a µ0, del tipo (8.11) con γ = 1− α:

A : µ0 − σ√n

z1−α/2 ≤ µn ≤ µ0 +σ√n

z1−α/2 (9.39)

dove z1−α/2 e il coefficiente fiduciario per la variabile standardizzata

Zn =µn − µ0

σ/√

n, (9.40)

ovvero il suo quantile di ordine 1−α/2 che e legato al rischio di prima specie α dallacondizione (8.10) che qui si riscrive nella forma:

1− α = IP(|Zn| ≤ z1−α/2) = 2erf(z1−α/2).

Nel test bilaterale l’ipotesi nulla H0 e da accettare se il valore empirico della variabileZn definita dalla (9.40), calcolato attraverso le osservazioni del campione, appartieneall’intervallo (9.39). In caso contrario, si conclude che i dati forniti dal campionenon sono compatibili, al livello di significativita α, con l’ipotesi H0.

Il rischio di seconda specie si determina come segue:

β(µ1) = IP(µn ∈ A|H1 ∼ N (µ1, σn)) =1

σn

√2π

∫ µ0+σnz1−α/2

µ0−σnz1−α/2

exp

[−(µn − µ1)2

2σ2n

]dµn

= erf(

z1−α/2 +µ0 − µ1

σn

)+ erf

(z1−α/2 +

µ1 − µ0

σn

). (9.41)

Se introduciamo la nuova variabile standardizzata

Z ′n =µn − µ0

σn− µn − µ1

σn=

µ1 − µ0

σn, (9.42)

ossia la differenza tra le normali standard associate rispettivamente alla ipotesi nullaH0 e alla ipotesi alternativa H1, il rischio di seconda specie si puo piu sinteticamenteriscrivere in funzione di z′n nella forma:

β(z′n) = erf(z1−α/2 − z′n) + erf(z1−α/2 + z′n).

Ne deriva una curva caratteristica operativa (mostrata qualitativamente nel graficocon linea continua di Fig. 9.3) che tende a zero per µ1 → ±∞, e monotona crescenteper −∞ < µ1 < µ0 (ossia per z′n < 0); vale β(µ0) = 1 − α per µ1 = µ0 (ossia perz′n = 0); ed e monotona decrescente per µ0 < µ1 < +∞ (z′n > 0).

Page 256: dispense di Probabilita' e Statistica

248 TEST PARAMETRICI

nz'

m m0 1

0

1

1- a

1- az1- az-

0.5

b

01 1H : m m

01 1H : m m01 1

H : m m><

Figura 9.3 - Curve caratteristiche operative per tests sul valor medio

• Test unidirezionale superiore. La regione di accettazione in questo test, per ilquale l’ipotesi alternativa e H1 : µ = µ1 > µ0, e l’intervallo aperto a sinistra:

A : −∞ < µn ≤ µ0 +σ√n

z1−α

dove z1−α e il quantile di ordine 1− α della normale standard (9.13), che al livellodi significativita α soddisfa la condizione

1− α = IP(Zn ≤ z1−α) =12

+ erf(z1−α), ) (9.43)

mentre il rischio di seconda specie vale

β(µ1) = IP(µn ∈ A|H1 ∼ N (µ1, σn)) =1

σn

√2π

∫ µ0+σnz1−α

−∞exp

[−(µn − µ1)2

2σ2n

]dµn

= erf(

µ0 + σnz1−α − µ1

σn

)− erf(−∞) =

12

+ erf(

z1−α +µ0 − µ1

σn

).(9.44)

Espresso in funzione della differenza standardizzata (9.15), esso vale

β(z′n) =12

+ erf(z1−α − z′n) (9.17′)

ed e una funzione monotona decrescente di µ1 e z′n: tende a zero per z′n → +∞; euguale a 0.5 per z′n = z1−α; e ancora uguale ad 1−α per µ1 = µ0 (ossia per z′n = 0)e teoricamente tende all’unita per µ1, z

′n → −∞ (v. Fig. 9.3).

• Test unidirezionale inferiore. La regione di accettazione in questo test, per il qualel’ipotesi alternativa e H1 : µ = µ1 < µ0, e l’intervallo aperto a destra:

A : µ0 − σ√n

z1−α ≤ µ < +∞

Page 257: dispense di Probabilita' e Statistica

9.7 – Test parametrici con ipotesi composte 249

dove z1−α e ancora il quantile di ordine 1−α della normale standard (9.40) il quale,fissato il rischio di prima specie α, e tale da soddisfare la condizione

1− α = IP(Zn ≥ −z1−α) =12

+ erf(z1−α).

Il rischio di seconda specie vale

β(µ1) = IP(µn ∈ A|H1 ∼ N (µ1, σn)) =1

σn

√2π

∫ +∞

µ0−σnz1−α

exp

[−(µn − µ1)2

2σ2n

]dµn

= erf(+∞)− erf(

µ0 − σnz1−α − µ1

σn

)=

12− erf

(−z1−α +

µ0 − µ1

σn

)(9.45)

o anche, se espresso in funzione della differenza standardizzata (9.42):

β(z′n) =12

+ erf(z1−α + z′n). (9.18′)

L’errore di seconda specie e in tal caso una funzione monotona crescente, simmetricadella (9.17’) rispetto all’asse z′n = 0: tende teoricamente a zero per z′n → −∞; euguale a 0.5 per z′n = −z1−α, vale ancora 1 − α per µ1 = µ0 (ossia per z′n = 0) etende all’unita per µ1, z

′n → +∞.

La Fig. 9.3 mostra che a parita di α ed n i rischi di seconda specie dei test unila-terali (indicati con linea tratteggiata) sono minori di quello del corrispondente testbilaterale, in tutto l’intervallo di µ1 definito dalla particolare ipotesi alternativa chesi considera. Ne segue che, sempre a parita di α e n, un test unilaterale e piu potentedi un test bilaterale.

Esistono specifici diagrammi di curve caratteristiche (si veda ad esempio il testo [3]citato in Bibliografia) in cui il rischio di seconda specie e riportato in funzione di|µ0 − µ1|/σ al variare di α e n. I diagrammi mostrano, tra l’altro, che la pendenzadelle curve cresce al crescere di n, per cui qualsiasi test con assegnato rischio di primaspecie e tanto piu potente quanto maggiore e la numerosita del campione. In defini-tiva, questi diagrammi consentono quindi di valutare la numerosita campionaria chee necessaria per effettuare un test con prefissata potenza W (z′n) = 1− β(z′n).

9.4.1.2 Modello Normale generale: popolazione con varianza sconosciuta.

Se la varianza σ2 della popolazione normale e sconosciuta, essa dovra essere stimatacon la statistica campionaria corretta S2

n definita nella (7.14). Sulla base del Teorema8.1 (t-Student), il test si effettua osservando se il valore empirico della statistica Tn

definita nella (8.16) appartiene alla regione di accettazione di H0 oppure alla regionedi rifiuto dell’ipotesi nulla.

Se si effettua un test bidirezionale, la regione di accettazione e fornita dall’intervallodi confidenza (8.18), che ora si scrive:

A : µ0 − sn√n

t1−α/2 ≤ µn ≤ µ0 +sn√n

t1−α/2 (9.46)

Page 258: dispense di Probabilita' e Statistica

250 TEST PARAMETRICI

dove sn e il valore empirico della radice quadrata di S2n, e t1−α/2 e il quantile di ordine

(1− α/2) della distribuzione t-Student con (n− 1) gradi di liberta. Confrontandolacon la (9.39), si nota che la (9.46) si ricava sostituendo semplicemente sn al postodi σ e t1−α/2 al posto di z1−α/2.

In modo analogo, applicando le (8.19) e indicando con t1−α il quantile di ordine(1−α) della t-Student con (n−1) gradi di liberta, si ricavano le regioni di accettazioneper un test unidirezionale superiore (“coda a destra”):

A : −∞ < µn ≤ µ0 +sn√n

t1−α (9.47)

oppure unidirezionale inferiore (“coda a sinistra”):

A : µ0 − sn√n

t1−α ≤ µn < +∞. (9.48)

L’ipotesi nulla sara da accettare solo se il valore empirico tn = (µn − µ0)√

n/sn

ricavato dal campione appartiene a una delle regioni ora definite.

Le formule precedenti sono valide per qualsiasi numerosita n del campione, ma siusano soltanto per piccoli campioni (n < 30 circa). Infatti, si ricordi che la distri-buzione t-Student tende alla normale standard per n → ∞, per cui quando n > 30i quantili t1−α/2 e t1−α possono essere sostituiti dai corrispondenti quantili z1−α/2 ez1−α della variabile standardizzata

Zn =µn − µ0

sn/√

n, (9.49)

che e analoga alla (9.40) ma con la stima sn al posto di σ. In definitiva, se iltest si effettua usando grandi campioni e ancora possibile utilizzare tutti i risultati(compresa la determinazione dei rischi di seconda specie) che sono stati ricavati per ilmodello Normale-1. A tal fine, occorre soltanto stimare preventivamente la varianzacon il suo valore campionario corretto.

9.4.1.3 Popolazione con distribuzione non normale

Si e visto nel Capitolo 6 che, indipendentemente dal modello statistico usato per lapopolazione, le distribuzioni campionarie delle medie approssimano, al crescere di n,la legge normale N (µ, σ2/n). Ne segue che se n e sufficientemente grande (n > 30) ese l’ipotesi nulla e vera, la distribuzione delle medie campionarie si puo approssimarecon una legge normale avente media µ0 e varianza σ2/n, se σ2 e nota, oppure S2

n/nse σ2 e incognita.

Pertanto, per grandi campioni le regioni di accettazione e i rischi de seconda specienei tre tipi di test sono ancora quelle ricavati nello studio del modello Normale-1,indipendentemente dalla forma della distribuzione della popolazione da cui e statoestratto il campione. Viceversa, per piccoli campioni estratti da una popolazionenon normale non e possibile, in generale, procedere al test sul valor medio.

Esempio 9.2

Page 259: dispense di Probabilita' e Statistica

9.7 – Test parametrici con ipotesi composte 251

Il peso medio di un campione di 100 confezioni di un prodotto alimentare valeµn = 1570 gr. Questo campione e stato estratto da una popolazione per la quale siassume un modello statistico normale N (ϑ, σ2) con deviazione standard σ = 120 gr.

m n

AA

0 1.96 2.58-2.58 -1.96 zn

16001569.04 1576.48 1623.52 1630.96

1 - a

HH0

1

0 1 2 3-3 -2 -1 z'n

W(z' )n1

Figura 9.4

Effettuando tests con livelli di significativita α = 0.05 e 0.01, quando si puo affermareche il peso medio µ dell’intera popolazione di quel prodotto, confezionato dalla stessaditta e di 1600 gr ?

Si tratta di effettuare un test bidirezionale scegliendo tra una ipotesi nulla semplicee una ipotesi alternativa composta:

H0 : µ = 1600 gr H1 : µ 6= 1600 gr.

Se H0 e vera, la distribuzione campionaria delle medie µn e normale con valor medio1600 e deviazione standard σn = 120/

√100 = 12; se e vera H1, la distribuzione

campionaria e una qualsiasi Normale con valor medio µn 6= 1600 e uguale deviazionestandard (v. Fig. 9.4).

Applichiamo la (9.12) per determinare le regioni di accettazione dell’ipotesi nulla aivari livelli di significativita. Per α = 0.05, si ha: z1−0.05/2 = z0.975 = 1.96, e quindila regione di accettazione dell’ipotesi nulla e l’intervallo

A = zn : −1.96 ≤ zn ≤ 1.96 = µn : 1576.48 gr ≤ µn ≤ 1623.52 gr.

Al livello α = 0.01 si ha invece z1−0.01/2 = z0.995 = 2.58, e quindi un intervallo piuampio:

A = zn : −2.58 ≤ zn ≤ 2.58 = µn : 1569.04 gr ≤ µn ≤ 1630.96 gr.

Il valore empirico zn della variabile standardizzata (9.40) risultante dalla osser-vazione del campione e

zn =1570− 1600

12= −2.5 .

Al livello di significativita 0.05 (ovvero con un rischio massimo di sbagliare del 5%)esso non appartiene ad A, e pertanto rigettiamo H0 affermando che i dati fornitidal campione non sono compatibili con l’affermazione che il peso medio sia di 1600

Page 260: dispense di Probabilita' e Statistica

252 TEST PARAMETRICI

gr. Al contrario, con un livello di significativita 0.01 (cioe con un rischio massimodi sbagliare dell’1%), risulta zn ∈ A ed accettiamo l’ipotesi nulla concludendo che ilpeso medio e di 1600 gr.

Il rischio di seconda specie di questo test e fornito dalla (9.41) e in funzione delladifferenza standardizzata (9.42) che qui si scrive z′n = (µ1 − 1600)/12, vale:

β(z′n) = erf(1.96− z′n) + erf(1.96 + z′n) se α = 0.05,β(z′n) = erf(2.58− z′n) + erf(2.58 + z′n) se α = 0.01.

La curva di potenza del test W (z′n) = 1−β(z′n) ha un grafico che e mostrato in Fig.9.4 per un livello di significativita α = 0.05 /.

Esempio 9.3

I carichi di rottura dei cavi prodotti da una fabbrica hanno un valor medio µ = 1800Kg. Con una diversa tecnologia si intende mettere in produzione un nuovo tipodi cavo con carico di rottura maggiore. Si esaminano 50 cavi scelti a caso dallanuova produzione, e si trova che la media campionaria dei nuovi carichi di rotturae µn = 1850 con varianza campionaria corretta S2

n = 10.000Kg2. Si puo affermare,a un livello di significativita α = 0.01, che i nuovi cavi hanno un carico medio dirottura piu elevato?

Definiamo anzitutto le due ipotesi sulle quali dobbiamo fare la nostra scelta:

H0 : µ = 1800 Kg (non c’e variazione nel carico di rottura)H1 : µ > 1800 Kg (la nuova produzione migliora il carico di rottura).

Pur senza fare alcuna ipotesi sul modello statistico dei cavi di nuova produzione,poiche il campione esaminato e sufficientemente grande la distribuzione campionariadelle medie si puo approssimare con una legge normale avente media µ0 = 1800 Kgse H0 e vera, e varianza S2

n/n = 10.000/50 = 200 Kg2.

Effettuiamo un test unidirezionale superiore sulla variabile standardizzata (9.49) chenel nostro caso, se H0 e vera, vale:

Zn =µn − 1800√

200. (9.50)

Assumendo un rischio di prima specie α = 0.01, il valore di z1−α che delimita laregione di accettazione e quella di rifiuto si calcola con la (9.43) imponendo:

1− α = IP(Zn ∈ C |H0 vera) =12

+ erf (z1−α) = 0.99

ossia erf(z1−α) = 0.49, e dalla Tabella di erf(z) si ricava: z1−α = 2.33. La regionedi accettazione di H0 (v. Fig. 9.5) e dunque l’intervallo

A : zn : −∞ < zn ≤ 2.33 = µn : −∞ < µn ≤ 1833

e quella di rifiuto e

C : zn : 2.33 < zn < ∞ = µn : 1833 < µn < ∞.

Page 261: dispense di Probabilita' e Statistica

9.7 – Test parametrici con ipotesi composte 253

m n

A

0 2.33 zn

1800 1833 1850

1 - a

a

HH0

1

0 1 2 3-3 -2 -1 z'n

W(z ' )n1

C

0.5

z1- a

Figura 9.5

Sotto l’ipotesi H0 vera, il valore empirico di zn ottenuto dal campione si ricavasostituendo µn = 1850 nella (9.50). Esso vale zn = 3.55 ed appartiene alla regionedi rifiuto. Dunque l’ipotesi nulla e da rigettare, e l’affermazione che i cavi di nuovaproduzione hanno un piu elevato carico di rottura puo essere sostenuta al livello disignificativita prescritto.

Il rischio di seconda specie di questo test unidirezionale e dato dalla (9.44), edespresso in funzione della differenza standardizzata z′n = (µ1 − 1800)/

√200 vale:

β(z′n) =12

+ erf(2.33− z′n).

La corrispondente curva di potenza W (z′n) = 1− β(z′n) e mostrata in Fig. 9.5. /

Esempio 9.4: Test sulle frequenze relative

Una ditta farmaceutica afferma che un suo analgesico e efficace per un periodo didodici ore nel 90% dei casi. In un campione di n = 200 persone, la medicina ha datoin effetti ottimi risultati a ns = 160 sofferenti. Si chiede di valutare se, al livello disignificativita α = 0.01, la ditta farmaceutica puo legittimamente sostenere quantoaffermato.

Se p e la probabilita che l’analgesico abbia effetto per dodici ore, si chiede di pro-cedere a un test unidirezionale scegliendo fra le seguenti ipotesi:

H0 : p = p0 = 0.9 (l’affermazione e corretta);H1 : p = p1 < 0.9 (l’affermazione e falsa).

La frequenza relativa dei “successi” della medicina rilevata dal campione e y =ns/n = 160/200 = 0.8. Nell’ipotesi che H0 sia vera, la distribuzione campionariadelle frequenze relative Y = ns/n dei successi e approssimabile con una legge normale(cfr. §7.5) con media EY = p0 = 0.9 e deviazione standard

σ0 =

√p0(1− p0)

n=

√0.9 · 0.1

200= 0.0212.

Page 262: dispense di Probabilita' e Statistica

254 TEST PARAMETRICI

A

1 - a

a

H0H

1

C

0 1-2 -1 z

1

0.5

0.90.8506

0-2.33-4.71 z

0.8 0.8506 0.9 Y = n /ns

'

p1

W( )p1

Figura 9.6

Nel nostro test unidirezionale inferiore al livello di significativita α = 0.01, il quantilez1−α per la variabile standardizzata

Z =Y − p0

σ0=

Y − 0.90.0212

che e tale da soddisfare la condizione

1− α = IP(Z ≥ −z1−α) =12

+ erf (z1−α) = 0.99 ,

vale z1−α = 2.33 come nell’Esempio precedente. La regione di accettazione dell’ipo-tesi nulla e dunque l’intervallo aperto a destra:

A = z : −2.33 ≤ z < +∞ = Y : 0.8506 ≤ Y < +∞indicata in Fig. 9.6, mentre la regione di rifiuto e

C = z : −∞ < z < 2.33 = Y : −∞ < Y < 0.8506.Il valore empirico di zn osservato nel campione e

zn =0.8− 0.90.0212

= −4.71

ed appartiene alla regione di rifiuto. Quindi, al livello di significativita 0.01 dobbiamorigettare H0, concludendo che l’affermazione della ditta farmaceutica non e corretta,in quanto non legittimata dalle osservazioni effettuate sul campione.

Prima di procedere al calcolo dell’errore di seconda specie, e qui necessario sottolin-eare che le distribuzioni campionarie associate all’ipotesi alternativa sono normalicon varianze diverse, in generale, da σ2

0. Infatti, fissato un valore p1 < p0 compatibilecon l’ipotesi alternativa, questa e normalmente distribiuta con media p1 e deviazionestandard

σ1 =

√p1(1− p1)

n6= σ0,

Page 263: dispense di Probabilita' e Statistica

9.7 – Test parametrici con ipotesi composte 255

che e maggiore di σ0 per tutti i reali p1 compresi nell’intervallo (1− p0) < p1 < p0.La Fig. 9.6 mostra due di queste distribuzioni, che al diminuire di y1 aumentano ladispersione rispetto al loro valor medio.

Ne segue che il rischio di seconda specie in questo test e non e dato dalla (9.45), madeve essere calcolato come segue:

β(p1) = IP[Y ∈ A |H1 ' N (p1, σ21)] ==

1σ1

√2π

∫ +∞

p0−σ0z1−α

exp

[−(Y − p1)2

2σ21

]dY =

= erf(+∞)− erf(

p0 − σ0z1−α − p1

σ1

)=

12

+ erf(

σ0

σ1z1−α +

p1 − p0

σ1

).

Il suo andamento qualitativo non varia rispetto a quello calcolato con la (9.45): esempre una funzione monotona crescente, e vale 0.5 per p1 = p0 − σ0z1−α = 0.8506che e l’estremo inferiore dall’intervallo di accettazione A. Per ricercare una analogiaformale con la (9.18’), si puo anche definire la differenza standardizzata:

Z ′ =p1 − p0

σ1= (p1 − p0)

√n

p1(1− p1),

mediante la quale il rischio di seconda specie si puo riscrivere nella forma:

β(z′) =12

+ erf(

σ0

σ1z1−α + z′

)

che assume il valore 0.5 per

z′ = −σ0

σ1z1−α = −z1−α

√p0(1− p0)

(p0 − σ0z1−α)(1− p0 + σ0z1−α)= −1.96.

La potenza W (p1) = 1−β(p1) del test e la funzione monotona decrescente riportatain Fig. 9.6. /

Esempio 9.5: Test sulla differenza di distribuzioni normali

Due campioni di 100 persone ciascuno sono estratti dalla popolazione dei pazientidi una malattia. Al campione A, unitamente alla terapia usuale si somministra unanuova cura in fase di sperimentazione; al campione B viene prescritto di continuareunicamente con la terapia usuale. A conclusione del trattamento, risulta che sonoguariti nA = 75 pazienti del gruppo A e nB = 65 pazienti del gruppo B. Possiamoritenere che la nuova cura e efficace, ai livelli di significativita α = 0.01, 0.05 e 0.10?

Indichiamo con YA la frequenza relativa (incognita) di guarigione tra la popolazionedei pazienti che si sono curati anche con la nuova terapia, e con YB la frequenza rela-tiva di guarigione con la cura usuale, che supponiamo statisticamente indipendenteda YA. Definiamo quindi la variabile aleatoria differenza tra le frequenze relative:

d(ω) = YA − YB ,

Page 264: dispense di Probabilita' e Statistica

256 TEST PARAMETRICI

sulla quale effettuiamo un test unidirezionale superiore per verificare le seguentiipotesi:

H0 : d = 0 (la nuova cura non ha effetto)H1 : d = d1 > 0 (la nuova cura e piu efficace di quella usuale).

In seguito alle osservazioni fatte sui campioni, le frequenze relative di guarigione nelledue popolazioni di pazienti hanno distribuzioni approssimabili con leggi normali,rispettivamente con valor medio

EYA =75100

= pA = 0.75 ; EYB =65100

= pB = 0.65

e varianze che per la (7.22) valgono:

σ2(YA) =0.75 · 0.25

100= 0.001875 , σ2(YB) =

0.65 · 0.35100

= 0.002275 .

Poiche YA e YB sono normali e statisticamente indipendenti, anche d(ω) ha unadistribuzione normale, come mostrato nel Capitolo 4. Essa ha valor medio Ed = 0se H0 e vera, oppure Ed = d1 > 0 se e vera H1, con uguale deviazione standardche vale (si confronti con l’Esempio 7.2):

σd =√

σ2(YA) + σ2(YB) =√

0.001875 + 0.002275 = 0.06442.

Il valore empirico della differenza d rilevato dai campioni e dn = pA − pB = 0.10, equello della corrispondente variabile standardizzata della differenza tra le frequenzerelative vale:

zn =dn −Ed

σd=

0.100.06442

' 1.55 .

Per un test unidirezionale con “coda a destra”, i quantili z1−α corrispondenti ai livellirichiesti si calcolano applicando la (9.43) come come e stato fatto nell’Esempio 9.3,e valgono:

α = 0.01 : z1−α = 2.33 (d1−α = 0.15)α = 0.05 : z1−α = 1.645 (d1−α = 0.106)α = 0.10 : z1−α = 1.28 (d1−α = 0.082).

In parentesi sono riportati i corrispondenti valori del quantile d1−α = σd · z1−α delladistribuzione normale di d(ω).

La regione di accettazione dell’ipotesi nulla e A = zn : −∞, z1−α = dn :−∞, d1−α. Ai livelli di significativita α = 0.01 e 0.05, il risultato empirico stan-dardizzato zn ' 1.55 < z1−α (corrispondente a dn = 0.10 < d1−α) cade nella regionedi accettazione di H0, per cui si deduce che le differenze percentuali di guarigionenei due campioni non sono statisticamente significative, e non si puo affermare cheesse indichino una efficacia della nuova cura.

Page 265: dispense di Probabilita' e Statistica

9.7 – Test parametrici con ipotesi composte 257

0 0.1-0.1 0.05-0.05 0.15-0.15

dn

d

H , n = 3000

H , n = 1000

b

b

H1

Figura 9.7

Al contrario, al livello di significativita α = 0.10 si ha che zn cade nella regione dirifiuto di H0: respingeremo dunque l’ipotesi nulla e affermeremo che la nuova curae piu efficace di quella usuale.

Le conclusioni che si traggono dal test dipendono in modo determinante dal tipo delrischio α che siamo disposti a correre se si fallisce la previsione. Nel caso in cui siaccetti un livello di significativita α = 0.1, bisogna mettere in conto che esiste un10% di probabilita di illudere il paziente, somministrandogli una cura che non haeffetti utili. Si puo decidere di diminuire questo rischio di errore ma, a parita dinumerosita del campione, cresce di conseguenza il rischio β di commettere un erroredi seconda specie, che consisterebbe nel non somministrare la nuova cura, anche sein realta questa e efficace: in tal caso aumenterebbe il rischio di non intervenireefficacemente per guarire un maggior numero di malati.

Questo rischio di seconda specie del test si determina applicando la (9.44):

β(d1) =12

+ erf(

z1−α − d1

σd

)

e accettando un rischio di prima specie α = 0.10, in corrispondenza del valoreempirico d1 = dn = 0.10 vale:

β(0.10) =12

+ erf(

1.28− 0.100.06442

)=

12− erf (0.2723) = 0.5− 0.107 = 0.393 .

Ne segue che in base all’analisi dei campioni il rifiuto della nuova terapia sarebbecontroproducente, con una probabilita che e circa del 40%, ai fini di un miglioramentodella terapia in uso.

D’altra parte, esiste un modo per diminuire il rischio di prima specie α senza au-mentare l’entita del rischio di seconda specie β: esso consiste nell’aumentare la nu-merosita n dei campioni, perche in tal modo si aumenta l’affidabilita della decisioneche si assume a seguito del test.

Si supponga infatti di rifare il medesimo test su altri due campioni di 300 pazienticiascuno, dal quale risultano frequenze relative di guarigione, che indicheremo con

Page 266: dispense di Probabilita' e Statistica

258 TEST PARAMETRICI

Y ′A, Y ′

B, che sono uguali a quelle del test precedente:

Y ′A =

225300

= 0.75 ; Y ′B =

195300

= 0.65.

Se e vera l’ipotesi nulla, la distribuzione campionaria della differenza d = Y ′A − Y ′

Btra le nuove frequenze relative ha ancora media Ed = 0.10, ma ha ora deviazionestandard

σ′d =√

σ2(Y ′A) + σ2(Y ′

B) =√

0.75 · 0.25300

+0.65 · 0.35

300= 0.0372

che denota una minor dispersione dei dati campionari rispetto alla media. Per il datoempirico dn = 0.10 con n = 300, la variabile standardizzata assume ora il valore:

z′n =0.10σ′d

=0.10

0.0372= 2.688 > 2.33,

che appartiene alla regione di rifiuto al livello di significativita α = 0.01. Rigettandol’ipotesi nulla H0, potremo allora affermare che la nuova cura e efficace, sapendoche la probabilita di commettere un errore di prima specie (nell’illudere il paziente)e limitata all’1% e che contemporaneamente il rischio di seconda specie (di nonutilizzare un farmaco piu efficace) e comunque ridotto al valore:

β(0.10) =12

+ erf(

2.33− 0.100.0372

)=

12− erf (0.358) ' 0.361.

La Fig. 9.7 mostra il confronto tra i risultati che si ottengono usando le due di-stribuzioni campionarie con differente numerosita, nel caso in cui sia vera l’ipotesinulla H0 : d = 0. Per n = 300, il quantile d1−α = 0.0372 · z1−α della differenzad = Y ′

A − Y ′B ai vari livelli di significativita vale:

α = 0.01 , z1−α = 2.33 : d1−α = 0.0866α = 0.05 , z1−α = 1.645 : d1−α = 0.061α = 0.01 , z1−α = 1.28 : d1−α = 0.0476

e, al contrario del caso in cui n = 100, il dato empirico dn = 0.10 cade nella regionedi rifiuto anche se si assume il minore tra i tre rischi di prima specie. /

9.7.2 Test sulla varianza

Per procedere a tests sulla varianza occorre che la popolazione da cui si estrae ilcampione sia normalmente distribuita, perche questa condizione e necessaria per de-terminare gli intervalli di confidenza ricavati nel §8.2.2. Quando e possibile accettarequasta ipotesi preliminare, un test bilaterale con ipotesi:

H0 : σ2 = σ20

H1 : σ2 = σ21 6= σ2

0

Page 267: dispense di Probabilita' e Statistica

9.7 – Test parametrici con ipotesi composte 259

si effettua verificando se il valore empirico qn della statistica

Qn =n− 1σ2

0

S2n ≡

n

σ20

S2n, (9.51)

definita nel Teorema Chi-quadrato del §7.4.1, appartiene alla regione di accettazionerisultante dalla scelta di un determinato rischio di prima specie α.

Tenuto conto che Qn ha una distribuzione Chi-quadrato con (n−1) gradi di liberta,questa regione di accettazione e l’intervallo

A = qn : χα/2 ≤ qn ≤ χ1−α/2 = S2n : σ2

0χα/2/n ≤ S2n ≤ σ2

0χ1−α/2/n (9.52)

dove χα/2, χ1−α/2 sono i quantili di ordine α/2 e (1 − α/2) della Chi-quadrato con(n− 1) gradi di liberta, e la regione di rifiuto di H0 e l’insieme

C = 0 ≤ qn < χα/2 ∪ χ1−α/2 < qn < +∞. (9.25′)

Se invece di vuole effettuare un test unilaterale, con coda a destra o a sinistra, leregioni di accettazione e di rifiuto saranno:

H1 : σ21 > σ2

0 : A = qn : 0 ≤ qn ≤ χ1−α = S2n : 0 ≤ S2

n ≤ σ20χ1−α/n

C = qn : χ1−α < qn < +∞ = S2n : σ2

0χ1−α/n < S2n < +∞

H1 : σ21 < σ2

0 : A = qn : χα ≤ qn < +∞ = S2n : σ2

0χα/n ≤ S2n < +∞

C = qn : 0 ≤ qn < χα = S2n : 0 ≤ S2

n < σ20χα/n

dove, ovviamente, χα e χ1−α sono i quantili di ordine α e 1− α della Chi-quadratocon n− 1 gradi di liberta.

Fissato un valore σ21 compatibile con l’ipotesi alternativa, la statistica Q′

n = nS2n/σ2

1ha anch’essa una distribuzione Chi-quadrato con (n− 1) gradi di liberta. Pertantoil rischio di seconda specie in questi test e definito da

β(σ21) = IP(qn ∈ A|H1 vera) = IP(qn ∈ A|Q′

n = nS2n/σ2

1 ∼ χ2(n−1))

e sara calcolabile integrando opportunamente sulla regione A, al variare del valorecorrente di σ2

1, questa distribuzione Chi-quadrato associata all’ipotesi alternativa.

Caso di grandi campioni

Sappiamo che per n →∞ la distribuzione Chi-quadrato tende alla normaleN (n, 2n).Ne segue che per grandi campioni (almeno n > 30), potremmo approssimare laregione di accettazione e il rischio di seconda specie utilizzando la variabile normalestandard (8.28) gia definita nel precedente Capitolo.

Conviene pero utilizzare la circostanza che in tal caso la deviazione standard cam-pionaria Sn e approssimabile con una legge normale, avente media σ e scarto σ/

√2n.

Per la verifica di un’ipotesi nulla H0 sulla varianza, si puo utilizzare allora la statis-tica

Zn =(Sn − σ0)

√2n

σ0, (9.26)

Page 268: dispense di Probabilita' e Statistica

260 TEST PARAMETRICI

anch’essa con distribuzione normale standard. Scelto un rischio di prima specie αe calcolati i quantili z1−α/2 e z1−α, si individuano cosı le seguenti regioni di ac-cettazione:

H1 : σ21 6= σ2

0 : A = zn : −z1−α/2 ≤ zn ≤ z1−α/2 =

=

Sn : σ0

(1− z1−α/2√

2n

)≤ Sn ≤ σ0

(1 +

z1−α/2√2n

)

H1 : σ21 > σ2

0 : A = zn : −∞ < zn ≤ z1−α =

=

Sn : −∞ ≤ Sn ≤ σ0

(1 +

z1−α√2n

)

H1 : σ21 < σ2

0 : A = zn : −z1−α ≤ zn < +∞ =

=

Sn : σ0

(1− z1−α√

2n

)≤ Sn < +∞

che per grandi campioni approssimano la (9.52) e seguenti.

Il rischio di seconda specie in tal caso si calcola piu facilmente, perche e definitodall’integrale:

β(σ1) = IP(Sn ∈ A|Sn ∼ |calN(σ1, σ21/2n)) =

1σ1

Aexp

[(Sn − σ1)2

2σ21/2n

]dSn

e si puo determinare utilizzando la Tavola della funzione degli errori. A secondadell’intervallo A esso vale:

H1 : σ21 6= σ2

0 : β(σ1) = erf[√

2n

(σ0

σ1− 1

)+

σ0

σ1z1−α/2

]−

− erf[√

2n

(σ0

σ1− 1

)− σ0

σ1z1−α/2

]

H1 : σ21 > σ2

0 : β(σ1) = erf[√

2n

(σ0

σ1− 1

)+

σ0

σ1z1−α

]+

12

H1 : σ21 < σ2

0 : β(σ1) =12− erf

[√2n

(σ0

σ1− 1

)− σ0

σ1z1−α

]

Fissati α ed n, il suo andamento qualitativo e mostrato per i tre casi in Fig. 9.8.Per σ1 = σ0 esso vale sempre 1− α, che e il valore massimo di β nel test bilaterale,ma tende all’unita per il test unilaterale superiore quando σ1 → 0, e per quellounilaterale inferiore quando σ1 → ∞. Piu dettagliati diagrammi di β in funzionedel rapporto σ1/σ0 si possono consultare in [3] al variare di α e della numerosita delcampione.

Esempio 9.6

Per la misurazione di un coefficiente di resistenza in galleria del vento, in aggiuntaalla serie di prove gia considerata nell’Esempio 8.12 si effettua una nuova serie din = 20 prove, i cui risultati mostrano ancora un valor medio empirico dell’ordine di0.3, ma una varianza campionaria S2

n = 0.028 che e maggiore di quella del campioneprecedente. Si vuole effettuare un test per verificare se con gli ultimi dati raccolti si

Page 269: dispense di Probabilita' e Statistica

9.7 – Test parametrici con ipotesi composte 261

s1

11- a

01 1H : s >

s0

2 s2

1 1H : < 0

s2s201 1

H : s2 s2

b

Figura 9.8 - Curve caratteristiche operative per tests sulla varianza

puo affermare, al livello di significativita α = 0.10, che la varianza della popolazionedei risultati ottenuti in quella galleria del vento e σ2 = 0.02.

Definita l’ipotesi nulla H0 : σ20 = 0.02, se essa e vera la statistica (9.24) vale

Qn =20σ2

0

S2n = 1000S2

n

ed ha una distribuzione campionaria con legge Chi-quadrato con n − 1 = 19 gradidi liberta. Per procedere in un test bidirezionale, definiamo l’ipotesi alternativa:

H1 : σ2 6= 0.02

e determiniamo le regioni di accettazione e di rifiuto di H0, definite dalla (9.52).

Se assumiamo α = 0.10, dalla riga ν = 19 della Tabella dei quantili Chi-quadratoin Appendice si ricava: χ0.05 = 10.1, χ0.95 = 30.1. Di conseguenza, le regioni diaccettazione e di rifiuto sono i seguenti intervalli di qn:

A = [10.1, 30.1], C = [0, 10.1) ∪ (30.1,+∞).

Il valore empirico della statistica Qn che si ottiene sostituendo in essa S2n = 0.028

vale qn = 28 e appartiene alla regione di accettazione (v. Fig. 9.9).

Si puo percio concludere, al livello α = 0.10, che il campione e compatibile conl’affermazione che le misurazioni effettuate in quella galleria del vento hanno unavarianza σ2 = 0.02.

Si noti che si perviene invece a un risultato opposto se si effettua un test unidi-rezionale superiore assumendo l’ipotesi alternativa H1 : σ2 > 0.02. Infatti in talcaso l’intervallo di accettazione di H0 sarebbe:

A = [0, χ1−α] = [0, χ0.90] = [0, 27.2]

e il valore empirico qn = 28 andrebbe a cadere nella regione di rifiuto C = (27.2, +∞).

Page 270: dispense di Probabilita' e Statistica

262 TEST PARAMETRICI

2010 30 400 c

qn

H 0f( )

0.050.05

E

A

Qn

Qn

Figura 9.9

Per confrontare questi risultati con quelli che si ottengono per grandi campioni,supponiamo ora che i precedenti dati campionari siano stati ricavati da n = 32prove, anziche 20. In tal caso si puo usare la statistica (??) che vale:

Zn =8(Sn −

√0.02)√

0.02.

Al livello α = 0.10, si ha z1−α/2 = z0.95 = 1.645, e per questa statistica la regione diaccettazione di H0, definita dalla prima delle (9.27), e il seguente intervallo di zn:A = [−1.645, 1.645].

Il valore empirico di Zn vale

zn = 8√

0.028−√0.02√0.02

= 1.4657

ed appartiene ad A, per cui il risultato del test sarebbe uguale a quello che si ricavadall’esame del piccolo campione. In modo analogo, nel test unidirezionale superioresi ricava: A = (−∞, z1−α] = (−∞, z0.90] = (−∞, 1.288] che non contiene zn; dunquel’ipotesi nulla sarebbe in tal caso da rigettare, come gia rilevato nel caso in cuin = 20.

Se n = 32, i rischi di seconda specie connessi ai due test si possono approssimareusando le formule (9.53). In particolare, se si fa coincidere σ1 con il valore empiricodella deviazione standard Sn =

√0.028 ' 0.167, si ha σ0/σ1 ' 0.8468 e per il test

bilaterale si ricava il seguente errore di seconda specie:

β(0.167) = erf[8(0.8468− 1) + 0.8468 · 1.645]− erf[8(0.8468− 1)− 0.8468 · 1.645]= erf(0.167)− erf(−2.6186) = 0.065 + 0.4955 ' 0.56

mentre per il test unilaterale superiore si ha invece:

β(0.167) =12

+ erf[8(0.8468− 1) + 0.8468 · 1.288] =

Page 271: dispense di Probabilita' e Statistica

9.7 – Test parametrici con ipotesi composte 263

= 0.5 + erf(−0.135) = 0.5− erf(0.135) = 0.5− 0.053 ' 0.447.

Anche se non e applicabile ai test effettuati con piccoli campioni, il confronto indicacomunque che e da attribuire una certa preferenza al test unilaterale, che a paritadi α comporta un rischio di seconda specie inferiore a quello del test bilaterale.

9.7.3 Test di Fisher per il rapporto tra varianze

Si abbiano due caratteri X,Y normalmente distribuiti rispettivamente con leggiN (µX , σ2

X) e N (µY , σ2Y ), da ciascuno dei quali e stato estratto un campione con

numerosita n ed m, aventi rispettivamente varianza campionaria corretta S2n e S2

m.Applicando ai due campioni il Teorema Chi-quadrato del §7.4.1, si ricava facilmenteche la variabile aleatoria

V (ω) =(n− 1)Qm

(m− 1)Qn=

σ2X S2

m(Y )σ2

Y S2n(X)

(9.53)

e distribuita con densita F di Fisher, definita nella (2.41) del §2.3.8, avente m− 1 en− 1 gradi di liberta.

Si supponga ora di dover verificare se le distribuzioni normali dei due caratteri hannola medesima varianza. Si puo allora porre nella (9.53): σ2

X = σ2Y , ed effettuare un

test sulla statistica

Vm,n =S2

m(Y )S2

n(X)

ricavata dalla osservazione delle varianze corrette dei due campioni di X e Y .Definita l’ipotesi nulla

H0 : σ2X = σ2

Y

e quella alternativaH1 : σ2

X 6= σ2Y ,

si potra accettare H0 se il valore empirico di Vm,n e “sufficientemente prossimo”ad 1 (che e anche il limite cui tende il valor medio della distribuzione di Fisherper n → ∞). Scelto un livello di significativita α, la regione di accettazione di H0

si determina calcolando l’intervallo A = [fα/2, f1−α/2], dove fα/2 e f1−α/2 sono iquantili della distribuzione F (m − 1, n − 1) di Fisher con m − 1 e n − 1 gradi diliberta, che escludono due code con probabilita α/2.

In Appendice sono riportate due Tabelle che indicano, al variare di m ed n, i quantilif0.95(m,n) e f0.975(m,n) da utilizzare per test bidirezionali ai livelli di significativitaα = 0.10 e 0.05. Per il loro impiego, occorre anche sfruttare la seguente proprietadella distribuzione F (m,n):

fα/2(m,n) =1

f1−α/2(n,m). (9.54)

Esempio 9.7

Page 272: dispense di Probabilita' e Statistica

264 TEST PARAMETRICI

In seguito alle due serie di misurazioni del coefficiente di resistenza Cx gia consideratenegli Esempi 9.6 e 8.12 si vuole verificare, al livello di significativita α = 0.10, l’ipotesiche le distribuzioni di frequenza dei risultati (che come gia detto sono approssimabilicon leggi normali) abbiano la medesima varianza.

Indichiamo allora con X la frequenza relativa (teorica) delle n = 12 misure effettuatesul modello dell’Esempio 8.12, e con Y quella delle m = 20 misure dell’Esempio 9.6.Poiche le varianze campionarie sono risultate, rispettivamente: S2

n(X) = 0.015 eS2

m(Y ) = 0.028, le varianze empiriche corrette valgono:

S2n(X) =

1211· 0.015 = 0.01636, S2

m(Y ) =2019· 0.028 = 0.02947,

e se e vera l’ipotesi nulla H0 : σ2X = σ2

Y , il valore empirico del loro rapporto e

Vm,n = 1 · 0.029470.01636

= 1.80.

Calcoliamo ora la regione di accettazione

A = ( f0.05(m− 1, n− 1), f0.95(m− 1, n− 1) )

con m − 1 = 19, n − 1 = 11. Il quantile f0.95(19, 11) si calcola interpolando tra ivalori forniti per m = 15 e m = 20 dalla apposita Tabella in Appendice:

f0.95(19, 11) =15f0.95(15, 11) +

45f0.95(20, 11) = 2.6606.

Il quantile f0.05(19, 11) si calcola utilizzando la (9.30) dopo aver ricavato f0.95(11, 19)con una doppia interpolazione lineare, effettuata dapprima tra m = 15 e m = 20per per fissati valori di n = 10 e 15, e quindi interpolando tra n = 10 e n = 15 irisultati ottenuti per m = 19:

f0.95(10, 19) =15f0.95(10, 15) +

45f0.95(10, 20) = 2.3872

f0.95(15, 19) =15f0.95(15, 15) +

45f0.95(15, 20) = 2.243

f0.95(11, 19) =15f0.95(10, 19) +

45f0.95(15, 19) =

125

f0.95(10, 15) +

+425

f0.95(10, 20) +425

f0.95(15, 15) +1625

f0.95(15, 20) = 2.27184.

In definitiva si ottiene:

f0.05(19, 11) =1

f0.95(11, 19)' 0.44

e poiche il dato empirico Vm,n appartiene all’intervallo A = (0.44, 2.6606), si accettal’ipotesi nulla concludendo che al livello di significativita α = 0.10 i due campionisono compatibili con l’affermazione che le varianze delle misurazioni effettuate suidue modelli sono uguali.

Page 273: dispense di Probabilita' e Statistica

9.7 – Test parametrici con ipotesi composte 265

9.7.4 Test di incorrelazione

Si e visto nel Capitolo 3 che le variabili aleatorie X e Y — con cui in Statisticasi rappresentano due caratteri di una popolazione — sono statisticamente non cor-relate se e nullo il loro coefficiente di correlazione ρ(X,Y ) definito dalla (3.9). Lavalutazione di questo coefficiente e anche importante per verificare la correttezzadi una regressione lineare di Y su X che si ottiene, come mostrato nel Capitolo5, attraverso l’analisi di un campione di n coppie (xk, yk) di dati riguardanti i duecaratteri X e Y della medesima popolazione.

Avendo a disposizione questo campione, un test sul coefficiente di correlazione tra idue caratteri si puo effettuare ricorrendo al seguente stimatore:

Rn =Cov(X,Y )Sn,XSn,Y

=

n∑

k=1

(Xk −X)(Yk − Y )

nSn,XSn,Y(9.55)

dove X, Y , Sn,X , Sn,Y sono rispettivamente le medie campionarie e le radici quadratedelle varianze campionarie dei due caratteri. Introdotte le seguenti ipotesi:

H0 : ρ(X,Y ) = 0 ; H1 : ρ(X,Y ) 6= 0 (9.56)

relative al coefficiente di correlazione teorico dei due caratteri, si puo dimostrare chese l’ipotesi nulla e vera, la statistica

Tn = Rn

√n− 2

1−R2n

(9.57)

e distribuita con legge t-Student con n− 2 gradi di liberta.

Ne segue che le regioni di accettazione e di rifiuto di H0 in un test bidirezionale allivello di significativita α sono rispettivamente:

A = (−t1−α/2, t1−α/2); C = (−∞,−t1−α/2) ∪ (t1−α/2, +∞),

dove t1−α/2 e il quantile della distribuzione t-Student con n− 2 gradi di liberta, cheesclude una coda di probabilita α/2.

Se il valore empirico della statistica (9.33), calcolato con i dati forniti dal campione,appartiene alla regione di accettazione cosı determinata, si concludera che i duecaratteri sono non correlati al livello di significativita α.

Esempio 9.8

Nella regressione lineare effettuata nell’Esempio 6.2 del Capitolo 6 e gia stato cal-colato che il coefficiente di correlazione tra i caratteri X e Y ha il valore empiricoRn = 0.7027. Poiche esso e relativamente prossimo all’unita, si e dedotto che i dati(xk, yk) ricavati dal campione di numerosita n = 12 sono sufficientemente correlatistatisticamente.

Page 274: dispense di Probabilita' e Statistica

266 TEST PARAMETRICI

Effettuiamo un test di incorrelazione sulla statistica (9.33), per verificare se si pos-sono trarre le medesime conclusioni anche nei confronti delle proprieta statistichedella coppia di caratteri della popolazione dalla quale e stato estratto il campioneesaminato.

Il valore empirico che si ricava per la statistica (9.57) vale

tn = 0.7027

√10

1− (0.7027)2= 3.1232.

L’esame della tabella dei quantili della distribuzione t-Student con n− 2 = 10 gradidi liberta mostra che t1−α/2 = 2.228 oppure 2.764 oppure 3.169 rispettivamente perα = 0.05 oppure 0.02 oppure 0.01. Ne segue che ai vari livelli di significativita leregioni di rifiuto di H0 sono:

α = 0.05 : C = (−∞,−2.228) ∪ (2.228, +∞)α = 0.02 : C = (−∞,−2.764) ∪ (2.764, +∞)α = 0.01 : C = (−∞,−3.169) ∪ (3.169, +∞)

e quindi il dato empirico tn appartiene alla regione di rifiuto dell’ipotesi nulla H0 :ρ(X, Y ) = 0 per test bidirezionali con rischio di prima specie α = 0.02 o superiori,mentre invece cade nella regione di accettazione per α = 0.01.

Se ne conclude che se si accetta di commettere un errore di prima specie maggioreo uguale a 0.02, l’ipotesi nulla sulla incorrelazione dei due caratteri e da rigettare.Al contrario, si concludera che i due caratteri sono non correlati, solo se si vuoleavere una probabilita massima dell’1% di commettere un errore di prima specie. Siosservi pero che in tal caso l’errore di seconda specie β(tn) puo essere assai elevato,perche varia in un intervallo compreso tra zero e 1− α = 0.99 /.

9.7.5 Ipotesi H0 e H1 composte

Nel caso in cui anche l’ipotesi nulla sia composta, e genericamente del tipo:

H0 : ϑ ∈ Θ0 ⊂ Θ ⊆ IR ,

N 3, 2009

N 2, 2004

N 1, 2001

0 1 2 3 c

a

mn

Page 275: dispense di Probabilita' e Statistica

9.7 – Test parametrici con ipotesi composte 267

Figura 9.10

l’errore di prima specie del test dipende dagli effettivi valori empirici gn ∈ Θ0 chela statistica campionaria Gn puo assumere nell’insieme Θ0 compatibile con l’ipotesinulla. Fissata la regione critica C del test, e tenuto conto della definizione (9.30),l’errore di prima specie e ora la funzione

α(gn) = IP(Gn ∈ C | ogni H0 vera, con ϑ = gn ∈ Θ0) ,

e come livello di significativita del test si assume in tal caso l’estremo superiore deipossibili errori di prima specie:

α = supgn∈Θ0

α(gn). (9.58)

Esempio 9.9

Si effettua un test sull’intervallo di tempo medio tra due successivi interventi dimanutenzione di un dato componente della strumentazione di bordo di un velivolo.Indicato con X(ω) il tempo che intercorre tra due successivi controlli di manuten-zione, si assume per esso un modello statistico esponenziale, descritto dalla densitafX(x, ϑ) = ϑe−ϑx che come e noto (crf. §2.3.4) ha valor medio µ = 1/ϑ e varianzaσ2 = 1/ϑ2 = µ2.

Avendo a disposizione una serie statistica di 200 rilevamenti, da cui risulta un inter-vallo medio di tempo µn = 3.4 mesi, si vuole verificare se, con un prescritto livellodi significativita, la media dei tempi di attesa tra due controlli si puo ritenere nonsuperiore a 3 mesi. A tal fine si assumono le seguenti ipotesi composte:

H0 : 1/ϑ ∈ Θ0 = [0, 3]H1 : 1/ϑ > 3.

Se l’ipotesi nulla H0 e vera, tenuto conto della elevata numerosita del campione lepossibili distribuzioni campionarie delle medie sono normali, con media µn ≤ 3 evarianza

σ2n =

σ2

n=

µ2n

200come indicato in Fig. 9.10. La regione di accettazione di H0 e A = [0, c] e quellacritica e C = (c,+∞), dove c si determina ricercando il valore µc di µ ≤ 3 che rendemassimo l’errore di prima specie.

Per questo test unidirezionale, e facile rendersi conto (si veda la Fig. 9.10) che

sup0≤µn≤3

α(µn) = α(3),

per cui µc = 3. Se dunque H0 e vera e µn = µc = 3, assumendo per esempio unlivello di significativita α = 0.01 si deve avere:

IP(µn ∈ C|µn = µc = 3) =12− erf (zc) = α = 0.01

Page 276: dispense di Probabilita' e Statistica

268 TEST PARAMETRICI

dove zc e il coefficiente fiduciario per la variabile standardizzata

Zc =(c− µn)

√n

µn=

(c

3− 1

)√200.

Usando come di consueto la tabella di erf(z), si ricava zc = 2.33 da cui

c = 3(

1 +zc√200

)= 3.494.

Poiche il valore empirico di µn ricavato dal campione appartiene alla regione diaccettazione A = [0, 3.494] dell’ipotesi nulla, essa viene verificata al livello di signi-ficativita α = 0.01.

Se invece si accetta un rischio di prima specie piu elevato: α = 0.10, il coefficientefiduciario vale zc = 1.29 e si trova:

c = 3(

1 +1.29√200

)= 3.27365,

per cui in tal caso l’ipotesi nulla e da rifiutare perche il dato empirico appartienealla regione di rifiuto C = (3.27365, +∞) determinata con il nuovo livello di signi-ficativita. /

9.7.6 Test del rapporto di verosimiglianza

E’ la generalizzazione del test di Newman-Pearson fra ipotesi semplici, descritto nel§9.2.1, al caso in cui si abbiano da verificare generiche ipotesi composte del tipo:

H0 : ϑ ∈ Θ0 ⊂ Θ ⊆ IRd

H1 : ϑ ∈ Θ1 = Θ\Θ0. (9.59)

Avendo a disposizione le n osservazioni (x1, . . . , xn) = x dedotte da un campione Xdella popolazione, si definisce la statistica

λn(Θ0,X) =supϑ∈Θ0

L(ϑ,X)

supϑ∈Θ

L(ϑ,X)(9.60)

detta rapporto di verosimiglianza, in cui L(ϑ,X) e la funzione di verosimiglianza(8.6), da esprimere analiticamente in base al modello statistico adottato.

Si puo dimostrare che in un test sulla statistica (9.60) con ipotesi composte (9.59)la regione critica e l’insieme

C = x : λn(Θ0,x) < c,

Page 277: dispense di Probabilita' e Statistica

9.8 – Problemi risolti 269

dove c > 0 e scelto in modo che il test abbia un prescritto livello disignificativita α,ovvero tale da soddisfare la condizione

IP(Gn(X) ∈ C |H0 vera ) =∫

CL(ϑ,x)dx = IP(λn(Θ0,x) < c) ≤ α, ∀ϑ ∈ Θ0.

Questo metodo e ampiamente usato per effettuare test di verifica per un’ampiaclasse di ipotesi composte sebbene, in generale, non porti alla costruzione di un testdi massima potenza come invece avviene nel caso di ipotesi semplici.

Si puo comunque dimostrare, sotto particolari condizioni di regolarita della stima dimassima verosimiglianza, che il test possiede proprieta ottimali in una sua varianteasintotica, vale a dire quando la numerosita del campione tende ad infinito. Questateoria asintotica, per la quale si rimanda al testo [2] citato in Bibliografia, riguardapero soltanto problemi in cui l’ipotesi nulla e definita su un sottospazio di Θ, ossiatale che H0 : ϑ ∈ Θ0 con dim(Θ0) < dim(Θ). Questo e il caso, per esempio, di untest sulla varianza per il modello Normale-2: N (ϑ1, ϑ2) in cui

Θ = ϑ = (ϑ1, ϑ2) : −∞ < ϑ1 < +∞, ϑ2 > 0e un semipiano, e

Θ0 = ϑ = (ϑ1, ϑ2) : ϑ1 = ϑ10, ϑ2 > 0e la semiretta dei valori positivi di ϑ2, per ϑ1 assegnato.

9.8 Problemi risolti

9.1. Da un campione di 200 cambi per autovetture, la cui durata di funzionamentoespressa in Km. ha un modello statistico normale con varianza nota σ2 = 1.05625 ·107, si ricava che il chilometraggio medio campionario e di 44500 Km. Possiamoaffermare, al livello di significativita α = 0.01, che la durata media dei cambi e di44800 Km ? E al livello di significativita α = 0.20 ?

Soluzione. Si deve effettuare un test bidirezionale su una popolazione con varianzanota, assumendo una ipotesi nulla H0 : µ = µ0 = 44800 Km, e una ipotesi alternativaH1 : µ = µ1 6= 44800 Km. Se e vera H0, la regione di accettazione e l’intervallo

A : 44800− σn · z1−α/2 ≤ µn ≤ 44800 + σn · z1−α/2

in cuiσn =

σ√n

=3250√

200= 230

e z1−α/2 e il quantile di ordine (1− α/2) della variabile standardizzata Zn = (µn −µ0)/σn.

• Al livello α = 0.01 si ha dalle Tavole: z0.995 = 2.58. Sostituendo si ricava

44800− 230 · 2.58 ≤ µn ≤ 44800 + 230 · 2.58 ⇒ A = (44206.6, 45393.4)

Page 278: dispense di Probabilita' e Statistica

270 TEST PARAMETRICI

e poiche il valore empirico x = 44500 appartiene ad A, accetto H0 .

• Al livello α = 0.20 si ha z0.9 ' 1.287. Sostituendo si ricava

44800− 230 · 1.287 ≤ µn ≤ 44800 + 230 · 1.287 ⇒ A = (44504, 45096)

e x = 44500 non appartiene ad A, bensı alla regione critica e dunque rifiuto H0 .

Si perviene allo stesso risultato se si preferisce effettuare il test sulla variabile normalestandard Zn il cui valore empirico, se H0 e vera, vale zn = (44500 − 44800)/230 '−1.30.

Infatti, al livello α = 0.01 esso appartiene alla regione di accettazione

A = (−z0.995, z0.995) = (−2.58, 2.58)

e al contrario, al livello α = 0.20 non appartiene all’intervallo A = (−1.287, 1.287).

9.2. Si dispone del seguente campione: x1 = 7, x2 = 6, x3 = 8, x4 = 5, x5 = 6, x6 =10 di sei osservazioni di un carattere X di cui non e noto il modello statistico. Inun test bilaterale sul valor medio di X, si puo accettare, al livello di significativitaα = 0.1, l’ipotesi che esso valga µ = 6 ?

Soluzione. Per procedere nel test occorre assumere che la popolazione con varianzasconosciuta abbia legge normale, e usare una distribuzione campionaria con legget-Student.

L’ipotesi nulla e H0 : µ0 = 6 e l’ipotesi alternativa e H1 : µ 6= 6. I valori empiricidella media e della varianza campionaria sono

x = 42/6 = 7

s2n =

16(4 + 1 + 1 + 1 + 9) =

83.

In un test bilaterale al livello α = 0.1, se H0 e vera l’intervallo di accettazione e

6− sn√6· t0.95 ≤ µ ≤ 6 +

sn√6· t0.95

dovesn√n

=1√n·√

n

n− 1· s2

n =√

815' 0.7303

e t0.95 e il quantile di ordine (1 − α/2) della distribuzione t-Student con n − 1 = 5gradi di liberta, che vale: t0.95 = 2.015. Dunque la regione di accettazione di H0 el’intervallo

6− 0.7303 · 2.015 ≤ µ ≤ 6 + 0.7303 · 2.015 ⇒ A ' (4.528, 7.471)

e poiche il valore empirico della media (x = 7) appartiene adA, accetto H0 : µ0 = 6.

Page 279: dispense di Probabilita' e Statistica

9.8 – Problemi risolti 271

Si perviene allo stesso risultato calcolando il valore empirico della statistica

Tn =µn − µ0

sn

√n = (µn − µ0)

√158

il quale, se H0 e vera, vale tn = 1.3693 e quindi appartiene alla regione di accettazioneA = (−t0.95, t0.95) = (−2.015, 2.015).

9.3. Da una popolazione con legge normale si estrae un campione di numerositan = 8 la cui varianza vale S2

n = 0.098. In un test sulla varianza incognita dellapopolazione, si puo affermare che σ2 < 0.09, al livello di significativita α = 0.10 ?

Soluzione. Si imposta un test unidirezionale inferiore per una popolazione normalecon varianza sconosciuta, assumendo le ipotesi:

H0 : σ2 = σ20 = 0.09, H1 : σ2 < 0.09.

Se H0 e vera, la statistica

Qn =n− 1σ2

0

S2n =

70.09

S2n = 77.7 · S2

n

segue la legge χ2 con n− 1 = 7 gradi di liberta, e la regione di accettazione di H0 el’intervallo A = [χα, +∞) dove χα e il quantile di ordine α = 0.1 della distribuzioneχ2 con 7 gradi di liberta. Dalle Tavole si ricava: χ0.10 = 2.83.

Il valore empirico della varianza campionaria corretta e

s2n =

n

n− 1s2n =

87· 0.098 ' 0.112,

e quindi il valore empirico di Qn vale: qn = 77.7 · 0.112 ' 8.71.

Dunque qn ∈ A = [2.83,+∞) e l’ipotesi nulla e da accettare: ne consegue che dallerisultanze del campione non si puo affermare: σ2 < 0.09 .

9.4. Cinque osservazioni di un carattere avente legge normale hanno i seguenti esiti:

4 5 5 6 8.

Sviluppare un test con livello di significativita α = 0.1, per verificare se la media delcarattere vale µ = 5 oppure µ = 6. Qual’e la potenza del test effettuato ?

Soluzione. I valori empirici della media e della varianza campionaria sono:

x =285

= 5.6, s2n =

16 + 25 + 25 + 36 + 645

− (5.6)2 = 1.84,

per cui la stima corretta della varianza della popolazione e

σ2 =n

n− 1s2n =

54· 1.84 = 2.3

Page 280: dispense di Probabilita' e Statistica

272 TEST PARAMETRICI

e la distribuzione campionaria delle medie ha legge normale con media µ e deviazionestandard

σn =

√σ2

n=

√2.35' 0.678.

Definite l’ipotesi nulla H0 : µ = µ0 = 5, l’ipotesi alternativa H1 : µ = µ1 = 6 e lavariabile standardizzata

Zn =µn − µ0

σn=

µn − 50.678

della distribuzione campionaria delle medie quando H0 e vera, la regione critica(µc,+∞) del test si calcola imponendo che

α = 0.1 = IP(µn > µc|H0) = IP(5+σnZn > µc) = IP(

Zn >µc − 50.678

)=

12−erf

(µc − 50.678

)

ossia, usando le Tavole di erf(z):

erf(

µc − 50.678

)= 0.4 ⇒ µc − 5

0.678= 1.287

da cui si trova: µc = 5 + 0.678 · 1.287 ' 5.873.

La regione critica e dunque C = (5.873, +∞) e non contiene il valore empirico x = 5.6della media calcolata. Se ne conclude che l’ipotesi nulla µ0 = 5 e verificata dallerisultanze del campione.

La potenza del test e W = 1−β, e il rischio di seconda specie β si calcola utilizzandola variabile normale standard Z1 = (µn − µ1)/σn che rappresenta la distribuzionecampionaria quando e vera l’ipotesi alternativa. Si ricava allora:

β = IP(µn ≤ µc |H1 vera) = IP(

Zn ≤ µc − 6σn

)= IP

(Zn ≤ 5.873− 6

0.678

)=

=12

+ erf(−0.1874) ' 12− 0.074 = 0.426.

Pertanto la potenza del test vale W = 0.574 .

9.5. Su 100 transistor prodotti da una ditta, 6 risultano difettosi. Al livello disignificativita α = 0.1, si puo accettare l’ipotesi che la percentuale dei transistordifettosi non supera il 5% ? Qual’e il massimo rischio di prima specie che si puocorrere nel fare questa affermazione?

Soluzione. Indichiamo con p = nd/n la frequenza relativa degli nd transistor difet-tosi, e impostiamo un test unidirezionale superiore per verificare l’ipotesi nulla

H0 : p = p0 = 0.05 (5 transistor difettosi)

contro l’ipotesi alternativa

H1 : p = p1 > 0.05 (piu di 5 transistor difettosi).

Page 281: dispense di Probabilita' e Statistica

9.8 – Problemi risolti 273

Se H0 e vera, la distribuzione campionaria di p ha media p0 = 0.05 e deviazionestandard

σp =

√p0(1− p0)

n=

√0.05 · 0.95

100' 0.0281,

ed e quindi descritta dalla normale standard Zn = (p− 0.05)/0.0281.

Al livello α = 0.1 la regione di accettazione di H0 e l’intervallo A = (−∞, z0.9) dovez0.9 e il quantile di ordine 1− α della normale standard, tale che

0.90 = 0.5 + erf(z0.9) ⇒ erf(z0.9) = 0.4 da cui: z0.9 ' 1.285.

Il valore empirico di Zn vale: zn = 0.01/0.0218 = 0.4587 ed appartiene ad A =(−∞, 1.285).

Dunque si conclude che al livello α = 0.1 l’ipotesi H0 e da accettare .

Il massimo rischio di prima specie αmax compatibile con l’accettazione di H0 edefinito dalla condizione

1− αmax = 0.5 + erf(zn) = 0.5 + erf(0.4587) ' 0.5 + 0.1735 = 0.6735

per cui si ricava: αmax = 0.3265 .

9.6. Una macchina costruisce anelli che dovrebbero avere un diametro medio di5 cm, con una tolleranza di 0.2 cm. In un campione scelto a caso di 40 anelli, ildiametro medio risulta x = 4.9 cm. Dire se al livello di significativita del 5% laproduzione e sotto controllo.

Soluzione. Si deve affettuare un test bidirezionale su un campione estratto da unapopolazione normale con media µ = 5 cm e deviazione standard σ = 0.2 cm.L’ipotesi nulla da verificare e H0 : µn = µ0 = 5 cm, contro una ipotesi alterna-tiva H1 : µn 6= 5 cm.

Se H0 e vera, la distribuzione campionaria delle medie e descritta dalla Normalestandard

Zn =µn − µ0

σn=

µn − 50.2/

√40

.

Al livello di significativita α = 0.05, la regione di accettazione di H0 e l’intervalloA = (−z0.975, z0.975), dove z0.975 e il quantile di ordine (1 − α/2) della normalestandard e vale z0.975 = 1.96.

Il valore empirico di Zn rilevato nel campione e

zn =x− 5

0.2/√

40' (4.9− 5) · 31.62 = −3.162

e non appartiene all’intervallo di accettazione A = (−1.96, 1.96). Ne segue che allivello α = 0.05 si deve rifiutare l’ipotesi nulla µ0 = 5, concludendo che la produzionenon e piu sotto controllo .

Page 282: dispense di Probabilita' e Statistica

274 TEST PARAMETRICI

9.7. Una ditta costruisce lampadine che dovrebbero avere una vita media di 1600ore. In un campione di 100 lampadine la vita media risulta x = 1570 ore, con unoscarto quadratico medio s = 120 ore. Controllare l’ipotesi nulla H0 : µ = 1600 oreai livelli di significativita del 5% e dell’1% rispettivamente.

Soluzione. Poiche abbiamo un campione con numerosita sufficientemente elevata,anche se non si conosce il modello statistico della popolazione la distribuzione cam-pionaria delle medie si approssima con una legge Normale con media µn = 1750 oree deviazione standard stimata attraverso lo scarto quadratico medio campionario:

σn =Sn√

n=

1√n·√

n

n− 1s =

120√99' 12.06 ore.

In un test bidirezionale per l’ipotesi nulla H0, contro l’ipotesi alternativa : H1 : µ 6=1600 ore, se H0 e vera la variabile standardizzata

Zn =µn − 1600

σn=

µn − 160012.06

ha regioni di accettazione:

A = (−z0.975, z0.975) = (−1.96, 1.96) al livello α = 0.05A = (−z0.995, z0.995) = (−2.58, 2.58) al livello α = 0.01.

Il valore empirico di Zn risultante dal campione e

zn =x− 1600

12.06=

1570− 160012.06

' 2.4875.

Al livello di significativita α = 0.05 esso non appartiene ad A = (−1.96, 1.96) e diconseguenza si rifiuta l’ipotesi H0 .

Al contrario, al livello α = 0.01 risulta zn ∈ A = (−2.58, 2.58) e si accetta H0 .

9.8. In un campione di 10 sfere metalliche prodotte da una macchina si calcola ildiametro medio di 7 mm, con uno scarto quadratico medio s = 1.2 mm. Verificare,al livello di significativita dell’1%, se il diametro medio di tutta la produzione e di6.5 mm.

Soluzione. Si dispone di un piccolo campione estratto da una popolazione con vari-anza sconosciuta: occorre percio supporre che questa abbia modello normale.

L’ipotesi nulla da verificare e H0 : µ = µ0 = 6.5 mm., e quella alternativa e H1 : µ 6=6.5 mm. Si usa la statistica

Tn =µn − µ0

sn

√n

in cui

sn = s

√n

n− 1= 1.2

√109' 1.265mm ,

Page 283: dispense di Probabilita' e Statistica

9.8 – Problemi risolti 275

la quale ha una distribuzione t-Student con 9 gradi di liberta, e nell’esame delcampione assume il valore empirico

tn =7− 6.51.265

√10 ' 1.25.

In un test bidirezionale al livello α = 0.01, l’intervallo di accettazione dell’ipotesinulla e A = (−t0.995, t0.995) dove t0.995 e il quantile di ordine (1 − α/2) della dis-tribuzione t-Student con 9 gradi di liberta, che vale t0.995 = 3.25 . Poiche

tn ' 1.25 ∈ A = (−3.25, 3.25),

al livello α = 0.01 si accetta l’ipotesi che il diametro medio della popolazione disfere sia uguale a 6.5 mm.

9.9. Una casa costruttrice di automobili vuole esaminare un dispositivo che, oppor-tunamente applicato, ridurrebbe il consumo di un certo tipo di automobili. A talescopo, decide di provare tale dispositivo su un campione casuale di 50 automobiliche normalmente hanno un consumo medio di 10 litri ogni 100 km. Dall’esame delcampione risulta che il consumo medio su 100 km e x = 9.5 litri, con uno scartoquadratico medio corretto s = 0.8 litri. Valutare la convenienza effettiva di un taledispositivo fissando un livello di significativita α = 1%.

Soluzione. Si sottopone a verifica l’ipotesi nulla H0 : µ = µ0 = 10 litri/Km, incui si afferma che il dispositivo non modifica significativamente il consumo normale.L’ipotesi alternativa e H1 : µ < 10 litri/Km, che afferma che il consumo con ildispositivo e effettivamente minore del normale. ( Si osservi che il caso µ > 10,ovviamente privo di interesse, e escluso a priori).

Poiche il campione e sufficientemente grande, si assume che le medie campionariesiano distribuite normalmente con media µ0 = 10 (se H0 e vera) e deviazione stan-dard

σn = s/√

n = 0.8/√

50 ' 0.113 litri/Km.

Effettuiamo un test unidirezionale inferiore sulla variabile standardizzata Zn = (µn−µ0)/σn, che dal campione risulta avere un valore empirico

zn =9.5− 100.113

' − 4.42.

Scelto un livello di significativita α = 0.1, usiamo le Tavole per calcolare il quantiledi ordine 1− α = 0.99 della Normale standard, che vale z0.99 = 2.33.

La regione di accettazione di H0 e l’intervallo aperto a destra:

A = (−z1−α, +∞) = (−z0.99, +∞) = (−2.33, +∞).

Questo intervallo non contiene il valore empirico zn < −z0.99. Dunque l’ipotesi nullae da rifiutare, e dal test si deduce che il dispositivo riduce il consumo medio .

9.10. La durata media delle lampadine prodotte da una ditta, in un modello conlegge normale, e di 1800 ore con uno scarto quadratico medio di 100 ore. Impiegando

Page 284: dispense di Probabilita' e Statistica

276 TEST PARAMETRICI

un nuovo materiale si pensa che la durata media possa essere accresciuta a 1850 ore.Per provare cio, si prende un campione di 50 lampadine e si trova che la duratamedia e di 1830 ore.

a) Al livello di significativita dell’ 1% (rischio del produttore) valutare se c’e statoun reale miglioramento, confrontando l’ipotesi nulla H0 : µ0 = 1850 (effettivomiglioramento) con l’ipotesi alternativa H1 : µ1 = 1800 (situazione immutata).

b) Calcolare la probabilita β di commettere un errore di seconda specie (rischio delconsumatore), cioe di dichiarare una durata media di 1850 ore quando invece e veral’ipotesi alternativa.

Soluzione.

a) Si deve effettuare un test con ipotesi semplici su una popolazione normale convarianza nota. Poiche in questo test si ha µ0 > µ1, la regione di accettazione diH0 e quella critica sono rispettivamente A = (µc, +∞), C = (−∞, µc) con µc dadeterminare.

Introduciamo la variabile standardizzata che definisce la distribuzione campionariadelle medie. Se H0 e vera, essa vale

Zn =µn − 1850

σ/√

n=

µn − 1850100

√50

=µn − 1850√

200.

Il suo valore critico al livello di significativita α = 0.01 si calcola scrivendo:

α = 0.01 = IP(µn < µc |H0) = IP(

Zn < zc =µc − 1850√

200

)=

12

+ erf(zc)

e dalle Tavole di erf(z) si ricava:

−erf(zc) = 0.49 ⇒ zc = −2.33 ; µc = 1850 +√

200zc ' 1817.049.

Si noti che −zc = 2.33 non e altro che il quantile z0.99 di ordine 1 − α della dis-tribuzione Normale standard.

Dunque la regione critica e l’intervallo aperto a sinistra:

C = zn : −∞ < zn < −2.33 = µn : −∞ < µn < 1817.049.Il valore empirico di µn rilevato nel campione (al quale corrisponde il valore empiricozn = (1830− 1850)/

√200 ' −1.414 di Zn) non appartiene alla regione critica.

In seguito alle osservazioni sul campione, si deve pertanto accettare l’ipotesi nulla,dichiarando che con il nuovo materiale c’e un effettivo miglioramento .

b) Il rischio di seconda specie β si determina introducendo la variabile standardizzataZ1 = (µ − µ1)/

√200 che rappresenta la distribuzione campionaria quando e vera

l’ipotesi alternativa, e facendo il seguente calcolo:

β = IP(µn ≥ µc |H1) = IP(

Z1 ≥ µc − µ1√200

)= IP

(Z1 ≥ 1817.049− 1800√

200

)=

=12− erf

(17.049√

200

)' 1

2− erf(1.21) = 0.5− 0.3869 = 0.1131 ' 11.3% .

Page 285: dispense di Probabilita' e Statistica

9.8 – Problemi risolti 277

9.11. Il consumo di carburante di un modello di scooter, espresso in Km/litro,ha legge normale con varianza nota σ2 = 6, 25. Da un campione di 36 esemplariprodotti, si ricava una media dei consumi di 24,4 Km/l. Si domanda: a) Al livello disignificativita α = 0, 05, si puo accettare l’ipotesi che il consumo medio del modelloe di 25 Km/l, in alternativa all’ipotesi che esso sia di 23 Km/l ? b) Quale errore sicommette nel dichiarare un consumo di 25 Km/l, se e vera l’ipotesi alternativa ?

Soluzione.

a) Definita l’ipotesi nulla H0 : µ = µ0 = 25 e quella alternativa H1 : µ = µ1 = 23, siprocede ad un test unidirezionale inferiore nel quale la regione critica e C = (−∞, zc).Determiniamo il valore critico zc e il valore empirico zn della variabile standardizzataZn la quale, se H0 e vera, e definita come

Zn =µn − µ0

σ/√

n=

µn − 25√6.25/6

= 2.4(µn − 25).

Il suo valore empirico e zn = 2.4(24.4−25) = −1.44, e il suo valore critico (cambiatodi segno) e il quantile di ordine 1− α = 0.95 della distribuzione Normale standard(confronta anche con il precedente Esercizio 10/7). Dunque si ricava:

zc = −z1−α = −z0.95 = −1.65 ⇒ C = (−∞,−1.65)

e poiche il dato empirico zn non appartiene alla regione critica ora calcolata, sideduce che l’ipotesi nulla deve essere accettata al livello di significativita del 5%.

b) Se si usa lo stesso metodo dell’Esercizio precedente, per calcolare l’errore di sec-onda specie occorre prima determinare il valore critico µc della media campionaria:

µc = 25 +zc

σn= 25− 1.65

2.4' 24.3125

e quindi scrivere:

β = IP(µn ≥ µc |H1) = IP(

Z1 ≥ µc − 23σn

)=

12− erf

(1.31250.416

)

' 12− erf(3.15) = 0.5− 0.4992 = 0.0008

dove Z1 = (µn−µ1)/σn e la variabile standardizzata che rappresenta la distribuzionecampionaria quando e vera l’ipotesi altermativa.

Oppure, con procedura piu rapida, si puo applicare la formula:

β =12

+ erf(z1−α − z′)

in cui z′ e la differenza tra le Normali standard associate alla ipotesi nulla e allaipotesi alternativa, e vale:

z′ =µn − 25

σn− µn − 23

σn= − 2

0.416= −4.8.

Si ha cosı il medesimo risultato:

β = 0.5 + erf(1.65− 4.8) = 0.5− erf(3.15) ' 0.0008.

Page 286: dispense di Probabilita' e Statistica

278 TEST PARAMETRICI

Page 287: dispense di Probabilita' e Statistica

TEST DI IPOTESI NONPARAMETRICHE

10.1 Test sulla legge di distribuzione

In gran parte dei test statistici trattati nel Capitolo precedente e stata sfruttatal’ipotesi preliminare che il modello statistico della popolazione in esame fosse facil-mente identificabile, ed esprimibile mediante leggi probabilistiche note (normale,binomiale, esponenziale,. . .). Capita spesso che cio non sia possibile, o per lo menoche la legge di distribuzione F (x) che siamo portati ad attribuire alla popolazionesia da verificare. Questa verifica si effettua con metodi chiamati anche test per labonta dell’adattamento, i piu noti dei quali sono il test di Kolmogorov-Smirnov e iltest Chi-quadrato, che si impostano come segue.

Si abbia in campione X = (X1, X2, . . . , Xn) estratto da una popolazione il cui carat-tere X ha una funzione di distribuzione incognita FX(x). Per verificare se un modellostatistico con assegnata legge F (x) “e adatto” a descrivere le proprieta probabilis-tiche del carattere X, si effettua un test per la seguente ipotesi nulla:

H0 : FX(x) = F (x), x ∈ IR (10.1)

in alternativa alla ipotesi:

H1 : FX(x) 6= F (x) per almeno un x ∈ IR. (10.2)

In molte applicazioni, non si hanno informazioni sufficienti per individuare com-pletamente la legge F (x) da assumere per il modello statistico, e occorre stimarnesimultaneamente uno o piu parametri. In tal caso, il test consiste nel verificarel’ipotesi nulla composta:

H0 : FX(x) ∈ F0 = F (x;ϑ), ϑ ∈ Θ (10.1′)

che la distribuzione teorica appartenga a una famiglia F0 di distribuzioni con leggeF , in cui ϑ e il parametro (o l’insieme dei parametri) da stimare secondo i metodiesposti nel Capitolo 8.

In ogni caso, per procedere nel test occorre disporre di un riassunto campionarioadeguato a rappresentare la distribuzione da testare. A tal fine, raggruppati even-tualmente i dati (x1, . . . , xn) in m classi ∆k = [ak, bk) come e stato precisato nel

279

Page 288: dispense di Probabilita' e Statistica

280 TEST DI IPOTESI NON PARAMETRICHE

§6.2, si determina la frequenza cumulata relativa dei dati del campione, che in questocontesto e anche chiamata funzione di distribuzione empirica e si esprime come:

Fn(x) =1n

m∑

k=1

nkU(x− ak), x ∈ IR (10.3)

dove nk e la frequenza assoluta dei dati appartenenti alla k-esima classe, e U(x−ak)e la funzione a scalino unitario (2.3). Se invece la numerosita del campione non eelevata, per cui non e necessario raggruppare in classi gli n dati xi, la funzione didistribuzione empirica e la funzione a scalino costante 1/n nei punti xi:

Fn(x) =1n

n∑

i=1

U(x− xi), x ∈ IR. (10.4)

Questa funzione di distribuzione empirica si utilizza quindi per costruire le statistichesu cui si effettuano i test che seguono.

10.1.1 Test di Kolmogorov-Smirnov

Questo test si applica quando la funzione F (x) e continua, e per verificare l’ipotesinulla (10.1) usa la statistica:

Dn = sup−∞<x<∞

|Fn(x)− F (x)| (10.5)

che rappresenta la massima deviazione della distribuzione empirica dalla ipoteticafunzione di distribuzione F (x) che si vuole testare.

Per la sua stessa definizione, la statistica Dn puo assumere solo valori dn ∈ [0, 1].Inoltre, si puo dimostrare che nell’ipotesi che H0 sia vera, essa e indipendente dallaforma della funzione F (x). Questo risultato e assai rilevante, perche consente dicalcolare una volta per tutte Dn e di tabularne i valori al variare della numerositan del campione. La tabella in Appendice riporta, al crescere di n, alcuni quantili diquesta distribuzione statistica.

Se H0 e vera, i valori empirici dn di Dn non possono scostarsi troppo da zero perogni x, per cui al test con livello di significativita α si associa la regione critica:

C = (d1−α, 1],

dove d1−α e il quantile della distribuzione tale che IP(Dn ≤ d1−α) = 1− α.

Esiste anche una notevole proprieta asintotica della distribuzione di Kolmogorov-Smirnov, in conseguenza della quale vale una regola chiamata test di Kolmogorovsulla bonta di adattamento, che qui ci limitiamo ad enunciare come segue.

Test sulla bonta di adattamento

Se n e sufficientemente grande (n ≥ 20), l’ipotesi nulla (10.1) e da rigettare se ilvalore empirico della statistica Dn soddisfa la diseguaglianza:

√n · dn ≥ λα, (10.6)

Page 289: dispense di Probabilita' e Statistica

10.1 – Test sulla legge di distribuzione 281

dove λα soddisfa l’identita

K(λα) =∞∑

j=−∞(−1)je−2j2λ2

α = 1− α

e vale λα = 1.3581 per α = 0.05 e λα = 1.6276 per α = 0.01. Altrimenti, si deduceche al livello di significativita α i dati del campione si adattano all’ipotesi fatta.

Nel caso in cui si debba verificare una ipotesi composta del tipo (10.1’), il test usauna differente statistica e precisamente:

Dn = sup−∞<x<∞

|Fn(x)− F (x; ϑn)|

dove ϑn e la stima di massima verosimiglianza (cfr. §8.1.2) del parametro ϑ delladistribuzione. La regione critica del test e pero piu difficile da determinare, anchese si semplifica la ricerca sfruttando le proprieta asintotiche della nuova statisticada utilizzare.

Esempio 10.1

Un dispositivo ha generato n = 20 numeri casuali xi che sono elencati nella secondacolonna della Tabella 10.1. Si puo respingere l’ipotesi che essi siano distribuiti conlegge normale avente media 2 e varianza 1 ?

Applichiamo il test di Kolmogorov-Smirnov calcolando anzitutto la funzione di di-stribuzione normale teorica, che per comodita conviene esprimere in funzione dellavariabile standardizzata z = x− 2 riportata nella terza colonna. Usando la formula(2.32) e la Tabella di erf(z) si perviene ai valori di F (zi) indicati nella quarta colonna.

La funzione di distribuzione empirica, espressa dalla (10.4), e

Fn(z) = 0.05n∑

i=1

U(z − zi).

Nei punti di discontinuita zi essa vale: F+n (zi) = 0.05 · i, e il suo limite sinistro per

z → zi vale invece F−n (zi) = 0.05 · (i− 1). E’ percio immediato ricavare le differenze

F+n (zi)− F (zi) e F−

n (zi)− F (zi) che sono riportate nelle ultime due colonne.

Poiche la distanza tra Fn(z) e F (z) per ogni z 6= zi e minore di quelle ora determinatenei punti di discontinuita di Fn(z), si ricava che il valore empirico della statistica(10.5) vale dn = 0.1551, perche e il massimo valore assoluto delle differenze calcolate.

La Tabella della distribuzione Dn in Appendice mostra, alla riga n = 20, che ilquantile d1−α vale 0.2315 per α = 0.20 e aumenta al descescere di α. Dunque, perα = 0.20 la regione critica del test e C = (0.2315, 1] ed ha ampiezza minore se siassumono livelli di significativita minori. Poiche il dato empirico non appartienea questi intervalli si conclude, con un rischio di prima specie inferiore o uguale adα = 0.20, che i valori generati hanno effettivamente una distribuzione normale conmedia 2 e varianza 1.

Page 290: dispense di Probabilita' e Statistica

282 TEST DI IPOTESI NON PARAMETRICHE

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

0,36

0,82

0,86

1,04

1,06

1,12

1,14

1,44

1,47

1,78

1,80

1,90

2,29

2,67

2,73

2,75

3,11

3,18

3,24

3,56

-1,64

-1,18

-1,14

-0,96

-0,94

-0,88

-0,86

-0,56

-0,53

-0,22

-0,20

-0,10

0,29

0,67

0,73

0,75

1,11

1,18

1,24

1,56

0,0505

0,1190

0,1271

0,1685

0,1736

0,1894

0,1949

0,2877

0,2981

0,4129

0,4207

0,4602

0,6141

0,7486

0,7673

0,7734

0,8665

0,8810

0,8925

0,9406

-0,0005

-0,0190

0,0229

0,0315

0,0764

0,1106

0,1551

0,1123

0,1519

0,0871

0,1293

0,1398

0,0359

-0,0486

-0,0173

0,0266

-0,0165

0,0190

0,0575

0,0594

-0,0505

-0,0690

-0,0271

-0,0185

0,0264

0,0606

0,1051

0,0623

0,1019

0,0371

0,0793

0,0898

-0,0141

-0,0986

-0,0673

-0,0234

-0,0665

-0,0310

0,0075

0,0094

i ix iz iF(z )

iiF (z ) - F(z )nii

F (z ) - F(z )n+ -

TABELLA 10.1

Si noti che si giunge a conclusioni affini applicando la regola asintotica di Kolmogorovsopra enunciata, anche se ci troviamo ai limiti di applicabilita della stessa (n = 20).Infatti il valore empirico di Dn e tale che

√20 · dn = 0.6936, e soddisfa la condizione

(10.6) almeno per valori di α minori o uguali a 0.05.

10.1.2 Test Chi-quadrato

Si tratta di un criterio di verifica di ipotesi del tipo (10.1) e (10.1’) che e ampiamenteusato perche, a differenza del test di Kolmogorov-Smirnov, si applica a qualsiasi tipodi distribuzione, anche non continua, e si avvale di una statistica che si puo calcolarepiu facilmente dell’estremo superiore Dn definito nella (10.5).

Per applicare il test Chi-quadrato e necessario suddividere il supporto della distribu-zione F (x) da testare in m intervalli o classi ∆k = [ak, bk), e per ogni classe valutarele seguenti quantita:

1. la frequenza (assoluta) nk delle osservazioni desunte da un campione di nu-merosita n, che appartengono all’intervallo [ak, bk);

2. la probabilita teorica p0k = IP(X ∈ ∆k |H0) che il carattere X con distribuzione

(ipotetica) F (x) abbia valori in ∆k, nell’ipotesi che H0 sia vera.

Se si dispone di una espressione analitica della funzione di distribuzione teorica,ciascuna probabilita p0

k non e altro che la differenza p0k = F (ak+1)−F (ak). Tuttavia,

Page 291: dispense di Probabilita' e Statistica

10.1 – Test sulla legge di distribuzione 283

il test e applicabile anche quando il modello statistico che vogliamo verificare non ericonducibile alle usuali leggi probabilistiche richiamate nel §7.1.

L’ipotesi nulla e qui individuata completamente dall’insieme m-dimensionale p0 =p0

1, . . . , p0m delle probabilita teoriche relative alle m classi, le quali sono soggette

all’unica condizione:∑

k p0k = 1 imposta dagli assiomi della Probabilita.

Con le quantita sopra definite, costruiamo la statistica

Tn =m∑

k=1

(nk − np0k)

2

np0k

(10.7)

che svolgendo il quadrato a numeratore si puo anche scrivere:

Tn =m∑

k=1

n2k

np0k

− 2m∑

k=1

nk + nm∑

k=1

p0k =

m∑

k=1

n2k

np0k

− n , (10.7′)

perche n1 + . . . + nm = n (cfr. §6.2).

Un apposito Teorema mostra che se l’ipotesi nulla (10.1) e vera, quando n → ∞la statistica Tn tende, indipendentemente da H0, a una distribuzione Chi-quadratocon (m-1) gradi di liberta.

Poiche nell’ipotesi H0 vera il valore atteso della frequenza dei dati nella classe ∆k

e E(nk |H0) = np0k, la statistica (10.7) e una misura (in valore assoluto) della de-

viazione dei dati osservati dai rispettivi valori medi ipotetici, e il test consiste nellaverifica che il valore empirico tn di questa statistica sia sufficientemente piccolo. Perogni livello di significativita α, esso si effettua individuando come regione critical’intervallo

C = (χ1−α, +∞) (10.8)

dove χ1−α e il quantile di ordine (1−α) della distribuzione Chi-quadrato con (m−1)gradi di liberta, e si puo cosı enunciare.

Test Chi-quadrato per ipotesi H0 semplici

Siano nk le frequenze osservate in un campione di numerosita n, tali da soddisfarele condizioni n ≥ 50; nk ≥ 5, ∀ k = 1, . . . ,m. Allora, al livello di significativita α,se il valore empirico tn della statistica (10.7) soddisfa la condizione:

tn ≥ χ1−α, (10.9)

l’ipotesi nulla (10.1) e rifiutata; altrimenti, H0 e da ritenere consistente con i risultatisperimentali.

E’ utile considerare alcuni svantaggi e i numerosi vantaggi che comporta l’applica-zione di questo test.

A suo svantaggio, bisogna osservare che raggruppando i dati in classi e lavorandosu di queste si perdono informazioni rispetto a quelle che si potrebbero desumereda una analisi piu dettagliata del medesimo campione. Inoltre, per le condizioni

Page 292: dispense di Probabilita' e Statistica

284 TEST DI IPOTESI NON PARAMETRICHE

poste su n e nk occorre disporre di un numero sufficientemente elevato di osser-vazioni campionarie, le quali devono essare significative per tutte le classi prese inconsiderazione.

Per contro, tra i suoi vantaggi merita sottolineare:

• la sua universalita: come gia accennato, si puo applicare anche a distribuzionidiscrete, multidimensionali, o non espresse analiticamente da una assegnatafunzione F (x).

• Il test si puo effettuare anche per verificare ipotesi sulle proprieta di un genericoesperimento casuale, cui si puo associare uno spazio campione costituito dam eventi incompatibili A1, . . . , Am. Allo scopo, basta valutare le frequenzeosservate nk e quelle teoriche p0

k con cui gli m eventi Ak si realizzano.

• Il test Chi-quadrato e consistente, in senso affine alla definizione gia usata nel§6.1 per uno stimatore. Infatti, definito l’insieme p 6= p0 delle probabilitateoriche

p = p1, . . . , pm, k = 1, . . . ,m : pk = IP(X ∈ ∆k |H1)

sotto l’ipotesi alternativa che sia vera H1, si dimostra che per ogni F ∈ H1 lapotenza Wn(p) del test tende ad 1 per n che tende ad infinito.

• Nel caso piu generale in cui l’ipotesi nulla e composta come in (10.1’), a dif-ferenza del test di Kolmogorov-Smirnov non e difficile definire una appropriataregione critica. Vale infatti il seguente ulteriore risultato.

Page 293: dispense di Probabilita' e Statistica

10.1 – Test sulla legge di distribuzione 285

Test Chi-quadrato per ipotesi H0 composte

Se la distribuzione F (x, ϑ) da testare dipende da un insieme ϑ di r parametri incog-niti, allore l’ipotesi nulla (10.1’) e caratterizzata da un insieme

p0(ϑ) = p01(ϑ), . . . , p0

m(ϑ)che non e univocamente definito perche dipendente dagli r parametri incogniti. Sepero si sostituisce ϑ con una sua stima ϑ di massima verosimiglianza, si puo definirela statistica modificata:

Tn(ϑ) =m∑

k=1

[nk − np0k(ϑ)]2

np0k(ϑ)

(10.10)

che diventa una funzione dei soli dati campionari, e puo essere determinata per ognirealizzazione del campione X.

Per determinare ϑ, ricordiamo (cfr. §8.1.2) che se r = 1 e ϑ e il valor medio di F , lasua stima di massima verosimiglianza coincide con la media campionaria µn. Nel casogenerale di un insieme di r parametri incogniti da determinare sperimentalmente, sidimostra che la stima di massima verosimiglianza ϑ di ϑ = ϑ1, . . . , ϑr e la soluzionerispetto a ϑ (se esiste) del sistema:

j = 1, . . . , r :m∑

k=1

nk

p0k(ϑ)

· ∂p0k(ϑ)

∂ϑj= 0. (10.11)

TABELLA 10.2

1 [0,1) 52 0,3297 41,00698

2 [1,3) 81 0,3691 88,87835

3 [3,6) 46 0,2105 50,26128

4 [6, + ) 21 0,0907 42,31091

k [a , b ) n pk k k k0

k0p

kn 2

200

Nel 1924 Fisher ha dimostrato che quando n → ∞ la distribuzione di Tn(ϑ) tendealla legge Chi-quadrato con (m − 1 − r) gradi di liberta, dove r e il numero deiparametri incogniti di F (x, ϑ).

Ne segue che la regione di rifiuto dell’ipotesi nulla composta (10.1’) e ancora l’inter-vallo (10.8) in cui pero χ1−α e il quantile della Chi-quadrato con (m− 1− r) gradidi liberta, e la regola del test per ipotesi composte si modifica come segue.

. Siano nk le frequenze osservate in un campione di numerosita n, tali da soddisfarele condizioni n ≥ 50; nk ≥ 5 ∀ k = 1, . . . , m. Al livello di significativita α, se il

Page 294: dispense di Probabilita' e Statistica

286 TEST DI IPOTESI NON PARAMETRICHE

valore empirico tn della statistica (10.10) soddisfa la condizione: tn ≥ χ1−α doveχ1−α e il quantile della distribuzione Chi-quadrato con m − 1 − r gradi di liberta,allora l’ipotesi nulla (10.1’) e rifiutata; altrimenti, H0 e da ritenere consistente coni risultati sperimentali.

Esempio 10.2

Nell’Esempio 9.9 del Capitolo precedente e stato proposto un test sulle medie degliintervalli di tempo tra due controlli di manutenzione di un’apparecchiatura di bordo.Vediamo ora se le n = 200 osservazioni campionarie gia utilizzate sono compatibilicon l’ipotesi che il tempo X(ω) intercorso tra due successivi controlli abbia unadistribuzione esponenziale con valor medio µX = 1/λ = 2.5 mesi. L’ipotesi nulla e

H0 : FX(x) = 1− exp(−2

5x

), x ∈ IR+

e per verificarla applicando il test Chi-quadrato occorre suddividere IR+ in m op-portuni intervalli, ad esempio:

IR+ = [0, 1) ∪ [1, 3) ∪ [3, 6) ∪ [6, +∞).

Supponiamo che dalla serie ordinata dei 200 dati campionari si ricavi per ciascunodei 4 intervalli le frequenze assolute nk riportate nella terza colonna della Tabella10.2.

Se H0 e vera, le probabilita teoriche per ciascuna classe, riportate nella quartacolonna, valgono:

k = 1, . . . , 4 : p0k = F (ak+1)− F (ak) = exp

(−2

5ak

)− exp

(−2

5ak+1

)

Calcoliamo ora il valore empirico della statistica Tn definita nella (10.7’), sommandole quantita n2

k/200p0k riportate nell’ultima colonna, e sottraendo n = 200. Si ottiene:

tn = 4.45752.

Scelto un livello di significativita α = 0.01, la Tabella dei quantili della distribuzioneChi-quadrato mostra che la regione di rifiuto di H0 e l’intervallo:

C = (6.25, +∞).

Poiche tn non vi appartiene, concludiamo che al livello α = 0.01 o inferiori l’ipotesidi una distribuzione esponenziale con media 2.5 mesi e consistente con le osservazionidel campione.

Supponiamo invece di non assegnare il parametro λ della distribuzione teorica espo-nenziale con cui intendiamo esprimere le proprieta della variabile X(ω). In tal caso,l’ipotesi nulla e composta:

H0 : FX(x) ∈ F0 = F (x, ϑ) = 1− e−ϑx, ϑ ∈ IR+. (10.12)

Per valutare ϑ si assume la sua stima di massima verosimiglianza, che coincide conil reciproco della media campionaria gia utilizzata nell’Esempio 9.9:

ϑ =1µn

=1

3.4.

Page 295: dispense di Probabilita' e Statistica

10.1 – Test sulla legge di distribuzione 287

Ne segue che se l’ipotesi nulla e vera, le probabilita teoriche da calcolare son ora:

p0k(ϑ) = exp

(− ak

3.4

)− exp

(−ak+1

3.4

)

e per k = 1, . . . , 4 valgono:

p01(ϑ) = 0.2548, p0

2(ϑ) = 0.3314, p03(ϑ) = 0.2426, p0

4(ϑ) = 0.1712.

(Si noti che la loro somma e sempre uguale ad 1, probabilita dell’evento certo).

0 1

1

3 6 10 x

F(x, = )13,4

q

l =1

2,5

Fk

5 15

Figura 10.1

Il valore empirico della statistica modificata Tn(ϑ), fornito dalla (10.10), risultapertanto: tn = 8.54, mentre la nuova regione di rifiuto di H0 si valuta determinandoil quantile χ0.90 della distribuzione Chi-quadrato con 4− 1− 1 = 2 gradi di liberta.

Si ricava ora: C = (4.61, +∞), che contiene il valore empirico tn. Ne segue che allivello di significativita α = 0.10 l’ipotesi composta (10.11) non e consistente coni dati campionari aventi media µn = 3.4 mesi. Osserviamo tuttavia che la stessaipotesi e da accettare se diminuiamo il livello di significativita del test ad α = 0.01,perche allora la regione di rifiuto diventa C = (9.21, +∞) ed esclude il valore empiricosopra determinato.

La Fig. 10.1 mostra il confronto tra le due distribuzioni teoriche (quella con mediaµX = 2.5 assegnata e quella con media stimata µn = 3.4), e il grafico delle frequenzecumulate relative Fk che si ricavano dalle 200 osservazioni campionarie, raggruppatenelle 4 classi che abbiamo utilizzato. /

Esempio 10.3

Per controllare i tavoli da gioco di un Casino si registrano 10.000 giocate di unastessa roulette, manovrata da croupier diversi e scelti a caso. Dall’indagine risultache il rosso e uscito 4.828 volte, il nero 4.921 volte, e per 251 volte e uscito lo zero.

Page 296: dispense di Probabilita' e Statistica

288 TEST DI IPOTESI NON PARAMETRICHE

Con quale livello di significativita si puo affermare che quella roulette non e truccata?

Gli eventi da considerare sono tre:

A1 = esce il rosso, A2 = esce il nero, A3 = esce lo zero,e assumendo come ipotesi nulla che l’uscita di uno tra i 37 numeri, compreso lo zero,sia equiprobabile (ovvero che la roulette non sia truccata), le probabilita teorichedei tre eventi sono:

p01 = IP(A1) =

1837

, p02 = IP(A2) =

1837

, p03 = IP(A3) =

137

.

Le frequenze osservate dei tre eventi sono:

n1 = 4.828, n2 = 4.921, n3 = 251

e calcolato il valore empirico della statistica (10.7’) con n = 10.000 si ottiene: tn =2, 301.

Confrontiamo ora questo valore con i quantili della distribuzione Chi-quadrato con3 − 1 = 2 gradi di liberta. Nel test interessa soprattutto limitare il piu possibileil rischio di errore di seconda specie, per evitare di concludere che la roulette none truccata mentre invece lo e. Sara percio conveniente usare il massimo rigore,assumendo il maggior rischio possibile di prima specie. Dall’esame della TabellaChi-quadrato risulta che χ1−α = 1, 39 per α = 0, 5 e χ1−α = 2, 77 per α = 0, 25.Interpolando linearmente in questo intervallo, si trova che χ1−α = 2, 31 per

1− α = 0, 5 + 0, 25 · 2, 31− 1, 392, 77− 1, 39

= 0, 6667.

Dunque, al livello di significativita α = 1−0, 6667 = 0, 3333 la regione critica del teste C = (2.31,+∞), e non contiene il valore empirico tn = 2, 301. Si puo concludereche la roulette non e truccata al livello di significativita 0, 333, ovvero con circa il33% di probabilita di rigettare l’ipotesi nulla mentre essa e vera. /

Esempio 10.4: test Chi-quadrato per il modello di Poisson

Supponiamo di disporre di n osservazioni indipendenti di una variabile aleatoriaX(ω) con valori interi xi = 0, 1, 2, . . ., e di voler verificare l’ipotesi H0 : FX(x) ∈Π(ϑ) che X abbia una distribuzione di Poisson con parametro da determinare.

Suddividiamo l’insieme xi = IN nelle m classi:

∆k = k − 1 per k = 1, 2, . . .m− 1∆m = m− 1,m, m + 1,m = 2, . . .,

e specifichiamo l’ipotesi nulla determinando le probabilita p0k(ϑ) che otteniamo ap-

plicando la (2.52). Esse sono:

p0k(ϑ) = fX(k − 1, ϑ) =

e−ϑϑk−1

(k − 1)!, k = 1, 2, . . . ,m− 1

p0m(ϑ) =

∞∑

k=m−1

f(k, ϑ) = e−ϑ∞∑

k=m−1

ϑk

k!. (10.13)

Page 297: dispense di Probabilita' e Statistica

10.1 – Test sulla legge di distribuzione 289

0123456789

10 o piu'

123456789

1011

558

15171613

9565

0,00830,03960,09490,15180,18210,17470,13970,09580,05740,03060,0251

4,13680,8816

-1,8696-0,7872-1,9384-2,1688-1,5288-0,9632-0,96962,81762,3896

x ik k

n m nkp ( )0

kn - 104 m nk

p ( )0numero

contravvenzioni

TABELLA 10.3

Poiche il parametro ϑ della distribuzione di Poisson coincide con il suo valore atteso,la sua stima di massima verosimiglianza e uguale alla media campionaria: ϑ = µn,per cui nella statistica (10.10) si devono inserire le probabilita

p0k(ϑ) =

e−µnµk−1n

(k − 1)!, k = 1, 2, . . . , m− 1

p0m(ϑ) = e−µn

∞∑

k=m−1

µkn

k!= 1−

m−1∑

k=1

pk(ϑ). (10.14)

Calcoliamo ora le frequenze assolute nk. Per k = 1, . . . , m − 1, esse sono ugualial numero di osservazioni con valore xi = k − 1, mentre nm e data dal numero diosservazioni da cui risulta un valore xi ≥ m− 1.

Siamo ora in grado di calcolare il valore empirico tn della statistica (10.10) e diconfrontarlo con la tabella dei quantili della distribuzione Chi-quadrato con m − 2gradi di liberta, rigettando l’ipotesi nulla se e solo se tn ≥ χ1−α.

. Ad esempio, supponiamo di voler verificare se il numero di contravvenzioni gior-naliere elevate da un vigile urbano si puo ritenere distribuito casualmente con leggedi Poisson. Nell’esaminare i verbali di n = 104 suoi giorni lavorativi, scegliamom = 11 e indichiamo con nk, k = 1, . . . , 10 il numero di giorni in cui ha elevato k−1contravvenzioni, e con n11 il numero di giorni in cui ha elevato 10 o piu contravven-zioni. Risultano le frequenze riportate nella terza colonna della Tabella 10.3, le qualiforniscono un valor medio

µn =1

104

11∑

k=1

(k − 1)nk = 4, 798 ≡ ϑ. (10.15)

Per tale valore di ϑ le probabilita teoriche, nell’ipotesi che H0 sia vera, sono quelleindicate nella quarta colonna. Nell’ultima colonna sono infine mostrati i corrispon-

Page 298: dispense di Probabilita' e Statistica

290 TEST DI IPOTESI NON PARAMETRICHE

denti valori delle differenze nk − np0k(4, 798). Da questi si ricava il valore empirico

tn = 26, 14655 della statistica (10.10).

Se si assume un ragionevole livello di significativita: α = 0.10, il quantile χ0.9 delladistribuzione Chi-quadrato con 9 gradi di liberta mostra che la regione di rifiutodel test e C = (14.7, +∞) e contiene tn. Dunque, al livello α = 0.10 si concludeche l’ipotesi di una distribuzione di Poisson del numero di contravvenzioni non econsistente con le risultanze dei verbali esaminati. /

Esempio 10.5: test Chi-quadrato per il modello normale

Supponiamo ora di avere n osservazioni di un carattere X che puo assumere qualsiasivalore reale, e di voler verificare l’ipotesi H0 che X(ω) abbia distribuzione Normalegenerale N (ϑ1, ϑ2) con media e varianza da determinare.

Per procedere in un test Chi-quadrato, occorre definire una partizione opportuna diIR in m intervalli ∆k = [ak, bk), k = 1, . . . ,m con

a1 = −∞ , a2 = b1

k = 2, . . . , m− 1 : ak+1 = ak + h, h > 0; bm = +∞scelti in modo che n1 = nm = 0. L’ipotesi H0 e allora specificata dalle probabilita

p0k(ϑ1, ϑ2) =

1√2πϑ2

∫ bk

ak

exp

[−(x− ϑ1)2

2ϑ2

]dx, k = 1, . . . , m (10.16)

che hanno derivate parziali

∂p0k

∂ϑ1=

1ϑ2

√2πϑ2

∫ bk

ak

(x− ϑ1) exp

[−(x− ϑ1)2

2ϑ2

]dx

∂p0k

∂ϑ2=

12ϑ2

2

√2πϑ2

∫ bk

ak

(x− ϑ2)2 exp

[−(x− ϑ1)2

2ϑ2

]dx− p0

k(ϑ)2ϑ2

.

La stima di massima verosimiglianza ϑ del parametro bidimensionale ϑ = ϑ1, ϑ2e ora da ricercarsi come soluzione del sistema (10.12) che qui si scrive:

m∑

k=1

nk

p0k(ϑ)

· 1

ϑ3/22

√2π

∫ bk

ak

(x− ϑ1) exp

[−(x− ϑ1)2

2ϑ2

]dx = 0

m∑

k=1

nk

p0k(ϑ)

·

1√2πϑ2

∫ bk

ak

(x− ϑ1)2 exp

[−(x− ϑ1)2

2ϑ2

]dx− ϑ2p

0k(ϑ)

= 0.

Tenuto conto che∑

k nk = n e dell’espressione (10.16) di p0k, esso fornisce:

ϑ1 =1n

m∑

k=1

nk ·

∫ bk

ak

x exp

[−(x− ϑ1)2

2ϑ2

]dx

∫ bk

ak

exp

[−(x− ϑ1)2

2ϑ2

]dx

Page 299: dispense di Probabilita' e Statistica

10.1 – Test sulla legge di distribuzione 291

ϑ2 =1n

m∑

k=1

nk ·

∫ bk

ak

(x− ϑ1)2 exp

[−(x− ϑ1)2

2ϑ2

]dx

∫ bk

ak

exp

[−(x− ϑ1)2

2ϑ2

]dx

. (10.17)

Se l’ampiezza h degli intervalli ∆k in cui fk 6= 0 e ragionevolmente piccola, gliintegrali nella (10.17) si possono approssimare con i prodotti di h per i rispettiviintegrandi calcolati nei valori centrali xk di ciascun intervallo, avendo l’avvertenzadi definire i valori estremi con x1 = b1 e xm = am. In questo modo si ricavanofacilmente le seguenti stime approssimate di massima verosimiglianza:

ϑ1 ' 1n

m∑

k=1

nkxk , ϑ2 ' 1n

m∑

k=1

nk(xk − ϑ1)2 (10.18)

che si mostrano valide anche se n1 e nm non sono esattamente nulle, ma soltantomolto minori della numerosita n del campione da cui si traggono le osservazioni.

1,87002,23350,42880,79842,14551,60800,35911,38322,34642,31121,77763,00331,2688

123456789

10111213

k

0558

15171613

95650

kn

kn - n

kp0

0,01800,02660,05220,08460,12360,14800,15730,13830,10910,07030,04060,01920,0122

kp0

TABELLA 10.4

(- , -0.5)[-0.5, 0.5)[0.5, 1.5)[1.5, 2.5)[2.5, 3.5)[3.5, 4.5)[4.5, 5.5)[5.5, 6.5)[6.5, 7.5)[7.5, 8.5)[8.5, 9.5)[9.5, 10.5)[10.5, + )

-0,50123456789

1010,5

zk

--2,0955-1,7000-1,3000-0.9090-0,5134-0,11780,27760,67321,06801,46401,85902,2550

-0,5000-0,4820-0,4554-0,4032-0,3186-0,1950-0,04700,11030,24860,35770,42800,46860,4878

zk

erf( )D xk k

Valutando quindi il parametro incognito bidimensionale con le stime (10.18), e pos-sibile determinare il valore empirico tn della statistica Tn definita con la (10.10).Se H0 e vera ed n e sufficientemente grande, la distribuzione di Tn ha legge Chi-quadrato con m− 3 gradi di liberta. L’ipotesi di una legge normale per il carattereX e allora da accettare, al livello di significativita α, se tn e minore del quantileχ1−α della distribuzione Chi-quadrato con m− 3 gradi di liberta.

. Per sviluppare un caso numerico concreto, supponiamo ora che le 104 osservazionicon frequenze nk riportate nella Tabella 10.3 dell’Esempio precedente siano stateestratte da un carattere X definito con continuita su IR, e che con esse si vogliaverificare se X e normalmente distribuito.

Page 300: dispense di Probabilita' e Statistica

292 TEST DI IPOTESI NON PARAMETRICHE

E’ opportuno definire 11 intervalli ∆k, k = 2, . . . , 12 di ampiezza h = 1 con valoricentrali xk = 0, 1, . . . , 10, piu altri due che si estendono a ±∞, per un totale dim = 13 intervalli come mostrato nella Tabella 10.4. Nel caso presente, si deveintendere che le frequenze nk elencate nella quarta colonna sono relative al numerodi osservazioni che cadono nell’intervallo ∆k.

Le stime (10.18) dei due parametri della distribuzione non sono altro che la mediagia calcolata nella (10.15) e la varianza dei dati osservati, che vale

ϑ2 =1

104

12∑

k=2

nk[k − 2− ϑ1]2 = 6, 39192.

Usando queste stime, si calcolano le probabilita teoriche che per la (10.16) valgono:

p0k(ϑ1, ϑ2) = erf

bk − ϑ1√

ϑ2

− erf

ak − ϑ1√

ϑ2

e si deducono ricavando con la Tabella di erf(z) i due valori richiesti della funzione

degli errori. Nella Tabella 10.4 sono riportate: zk = (ak − ϑ1)/√

ϑ2, erf(zk), leprobabilita p0

k e le differenze nk − np0k(ϑ) usate per ottenere il valore empirico della

statistica (10.10). Questo valore empirico vale tn = 11, 72.

Il quantile χ0.75 della distribuzione Chi-quadrato con m − 3 = 10 gradi di libertavale 12.5, per cui al livello α = 1 − 0.75 = 0.25 la regione di rifiuto del test eC = (12.5, +∞) che non contiene tn. Se ne conclude che assumendo un rischio diprima specie del 25%, l’ipotesi che X abbia una distribuzione normale con i parametrisopra stimati e consistente con le frequenze osservate. /

10.2 Test di omogeneita

Siano X e Y due campioni estratti dalla medesima popolazione in modo indipen-dente, per esempio in tempi diversi o in condizioni generali diverse. Uno dei problemipiu importanti nella Statistica applicata consiste nel verificare se X e Y sono cam-pioni omogenei, nel senso che si possono considerare estratti da una popolazionecon proprieta identiche oppure se, al contrario, la sua distribuzione e variata dacampione a campione. Problemi di questa natura si incontrano, ad esempio, nelcontrollo di qualita della produzione, in medicina, nella pianificazione dell’assettodel territorio e nelle Scienze economiche.

Nella sua formulazione generale, si indicano con FX(t) e FY (t) le funzioni di dis-tribuzione (incognite) della popolazione da cui sono stati estratti i due campioni, esi effettua un test assumendo le ipotesi:

H0 : FX(t) = FY (t) ∀ t ∈ IRH1 : FX(t) 6= FY (t) per almeno un t ∈ IR. (10.19)

Page 301: dispense di Probabilita' e Statistica

10.2 – Test di omogeneita 293

In questo paragrafo presenteremo dapprima alcuni test per la verifica di questeipotesi, concludendo con un test per il caso piu generale in cui il numero dei campionisia maggiore di due.

10.2.1 Test dei segni

Questo test e di facile esecuzione, ma si applica solo quando i due campioni X =(X1, . . . , Xn) e Y = (Y1, . . . , Yn) hanno la stessa numerosita.

Formate le n coppie (Xi, Yi), indichiamo con n+ la frequenza assoluta delle coppie incui la differenza Xi− Yi ha segno positivo; con n− quella delle coppie in cui Xi− Yi

ha segno negativo; e con n0 la frequenza delle coppie in cui Xi = Yi. Consideriamoquindi la statistica

Sn = n+ − n− (10.20)

effettuata sulle (n − n0) coppie in cui Xi 6= Yi. Se H0 e vera, le distribuzionicampionarie di n+ ed n− sono uguali, e per (n−n0) sufficientemente grande (per es.circa maggiore di 10) si approssimano con leggi normali aventi media (n − n0)/2 evarianza (n−n0)/4, che si ricavano applicando la (7.21). Di conseguenza, la statisticaSn ha anch’essa distribuzione normale, con media nulla e varianza σ2

n = (n− n0)/2che e data dalla somma delle varianze di n+, n− (si applichi la (3.8) al caso di unadifferenza di variabili aleatorie).

Fissato un livello di significativita α, potremo allora procedere a un test bidirezionalesu Sn per verificare, con la procedura gia esposta nel §8.2, se il suo valore empiricosn e sufficientemente piccolo. Questo test dei segni si effettua definendo la regionecritica

C = (−∞,−σnz1−α) ∪ (σnz1−α, +∞)

dove z1−α e il coefficiente fiduciario della Normale standardizzata per cui erf(z1−α) =(1−α)/2. Al livello di significativita α, dovremo dunque accettare H0, concludendoche i campioni X e Y sono omogenei (vale a dire: la distribuzione della popolazionenon e variata), se il valore empirico della statistica Sn soddisfa la condizione:

|sn| <√

n− n0

2· z1−α. (10.21)

E’ bene osservare che per la verifica dell’ipotesi nulla questo test si avvale di unacondizione piuttosto debole, ossia che la distribuzione di Sn abbia mediana nulla.Questa e certamente una condizione necessaria perche H0 sia vera, ma non certosufficiente per affermare che i due campioni provengono da popolazioni ugualmentedistribuite per ogni z ∈ IR. In questo senso, il test non sfrutta in modo efficientele informazioni fornite dal campione, e deve essere utilizzato per la sua praticitasoltanto nella fase preliminare di uno studio statistico che potra avere bisogno diapprofondimenti.

Esempio 10.6

Page 302: dispense di Probabilita' e Statistica

294 TEST DI IPOTESI NON PARAMETRICHE

Si effettuano in tempi diversi n = 15 osservazioni del medesimo carattere di unapopolazione, ricavandone i due seguenti campioni statisticamente indipendenti:

X = (−0.3928, 0.9974, 0.1714, 0.9272, 2.54, −0.2092, 1.106,

1.713, 1.074, 0.2084, 0.3239, 2.08, 1.148, −0.1413, 0.8863)Y = (0.8939, 2.62, −0.573, −0.5187, 0.5972, 0.5954, −0.0836, (10.22)

1.459, 1.074, 1.921, 0.273, 1.952, 1.242, 0.4507, 0.2178).

Dal confronto delle osservazioni risultanti dai due campioni si puo affermare che essisono stati estratti da popolazioni con la medesima distribuzione ?

Eseguiamo un test dei segni calcolando le differenze Xi − Yi. Esse valgono:

(−1.2867, −1.6226, 0.7444, 1.4459, 1.9428, −0.8046, 1.1896,0.254, 0, −1.7126, 0.0509, 0.128, −0.094, −0.592, 0.6685)

per cui si ricava:

n+ = 8, n− = 6, n0 = 1, sn = 2.

-5 0 5-1 1 2 3 4-2-3-4

0.4

0.2

0t

f (t)

f (t)

X

Y

Figura 10.2 - Confronto tra le densita di probabilita teoriche di X e Y.

Fissato un livello di significativita α = 0.05, il coefficiente fiduciario che si ricavadalla Tabella di erf(z) vale z1−α = 1.96, e l’ipotesi nulla che FX(t) = FY (t) e daaccettare se sn verifica la condizione

|sn| <√

15− 12

· 1.96 = 5.1856.

Poiche il valore empirico calcolato e sn = 2 si deve concludere, accettando un erroredi prima specie del 5%, che la popolazione da cui sono stati estratti i due campioniha la medesima distribuzione.

In realta, per definire i dati di questo Esempio i due campioni sono stati generatida un computer nel modo seguente: X e un campione casuale estratto da una

Page 303: dispense di Probabilita' e Statistica

10.2 – Test di omogeneita 295

popolazione normale con media 0.8 e varianza 1, mentre Y e stato estratto da unapopolazione con legge parabolica (cfr. §2.3.11) nell’intervallo [−1, 3]. Dal confrontotra le due densita teoriche fX(t) e fY (t), mostrato in Fig. 10.2, risulta evidentela diversita, soprattutto qualitativa, tra le due distribuzioni. Si puo pero anchesostenere che esse “grossolanamente si somigliano”, nel senso che concentrano granparte delle masse di probabilita nello stesso intervallo dell’asse reale: e questo e, indefinitiva, il responso che e in grado di fornire il test che abbiamo appena effettuato.

10.2.2 Test dei ranghi

Esiste una classe speciale di test, che sono stati proposti per effettuare la statistica suuno o piu caratteri qualitativi della popolazione, che sono definibili in termini di unaqualche relazione tra le osservazioni effettuate anziche dal loro valore numerico. Essiprendono il nome di test dei ranghi, perche le osservazioni sono ordinate secondo undeterminato criterio di preferenza, e la posizione che ciascun dato assume in questasequenza e chiamata rango della osservazione.

Un test sui ranghi puo avere per oggetto, come caso particolare, anche campionidi caratteri quantitativi, e quello elaborato da Wilcoxon per verificare l’ipotesi diomogeneita (10.19) pur essendo semplice come quello dei segni, ha il vantaggio,rispetto a quest’ultimo, di essere applicabile a campioni con differente numerosita.

Siano X = (X1, . . . , Xn) e Y = (Y1, . . . , Ym) due campioni indipendenti di nu-merosita n ed m, estratti con le solite modalita da una popolazione. Si procedeordinando in un’unica sequenza crescente gli n + m dati provenienti dai due campi-oni, e si associa a ciascun dato il suo rango, definito dal numero d’ordine che essooccupa nella sequenza cosı ordinata. Se alcuni dati si ripetono due o piu volte, il lororango e la media delle posizioni da essi occupate nella sequenza ordinata. Chiamaterispettivamente con SX ed SY le somme dei ranghi degli elementi Xi, Yj dei duecampioni, si considera quindi la statistica

U = minUX , UY (10.23)

in cuiUX = nm +

n(n + 1)2

− SX , UY = nm +m(m + 1)

2− SY .

E’ stato dimostrato da Wilcoxon che se l’ipotesi nulla (10.19) e vera, per n,m →+∞ la statistica (10.23) tende alla distribuzione normale con media µU = nm/2 evarianza σ2

U = nm(n + m + 1)/12. Questa sua proprieta asintotica puo gia essereutilizzata se n,m ≥ 4 con n + m ≥ 20, e sotto queste condizioni fornisce una buonaapprossimazione della regione critica per un test bidirezionale sulla corrispondentestatistica normalizzata:

Zn,m =U − nm/2√

nm(n + m + 1)/12(10.23′)

che sotto l’ipotesi H0 vera deve avere media pressoche nulla. Infatti, se z1−α e ilcoefficiente fiduciario al livello α della distribuzione Normale standard, la regione

Page 304: dispense di Probabilita' e Statistica

296 TEST DI IPOTESI NON PARAMETRICHE

critica del test e C = (−∞, z1−α) ∪ (z1−α, +∞) e di conseguenza l’ipotesi nulla e daaccettare se il valore empirico zn,m della statistica (10.23’) soddisfa la condizione:

|zn,m| < z1−α.

Esempio 10.7

Per illustrare una applicazione del test dei ranghi utilizziamo ancora le osservazioniricavate dai campioni (10.22) dell’Esempio precedente, ma per sfruttare l’arbitrarietasulla scelta del numero di osservazioni che possono essere fornite dai due campioni,supponiamo ora che X contenga questi 5 ulteriori dati:

0.92, 1.2, 0.566, 0.422, 0.962

in modo che la numerosita del campione X diventa n = 20, e quella di Y rimanem = 15.

Disponiamo i 35 dati campionari in una sequenza ordinata crescente, che e riprodottanella Tabella 10.5 insieme con la indicazione del campione da cui i dati provengonoe del rango da attribuire a ciascun dato. La somma dei ranghi delle osservazionifornite dai due campioni e rispettivamente SX = 361.5 e SY = 268.5 (si noti chedeve risultare: SX + SY = nm), da cui si ottiene: UX = 148.5 e UY = 151.5.

dato campione rango

-0,5730 Y 1

-0,5187 Y 2

-0,3928 X 3

-0,2092 X 4

-0,1413 X 5

-0,0836 Y 6

0,1714 X 7

0,2084 X 8

0,2178 Y 9

0,2730 Y 10

0,3239 X 11

0,4220 X 12

dato campione rango

0,4507 Y 13

0,5660 X 14

0,5954 Y 15

0,5972 Y 16

0,8863 X 17

0,8939 Y 18

0,9200 X 19

0,9272 X 20

0,9620 X 21

0,9974 X 22

1,0740 X 23,5

1,0740 Y 23,5

dato campione rango

1,1060 X 25

1,1480 X 26

1,2000 X 27

1,2420 Y 28

1,4590 Y 29

1,7130 X 30

1,9210 Y 31

1,9520 Y 32

2,0800 X 33

2,5400 X 34

2,6200 Y 35

TABELLA 10.5

Se H0 e vera, la distribuzione della statistica U definita con la (10.23) e approssima-bile con una Normale con media µU = nm/2 = 150 e varianza σ2

U = 900; il suo valoreempirico risulta: minUX , UY = 148.5, e ad esso corrisponde un valore empirico

zn,m =148.5− 150

30= −0.05

della variabile standardizzata Zn,m definita nella (10.23’).

Page 305: dispense di Probabilita' e Statistica

10.2 – Test di omogeneita 297

Al livello di significativita α = 0.05, il valore assoluto di zn,m e minore del coeffi-ciente fiduciario z1−α ≡ z0.95 = 1.645 e di conseguenza, tenuto anche conto che lanumerosita dei due campioni e maggiore di 4 con n + m > 20, il test dei ranghi siconclude nell’accettare l’ipotesi nulla H0 : FX(t) = FY (t).

10.2.3 Test di Smirnov

E’ una estensione del test di Kolmogorov-Smirnov, esposto nel §10.1.1, per la veri-fica di ipotesi di omogeneita del tipo (10.19) riguardanti una coppia di funzioni didistribuzione continue FX(t) e FY (t).

Questo test si basa sulla statistica

Dn,m = sup−∞<t<+∞

|Fn,X(t)− Fm,Y (t)| (10.24)

dove Fn,X(t) e Fm,Y (t) sono le funzioni di distribuzione empiriche (10.4) costruitecon due campioni X, Y rispettivamente di numerosita n ed m.

0

-0.25

1 2 3 t

F (t)m,Y

F (t)m,Y

F (t)n,X

F (t)n,X0.25

0.50

0.75

1.00

-1 0

Figura 10.3 - Distribuzioni empiriche di X, Y e loro differenza.

Al crescere di n,m queste due distribuzioni empiriche sono stime ottime delle cor-rispondenti funzioni di distribuzione teoriche FX(t), FY (t) delle popolazioni da cuisono estratti i due campioni. Se l’ipotesi nulla (10.19) e vera, ne segue che per n edm sono sufficientemente grandi la statistica Dn,m non si scosta praticamente da zero,ed H0 e da accettare se il valore empirico dn,m della statistica (10.24) non superaun certo valore limite, prescritto dal livello di significativita scelto.

Questo valore limite e fornito da una proprieta asintotica di Dn,m analoga a quelladella statistica (10.5), e dimostrata da un Teorema dovuto a Smirnov. Da essosi deduce la regola seguente: indipendentemente dalla forma delle funzioni di dis-tribuzione (continue) da confrontare, l’ipotesi H0 di omogeneita e da accettare al

Page 306: dispense di Probabilita' e Statistica

298 TEST DI IPOTESI NON PARAMETRICHE

livello di significativita α se, per n,m sufficientemente grandi e verificata la con-dizione:

dn,m <

√n + m

nm· λα (10.25)

dove λα e il coefficiente fiduciario gia utilizzato per il test di Kolmogorov del §10.1.1.

Esempio 10.8

Eseguiamo il test di omogeneita di Smirnov sui due campioni X e Y gia utilizzatinell’Esempio precedente 10.7. Le distribuzioni empiriche dei due campioni sono lefunzioni definite nella (10.4) con t al posto di x: sono funzioni a scalino costante(rispettivamente uguale a 1/20 e 1/15) nei punti xi ed yi che si leggono nelle primecolonne della Tabella 10.5.

Il loro grafico, insieme con quello delle differenze Fn,X(t)−Fm,Y (t), e riportato nellaFig. 10.3. Il massimo di queste differenze vale dn,m = 0.1833, e poiche al livello disignificativita α = 0.05 si ha λα = 1.3581 (cfr. §10.1.1), risulta:

dn,m = 0.1833 <

√35300

· 1.3581 = 0.46388.

La condizione (10.25) e dunque soddisfatta, per cui anche con questo test l’ipotesinulla sulla omogeneita dei due campioni e da accettare al livello prescritto.

10.2.4 Test Chi-quadrato di omogeneita per piu campioni

Questo metodo e assai generale, perche si puo usare per verificare l’omogeneita di unnumero finito qualsiasi M di campioni, estratti da una popolazione il cui carattereX puo assumere valori reali sia discreti che continui.

Se X(ω) e una variabile aleatoria discreta, indichiamo con xk, k = 1, . . . , m i suoi mvalori che possono essere registrati nelle osservazioni campionarie; se X(ω) e continuae il numero delle osservazioni e molto elevato, suddividiamo come di consueto in mclassi ∆k l’insieme ∆ ⊆ IRdelle sue modalita, e chiamiamo con “k-esima realizzazionedi X(ω)” la generica osservazione campionaria che cade nella classe ∆k.

Supponiamo ora di avere a disposizione un numero M di campioni Xj , j = 1, . . . ,Mestratti con procedure statisticamente indipendenti dalla medesima popolazione, cia-scuno con numerosita differente, che indichiamo con nj . Analizzando questi campi-oni, determiniamo la frequenza assoluta nkj della k-esima realizzazione nel j-esimocampione, in modo che, sommando su tutte le osservazioni di ogni singolo campione,si avra tra l’altro:

j = 1, . . . , N :m∑

k=1

nkj = nj = numerosita del campione Xj ,

e sommando anche rispetto ai vari campioni risulta:

M∑

j=1

m∑

k=1

nkj =M∑

j=1

nj = N = numero totale delle osservazioni.

Page 307: dispense di Probabilita' e Statistica

10.2 – Test di omogeneita 299

Poiche si vuole verificare l’ipotesi H0 che tutte le osservazioni siano state tratte dallamedesima popolazione, questa ipotesi si precisa ora imponendo che

j = 1, . . . ,M :1nj

(n1j , . . . , nmj) = (p01, . . . , p

0m) = p0,

ossia che le frequenze relative di ogni k-esima realizzazione siano uguali in tutti icampioni, e definite da un valore comune (ma per ora incognito) p0

k il quale formaun insieme di probabilita p0 tale che p0

1 + . . . + p0m = 1.

Seguendo il metodo Chi-quadrato, come misura delle deviazioni esistenti tra le os-servazioni campionarie e i loro valori teorici assumiamo la seguente statistica:

TN (p0) =M∑

j=1

m∑

k=1

(nkj − njp0k)

2

njp0k

. (10.26)

Se non si assume nessun modello statistico per la popolazione, le probabilita teoricheda cui questa statistica dipende devono essere stimate con il metodo di massimaverosimiglianza, sulla base di tutte le informazioni fornite dai campioni in nostropossesso. Questa stima fornisce il seguente risultato:

k = 1, . . . , m : p0k =

nk

N=

1N

M∑

j=1

nkj

dove nk e il numero totale delle osservazioni del dato xk che risultano negli Mcampioni. Usando queste stime si puo ora calcolare la statistica

TN (p0) = NM∑

j=1

m∑

k=1

(nkj − njnk/N)2

njnk= N

M∑

j=1

m∑

k=1

n2kj

njnk− 1

(10.26′)

e verificare se il suo valore empirico tN cade nella regione critica del test.

Questa regione critica e ancora definita dalla (10.8), ma con χ1−α che ora e il quantiledi ordine (1−α) della distribuzione Chi-quadrato con (m−1)(M−1) gradi di liberta,e la regola di accettazione dell’ipotesi nulla sulla omogeneita dei campioni consistenel verificare che la statistica (10.25’) soddisfi la condizione:

tN < χ1−α con (m− 1)(M − 1) gradi di liberta. (10.27)

Ricordiamo che la statistica (10.26’) e utilizzabile se non e stato scelto un modellostatistico teorico per la popolazione da studiare. Se invece questo modello si presup-pone noto, allora l’ipotesi nulla sara specificata da probabilita del tipo p0

k(ϑ), doveϑ e un insieme di r parametri incogniti del modello adottato. Per ricavare le stimedi questi parametri incogniti, occorrera considerare l’insieme di tutti i dati come ununico campione con frequenze assolute nk, k = 1, . . . , m e su di esso determinarela stima di massima verosimiglianza ϑ. Una volta note, queste stime consentono di

Page 308: dispense di Probabilita' e Statistica

300 TEST DI IPOTESI NON PARAMETRICHE

determinare le probabilita p0k(ϑ) che a loro volta, sostituite nella (10.26), forniscono

la statistica:

TN [p0(ϑ)] =M∑

j=1

m∑

k=1

[nkj − njp0k(ϑ)]2

njp0k(ϑ)

. (10.28)

In tal caso, per accettare l’ipotesi nulla e richiesto che il valore empirico della (10.27)sia minore del quantile della distribuzione Chi-quadrato con (m− 1)M − r gradi diliberta, dove r e il numero dei parametri incogniti nella distribuzione teorica.

Un caso speciale di notevole rilevanza per le applicazioni sia ha quando m = 2,ed e relativo a problemi in cui il carattere della popolazione ha due sole modalita(vero/falso, in/out,...) rappresentabili, in generale, da due eventi A e B = Ω\Aincompatibili ed esaustivi dello spazio campione Ω. L’ipotesi nulla sulla omogeneitadi M campioni estratti da questa popolazione consiste in tal caso nella affermazione(da verificare) che l’evento A abbia la medesima probabilita di realizzarsi in tuttigli M campioni. Indichiamo per semplicita di scrittura con pA questa probabilitateorica. Se H0 e vera, la sua stima si effettua calcolando la frequenza relativadell’evento A nell’insieme degli N dati forniti da tutti i campioni, e vale

pA =1N

M∑

j=1

nAj =nA

N

dove abbiamo indicato con nAj il numero di realizzazioni da A nel j-esimo campione,e con nA il numero totale di realizzazioni da A. La probabilita teorica dell’evento Bsara di conseguenza

pB = 1− pA = 1− nA

N,

mentre, per gli assiomi della probabilita, il numero nBj di realizzazioni di B neisingoli campioni sara tale che

nAj + nBj = nj , j = 1, . . . ,M ; nA + nB =M∑

j=1

nAj +M∑

j=1

nBj =M∑

j=1

nj = N.

Inserendo allora p01 = pA e p0

2 = pB nella (10.26), dopo alcuni calcoli si ricava unaespressione assai comoda della statistica da usare in questo speciale problema. Essasi puo scrivere:

TN (nA) =N

N − nA

N

nA

M∑

j=1

n2Aj

nj− nA

(10.29)

e per calcolare il suo valore empirico occorre semplicemente inserirvi il numero dellerealizzioni di A rilevate nei singoli campioni. Per la condizione (10.27), l’ipotesi sullaomogeneita dei campioni sara da accettare se questo valore empirico e minore delquantile della distribuzione Chi-quadrato con M − 1 gradi di liberta.

Esempio 10.9

Page 309: dispense di Probabilita' e Statistica

10.2 – Test di omogeneita 301

Si vuole studiare l’omogeneita di M = 4 campioni estratti in tempi diversi da unapopolazione il cui carattere ha m = 21 modalita possibili, che si conviene di indicareprogressivamente con gli interi k = 1, . . . , 21.

Numeriamo i campioni j = 1, . . . , 4 in ordine cronologico, e riportiamo le frequenzeassolute delle realizzazioni rilevate nei vari campioni come indicato nella Tabella10.6. Se calcoliamo le loro somme “in orizzontale” rispetto ai quattro campioni,otteniamo le frequenze totali nk della realizzazione k, indicate nella quinta colonnadella stessa Tabella; e se le sommiamo “in verticale” rispetto all’indice k, ricaviamole numerosita nj dei singoli campioni che sono riportate nell’ultima riga. Ne risultaun numero totale di N = 506 osservazioni.

Se e vera l’ipotesi H0 che i quattro campioni sono stati estratti dalla stessa popo-lazione, le probabilita teoriche di ciascuna realizzazione sono date da p0

k = nk/506,e sono riportate nell’ultima colonna.

Per verificare questa ipotesi, calcoliamo il valore empirico della statistica (10.26’) coni dati della Tabella, e confrontiamolo con i quantili della distribuzione Chi-quadratocon 20 · 3 = 60 gradi di liberta. Si ricava: t506 = 160.97, che e maggiore dei quantilidella distribuzione Chi-quadrato con ν = 60 riportati in Appendice. Dunque none soddisfatta la condizione (10.27), e concludiamo che i quattro campioni non sonoomogenei, ossia che la popolazione da cui sono stati estratti ha modificato la suadistribuzione probabilistica.

In effetti, si puo notare dalla Tabella 10.6 che in ciascun campione le frequenze delleosservazioni non variano con la stessa legge al crescere di k, e cio vale soprattuttoper il campione j = 4 che mostra frequenze piu elevate per grandi valori di k.

Per convalidare questa osservazione, rifacciamo il test escludendo quest’ultimo cam-pione, vale a dire analizzando le 362 osservazioni risultanti dai primi tre. Il valoreempirico della statistica (10.26’) risulta allora: t362 = 65.67 ed e minore del quantileχ0.995 = 66.8 della distribuzione Chi-quadrato con 2 · 20 = 40 gradi di liberta. Ciosignifica che, almeno al livello di significativita α = 0.005, e da accettare l’ipotesinulla di omogeneita dei primi tre campioni, e con lo stesso rischio di prima specie sideve concludere che la popolazione ha modificato la sua distribuzione teorica dopol’estrazione del terzo campione e prima dell’estrazione del quarto. /

Esempio 10.10

Per effettuare un controllo di qualita nella produzione di un determinato oggetto,si esaminano quattro campioni indipendenti, estratti a caso dalla popolazione deglioggetti prodotti quotidianamente. Le numerosita dei campioni sono:

n1 = 119, n2 = 113, n3 = 93, n4 = 147. (10.30′)

Indicato con A l’evento: “produzione di un esemplare difettoso”, si rilevano le fre-quenze assolute nAj , j = 1, . . . , 4 degli elementi difettosi in ciascun campione. Essesono:

nA1 = 7, nA2 = 13, nA3 = 5, nA4 = 15. (10.30”)

Si vuole effettuare un test di omogeneita sui campioni, per verificare se e variata inmodo apprezzabile la probabilita di produzione di oggetti difettosi.

Page 310: dispense di Probabilita' e Statistica

302 TEST DI IPOTESI NON PARAMETRICHE

k

123456789

101112131415161718192021

n

31179149065204313201000

k1 n

2715119175168426543060211

k2 n

915142115219010875654020312

k3 n

481250960148012151410764532

k4 n

1841484638562022372292729242091451056

k

0,03560,08100,09490,09090,07510,11070,03950,04350,07310,04350,01780,05340,05730,04740,03950,01780,02770,00990,01980,00990,0119

kp 0

n = 80 125 157 144 N = 506 1,0000j

TABELLA 10.6

Il numero totale degli oggetti difettosi osservati e nA = 40, e il numero totale deglioggetti osservati e N = 492. Assumiamo l’ipotesi nulla H0 che la frequenza relativadegli elementi difettosi sia inalterata: essa e descritta da una probabilita teoricapA = 40/492 = 0.0813, e da una probabilita di elementi non difettosi che vale1− pA = 0.9187.

Per procedere al test Chi-quadrato di omogeneita e sufficiente usare le (??), cheintrodotte nella statistica (10.29) forniscono il valore empirico: t492 = 3.077. Allivello di significativita α = 0.10, il quantile χ0.9 della distribuzione Chi-quadratocon 1 · 3 = 3 gradi di liberta vale 6.25, ed e maggiore di t492. Dunque, con un rischiodi prima specie del 10% si deve accettare H0, concludendo che la percentuale diprodotti difettosi e rimasta invariata.

Page 311: dispense di Probabilita' e Statistica

10.3 – Test di indipendenza 303

10.3 Test di indipendenza

Nelle applicazioni si pone di frequente il problema di verificare se due caratteri X,Ydi una popolazione sono statisticamente indipendenti. Supponiamo che i due carat-teri siano stati osservati in modo da disporre di un campione casuale bidimensionale(X1, Y1), . . . , (Xn, Yn) di numerosita n. Ricordando la definizione di variabili causaliindipendenti data nel §3.1.3, un test di indipendenza deve consistere nella verificadella ipotesi nulla:

H0 : FXY (x, y) = FX(x)FY (y) (10.30)

dove FX,Y e la funzione di distribuzione congiunta della dei caratteri aleatori (X,Y),ed FX(x), FY (y) sono le rispettive distribuzioni marginali. Il test piu usato percompiere tale verifica si basa sul metodo Chi-quadrato gia applicato nei paragrafiprecedenti, e si sviluppa come segue.

10.3.1 Test Chi-quadrato di indipendenza

Il metodo si applica a generici modelli discreti con un numero finito di realizzazioni.Cio significa che i caratteri X e Y possono avere modalita rappresentabili con:

• variabili casuali discrete, che assumono rispettivamente valori (X1, X2, . . . , XmX )e (Y1, Y2, . . . , YmY ), oppure:

• variabili aleatorie continue, in cui il supporto di X (anche l’intero asse reale)sia preventivamente suddiviso in mX intervalli o classi ∆(X)

h , h = 1, . . . , mX equello di Y in mY intervalli ∆(Y )

k , k = 1, . . . , mY .

Indichiamo con nhk il numero delle coppie osservate in cui

(Xi, Yi) : Xi ∈ ∆(X)h , Yi ∈ ∆(Y )

k

aventi cioe dati che sono contenuti nel rettangolo ∆(X)h × ∆(Y )

k . Queste frequenzeassolute sono tali che:

mX∑

h=1

nhk = nk ;mY∑

k=1

nhk = nh ;mX∑

h=1

mY∑

k=1

nhk = n

dove le nh (e rispettivamente le nk) sono frequenze assolute marginali, uguali alnumero delle coppie aventi un dato Xi che appartiene all’intervallo ∆(X)

h (oppure undato Yi che appartiene all’intervallo ∆(Y )

k ). Se l’ipotesi nulla (10.30) e vera, esistonocertamente mX + mY costanti p0

h, p0k ∈ [0, 1] tali che

p0hk = IP[(X ∈ ∆(X)

h ) ∪ (Y ∈ ∆(Y )k )] = p0

h · p0k, h = 1, . . . , mX , k = 1, . . . , mY ,

Page 312: dispense di Probabilita' e Statistica

304 TEST DI IPOTESI NON PARAMETRICHE

e la loro stima di massima verosimiglianza, per ogni indice h, k e:

p0h =

nh

n, p0

k =nk

n.

Dunque se H0 e vera, ricordando che il rapporto nhk/n e la frequenza relativa con-giunta delle osservazioni che cadono nel rettangolo ∆X

h ×∆Yk , si deduce che le dif-

ferenze:nhk

n− p0

h · p0k =

1n

(nhk − nhnk

n

)

dovrebbero essere sufficientemente piccole in valore assoluto. Seguendo il metodoChi-quadrato si considera percio la statistica

Tn(p0) = nmX∑

h=1

mY∑

k=1

(nhk − nhnk/n)2

nhnk= n

(mX∑

h=1

mY∑

k=1

n2hk

nhnk− 1

)(10.31)

che per nhk sufficientemente grandi ha una distribuzione Chi-quadrato con (mXmY −1−r) gradi di liberta, dove r e il numero dei parametri indipendenti da stimare nellaipotesi che H0 sia vera. Gli (mX +mY ) parametri p0

h, p0k appena stimati sono legati,

per il primo assioma delle probabilita, dalle due condizioni:mX∑

h=1

p0h =

mY∑

k=1

p0k = 1 ,

per cui solo r = mX+mY −2 sono indipendenti, e i gradi di liberta della distribuzionedi Tn(p0) risultano: mXmY − 1− (mX + mY − 2) = (mX − 1)(mY − 1). La regoladel test e pertanto la seguente.

. Al livello di significativita α, l’ipotesi nulla (10.30) e da rifiutare se e solo se ilvalore empirico tn della statistica (10.31) soddisfa, per nhk sufficientemente grandi(> 5 circa per ogni h, k), la condizione:

tn ≥ χ1−α

dove χ1−α e il quantile della distribuzione Chi-quadrato con (mX−1)(mY −1) gradidi liberta.

Esempio 10.11

Una casa automobilistica vuole verificare se il colore della carrozzeria scelto dagliacquirenti delle proprie vetture a benzina e statisticamente indipendente dal parti-colare tipo di modello acquistato.

Indichiamo con X il carattere: “ modello di autovettura”, e suddividiamo l’interaproduzione in mX = 5 classi, comprendenti nell’ordine i modelli del segmento

1 : utilitario; 2 : medio-basso; 3 : medio; 4 : medio-alto; 5 : alto.

Indichiamo poi con Y il carattere “ colore della carrozzeria” che raggruppiamo inmY = 6 classi:

1 : blu; 2 : grigio; 3 : nero; 4 : verde; 5 : rosso; 6 : giallo e altri.

Page 313: dispense di Probabilita' e Statistica

10.3 – Test di indipendenza 305

modello

utilitario

medio-basso

medio

medio-alto

alto

h

1

2

3

4

5

42

58

66

32

12

55

32

48

52

21

7

5

12

8

9

32

40

35

21

6

26

31

24

8

11

28

33

19

10

5

190

199

204

131

64

n = 210 208 41 134 100 95 n = 788

k = 1 2 3 4 5 6

blu grigio nero verde rosso giallo etc.n

h

k

TABELLA 10.7

Da un’indagine sulle vendite effettuate da alcuni concessionari in un determinatoperiodo dell’anno risulta un campione di n = 788 coppie di osservazioni, le cuifrequenze congiunte sono riassumibili con una tabella di contingenza a due entrateche ha l’aspetto della Tabella 10.7.

Essa contiene tutti gli elementi necessari per calcolare il valore empirico della stati-stica (10.31) che risulta: tn = 58.07. Secondo la regola del test Chi-quadrato, questovalore e da confrontare con i quantili della distribuzione con 4 · 5 = 20 gradi diliberta riportati nella Tabella in Appendice. Si riconosce facilmente che tn > χ1−α

per qualsiasi livello di significativita α, per cui si deve concludere che l’ipotesi diindipendenza statistica tra i due caratteri non e consistente con i dati osservati.

L’unico svantaggio di questo test di indipendenza consiste nel fatto che necessitadi campioni bidimensionali con numerosita elevata, in grado di produrre frequenzecongiunte nhk per lo meno maggiori o uguali a 5 per ogni indice h e k delle classiutilizzate. Se non e disponibile un campione di questa natura, nemmeno modificandola scelta delle classi ∆(X)

h e ∆(Y )k , ci si deve accontentare di un altro tipo di test dei

ranghi: quello sul coefficiente di correlazione di Spearman che pero fornisce soltantouna condizione necessaria, ma non sufficiente, per l’indipendenza della coppia (X,Y ).

10.3.2 Test di Spearman

Il coefficiente di correlazione dei ranghi di Spearman, che indicheremo con RS , euna semplificazione dell’analogo coefficiente Rn di correlazione lineare di Pearsondefinito nella (9.31), che e stato usato nel Capitolo 9 per effettuare un test paramet-rico sulla incorrelazione dei caratteri X, Y da cui si estrae un campione bidimen-sionale (Xk, Yk) di numerosita n.

Il test che si basa su questo nuovo coefficiente non e pero considerato un test parame-trico, perche utilizza non gia i valori effettivi Xk, Yk dei dati del campione, bensı piu

Page 314: dispense di Probabilita' e Statistica

306 TEST DI IPOTESI NON PARAMETRICHE

semplicemente i loro ranghi, ossia la posizione che ciascun dato viene ad occupare inuna delle due sequenze ordinate di tutte le osservazioni Xk e di tutte le osservazioniYk (cfr. anche §10.2.2).

Se indichiamo con

dk = rango(Xk)− rango(Yk), k = 1, . . . , n

la differenza tra i ranghi occupati dai due elementi di ciascuna coppia di osservazioni,il coefficiente di correlazione di Spearman e la statistica

RS = 1− 6n(n2 − 1)

n∑

k=1

dk ,

ed ha anch’esso la proprieta −1 ≤ RS ≤ 1. Precisamente, ha valori prossimi a +1se valori elevati di Xk sono accoppiati a valori elevati di Yk; e ha valori prossimi a−1 se gli Xk piu grandi si accoppiano agli Yk piu piccoli. Inoltre, sotto l’ipotesi H0

che i due caratteri siano incorrelati, si dimostra che il valor medio di RS e nullo, eper n ≥ 10 circa la distribuzione della statistica

TS = RS

√n− 2

1−R2S

(10.32)

e approssimabile con una t-Student con n− 2 gradi di liberta.

Ne deriva una regola di accettazione della ipotesi di incorrelazione che e del tuttoanaloga a quella utilizzata nel test parametrico del §9.4.3, ma che ora si riferisceal valore empirico tS della statistica sui ranghi (10.32) che si calcola molto piufacilmente della (9.23). Se risulta:

|tS | > t1−α/2 , (10.33)

si deve rifiutare l’ipotesi di incorrelazione, il che implica anche che e da rifiutarel’ipotesi (piu restrittiva) di indipendenza dei caratteri X ed Y .

Se invece la condizione (10.33) non e verificata, si deve accettare l’ipotesi nulla sullaincorrelazione (nel senso di Spearman) dei due caratteri. Tuttavia, cio non significache si possa accettare anche l’ipotesi (10.30) che essi siano statisticamente indipen-denti: per giungere a una conclusione in tal senso occorre una ulteriore verifica chedovra essere fatta con il precedente test Chi-quadrato.

Esempio 10.12

Per illustrare una semplice applicazione del test dei ranghi di Spearman riconsideria-mo il campione con numerosita n = 10 utilizzato nell’Esempio 6.3 per effettuare unaregressione quadratica del carattere Y su un carattere X della stessa popolazione.

Numerate in ordine crescente con l’indice k = 1, . . . , 10 le dieci coppie di dati,determiniamo il posto occupato da ciascun Xk nella sequenza ordinata di tutte leosservazioni del carattere X, e operiamo nello stesso modo per ricavare il rango delle

Page 315: dispense di Probabilita' e Statistica

10.4 – Test sulla casualita di un campione 307

k = 1 2 3 4 5 6 7 8 9 10

X 10 15 20 25 30 35 40 45 50 55

Y 37 27 31 27 36 44 45 51 62 66

rango(X ) 1 2 3 4 5 6 7 8 9 10

rango(Y ) 5 1,5 3 1,5 4 6 7 8 9 10

d - 4 0,5 0 2,5 1 0 0 0 0 0

k

k

k

k

k

TABELLA 10.8

Yk. Risultano i ranghi indicati nella Tabella 10.8 e le differenze dk che sono riportatenell’ultima riga. Si ricava facilmente:

10∑

k=1

dk = 23.5 ; rS = 1− 6 · 23.510 · 99

= 0.8575 ;

tS = 0.8575

√8

1− (0.8575)2= 4.7157.

Il valore empirico tS cosı calcolato e maggiore dei quantili della distribuzione t-Student con n−2 = 8 gradi di liberta, che sono riportati nella Tabella in Appendice.Poiche e soddisfatta la condizione (10.33), il test di Spearman porta a rifiutarel’ipotesi che i due caratteri siano incorrelati. Di conseguenza, si puo anche affermareche l’ipotesi di indipendenza tra X ed Y non e compatibile con i dati osservati.

10.4 Test sulla casualita di un campione

Concludiamo la rassegna dei test non parametrici esaminando i metodi atti a verifi-care se i dati campionari in nostro possesso costituiscano effettivamente un insiemedi informazioni statisticamente indipendenti.

I metodi statistici esposti in questo e nei precedenti Capitoli si basano tutti sulpresupposto che i campioni di cui disponiamo siano casualmente estratti da unapopolazione che mantiene uguali le proprieta probabilistiche dei suoi caratteri du-rante tutte le estrazioni effettuate per la raccolta delle osservazioni. Se un campionee veramente casuale, non ha alcuna importanza l’ordine temporale con cui e stataraccolta la sequenza di osservazioni campionarie.

Se pero i dati di un campione X = (X1, . . . , Xn) costituiscono una sequenza tem-porale, e sono stati raccolti in un arco di tempo ragionevolmente esteso, puo essercimotivo di ritenere che la sequenza delle osservazioni fatte non si comporti piu come

Page 316: dispense di Probabilita' e Statistica

308 TEST DI IPOTESI NON PARAMETRICHE

un insieme di n osservazioni statisticamente indipendenti, perche la popolazione puoaver subito modificazioni o fluttuazioni in qualche suo carattere, tali da compromet-tere la casualita delle osservazioni fatte.

Ad esempio, nel rilevamento del numero giornaliero di incidenti stradali in un trattodi strada statale ci si puo attendere una periodicita di sette giorni dovuta alla diversaentita del traffico nei vari giorni della settimana; i prezzi di molti prodotti stagionalivariano con regolarita durante l’anno, con la conseguenza che una statistica suiprezzi mensili mostrera variazioni periodiche ogni 12 osservazioni; e ancora: nelcampionamento di certe variabili economiche, effettuato con rilevamenti quotidiani,ci si puo attendere che molte di esse abbiano valori correlati in base all’andamentogiornaliero del mercato azionario.

Prima di effettuare tests statistici basati su osservazioni temporali di questo tipo,occorre verificare che il campione X sia effettivamente casuale. Pe la definizione diindipendenza statistica tra n variabili aleatorie Xk, l’insieme X e casuale se la suafunzione di distribuzione e il prodotto delle distribuzioni marginali, ossia

FX(x1, . . . , xn) = FX1(x1)FX2(x2) · · ·FXn(xn). (10.34)

E’ assai arduo definire in modo completo una statistica che consenta di verificare,con un prescritto livello di significativita, se e valida l’ipotesi (10.34). Ci si puo peroaccontentare di costruire tests di facile uso, che si basano sull’ordine temporale incui ciascun elemento del campione si realizza nelle ripetute osservazioni.

10.4.1 Test di correlazione seriale

La (10.34) implica che sia anche statisticamente indipendente qualsiasi sottoinsiemedi ν = 2, 3, . . . , n− 1 elementi di X, e in particolare ciascuna coppia di dati contigui(Xk, Xk+1) con k = 1, . . . , n − 1. Ne segue che un test sulla correlazione tra glielementi di queste coppie puo risultare efficace nella individuazione di quei campioniche non sono estratti casualmente dalla popolazione in esame.

Consideriamo dunque tutte le (n−1) coppie (Xk, Xk+1) di osservazioni contigue delcampione, alle quali aggiungiamo la coppia (Xn, X1) e definiamo la statistica

RX =n∑

k=1

(Xk −X)(Xk+1 −X)nS2

X

(10.35)

chiamata coefficiente di correlazione circolare della serie temporale (X1, . . . , Xn),avente media aritmetica X e varianza S2

X .

Il test non parametrico in questione si basa sul principio che se il campione e casuale,tutte le n! possibili permutazioni degli elementi della serie sono equiprobabili. Epoiche solo il numeratore dei termini a secondo membro nella (10.35) sono influenzatida permutazioni dei dati, e sufficiente studiare la distribuzione della statistica

RX =n∑

k=1

(Xk −X)(Xk+1 −X). (10.36)

Page 317: dispense di Probabilita' e Statistica

10.4 – Test sulla casualita di un campione 309

Riguardo a quest’ultima, si puo dimostrare che se il campione X e estratto casual-mente da una popolazione con distribuzione dotata di momenti finiti del primo esecondo ordine, allora RX ha una distribuzione che per n →∞ tende a una Normalecon valore atteso e varianza

ERX = − S2

n− 1, σ2RX =

S22 − S4

n− 1

dove:Sq = (X1 −X)q + (X2 −X)q + . . . + (Xn −X)q, q = 2, 4.

Se dunque usiamo la variabile standardizzata

ZX =RX − ERX

σRX, (10.37)

questa dovra assumere valori assoluti prossimi a zero, se e vera l’ipotesi H0 di casu-alita di un campione con numerosita elevata (almeno n = 10 circa).

La regola di questo test sulla casualita del campione e pertanto la seguente: ilcampione esaminato non puo considerarsi casuale, al livello di significativita α, se larealizzazione zX della statistica normalizzata (10.37) soddisfa la condizione

|zX | > z1−α/2

dove z1−α/2 e il quantile della distribuzione normale standard che esclude una codadi probabilita α/2, ossia tale che: 2erf(z1−α/2) = 1− α.

Esempio 10.13

Per 15 giorni consecutivi si rileva il numero dei passeggeri di nazionalita italiana cheutilizzano un certo volo di linea. Ne risulta il seguente campione:

16 18 14 21 19 15 24 20 16 12 23 20 17 14 19.

Si vuole verificare, al livello di significativita α = 0.05, se si tratta di un campioneestratto casualmente dalla popolazione dei passeggeri di quel volo.

La media aritmetica dei 15 valori osservati e X = 17.6 e il valore empirico dellastatistica (10.36) vale

RX = (16− 17.6)(18− 17.6) + . . . + (19− 17.6)(16− 17.6) = −34.26.

Per determinare il valore atteso e la varianza della distribuzione della statistica RX

calcoliamo ora le quantita S2, S4 che risultano:

S2 = (16− 17.6)2 + (18− 17.6)2 + . . . + (19− 17.6)2 = 165.73S4 = (16− 17.6)4 + (18− 17.6)4 + . . . + (19− 17.6)4 = 3974.62

da cui

ERX = −165.7314

= −11.8381, σ2RX =(165.73)2 − 3974.62

14= 1678.065.

Page 318: dispense di Probabilita' e Statistica

310 TEST DI IPOTESI NON PARAMETRICHE

Il valore empirico di ZX e pertanto

zX =−34.26 + 11.8381√

1678.065= −0.5475,

da confrontare con il quantile z0.975 = 1.96 della normale standard. Poiche |zX | =0.5475 < 1.96, si deduce che zX cade nella regione di accettazione del test, e siconclude che il campione e effettivamente casuale.

Si osservi che l’ordine in cui le osservazioni si dispongono nel campione e essenzialein questo test. Infatti, supponiamo che gli stessi dati siano disposti nel campionecon questa diversa sequenza temporale:

18 16 14 21 19 15 12 16 20 23 24 20 17 14 19.

Poiche la media aritmetica non cambia, sono pure invariate le quantita S2, S4 equindi anche il valor medio e la varianza della statistica RX . Tuttavia il suo valoreempirico e ora 71.73, e quello della statistica standardizzata vale zR = 2.04 > 1.96.Dunque, al medesimo livello di significativita risulta che il secondo campione nonsi puo considerare casuale. In effetti, vi si puo riconoscere una certa periodicitasettimanale dei dati con valore elevato, che compromette la casualita del campionee lo rende inutilizzabile se, ad esempio, si vuole studiare statisticamente la relazionetra il numero di passeggeri e qualche altro carattere della stessa popolazione che nonsia influenzato dal particolare giorno della settimana in cui e stato effettuato il volo.

10.4.2 Run test

Se le modalita del carattere X sono soltanto due, ogni estrazione consiste nella rea-lizzazione di uno tra due eventi dicotomici che indicheremo con A, B e il campioneche ne risulta e una successione del tipo:

AABBAABBBABBBAAAABBB . . . (10.38)

In tale campione, e chiamata run (malamente traducibile in italiano con il termine“pacchetto”) ogni successione di eventi identici, compresa tra due eventi ad essiincompatibili oppure insiemi vuoti. Per esempio, nel campione (10.38) ci sono 8runs, perche le n = 20 realizzazioni si presentano suddivise in 4 pacchetti di eventiA e 4 pacchetti di eventi B.

In tali campioni, un indicatore dell’ordine con cui A oppure B compaiono nellasequenza di n osservazioni e costituito dal numero totale U di runs presenti nel cam-pione. Ad esempio, un campione di numerosita n = 20 con 10 realizzazioni di A e10 realizzazioni di B puo avere un numero minimo di 2 runs (formati di pacchetti di10 eventi uguali e contigui), e un massimo di 20 runs (se A e B si alternano). Poichein entrambi i casi si e indotti a ritenere che le estrazioni effettuate non siano stati-sticamente indipendenti, il campione si potra considerare casuale solo se il numerodi runs in esso contenuti e assai diverso da questi due valori estremi.

Usiamo dunque la statistica U (anziche la (10.36)) per effettuare un semplice testsulla casualita di un campione di n osservazioni di un carattere dicotomico. Se esso

Page 319: dispense di Probabilita' e Statistica

10.4 – Test sulla casualita di un campione 311

contiene nA realizzazioni dell’evento A e nB dell’evento B, si puo dimostrare che alcrescere di nA ed nB la distribuzione campionaria di U e ben approssimata da unadistribuzione normale con valor medio e varianza che valgono:

EU = 1 +2nAnB

nA + nB, σ2

U =2nAnB(2nAnB − nA − nB)(nA + nB)2(nA + nB − 1)

.

Ne segue che per nA ed nB sufficientemente elevati (e comunque entrambi maggiori ouguali a 10) e possibile effettuare un test sulla casualita del campione determinandoil valore empirico zU della statistica standardizzata

ZU =U − EU

σU. (10.39)

Se questo e tale che |zU | > z1−α/2, si dovra dedurre che al livello di significativita αil campione non puo considerarsi casuale.

Il run test e anche usato spesso per verificare la casualita di campioni costituiti davalori numerici reali (x1, x2, . . . , xn). A tal fine, l’evento A si considera realizzato seuna osservazione xk e maggiore della mediana x, e l’evento B si intende realizzatose xk < x. Se qualche xk coincide con la mediana, viene eliminato dalla sequenza.Si ricava cosı una successione del tipo (10.38) alla quale si applica il metodo ap-pena esposto. I due esempi che seguono, tratti dal testo [5], illustrano due tipicheapplicazioni del metodo del run test ora descritto.

Esempio 10.14

Si controlla la qualita dei pezzi prodotti da una macchina, indicando con d la rile-vazione di un difetto, e con n l’esito favorevole del controllo. In un campione di 27estrazioni si rilevano 10 eventi d e 17 eventi n, cosı distribuiti in ordine di tempo:

n n n n n d d d d n n n n n n n n n n d d n n d d d d.

Si vuole verificare se il campione in esame e casuale, al livello di significativita 0.01.

Poiche nd = 10, nn = 17, la distribuzione campionaria del numero di runs ha valoreatteso e varianza:

EU = 1 +2 · 10 · 1710 + 17

= 13.59

σ2U =

2 · 10 · 17(2 · 10 · 17− 10− 17)(10 + 17)2(10 + 17− 1)

= 5.6169.

Il numero di runs nella sequenza e u = 6 (si noti che e molto minore del valoreatteso), e la statistica standardizzata (10.39) ha il valore empirico zU = −3.20.

Se si assume α = 0.01, la regione di accettazione del test ha come estremo superioreil quantile della distribuzione normale standard che soddisfa: erf(z0.995) = (1 −0.01)/2 = 0.495. L’esame della Tabella di erf(z) fornisce: z0.995 = 2.575 < |zU |,per cui si deve rifiutare l’ipotesi che i dati contigui nella serie campionaria sianoincorrelati. Se ne deduce che il campione non e casuale, perche il test porta adescludere che esso possa soddisfare la proprieta (10.34).

Page 320: dispense di Probabilita' e Statistica

312 TEST DI IPOTESI NON PARAMETRICHE

Esempio 10.15

40 successive misurazioni in pollici del diametro medio dei pezzi lavorati da un tornioautomatico forniscono le seguente serie statistica di dati xk:

0.261 0.258 0.249 0.251 0.247 0.256 0.250 0.247 0.255 0.2430.252 0.250 0.253 0.247 0.251 0.243 0.258 0.251 0.245 0.2500.248 0.252 0.254 0.250 0.247 0.253 0.251 0.246 0.249 0.2520.247 0.250 0.253 0.247 0.249 0.253 0.246 0.251 0.249 0.253.

Si vuole verificare, con un run test al livello α = 0.01, l’ipotesi H0 che questo campi-one sia casuale, oppure se si debba accettare l’ipotesi alternativa che le osservazionihanno evidenti fluttuazioni periodiche, che potrebbero essere addebitate a troppofrequenti messe a punto della macchina utensile.

Se ordiniamo per valori crescenti le osservazioni del campione, gli elementi centralivalgono 0.250: questo e percio anche il valore della mediana x della serie temporale.Escludendo le 5 osservazioni che coincidono con x = 0.250, i dati osservati dannoluogo, a seconda che il loro valore sia maggiore o minore della mediana, alla seguentesuccessione temporale di eventi A = xk > 0.250 e B = xk < 0.250:

AA B A B A B A B A A B AB A AB B A AB A A B B A B AB B A B AB A.

In questa sequenza si ha: nA = 19, nB = 16, u = 27, per cui la distribuzionecampionaria dei “pacchetti” di eventi ha valore atteso e varianza

EU = 1 +2 · 19 · 1619 + 16

= 18.37

σ2U =

2 · 19 · 16(2 · 19 · 16− 19− 16)(19 + 16)2(19 + 16− 1)

= 8.3521

e il valore empirico di ZU e

zU =27− 18.37√

8.3521= 2.98.

La regione di rifiuto del test e quella gia determinata nell’Esempio precedente:

C = (−∞,−2.575) ∪ (2.575, +∞)

e poiche zU vi appartiene, si deve concludere che il campione analizzato non e casuale.Visto che il numero di runs che esso contiene e molto maggiore del suo valore atteso,e ragionevole supporre che la macchina abbia subito aggiustamenti troppo frequenti.

Page 321: dispense di Probabilita' e Statistica

10.4 – Test sulla casualita di un campione 313

BIBLIOGRAFIA

1. Papoulis A., Probabilita, variabili aleatorie e processi stocastici, Boringhieri,Torino, 1973.

2. Ivchenko G. - Medvedev Y., Mathematical statistics, Mir, Moskow, 1990.

3. Vicario G. - Levi R., Statistica e probabilita per ingegneri, Progetto Leonardo,Bologna, 2001.

4. Pellerey F., Elementi di statistica per le applicazioni, Celid, Torino, 1998.

5. Johnson R.A., Miller and Freund’s Probability and Statistics for Engineers,Prentile Hall, Englewood Cliffs, New Jersey, 1994.

6. Hoel P.G., Introduction to mathematical statistics, Wiley, New York, 1984.

7. Fagnola F. - Pistone G., Primo semestre di probabilita, CLUT, Torino, 1996.

8. Baldi P., Calcolo delle probabilita e statistica, McGraw-Hill Italia, Milano,1992.

Page 322: dispense di Probabilita' e Statistica

314 TEST DI IPOTESI NON PARAMETRICHE

Page 323: dispense di Probabilita' e Statistica

APPENDICE

Tavole delle distribuzioni statistiche

Normale standard

t-Student

Poisson

Chi-quadrato

F (m,n) di Fisher

Dn di Kolmogorov-Smirnov

315

Page 324: dispense di Probabilita' e Statistica

316 APPENDICE

Page 325: dispense di Probabilita' e Statistica

Distribuzioni 317

Page 326: dispense di Probabilita' e Statistica

318 APPENDICED

istr

ibu

zio

ne

cum

ula

tiv

a d

i P

ois

son

F

(

,

)

xX

l

Page 327: dispense di Probabilita' e Statistica

Distribuzioni 319

Page 328: dispense di Probabilita' e Statistica

320 APPENDICE

Page 329: dispense di Probabilita' e Statistica

Distribuzioni 321

Page 330: dispense di Probabilita' e Statistica

322 APPENDICE