Nozioni di Statistica
Lorenzo Peretto
La statistica un metodo di indagine che permette di stimare, o inferire come si dice nel suo linguaggio, le
caratteristiche di una intera popolazione dallosservazione di quelle di un numero limitato di individui, naturalmente ad essa appartenenti, presi
come campione.
La Teoria delle Probabilit lo strumento matematico utilizzato a questo fine; essa permette di prevedere
quali saranno le caratteristiche di un campione estratto a caso da una popolazione nota.
La statistica permette di inferire, cio stimare o misurare, le caratteristiche ignote di una popolazione da quelle osservate in un campione.
La qualit della misura, cio la sua attendibilit, dipende sostanzialmente dalle modalit di prelievo del campione.
Popolazioni e campioni Affinch un campione estratto da una popolazione sia
significativo necessario che esso possieda, per quanto possibile, le stesse caratteristiche della
popolazione.
Per ottenere un campione significativo occorre fare in modo che ogni elemento della popolazione abbia la
stessa probabilit degli altri di essere estratto.
Se questa condizione soddisfatta il campione detto casuale ed ogni suo elemento una variabile
aleatoria con la stessa distribuzione della popolazione.
Nelle nostre applicazioni, ed in particolare nelle misure elettriche, la condizione di casualit del campione in genere realizzata senza che sia
necessario adottare particolari accorgimenti, ma non sempre.
Si pensi ad esempio al fenomeno detto aliasing che si verifica quando non viene rispettato il teorema del
campionamento.
Risulta invece necessario controllare che le condizioni in cui vengono ripetute le misure rimangano
sufficientemente costanti da poter considerare invariato il misurando, e quindi la popolazione dei risultati delle
misure.
Occorre inoltre verificare che lo strumento di misura non produca alterazioni del misurando o almeno che di esse
si tenga conto.
Stimatori
Da un campione significativo possibile ricavare, sia pure con una certa approssimazione, tutte le
informazioni relative ad una popolazione.
Spesso per ci basta conoscere soltanto il valore di alcuni parametri che caratterizzano la stessa quali ad
esempio la media e la dispersione intorno alla media indicata dalla deviazione standard
Si chiama stimatore di un parametro della popolazione la funzione dei valori campionari
utilizzata per misurare quel parametro.
Mentre i parametri della popolazione, che si indicano con lettere greche, sono delle costanti, i rispettivi stimatori, indicati con lettere latine, sono variabili
aleatorie essendo ricavati dal campione che, per come stato estratto, un vettore di variabili aleatorie.
Principali propriet degli stimatori
Uno stimatore si dice:
1. Corretto (unbiased) quando il suo valore medio coincide con il parametro da stimare; altrimenti si dice distorto (biased).
2. Asintoticamente corretto se il suo valore medio tende al valore del parametro al tendere allinfinito della numerosit del campione.
3. Consistente quando corretto e la sua varianza tende a zero al crescere della numerosit n del campione;
4. Pi efficiente di un altro quando approssima meglio il parametro a parit di n;
5. Efficiente quando pi efficiente di tutti.
Grafico RAMI FOGLIE Esempio: produzione di semiconduttori
Grafico RAMI - FOGLIE
Rami Foglie Frequenza
Definizioni:
Moda: determinazione a cui corrisponde la massima probabilit puntiforme (caso discreto) o la massima densit di probabilit (caso continuo)
Mediana: determinazione Me che soddisfa la seguente equazione:
Frattile (o quantile) di ordine p: determinazione xp per cui
La stima del valore medio
Lo stimatore pi usato per il valore medio della popolazione la media aritmetica m degli n valori
campionari:
Esso risulta uno stimatore consistente ed efficiente.
Ad esso, come si visto, si pu attribuire la varianza:
essendo 2 la varianza della popolazione.
Quando si devono mediare variabili con diversa dispersione pu convenire effettuare una media pesata
in modo da attribuire maggior peso ai valori meno dispersi.
Ad esempio conviene ricorrere ad una media pesata quando si deve stimare il valore medio da altri valori
medi ottenuti da campioni di diversa numerosit.
Detti xi e i2 i valori da mediare e le rispettive varianze, la media pesata vale:
essendo la condizione che rende corretto
lo stimatore m, mentre i pesi ai possono ad esempio essere presi di valore proporzionale allinverso della
varianza i2.
La stima della varianza
Se si conosce soltanto il valore stimato m della media della popolazione, uno stimatore corretto s2 della
varianza 2 della popolazione stessa dato dallespressione:
Per cui lo stimatore sm2 della varianza della media campionaria risulta:
In presenza di errori aleatori, poich la deviazione standard del valore medio sm, cio la sua dispersione,
decresce con la radice quadrata del numero dei valori, evidente lutilit di mediare pi risultati di una misura
per ridurre la sua incertezza.
Intervalli di fiducia (confidenza) per la media campionaria
Il risultato della misura di una grandezza costituito dalla coppia di numeri che indicano il valore stimato e
lincertezza, o errore, ad esso associata.
Quando il valore stimato una variabile aleatoria, lerrore da attribuirgli quellintervallo, detto intervallo
di confidenza, entro cui il valore del misurando pu trovarsi con un assegnato valore di probabilit.
Per calcolare il valore dellintervallo di confidenza occorre conoscere la forma ed i parametri della
distribuzione della variabile aleatoria.
Se per essa la media campionaria di molti valori, il Teorema centrale del Limite garantisce che la sua
distribuzione almeno approssimativamente normale quando il numero dei valori mediati sufficientemente
grande.
Si pu scrivere: = m k sm
essendo k detto fattore di copertura ed un coefficiente ricavabile dalle tabelle di probabilit della normale
standard per ogni prefissato valore di probabilit che si intende associare allintervallo di confidenza.
Ad esempio per k = 1, 2, 3 la probabilit che compete allintervallo m - k sm m + k sm vale rispettivamente
0.68; 0.95; 0.9973.
Nellambito delle misure si sceglie di solito k = 3 per cui quasi certo che la grandezza incognita cada entro
lintervallo essendo inferiore al 3 per mille la probabilit di caderne fuori.
Sempre nellambito delle misure quando il numero dei valori mediati superiore ad alcune decine, la
distribuzione della media campionaria pu essere considerata normale.
Criterio di trascurabilit degli errori
Spesso ci si chiede se un errore da associare ad una misura si possa considerare trascurabile o meno.
Si adotta il seguente criterio di trascurabilit degli errori:
Uno o pi errori possono essere trascurati quando la loro somma almeno un ordine di grandezza inferiore
a quella degli altri errori.
Criterio di esclusione di dati anomali
Quando in una serie di misure (numerosa), ripetute nelle stesse condizioni, compare un valore che presenta uno scostamento dalla media tanto superiore agli altri da far supporre una causa eccezionale, esterna allo strumento ed al misurando, si pu pensare di escludere il dato che
appare anomalo.
Quando pi dati appaiono sospetti (e la distribuzione normale) conviene adottare il criterio di Chauvenet: detta P la probabilit di uno scarto superiore, in modulo, ad un certo valore S ed n il numero delle
misure, il numero atteso degli scarti superiori ad S risulta pari ad nP.
Se nP 1/2 tutti i dati che presentano uno scarto non inferiore ad S possono essere esclusi.
S si ricava dalle tabelle della normale standard fissata P=1/(2n).