27
Corso di Corso di Laboratorio di Informatica Laboratorio di Informatica Probabilità, statistica ed Excel Probabilità, statistica ed Excel

Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Embed Size (px)

Citation preview

Page 1: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Corso diCorso diLaboratorio di InformaticaLaboratorio di Informatica

Probabilità, statistica ed ExcelProbabilità, statistica ed Excel

Page 2: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 2

Probabilità e statistica Probabilità e statistica (definizioni (definizioni semplificatesemplificate))

• Probabilità: Probabilità: – La fondazione matematica della teoria degli eventi casuali– Studia il comportamento di un sistema in termini di

• Eventi• Probabilità degli eventi• Relazioni tra probabilità

– Profonde basi matematiche – Significative differenze a seconda delle ipotesi iniziali

• Ad esempio: approccio frequentista

• Statistica:Statistica:– “ci sono tre tipi di bugie: bugie, maledette bugie e statistica”

• (Mark Twain che cita Benjamin Disraeli)

– Lo studio del comportamento di collezioni di dati reali tramite l’uso di tecniche specifiche

– Permette la riduzione di dati reali a modelli probabilistici

Page 3: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 3

Definizione di probabilità (discreta)Definizione di probabilità (discreta)

• Approccio “frequentista”Approccio “frequentista”– La probabilità di un evento è uguale alla sua frequenza

– Esistono altre definizioni di probabilità• Per semplicità ci limitiamo alla definizione frequentista

• Supponiamo di fare Supponiamo di fare NN misure di un determinato fenomeno, i cui possibili misure di un determinato fenomeno, i cui possibili risultati sono {Erisultati sono {E11, E, E22, E, E33, ..., E, ..., Ekk}, eventi “discreti”}, eventi “discreti”

• Supponiamo che l’evento ESupponiamo che l’evento E1 1 venga osservato venga osservato mm11 volte volte

• Si definisce probabilità di ESi definisce probabilità di E1 1 rispetto alla popolazione {Erispetto alla popolazione {E11, E, E22, E, E33, ..., E, ..., Ekk} il } il

rapporto:rapporto:

• Per la probabilità definita in questo modo vale la seguenti relazione:Per la probabilità definita in questo modo vale la seguenti relazione:

Proprietà di normalizzazione della probabilitàProprietà di normalizzazione della probabilità€

P E1 ,E2 ,E3 ,...,EK{ }E1( ) =

m1

N

m j = N⇒m j

N=

j=1

k

∑ Pj =1j=1

k

∑j=1

k

Page 4: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 4

Definizione di probabilità (continua)Definizione di probabilità (continua)

• Nel caso in cui lo spazio dei risultati sia continuo (ad esempio l’intervallo Nel caso in cui lo spazio dei risultati sia continuo (ad esempio l’intervallo [a,b]) è possibile estendere la precedente definizione di probabilità[a,b]) è possibile estendere la precedente definizione di probabilità

• Per fare questo:Per fare questo:– Supponiamo di avere una funzione f(x) per cui valga la seguente proprietà:

– La funzione f(x) prende il nome di densità di probabilità

• La probabilità che una variabile casuale X sia contenuta in [a,b] è:La probabilità che una variabile casuale X sia contenuta in [a,b] è:

• Questa definizione è semplicemente l’estensione al caso continuo della Questa definizione è semplicemente l’estensione al caso continuo della probabilità nel caso discreto.probabilità nel caso discreto.

• In questo caso si dice che X è una variabile casuale che segue la In questo caso si dice che X è una variabile casuale che segue la distribuzione f(x).distribuzione f(x).– Intuitivamente una variabile casuale è una entità che prende valori in accordo ad una

distribuzione data • Ad esempio, possiamo dire che X è una variabile normale o Gaussiana se è distribuita secondo

una funzione di densità normale o Gaussiana• La probabilità di un valore di X è data dalla sua funzione di distribuzione

f (x)dx =1−∞

P(a ≤ X ≤ b) = f (x)dxa

b

Page 5: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 5

Funzioni di distribuzioneFunzioni di distribuzione

• Sia data f(x) tale che:Sia data f(x) tale che:

• In aggiunta ad f(x) si può definire la funzione cumulativa F(x):In aggiunta ad f(x) si può definire la funzione cumulativa F(x):

• F(x) rappresenta la probabilità complessiva di tutti gli eventi X<x. F(x) rappresenta la probabilità complessiva di tutti gli eventi X<x. Usando la F(x), abbiamo che la probabilità dell’evento è:Usando la F(x), abbiamo che la probabilità dell’evento è:

• In completo accordo con la definizione di probabilità continua In completo accordo con la definizione di probabilità continua

f (x)dx =1−∞

F(x) = Pr(X < x) = f (t)dt−∞

x

a ≤ X ≤ b

Pr(a ≤ X ≤ b)= F(b) − F(a)= f (t)dt−∞

a

∫ − f (t)dt−∞

b

Page 6: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 6

Una nota matematica: eventi singoliUna nota matematica: eventi singoli

• Nel caso di distribuzioni discrete, ha perfettamente senso definire Nel caso di distribuzioni discrete, ha perfettamente senso definire la probabilità di un singolo evento Ela probabilità di un singolo evento Eii come: come:

• In generale questo limite esiste e tende al valore di probabilità In generale questo limite esiste e tende al valore di probabilità dell’evento dell’evento EEii

• mmii(N) indica semplicemente che m(N) indica semplicemente che mii dipende da N dipende da N

• La P{ELa P{Eii=a} nel caso continuo invece è sempre nulla: =a} nel caso continuo invece è sempre nulla:

• Che è nullo per definizioneChe è nullo per definizione– Per distribuzioni continue la probabilità del singolo evento è sempre nulla

P{E i} = limN →∞

mi(N)

N

P{E i = a} = f (t)dta

a

Page 7: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 7

Probabilità Probabilità Statistica Statistica

Supponiamo di avere un campione di dati misurati. Supponiamo di avere un campione di dati misurati. • Vogliamo:Vogliamo:

– Scoprire le caratteristiche statistiche del campione (“popolazione”)

– Ovvero costruire un modello per • La descrizione dei dati

– Come sono distribuiti i dati? – Come possiamo filtrare misure evidentemente sbagliate?

• L’estrapolazione di parametri importanti– Possiamo prevedere comportamenti “di tendenza”?– Possiamo estrapolare valori possibili dei parametri a partire da un

modello?– Possiamo separare segnale e rumore?

Page 8: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 8

Probabilità Probabilità Statistica (2) Statistica (2)

• La costruzione di un modello richiede la descrizione dei La costruzione di un modello richiede la descrizione dei dati in termini di una funzione di distribuzione.dati in termini di una funzione di distribuzione.– Ne esistono moltissime a seconda del modello che si vuole descrivere– Ne vedremo solo quattro

• Uniforme, binomiale, Poisson, Gauss/normale

• La nostra conoscenza del fenomeno in studio condiziona La nostra conoscenza del fenomeno in studio condiziona la scelta di un determinato modello.la scelta di un determinato modello.– Ad esempio: il comportamento di un sistema caratterizzato da eventi

scorrelati tra loro è descritto da una statistica di Poisson• Esempio: decadimento radioattivo, chiamate in un call center

• Una volta noto il modello, vogliamo stimarne i parametriUna volta noto il modello, vogliamo stimarne i parametri– La probabilità definisce le funzioni di distribuzione a partire da

parametri astratti (valore aspettato, varianza, ...)– La statistica offre tecniche per generare delle grandezze che sono

stimatori dei parametri astratti (ne riparliamo dopo...)

Page 9: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 9

Parametri importantiParametri importanti

• Valore aspettatoValore aspettato– Rappresenta il valore medio che un esperimento tende a produrre

se ripetuto un gran numero di volte– Definito come:

• VarianzaVarianza– Misura la dispersione di una variabile casuale intorno al suo valore

aspettato– Definita come:€

E[X] = Pr(x i)x i = xf (x)dx−∞

∫i

Var (X) =E[(X − E[X])2] = (x − E[X])2 f (x)dx−∞

Var (X) =E[(X − E[X])2] = Pr(x i)(x i − E[X])2

i

Page 10: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 10

Distribuzione uniforme discretaDistribuzione uniforme discreta

• Descrive una variabile casuale che può assumere Descrive una variabile casuale che può assumere N valori equiprobabiliN valori equiprobabili– Popolazione: {a, a+1, a+2, ..., b}– Valore aspettato:

– Varianza:

– Esempio: dado a sei facce non truccato• Spazio dei risultati: {1, 2, 3, 4, 5, 6}• Probabilità: pi = 1/6• Valore aspettato: 3.5• Varianza: 35/12

b + a

2

(b − a +1)2 −1

12

Page 11: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 11

Uniforme continuaUniforme continua

• Con questa distribuzione, tutti gli intervalli di Con questa distribuzione, tutti gli intervalli di stessa lunghezza sono equiprobabilistessa lunghezza sono equiprobabili

• X distribuita uniformemente in [a,b] implica:X distribuita uniformemente in [a,b] implica:

– Pdf (probability density function):

– Valore aspettato:

– Varianza: €

1

b − a

b + a

2

(b − a)2

12

Page 12: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 12

BinomialeBinomiale

• È una distribuzione discreta che descrive una sequenza È una distribuzione discreta che descrive una sequenza di esperimenti:di esperimenti:– La risposta dell’esperimento è successo/insuccesso

• Ogni esperimento ha probabilità p di successo• E quindi probabilità (1-p) di fallimento

– Gli esperimenti sono indipendenti• Ad esempio, la probabilità che il primo esperimento abbia successo,

mentre il secondo fallisca è: p(1-p)

– I parametri sono N (numero di esperimenti) e p • Il valore aspettato è Np• La varianza è np(1-p)• La funzione di distribuzione è:

– Rappresenta la probabilità di avere k successi su n esperimenti con probabilità p

f (k;n, p) =n

k

⎝ ⎜

⎠ ⎟pk (1− p)n−k

dove

n

k

⎝ ⎜

⎠ ⎟=

n!

k!(n − k)!

Page 13: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 13

PoissonPoisson

• Descrive la probabilità che un determinato evento avvenga in un Descrive la probabilità che un determinato evento avvenga in un intervallo di tempo prefissato a condizione che:intervallo di tempo prefissato a condizione che:– Gli eventi siano indipendenti– Gli eventi avvengano con una frequenza media nota

• Il parametro principale della distribuzione è Il parametro principale della distribuzione è – Un numero reale positivo che rappresenta il numero di eventi aspettato

nell’intervallo dato• Ad esempio supponiamo di avere un evento ogni due minuti, ma di essere

interessati ad un intervallo di 5 minuti. In questo caso: = 5 / 2 = 2.5

• La funzione di distribuzione è:La funzione di distribuzione è:– Valore aspettato: – Varianza:

• E rappresenta la probabilità di avere esattamente k eventi E rappresenta la probabilità di avere esattamente k eventi nell’intervallo di tempo consideratonell’intervallo di tempo considerato

• La distribuzione di Poisson è il limite della distribuzione binomiale La distribuzione di Poisson è il limite della distribuzione binomiale per p che tende a zero. per p che tende a zero. €

f (k;λ ) =e−λ λk

k!

Page 14: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 14

Normale o GaussianaNormale o Gaussiana

• È la distribuzione usata più comunemente nella statisticaÈ la distribuzione usata più comunemente nella statistica

• La funzione di distribuzione dipende da due parametri, chiamati La funzione di distribuzione dipende da due parametri, chiamati e e 22

– La forma della funzione di distribuzione è

– Il valore aspettato è – La varianza è 2, la sua radice quadrata si chiama deviazione standard

• Alcune proprietà interessanti:Alcune proprietà interessanti:– La funzione di distribuzione è simmetrica rispetto al suo valore aspettato– Il 68.268949% dell’area della curva è contenuto entro una deviazione standard dal

valore atteso– Il 95.449974% entro due deviazioni standard dal valore atteso – Il 99.730020% entro tre deviazioni standard dal valore atteso – Il 99.993666% entro quattro deviazioni standard dal valore atteso – I flessi della curva si trovano ad una deviazione standard dal valore atteso

f (x;μ,σ ) =1

2π σe

−(x−μ )2

2σ 2

Page 15: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 15

Curve Gaussiane con vari parametriCurve Gaussiane con vari parametri

© Wikipedia

Page 16: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 16

Distribuzione normale standardDistribuzione normale standard

• Un caso speciale di distribuzione Un caso speciale di distribuzione Gaussiana che si usa spesso nella pratica Gaussiana che si usa spesso nella pratica è quello conè quello con

– Valore aspettato = 0

– Varianza 2 = 1

• In questo caso la forma funzionale si In questo caso la forma funzionale si riduce a:riduce a:

f (x;0,1) =1

2πe

−x 2

2

Page 17: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 17

Teorema del limite centraleTeorema del limite centrale

• La distribuzione normale è di enorme importanza anche a causa La distribuzione normale è di enorme importanza anche a causa dell’esistenza del “Teorema del Limite Centrale”dell’esistenza del “Teorema del Limite Centrale”

• L’enunciato di questo teorema è:L’enunciato di questo teorema è:– Si consideri una successione di variabili casuali indipendenti e identicamente

distribuite, e in particolare tali che:

– Definita allora la nuova variabile casuale:

– si ha che Sn converge in distribuzione a una variabile casuale normale avente valore atteso 0 e varianza 1, ossia la distribuzione di Sn al limite per n che tende a infinito, coincide con quella di una tale variabile casuale normale

• Ovvero, sotto condizioni ragionevolmente comuni, una somma di variabili Ovvero, sotto condizioni ragionevolmente comuni, una somma di variabili casuali segue una distribuzione normale, indipendentemente dalla natura casuali segue una distribuzione normale, indipendentemente dalla natura delle variabili che vengono sommate.delle variabili che vengono sommate.

x j{ }j=1

n

E[x j ] < ∞

Var[x j ] < ∞∀ j

⎧ ⎨ ⎩

Sn =x − μ

σ / n;x =

x jj=1

n

∑n

Page 18: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 18

Esempio:Esempio:

• Generiamo N variabili con distribuzione Generiamo N variabili con distribuzione uniforme in [-1, 1] e vediamo che succede:uniforme in [-1, 1] e vediamo che succede:

Histogram

0

10

20

30

40

50

60

Bin

Frequency

Frequency

Histogram

0

10

20

30

40

50

60

70

80

90

100

Bin

Frequency

Frequency

Con una sola variabile:

Somma di 12 variabili:

Page 19: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 19

Relazione tra distribuzione normale e ...Relazione tra distribuzione normale e ...

• Binomiale Binomiale – Una binomiale con n grande e p non troppo vicino

a 0 o 1 ha comportamento approssimativamente normale

• La distribuzione approssimante ha:– Valore aspettato = np

– Varianza 2 = np(1-p)

• PoissonPoisson– Una distribuzione di Poisson in ha

comportamento pressoché normale con grande• La distribuzione approssimante ha:

– Valore aspettato = – Varianza 2 =

Page 20: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 20

Trattamento di dati normaliTrattamento di dati normali

• Supponiamo di avere un campione di dati, misure Supponiamo di avere un campione di dati, misure di una popolazione distribuita normalmente:di una popolazione distribuita normalmente:

• Vogliamo stimare i parametri della distribuzione Vogliamo stimare i parametri della distribuzione che descrive la il campioneche descrive la il campione– Valore aspettato– Varianza

x i{ }i=1

N

Page 21: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 21

Stimatore del valore aspettatoStimatore del valore aspettato

• La definizione del valore aspettato è:La definizione del valore aspettato è:

• Nel caso di una distribuzione normale, un semplice stimatore del Nel caso di una distribuzione normale, un semplice stimatore del valore aspettato è dato dalla media aritmetica:valore aspettato è dato dalla media aritmetica:

• In ambito statistico, esiste un teorema noto come “Legge dei In ambito statistico, esiste un teorema noto come “Legge dei grandi numeri”grandi numeri”– La media di un campione sufficientemente grande di una popolazione

casuale converge al valore aspettato della popolazione– Quindi per dare una stima del valore aspettato di una distribuzione è

sufficiente misurare un campione

• Notate che esiste anche una legge dei grandi numeri nel Calcolo Notate che esiste anche una legge dei grandi numeri nel Calcolo delle Probabilità:delle Probabilità:– La media di una sequenza di variabili casuali con la stessa distribuzione

converge al loro comune valore aspettato

E[X] = pix i = xf (x)dx−∞

∫i

x =1

nx ii=1

n

Page 22: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 22

Stimatore della varianzaStimatore della varianza

• La definizione di varianza è:La definizione di varianza è:• La varianza “pesa” l’allargamento di una distribuzione La varianza “pesa” l’allargamento di una distribuzione

rispetto al suo valore aspettatorispetto al suo valore aspettato• Per una distribuzione normale uno stimatore possibile per Per una distribuzione normale uno stimatore possibile per

la varianza è:la varianza è:

– Notate che lo stimatore è espresso in funzione del valore aspettato e non della stima del valore aspettato,

– In una situazione reale dovremo stimare il valore aspettato usando la media aritmetica

• Questo introduce un vincolo tra gli elementi del campione che stiamo usando, che riduce il contenuto di informazione

– Gradi di libertà

– In tal caso lo stimatore della varianza diventa:

Var (X) =E[(X − E[X])2]

S2 =1

n(x i − μ)2

i=1

n

x

S2 =1

n −1(x i − x )2

i=1

n

Page 23: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 23

Caratteristiche di uno stimatoreCaratteristiche di uno stimatore

• Uno stimatore è tale se nel limite di n che tende Uno stimatore è tale se nel limite di n che tende all’infinito approssima la quantità stimata in maniera all’infinito approssima la quantità stimata in maniera – Efficiente

• Un parametro che dipende dalla varianza del campione rispetto alla varianza dello stimatore

– Senza introdurre distorsioni (bias)• Stimatore “unbiased”

• Esistono stimatori convenzionalmente utilizzati che Esistono stimatori convenzionalmente utilizzati che hanno tutte le proprietà “giuste”hanno tutte le proprietà “giuste”– Dimostrabili matematicamente– Per una distribuzione normale, sono quelli visti nelle trasparenze

precedenti– Usare uno stimatore sbagliato introduce una distorsione delle misure

che può alterare completamente la significatività statistica dei risultati

Page 24: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 24

Le distribuzioni in ExcelLe distribuzioni in Excel

• Uniforme:Uniforme:– CASUALE()

• Estrae un numero uniforme tra [0,1]

– Nel pacchetto Analisi Dati, c’è: CASUALE.TRA(a,b)• Restituisce valori interi tra a e b

• Binomiale:Binomiale:– DISTRIB.BINOM(num_successi; prove; probabilità_s; cumulativo)

• PoissonPoisson– POISSON(x; media; cumulativo)

• NormaleNormale– DIST.NORM(x; media; dev_standard; cumulativo)

• In tutte le distribuzioni il parametro “cumulativo” è un parametro In tutte le distribuzioni il parametro “cumulativo” è un parametro logico (VERO/FALSO) che dice se la chiamata deve restituire un logico (VERO/FALSO) che dice se la chiamata deve restituire un valore cumulativo o novalore cumulativo o no– Valore cumulativo è la probabilità P(X<x) per la distribuzione data– Altrimenti il valore è semplicemente l’ordinata della curva di distribuzione

Page 25: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 25

Gli stimatori per la distribuzione normale in ExcelGli stimatori per la distribuzione normale in Excel

• Valore aspettatoValore aspettato– MEDIA (AVERAGE)

• Esempio: MEDIA(B1:B250)

• VarianzaVarianza– VAR

• Esempio: VAR(B1:B250)

• Deviazione standardDeviazione standard– DEV.ST (STDEV)

• Esempio: DEV.ST(B1:B250)

Page 26: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 26

Costruzione di un istogramma Costruzione di un istogramma

• Un istogramma è un tipo di grafico che ordina i dati in Un istogramma è un tipo di grafico che ordina i dati in classi di ampiezza data classi di ampiezza data – Le classi sono chiamate bin o canali

• I bin contengono le frequenze relative delle misureI bin contengono le frequenze relative delle misure– Supponiamo che i bin siano di ampiezza due– Supponiamo di avere i dati 1.3, 2.1, 2.3, 4.7, 5.7, 5.2– L’istogramma contiene tre canali: [0,2], [2,4], [4,6]– I canali contengono rispettivamente 1, 2 3,

• Per un istogramma i valori specifici non sono Per un istogramma i valori specifici non sono importantiimportanti– Conta solo che un valore sia compreso tra gli estremi del bin

• Per generare un istogramma si può usarePer generare un istogramma si può usare– L’istogramma dello strumento Analisi Dati– La funzione FREQUENZA di Excel

Page 27: Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006 27

La funzione FREQUENZALa funzione FREQUENZA

• FREQUENZA(array_dati, array_bin)FREQUENZA(array_dati, array_bin)– Il primo argomento sono i dati da manipolare– Il secondo argomento è una serie i cui elementi sono gli estremi dei bin

• Nell’esempio precedente sarebbe semplice 0 2 4 6– Il primo bin va dal primo al secondo elemento– Il secondo dal secondo al terzo ...

• Per usare FREQUENZA è necessario introdurla come ARRAY:Per usare FREQUENZA è necessario introdurla come ARRAY:– Selezione le celle in cui si vuole inserire l’array– Inserire la formula: = FREQUENZA(A1:A500;B1:B20)

• NON premere enter

– Premere Shift+Ctrl+Enter– Se è tutto corretto dovreste vedere la formula come:

• {FREQUENZA(A1:A500;B1:B20)}

– E le celle riempite con le frequenze relative in accordo ai vostri bin

• Ora potete fare il grafico usando l’istogramma di “Crea Grafico”Ora potete fare il grafico usando l’istogramma di “Crea Grafico”• Un istogramma è una distribuzione di probabilità?Un istogramma è una distribuzione di probabilità?

– Se si, come si fa a normalizzarlo?