Bruno Chiandotto – Fabrizio Cipollini Capitolo 2 CALCOLO ... · cioè tutti i numeri reali non negativi, dato che la durata è un numero che non può essere negativo. Una considerazione

CORSO DI LAUREA IN ECONOMIA AZIENDALE

Metodi Statistici per l’impresa (Note didattiche)

Bruno Chiandotto – Fabrizio Cipollini

1

Capitolo 2

CALCOLO DELLE PROBABILITÀ

Il calcolo delle probabilità, nato nel contesto dei giochi d’azzardo si è sviluppato

teoricamente fino ad assumere un ruolo particolarmente rilevante nell’analisi dei

fenomeni collettivi, diventando presupposto essenziale della teoria della statistica. La

teoria delle probabilità è una disciplina matematica astratta e altamente formalizzata pur

conservando il suo originale e rilevante contenuto empirico; in questa esposizione ci

limiteremo a esporre gli aspetti essenziali per la comprensione degli argomenti trattati

nel seguito.

1. Esperimento casuale, spazio campionario, eventi

Definizione 1: Definizione di esperimento casuale. Si dice esperimento casuale,

ogni fenomeno il cui risultato non può essere previsto con certezza.

Si evidenzia che il termine esperimento va qui inteso in senso lato. Infatti comprende

giochi di sorte (come il lancio di una moneta, l’estrazione di un numero al lotto,

l’estrazione di una numero alla roulette), esperimenti di laboratorio (come il test di

durata di un pneumatico, la somministrazione di un principio attivo ad un insieme di

cavie o il numero massimo di battiti cardiaci di un paziente durante un test di sforzo),

misurazioni fisiche (come la temperatura minima di domani in una certa stazione

meteorologica o l’intensità di una certa scossa di terremoto) fenomeni economici e

sociali (come il numero di computer prodotti da un’impresa del settore, il PIL italiano

fra 5 anni, il numero di imprese che falliranno in Inghilterra nel prossimo anno o il ROE

di un impresa nel prossimo esercizio) e più in generale tutte le prove, operazioni,

attività o fenomeni il cui esito non è prevedibile con certezza.

B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2

Metodi Statistici per l’impresa

2

Definizione 2: Definizione di spazio campionario. Dato un esperimento casuale, si

dice spazio campionario l'insieme Ω di tutti i possibili risultati,

esaustivi e mutualmente esclusivi, dell'esperimento stesso. Tali possibili

risultati sono detti punti campionari.

Alcuni esempi

Se l'esperimento casuale consiste nel lancio di una MONETA a due facce, lo spazio

campionario è dato da

Ω = T, C

dove T è il punto campionario testa e C è il punto campionario croce.

In questo esempio si è assunto (come si fa di solito) che gli unici risultati possibili siano

T e C, e che quindi la moneta non possa rimanere in equilibrio sul bordo. Se invece si

ipotizza che anche questo risultato sia possibile, allora lo spazio campionario di questo

esperimento casuale è

Ω = T, C, B,

dove B è il punto campionario “moneta in equilibrio sul bordo”.

Una situazione analoga al lancio della moneta si ha nel caso in cui l'esperimento casuale

sia l’esito di una operazione di finanziamento di una banca ad una impresa cliente, i cui

risultati possibili sono la restituzione o meno del finanziamento concesso da parte

dell’impresa. In tal caso infatti lo spazio campionario Ω è dato da

Ω = R, NR,

dove R è il punto campionario finanziamento restituito e NR il punto campionario

finanziamento non restituito.

Se l'esperimento casuale consiste nell'estrazione di un numero al lotto, lo spazio

campionario è dato da

Ω = 1, 2, …, 90,

costituito, come è ovvio, da tutti i numeri interi da 1 a 90.

Analogamente se l'esperimento casuale consiste nell'estrazione di un numero alla

roulette, lo spazio campionario è dato da

Ω = 0, 1, 2, …, 36.

Se l'esperimento casuale consiste nel contare il numero di difetti (ad esempio dei nodi)

in una matassa di filato da 100 metri, lo spazio campionario è dato da



3

Ω = 0, 1, 2, ….

cioè da tutti i numeri interi non negativi, dato che il numero di difetti è un numero intero

e non è possibile stabilire a priori il numero massimo.

Una situazione analoga si ha se l’esperimento casuale consiste nel contare il numero di

accessi ad un certo sito internet nell’arco di un anno oppure nel contare il numero

massimo di battiti cardiaci durante un test di sforzo.

Se l'esperimento casuale consiste nel test di durata di un pneumatico, lo spazio

campionario è costituito da

Ω = [0, +∞),

cioè tutti i numeri reali non negativi, dato che la durata è un numero che non può essere

negativo. Una considerazione analoga vale per l’intensità di una scossa di terremoto,

dato che questa, se misurata si scala RICHTER, sarà un numero non negativo (0 se non

c’è stata nessuna scossa).

Se l'esperimento casuale consiste nel valutare il ROE di un’impresa nel prossimo

esercizio, lo spazio campionario è costituito da

Ω = (–∞, +∞)

dato che il ROE di un’impresa può essere un qualsiasi numero reale.

Se l'esperimento casuale consiste nel misurare la temperatura (in gradi centigradi) in

una certa stazione meteorologica, lo spazio campionario è costituito da

Ω = [–273, +∞),

dato che secondo la fisica la temperatura non può scendere sotto lo 0 assoluto (circa –

273 °C).

Riepilogando, allora, lo spazio campionario è l’insieme dei risultati possibili

dell’esperimento campionario considerato.

Dagli esempi riportati possiamo notare che lo spazio campionario può essere costituito

da un numero finito di punti campionari (come nel caso del lancio della moneta, dei

pezzi buoni/difettosi, delle palline estratte da un’urna o dell’estrazione alla roulette),

oppure da un’infinità numerabile di punti campionari (come nel caso del numero di

computer prodotti, del numero di accessi ad un sito internet o del numero di battiti

cardiaci), o infine da un’infinità non numerabile di punti campionari (come nel caso

del test di durata di un pneumatico, del PIL italiano fra 5 anni, della temperatura di un

luogo o del ROE di un’impresa).



4

Definizione 3: Definizione di evento. Dato uno spazio campionario Ω relativo ad un

certo esperimento casuale, un evento è sempre un sottoinsieme di Ω.

Tuttavia:

• se Ω è costituito da un numero finito o da un’infinità numerabile di

punti campionari, è evento ogni sottoinsieme A di Ω;

• se invece Ω è costituito da un’infinità non numerabile di punti, non

tutti i possibili sottoinsiemi di Ω sono eventi ma soltanto i cosiddetti

sottoinsiemi ammissibili di Ω.

In ogni caso, comunque, un evento è un sottoinsieme di Ω ed è quindi costituito da un

insieme di punti campionari. Precisiamo inoltre che nel caso in cui Ω sia costituito da

un’infinità non numerabile di punti, i sottoinsiemi non ammissibili sono piuttosto

artificiosi da costruire: i sottoinsiemi ai quali si è comunemente interessati (vedremo poi

alcuni esempi) sono tutti ammissibili.

Definizione 4: Verificarsi di un evento. Dato uno spazio campionario Ω relativo ad

un certo esperimento casuale, l’evento A si verifica (si realizza) solo se

il risultato dell’esperimento casuale è un qualsiasi punto campionario di

A; in caso contrario A non si verifica.

Le due definizioni precedenti ci consentono di precisare che sono eventi anche:

• Ω stesso, che contenendo tutti i punti campionari deve per forza verificarsi ed è

quindi detto evento certo (importante: in generale tutti gli eventi certi possono

essere indicati con Ω).

• tutti gli eventi del tipo ω, cioè costituiti da un solo punto campionario ω, che

come tali sono detti eventi elementari;

• ø, che non contenendo alcun punto campionario non si potrà mai realizzare e che è

quindi detto evento impossibile (importante: in generale tutti gli eventi impossibili

possono essere indicati con ø).



5

Alcuni esempi

Se l'esperimento casuale consiste nel lancio di una moneta a due facce, sono eventi:

T, C, Ω = T, C, ø. Questi sono anche gli unici eventi che possono essere definiti

nell’esperimento casuale indicato. T e C sono eventi elementari in quanto costituiti

da un solo punto campionario; Ω è l’evento certo (infatti è certo che dal lancio venga T

o C); gli eventi BABBO oppure CANE, GATTO sono impossibili e possono essere

rappresentati, come tutti gli eventi impossibili, col simbolo ø. In questo esperimento

casuale implicitamente abbiamo escluso che la moneta possa rimanere in equilibrio sul

bordo. Quindi anche l’evento B è impossibile e può essere indicato con ø.

Se invece nell’esperimento della moneta a due facce è possibile che la moneta rimanga

in equilibrio sul bordo allora sono eventi: T, C, B, T, C, T, B, C, B, Ω =

T, C, B, ø; questi sono anche gli unici eventi che possono essere definiti in questo

esperimento casuale. T, C e B sono eventi elementari, mentre T, C non è più

l’evento certo (infatti non è certo che venga T o C, dato che è possibile che la moneta

rimanga sul B); B non è più impossibile mentre rimangono impossibili (e quindi

identificabili con col simbolo ø) gli eventi BABBO e CANE, GATTO. Se nel lancio

viene B allora si realizzano tutti gli eventi che contengono B (B, C, B, T, B ed

ovviamente Ω), mentre non si realizzano tutti quelli che non lo contengono (C, T,

T, C ed ovviamente ø).

Una situazione simile a quella del lancio della moneta si ha nel caso in cui l'esperimento

casuale sia l’esito di una operazione di finanziamento di una banca ad una impresa

cliente. [Lo studente provi per conto proprio a scrivere gli eventi che possono essere

costruiti in questo caso, indicando quali sono quelli che si verificano se l’esito è NR]

Se l'esperimento casuale consiste nell'estrazione di un numero al lotto, costruire l’elenco

di tutti gli eventi possibili è un’operazione lunghissima (e anche inutile!). Siccome lo

spazio campionario contiene un numero finito di punti campionari tutti i sottoinsiemi

possibili di Ω sono eventi, ivi compresi Ω stesso e ø. Ad esempio 33, 99, 10 ,

55, 58, –3, 2.5 99, 5, numeri pari, numeri divisibili per 10, numeri reali,

sono tutti eventi. Fra questi 99, 10 e –3, 2.5 sono impossibili e possono essere

indicati con ø; gli altri sono invece possibili (ivi compreso 99, 5: se infatti viene fuori

il 5 questo evento si realizza); numeri reali è certo e può essere indicato con Ω. Se

viene estratto il 30 allora si verificano tutti gli eventi che contengono il 30 (ad esempio



6

si verificano numeri pari, numeri divisibili per 10, 30, 60, 90 e, naturalmente, Ω)

mentre non si verificano quelli che non lo contengono (ad esempio non si verificano

dispari, numeri divisibili per 7, 11, 22, 33 e, naturalmente, ø).

Se l'esperimento casuale consiste nel contare il numero di difetti in una matassa di filato

da 100 metri, costruire l’elenco di tutti gli eventi possibili è un’operazione impossibile,

dato che Ω contiene una infinità numerabile di punti campionari. Anche in questo caso,

comunque, tutti i sottoinsiemi di Ω sono eventi. Ad esempio sono eventi possibili 0,

33, 99, 55, 58, 99, 5, numeri pari, numeri divisibili per 10; numeri

reali, numeri non negativi coincidono con l’evento certo Ω; sono invece impossibili

10 , –8, –3, 2.5, numeri negativi che possono essere quindi indicati con ø.

Se l'esperimento casuale consiste nel test di durata di un pneumatico, allora non tutti i

sottoinsiemi di Ω sono eventi ma soltanto quelli ammissibili; tuttavia, come indicato,

quelli ai quali si è comunemente interessati sono tutti ammissibili. Sono allora eventi

possibili 0, 33, 10 , 3/4, 58, [3,9), (–∞, 5), numeri divisibili per 10;

numeri reali, numeri non negativi coincidono con l’evento certo Ω; sono invece

impossibili –55, [–2,–1] che possono essere quindi indicati con ø.

[Lo studente provi per conto proprio a sviluppare in modo analogo ai precedenti altri

esempi di esperimenti casuali]

E’ chiaro che poiché lo spazio campionario Ω contiene solo i risultati possibili, e poiché

gli eventi sono sottoinsiemi di Ω, è conveniente “ripulire” gli eventi dai punti

campionari impossibili quando li contengono. Per definizione tutti i risultati possibili

devono essere inclusi; tutto il resto è impossibile.

Relativamente agli esperimenti casuali più semplici non s'incontrano, usualmente,

difficoltà nell'individuazione e nella successiva enumerazione dei punti campionari che

ne costituiscono i possibili risultati. In esperimenti più complessi possono risultare di

aiuto alcune formule combinatorie (richiamate in appendice al capitolo) che facilitano

tale operazione. L’utilità di tale enumerazione sarà più chiara quando si parlerà di

probabilità.



7

Riepilogando, lo spazio campionario Ω è l’insieme dei risultati possibili

dell’esperimento campionario considerato, mentre un evento è sempre un sottoinsieme

di Ω.

Spesso è utile operare sugli eventi, combinandoli fra di loro in modo opportuno, per

crearne di nuovi a seconda dell’interesse di chi studia il fenomeno (esperimento

casuale) considerato. D’altra parte poiché come detto gli eventi sono in tutto per tutto

degli insiemi è inutile inventare un modo nuovo per operare sugli eventi: conviene

prendere a prestito dalla matematica gli strumenti della teoria degli insiemi. In questo

ambito l'evento certo Ω (coincidente con l'intero spazio campionario) non rappresenta

altro che l'insieme universale, mentre l'evento impossibile ø corrisponde all'insieme

vuoto. Nelle pagine che seguono si richiamano gli aspetti fondamentali della teoria

degli insiemi che risultano utili per operare sugli eventi.

Le relazioni/operazioni della teoria degli insiemi che risultano di particolare interesse

per operare sugli eventi sono la relazione di inclusione (⊆) e le operazioni di negazione

(o complementazione) A , di intersezione (∩), di unione (∪), e di differenza (–). Per

comprendere e mettere in pratica queste relazioni ed operazioni sono utili i cosiddetti

diagrammi di Venn.

Relazione di inclusione. Un evento A è incluso nell'evento B, e si scrive A ⊆ B, se ogni

punto campionario di A appartiene anche a B (non è detto che valga il viceversa).

Relazione di uguaglianza. Due eventi A e B sono uguali sse contengono gli stessi punti

campionari, ovvero sse contemporaneamente

A ⊆ B e B ⊆ A

Operazione di negazione. La negazione (complementazione nella teoria degli insiemi)

di un evento A è l’evento A costituito da tutti i punti campionari di Ω che non

appartengono ad A.

Il seguente diagramma di Venn illustra graficamente il concetto di evento incluso e di

evento negato.



8

Ω

Fig. 1 - Diagramma di Venn per l’inclusione e la negazione dove il quadrato

rappresenta l’intero spazio campionario Ω e A ⊆ B.

Operazione di intersezione. L'intersezione tra due eventi A e B è l'evento E1 = A ∩ B

costituito da tutti i punti campionari che appartengono sia ad A che a B.

Operazione di unione. L'unione tra due eventi A e B è l'evento E2 = A ∪ B costituito da

tutti i punti campionari che appartengono ad almeno uno fra A e B.

Il seguente diagramma di Venn illustra graficamente le due operazioni (intersezione ed

unione).

Ω Ω

Fig. 2 - Diagrammi di Venn per l’intersezione e l’unione. Il tratteggio evidenzia

l’evento intersezione nella prima figura e l’evento unione nella seconda figura.

Operazione di differenza. La differenza fra due eventi A e B è l’evento

E3 = A – B costituito da tutti i punti campionari che appartengono ad A ma non a B.

E1

A B

E2

AB

B

A B



9

I palati matematici più fini, noteranno che una volta introdotte le operazioni di

negazione ed intersezione si potrebbe fare a meno d'introdurre le due ulteriori

operazioni di unione e di differenza. Infatti queste due operazioni possono essere

definite a partire dalle precedenti nel modo seguente [lo studente verifichi tali relazioni

utilizzando i diagrammi di Venn]:

( )BABA ∩=∪

( )BABA ∩=−

L'introduzione di queste due ultime operazioni è giustificata dalla semplificazione che

esse comportano quando si opera sugli eventi (insiemi).

Si segnala anche che la relazione ( )BABA ∩=∪ e la relazione duale

( )BABA ∪=∩ vengono usualmente dette leggi di de Morgan [si invita lo studente a

verificarle entrambe utilizzando i diagrammi di Venn].

Le operazioni di unione e di intersezione possono, naturalmente, essere applicate anche

a k (>2) eventi.

L'intersezione fra k eventi A1, A2, …, Ak fornisce come risultato l'evento

A = A1 ∩ A2 ∩ ... ∩ Ak = Ik

iiA

1=

che contiene tutti i punti campionari comuni ai k eventi considerati.

L'unione tra gli stessi k eventi dà come risultato l'evento

A = A1 ∪ A2 ∪ ... ∪ Ak = Uk

iiA

1=

che contiene tutti i punti campionari che appartengono ad almeno uno dei k eventi

considerati.

A questo punto possiamo elencare una serie di proprietà di facile dimostrazione che

conseguono dalle operazioni introdotte. Lo studente è invitato a dimostrarle utilizzando

i diagrammi di Venn (il simbolo ⇒ rappresenta la relazione di implicazione).

A ⊆ B ⇒ A ∩ B = A

A ⊆ B⇒ A ∪ B = B



10

φ = Ω

Ω = ø

ø ⊆ A ⊆ Ω

A ∩ ø = ø

A ∩ Ω = A

A ∪ ø = A

A ∪ Ω = Ω

A ∩ A = ø

A ∪ A = Ω

A ⊆ (A ∪ B)

(A ∩ B) ⊆ A

B ⊆ (A ∪ B)

(A ∩ B) ⊆ B

A ∩ B = B ∩ A (proprietà commutativa)

A ∪ B = B ∪ A (proprietà commutativa)

A1 ∩ A2 ∩ A3 = (A1 ∩ A2) ∩ A3 = A1 ∩ (A2 ∩ A3) (proprietà associativa)

A1 ∪ A2 ∪ A3 = (A1 ∪ A2) ∪ A3 = A1 ∪ (A2 ∪ A3) (proprietà associativa)

A1 ∩ (A2 ∪ A3) = (A1 ∩ A2) ∪ (A1 ∩ A3) (proprietà distributiva)

A1 ∪ (A2 ∩ A3) = (A1 ∪ A2) ∩ (A1 ∪ A3) (proprietà distributiva)

Le due ultime proprietà (distributive) per k eventi divengono

A ∩ (Uk

i 1=Ai) = U

k

i 1=(A ∩ Ai)

A ∪ (Ik

i 1=Ai) = I

k

i 1=(A ∪ Ai)

Dopo aver elencato relazioni ed operazioni della teoria degli insiemi utili per operare

sugli eventi, utilizziamo ora la teoria degli insiemi anche per definire il concetto

importante di incompatibilità fra eventi. Due eventi A e B sono incompatibili se la loro

intersezione è l’evento impossibile, cioè



11

A ∩ B = ø.

In pratica ciò significa o che i due eventi che non hanno punti campionari in comune,

oppure che hanno qualche punto in comune che però è impossibile (e quindi è come se

non l’avessero).

Un altro concetto importante (e nel quale di nuovo si sfrutta la teoria degli insiemi)

quando si opera sugli eventi è quello di condizionamento. Questo è utile quando si

vuol analizzare un certo evento A (l’evento condizionato) avendo a disposizione una

certa informazione B (l’evento condizionante). Per fare un esempio, nel lotto l’uscita

alla seconda estrazione del 5 nel caso in cui (informazione) alla prima estrazione sia

uscito il 90.

L'evento A | B (A condizionatamente ad B o, più semplicemente, A dato B) riguarda

l’analisi di A assumendo verificato l'evento condizionante (informazione) B. Si

sottolinea che l’espressione assumendo verificato non significa necessariamente che B

si è verificato, ma solo che noi si ragiona come se si fosse verificato (si ragiona cioè

sulla base dell’informazione a disposizione). Il condizionamento degli eventi si risolve

in pratica in una sorta di ridefinizione dello spazio campionario nel modo seguente.

Ω

Fig. 3 - Ridefinizione degli spazi per eventi condizionati.

Se si assume che l'evento B si è verificato allora accadono due importanti conseguenze:

1. perdono di rilevanza tutti i punti campionari che non appartengono ad B; in pratica

nell’assumere che si è verificato B diviene una specie di nuovo evento certo.

2. perdono di rilevanza tutti i punti campionari di A non appartengono ad B.

A

B



12

Quindi se si considera l'evento condizionato A | B, B “si trasforma” in Ω ed A “si

trasforma” nell'evento A ∩ B. Ulteriori dettagli su questo concetto saranno dati nel

seguito parlando di probabilità condizionata.

Infine un ultimo importante concetto: quello di algebra. Poiché tale concetto non è di

semplice comprensione, facciamolo precedere da alcune considerazioni intuitive.

Nelle pagine precedenti, dopo avere dato la definizione di evento abbiamo analizzato

alcuni esempi. Abbiamo visto che quando lo spazio campionario Ω è composto da pochi

punti campionari è semplice costruire la “lista” di tutti gli eventi: basta fare l’elenco di

tutti i sottoinsiemi di Ω. Se invece Ω è composto da un numero sempre finito ma

abbastanza elevato punti campionari, esplicitare tale “lista” è un’operazione alquanto

“tediosa”. Operazione che risulta addirittura impossibile se Ω è costituito da un numero

infinito di punti campionari. D’altra parte, abbiamo notato che esplicitare l’”insiemone”

di tutti gli eventi, talvolta chiamato spazio degli eventi, non è un’operazione molto

utile. Quello che invece è importante è stato, seppure implicitamente, evidenziato dopo:

operare sugli eventi con le operazioni della teoria degli insiemi produce come risultato

altri eventi. In altri termini è importante operare in un insieme chiuso. Possiamo

sintetizzare tutto ciò nel modo seguente: lo spazio degli eventi (facile da esplicitare solo

in casi particolarmente semplici) è un insieme chiuso rispetto alle operazioni di

negazione e di intersezione (e quindi anche rispetto all’unione e alla differenza che

possono essere derivate dalle precedenti).

Esplicitiamo ora questo concetto in modo più rigoroso. Un’algebra è un insieme chiuso

rispetto alle operazioni di negazione e di intersezione fra insiemi (e quindi anche

rispetto a quelle di unione e differenza che possono essere definite a partire dalle

precedenti): ciò significa che se prendiamo elementi appartenenti all’insieme, allora

anche il risultato delle operazioni di negazione e di intersezione fatte su di essi

appartengono all’insieme. Più in particolare, se l’insieme è chiuso rispetto ad un numero

finito di operazioni, si parla di algebra di Boole o, più semplicemente, di algebra; se il

sistema è chiuso rispetto ad un’infinità numerabile di operazioni, si parla di algebra di

Boole completa o, più semplicemente, di σ-algebra.

Nella successiva esposizione si assumerà che dato un esperimento casuale e lo spazio

campionario Ω ad esso relativo, gli eventi che possono essere costruiti a partire da Ω



13

formino una σ-algebra A. Quindi lo spazio degli eventi A sarà una σ-algebra e il

risultato di un numero finito o infinito numerabile di operazioni fatte su eventi (elementi

di A) sarà ancora un evento (elemento di A).

Tornando a una distinzione fatta in precedenza, se Ω è costituito da un numero finito

oppure da un’infinità numerabile di elementi allora A contiene tutti i possibili

sottoinsiemi di Ω; se invece Ω è costituito da un’infinità non numerabile di elementi

allora A contiene solo i sottoinsiemi “ammissibili” di Ω.

Dato un esperimento casuale, la coppia (Ω, A), dove Ω è lo spazio campionario e A è la

σ-algebra generata da Ω, è detta spazio misurabile.

2. La probabilità

Ognuno di noi ha in testa una idea, almeno vaga, del concetto di probabilità. Per

introdurre il concetto di probabilità partiamo proprio da questa idea intuitiva. Se

volessimo spiegare il concetto con parole semplici, potremmo dire che la probabilità di

un evento A è il grado di certezza, su una scala da 0 ad 1, attribuito al verificarsi di tale

evento: più è la probabilità è vicina a 1 più è sicuro che A si verifichi; più la probabilità

è vicina a 0 meno è sicuro che A si verifichi.

Facendo per il momento affidamento su questa idea intuitiva di probabilità, il primo

problema che occorre affrontare nella pratica è come attribuire la probabilità, dal punto

di vista numerico, nei singoli casi concreti. Tra le innumerevoli definizioni proposte in

letteratura, ne presentiamo presentano soltanto tre: la definizione classica, la

definizione frequentista e la definizione soggettiva.

Definizione 5: Definizione classica della probabilità. La probabilità di un evento A è

data dal rapporto

P(A) = possibili casi dei numero

favorevoli casi dei numero=

nnA

purché tutti i casi siano ugualmente possibili.



14

Alla definizione classica di probabilità sono state rivolte critiche di varia natura. La

prima critica è di ordine logico e riguarda la circolarità della definizione: affermare che

tutti i casi sono ugualmente possibili significa dire che sono ugualmente probabili (non

si può definire un concetto utilizzando se stesso).

Altre due critiche, decisamente più rilevanti dal punto di vista pratico, riguardano

l’operatività della definizione: non sono affatto rare le situazioni reali nelle quali non è

possibile procedere all’enumerazione dei casi favorevoli e dei casi possibili; inoltre,

anche nelle situazioni in cui si può effettuare una tale enumerazione, non è infrequente

la circostanza in cui non tutti i casi sono ugualmente possibili.

Per superare questi inconvenienti è stata introdotta la seguente definizione di

probabilità.

Definizione 6: Definizione frequentista della probabilità. La probabilità di un

evento ripetibile A è data dal rapporto fra nA, il numero di volte in cui A

si è verificato, ed n, il numero delle prove, quando il numero delle

prove tende ad infinito

P(A) = n

nAn ∞→lim ,

supposto che tutte le prove siano effettuate nelle stesse condizioni.

La probabilità, secondo questa definizione, può essere quindi intesa come una sorta di

idealizzazione della frequenza relativa che verrà introdotta nel contesto della statistica

descrittiva. Taluni autori ritengono, infatti, che probabilità e frequenza relativa non

siano altro che l'aspetto teorico e quello empirico di uno stesso concetto ed interpretano

la frequenza relativa di un evento come misura approssimata (per n finito) della

probabilità.

Anche alla definizione frequentista sono state rivolte critiche di varia natura. Anzitutto

quella relativa al limite irraggiungibile (+∞) imposto al numero delle prove; ma a tale

critica si risponde accettando la frequenza relativa di un numero finito (ma

sufficientemente elevato) di prove come misura approssimata della probabilità. Più

problematiche sono la critica relativa alla ripetibilità delle prove (esperimento) in

situazioni invariate e, soprattutto, quella che fa riferimento alle situazioni reali, e non



15

sono affatto infrequenti, nelle quali non è possibile procedere all’effettuazione di alcuna

prova.

Una definizione che supera le critiche, sia di ordine logico che operativo, rivolte alla

definizione classica e alla definizione frequentista di probabilità è la definizione

seguente.

Definizione 7: Definizione soggettiva della probabilità. La probabilità di un evento A

è definita come il grado di fiducia che un individuo razionale

attribuisce al verificarsi di un evento. La misura (soggettiva) di

probabilità si deriva ponendo l'individuo (razionale) di fronte ad

un'operazione di scommessa chiedendo quanto è disposto a puntare per

ricevere 1 nel caso in cui l'evento in questione si realizzi.

Anche alla definizione soggettiva di probabilità sono state rivolte critiche: la prima

riguarda proprio la soggettività insita nella definizione; la seconda è relativa alla

difficoltà di tradurre in un valore numerico il grado di fiducia.

Alla prima critica si risponde osservando che qualunque probabilità deve essere intesa

in senso condizionato, cioè condizionatamente all’informazione dell’individuo

(razionale). Pertanto, anche se apparentemente due individui diversi attribuiscono una

diversa misura di probabilità ad uno stesso evento, gli stessi individui si riferiscono a

due diversi eventi essendo diversa l’informazione sulla base del quale formulano il

proprio grado di fiducia.

Alla seconda critica si risponde che, nonostante alcune difficoltà operative, alla misura

di probabilità si perviene, come detto, attraverso l’attivazione di un processo

relativamente semplice (almeno sul piano concettuale) che è quello di porre l’individuo

di fronte ad una operazione di scommessa.

Le tre definizioni introdotte, cui si può far ricorso per ottenere una valutazione

numerica della probabilità, non sono necessarie per lo sviluppo del calcolo delle

probabilità. A tal fine infatti è sufficiente una definizione di carattere più formale che

invece di stabilire come attribuire i valori di probabilità nei casi concreti, fissa

semplicemente le regole che la probabilità deve rispettare. A questa definizione



16

assiomatica si farà riferimento negli sviluppi teorici che seguono, mentre le tre

definizioni non assiomatiche saranno utilizzate in alcuni esempi.

Definizione 8: Definizione assiomatica della probabilità. Siano dati un esperimento

casuale, con il suo spazio campionario Ω e la corrispondente σ-algebra

A (l’insieme degli eventi generati da Ω). Allora la probabilità è una

funzione che ad ogni evento (elemento di A) associa un numero fra 0 e

1, in simboli

P: A → [0,1]

A a P(A),

che soddisfa le seguenti proprietà:

1. P(A) ≥ 0 (ridondante, ma è bene sottolinearla)

2. P(Ω) = 1

3. Se A ∩ B = ø (cioè A e B sono incompatibili), allora

P(A ∪ B) = P(A) + P(B).

Questa definizione assiomatica della probabilità, dovuta a Kolmogorov, non ha

sollevato obiezioni sostanziali da parte degli studiosi. Infatti precisa e chiarisce soltanto

i contenuti sintattici, cioè le regole formali che deve rispettare la probabilità, regole

sulle quali è più facile trovare l'accordo. Dall'altro lato il considerare i soli aspetti

formali esclude ogni operatività della definizione, in quanto non dice niente su come

attribuire la probabilità, dal punto di vista numerico, nei singoli casi concreti. Quando si

vuol utilizzare la probabilità per risolvere problemi reali si dovrà, quindi, fare

necessariamente ricorso alle definizioni precedenti, nelle quali l'aspetto semantico, cioè

del significato, viene privilegiato.

Notiamo che la distinzione fra aspetto sintattico (o delle regole formali) e aspetto

semantico (o del significato) è la stessa distinzione che c’è, nello svolgimento di un

tema, fra l’aspetto grammaticale, che riguarda solo le regole della lingua in cui si scrive,

e l’aspetto dei contenuti e delle idee che nel tema sono esposte. I due non vanno

necessariamente insieme: un tema può essere buono come forma ma povero di idee o

viceversa un po’ sgrammaticato ma dai contenuti interessanti.



17

Si evidenzia infine che tutte e tre le definizioni non assiomatiche soddisfano le regole

della definizione assiomatica di probabilità.

Ricollegandosi alla definizione assiomatica, è facile dimostrare che da tale definizione

seguono alcune utili relazioni:

P(A) ≤ 1

P(ø) = 0

A ⊆ B ⇒ P(A) ≤ P(B)

P(A ∪ B) = P(A) + P(B) – P(A ∩ B)

L'ultima relazione per 3 eventi diventa

P(A ∪ B ∪ C) = P(A) + P(B) + P(C) – P(A ∩ B) – P(A ∩ C) – P(B ∩ C) + P(A ∩ B ∩

C)

che ovviamente si riduce a

P(A ∪ B ∪ C) = P(A) + P(B) + P(C)

quando i 3 eventi sono tra loro incompatibili.

Per k eventi tale relazione diventa

( ) ( ) ( )

( )

−++

∩∩+∩−=

=

+

≠≠≠=∑∑∑∑∑∑

I

U

Kk

ii

k

hjijihiji

jiiji

ii

k

ii

AP

AAAPAAPAPAP

1

1

,1

1

che ovviamente si riduce a

∑==

=

k

ii

k

ii )P(AAP

11U

quando i k eventi sono tra loro incompatibili.

In conclusione un’ultima notazione. Alla fine della sezione 2 abbiamo detto che dato un

esperimento casuale, la coppia (Ω, A), dove Ω è lo spazio campionario e A è la σ-

algebra generata da Ω, è detta spazio misurabile. Se a questa coppia aggiungiamo la

(funzione) probabilità otteniamo la tripletta (Ω, A, P(.)) detta spazio probabilistico.



18

3. La probabilità condizionata

Nella sezione 1 abbiamo enunciato il concetto di condizionamento fra eventi.

Ricordandone gli elementi fondamentali, (per maggiori dettagli si veda la sezione

indicata) il condizionamento è utile quando si vuole analizzare un certo evento A

(l’evento condizionato) avendo a disposizione una certa informazione B (l’evento

condizionante): l'evento A | B (detto A condizionatamente a B o A dato B) riguarda

quindi l’analisi di A assumendo verificato l'evento condizionante (informazione) B. Si

ricorda anche che l’espressione assumendo verificato non significa necessariamente che

B si è verificato, ma solo che si ragiona come se si fosse verificato (cioè prendendo per

buona l’informazione a disposizione). Abbiamo anche detto che il condizionamento

degli eventi si risolve in pratica in una sorta di ridefinizione dello spazio campionario.

Infatti se si assume che B si è verificato ne consegue che:

1. perdono di rilevanza tutti i punti campionari che non appartengono a B, cosicché B

diviene “una specie” di nuovo evento certo;

2. perdono di rilevanza tutti i punti campionari di A che non appartengono a B,

cosicché l’unica parte di A che ancora può verificarsi è soltanto A ∩ B.

La seguente definizione di probabilità condizionata risponde perfettamente a questa

logica.

Definizione 9: Definizione di probabilità condizionata. Assumendo P(B) > 0, la

probabilità di A | B è data da

P(A | B) = ( )( )BP

BAP ∩

In pratica, allora, P(A | B) non è altro che P(A ∩ B) riproporzionato sulla base di P(B)

(la probabilità dell’evento condizionante).

Si può dimostrare [si invita lo studente a provare per conto proprio] che la probabilità

condizionata è una vera e propria probabilità, cioè è una funzione

P(. | B): A → [0,1]

A a P(A | B)

che soddisfa gli assiomi di probabilità 1, 2, 3 di cui alla definizione 8. Infatti



19

P(A | B) ≥ 0

P(B | B) = 1

P(A1 ∪ A2 | B) = P(A1 | B) + P(A2 | B)

se A1 ed A2 sono incompatibili.

Valgono inoltre

A1 ⊆ A2 ⇒ P (A1 | B) ≤ P (A2 | B)

P( 1A | B) = 1 – P(A1 | B)

P(A1 ∪ A2 | B) = P(A1 | B) + P(A2 | B) – P(A1 ∩ A2 | B)

Si evidenzia che le regole della probabilità valgono per l’evento a sinistra del | (l’evento

condizionato), mentre l’evento condizionante, l’informazione, è “tenuto fermo”.

E’ ovvio che se il ruolo dei due eventi è invertito rispetto alla definizione, cioè siamo

interessati ad B avendo A come informazione (con P(A) > 0), allora basta scambiare i

due eventi nella definizione per ricavare P(B | A):

P(B | A) = ( )( )AP

ABP ∩ .

Dalla definizione di probabilità condizionata e dalle considerazioni precedenti possono

poi essere derivate una serie di formule assai utili nella pratica per il calcolo di certe

probabilità.

1. La prima è nota come formula delle probabilità composte ed è data da

P(A ∩ B) = P(A | B) P(B) = P(B | A) P(A).

Tale relazione si dimostra ricavando P(A ∩ B) in funzione degli altri elementi sia

nella definizione di P(A | B) che di P(B | A) (si ricorda che, per la proprietà

commutativa, A ∩ B = B ∩ A e quindi P(A ∩ B) = P(B ∩ A)).

2. La seconda è nota come formula della probabilità marginale ed è data da

P(B) = P(B | A) P(A) + P(B | A ) P( A )

Questa formula può essere dimostrata, sfruttando le proprietà delle operazioni fra

eventi e della probabilità, attraverso i seguenti passaggi:

P(B) = P(B ∩ Ω) = P[B ∩ (A ∪ A )] = P[(B ∩ A) ∪ (B ∩ A )]

= P(B ∩ A) + P(B ∩ A ) = P(B | A) P(A) + P(B | A ) P( A ),



20

dove fra le altre cose si sfrutta il fatto che (B ∩ A) e (B ∩ A ) sono incompatibili (lo

studente è invitato a verificare ciò utilizzando i diagrammi di Venn) e la formula

delle probabilità composte.

3. La terza è nota come formula di Bayes ed è data da

P(A | B) = ( ) ( )( )BP

APABP | .

Tale formula può essere ricavata immediatamente dalla formula delle probabilità

composte. Si sottolinea che nella pratica il denominatore P(B) è spesso calcolato a

partire da P(B | A), P(B | A ), P(A) e P( A ) utilizzando la formula della probabilità

marginale.

Sulla base delle considerazioni precedenti possiamo ora discutere più in dettaglio

l’utilizzo pratico della probabilità condizionata. E’ banale osservare (ma spesso gli

studenti se lo dimenticano!) che la formula nella definizione di probabilità condizionata

è una uguaglianza: quindi dati due elementi (qualsiasi!) della stessa il terzo può essere

ricavato. Di conseguenza tale definizione può essere utilizzata in tre modi:

1. Uso “diretto”. E’ l’utilizzo più immediato: sapendo P(B) e P(A ∩ B) si ricava P(A |

B) utilizzando direttamente la definizione.

2. Uso “indiretto” via principio delle probabilità composte: sapendo la probabilità

condizionata P(B | A) e quella marginale P(A), si vuol ricavare la probabilità

dell’intersezione P(A ∩ B). In questo caso la definizione è utilizzata indirettamente

perché si ricava la probabilità dell’intersezione in funzione della probabilità

condizionata.

3. Uso “indiretto” via formula di Bayes: sapendo le probabilità condizionate P(B | A) e

P(B | A ) e quella marginale P(A) (da cui si ricava anche e P(B | A )), si vuol ottenere

P(A | B). In questo caso la definizione è utilizzata indirettamente perché si ricava

una probabilità condizionata in funzione di altre probabilità.

Alcune delle relazioni precedenti possono essere estese anche a più di 2 eventi.

1. Il formula delle probabilità composte può riguardare anche un numero qualsiasi di

eventi A1, A2, A3, … Si avrà allora

P(A1 ∩ A2 ∩ … ∩ Ak) = P(A1) P(A2 | A1) P(A3 | A1 ∩ A2) ... P(Ak | A1 ∩ … ∩ Ak–1),



21

che è detta anche regola della catena.

2. La formula della probabilità marginale può essere estesa anche ad una partizione

dello spazio campionario Ω più “fine” di quella vista in precedenza fra A e A . Ma

vediamo prima cos’è una partizione.

Una partizione di Ω (ma la definizione di partizione vale per un qualsiasi evento B)

è una suddivisione di tale spazio in tanti eventi A1, A2, ..., Ak che siano esaustivi ed

incompatibili:

• esaustivi in quanto devono esaurire Ω, cioè

Uk

i 1=Ai = Ω;

• incompatibili in quanto non devono avere punti campionari in comune, cioè

Ai ∩ Aj = ø per ogni i ≠ j.

Per averne un’idea possiamo immaginare la partizione come le mattonelle di un

pavimento: la loro unione forma il pavimento (esaustività) ma fra loro non vi sono

sovrapposizioni (incompatibilità).

Detto cos’è una partizione, la formula della probabilità marginale per una generica

partizione A1, A2, ..., Ak di Ω è data da

P(B) = i

k

=∑

1P(B | Ai) P(Ai).

Anche questa formula può essere dimostrata sfruttando le proprietà delle operazioni

fra eventi e della probabilità. I passaggi sono i seguenti:

P(B) = P(B ∩ Ω) = P[B ∩ (Uk

i 1=Ai)] = P[U

k

i 1=(B ∩ Ai)] = ∑

=

k

i 1P(B ∩ Ai)

= ∑=

k

i 1P(B | Ai) P(Ai),

dove fra le altre cose si sfrutta il fatto che i (B ∩ Ai) sono fra loro incompatibili.

3. Analogamente alla formula della probabilità marginale, anche la formula di Bayes

può essere estesa ad una generica partizione A1, A2, ..., Ak di Ω. In tale caso la

formula di Bayes è una semplice riscrittura di quella vista in precedenza:

P(Ai | B) = ( ) ( )

( )BPAPABP ii|

,



22

dove normalmente P(B) è ricavato sulla base della formula della probabilità

marginale precedente.

Precisiamo che da un punto di vista pratico la formula di Bayes assume una

rilevanza particolare quando i k eventi Ai possono essere interpretati come possibili

“cause” dell'evento B. In tale contesto: P(Ai | B) è detta probabilità a posteriori

della causa Ai; P(Ai) è detta probabilità a priori della stessa causa e P(B | Ai) è detta

verosimiglianza dell'evento B.

La formula di Bayes esprime in maniera molto semplice il processo di

apprendimento dall'esperienza in contesti non deterministici. Della realtà si possiede

una conoscenza probabilistica, che viene espressa in termini di probabilità (a priori)

P(Ai); queste probabilità si trasformano, al verificarsi dell'evento B (acquisizione di

ulteriore informazione), nelle probabilità (a posteriori) P(Ai | B). Come molte volte

ripetuto, infatti, le probabilità condizionate si usano per riassegnare le probabilità

agli eventi una volta che siano state acquisite ulteriori informazioni relative ad una

realizzazione parziale di un esperimento casuale.

Ω

Fig. 4 - Partizione dello spazio campionario Ω in cinque eventi A1, A2, A3, A4 ed A5 possibili cause dell’evento B.

Vediamo adesso un altro concetto di fondamentale importanza nell’ambito della

probabilità: quello di indipendenza fra eventi (importante: non confonderlo con quello

di incompatibilità!). Avere l’informazione che si è realizzato un certo evento B, non è

detto che modifichi necessariamente la probabilità di verificarsi di un altro evento A;

può accadere cioè che la valutazione di probabilità rimanga la stessa che si aveva senza

avere l’informazione, ovvero

A

A1

A2

A3 A4

A5



23

P(A | B) = P(A).

E’ ragionevole definire questa situazione come indipendenza, e più in particolare A

indipendente da B.

D’altra parte se ciò accade, sostituendo tale relazione nella formula di Bayes per P(B |

A) si ottiene immediatamente

P(B | A) = P(B),

ovvero che B è indipendente da A. Questo significa che la relazione di indipendenza fra

due eventi è biunivoca, cioè se c’è in un senso c’è anche nell’altro: di conseguenza si

può parlare non solo di indipendenza di un evento da un altro ma di indipendenza fra

due eventi.

Inoltre se la relazione P(A | B) = P(A) si sostituisce nella formula delle probabilità

composte si ricava subito che

P(A ∩ B) = P(A) P(B),

che esprime quindi la formula delle probabilità composte per eventi indipendenti.

Riassumendo allora possiamo dare la seguente definizione.

Definizione 10: Definizione di indipendenza. Due eventi A e B sono fra loro

indipendenti se (una qualsiasi implica le altre due):

P(A | B) = P(A),

oppure

P(B | A) = P(B),

oppure

P(A ∩ B) = P(A) P(B).

Più in generale, k eventi A1, A2, ..., Ak sono indipendenti se

( )siii AAAP ∩∩∩ K

21 = ( ) ( ) ( )

siii AP...APAP ⋅⋅⋅21

per ogni sottoinsieme di eventi 1iA ,

2iA , …, siA con s = 2, 3, ...,k.

Ad esempio tre eventi A, B, C sono indipendenti se valgono tutte le seguenti relazioni

P(A ∩ B) = P(A) P(B)

P(A ∩ C) = P(A) P(C)

P(B ∩ C) = P(B) P(C)

P(A ∩ B ∩ C) = P(A) P(B) P(C)



24

Si sottolinea che le prime tre relazioni (indipendenze doppie) non implicano la quarta

(indipendenza tripla). Così come la quarta relazione non implica le prime tre.

4. Variabili casuali

In estrema sintesi possiamo riassumere le sezioni precedenti nello spazio probabilistico

(Ω, A, P(.)), dove: Ω è lo spazio campionario; A è la σ-algebra generata da Ω, cioè lo

spazio di tutti gli eventi dell’esperimento casuale; P(.) è la funzione di probabilità (si

veda la parte finale della sezione 2). A partire da tale spazio probabilistico (e da tutto

quello che ci sta dietro, ovviamente!) possiamo introdurre un ulteriore concetto

fondamentale nello sviluppo del calcolo delle probabilità e della statistica: quello di

variabile casuale (che spesso abbrevieremo in v.c.).

Definizione 11: Definizione di variabile casuale. Dato uno spazio probabilistico (Ω,

A, P(.)), una variabile casuale è una funzione che ad ogni punto

campionario associa un numero reale, in simboli

X: Ω → R

ω a X(ω),

che soddisfa la seguente proprietà: ogni insieme del tipo

ω∈Ω: X(ω) ≤ x

è un evento, cioè un elemento di A.

In parole semplici una variabile casuale è un modo di trasformare i punti campionari in

numeri. Siccome ci sono infiniti modi di fare questo, di solito si sceglie il modo che più

ci fa comodo e, magari, anche quello più ovvio. Il motivo ritrasformare i punti

campionari in numeri è semplice: lavorare sui numeri è molto più semplice che lavorare

sui punti campionari, anche perché questi ultimi possono essere di natura assai diversa

fra un esperimento casuale ed un altro. La condizione tecnica che ω∈Ω: X(ω) ≤ x

deve appartenere a A, cioè deve essere un evento (ricordiamo che A è l’insieme di tutti

gli eventi di un esperimento casuale) deriva dal fatto che su A abbiamo definito una



25

probabilità. Questa probabilità, definita sugli elementi di A, non vogliamo “perderla”,

ma vogliamo “trasferirla” ai sottoinsiemi di R, cioè ai numeri.

Alcuni esempi

Consideriamo l’esempio della moneta a due facce in cui Ω = T, C. Come v.c.

possiamo considerare quella che trasforma T in 1 e C in 0, cioè

X(T) = 1

X(C) = 0.

Consideriamo l’esempio dell’urna con 10 palline numerate da 1 a 10. In tal caso Ω =

1, 2, 3, 4, 5, 6, 7, 8, 9, . Come v.c. possiamo considerare quella che associa

ad ogni pallina il numero riportato sulla stessa, cioè

X( con numero i) = i.

Potrebbe però accadere, nello spesso esempio, di non essere interessati al numero in sé,

ma solo a distinguere fra pari e dispari. In tal caso potremmo considerare la v.c.

X( con numero pari) = 1

X( con numero dispari) = 0.

Come ulteriore esempio consideriamo una certa popolazione di N imprese industriali.

Poiché ciascuna impresa è identificata dalla sua ragione sociale, lo spazio campionario è

dato da Ω = ω1, …, ωN, dove ωi è la ragione sociale della impresa i. Se di tali imprese

interessa studiare la redditività, ad esempio misurata dall’indice ROE, possiamo

considerare la v.c. X che associa a ciascuna impresa il suo ROE, cioè

X(ω) = ROE dell’impresa ω.

Aggiungiamo che in questi casi per indicare la v.c. considerata si utilizza l’espressione

abbreviata “X è la v.c. ROE”, intendendo “X è la v.c. che associa a ciascuna impresa il

suo ROE”.

Nella stessa situazione delle N imprese potremmo considerare la v.c. ragione sociale,

distinguendo, ad esempio, fra società di persone, società di capitali e società

cooperativa. In tal caso potremmo utilizzare la v.c. X strutturata nel modo seguente:

X(ω) = 1 se ω è una società di persone

X(ω) = 2 se ω è una società di persone

X(ω) = 3 se ω è una società cooperativa



26

Anche in questo caso per indicare la v.c. considerata si utilizza l’espressione abbreviata

“X è la v.c. natura giuridica”, intendendo “X è la v.c. che associa a ciascuna impresa un

opportuno codice che identifica la sua natura giuridica”.

Anche se ai fini di un’analisi corretta abbiamo insistito molto sull’aspetto che la v.c.

trasforma i punti campionari in numeri in modo da conservare la probabilità prima

definita sugli eventi, ben presto ci dimenticheremo di tale probabilità e, più in generale,

dello spazio probabilistico (Ω, A, P(.)) che sta “a monte” di ogni v.c. Spesso lo spazio

probabilistico sarà semplicemente sottinteso senza esplicitarlo (questo però non vuol

dire che non c’è!).

Per questo motivo è bene allora avere un’immagine facilmente comprensibile e

immediata di cos’è una v.c., con l’avvertenza che tale immagine deve aiutare a capire

cos’è una v.c. ma non deve sostituire la definizione rigorosa. Possiamo allora pensare

una v.c. come un oggetto casuale, cioè un qualcosa di cui non possiamo sapere con

certezza cosa verrà fuori ma, al massimo, possiamo descrivere cosa può venire fuori e

con quale probabilità. Per avere qualche esempio pensiamo al numero estratto al lotto,

alla quotazione di un titolo azionario fra un mese, al voto che prenderemo all’esame di

statistica: tutti esempi di oggetti casuali, cioè di fenomeni di cui non si conosce con

certezza il risultato (data la presenza del caso) ma, al massimo,

1. quali risultati si possono avere;

2. con che probabilità ciascun risultato può venire fuori.

Vedremo questo più in dettaglio nella prossima sezione.

5. Distribuzione di una variabile casuale

Riassumendo, allora, la variabile casuale serve a due scopi: primo a trasformare i punti

campionari in numeri; secondo a trasferire ai numeri (ma è più corretto dire ai

sottoinsiemi di R) la probabilità prima definita sugli elementi di A. Per identificare una

variabile casuale dobbiamo allora indicare due cose (tenerlo sempre ben presente!):

1. quali valori può assumere;

2. come la probabilità è distribuita su tali valori.



27

Relativamente ai valori che la variabile casuale può assumere, come ovvio questi

cambiano da caso a caso, e in seguito ne vedremo numerosi esempi. Tuttavia, per motivi

che vedremo in seguito, vengono distinte in discrete e continue. Una v.c. si dice:

a. discreta, se può assumere un numero finito oppure un'infinità numerabile di valori;

b. continua, se può assumere un insieme continuo (e quindi non numerabile) di valori.

Relativamente a come la probabilità è distribuita (potremmo dire “spalmata”) sui valori

che la variabile casuale può assumere, questo può essere indicato in diversi modi,

ciascuno utile per scopi in parte diversi. Noi ne vedremo 3: la funzione di ripartizione

(definita sia per v.c. discrete che continue), la funzione di massa (definita solo per v.c.

discrete) e la funzione di densità (definita solo per v.c. continue).

Definizione 12: Definizione di funzione di ripartizione (o funzione delle probabilità

cumulate). Data una variabile casuale X, la funzione di ripartizione di

X è la funzione

F(x) = P(X ≤ x),

dove x è un qualsiasi numero reale.

La funzione di ripartizione di una variabile casuale, quindi, è semplicemente P(X ≤ x),

cioè, al variare di x, la probabilità che questa assuma valori minori o uguali ad x: solo

per brevità è indicata con F(x), ma dobbiamo sempre pensare che suo significato è,

appunto, P(X ≤ x). A questo proposito il termine, mutuato dall’inglese, di funzione delle

probabilità cumulate, rende sicuramente meglio l’idea: la probabilità è cumulata da –∞

fino al punto x. Si nota inoltre che la funzione di ripartizione rappresenta (non a caso) la

probabilità degli eventi ω∈Ω: X(ω) ≤ x di cui alla definizione di variabile casuale,

cioè P(X ≤ x) è la scrittura abbreviata per Pω∈Ω: X(ω) ≤ x. Come già detto, infatti, la

proprietà che ω∈Ω: X(ω) ≤ x sia un evento serve per poter “trasferire” la probabilità

dagli eventi ai sottoinsiemi di R (X(ω) ≤ x significa infatti X(ω)∈(–∞, x] che appunto è

un sottoinsieme di R).

Analizzeremo in seguito le proprietà più importanti della funzione di ripartizione. Per

adesso facciamo soltanto osservare che conoscendo la funzione di ripartizione di X è



28

possibile ricavare la probabilità che X assuma valori in un qualsiasi intervallo (x1, x2].

Infatti

P(x1 < X ≤ x2) = P(X ≤ x2) – P(X ≤ x1) = F(x2) – F(x1).

Tornando a quanto detto sopra, la funzione di ripartizione risponde allora perfettamente

all’esigenza espressa: indicare come la probabilità è distribuita sui valori che la v.c. può

assumere. La funzione di ripartizione fa questo indicando, al variare di x, la probabilità

di X assumere valori minori o uguali ad x.

Questo modo di specificare come la probabilità è distribuita sui valori che la variabile

casuale può assumere, ha dei pregi e dei difetti. Il pregio principale è che la funzione di

ripartizione è definita allo stesso modo sia per v.c. discrete che per v.c. continue. Il

difetto più importante, invece, è che è riferita ad intervalli, in particolare intervalli aperti

a sinistra del tipo (–∞, x]. Infatti per molte esigenze (in particolare la semplicità di

interpretazione) è utile sapere come la probabilità si distribuisce su ciascun valore che la

v.c. può assumere piuttosto che sugli intervalli (–∞, x].

E’ per ovviare a questo inconveniente che si introducono la funzione di massa (per v.c.

discrete) e la funzione di densità (per v.c. continue).

Definizione 13: Definizione di funzione di massa (di probabilità). Sia X una v.c.

discreta che assume valori, ordinati in senso crescente, x1, …, xk

(eventualmente k è ∞ se la v.c. assume un’infinità numerabile di valori).

La funzione di massa di X è la funzione

f(x) = P(X = x).

Tale funzione vale quindi

f(xi) = P(X = xi)

se i = 1, …, k, mentre vale 0 per gli altri valori di x.

La funzione di massa di una v.c. discreta, quindi, è semplicemente P(X = x), cioè la

probabilità che X sia uguale ad x: solo per brevità è indicata con f(x), ma dobbiamo

sempre pensare che suo significato è, appunto, P(X = x). Come indicato nella

definizione, tale probabilità sarà maggiore di 0 solo per i valori x che la v.c. può

assumere, mentre sarà 0 per tutti gli altri valori di x.



29

Rispetto alla funzione di ripartizione, la funzione di massa ha il grosso pregio di essere

“più intelligibile”, perché la probabilità è riferita a ciascun punto x invece di essere

cumulata da –∞ a x. D’altra parte c’è un rovescio della medaglia: la funzione di massa

non può essere definita per le v.c. continue. Una spiegazione esauriente del motivo

richiederebbe sofisticati strumenti matematici ai quali non è il caso di fare riferimento;

ci limiteremo quindi ad una spiegazione basata su argomenti intuitivi. Una v.c.

continua, come detto può assumere valori in un insieme continuo. Ora nel continuo, e

questo vale anche se si prende un intervallo “piccolino”, ci sono tanti valori, assai più

che nell’infinito numerabile. Se X avesse probabilità positiva, anche piccolissima, in

ciascuno di questi valori, sommando tali probabilità otterremmo che la probabilità che X

assuma un valore qualsiasi (evento certo) sarebbe infinito, contravvenendo ad una delle

regole fondamentali della probabilità secondo le quali P(Ω) = 1. Quindi: primo, non ci

possono essere più di un’infinità numerabile di punti con probabilità maggiore di 0 (e di

questo ne abbiamo già tenuto conto quando abbiamo parlato della funzione di massa);

secondo, nel continuo P(X = x) = 0 in ogni x. Pertanto nel continuo la funzione di massa

non può essere definita e occorre un altro modo per vedere “cosa accade” sulle singole

x: la funzione di densità.

A questo scopo aggiungiamo un’altra considerazione. Come indicato, nel continuo

parlare di probabilità nel singolo punto non serve a molto, dato che questa è sempre 0.

Ha invece senso parlare di probabilità che la X assuma valori in un certo intervallo,

anche piccolissimo, purché di ampiezza maggiore di 0. Ad esempio ha senso la

probabilità che X appartenga ad un intervallo di ampiezza piccola a piacere dx, cioè

P(x < X ≤ x + dx).

Idealmente, possiamo allora pensare di “far scorrere” x da sinistra a destra (ogni volta

partendo dall’estremo superiore dell’intervallo precedente) e di calcolare, al variare di x,

la probabilità che X assuma valori nell’intervallino (x, x + dx]. Tali probabilità avranno

un certo andamento, che può essere il più vario. La cosa che qui interessa, però, non è

tanto il valore di tali probabilità ma di quanto cambia tale probabilità da una x alla

successiva. Interessa cioè il tasso: quanto vale la probabilità in rapporto all’ampiezza

dell’intervallo (dx), ovvero

( )dx

dxxXxP +≤< .



30

La funzione di densità è esattamente tale tasso per l’intervallino di ampiezza

infinitesima.

Definizione 14: Definizione di funzione di densità (di probabilità). Sia X una v.c.

continua che assume valori nell’intervallo (a, b) (eventualmente a può

essere –∞ e b +∞). La funzione di densità di X è la funzione

f(x) = ( )dx

dxxXxPdx

+≤<→0

lim .1

La funzione di densità in x, allora, rappresenta quanto vale la probabilità “intorno ad x”

in rapporto all’ampiezza di tale “intorno”. Il termine funzione di densità serve proprio

ad evocare quanto illustrato: quanto è densa la probabilità in ciascun punto.

A questo punto riassumiamo quanto visto finora. Prima abbiamo definito il concetto di

variabile casuale; successivamente abbiamo affermato che una variabile casuale si

identifica dando: i valori che questa può assumere e come la probabilità si distribuisce

su questi valori. Infine abbiamo detto che quest’ultima cosa, cioè la distribuzione della

probabilità sulle x, può essere data in tre modi diversi: funzione di ripartizione, funzione

di massa e funzione di densità. Ciascuna con pregi e difetti. Rimane una cosa da vedere:

che i diversi modi di indicare la distribuzione di una v.c. sono fra loro equivalenti. E’

chiaro che deve essere così: preso un esperimento campionario, la probabilità è

distribuita sugli eventi in un solo modo. Pertanto funzione di ripartizione – funzione di

massa (per v.c. discrete) e funzione di ripartizione – funzione di densità (per v.c.

continue) sono fra loro strettamente collegate: si può passare dall’una all’altra a seconda

di quello che fa comodo e di quello che interessa. Insieme a questa equivalenza fra le

diverse funzioni illustreremo anche alcune proprietà importanti delle stesse.

Consideriamo prima il caso discreto. Sia X una v.c. discreta che assume valori, ordinati

in senso crescente, x1, …, xk (eventualmente k è ∞ se la v.c. assume un’infinità

numerabile di valori). Allora per ricavare la funzione di massa dalla funzione di

ripartizione e viceversa possiamo utilizzare le seguenti 2 relazioni:

1 Poiché dx può essere anche negativo, in tale caso il numeratore è da intendere come ( )xXdxxP ≤<+ .



31

f(xi) = F(xi) – F(xi–1)

F(xi) = ∑=

i

j 1f(x).

La verifica delle due relazioni è immediata. La prima si ricava dal fatto che

f(xi) = P(X = xi) = P(X ≤ xi) – P(X ≤ xi–1);

la seconda dal fatto che

F(xi) = P(X ≤ xi) = ∑=

i

j 1P(X = xj) = ∑

=

i

j 1 f(xj).

Consideriamo ora il caso continuo. Sia X una v.c. continua che assume valori

nell’intervallo (a, b) (eventualmente a può essere –∞ e b +∞). Allora per ricavare la

funzione di densità dalla funzione di ripartizione e viceversa possiamo utilizzare le

seguenti 2 relazioni:

f(x) = F’(x);

F(x) =∫x

af(y) dy.

Anche in questo caso la verifica delle due relazioni (ricordando un po’ di matematica!)

è immediata. Infatti ricordando la definizione di derivata e il fatto che P(x1 < X ≤ x2) =

F(x2) – F(x1) si ottiene

f(x) = ( )

dxdxxXxP

dx

+≤<→0

lim = ( ) ( )dx

xFdxxFdx

−+→0

lim = F’(x)

e di conseguenza anche l’altra in base al teorema fondamentale del calcolo integrale.

Ripercorrendo le definizioni della funzione di distribuzione, della funzione di massa e

della funzione di densità, risulta immediata l’individuazione delle principali proprietà

che tali funzioni soddisfano.

Proprietà della funzione di ripartizione

1. La funzione di ripartizione essendo una probabilità gode ovviamente delle proprietà

della probabilità; in particolare 0 ≤ F(x) ≤ 1

2. Valgono i limiti−∞→x

lim F(x) = 0 e +∞→x

lim F(x) = 1

3. F(x) monotona non decrescente



32

4. F(x) continua a destra nel caso discreto (i punti di discontinuità si collocano in

corrispondenza dei valori x1, x2, ..., xk assunti dalla variabile) e assolutamente

continua (continua e derivabile quasi ovunque) nel caso continuo.

Proprietà della funzione di massa

1. La funzione di massa essendo una probabilità gode ovviamente delle proprietà della

probabilità; in particolare 0 ≤ f(xi) ≤ 1

2. ∑=

k

i 1 f(xi) = 1.

Proprietà della funzione di densità

1. f(x) ≥ 0

2. ∫b

a f(x) dx = 1

Infine è opportuno esplicitare due formule utili per ricavare la probabilità che X

appartenga ad un dato intervallo, distinguendo a seconda che vogliamo ricavare quanto

interessa dalla funzione di ripartizione oppure dalla funzione di massa o dalla funzione

di densità. Tali relazioni si ricavano facilmente dalle formule precedenti.

1. Se X è una v.c. discreta allora

P(xh ≤ X ≤ xk) = F(xk) – F(xh–1) = ∑=

k

hi f(xi).

2. Se X è una v.c. continua allora

P(x1 ≤ X ≤ x2) = F(x2) – F(x1) = ∫2

1

x

x

f(x) dx.

Come prototipo per la comprensione dei concetti introdotti consideriamo i seguenti

esempi: il risultato del lancio di una moneta onesta e il risultato del lancio di un dado

onesto.



33

Esempio

Nel lancio di una moneta onesta gli unici risultati possibili sono testa (T) e croce (C),

entrambi con probabilità 1/2. Consideriamo allora la v.c. che associa 1 a T e 0 a C.

Poiché le probabilità si conservano nel passare dai punti campionari ai numeri, la

funzione di massa di questa v.c. è data da

f(x) =

==

altrimenti01 se2/10 se2/1

xx

da cui si ricava facilmente anche la funzione di ripartizione [si invita lo studente a

farlo]. Funzione di massa e funzione di ripartizione per la v.c. in oggetto sono riportate

in Fig. 5.

0.00

0.20

0.40

0.60

0.80

1.00

1.20

-1 -0.5 0 0.5 1 1.5 20.00

0.20

0.40

0.60

0.80

1.00

1.20

-1 -0.5 0 0.5 1 1.5 2

Fig. 5– Funzione di massa e funzione di ripartizione per la v.c. 0/1 nel lancio di una

moneta onesta.

Esempio

Nel lancio di un dado onesto gli unici risultati possibili sono le facce puntinate da 1 a 6

puntini, ciascuna con probabilità 1/6. Consideriamo allora la v.c. che associa a ciascuna

faccia il numero dei puntini. Poiché le probabilità si conservano nel passare dai punti

campionari ai numeri, allora la funzione di massa di questa v.c. è data da

f(x) = =

altrimenti06,5,4,3,2,1 se6/1 x



34

da cui si ricava facilmente anche la funzione di ripartizione [si invita lo studente a

farlo]. Funzione di massa e funzione di ripartizione per la v.c. in oggetto sono riportate

in Fig. 6.

0.00

0.20

0.40

0.60

0.80

1.00

1.20

-2 0 2 4 6 8 100.00

0.20

0.40

0.60

0.80

1.00

1.20

-2 0 2 4 6 8 10

Fig. 6 – Funzione di massa e funzione di ripartizione per la v.c. “numero di puntini” nel

lancio del dado onesto.

6. Indici sintetici di una variabile casuale

Nelle due sezioni precedenti, prima abbiamo definito una v.c. e successivamente

abbiamo analizzato alcuni modi di rappresentare la distribuzione della v.c.

Riepiloghiamo. Un esperimento casuale è un fenomeno il cui risultato non è prevedibile

con certezza, ovvero è frutto del caso: esso genera gli eventi con una certa probabilità.

La v.c. trasforma i risultati dell’esperimento casuale in numeri; ma poiché tali risultati

sono frutto del caso, anche i valori che la v.c. assume sono frutto del caso. Ne possiamo

conoscere il valore solo dopo che l’esperimento è stato effettuato, ma prima il massimo

che possiamo sapere sono: i valori che questa assume e con quale probabilità.

Conoscere queste due cose significa conoscere completamente la v.c.; infatti la

distribuzione identifica la v.c., nel senso che ne descrive completamente il massimo che

della v.c. possiamo conoscere: il suo comportamento probabilistico.

Per particolari esigenze, si può tuttavia essere interessati non alla distribuzione della v.c.

considerata, ma più semplicemente a delle sintesi della stessa. Può, cioè, risultare utile,

descrivere una variabile casuale con degli indici caratteristici, anziché procedere ad



35

una sua rappresentazione completa mediante la funzione di distribuzione, la funzione di

massa o la funzione di densità.

A questo scopo, come riferimento per questa sezione supporremo che X sia:

• o una v.c. discreta che assume valori, ordinati in senso crescente, x1, …, xk

(eventualmente k è ∞ se la v.c. assume un’infinità numerabile di valori) con

funzione di massa f(x);

• oppure una v.c. continua che assume valori nell’intervallo (a, b) (eventualmente a

può essere –∞ e b +∞) con funzione di densità f(x).

6.1. Momenti di una variabile casuale

Ci sono vari modi di costruire indici caratteristici di una variabile casuale. Uno fra i più

utilizzati è quello di procedere al calcolo di uno o più valori attesi (momenti) della v.c.

Definizione 13:Definizione di valore atteso (momento). Sia X una v.c. con funzione di

massa o funzione di densità f(x) e sia g(X) una trasformazione di X. Il

valore atteso di g(X) è dato da

E[g(X)] =( ) ( )

( ) ( )

∫

∑=

continua è v.c.la se

discreta è v.c.la se1

b

a

k

iii

dxxfxg

xfxg.

Si evidenzia che un valore atteso è una costante. Quindi un valore atteso è

effettivamente una sintesi della v.c. nel senso descritto sopra, dato che, appunto,

sintetizza la distribuzione della v.c. in un valore. La definizione evidenzia anche che

tale sintesi è realizzata secondo la seguente logica: scelta una opportuna trasformazione

g(.) di X, i valori x trasformati secondo tale funzione, g(x), vengono sommati (o

integrati) dopo averli pesati con la loro probabilità (o densità). In sintesi, allora, un

valore atteso è la somma pesata, sulla base della distribuzione della v.c., di una

opportuna trasformazione dei valori assunti dalla v.c. stessa.



36

Ovviamente possiamo ottenere tanti momenti diversi a seconda della trasformazione

g(.) considerata. Nelle pagine che seguono vedremo che alcune trasformazioni hanno un

ruolo particolare in quanto possono essere interpretati in modo abbastanza semplice.

Prima di analizzare i momenti più importanti è però opportuno illustrare alcune

proprietà che valgono per i momenti in genere. Si evidenzia che tutte le proprietà che

enunceremo dipendono, come è ovvio, da quelle degli operatori ∑ e ∫ :

sostanzialmente si tratta delle proprietà delle somme, dato che ∑ è una “somma

generalizzata” mentre ∫ è una “sommatoria nel continuo” [si invita lo studente a

rivedere le proprietà di questi due operatori!].

Valore atteso di una costante. Se g(X) = k costante, allora

E[g(X)] = E(k) = k.

In parole, questa proprietà può essere ricordata con la frase “il valore atteso di una

costante è uguale alla costante stessa”.

La verifica di tale proprietà è del tutto simile nei casi discreto e continuo ed pressoché

immediata ricordando che la sommatoria della funzione di massa e l’integrale della

funzione di densità sono sempre 1 (si veda sez. 0).

Nel discreto:

E(k) = ∑=

k

i 1k f(xi) = k∑

=

k

i 1f(xi) = k;

nel continuo:

E(k) = ∫b

a

k f(x) dx = k∫b

a

f(x) dx = k.

Proprietà di omogeneità. Sia c è una costante, allora

E[c g(X)] = c E[g(X)].

In parole, questa proprietà può essere ricordata con la frase “il valore atteso di una

costante per g è uguale alla costante per il valore atteso di g”.



37

Tale proprietà deriva da quella analoga di omogeneità di cui godono sia la sommatoria

che l’integrale: come si può verificare facilmente osservando i seguenti passaggi, sono

del tutto simili.

Nel discreto:

E[c g(X)] = ∑=

k

i 1c g(xi) f(xi) = c∑

=

k

i 1g(xi) f(xi) = c E[g(X)];

nel continuo:

E[c g(X)] = ∫b

a

c g(x) f(x) dx = c ∫b

a

g(x) f(x) dx = c E[g(X)].

Proprietà di additività. Siano g1(.) e g2(.) due funzioni. Allora

E[g1(X) + g2(X)] = E[g1(X)] + E[g2(X)].

In parole tale proprietà può essere ricordata con la frase “il valore atteso di una somma è

uguale alla somma dei valori attesi”.

Tale proprietà deriva da quella analoga di additività di cui godono sia la sommatoria

che l’integrale.

Nel discreto:

E[g1(X) + g2(X)] = ∑=

k

i 1[g1(xi) + g2(xi)] f(xi) = ∑

=

k

i 1g1(xi) f(xi) + ∑

=

k

i 1g1(xi) f(xi)

= E[g1(X)] + E[g2(X)];

nel continuo:

E[g1(X) + g2(X)] = ∫b

a

[g1(x) + g2(x)] f(x) dx = ∫b

a

g1(x) f(x) dx + ∫b

a

g1(x) f(x) dx

= E[g1(X)] + E[g2(X)].

Le proprietà di omogeneità e di additività possono essere fuse in un’unica proprietà,

quella di linearità.

Proprietà di linearità. Siano c1 e c2 due costanti, g1(.) e g2(.) due funzioni. Allora

E[c1 g1(X) + c2 g2(X)] = c1 E[g1(X)] + c2 E[g2(X)].



38

In parole tale proprietà può essere ricordata con la frase “il valore atteso di una

combinazione lineare è uguale alla combinazione lineare dei valori attesi”. [Lo studente

provi a dimostrarla direttamente servendosi delle proprietà della sommatoria e

dell’integrale]

Iniziamo adesso l’analisi dei principali momenti.

Momento r-mo dall’origine

Se si pone g(X) = Xr, per r = 0, 1, 2,..., si ottiene il momento r-mo dall’origine, definito

da

µr = E(Xr) =

∫

∑=

continuo nel )(

discreto nel )(1

b

a

r

k

ii

ri

dxxfx

xfx.

Per r = 0 si ottiene µ0, il momento dall’origine di ordine 0. Tale momento non è però

interessante, dato che risulta sempre uguale ad 1. Infatti µ0 = E(X0) = E(1) = 1,

ricordando che il valore atteso di una costante è la costante stessa.

Per r = 1 si ottiene µ1, il momento primo dall’origine:

µ1 = E(X).

Tale momento viene di solito chiamato valore atteso o media ed è spesso indicato con

µ. Il valore atteso E(X) è l’indice sintetico più utilizzato per mettere in evidenza quanto

c’è di tipico nella variabile casuale in quanto esprime il valore “intorno” al quale si

collocano i valori che la v.c. X assume.

Altri momenti di un certo interesse sono il momento secondo dall’origine

µ2 = E(X2),

il momento terzo dall’origine

µ3 = E(X3),

ed il momento quarto dall’origine

µ4 = E(X4)



39

Momento r-mo centrale

Se si pone g(X) = (X – µ)r, per r = 0, 1, 2,..., dove µ = E(X), si ottiene il momento r-mo

centrale, definito da

rµ = E[(X – µ)r] = ( )

( )

−

−

∫

∑=

continuo nel )(

discreto nel )(1

b

a

r

k

ii

ri

dxxfx

xfx

µ

µ.

Oltre a 0µ , il momento centrale di ordine 0 (che risulta sempre 1 per gli stessi motivi di

µ0), non è interessante neppure 1µ , il momento centrale primo. Infatti questo risulta

sempre uguale a 0, come è facile verificare:

1µ = E(X – µ) = E(X) – µ = µ – µ = 0.

La trasformazione g(X) = X – µ rappresenta una traslazione dell’origine nel punto medio

µ ed è spesso detta variabile scarto. Qualunque variabile casuale scarto ha, pertanto,

sempre valore atteso 0.

Per r = 2 si ottiene 2µ , il momento primo dall’origine:

2µ = E[(X – µ)2].

Tale momento viene di solito chiamato varianza ed è spesso indicato con σ2, con V(X)

o con Var(X). Assume una particolare rilevanza in quanto è l’indice più utilizzato per

sintetizzare la variabilità di una variabile casuale. Si nota che la varianza σ2, può essere

ricavata anche a partire dai momenti dall’origine primo e secondo, secondo la relazione

σ2 = µ2 – µ2.

Questa proprietà, spesso “utile per fare i conti”, può essere verificata nel modo

seguente:

σ2 = 2µ = E[(X – µ)2] = E[X2 + µ2 – 2µX] = E(X2) + µ2 – 2µE(X) = µ2 + µ2 – 2µ2 = µ2 – µ2

Come misura di variabilità è assai utilizzata anche la radice quadrata della varianza,

cioè

σ = 2σ = ( )[ ]2µ−XE ,

che prende il nome di scostamento quadratico medio o deviazione standard.



40

Essendo la media e la varianza gli indici caratteristici più utilizzati per sintetizzare in

un solo valore, rispettivamente, la tipicità e la variabilità di una variabile casuale X, si

incontrano spesso situazioni in cui interessa valutare l’effetto sulla media e sulla

varianza di particolari trasformazioni di X. Una delle trasformazioni di maggiore

interesse è la trasformazione lineare (cambiamento del sistema di riferimento che si

risolve nella traslazione dell’origine e nel cambiamento dell’unità di misura con cui è

espressa la variabile):

Y = a + bX.

Se con µX e 2Xσ si indicano rispettivamente la media e la varianza di X, allora la media e

la varianza della variabile trasformata Y risultano

µY = a + bµX 2Yσ = b2 2

Xσ

cioè, “la media di una trasformazione lineare è uguale alla trasformazione lineare della

media originaria”, mentre “la varianza di una trasformazione lineare è pari alla varianza

originaria per il quadrato del coefficiente angolare della trasformazione”. Tali proprietà

possono essere dimostrate sfruttando le proprietà dell’operatore valore atteso nel modo

seguente

µY = E(Y) = E(a + bX) = a + bE(X) = a + b µX 2Yσ = E[(Y – µY)2] = E[(a + bX – a – bµX)2] = E[b2(X – µX)2] = b2 E[(X – µX)2] = b2 2

Xσ .

Momento r-mo standardizzato

Se si pone g(X) = rX

−

σµ per r = 0, 1, 2,..., dove µ = E(X) e σ2 = E[(X – µ)2], si

ottiene il momento r-mo standardizzato, definito da

rµ = E

− rX

σµ =

−

−

∫

∑=

continuo nel )(

discreto nel )(1

b

a

r

k

ii

ri

dxxfx

xfx

σµ

σµ

.



41

Oltre ai momenti standardizzati di ordine 0 ( 0µ = 1) e primo ( 1µ = 1) anche il momento

standardizzato secondo è del tutto irrilevante, dato che risulta sempre uguale ad 1.

Infatti

2µ = E

− 2

σµX = 2

1σ

E[(X – µ)2] = 22

1 σσ

= 1.

La trasformazione g(X) = σ

µ−X , (che come si può vedere facilmente è una

trasformazione lineare: basta porre a = –µ/σ e b = 1/σ) è detta standardizzazione ed è

interessante in quanto oltre a procedere alla traslazione nel punto medio µ utilizza come

“nuova unità di misura” il valore assunto dalla deviazione standard σ.

Per r = 3 si ottiene 3µ , il momento terzo standardizzato:

( )[ ]33

3

33

3 σ

µ

σµ

σµµ =

−=

−

=XEXE

che misura il grado di simmetria, rispetto a µ, della distribuzione della v.c. X ed è di

solito indicato con γ1.

Per r = 4 si ottiene 4µ , il momento quarto standardizzato:

( )[ ]44

4

44

4 σ

µ

σµ

σµµ =

−=

−

=XEXE

che misura la curtosi, cioè l’appiattimento rispetto alla distribuzione normale (che verrà

analizzata nelle pagine successive) della distribuzione della v.c. X, ed è di solito

indicato con γ2.

Come esempio per il calcolo di indici caratteristici della distribuzione di una v.c.

casuale consideriamo i due esempio discussi al termine della sez. precedente: la moneta

onesta e il dado onesto.



42

Esempio

Dalla funzione di massa relativa all’esito di una moneta onesta (codificata in 0/1) si

ricava:

E(X) = 0×0.5 + 1×0.5 = 0.5

E(X2) = 02×0.5 + 12×0.5 = 0.5

V(X) = E(X2) – E(X)2 = 0.5 – 0.52 = 0.25

γ3 = ( )[ ]3

3

σµ−XE = [(0 – 0.5)3×0.5 + (1 – 0.5)3×0.5]/(0.5)3 = 0

γ4 = ( )[ ]4

4

σµ−XE = [(0 – 0.5)4×0.5 + (1 – 0.5)4×0.5]/(0.5)4 = 1

Esempio

Dalla funzione di massa relativa numero di puntini di un dado onesto si ricava:

E(X) = 1×1/6 + 2×1/6 + … + 6×1/6 = 21/6 = 3.5

E(X2) = 12×1/6 + 22×1/6 + … + 62×1/6 = 91/6 = 15.15 6

V(X) = E(X2) – E(X)2 = 91/6 – (21/6)2 = 2.91 6

γ3 = ( )[ ]3

3

σµ−XE = [(1 – 3.5)3×1/6 + … + (6 – 3.5)3×1/6]/(2.91 6)3/2 = 0

γ4 = ( )[ ]4

4

σµ−XE = [(1 – 3.5)4×1/6 + … + (6 – 3.5)4×1/6]/(2.91 6)4/2 = 1.7314

6.2. Altri indici caratteristici

I momenti non sono tuttavia l’unico modo di sintetizzare la distribuzione di una v.c.

Molto utilizzati, soprattutto a livello applicato, sono anche i quantili.

Definizione 15: Definizione di quantile. Sia X una v.c. con funzione di ripartizione

F(x). Il p-mo quantile, con 0 < p < 1, è il valore Q(p) che lascia a

sinistra una probabilità p, cioè tale che

P[X ≤ Q(p)] = p.



43

Facciamo osservare che P[X ≤ Q(p)] = p poteva essere scritto anche mediante la

funzione di ripartizione, cioè F[Q(p)] = p. Il p-mo quantile, quindi, lascia a sinistra una

probabilità p e a destra una probabilità (1 – p). Tuttavia mentre per le v.c. continue è

possibile operare la suddivisione con una proporzione esatta p di casi a sinistra ed una

proporzione (1– p) esatta di casi a destra di Q(p), ciò non è sempre possibile per le v.c.

discrete. Infatti, per le v.c. discrete la funzione di ripartizione varia “a scatti”, cosicché

scelto un p, può accadere, che non esista alcun valore x per il quale F(x) = p. In tal caso

il quantile viene allora individuato in corrispondenza del valore Q(p) nel quale si

riscontra il salto della funzione di ripartizione da un valore inferiore a p ad un valore

superiore a p. Inoltre, sempre per le variabili casuali discrete può accadere che la

relazione F(x) = p valga per un intervallo di valori di x, in questo caso per convenzione

si prende come quantile la semisomma degli estremi dell’intervallo.

Alcuni quantili assumono un ruolo particolare.

Il quantile Q(0.5) è detto mediana ed è indicato col simbolo Me. Come il valore atteso

µ, anche la mediana mette in evidenza quanto c’è di tipico nella variabile casuale,

esprimendo il valore “intorno” al quale si collocano i valori che la v.c. X assume. In

particolare la mediana è il valore in corrispondenza del quale si registra una probabilità

1/2 di valori inferiori e 1/2 di valori superiori.

I quantili Q(0.25) e Q(0.75) sono detti quartili. In particolare: Q(0.25) è detto 1o

quartile, è indicato spesso con Q1, ed è il valore che lascia 1/4 di probabilità a sinistra e

3/4 a destra; Q(0.75) è detto 3o quartile, è indicato spesso con Q3, ed è il valore che

lascia 3/4 di probabilità a sinistra e 1/4 a destra.

I quantili possono essere utilizzati anche per costruire indici di variabilità. A questo

proposito è spesso utilizzato l’indice

IQ = Q3 – Q1,

detto scarto interquartile.

Un altro indice caratteristico è la moda, indicata spesso con Mo. La moda di una

distribuzione è il valore della modalità cui corrisponde la probabilità (nel caso discreto)

o la densità di probabilità (nel caso continuo) più elevata. Quando il massimo non è

unico si parla di distribuzioni plurimodali, concetto questo che può essere esteso anche



44

a situazioni in cui si considerano non solo il massimo assoluto (della probabilità o della

densità di probabilità) ma anche i massimi relativi (massimi locali).

7. Variabili casuali multiple

Nelle pagine precedenti sono state introdotte le variabili casuali. Dato uno spazio

probabilistico (Ω, A, P(.)), una variabile casuale è un modo di trasformare ciascun

punto campionario in un numero reale “conservando sui numeri” la probabilità definita

sugli eventi di A. Successivamente abbiamo descritto la distribuzione di una v.c., che

fornisce una rappresentazione completa della v.c. stessa nel senso che la identifica

completamente, e abbiamo visto alcuni indici caratteristici di una distribuzione.

Per la precisione le v.c. viste in precedenza sono v.c. semplici, nel senso che ad ogni

punto campionario è associato un solo numero reale. Talvolta, però, è opportuno

associare ad ogni punto campionario non un solo numero ma più numeri. Per rendersi

conto di ciò basta pensare ad un esempio già visto in precedenza.

Consideriamo una certa popolazione di N imprese industriali. Ciascuna impresa è

identificata dalla sua ragione sociale per cui lo spazio campionario è dato da Ω = ω1,

…, ωN, dove ωi è la ragione sociale della impresa i. Se di tali imprese interessa

soltanto studiare la redditività, ad esempio misurata dall’indice ROE, possiamo

considerare soltanto la v.c. X che associa a ciascuna impresa il suo ROE. In breve “X è

la v.c. ROE”. D’altra parte assai spesso oltre all’analisi di una variabile in sé, è

interessante studiare tale variabile congiuntamente ad altre, per vedere se tra queste ci

sono relazioni, descriverle e valutarne l’importanza. Può essere allora opportuno

associare a ciascuna impresa non solo il suo ROE, ma anche altre grandezze: ad

esempio altri indici di bilancio (indici di rotazione, di indebitamento, di solvibilità,

ecc.), addirittura ciascuna voce del bilancio, il settore merceologico, l’età dell’impresa,

la provincia di residenza, la ragione sociale, ecc. In tale caso dobbiamo considerare più

v.c. contemporaneamente e ricorrere ad un’analisi multidimensionale o multivariata,

cioè a più variabili.

Tale analisi può essere sviluppata con un ordine degli argomenti simile a quello visto

per le v.c. semplici. Poiché i concetti di base sono gli stessi visti per le v.c. semplici,

molte considerazioni sono analoghe ed eviteremo di ripeterle. Per semplicità, inoltre,



45

dopo la definizione ci limiteremo principalmente al caso bivariato, cioè di v.c. doppie,

facendo cenno al caso generale solo per gli aspetti più interessanti

L’estensione del concetto di v.c. al caso multivariato non presenta difficoltà di ordine

logico. Si tratta, infatti, di definire una funzione che associa a ciascun punto

campionario non più un numero ma una k-upla (k ≥ 2) ordinata di numeri reali.

Definizione 16: Definizione di variabile casuale multipla. Dato uno spazio

probabilistico (Ω, A, P(.)), una variabile casuale multipla k-

dimensionale X = (X1, ..., Xk) è una funzione che ad ogni punto

campionario associa una k-pla ordinata di numeri reali, in simboli

X = (X1, ..., Xk): Ω → Rk

ω a X(ω) = (X1(ω), …, Xk(ω))

che soddisfa la seguente proprietà: ogni insieme del tipo

ω∈Ω: X1(ω) ≤ x1, ..., Xk(ω) ≤ xk,

dove x = (x1, x2, ..., xk) è un qualsiasi elemento di Rk, è un evento, cioè

un elemento di A.

Quindi una variabile casuale a k dimensioni è una funzione a k componenti che fa

corrispondere a ciascun punto campionario una k-upla ordinata di numeri reali in modo

da conservare la probabilità (precedentemente definita sugli eventi, come riassunto

dallo spazio probabilistico).

Si consideri ora il caso k = 2. La v.c. (X1, X2) è una v.c. doppia; per semplificare la

simbologia la identificheremo con (X, Y). Una v.c. doppia (X, Y), allora, è una funzione

che ad ogni punto campionario associa una coppia ordinata di numeri reali, cioè

(X, Y): Ω → R2

ω a (X(ω), Y(ω)),

che soddisfa la proprietà che ogni insieme del tipo ω∈Ω: X(ω) ≤ x, Y(ω) ≤ y, dove (x,

y) è un qualsiasi elemento di R2, è un evento, cioè un elemento di A.



46

Anche per identificare una v.c. doppia (e più in generale una v.c. multipla) occorre

indicare

1. quali valori può assumere;

2. come la probabilità è distribuita su tali valori.

Relativamente ai valori che la variabile casuale può assumere, ovviamente questi

cambiano da caso a caso. Tuttavia è conveniente raggrupparle in v.c. discrete, v.c.

continue e v.c. miste come segue. Una v.c. doppia (e più in generale multipla) è

a. discreta, se ciascuna componente è discreta [rivedersi il significato];

b. continua, se ciascuna componente è continua [rivedersi il significato];

c. mista, se alcune componenti sono discrete ed altre continue.

Relativamente a come la probabilità è distribuita sui valori assunti dalla v.c., anche in

questo caso può essere definita mediante la funzione di ripartizione, la funzione di

massa (se discreta) o la funzione di densità (se continua).

La funzione di ripartizione (o funzione delle probabilità cumulate) della v.c. doppia

(X, Y) è definita da in modo analogo a quella delle v.c. semplici, ovvero

F(x, y) = P(X ≤ x, Y ≤ y).

Anche in questo caso possiamo notare che la funzione di ripartizione rappresenta (non a

caso) la probabilità degli eventi ω∈Ω: X(ω) ≤ x, Y(ω) ≤ y, di cui alla definizione di

v.c. doppia; in altri termini P(X ≤ x, Y ≤ y) è la scrittura abbreviata per Pω∈Ω: X(ω) ≤

x, Y(ω) ≤ y. Infatti, come indicato dallo spazio probabilistico sugli eventi è definita una

probabilità. Poiché, come esplicitato nella definizione di v.c., quello in oggetto è un

evento, su di esso è data una probabilità che tramite la funzione di ripartizione è

trasferita a certi sottoinsiemi di R2.

Anche la funzione di massa per la v.c. discreta (X, Y) può essere definita in modo

analogo a quella delle v.c. semplici. Se (X, Y) è una v.c. discreta le cui componenti

assumono valori, ordinati in senso crescente, rispettivamente x1, …, xh e y1, …, yk, (h e k

possono eventualmente essere +∞ ), allora la funzione di massa di (X, Y) è la funzione

f(x, y) = P(X = x, Y = y),



47

che vale quindi

f(xi, yj) = P(X = xi, Y = yj),

se i = 1, …, h e j = 1, …, k, mentre vale 0 per qualsiasi altra coppia (x, y).

Infine anche la funzione di densità per la v.c. continua (X, Y) può essere definita in

modo analogo a quella delle v.c. semplici. Se (X, Y) è una v.c. continua le cui

componenti assumono valori rispettivamente nell’intervallo (a1, b1) e (a2, b2)

(eventualmente a1 e/o a2 possono essere –∞, b1 e/o b2 +∞), allora la funzione di densità

di (X, Y) è la funzione

f(x, y) = ( )dxdy

dyyYydxxXxPdydx

+≤<+≤<→

,lim0,

.

Si osserva che il numeratore del limite esprime la probabilità che la v.c. doppia (X, Y) si

trovi in un rettangolino di lati dx - dy.

Analogamente alle v.c. semplici, anche per le v.c. multiple, funzione di ripartizione e

funzione di massa (per le v.c. discrete) e funzione di ripartizione e funzione di densità

(per le v.c. continue) sono equivalenti, nel senso che è possibile da una ricavare l’altra e

viceversa. Infatti:

• per le v.c. discrete

F(xi, yj) =∑∑= =

i

u

j

v1 1f(xu, yv)

f(xi, yj) = F(xi, yj) – F(xi, yj–1) – F(xi–1, yj) + F(xi–1, yj–1)

• per le v.c. continue

F(x, y) = ∫ ∫x

a

y

a1 2

f(u, v) du dv

f(x, y) =yx∂∂

∂2F(x, y)

Proseguendo il parallelo con le v.c. semplici, anche funzione di ripartizione, funzione di

massa e funzione di densità delle v.c. doppie godono di particolari proprietà. Tuttavia a

proprietà analoghe a quelle viste per le v.c. semplici se ne aggiungono altre, relative in

particolare alla relazioni tra v.c. doppie e le v.c. semplici che le compongono. Per



48

distinguerle da quella doppia, le v.c. semplici componenti sono anche dette v.c.

marginali e le distribuzioni corrispondenti sono dette distribuzioni marginali.

Proprietà della funzione di ripartizione

1. Essendo una probabilità gode ovviamente delle proprietà della probabilità e in

particolare 0 ≤ F(x, y) ≤ 1

2. Valgono i limiti:

+∞→yx,lim F(x, y) = 1,

cioè la funzione di ripartizione vale 1 quando tutti gli argomenti tendono a +∞;

−∞→xlim F(x, y) = 0

−∞→ylim F(x, y) = 0

cioè la funzione di ripartizione vale 0 se uno qualsiasi degli argomenti tende a –∞;

+∞→xlim F(x, y) = F(y)

+∞→ylim F(x, y) = F(x)

cioè la funzione di ripartizione “perde l’altra componente” quando uno solo fra x o y

tende a +∞. Quest’ultima proprietà è assai utile: significa che per ricavare la

funzione di ripartizione di una v.c. marginale (ad es. X) occorre fare il limite della

funzione di ripartizione della v.c. doppia per l’altra variabile (nell’es. Y) che tende

a + infinito.

3. è monotona non decrescente rispetto a tutti gli argomenti

4. è continua a destra rispetto a tutti gli argomenti nel caso discreto, è assolutamente

continua (continua e derivabile quasi ovunque) rispetto a tutti gli argomenti nel caso

continuo.

Proprietà della funzione di massa

1. La funzione di massa essendo una probabilità gode delle proprietà della probabilità;

in particolare 0 ≤ f(x, y) ≤ 1

2. ∑∑= =

h

i

k

j1 1f(xi, yj) = 1

3. ∑=

h

i 1f(xi, y) = f(y) ∑

=

k

j 1 f(x, yj) = f(x)



49

Quest’ultima proprietà è assai utile: per ricavare la funzione di massa di una v.c.

marginale (ad es. X) basta sommare la funzione di massa della v.c. doppia rispetto

all’altra variabile (nell’es. Y).

Proprietà della funzione di densità

1. f(x, y) ≥ 0

2. ∫ ∫1

1

2

2

b

a

b

a

f(x, y) dx dy = 1

3. ∫1

1

b

a

f(x, y) dx = f(y) ∫2

2

b

a

f(x, y) dy = f(x)

Di nuovo questa proprietà è utile per ricavare la funzione di densità di una v.c.

marginale (ad es. X): basta integrare la funzione di densità della v.c. doppia rispetto

all’altra variabile (nell’es. Y).

Finora abbiamo sviluppato i concetti introdotti per le v.c. multiple in modo parallelo a

quanto fatto per le v.c. semplici, in modo da facilitare la comprensione e la

memorizzazione degli stessi. D’altra parte abbiamo detto all’inizio che le v.c. multiple

sono utili in particolare per lo studio delle relazioni fra le variabili che compongono una

v.c. multipla. Il concetto che segue, quello di variabile casuale condizionata, va

proprio in questa direzione. [A questo riguardo si invita lo studente a rivedere quanto

detto nelle sezioni precedenti riguardo alla probabilità condizionata]

Sia (X, Y) una v.c. doppia. Spesso risulta interessante analizzare una delle variabili (ad

es. Y) per certi particolari valori dell’altra variabile (nell’es. X). Infatti può accadere che

sia il “comportamento” di una ad “influenzare” l’altra; tale influenza può essere studiata

analizzando la distribuzione di una variabile per diversi valori dell’altra: in termini

intuitivi, se la distribuzione rimane “sostanzialmente stabile” è chiaro che ci sarà poca

influenza; se invece “differisce in modo significativo” allora il legame risulta evidente.

Tenendo presente la definzione di probabilità condizionata di cui alle sezioni

precedenti, la v.c. (Y | X = x) (che si legge “Y condizionata a X = x” oppure “Y dato X =

x”) ha una distribuzione definita da



50

f(y | x) = )(),(

xfyxf

dove:

• f(x, y) è la funzione di massa (se entrambe le v.c. sono discrete) oppure la funzione

di densità (se entrambe le v.c. sono continue) della v.c. doppia;

• f(x) è la funzione di massa (se X è discreta) oppure la funzione di densità (se X è

continua) della v.c. semplice X;

• la risultante f(y | x) sarà una funzione di massa se Y è una v.c. discreta e una

funzione di densità se Y è una v.c. continua.

In modo analogo è definita la v.c. condizionata (X | Y = y): basta invertire il ruolo delle

due variabili nella definizione data [si invita lo studente a farlo per conto proprio].

Si sottolinea un aspetto importante: (per ovvie ragioni) la funzione di massa/densità

della v.c. condizionata (Y | X = x) è definita solo per i valori di x per i quali f(x) > 0.

Questo implica che: se X è discreta, allora (Y | X = x) ha senso solo per i valori x che la

v.c. X assume con probabilità positiva (tali valori saranno quindi un numero finito o

un’infinità numerabile); se invece X è continua, allora (Y | X = x) ha senso solo per le x

che hanno densità maggiore di 0 (quindi saranno un’infinità non numerabile).

Si evidenzia un altro aspetto, già menzionato ma che merita di essere sottolineato

ulteriormente: la distribuzione condizionata riguarda la distribuzione di una v.c., ad es.

Y, per fissato un valore dell’altra variabile (nell’es. X). Di conseguenza in questa ottica

si analizza la distribuzione di Y in corrispondenza di un preciso valore x di X. Pertanto

la distribuzione condizionata di (Y | X = x) non deve essere assolutamente confusa con

la distribuzione marginale di Y, che invece riguarda la distribuzione di Y “come se X

non ci fosse”, cioè “dimenticandosi completamente dell’altra v.c. X”.

Altra osservazione. Le v.c. condizionate viste sono in tutto e per tutto delle v.c.

semplici. Di conseguenza anche per queste possono essere definiti degli indici

caratteristici (momenti, quantili, ecc.) in modo del tutto analogo a quanto fatto per le

v.c. semplici [non lo faremo esplicitamente ma si invita lo studente a farci mente

locale]. Ovviamente tali indici caratteristici riguardano la v.c. condizionata, dato che

quella condizionante, come indicato sopra, è come se fosse fissata ad un certo valore.



51

Sempre facendo riferimento all’analogo concetto illustrato relativamente alla probabilità

di eventi, risulta immediato il concetto di indipendenza fra v.c.

Sia (X, Y) una v.c. doppia. Allora X ed Y sono indipendenti se per ogni x e per ogni y

vale una qualsiasi delle seguenti relazioni (le altre sono conseguenze)

f(x, y) = f(x) f(y)

f(x | y) = f(x)

f(y | x) = f(y)

Possiamo notare che solo in caso di indipendenza la distribuzione condizionata coincide

con la distribuzione marginale della v.c. corrispondente.

La funzione di ripartizione, la funzione di massa e la funzione di densità descrivono in

modo completo sia la variabile casuale doppia che le variabili casuali semplici (variabili

casuali marginali) componenti la variabile casuale doppia nonché le variabili casuali

condizionate. Come già evidenziato a proposito delle variabili casuali semplici può

risultare comunque conveniente una descrizione sintetica (e quindi parziale) delle

variabili casuali doppie mediante indici caratteristici. Un modo per procedere nella

sintesi, analogamente a quanto si è fatto per le variabili casuali semplici, è quello di

calcolare il valore atteso di opportune trasformazioni delle variabili casuali doppie.

Siano (X, Y) una v.c. doppia e g(X, Y) una generica trasformazione della v.c. doppia (X,

Y). Allora il valore atteso di g(X, Y) è definito da

E[g(X, Y)] =

( ) ( ) ( )

( ) ( ) ( )

∫ ∫

∑∑= =

continua v.c.una è , se

discreta v.c.una è , se

1

1

2

2

1 1

YXdxdyx,yfx,yg

YX,yxf,yxg

b

a

b

a

h

i

k

jjiji

Ponendo g(X, Y) = Xr Ys, per r, s = 0, 1, 2, ..., si ha

µrs = E(Xr Ys) =

( ) ( )

( ) ( )

∫ ∫

∑∑= =

continua, v.c.una è se

discreta v.c.una è se

1

1

2

2

1 1

X,Ydxdyx,yfyx

X,Y,yxfyx

b

a

b

a

sr

h

i

k

jji

sj

ri

detto momento misto di ordine r-s rispetto all’origine.



52

Risulta facile verificare che tutti i momenti misti µr0 e µ0s sono i corrispondenti

momenti delle variabili casuali marginali X ed Y; infatti, si ha, ad esempio:

µr0 = E(Xr Y0) = E(Xr)

e analogamente per µ0s. Questo significa che i momenti misti rispetto all’origine in cui r

oppure s sono 0, sono i corrispondenti momenti della v.c. marginale: quindi possono

essere calcolati da questa e per gli stessi valgono le regole date per i momenti delle v.c.

semplici.

Il momento misto dall’origine più significativo quello di ordine 1-1

µ11 = E(XY)

cioè il valore atteso del prodotto fra X e Y.

Ponendo g(X, Y) = (X − µX)r (Y − µY)s, per r, s = 0, 1, 2, ..., si ha

rsµ = E[(X − µX)r (Y − µY)s]

che viene detto momento misto di ordine r-s centrale.

Anche in questo caso risulta facile verificare che i momenti misti centrali in cui r

oppure s sono 0 sono i corrispondenti momenti della v.c. marginale; infatti, si ha, ad

esempio:

0rµ = E[(X − µX)r (Y − µY)0] = E[(X − µX)r]

e analogamente per s0µ .

Particolarmente interessante risulta invece il momento misto di ordine 1-1 centrale:

11µ = E[(X − µX) (Y − µY)].

Tale momento misto è detto covarianza ed è spesso indicato con σXY, con Cov(X, Y) o

con C(X, Y).

Si evidenzia che, per come è definita, la covarianza è “simmetrica” rispetto agli

argomenti, cioè C(X, Y) = C(Y, X). Si fa notare anche che C(X, X) = V(X), cioè la

covarianza fra X e se stesso è la varianza di X.

La covarianza è un indice assoluto di correlazione (o di concordanza) tra le due

componenti e può assumere valore positivo, negativo o nullo.

La covarianza risulta positiva quando X e Y variano tendenzialmente nella stessa

direzione, cioè al crescere della X tende a crescere anche Y e al diminuire della X tende

a diminuire anche Y. In questo caso si ha che a scarti positivi (negativi) (X – µX)



53

corrispondono, tendenzialmente, scarti positivi (negativi) (Y – µY), cosicché il prodotto

degli scarti risulta mediamente positivo.

La covarianza risulta invece negativa quando le due variabili variano tendenzialmente

in direzione opposta, cioè quando al crescere di una variabile l’altra variabile tende a

diminuire (e viceversa). In questo caso a scarti positivi di una variabile corrispondono,

tendenzialmente, scarti negativi dell’altra variabile, cosicché il prodotto di tali scarti

risulta mediamente negativo.

Come indicato la covarianza può anche risultare zero. Ciò accade quando non vi è

alcuna tendenza delle 2 variabili a variare nella stessa direzione o in direzione opposta.

Quando σXY = 0 si dice anche che X ed Y sono incorrelate o linearmente indipendenti

(maggiori dettagli saranno forniti quando parleremo del coefficiente di correlazione).

Si nota che la covarianza σXY, può essere ricavata anche a partire dai momenti

dall’origine, secondo la relazione

σXY = E(XY) – E(X) E(Y).

Questa proprietà, spesso “utile per fare i conti”, può essere verificata nel modo

seguente:

σXY = E[(X − µX) (Y − µY)] = E(XY – XµY −µXY + µXµY)

= E(XY) – µXµY – µXµY + µXµY = E(XY) – E(X) E(Y)

Infine si può dimostrare atti si può dimostrare che vale la relazione

–σX σY ≤ σXY ≤ σX σY

cioè la covarianza fra X e Y in valore assoluto è sempre minore o uguale al prodotto

delle deviazioni standard di X e di Y (anche in questo caso maggiori dettagli saranno

forniti quando parleremo del coefficiente di correlazione).

Ponendo g(X, Y) = s

Y

Yr

X

X YX

−

−σ

µσ

µ , per r, s = 0, 1, 2,…, si ha

−

−=

s

Y

Yr

X

Xrs

YXE

σµ

σµ

µ

che viene detto momento misto di ordine r-s standardizzato.

Il momento misto standardizzato più significativo è quello di ordine 1-1,



54

YX

XY

Y

Y

X

X YXE

σσσ

σµ

σµ

µ =

−

−=11 .

Tale momento misto è usualmente detto coefficiente di correlazione ed è indicato

anche con ρ, con ρXY, o con Corr(X, Y). Come la covarianza anche il coefficiente di

correlazione è “simmetrico” rispetto ai suoi argomenti, cioè Corr(X, Y) = Corr(Y, X),

mentre Corr(X, X) è ovviamente 1.

Anche il coefficiente di correlazione, come la covarianza, è un indice di correlazione

(o di concordanza), anche se relativo (la covarianza è invece un indice di correlazione

assoluto). Infatti, poiché come indicato parlando della covarianza, vale la relazione –σX

σY ≤ σXY ≤ σX σY, allora

ρXY =YX

XYσσ

σ∈[–1, 1],

ovvero il coefficiente di correlazione è sempre compreso fra –1 e +1. In pratica, quindi,

il coefficiente di correlazione è una specie di “covarianza relativizzata” in modo che il

suo valore sia compreso fra –1 ed 1 (invece che fra –σX σY e σX σY). Si fa notare che il

segno di ρXY è ovviamente il segno di σXY, cioè il segno del coefficiente di correlazione

dipende dal segno della covarianza.

Si può dimostrare che ρXY = ±1 (ovvero σXY = ± σX σY) solo quando le due v.c. X ed Y

sono linearmente dipendenti cioè quando esistono due costanti a e b tali che Y = a +

bX. In questo caso il segno di ρXY è lo stesso di b, il coefficiente angolare della retta.

Quando ρXY < 0 (che equivale a σXY < 0) si dice che X e Y sono correlati

negativamente (o inversamente), cioè all’aumentare di uno l’altro tende a diminuire (e

viceversa); quando ρXY > 0 (che equivale a σXY < 0) si dice che X e Y sono correlati

positivamente (o direttamente), cioè all’aumentare di uno anche l’altro tende ad

aumentare; quando invece ρXY = 0 si dice che X e Y sono incorrelati (o linearmente

indipendenti).

Si evidenzia che l’incorrelazione è una forma molto particolare di mancanza di

associazione tra variabili e non esclude affatto la presenza di un possibile legame di

natura diversa tra le due componenti X ed Y della v.c. doppia. Infatti potrebbe sussistere

tra le due componenti un legame funzionale molto stretto, ad es. Y = a + bX2, e risultare

ρXY = 0.



55

Si sottolinea poi che

X, Y indipendenti ⇒ X, Y incorrelati.

Infatti, se le due componenti X ed Y sono indipendenti allora f(x, y) = f(x) f(y) e quindi

(considerando a titolo di esempio il caso continuo)

σXY = E[(X − µX) (Y − µY)] = ∫ ∫1

1

2

2

b

a

b

a

(x − µX) (y − µY) f(x, y) dxdy

= ∫∫1

1

2

2

b

a

b

a

(x − µX) (y − µY) f(x) f(y) dxdy = ∫1

1

b

a

(x − µX) f(x) dx ∫1

1

b

a

(y − µY) f(y) dy = 10µ 01µ = 0

Viceversa l’incorrelazione, come già accennato, non implica l’indipendenza statistica a

meno di casi particolari; su uno di questi casi si avrà modo di soffermare l’attenzione

parlando della v.c. Normale doppia.

Sempre relativamente ai valori attesi, aggiungiamo senza dimostrazione (per la verità

tali relazioni non sono difficili da dimostrare) alcune relazioni che possono risultare

utili. Le prime due riguardano valore atteso e varianza della combinazione lineare (in

alcuni contesti detta “portafoglio”) di due v.c.:

E(c1X + c2Y) = c1E(X) + c2E(Y)

V(c1X + c2Y) = 21c V(X) + 2

2c V(Y) + 2c1c2C(X, Y).

La prima dice che “il valore atteso di una combinazione lineare è uguale alla

combinazione lineare dei valori attesi”; la seconda che “la varianza di una

combinazione lineare è una particolare combinazione lineare delle varianze e delle

covarianze”.

Ovviamente se le v.c. X e Y sono incorrelate (cioè C(X, Y) = 0) la prima rimane

inalterata e la seconda diviene

V(c1X + c2Y) = 21c V(X) + 2

2c V(Y).

[Sulla base di queste due relazioni si invita lo studente ad esplicitare quanto valgono

valore atteso e varianza di X + Y e di X – Y nel caso generale, quando X e Y sono

incorrelate e quando sono indipendenti].

Le altre due riguardano invece relazioni fra momenti marginali e momenti condizionati:

E(Y) = E[E(Y | X)] (associatività)

V(Y) = V[E(Y | X)] + E[V(Y | X)] (scomposizione della varianza)



56

Per concludere questa sezione occorre fare qualche ulteriore considerazione sulle v.c.

multiple X = (X1, …, Xk), dove k può essere anche maggiore di 2. Inizialmente abbiamo

dato la definizione di v.c. multipla per una generica v.c. k-dimensionale; tuttavia per

evitare l’eccessiva complessità formale che il caso generale comporta abbiamo limitato

l’analisi alle v.c. doppie. A questo punto possiamo affermare che le definizioni e i

concetti dati possono essere facilmente estesi al caso generale a prezzo, ripetiamo, di

una maggiore complessità delle formule: funzione di ripartizione, funzione di massa,

funzione di densità, proprietà di queste funzioni e relazioni fra queste funzioni, v.c.

condizionate, indipendenza fra v.c., momenti possono essere tutti estesi al caso

generale.

[Lo studente interessato può andarsi a vedere uno dei testi di utile consultazione a

supporto di questo corso]

Per quanto ci riguarda ci limiteremo ad alcune considerazioni aggiuntive non

immediatamente evidenti da quanto detto finora ma che risulteranno utili nel seguito.

• Il concetto di condizionamento è essenzialmente analogo a quello visto per le v.c.

doppie. Nel caso generale, però, possiamo addirittura pensare di condizionare un

sottoinsieme di v.c. ad un altro sottoinsieme di v.c. nell’ambito delle k v.c.

componenti la v.c. multipla.

• Il concetto di indipendenza fra k v.c. anche se del tutto analogo a quello delle v.c.

doppie merita di essere esplicitato. k v.c. (X1, …, Xk) sono indipendenti se la

funzione di massa o di densità della v.c. multipla è uguale al prodotto delle funzioni

di massa o di densità delle v.c. marginali, cioè

f(x1, …, xk) = f(x1) … f(xk) = ∏=

k

i 1 f(xi).

• Valgono le seguenti generalizzazioni di alcune relazioni viste in precedenza sui

momenti di una combinazione lineare di v.c. casuali (in taluni contesti detta

“portafoglio”)

( )∑∑==

=

k

iii

k

iii XEcXcE

11



57

( ) ( )∑∑∑∑= ≠==

+=

k

i ijjiji

k

iii

k

iii XXCccXVcXcV

11

2

1,

Di nuovo: La prima dice che “il valore atteso di una combinazione lineare è uguale

alla combinazione lineare dei valori attesi”; la seconda che “la varianza di una

combinazione lineare è una particolare combinazione lineare delle varianze e delle

covarianze”.

Ovviamente se le v.c. sono tutte fra loro incorrelate (cioè C(Xi, Xj) = 0 per ogni i ≠

j) la prima rimane inalterata e la seconda diviene

( )∑∑==

=

k

iii

k

iii XVcXcV

1

2

1.

8. Alcune tipiche distribuzioni

Finora abbiamo trattato le v.c. in generale. Adesso è opportuno illustrare alcuni

particolari tipi di v.c., cioè alcuni particolari modelli probabilistici che si sono

dimostrati particolarmente utili in vari campi della ricerca applicata. Si tratta cioè di

particolari modelli di comportamento casuale che nonostante la (relativa) semplicità

sono comunque capaci di rappresentare bene il comportamento probabilistico di molti

fenomeni reali.

[Per una corretta memorizzazione delle diverse distribuzioni illustrate, si invita lo

studente a schematizzare ciascuna nei seguenti punti: 1. definizione (cioè valori che la

v.c. può assume e con quale funzione di massa o di densità); 2. esperimento tipico che

può essere associato a tale v.c. (questo vale in particolare per le v.c. discrete); 3.

principali indici caratteristici; 4. proprietà]

8.1. Distribuzioni discrete

8.1.1. Bernoulli

La v.c. X ha una distribuzione di Bernoulli, in simboli X ~ Be(p), se la sua funzione di

massa è:



58

f(x; p) =

=−

altrimenti010per 1 ,xqp xx

dove p∈[0,1] e q = 1 – p.

0.00

0.20

0.40

0.60

0.80

1.00

1.20

-0.2 0 0.2 0.4 0.6 0.8 1 1.20.00

0.20

0.40

0.60

0.80

1.00

1.20

-0.2 0 0.2 0.4 0.6 0.8 1 1.2

0.00

0.20

0.40

0.60

0.80

1.00

1.20

-0.2 0 0.2 0.4 0.6 0.8 1 1.20.00

0.20

0.40

0.60

0.80

1.00

1.20

-0.2 0 0.2 0.4 0.6 0.8 1 1.2 Fig. 7 – Funzione di massa e funzione di ripartizione per X ~ Be(p) (p = 0.1 a sinistra e

p = 0.3 a destra).

La v.c. di Bernoulli assume quindi due soli valori: X = 1, con probabilità p; X = 0, con

probabilità q. La probabilità di ottenere una qualsiasi altra x è invece 0. Per questo

motivo, il modello di Bernoulli è utilizzato per rappresentare tutti gli esperimenti

casuali di tipo dicotomico, che cioè possono originare due soli risultati fra loro

esclusivi: sì/no, vero/falso, successo/insuccesso, fallito/non fallito, sano/malato, ecc. Il

risultato che interessa è identificato con 1 e l’altro con 0. Per comodità, tuttavia, spesso

ci si riferisce ad 1 come SUCCESSO e a 0 come INSUCCESSO.

L’esperimento tipico spesso associato al modello di Bernoulli è quello dell’urna con una

proporzione p di palline BIANCHE e q = 1 – p di palline NON BIANCHE, del quale



59

interessa la probabilità di ottenere BIANCA (e complementarmente quella di NON

BIANCA) in una estrazione.

Per questa v.c. è assai semplice determinare il valore dei principali indici caratteristici:

E(X) = p

V(X) = pq

Tale risultato si ricava facilmente dai valori attesi di cui alle pagine precedenti. Infatti

E(X) = 1 p + 0 q = p

E(X2) = 12 p + 02 q = p

V(X) = E(X2) – E(X) 2 = p – p2 = p(1 – p) = pq

8.1.2. Binomiale

La v.c. X ha una distribuzione di binomiale, in simboli X ~ Bi(n, p), se la sua funzione

di massa è:

f(x; n, p) =

=

−

altrimenti0

,,10per n,xqpxn xnx K

dove )!(!

!xnx

nxn

−=

, p∈[0,1] e q = 1 – p.

0.00

0.10

0.20

0.30

0.40

0.50

-2 0 2 4 6 8 10 12

0.00

0.10

0.20

0.30

0.40

0.50

-2 0 2 4 6 8 10 12



60

0.00

0.20

0.40

0.60

0.80

1.00

1.20

-2 0 2 4 6 8 10 12

0.00

0.20

0.40

0.60

0.80

1.00

1.20

-2 0 2 4 6 8 10 12

Fig. 8– Funzione di massa e funzione di ripartizione per X ~ Bi(n, p) (n = 10; p = 0.8 a

sinistra e p = 0.9 a destra).

La v.c. binomiale può assumere allora solo valori interi da 0 a n, mentre la probabilità di

ottenere una qualsiasi altra x è 0.

Anche la distribuzione binomiale, come quella di Bernoulli, è utilizzata in caso di

esperimenti dicotomici del tipo SUCCESSO/INSUCCESSO (1/0) e di nuovo

l’esperimento tipico è quello dell’urna con una proporzione p di palline BIANCHE e q

= 1 – p di palline NON BIANCHE.

A differenza del caso Bernoulliano, tuttavia, si effettuano n prove indipendenti (cioè

nelle stesse condizioni) delle quali si è interessati a determinare la probabilità di

ottenere x SUCCESSI (e ovviamente n – x INSUCCESSI). L'interpretazione della

formula della funzione di massa della v.c binomiale è allora immediata: la probabilità di

una specifica successione di x successi e (n – x) insuccessi è pari (formula delle

probabilità composte per eventi indipendenti) a xnx

xnx

qpqqqppp −

−

=⋅⋅43421K

43421K

volte)(volte

;

non essendo interessati all'ordine di presentazione dei successi, ma solo al loro numero,

tali probabilità dovranno essere sommate (formula delle probabilità totali per eventi

incompatibili) tante volte quante sono le permutazioni di n oggetti di cui x ed

(n – x) sono uguali tra loro, appunto

xn

(si veda appendice).

Da quanto detto risultano due importanti relazioni della binomiale con la Bernoulli.



61

1. Se n = 1 allora Bi(n = 1, p) = Be(p), dato che su una sola prova la somma dei

SUCCESSI è 1 se nella prova vene fuori SUCCESSO e 0 se viene fuori

INSUCCESSO.

2. Poiché, come detto, le n estrazioni sono indipendenti, è ovvio che ciascuna

estrazione è esattamente una prova di Bernoulli. Quindi se Xi è la v.c. risultato della

i-ma prova, allora Xi ~ Be(p). D’altra parte, ciascuna Xi sarà 0 (se INSUCCESSO) o

1 (se SUCCESSO) e quindi la somma delle Xi sarà semplicemente la somma degli 1,

ovvero la somma dei SUCCESSI che però, per quanto visto in questa sezione, ha

una distribuzione binomiale. Riassumendo, allora

Xi ~ Be(p) indipendenti i = 1, …, n ⇒ X = ∑=

n

i 1Xi ~ Bi(n, p),

che può essere ricordato con la frase “la somma di n Bernoulli indipendenti è una

binomiale”. Se utile, inoltre, tale relazione può essere utilizzata anche nel modo

seguente: una binomiale può essere sempre rappresentata come somma di tante

Bernoulli indipendenti.

La relazione precedente semplifica anche il calcolo dei principali indici caratteristici

della v.c. binomiale. Infatti rappresentando X ~ Bi(n, p) come somma di tante Bernoulli

indipendenti e utilizzando le proprietà dei valori attesi si ottiene

E(X) = np;

V(X) = npq.

Infatti

E(X) = E(∑=

n

i 1Xi) = ∑

=

n

i 1E(Xi) = ∑

=

n

i 1p = np;

V(X) = V(∑=

n

i 1Xi) = ∑

=

n

i 1V(Xi) = ∑

=

n

i 1pq = npq.

Strettamente collegata alla v.c. binomiale è la v.c. binomiale relativa. Come detto, X ~

Bi(n, p) rappresenta il numero di successi in n prove di Bernoulli indipendenti ciascuna

con probabilità p. Tuttavia accade spesso di essere interessati non al numero di successi

ma alla proporzione di successi Y = nX . In tal caso si dice che Y =

nX ha una



62

distribuzione binomiale relativa (da interpretare come “binomiale relativizzata”) con

parametri n e p:

Y = nX ~ BiRe(n, p).

La v.c. Y assumerà quindi valori 0, 1/n, 2/n, …, 1. Anche se si può farlo non ne

scriviamo la funzione di massa in quanto non è molto utile: tutti i conti che interessano

possono essere infatti effettuati lavorando non sulla proporzione di successi Y ma sul

numero di successi X. Ad esempio se interessa la probabilità che la proporzione di

successi sia compresa in un certo intervallo [c1, c2] abbiamo

P(c1 ≤ Y ≤ c2) = P(c1≤ nX ≤ c2) = P(nc1 ≤ X ≤ nc2).

Come si vede il calcolo è stato ricondotto a quello di una probabilità per la v.c. X

numero di successi.

I principali indici caratteristici della binomiale relativa, invece si ricavano facilmente da

quelli della binomiale utilizzando le proprietà dei valori attesi:

E(Y) = p V(Y) = npq

Infatti:

E(Y) = E(nX ) =

n1 E(X) =

n1 np = p

V(Y) = V(nX ) = 2

1n

V(X) = 21

nnpq =

npq

Esempio

Assumendo che la probabilità di nascita di un maschio o una femmina sia uguale, cioè p

= 1 – p = 0.5, si vuol determinare la probabilità che in una famiglia con 4 figli vi sia: a.

almeno un maschio; b. almeno un maschio ed una femmina.

Indichiamo con X la v.c. numero di maschi. Allora X ~ Bi(n = 4, p) (n è pari a 4, il

numero di figli).

a. Il procedimento più breve è far riferimento all’evento complementare, cioè

P(almeno un maschio) = P(X ≥ 1) = 1 – P(X = 0),

dato che il numero di maschi è un intero non negativo. D’altra parte



63

P(X = 0) = 040 5.05.004 −

= 0.0625,

per cui

P(X ≥ 1) = 1 – 0.0625 = 0.9375

b. “almeno un maschio ed una femmina” significa che il numero dei maschi deve

essere almeno 1 (ovviamente) e non più di 3 (per permettere che almeno 1 sia una

femmina):

P(almeno un maschio ed una femmina) = P(1 ≤ X ≤ 3) = P(X = 1) + P(X = 2) + P(X = 3)

= 141 5.05.014 −

+ 242 5.05.0

24 −

+ 343 5.05.0

34 −

= 0.25 + 0.375 + 0.25 = 0.875

Esempio

In una serie di esperimenti su cavie è stata riscontrata una mortalità del 60%. Volendo

predisporre un ulteriore esperimento in modo tale che, con una probabilità superiore

all'80%, almeno due animali sopravvivano, si chiede quale dovrà essere il numero

minimo di cavie da sottoporre ad esperimento.

Sia X la v.c. numero di cavie sopravvissute. Allora X ~ Bi(n, p = 0.4) (la probabilità di

SUCCESSO = cavia sopravvissuta in una prova è 1 – 0.6 = 0.4). Il problema da

risolvere è determinare il più piccolo n (numero di cavie da sottoporre ad esperimento)

capace di soddisfare la disuguaglianza

P(X ≥ 2) > 0.8.

Questo problema si risolve procedendo per tentativi sul valore di n, tenendo però conto

che, come è facile intuire, la probabilità al primo membro cresce al crescere di n (infatti

più cavie si utilizzano più è probabile che almeno 2 sopravvivano). Proviamo a partire

da un valore tentativo n (ma andrebbe bene un n qualsiasi) “facendo finta” che 2 (il

numero minimo di cavie sopravvissute) sia anche il valore atteso. Allora dalla formula

di E(X) si ottiene n = 2/0.4 = 5. Se n fosse 5 allora

P(X ≥ 2) = 1 – P(X = 0) – P(X = 1) = 1 – 050 6.04.005 −

– 151 6.04.0

15 −

= 0.66304,

che come si nota è inferiore a 0.8. n = 5 è allora troppo piccolo. Proviamo n = 6:

P(X ≥ 2) = 1 – P(X = 0) – P(X = 1) = 1 – 060 6.04.006 −

– 161 6.04.0

16 −

= 0.76672.



64

che è ancora inferiore a 0.8. Proviamo n = 7:

P(X ≥ 2) = 1 – P(X = 0) – P(X = 1) = 1 – 070 6.04.007 −

– 171 6.04.0

17 −

= 0.84137.

Ci siamo! Il numero minimo di cavie da sottoporre ad esperimento è quindi 7.

8.1.3. Ipergeometrica

La v.c. X ha una distribuzione di ipergeometrica, in simboli X ~ IG(n, N, K), se la sua

funzione di massa è:

f(x; n, N, K) = ( ) [ ]

−−

−−

altrimenti0

,min,maxin intero per KnKNn x

nN

xnKN

xK

dove n, N e K sono interi positivi con n ≤ N e K ≤ N.

La v.c. ipergeometrica può assumere allora solo valori interi compresi fra un certo

minimo, dato da max0, n – (N – K) e un certo massimo, dato da minn, K.

Al di là della definizione, per comprendere la distribuzione ipergeometrica conviene

riprendere in considerazione le due v.c. precedenti nell’interpretazione che si rifà al

linguaggio dell'estrazione casuale da un'urna. Si consideri allora un'urna contenente N

palline, di cui K BIANCHE e N – K NON BIANCHE. La probabilità di estrarre pallina

bianca (SUCCESSO) in una prova sarà allora p = NK .

Se nel contesto precedente si effettua una sola estrazione, la v.c. esito di tale estrazione

(SUCCESSO/INSUCCESSO) si distribusce secondo una Be(p = NK ).

Se invece si effettuano n estrazioni con ripetizione, cioè con reinserimento della pallina

nell’urna, i risultati delle n estrazioni sono indipendenti e la v.c. numero di successi si

distribuirà secondo una Bi(n, p = NK ).

Si invece si effettuano le n estrazioni senza ripetizione, cioè senza rimettere ogni volta

la pallina estratta nell'urna, i risultati delle n estrazioni non sono più indipendenti, dato



65

che la probabilità di estrarre un certo colore alle estrazioni successive è legato ai colori

estratti in precedenza. In questa situazione la probabilità di estrarre esattamente x

BIANCHE è data dalla funzione di massa della ipergeometrica, come si può facilmente

verificare mediante le formule del calcolo combinatorio. L’interpretazione

dell’estrazione dall’urna senza reimmissione consente anche di spiegare facilmente il

motivo per il quale x è compreso fra max0, n – (N – K) e minn, K. Che x deve

essere compreso fra 0 ed n è ovvio. D’altra parte se n – (N – K) > 0, cioè il numero di

estrazioni n è maggiore del numero di NON BIANCHE (N – K), nella peggiore delle

ipotesi si pescano tutte le (N – K) NON BIANCHE, ma le rimanenti n – (N – K) estratte

devono essere per forza BIANCHE; se invece n < K, cioè il numero di estrazioni n è

minore del numero di BIANCHE K, nella migliore delle ipotesi si pescano tutte le K

BIANCHE, ma le rimanenti devono essere per forza NON BIANCHE.

I principali indici caratteristici della v.c. ipergeometrica sono

E(X) = nNK = np

V(X) = npqN

nNNK

NKn

NnN

11

1 −−

=

−

−−

dove con p = NK abbiamo indicato la proporzione di BIANCHE nell’urna.

La principale proprietà della distribuzione Ipergeometrica è data dalla sua relazione con

la distribuzione Binomiale. Oltre alla analogia delle situazioni alle quali le due

distribuzioni possono essere applicate, infatti, si può dimostrare che per N

sufficientemente grande la distribuzione Ipergeometrica può essere approssimata con la

Binomiale, cioè:

IG(n, N, K) ≈ Bi(n, p = NK ).

Anche senza dimostrazioni si può intuire la correttezza di tale relazione se si pensa che

per N “grande”, anche in caso di reimmissione la probabilità di estrarre la stessa unità è

prossima a 0.



66

8.1.4. Poisson

La v.c. X ha una distribuzione di Poisson, in simboli X ~ Po(λ), se la sua funzione di

massa vale:

f(x; λ) =

=−

altrimenti0

,2,1,0per !

Kxxex λλ

dove, λ ≥ 0.

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

-2 0 2 4 6 8 10 120.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

-2 0 2 4 6 8 10 12

0.00

0.20

0.40

0.60

0.80

1.00

1.20

-2 0 2 4 6 8 10 120.00

0.20

0.40

0.60

0.80

1.00

1.20

-2 0 2 4 6 8 10 12

Fig. 9 – Funzione di massa e funzione di ripartizione per X ~ Po(λ) (λ = 0.9 a sinistra e

λ = 2.3 a destra).

La v.c. di Poisson può assumere allora solo valori interi da 0 a +∞, mentre la probabilità

di ottenere una qualsiasi altra x è 0.

Si può dimostrare che i principali indici caratteristici della v.c. di Poisson sono:

E(X) = λ

V(X) = λ,



67

da cui emerge che il parametro caratterizzante la distribuzione di Poisson, coincide con

la media e la varianza della variabile casuale.

Una proprietà importante della distribuzione di Poisson è l’additività: se X1, ..., Xk sono

v.c. Poisson indipendenti, allora la loro somma è ancora Poisson con parametro pari alla

somma dei parametri delle singole Poisson; in simboli

Xi ~ Po(λi) indipendenti i = 1, …, k ⇒ X = ∑=

k

i 1Xi ~ Po(∑

=

k

i 1λi).

Una seconda proprietà interessante della distribuzione di Poisson è data dalla sua

relazione con la distribuzione Binomiale. Si può infatti dimostrare che per n

sufficientemente grande e p sufficientemente prossima 0 allora

Bi(n, p) ≈ Po(λ = np).

La distribuzione di Poisson è un eccellente modello (o comunque un modello da tenere

in considerazione) in tutte le situazioni in cui interessa il numero di volte che accade un

certo evento nel tempo o nello spazio: numero di difetti di un tessuto per m2, numero di

arrivi ad un pronto soccorso per minuto, numero di incidenti ogni ora in un certo tratto

della rete stradale, ecc.

Strettamente collegata alla v.c. di Poisson è la v.c. Poisson relativa. Ipotizzando che il

numero di volte in cui un certo evento accade, diciamo X, sia distribuito secondo una

Poisson, può accadere di essere interessati non a tale numero di volte ma alla

proporzione di volte Y = nX . In tal caso si dice che Y =

nX ha una distribuzione

Poisson relativa (da interpretare come “Poisson relativizzata”) con parametri n e λ:

Y = nX ~ PoRe(n, λ).

La v.c. Y assumerà quindi valori 0, 1/n, 2/n, 3/n, … Anche se si può farlo non ne

scriviamo la funzione di massa in quanto non è molto utile: come per la Binomiale

relativa, tutti i conti che interessano possono essere infatti effettuati lavorando non sulla

proporzione di volte Y ma sul numero di volte X. Ad esempio se interessa la probabilità

che la proporzione di volte sia compresa in un certo intervallo [c1, c2] abbiamo



68

P(c1 ≤ Y ≤ c2) = P(c1≤ nX ≤ c2) = P(nc1 ≤ X ≤ nc2).

Come si vede il calcolo è stato ricondotto a quello di una probabilità per la v.c. X

numero di volte.

I principali indici caratteristici della Poisson relativa, invece si ricavano facilmente da

quelli della Poisson utilizzando le proprietà dei valori attesi:

E(Y) = nλ V(Y) = 2n

λ

Infatti:

E(Y) = E(nX ) =

n1 E(X) =

n1 λ

V(Y) = V(nX ) = 2

1n

V(X) = 21

nλ

8.1.5. Alcune considerazioni sulle distribuzioni: Bernoulli, Binomiale,

Ipergeometrica, Poisson

La distribuzione Binomiale può essere considerata un'eccellente modello probabilistico

per molte situazioni sperimentali. Infatti, tale distribuzione può servire per studiare ad

es. l'atteggiamento dei cittadini nei confronti di un determinato provvedimento

legislativo (favorevoli o contrari alla elezione diretta del Presidente della Repubblica),

per analizzare la produzione di un determinato macchinario (pezzi regolari e pezzi

difettosi), per valutare la propensione a restituire o meno il finanziamento concesso

(finanziamento restituito, finanziamento non restituito) ecc. Serve cioè, in generale,

nello studio di tutti quei fenomeni che possono essere caratterizzati da un evento che

può realizzarsi o meno, cioè del tipo SUCCESSO/INSUCCESSO dove, SUCCESSO

vuol dire estrazione di pallina bianca, essere favorevole alla elezione diretta del

Presidente, pezzo regolare, finanziamento restituito, ecc., mentre insuccesso vuol dire

estrazione di pallina nera, essere contrari alla elezione diretta, pezzo difettoso,

finanziamento non restituito, ecc.

La distribuzione Ipergeometrica ha lo stesso campo di applicabilità della distribuzione

Binomiale, e dovrà essere ad essa sostituita tutte le volte che gli eventi relativi alle

singole prove non possono essere considerati indipendenti.



69

L'esperienza mostra che l'applicazione della distribuzione di Poisson in svariati campi

dell'analisi conduce a dei risultati piuttosto soddisfacenti. Si consideri ad es. il numero

delle particelle emesse da una sostanza radioattiva in un certo intervallo di tempo e si

indichi tale numero con X, si potrà accertare che, per un conveniente valore di λ, la

variabile casuale X ha una distribuzione di probabilità approssimativamente

poissoniana. Si pensi ancora al numero di difetti riscontrabili in un manufatto, al

numero delle chiamate telefoniche in un certo intervallo di tempo, al numero degli

arrivi, sempre in un determinato intervallo di tempo, a un casello autostradale o a uno

sportello bancario. In tutti questi casi si può pensare ad un processo di generazione di

numeri casuali (difetti, chiamate, ecc.) in un determinato intervallo temporale o

spaziale, approssimativamente poissoniano.

Altre distribuzioni discrete frequentemente usate sono: la distribuzione geometrica e la

distribuzione binomiale negativa.

8.2. Distribuzioni continue

8.2.1. Normale

La distribuzione normale, o gaussiana, o degli errori accidentali, può essere considerata

la più importante tra le distribuzioni continue per le seguenti ragioni:

a. una vasta serie di esperimenti casuali ha associata una variabile casuale la cui

distribuzione è approssimativamente normale;

b. alcune v.c. che non sono distribuite normalmente, possono essere rese tali mediante

trasformazioni relativamente semplici (log, , ecc.);

c. alcune distribuzioni complicate o addirittura impossibili da determinare esattamente

possono essere approssimate sufficientemente bene dalla distribuzione normale;

d. alcune v.c., che sono alla base di procedure di inferenza statistica, o sono distribuite

normalmente o derivano da tale distribuzione;

e. gode di proprietà notevoli dal punto di vista matematico (alcune delle quali sono

esclusive della normale).

Si deve, comunque, sottolineare che in passato si è esagerato sull'importanza, pure

notevolissima, della distribuzione normale. Un tale fatto è derivato soprattutto dal ruolo



70

fondamentale che la distribuzione ha giocato nella "teoria degli errori accidentali" e

che ha spinto diversi studiosi a ritenere che essa potesse riguardare praticamente tutti i

fenomeni naturali. In realtà, la giustificazione teorica del ruolo importantissimo che

svolge la distribuzione normale nella ricerca scientifica risiede soprattutto nel teorema

del limite centrale; di questo teorema si tratterà in seguito.

La v.c X ha una distribuzione Normale, in simboli X ~ N(µ, σ2), se la sua funzione di

densità è

f(x; µ, σ2) =

−

−2

2 21exp

2

1σ

µ

πσ

x

dove x è un qualsiasi numero reale, µ ∈ R e σ ≥ 0.

0

0.05

0.1

0.15

0.2

0.25

-4 -2 0 2 4 6 8 10 12 14

0

0.2

0.4

0.6

0.8

1

1.2

-4 -2 0 2 4 6 8 10 12 14



71

Fig. 10 – Funzione di densità e funzione di ripartizione per X ~ N(µ, σ2) (Blu: µ = 3, σ2

= 4; Rosa: µ = 5, σ2 = 4; Verde µ = 5, σ2 = 7.84).

Attraverso uno studio di funzione si controlla facilmente che la funzione di densità della

v.c. normale ha un andamento “a campana” con le seguenti caratteristiche: ha massimo

in x = µ; è simmetrica rispetto a tale punto di massimo; ha due flessi in corrispondenza

dei punti µ – σ e µ + σ; per x → ± ∞ (le code) la densità f(x) tende asintoticamente a 0.

Nell’ambito delle v.c. normali, come vedremo assume un ruolo particolare la v.c.

Normale standard. La v.c. X ha una distribuzione Normale standard se X ~ N(0, 1),

cioè se è Normale con µ = 0 e σ2 = 1. La sua funzione di densità è quindi la stessa

riportata sopra in cui al posto di µ e di σ si pone rispettivamente 0 e 1.

Si può dimostrare che i principali indici caratteristici della v.c. normale sono dati da

E(X) = µ

V(X) = σ2

γ1 = 0

γ2 = 3

Qualche commento.

Primo: valore atteso e varianza di una v.c. normale coincidono con i due parametri della

distribuzione (la simbologia non è scelta caso!). Notare anche che la varianza non

dipende dal valore atteso, al contrario di molte di quelle viste finora (Bernoulli,

Binomiale, Poisson, Ipergeometrica).

Secondo: l’indice di asimmetria γ1 risulta pari a 0: un risultato del tutto ovvio visto che

la funzione di densità della v.c. normale è simmetrica. Si ricorda a questo proposito che

tale indice assume risulta negativo in caso di asimmetria a sinistra, mentre risulta

positivo in caso di asimmetria a destra della funzione di densità (cfr. Fig. 11).

Terzo: l’indice di curtosi γ2 risulta pari a 3. Mentre l’asimmetria è un concetto definito

in termini assoluti, la curtosi è concetto relativo; infatti, una distribuzione è platicurtica

o leptocurtica solo con si fa riferimento alla distribuzione normale. Poiché quest’ultima

v.c. ha un indice di curtosi pari a 3, si dice platicurtica la distribuzione con γ2 < 3 e

leptocurtica la distribuzione con γ2 > 3 (cfr. Fig. 11).



72

Si fa notare che γ1 = 0 e γ2 = 3 sono condizioni necessarie ma non sufficienti per la

normalità della distribuzione; in altri termini esistono v.c. con γ1 = 0 e γ2 = 3 che però

non sono normali.

Fig. 11 - Forma delle distribuzioni

La funzione di ripartizione della v.c normale è:

F(x) = ∫∞−

−

−x

dyy 2

2 21exp

2

1σ

µ

πσ.

Questo significa che la funzione di ripartizione di una v.c. normale rimane definita

implicitamente dall’operatore di integrale; infatti l’integrale indefinito di cui sopra è

uno di quelli che “non si possono risolvere” (in termini più corretti la funzione di

densità della normale non ha una primitiva in forma analitica).

D’altra parte poiché la funzione di ripartizione (o comunque l’integrale della funzione

di densità) sono indispensabili per determinare la probabilità di eventi nel caso in cui X

sia normale, occorre ugualmente un modo per calcolare l’integrale definito di cui sopra.

Il modo più semplice di fare questa operazione è quello di ricorrere alla v.c.

standardizzata

Z = σ

µ−X .

Asimmetria negativa

γ1 < 0

Asimmetria positiva

γ1 > 0

µ Me Me µ Mo Mo

Distribuzione leptocurtica

γ2 > 3Distribuzione normale

γ2 = 3Distribuzione platicurtica

γ2 < 3



73

Nella sezione sui momenti abbiamo evidenziato che se X è una v.c. con media µ e

varianza σ2, allora qualsiasi sia la forma della sua distribuzione si ha che

E

−

σµX = 0 V

−

σµX = 1.

Tuttavia nel caso particolare in cui la v.c. oltre ad avere media µ e varianza σ2 sia anche

Normale, si può dimostrare che anche la v.c. standardizzata ha una distribuzione

Normale, ovviamente con media 0 e varianza 1. In simboli

X ~ N(µ, σ2) ⇒ Z = σ

µ−X ~ N(0, 1).

Poiché i valori della funzione di ripartizione della Normale standard sono stati tabulati

(o possono essere calcolati con un computer attraverso particolari algoritmi: anche

Excel ne ha uno) il calcolo della probabilità che una v.c. Normale standard assuma

valori in un certo intervallo (z1, z2] può essere fatto nel modo seguente:

P(z1 < Z ≤ z2) = P(Z ≤ z2) – P(Z ≤ z1),

dove le probabilità P(Z ≤ z2) e P(Z ≤ z2) sono appunto i valori della funzione di

ripartizione della Normale standard in z1 e z1 che possono essere letti nella tavola.

Come ulteriore aiuto per il calcolo delle probabilità di cui sopra, si fa notare che la

simmetria rispetto a 0 della funzione di densità della Normale standard implica

P(Z ≤ – z) = 1 – P(Z ≤ z)

(si invita lo studente a evidenziare graficamente questa proprietà). Questo comporta

che, nel caso in cui si ricorra alle tavole, la tabulazione per valori di z ≥ 0 è sufficiente

anche per calcolare valori probabilità per z negative.

In base alla logica seguita, il calcolo della probabilità che una generica v.c. Normale

assuma valori in un certo intervallo (x1, x2] può essere ricondotto a quello della v.c.

Normale standard nel modo seguente:

P(x1 < X ≤ x2) =

−

≤−

<−

σµ

σµ

σµ 21 xXxP = P(z1 < Z ≤ z2) = P(Z ≤ z2) – P(Z ≤ z1)

dove z1 = σ

µ−1x e z2 = σ

µ−2x sono calcolati e Z = σ

µ−X ha come detto una

distribuzione N(0, 1).

Si ricorda anche che se X è una v.c. continua allora P(X = x) = 0 per ogni x. Di

conseguenza se nell’esempio di cui sopra avessimo calcolato probabilità che X assuma



74

valori in [x1, x2], oppure in (x1, x2) o ancora in [x1, x2) avremmo ottenuto lo stesso

identico risultato.

Come detto ad inizio sezione, la distribuzione Normale è importante perché sotto certe

condizioni approssima bene molte distribuzioni. Ad esempio, relativamente alle

distribuzioni analizzate si dimostra che: 2

• per n sufficientemente grande, la distribuzione Binomiale può essere bene

approssimata dalla distribuzione normale con la stessa media e la stessa varianza

della Binomiale, cioè

Bi(n, p) ≈ N(µ = np, σ2 = npq)

• per λ sufficientemente grande, la distribuzione di Poisson può essere bene

approssimata dalla distribuzione Normale con la stessa media e la stessa varianza

della Poisson, cioè

Po(λ) ≈ N(µ = λ, σ2 = λ)

• per n sufficientemente grande, la distribuzione χ2 (che vedremo successivamente)

può essere approssimata abbastanza bene dalla distribuzione normale con la stessa

media e la stessa varianza della χ2, cioè 2nχ ≈ N(µ = n, σ2 = 2n)

• per n sufficientemente grande, la distribuzione T di Student (che vedremo

successivamente) può essere approssimata abbastanza bene dalla distribuzione

Normale con la stessa media e la stessa varianza della T , cioè

Tn ≈ N(µ = 0, σ2 = 2−n

n )

Infine si enuncia un’altra proprietà importantissima della distribuzione Normale.

Trattando delle v.c. multiple, abbiamo illustrato quanto valgono il valore atteso e la

varianza di una combinazione lineare di v.c. Tali proprietà riguardavano solo valore

atteso e varianza, senza dire niente altro sulla forma della distribuzione. Ebbene si può

dimostrare che le v.c. di partenza oltre ad avere un certo valore atteso e una certa

2 Si fa notare che molte delle approssimazioni riportate sono giustificabili via teorema limite centrale (si

veda sez. 9).



75

varianza sono Normali allora anche una qualsiasi combinazione lineare è Normale. In

simboli

Xi ~ N(µi, 2iσ ) i = 1, …, k ⇒ ∑

=

k

i 1ci Xi ~ N

+ ∑∑∑∑

= ≠==

k

i ijijji

k

iii

k

iii cccc

11

22

1, σσµ ,

dove ci sono delle costanti e ijσ sono le covarianze fra la v.c. i-ma e j-ma. Si può notare

che rispetto alla proprietà del valore atteso e della varianza di una combinazione lineare,

in più c’è solo la Normalità di ∑=

k

i 1ci Xi, dato che media e varianza conseguono come

detto dalle proprietà dei valori attesi per v.c. multiple. E’ ovvio che, sempre nell’ipotesi

di normalità delle Xi, se le n v.c. sono fra loro incorrelate, cioè le ijσ sono tutte 0,

allora

∑=

k

i 1ci Xi ~ N

∑∑==

k

iii

k

iii cc

1

22

1, σµ .

Un altro caso particolare molto importante (cui faremo sovente riferimento in ambito

inferenziale) si ha quando le Xi oltre ad essere distribuite normalmente sono anche

indipendenti, con la stessa media µ e con la stessa varianza σ2. In questo caso,

sfruttando i risultati precedenti si dimostra facilmente che la distribuzione della media

aritmetica delle v.c. Xi ha la seguente distribuzione

∑=

=n

iiX

nX

1

1 ~ N(µ,σ2/n).

Per pervenire a questo risultato basta ricordare che l’indipendenza implica

l’incorrelazione e quindi sfruttare la formula corrispondente con ci = 1/n, µi = µ e 2iσ =

σ2 per tutte le i.

Esempio

Sia X ~ N(µ = –2, σ2 = 0.25). Si vuol determinare il valore della costante c in modo da

soddisfare le relazioni:

a. P(X ≥ c) = 0.2;

b. P(–c ≤ X ≤ –1) = 0.5;

c. P(c1 ≤ X ≤ c2) = 0.95;



76

Utilizzando la tavola della funzione di ripartizione della normale standard, si ottiene:

a. 0.2 = P(X ≥ c) =

−

≥−

σµ

σµ cXP = P(Z ≥ z) ⇒ P(Z ≤ z) = 1 – 0.2 = 0.8 in base

al quale dalla tavola si ricava z = 0.84. Poiché z = σ

µ−c , sostituendo i valori di µ, σ

e z si ricava c = µ + σz = –2 + 0.5 0.84 = –1.58.

b. 0.5 = P(–c ≤ X ≤ –1) =

−−

≤−

≤−−

σµ

σµ

σµ 1XcP = P(z ≤ Z ≤ 2) = P(Z ≤ 2) –

P(Z ≤ z) da cui P(Z ≤ z) = P(Z ≤ 2) – 0.5 = 0.97725 – 0.5 = 0.47725 implica z = –

0.06. Poiché z = σ

µ−− c , sostituendo i valori di µ, σ e z si ricava c = –µ – σz = 2 –

0.5 (–0.06) = 2.03.

c. Ci sono infiniti intervalli [c1, c2] tali che P(c1 ≤ X ≤ c2) = 0.95. Tuttavia a meno che

particolari ragioni non indichino di procedere in modo diverso, normalmente

interessa l’intervallo più stretto, che nelle distribuzioni simmetriche coincide on

quello simmetrico rispetto alla media. Allora 0.95 = P(c1 ≤ X ≤ c2)

=

−

≤−

≤−

σµ

σµ

σµ 21 cXcP = P(–z ≤ Z ≤ z), da cui P(Z ≤ z) = 0.975 e quindi z =

1.96. A questo punto si possono ricavare c1 = µ – σz = –2 – 0.5·1.96 = –2.98 e c2 =

µ + σz = –2 + 0.5·1.96 = –1.02.

Esempio

Le lamine d'acciaio prodotte dalla THESTEEL devono avere un determinato spessore.

Tuttavia la produzione subisce delle piccole variazioni (in termini di spessore) aventi

carattere accidentale. Il fenomeno, spessore delle lamine d'acciaio prodotte, può essere

convenientemente rappresentato dalla v.c. X. L’esperienza acquisita garantisce che X ha

una distribuzione Normale con media µ = 10 mm e varianza σ2 = 0.0004mm2. Si vuol

determinare la percentuale attesa di lamine difettose nei seguenti casi:

a. siano difettose le lamine con spessore inferiore a 9.97 mm;

b. siano difettose le lamine con spessore superiore a 10.05 mm.;

c. siano difettose le lamine che si discostano dalla media per più di 0.03 mm;



77

Si chiede inoltre:

d. Quale valore dovrebbe assumere la costante c affinché la percentuale attesa di

lamine che si discosta da 10 mm per una quantità non superiore a c sia pari a 0.95;

e. come varierebbe la percentuale attesa di cui al punto d, relativamente al valore della

costante |c| trovato, nel caso in cui si avesse µ = 10.01.

Usando la tavola della funzione di ripartizione della Normale si ottengono i seguenti

risultati:

a. P(X < 9.97) = P

−

<−

02.01097.9

σµX

= P(Z < –1.5) = 0.06681

b. P(X > 10.05) = P

−

>−

02.01005.10

σµX

= P(Z > 2.5) = 1 – P(Z ≤ 2.5) = 0.00621

c. P(X ≤ 9.97) + P(X ≥ 10.03) = P

−

≤−

02.01097.9

σµX

+ P

−

≥−

02.01003.10

σµX

=

P(Z ≤ –1.5) + P(Z ≥ 1.5) = 2 P(Z ≥ 1.5) = 2 [1 – P(Z ≤ 1.5)] = 0.13361

d. 0.95 = P(–c < X – 10 < c) = P

<

−<

−σσσcXc 10

= P(–z < Z < z) implica z =

1.96, da cui c = σ z = 0.02٠1.96 = 0.0392

e. P(10 – 0.0392 < X < 10 + 0.0392) = P(9.9608 < X < 10.0392) =

P

−

<−

<−

02.001.100392.10

02.001.10

02.001.109608.9 X

= P( –2.46 < Z < 1.46) = P(Z <

1.46) – P(Z < –2.46) = 0.92785 – (1 – 0.99305) = 0.9209

8.2.2. Gamma e χ2 (di Pizzetti-Pearson)

La v.c. X ha una distribuzione Gamma, in simboli X ~ Ga(α, β), se la sua funzione di

densità è

f(x; α, β) = ( )

>Γ

−−

altrimenti0

0 se1 xex xβαα

αβ

dove α e β sono due reali positivi e Γ(α) è la funzione Gamma, una particolare funzione

che vale



78

( ) ∫+∞

−−=Γ0

1 dxex xαα .

Valori particolari della funzione Gamma sono Γ(1) = 1, Γ(1/2) = π e Γ(n) = (n – 1)!

se n è un intero positivo. Inoltre si dimostra per induzione che vale la relazione Γ(α + 1)

= Γ(α).

La v.c. Gamma può assumere allora solo valori positivi. Si può dimostrare che i

principali momenti della distribuzione Gamma sono dati da

E(X) = βα V(X) = 2β

α .

In realtà, per quanto riguarda questo corso non utilizzeremo spesso la distribuzione

Gamma, ma piuttosto un suo caso particolare: la v.c. χ2 (Chi-quadrato). Quest’ultima è

appunto un caso particolare della Gamma quando α = n/2 e β = 1/2; quindi

χ2(n) = Ga(α = n/2, β = 1/2).

Di conseguenza la v.c. Chi-quadrato ha funzione di densità

f(x; n) = ( )

>

Γ−−

altrimenti0

0 se2/2

1 2/12/2/ xex

nxn

n

dove n è un intero positivo detto gradi di libertà (il significato di questa espressione

sarà chiarito nei capitoli successivi).



79

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0 2 4 6 8 10 12 14

Fig. 12 – Funzione di densità per la v.c. X ~ χ2(n) (Blu: n = 1; Rosa: n = 2; Verde: n = 3;

Celeste: n = 4; Viola: n = 5).

La v.c. χ2 può allora assumere solo valori positivi. Anche in questo caso uno studio di

funzione evidenzia che questa funzione di densità: è monotona decrescente per n = 1 e n

= 2, mentre per n > 2 ha un massimo nel punto x = n – 2.

Tuttavia, a meno di una esplicita necessità, si invita lo studente a non memorizzarla.

Infatti capita raramente di dover utilizzare la funzione di densità della χ2, mentre si

utilizzano assai più spesso le sue proprietà.

La prima proprietà collega la Chi-quadrato alla Normale standard: se Z è una v.c.

normale standard, allora la v.c. Z2 è una v.c. χ2 con 1 grado di libertà; in simboli

Z ~ N(0, 1)⇒ Z2 ~ χ2(1).

La seconda è la proprietà di additività del Chi-quadrato: se X1, ..., Xk sono v.c. Chi-

quadrato indipendenti, allora la loro somma è ancora Chi-quadrato con gradi di libertà

pari alla somma dei gradi di liberta delle singole Chi-quadrato; in simboli

Xi ~ χ2(ni) indipendenti i = 1, …, k ⇒ X = ∑=

k

i 1Xi ~ χ2(∑

=

k

i 1ni).



80

Sulla base dei momenti della Gamma si ricava facilmente che i principali indici

caratteristici della v.c. Chi-quadrato sono:

E(X) = n

V(X) = 2n

Esempio

Sia X ~ χ2(5). Si vogliono determinare le costanti c, c1 e c2 in modo che sia:

a. P(X ≤ c) = 0.10

b. P(X > c) = 0.05

c. P(c1 < X ≤ c2) = 0.95

Utilizzando le tavole della distribuzione χ2 si ha

a. P(X ≤ c) = F(c) = 0.10 ⇒ c = 1.61

b. P(X > c) = 1 – P(X ≤ c) = 1 – F(c) = 0.05 ⇒ c = 11.1

c. Esistono infinite coppie di valori c1, c2 capaci di soddisfare la condizione posta al

punto c. Si potrebbe ad esempio suddividere la probabilità 0.05 in modo da avere un

livello pari a 0.01 alla sinistra di c1 ed un intervallo 0.04 alla destra di c2, oppure

0.02 a sinistra di c1 e 0.03 a destra di c2 ecc. Usualmente, a meno che non vi siano

particolari ragioni per operare in modo diverso, si suddivide la probabilità in parti

uguali. Così facendo si avrà

P(X ≤ c1) = F(c1) = 0.025 ⇒ c1 = 0.831

P(X > c2) = 1 – P(X ≤ c2) = 0.025 ⇒ c2 = 12.8.

8.2.3. T (di Student)

La v.c. X ha una distribuzione T di Student, in simboli X ~ T(n), se la sua funzione di

densità è

f(x; n) = 2

12

1

2

21 +

−

+

Γ

+

Γ n

nx

nn

n

π



81

dove x è un numero reale e n è un intero positivo detto gradi di libertà.

0

0.1

0.2

0.3

0.4

0.5

-6 -4 -2 0 2 4 6

Fig. 13 – Funzione di densità della v.c. X ~ T(n) (Blu: n = 1; Rosa: n = 3; Verde: n = 10;

Celeste: n = +∞ (ovvero N(0,1))).

La distribuzione T, introdotta dal chimico W.S. Gosset nel 1908 sotto lo pseudonimo di

"Student", può assumere allora qualsiasi valore reale. Anche in questo caso uno studio

di funzione è utile per evidenziare che funzione di densità ha un andamento a campana

con le seguenti caratteristiche: è simmetrica; ha un massimo nel punto x = 0; le code

tendono asintoticamente a 0.

Anche in questo caso, a meno di una esplicita necessità, si invita lo studente a non

memorizzare la funzione di densità. Infatti capita raramente di doverla utilizzare mentre

più spesso si utilizzano le sue proprietà.

La proprietà principale, che utilizzeremo spesso in seguito, è la seguente. Siano Z una

v.c. Normale standard e Y una v.c. χ2 con n gradi di libertà, con Z e Y indipendenti. Si

può dimostrare che la v.c. X =nY

Z/

ha una distribuzione T con n gradi di libertà. In

simboli

Z ~ N(0, 1), Y ~ χ2(n) indipendenti ⇒ X =nY

Z/

~ T(n).



82

Un’altra proprietà interessante è data dal fatto che al crescere di n la distribuzione T

tende alla distribuzione Normale standardi; un buona approssimazione si ottiene già per

n relativamente piccolo (n ≥ 30).

Si può infine dimostrare che i principali indici caratteristici della v.c. T sono:

E(X) = 0 per n ≥ 2 (non esiste per n < 2)

V(X) = 2−n

n per n ≥ 3 (non esiste per n < 3)

Esempio

Sia X ~ T(9). Si vogliono determinare i valori della costante c che soddisfano le

relazioni:

a. P(X > c) = 0.05;

b. P(X < c) = 0.05;

c. P(–c < X ≤ c) = 0.99;

d. P(0 < X ≤ c) = 0.475.

Utilizzando le tavole della distribuzione T e ricordando che tale distribuzione è

simmetrica, si ottiene

a. 0.05 = P(X > c) = 1 – P(X ≤ c) ⇒ P(X ≤ c) = 0.95, da cui c = 1.8331

b. P(X ≤ c) = 0.05 ⇒ P(X ≤ –c) = 0.95, da cui –c = 1.8331 e quindi c = –1.8331.

c. 0.99 = P(–c < X ≤ c) ⇒ P(X ≤ c) = 0.995, da cui c = 3.2498

d. 0.475 = P(0 < X ≤ c) ⇒ P(X ≤ c) = 0.975, da cui c = 2.2622

8.2.4. F (di Fisher-Snedecor)

La v.c. X ha una distribuzione F (Fisher-Snedecor), in simboli X ~ F(n1,n2), se la sua

funzione di densità è



83

f(x; n) = ( )

>+

Γ

Γ

+

Γ

+

−

altrimenti0

0per

22

22/)(

12

12/

21

2/2

2/1

21

21

121

xxnn

xnn

nnnn

nn

nnn

dove n1 e n2 sono due interi positivi detti gradi di libertà.

0

0.2

0.4

0.6

0.8

1

0 2 4 6 8 10 12

Fig. 14 – Funzione di densità della v.c. X ~ F(n1,n2) (Blu: n1 = 2, n2 = 2; Verde: n1 = 8,

n2 = 2; Celeste: n1 = 5, n2 = 5; Viola: n1 = 10, n2 = 10).

La v.c. F può allora assumere solo valori positivi. Anche in questo caso uno studio di

funzione evidenzia che questa funzione di densità ha una forma simile a quella della χ2.

Di nuovo, a meno di una esplicita necessità, si invita lo studente a non memorizzare

l’equazione della funzione di densità. Infatti capita raramente di doverla utilizzare,

mentre più spesso si utilizzano le sue proprietà.

La proprietà principale della v.c. F è la seguente. Siano X1 e X2 due v.c. χ2

rispettivamente con n1 ed n2 gradi di libertà, con X1 e X2 indipendenti. Si può dimostrare

che la v.c. X =22

11//nXnX ha una distribuzione F con n1 ed n2 gradi di libertà. In simboli

X1 ~ χ2(n1), X2 ~ χ2(n2) indipendenti ⇒ X =22

11//nXnX ~ F(n1,n2).

Si noti che l'ordine dei gradi di libertà n1 ed n2 è fondamentale.



84

Da questa consegue immediatamente una seconda proprietà: se X ha una distribuzione

F(n1,n2) allora il reciproco di X, cioè 1/X, ha anch’esso una distribuzione F ma con i

gradi di libertà invertiti F(n2,n1). In simboli

X ~ F(n1,n2) ⇒ 1/X ~ F(n2,n1)

Si può infine dimostrare che i principali indici caratteristici della v.c. F sono

E(X) = 22

2−n

n V(X) = ( )

( ) ( )4222

22

21

2122

−−

−+

nnnnnn

Esempio

Sia X ~ F(7, 10). Si vogliono determinare i valori della costante c che soddisfano:

a. P(X ≤ c) = 0.95;

b. P(X ≤ c) = 0.01.

Utilizzando la tavola della distribuzione F si ottiene

a. 0.95 = P(X ≤ c) ⇒ c = 3.1355

b. 0.01 = P(X ≤ c) = P(1/X ≥ 1/c)⇒ P(1/X ≤ 1/c) = 0.99, da cui 1/c = 6.620 e quindi c

= 0.151.

8.3. Distribuzioni multiple

8.3.1. Normale doppia

La funzione di densità della v.c. normale doppia o v.c. normale bivariata è data da

f(x, y; µX, µY, σX, σY, ρXY) =

−+

−

−−

−

−−

−

22

222

)1(21exp

12

1

Y

Y

Y

Y

X

XXY

X

X

XYXYYX

yyxxσ

µσ

µσ

µρ

σµ

ρρσπσ

per –∞ ≤ x, y ≤ +∞ , dove i parametri che caratterizzano la distribuzione coincidono con

gli indici caratteristici più significativi della distribuzione stessa

µ10 = E(X) = µX µ01 = E(Y) = µY



85

20µ = E[(X – µX)2] = 2Xσ 02µ = E[(Y – µY)2] = 2

Yσ

YXXYYX

XY

Y

Y

X

X YXE ρρ

σσσ

σµ

σµ

µ ===

−

−=11

E’ possibile verificare senza eccessiva difficoltà le relazioni seguenti

−−== ∫

+∞

∞−

222

)(2

1exp2

1),()( XXX

xdyyxfxf µσπσ

−−== ∫

+∞

∞−

222

)(2

1exp2

1),()( YYY

ydxyxfyf µσπσ

( ) ( ) ( )

−−−

−−

−== Y

Y

XXYY

XYXXYX

yyyfyxfyxf µ

σσ

ρµρσρπσ

2222 121exp

12

1)(),()|(

( ) ( ) ( )

−−−

−−

−== X

X

YXYY

XYYXYY

xyxfyxfxyf µ

σσ

ρµρσρσπ

2222 121exp

12

1)(),()|(

che evidenziano la normalità sia delle distribuzioni marginali che delle distribuzioni

condizionate.

Dalle relazioni sopra scritte si desumono anche le medie e le varianze delle distribuzioni

condizionate che dipendono da medie e varianze delle distribuzioni marginali e dal

coefficiente di correlazione. Se ρXY = ρYX = 0, le due variabili casuali componenti sono

indipendenti (cioè f(x, y) = f(x) f(y)) e le distribuzioni condizionate, per l’indipendenza,

non risentono più del condizionamento e risultano uguali alle distribuzioni marginali.

Nella Fig. 15 è riportata la forma della funzione di densità e le sezioni orizzontali e

verticali della variabile casuale normale doppia le cui componenti sono incorrelate

(indipendenti) ed hanno uguale varianza.



86

Fig. 15 – Funzione di densità di una v.c. normale doppia con ρXY = ρYX = 0 e 22yx σσ = =

σ2.

Nella Fig. 16 sono riportate le sezioni orizzontali di variabili casuali normali doppie

incorrelate (ρXY = 0) con relazione diversa tra le varianze delle due distribuzioni

marginali.

Fig. 16 - Sezioni orizzontali di una variabile casuale normale doppia con ρXY = ρYX = 0



87

Fig. 17 – Sezioni orizzontali di una v.c. normale doppia con 22YX σσ = = 1.

Fig. 18 - Sezioni orizzontali di una variabile casuale normale bivariata con 2Xσ = 4 e

2Yσ = 1.



88

Nella Fig. 17 sono riportate le sezioni orizzontali di una variabile casuale normale

doppia, le cui componenti hanno stessa varianza 2Xσ = 2

Yσ = 1, per diversi livelli di

correlazione; mentre nella Fig. 18 le sezioni sono relative a diversi livelli di

correlazione e diversa varianza ( 2Xσ = 4 e 2

Yσ = 1).

Osservando Fig. 16, Fig. 17 e Fig. 18, si rileva l’incidenza del valore assunto da

parametri caratteristici sulla forma della funzione di densità. La forma campanulare

perfetta si ha solo quando ρXY = ρYX = 0 e 2Xσ = 2

Yσ . Se ρXY = ρYX = ±1, cioè se esiste

un legame lineare tra le due componenti, si avrà un completo schiacciamento della

distribuzione doppia che degenera in una distribuzione semplice. Cosa questa peraltro

desumibile immediatamente anche per via analitica e dal punto di vista logico; non ha

più senso, infatti, parlare di variabilità su due componenti essendo la variabilità dell’una

(ad es. la Y) strettamente determinata dalla variabilità dell’altra (valendo la relazione

Y = a + bX).

8.3.2. Trinomiale (o Binomiale doppia)

Si supponga di poter effettuare n prove indipendenti e che il risultato di ciascuna prova

sia ω1 o ω2 o ω3; i tre risultati sono necessari e incompatibili, nel senso che in ciascuna

prova, uno dei tre deve necessariamente presentarsi ed il presentarsi di un risultato

esclude la possibilità del presentarsi dell’altro. Si supponga che le probabilità associate

ai tre possibili risultati siano, rispettivamente, p1, p2 e p3 (p1 + p2 + p3 = 1).

Si definisca ora la variabile casuale doppia (X, Y) come coppia ordinata di numeri reali

in cui la prima componente X rappresenta il numero delle volte in cui si è presentato il

risultato ω1 nelle n prove, mentre Y rappresenta il numero delle volte in cui si è

presentato il risultato ω2. Ovviamente, il numero delle volte in cui si presenta il risultato

ω3 non può essere inserito come terza variabile essendo lo stesso numero univocamente

determinato per differenza (n – x – y).

Se, per semplicità di notazione, si pone



89

[ ] qppYXPPp

pYPPppXPPp

yx

y

x

=−−==∩===

========

1)0()0()(

)1()()1()(

33

22

11

ω

ωω

si avrà

[ ] yxnyy

xx qpp

yxnyxnyYxXPyxf −−

−−==∩==

)!(!!!)()(),(

dove: x rappresenta il numero delle volte in cui si è presentato il risultato ω1 nelle n

prove ed y il numero delle volte in cui si è presentato il risultato ω2; x potrà, pertanto,

assumere i valori 0, 1, 2, …, n mentre y potrà assumere i valori 0, 1, 2, …, n – x, ed

anche x, y = 0, 1, 2, …, n con il vincolo x + y ≤ n.

Si verifica facilmente che le v.c. marginali e le variabili casuali condizionate sono

variabili casuali binomiali, così come risulta facile verificare le uguaglianze sotto

riportate relative ad alcuni momenti misti

µ10 = µX = n pX, µ01 = µy = n pY

)1(,)1( 202

220 yyyxxx ppnppn −==−== σµσµ

)1()1(, 1111

yx

yxyxxyyxyxxy pp

ppppn

−−

⋅−===−=== ρρµσσµ

y

x

x

y

pp

ynyXEp

pxnxYE

−−=

−−=

1)()|(,

1)()|(

L’espressione analitica delle due distribuzioni condizionate è yxn

x

y

x

y

pq

pp

yxnyxnxyf

−−

−

−−−−

=11)!(!

)!()|(

yxn

y

x

y

xp

qp

pyxnx

ynyxf−−

−

−−−−

=11)!(!

)!()/(

L’estensione al caso k > 2 è immediata: infatti basterà considerare n prove indipendenti

ed ipotizzare che in ciascuna prova si possa presentare uno dei k + 1 risultati necessari

ed incompatibili ω1, ω2, …, ωk, ωk+1. Si potrà introdurre la variabile casuale

multinomiale a k dimensioni (X1, X2, …, Xk), dove le componenti rappresentano il



90

numero delle volte in cui, nelle n prove, si è presentato, rispettivamente il risultato ω1,

ω2, …, ωk. Il numero delle volte in cui si presenta il risultato ωk+1 non viene considerato

risultando il suo valore per differenza ∑=

−k

1iixn .

8.3.3. Multinomiale e Ipergeometrica multipla

Se con ∑=

−=k

iik pqppp

121 1,,...,, si indicano le probabilità dei risultati (punti

campionari) ω1, ω2, …, ωk+1, la funzione di massa di probabilità della variabile casuale

multinomiale è

∑⋅

−

= =−

=∑

k

ii

kxn

xk

xxk

iik

k qpppxnxxx

nxxxf 121 ...!!...!!

!)...,,,( 21

121

21

dove x1, x2, …, xk = 0, 1, 2, …, n, con il vincolo nxk

ii ≤∑

=1.

Se nella situazione sopra considerata si fa riferimento ad n prove non indipendenti che,

rifacendosi allo schema di estrazione da un’urna, significa effettuare n estrazioni senza

ripetizione, si deriva la versione a k dimensioni della variabile casuale

ipergeometrica (X1, X2, …, Xk) che ha funzione di massa di probabilità

−

−

=∑

∑

=

=

nN

xn

NN

xN

xN

xN

xxxf

k

ii

k

ii

k

k

k1

1

2

2

1

1

21

...

)...,,,(

dove N1, N2, …, Nk, Nk+1 ( ∑=

+ =k

iik NN

11 ) rappresentano le palline, rispettivamente, del

colore 1, 2, …, k e k+1 presenti nell’urna. Ovviamente, in questo caso, il valore

numerico assumibile dalle varie componenti sarà condizionato, oltre che dal vincolo

nxk

ii ≤∑

=1 anche dai valori N1, N2, …, Nk.



91

9. Alcuni teoremi fondamentali del calcolo delle

probabilità

Alcuni teoremi del calcolo delle probabilità consentono la derivazione di risultati di

carattere generale con notevoli implicazioni operative; forniscono, cioè, tipologie

informative che si collocano ad un livello intermedio tra la conoscenza completa,

seppure spesso approssimata, della realtà espressa dal modello e la conoscenza sintetica

espressa dagli indici caratteristici (momenti). Tra questi teoremi uno dei più noti e

significativi è quello usualmente noto come disuguaglianza di Bienaymé-Cebiçev a

cui si perviene facilmente attraverso una opportuna specificazione di un teorema più

generale.

Teorema 1: Teorema di Markov. Siano: X una v.c. con funzione di massa (se

discreta) o di probabilità (se continua) f(x); g(.) una funzione a valori

reali non negativa; e c una costante positiva. Allora

P[g(X) ≥ c] ≤ [ ]c

XgE )(

Considerando, senza perdere in generalità, il caso continuo, il teorema si dimostra con

relativa facilità attraverso i seguenti passaggi

E[g(X)] = ∫+∞

∞−

=dxxfxg )()( ( ) ( )

( ) ( )

∫∫<≤≥

+cxgxcxgx

dxxfxgdxxfxg)(0:)(:

≥

∫≥cxgx

dxxfxg)(:

)()(

≥ ( )

∫≥cxgx

dxxfc)(:

= c P[g(X) ≥ c],

da cui la tesi del teorema.

Di particolare interesse risulta il seguente corollario del teorema, noto come

disuguaglianza di Bienaymé-Cebiçev.

Teorema 2: Disuguaglianza di Bienaymé-Cebiçev. Siano: X una v.c. con valore

atteso E(X) = µ e varianza V(X) = σ2. Allora se k > 0



92

P[| X – µ | ≤ kσ] ≥ 1 – 21

k.

Il risultato sta ad indicare che, per qualunque variabile casuale, la probabilità dei valori

che si collocano in un intorno della media di ampiezza ± kσ è sempre superiore ad

2k11− . Ovviamente la disuguaglianza assume significato solo per k > 1.

La dimostrazione di questa disuguaglianza segue facilmente dal teorema di Markov

ponendo g(X) = X – µ, c = kσ , cosicché

P[| X – µ | ≥ kσ] = P[(X – µ)2 ≥ k2σ2] ≤ ( )[ ]22

2

σµ

kXE − = 22

2

σσ

k= 2

1k

da cui la tesi.

Se si fa riferimento ad una particolare distribuzione e si considera una specifica

funzione g(.) si perviene ad un altro interessante risultato.

Teorema 3: Teorema di Bernoulli. Sia X ~ Bi(n, p). Allora

1lim =

<−

+∞→cp

nXP

n.

Questo significa che siccome c può essere scelto piccolo a piacere, al crescere del

numero delle prove (se le prove sono indipendenti e ripetute in condizioni analoghe) la

frequenza relativa di un evento X/n converge, in probabilità, alla probabilità p

dell’evento stesso.

Il teorema si dimostra applicando il teorema di Markov per g(X) = pnX

− , da cui

22

2

22

cnqp

c

pnXE

cpnXPcp

nXP =

−

≤

≥

−=

≥− ;

quindi



93

0limlim 2 =≤

≥−

+∞→+∞→ cnqpcp

nXP

nn

da cui segue

1lim =

<−

+∞→cp

nXP

n.

Il teorema di Bernoulli è stato generalizzato in vario modo; la generalizzazione più

interessante è quella che estende il risultato ad una successione qualsiasi di variabili

casuali X1, X2, …, Xn, … indipendenti, identicamente distribuite (i.i.d.) e con media

E(Xi) = µ.

Teorema 4: Teorema di Kolmogorov (legge forte dei grandi numeri). Sia X1, X2,

…, Xn, … una successione di v.c. indipendenti e identicamente

distribuite, di media µ finita. Allora per la variabile casuale

∑=

=n

iin X

nX

1

1 vale la relazione

1lim =

=

+∞→µn

nXP .

Se alle ipotesi sopra introdotte si aggiunge la condizione che le variabili abbiano

varianza σ2 > 0 finita si può, ricorrendo alla disuguaglianza di Bienaymé-Cebiçev,

dimostrare facilmente al cosiddetta legge debole dei grandi numeri.

Teorema 5: Legge debole dei grandi numeri. Sia X1, X2, …, Xn, … una successione

di v.c. indipendenti e identicamente distribuite, di media µ e varianza σ2

> 0 finite. Allora per la variabile casuale ∑=

=n

iin X

nX

1

1 vale la relazione

( ) 1lim =<−+∞→

cXP nn

µ .

Sulla rilevanza operativa, tutt’altro che marginale, delle leggi dei grandi numeri si avrà

modo di soffermare l’attenzione successivamente.



94

Il teorema di Bernoulli occupa una posizione di tutto rilievo nell’ambito della

probabilità e della statistica ma ancora più rilevante è, come si avrà modo di

approfondire anche successivamente, il ruolo svolto dal teorema del limite centrale,

qui se ne propone una versione particolare, quella usualmente attribuita a

Lindberg-Levy.

Teorema 6: Teorema del limite centrale. Sia X1, X2, …, Xn, … una successione di

v.c. indipendenti ed identicamente distribuite (i.i.d.) di media µ e

varianza σ2 > 0 finita; si consideri la variabile casuale (media aritmetica

dei primi n elementi della successione)

∑=

=n

iin X

nX

1

1

che avrà valore medio E( nX ) = µ e varianza V( nX ) = σ2/n; allora la

variabile casuale standardizzata

nX

Z nn /σ

µ−=

per n → +∞ tende alla distribuzione normale standard.

L’implicazione più rilevante del teorema e che per n abbastanza grande la variabile

casuale nX può essere approssimata dalla distribuzione normale di media µ e varianza

σ2/n senza fare alcuna assunzione circa la forma della distribuzione delle Xi. La bontà

dell’approssimazione dipende, come è facile intuire, dal tipo di distribuzione delle Xi:

tanto più è “simile” a quella della Normale (simmetria, code “sottili” ecc.) tanto

migliore è l’approssimazione anche per n non troppo grandi.

In letteratura si ritrovano versioni generalizzate del teorema quali, ad esempio, quella in

cui non si richiede più che le variabili casuali della successione abbiano identica

distribuzione, si mantiene l’ipotesi di indipendenza, si inseriscono alcune ipotesi

generali di regolarità delle distribuzioni tra le quali la condizione che le medie E(Xi) =

µi e le varianze V(Xi) = σ 02 >i siano finite. In questo caso, naturalmente, la variabile

che tende alla variabile casuale normale standardizzata è



95

nX

Z nn /σ

µ−=

dove: ∑=

=n

iin X

nX

1

1 , ∑=

=n

iin 1

1 µµ , ∑=

=n

iin 1

22 1 σσ .

Appendice - Calcolo combinatorio

Il primo concetto utile è quello delle permutazioni di n oggetti distinti. Si definisce

permutazione di n oggetti il numero dei gruppi che possono essere formati dagli n dati

scambiando di posto gli oggetti stessi. Se A, B e C sono i tre oggetti (n = 3), le possibili

permutazioni saranno

(A, B, C) (A, C, B) (B, A, C) (B, C, A) (C, A, B) (C, B, A)

Per individuare il numero delle possibili permutazioni di n oggetti basta considerare che

vi sono n modi diversi di occupare la prima posizione, a ciascuna di queste va associato

uno degli n – 1 modi diversi di occupare la seconda posizione (dagli n –1 oggetti

residui) che potrà, a sua volta essere associato ad uno degli n – 2 modi diversi di

occupare la terza posizione e così via

Le permutazioni di n oggetti distinti saranno pertanto pari a:

Pn = n (n – 1) (n – 2)...2 1 = n!

(si ricordi che per convenzione e convenienza matematica, 0! = 1).

Se fra gli n oggetti ve ne sono n1 (n1 ≤ n) uguali tra loro, n2 (n2 ≤ n) uguali tra loro, fino

a nh (nh ≤ n) uguali tra loro, con n = ∑=

h

i 1ni, e si vuol procedere alla determinazione del

numero dei gruppi diversi che possono essere formati, si dovrà tener conto del fatto che

lo scambio di posto fra due oggetti uguali non modifica il gruppo; ad esempio se i tre

oggetti sono A, A e B, si verifica, immediatamente che i possibili gruppi diversi sono

soltanto 3:

(A, A, B) (A, B, A) (B, A, A).



96

Sono stati, cioè, eliminati dai 6 gruppi iniziali i 3 gruppi che comportavano uno scambio

di posto dello stesso oggetto A; il numero delle permutazioni in questo caso è dato da

32 1

!! !

.

In generale il numero delle permutazioni di n oggetti, di cui n1 uguali tra loro, n2 uguali

tra loro, ... nh uguali tra loro, che vengono dette con ripetizione, proprio per il ripetersi

di alcuni oggetti, è dato da

h,...,n,nnP21

= !n...!n!n

n!

h21 dove n = ∑

=

h

i 1ni

La quantità h,...,n,nnP

21=

!n...!n!nn!

h21=

⋅⋅⋅⋅⋅ hnnn

n,,, 21

viene usualmente detta

coefficiente multinomiale in quanto rappresenta il coefficiente nella espansione

multinomiale (polinomio di Leibniz)

( ) ∑∑ ∑

⋅⋅⋅⋅⋅

=+⋅⋅⋅⋅⋅++1 2

21 .....,,,

... 2121

21n n n

nh

nn

h

nh

h

haaannn

naaa

Un altro importante concetto di raggruppamenti possibili è quello relativo al numero di

gruppi che si possono formare da n oggetti distinti prendendone k (≤ n) alla volta e

considerando diversi i gruppi che differiscono o per un elemento o per il posto che

l'elemento occupa. Anche in questo caso risulta facile il conteggio basandosi sullo

stesso schema di ragionamento fatto sopra. Il primo, dei k posti, potrà essere occupato

in n modi diversi (cioè da ciascuno degli n oggetti dati) a ciascuno di questi dovrà

essere associato al secondo posto che potrà essere occupato in n – 1 modi diversi (cioè

da ciascuno degli n – 1 oggetti residui) e così via fino al k-esimo posto che potrà essere

occupato in n – (k – 1) = n – k + 1 modi diversi (gli oggetti residui sono n meno k – 1

oggetti che sono stati utilizzati per occupare le prime k – 1 posizioni). La formula, detta

delle disposizioni di n elementi in classe k sarà

Dn,k = n (n – 1) (n – 2) ...(n – k + 1) = )!(

!kn

n−

.

Naturalmente



97

Dn,n = n! = Pn, cioè le disposizioni di n elementi in classe n coincidono con le permutazioni di n

elementi.

Se disponendo di n oggetti, diversi o per ordine o per elemento, si considerano tutti i

possibili gruppi che si possono formare prendendone k (≤ n) dagli n dati ma

ammettendo che ciascun oggetto possa essere preso fino a k volte (cioè i k oggetti ven-

gono scelti con ripetizione degli n dati), risulta facile, sulla scorta delle considerazioni

sopra fatte, arrivare alla determinazione del numero di disposizioni con ripetizione, di

classe k, che è dato da kr

kn nD =,

in quanto ciascuno dei k posti può essere occupato da ciascuno degli n oggetti

(n n ...n = nk).

Se ci si propone di determinare i possibili gruppi che possono essere formati

prendendone k (senza ripetizione) dagli n dati in modo che ciascun gruppo differisca

dall'altro per almeno un elemento, il numero dei possibili gruppi, cioè delle

combinazioni di n elementi in classe k, si ottiene escludendo dal numero delle

disposizioni di classe k tutte quelle che differiscono tra loro solo per l'ordine degli

elementi, cioè

Cn,k = =k

kn

PD , n!

k!(n k)!−=

nk ,

dove nk

rappresenta anche il k-esimo termine dello sviluppo del binomio di Newton

(a + b)n = ∑=

−

n

k

knkbakn

1

e viene usualmente detto coefficiente binomiale. Si tratta, ovviamente, di una

particolarizzazione del polinomio di Leibniz per h = 2. Si noti inoltre che le

combinazioni di n elementi di classe k coincidono con le permutazioni con ripetizione

di n elementi dei quali k uguali tra loro ed (n – k) uguali tra loro

Cn,k = nk

=

k)!k!(nn!−

= Pk,n – k



98

Le formule sopra introdotte delle permutazioni (con e senza ripetizione), delle

disposizioni (con e senza ripetizione) e delle combinazioni si riveleranno

estremamente utili nella misura delle probabilità di eventi non elementari in quanto

consentono in modo abbastanza immediato la determinazione del numero degli eventi

elementari associati ad esperimenti casuali complessi.

Si riportano infine alcune relazioni di uguaglianza tra formule combinatorie utili nel

calcolo delle probabilità.

−

=

kn

nkn

−

+

=

+1

1k

nkn

kn

per n = 1, 2, … e k = 0, ± , ± 2, …

( )

−+−=

−kkn

kn k 1

1

Documents

Bruno Chiandotto – Fabrizio Cipollini Capitolo 2 CALCOLO ... · cioè tutti i numeri reali non negativi, dato che la durata è un numero che non può essere negativo. Una considerazione