A. Manzino progetto - POLITECNICO DI TORINO · DISPENSE DI TOPOGRAFIA P ARTE II – I L TRATTAMENTO STATISTICO DELLE MISURE A. MANZINO Otto Editore P.zza Vittorio Veneto 14 – 10123

progettodidattica in rete

prog

etto

dida

ttica

in re

teDipartimento di Georisorse e TerritorioPolitecnico di Torino, dicembre 2000

Lezioni di TopografiaParte II - Il trattamento statistico delle misure

A. Manzino

otto editore

DISPENSE DI TOPOGRAFIA

P

ARTE

II – I

L

TRATTAMENTO

STATISTICO

DELLE

MISURE

A

.

MANZINO

Otto Editore P.zza Vittorio Veneto 14 – 10123 Torinowww.otto.to.it

i

INDICE

PARTE SECONDA – IL TRATTAMENTO STATISTICO DELLE MISURE

6. STATISTICA DI BASE...................................................................1

6.1 P

RIMI

TEOREMI

DELLE

DISTRIBUZIONI

DI

PROBABILITÀ

......................3a. Teorema della probabilità totale ..........................................................3b. Definizione di probabilità condizionata..............................................4c. Definizione di indipendenza stocastica................................................4

6.2 V

ARIABILI

CASUALI

..................................................................................4Esempio di variabile casuale continua .....................................................5Funzione densità di probabilità ...............................................................6Dalla variabile casuale alla variabile statistica...........................................7La costruzione di istogrammi ..................................................................8La media...................................................................................................9La varianza ............................................................................................ 10

6.3 T

EOREMA

DI

T

CHEBYCHEFF

............................................................... 11

Teorema

................................................................................................ 11Il teorema nel caso di variabili statistiche.............................................. 12

6.4 L

A

VARIABILE

CASUALE

FUNZIONE

DI

UNA

VARIABILE

CASUALE

....... 13Esempio 1 ............................................................................................. 15Esempio 2 ............................................................................................ 16

6.5 T

EOREMA

DELLA

MEDIA

...................................................................... 16

Corollario 1

............................................................................................ 16

ii

Corollario 2

............................................................................................ 17Esempio................................................................................................. 18

6.6 L

EGGE

DI

PROPAGAZIONE

DELLA

VARIANZA

...................................... 18Osservazioni al teorema di propagazione della varianza....................... 18Esempio di applicazione del teorema di propagazione della varianza.. 19

6.7 A

LCUNE

IMPORTANTI

VARIABILI

CASUALI

.......................................... 19Distribuzione di Bernoulli o binomiale................................................ 19Distribuzione normale o di Gauss........................................................ 21La distribuzione

χ

2 (chi quadro).......................................................... 22Distribuzione

t

di Student .................................................................... 24La distribuzione

F

di Fisher .................................................................. 25

7. LA VARIABILE CASUALE A

n

DIMENSIONI .......................27

Esempio 1 ............................................................................................. 28Esempio 2 ............................................................................................. 29

7.1 D

ISTRIBUZIONI

MARGINALI

................................................................. 30

7.2 D

ISTRIBUZIONI

CONDIZIONATE

......................................................... 31

7.3

INDIPENDENZA

STOCASTICA

............................................................... 32Leggi relative alle distribuzioni.............................................................. 32

7.4 V

ARIABILI

CASUALI

FUNZIONI

DI

ALTRE

VARIABILI

CASUALI

............. 33Trasformazione di variabili ................................................................... 33Esempio di applicazione della trasformazione ad un caso lineare........ 34

7.5 M

OMENTI

DI

VARIABILI

n

-

DIMENSIONALI

......................................... 36Teorema della media per variabili casuali

n

-dimensionali .................. 37

Corollario 1

............................................................................................ 37

Corollario 2

............................................................................................ 37Momenti di ordine di una variabile casuale

n

- di-mensionale............................................................................... 37La propagazione della varianza nel caso lineare ad

n

-dimensioni ....... 39Esercizio 1 ............................................................................................ 40Esercizio 2 ............................................................................................ 41

7.6 L

A

LEGGE

DI

PROPAGAZIONE

DELLA

VARIANZA

NEL

CASO

DI

FUNZIONI

NON

LINEARI

....................................................................................... 42Esercizio 3 ............................................................................................ 43La propagazione della varianza da

n

dimensioni ad una dimensione . 45Esercizio 1 ............................................................................................ 45Esercizio 2 ............................................................................................ 45Esercizio 3 ............................................................................................ 46Esercizio 4 ............................................................................................ 46Esercizio 5 ............................................................................................ 46

7.7 I

NDICE

DI

CORRELAZIONE

LINEARE

.................................................. 47

n1 n2 … nk,,,( )

iii

7.8 P

ROPRIETÀ

DELLE

VARIABILI

NORMALI

AD

n

-

DIMENSIONI

.............. 48

7.9 S

UCCESSIONI

DI

VARIABILI

CASUALI

................................................... 52

7.10 C

ONVERGENZA

«

IN

L

EGGE

» ............................................................... 53

7.11 T

EOREMA

CENTRALE

DELLA

STATISTICA

........................................... 53Teorema ............................................................................................... 53Prima osservazione al teorema centrale della statistica ........................ 53Seconda osservazione al teorema centrale della statistica ..................... 54

7.12 L

E

STATISTICHE

CAMPIONARIE

E

I

CAMPIONI

B

ERNOULLIANI

........ 55Osservazione ........................................................................................ 55Definizione di

statistica campionaria

.................................................... 55

7.13 L

E

STATISTICHE

«

CAMPIONARIE

»

COME

«

STIME

»

DELLE

CORRISPONDENTI

QUANTITÀ

TEORICHE

DELLE

VARIABILI

CASUALI

56Stima corretta o non deviata ................................................................ 56Stima consistente ................................................................................. 56Stima efficiente ..................................................................................... 56Stima di massima verosimiglianza ....................................................... 56

7.14 F

UNZIONE

DI

VEROSIMIGLIANZA

E

PRINCIPIO

DI

MASSIMA

VEROSIMIGLIANZA

............................................................................... 58

7.15 L

A

MEDIA

PONDERATA

(

O

PESATA

)..................................................... 60

8. APPLICAZIONI DEL PRINCIPIO DEI MINIMI QUADRATI AL TRATTAMENTO DELLE OSSERVAZIONI ...................62

8.1 I

MINIMI

QUADRATI

APPLICATI

AD

EQUAZIONI

DI

CONDIZIONE

CON

MODELLO

LINEARE

.............................................................................. 64Esempio applicativo: anello di livellazione .......................................... 65

8.2 M

INIMI

QUADRATI, FORMULE RISOLUTIVE NEL CASO DELL'UTILIZZO DI PARAMETRI AGGIUNTIVI ................................................................. 67Esempio applicativo ............................................................................. 70

8.3 MINIMI QUADRATI : EQUAZIONI DI CONDIZIONE E PARAMETRI AGGIUNTIVI ......................................................................................... 72

8.4 PROPRIETÀ DELLE STIME ED , LORO DISPERSIONE ................... 74Pure equazioni di condizione .............................................................. 75Pure equazioni parametriche ............................................................... 75

8.5 IL PRINCIPIO DEI MINIMI QUADRATI IN CASI NON LINEARI.............. 76

8.6 ESERCIZIO............................................................................................. 78Modello geometrico............................................................................. 79Modello stocastico e soluzione ai minimi quadrati.............................. 80

y x

1

PARTE II – IL TRATTAMENTO STATISTICO

DELLE MISURE

6. STATISTICA DI BASE

1

In questo capitolo ci doteremo di alcuni strumenti statistici per il trattamento dellemisure.

Vediamo come si inserisce la statistica nella tecnica di misura e, per iniziare, comepossiamo definire una misura. Conosciamo tre tipi di operazioni di misura:

– Misure dirette: vengono eseguite contando il numero di unità campione conte-nute in una quantità precostituita. Concettualmente funziona così ad esempiouna bilancia a piatti, così è quando si misura col metro un oggetto ecc…

– Misure indirette: sono definite da un legame funzionale a misure dirette; adesempio la misura indiretta della superficie del triangolo noti due lati el'angolo compreso misurati direttamente. Il legame è nell'esempio

.

– Misure dirette condizionate: sono delle misure dirette, ma fra loro sonolegate da un legame funzionale interno. Ad esempio la misura diretta di treangoli di un triangolo piano deve verificare la legge:

Nel capitolo 6 tratteremo prevalentemente le misure dirette, nel capitolo 7 quelleindirette (teorema della propagazione della varianza); infine le misure dirette condi-zionate saranno maggiormente trattate al capitolo 8 (minimi quadrati).

1

Questa parte prende molti spunti, che liberamente interpreta, da «Fernando Sansò: Il trattamentostatistico delle misure. - Clup 1990.» Da questo testo sono tratte inoltre dimostrazioni ed esempi.

S 1 2⁄ ab γsin=

α β γ+ + π=

STATISTICA

DI

BASE

2

L'operazione di misura, diretta o meno, ha in comune il fatto, che sotto opportuneipotesi, può essere considerata un'estrazione da una variabile casuale: vediamoinfatti tre esempi che ci porteranno a giustificare questo paragone.

a. Dato un corpo rigido di lunghezza poco maggiore di 3 m ed un metrocampione suddiviso in mm, si desidera misurare il corpo con il metodo delriporto (o delle alzate).

b. Il lancio di dadi non truccati.

c. Si misurano le coordinate

x, y

del punto ove cade un proiettile su un bersa-glio rettangolare sparato da uno stesso tiratore.

Questi esperimenti hanno in comune il fatto che, a priori, è

impossibile predire

inmodo deterministico il risultato dell'esperimento: se si ripete infatti, si otterrannodiversi risultati.

Nell'esempio a. il fatto che ripetendo l'operazione di misura si ottengano diversirisultati, porta a dire che in questa operazione si commettono degli «errori», neglialtri casi il diverso risultato è dovuto alle variazioni non note dell'ambiente esternoe dell'oggetto di misura (e di come questi interagiscono), o ad una sua scarsa cono-scenza globale e puntuale del fenomeno.

Questi «errori» possono classificarsi in:

–

Errori grossolani

: sono i più banali anche se spesso i più difficili a indivi-duare. Possono essere ad esempio il mancato conteggio di una alzata, la tra-scrizione errata di una misura, la codifica errata di un punto, ecc.

I rimedi per evitarli sono l'acquisizione e il trattamento automatici, il con-trollo e la ripetizione delle misure possibilmente indipendenti ed ancoraautomatici. Non sono questi gli «errori» a cui intendiamo riferircinell’esempio a.

–

Errori sistematici

: sono dovuti ad esempio all'imperfetta taratura dello stru-mento di misura o legati ad errori di modello (ad es. la misura indiretta diun angolo di un triangolo piano quando questo sia in realtà meglio«modellabile» sulla superficie ellissoidica), hanno la caratteristica di conser-vare valore e segno: nell’esempio a. la misura con più alzate tra due punti Ae B, sarà sempre superiore alla reale, se i punti intermedi non sono esatta-mente sull'allineamento AB.

Sono eliminabili con tarature, con opportune procedure operative, o ren-dendoli di segno alterno (cioè pseudo accidentali): si può usare nel casodella bilancia non rettificata, ad esempio, il metodo della doppia pesata.Anche questi «errori» non sono quelli che giustificano i diversi risultatidegli esperimenti a. b. e c.

–

Fluttuazioni accidentali

: sono a priori imprevedibili, sono di segno alterno edipendono in senso lato dall'ambiente.

La fluttuazione accidentale della misura è un fenomeno

aleatorio

(casuale,probabilistico). Sono questi gli «errori» commessi negli esperimentidescritti. La scienza che studia questi fenomeni è la statistica matematica,perciò ne forniremo i concetti di base utili al trattamento delle misure geo-

STATISTICA

DI

BASE

detiche e topografiche. Ora cerchiamo di capire meglio in che ambito sicala la statistica nel trattamento delle misure. Potremmo definire la stati-stica la scienza che tenta di descrivere con certezza l'incertezza.

Nell'esempio del metro, notiamo che, se avessimo preteso di stimare la lun-ghezza del corpo al mm, avremmo ottenuto numeri apparentemente piùvariabili, mentre, chiedendo la misura al cm, il risultato sarebbe stato sem-pre uguale. Ne segue che, per la misura di una grandezza, l'indetermina-zione si presenta solo

con procedure di misura che spingono l'approssimazione aiconfini delle capacità di misura dell'apparato usato

.

Data per scontata questa indeterminazione, dobbiamo tuttavia dire che ci aspet-tiamo un risultato poco disperso, o meglio una gamma di possibili valori ed unordine di priorità tra di essi.

Questa priorità, espressa come numero reale compreso tra zero e uno si chiama

probabi-lità

. Ne diamo ora la più usata definizione detta

assiomatica

che consiste nel definire ladistribuzione di probabilità in base alle proprietà (assiomatiche) che deve soddisfare:

una distribuzione di probabilità

P

su un insieme

S

di valori argomentali, è unamisura su una famiglia di sottoinsiemi di

S

(che include

S

stesso e l'insieme vuoto

φ

) che, oltre agli assiomi della misura:

soddisfa alla:

Vediamomentali c

a «croce»

x

=1 sull'a

I sottoins

Si ha P({

φ

6.1 P

RIM

a. Teorem

Dati

o

B

,

Se

A

6.1

6.2

6.3

P A( ) 0≥P φ( ) 0=

P A B∪( ) P A( ) P B( )+=

P

P

6.4P S( ) 1=

3

un esempio pratico: il lancio della moneta. S è costituito da 2 valori argo-he possiamo rendere numerici associando ad esempio x = 0 a «testa» ed x = 1. S è l'insieme dei valori argomentali {0,1} dei punti di coordinate x=0,sse x.

iemi di S sono {φ}, {0}, {1}, {0,1}.

}) = 0; P({0}) = 1/2; P({1}) = 1/2; P({0,1}) = 1.

I TEOREMI DELLE DISTRIBUZIONI DI PROBABILITÀ

a della probabilità totale

due eventi A e B, sottoinsiemi disgiunti di S, la probabilità che si verifichi Acioè è:

6.5

e B non sono disgiunti:

6.6

P A B∪( )

A B∪( ) P A( ) P B( )+= se A B∩ φ=

A B∪( ) P A B–( ) P B( )+= P A( ) P B( ) P AB( )–+=

STATISTICA

DI

BASE

b. Definizione di probabilità condizionata

Si presenta quando si desidera esaminare la distribuzione solo su di una parte deivalori argomentali, restringendo

S

ad un sottoinsieme. Isolando una parte dei valoriargomentali si genera un'altra distribuzione di probabilità.Ad esempio in una popolazione di 100 persone caratterizzata dai possibili valoriargomentali: capelli chiari o scuri, occhi chiari o scuri (vedi tabella 6.1), si desideraconoscere qual è la probabilità di estrarre una persona con occhi chiari fra quellecon i capelli chiari. Questa probabilità condizionata si indica

P(A|B)

(probabilitàdi

A

condizionata a

B)

e vale:

Nell

c. Defini

Dici

Per

cioè

Dun

bili

affe

6.2 V

AR

Definizi

lità il cui

probabili

Tab

6.7P A|B( ) P AB( )P B( )

----------------=

'esempio P(B) = 50/100, P(AB) = 40/100, P(A|B) = 0.8

zione di indipendenza stocastica

amo A e B stocasticamente indipendenti se:

6.8

la 6.7 si ha:

:

6.9

que due eventi A e B sono stocasticamente indipendenti se e solo se la proba-tà composta P(AB) si scinde nel prodotto delle singole probabilità. Questarmazione è il teorema della probabilità composta.

IABILI CASUALI

one: una variabile casuale (vc) a una dimensione è una distribuzione di probabi- insieme di valori argomentali S sia rappresentabile in , tale che sia definita la

. 6.1

→ CAPELLI C S

Occhi C 40 10

S 10 40

P A|B( ) P A( )=

P A|B( ) P AB( )P A( )

---------------- P B( )= =

P AB( ) P A( )P B( )=

lR

4

tà per qualunque insieme (ordinabile con x0) del tipo:

STATISTICA

DI

BASE

5

6.10

In questo modo sarà perciò caratterizzata dalla funzione di

x

0

:

6.11

F prende il nome di funzione di distribuzione e gode delle proprietà:

6.12

6.13

6.14

Una vc si dice

discreta

se l'insieme S è formato da un numero discreto di punti suiquali è

concentrata

una probabilità; se viceversa la probabilità che

x

assuma un

sin-golo

valore è sempre uguale a zero allora la vc è

continua

.

Nel primo caso avremo una funzione di distribuzione discontinua, nel secondocontinua. Ad esempio il lancio di una moneta è rappresentato da una vc

discreta

:

i valori argomentali sono ; la variabile casuale

x

può rappresentarsiattraverso la tabella:

6.15

Per ; per e per e la suafunzione di distribuzione è disegnata in figura

6.1

.

Fig. 6.1

Esempio di variabile casuale continua

Consideriamo una distribuzione di probabilità definita in

6.16

Siamo nel caso di

distribuzione uniforme

, la sua funzione di distribuzione F, riportatain figura

6.2

, sarà:

I x0( ) x x0≤{ } S∩=

F x0( ) P x I x0( )∈[ ]=

F x 0( ) è definita su x0 lR∈∀

0 F x( ) 1≤ ≤

F x( )x0 ∞–→lim 0;= F x( )

x0 ∞→lim 1=

F x2( ) F x1( )≥ x2∀ x1≥

x1 0 x2 1=;=

x1 0= x2 1=

p 1 2⁄= p 1 2⁄=

x 0 F x( ) 0=≤ 0 x< 1 F x( ) 1 2⁄=≤ x 1 F x( ) 1>>

P

X0 1

0,5

1

S 0 1,[ ]= lR∈

P a x b≤ ≤( ) b a– cost= =

STATISTICA DI BASE

6

Fig. 6.2

Funzione densità di probabilità

Una qualunque variabile casuale può caratterizzarsi attraverso la sua funzione didistribuzione F. Se la vc è continua ci si chiede quale sarà la probabilità P che x siacompresa tra due valori . Si avrà:

6.17

Se ∆x è piccolo ed F differenziabile:

dove f (x ) vien detta densità di probabilità ed è funzione di x , si ha:

6.18

che, per le caratteristiche di F, (monotona e crescente) sarà:

La funzione di distribuzione si ottiene allora come funzione integrale della densitàdi probabilità:

6.19

con l'ipotesi di normalizzazione (o standardizzazione, vedi 6.4):

6.20

F x( ) 0= x 0≤F x( ) x= 0 x 1≤ ≤F x( ) 1= x 1>

F

X0 1

1

x0 x0 ∆x+,[ ]

P x0 x x0 ∆x+≤ ≤( ) F x0 ∆x+( )=

P x0 x x0 ∆x+≤ ≤( ) dF x0( ) F ' x0( )∆x f x0( )∆x= = =

f x0( ) F ' x0( )P x0 x x0 ∆x+≤ ≤( )

∆x----------------------------------------------

∆x 0→lim= =

f x0( ) 0≥ x∀

F x( ) f t( ) td∞–

x

∫=

f t( ) td∞–

∞

∫ 1=

STATISTICA DI BASE

Si noti che:

Si abbia ad esempio la variabile casuale x definita così:

(vedi figura 6.2), la funzione densità di probabilità relativa è uniforme e vale:

Fig. 6.3 – Funzione di densità di probabilità costante e uniforme.

Dalla variabile casuale alla variabile statistica

Se, per mezzo della variabile casuale si vuole rappresentare l'insieme dei possibilirisultati di un esperimento non deterministico, si possono organizzare i dati in unatabella a doppia entrata in base ai risultati delle ripetizioni dell'esperimento.

Ad esempio:

Definiamo variabile statistica (vs) ad una dimensione la tabella di due sequenze dinumeri che specifica come un dato si distribuisce fra la popolazione N:

f x( ) xda

b

∫ F b( ) F a( )– P a x b≤ ≤( )= =

F0 x 0≤x 0 x 1≤ ≤1 x 1>

=

f x( ) 1 0 x 1≤ ≤0 x 0 x 1>;<

=

0 1 X

f (x)

testa croce

con n1 n2 N=+

n1 volte n2 volte

6.21x1 x2…xn

F1 F2…Fn

ovverox1 x2…xn

f1 f2…fn

7

STATISTICA DI BASE

x i sono i valori argomentali, Fi le frequenze assolute ed fi = Fi/N le frequenze rela-tive. Si ha:

6.22

Confrontando la 6.21 e la 6.22 si vede che la prima definisce una variabile casualecon distribuzione di probabilità concentrata sui valori , è sufficiente porre:

Con ciò,valere anvariabili

La sostanai valori valore pimente il

La probaquenza, empirici.

Per mezzbili casuaquenza Fargomen

La costru

Il concetché la su

Questo ipuò defistica.

È tuttavibili casuattraverso

Il confrovariabile dei risult

Fi1

n

∑ N ;= fi1

n

∑ N=

x1…xn

6.23P x xi=( ) fi=

8

ogni definizione data e ogni proprietà mostrata per le variabili casuali deveche per le variabili statistiche, poiché formalmente identificabili con lecasuali attraverso la 6.23.

ziale differenza è di contenuto: sulla variabile casuale i numeri pi associatixi misurano un grado di possibilità che il risultato dell'esperimento abbia

j ; nel caso della variabile statistica il numero fi registra a posteriori sola-fatto che su N ripetizioni si sono ottenuti Fi risultati di valore xi.

bilità, legata alla variabile casuale, è un ente aprioristico assiomatico, la fre-legata alla variabile statistica è un indice che misura a posteriori risultati

o di questa identità formale, la funzione di distribuzione F(x) delle varia-li, prende il nome, per le variabili statistiche, di funzione cumulativa di fre-

(x) e rappresenta la percentuale di elementi della popolazione il cui valoretale xi risulta minore o uguale a x.

6.24

zione di istogrammi

to di densità di probabilità non è applicabile ad una variabile discreta per-a funzione di distribuzione è in ogni punto discontinua o costante.

mplica, per l'analogia tra variabili casuali e variabili statistiche che non sinire un concetto analogo alla densità di probabilità per la variabile stati-

a importante poter confrontare la variabile statistica con particolari varia-ali ben conosciute attraverso la funzione densità di probabilità, ciò si fa la costruzione di istogrammi.

nto vien fatto tra probabilità (nella variabile casuale) e frequenza (dellastatistica) in questo modo: si fissa un intervallo e si esamina la percentualeati che cadono nello stesso intervallo:

6.25

F x( ) fii

∑ Ni∑N

------------= = xi x≤∀

∆F x0( )N x0 ∆x,( )

N-----------------------=

STATISTICA DI BASE

dove il numeratore rappresenta il numero di elementi che cadono in detto inter-vallo. Il confronto è valido per N grande (ad esempio N>200).

Si abbiano ad esempio una serie di valori nell'intervallo I = (b–a ).

Si riporta sull'asse x l'intervallo (a,b) e si divide in n parti (con n< m valori dati),non necessariamente uguali .

Per ogni intervallo si contano il numero di risultati che cadono in Ii = N (Ii) e sisommano le frequenze relative a detto intervallo .

Si disegna sopra Ii un rettangolo di altezza .

Abbiamo costruito così una tabella:

6.26

dove xi sono le ascisse dei valori medi degli intervalli Ii.

Si può verificare infine che:

6.27

La media

La descrizione completa di una variabile casuale deriva dalla conoscenza della suafunzione di distribuzione o della densità di probabilità od altro di equivalente. Permolti usi pratici la vc è ben localizzata, cioè distribuita in una ristretta zona di valoriammissibili. Ad esempio, nella misura con distanziometri elettronici di distanze,una distanza di 1 km può avere ripetizioni che al più differiscono di 2-3 mm; pertutte queste variabili le informazioni più importanti da conoscere sono dove è loca-lizzata la distribuzione e quanto è dispersa. Allo scopo, sono utili due indici: mediae varianza.

Definizione: si chiama media della vc x, quando esista, il numero:

6.28

Si noti l'analogia col momento statico di f(x ).

Nel caso di una vc discreta:

6.29

e, per analogia per una variabile statistica, la media, che si indica con m vale:

I1 I2 …, I, n,( )

fK∑ fi=fK∑ Ii⁄

x1 x2…xn

f1 f2…fn

fi∑ fK

I i---- I i

K∑

i∑ 1= =

M x[ ] µ x f x( ) dx∞–

∞

∫= =

M x[ ] xi pi∑=

6.30m M x[ ] x xi∑= = = fi

xi Ni

N-----------∑=

9

STATISTICA DI BASE

10

Dove con si intende l'operazione matematica (l'operatore) che, da unadistribuzione, sia essa a priori vc o a posteriori vs, calcola un numero che è la mediadella distribuzione.

La 6.30 evidenzia in Ni il numero di volte che il valore argomentale xi è statoestratto, presupponendo la costruzione di una tabella ordinata allo scopo, se invececon xj indichiamo il singolo valore estratto si ha:

6.31

Si può dimostrare che la media è un operatore lineare cioè gode delle proprietà:

6.32

6.33

La varianza

È un indice che misura il grado di dispersione di una vc x attorno alla media.

Per definizione, se esiste vale

6.34

Si definisce la variabile scarto ν

6.35

La varianza si ottiene cioè applicando l'operatore media al quadrato della variabilescarto, in altri termini è il momento del secondo ordine della variabile scarto e siindica con , o solo .

Per la variabile statistica, per analogia, la varianza si indica con , o solo. La radice quadrata della varianza si chiama scarto quadratico medio e si indica

con sqm o con σ , tale valore è più usato della varianza, in quanto dimensional-mente omogeneo a x. Si ha dunque:

6.36

e, per una vc discreta:

6.37

Con la solita analogia tra variabile casuale e variabile statistica, per quest'ultima siha:

6.38

M ⋅[ ]

m x1N---- xi∑= = j 1 … N,,=

M x y+[ ] M x[ ] M y[ ]+=

M kx[ ] k M x[ ]=

σ 2 x[ ] M x µx–( )2[ ]=

ν x µx–( )=

σ 2 x[ ] σ x2 σ 2

S 2 x( ) S x2

S 2

σ x2 X µx–( )2 f X( ) dx

∞–

∞

∫=

σ x2 Xi µx–( )2 pi

i∑=

S 2 Xi Mx–( )2Ni

N-----

i∑ 1

N---- Xj Mx–( )2

j∑

ν j2

j∑

N--------------= = =

STATISTICA DI BASE

11

Le ultime due espressioni valgono per una vc non ordinata: per questo si è sostitu-ito l'indice j all'indice i.

Dalla definizione di varianza, tenendo conto della linearità dell'operatore media esviluppando si ha:

6.39

che permette di calcolare senza passare dalla variabile scarto. Per una vs nonordinata la 6.39 si trasforma:

6.40

Nella 6.39 rappresenta il momento del 2° ordine della vc che è dato dalla sommadella varianza e del quadrato del valor medio.

6.3 TEOREMA DI TCHEBYCHEFF

Nell'analogia meccanica in cui la probabilità viene considerata come una distribu-zione di massa concentrata o distribuita sull'asse x, la media esprime (a parte unacostante di standardizzazione), la posizione del baricentro (il momento statico) e lavarianza ha il senso di momento di inerzia rispetto al baricentro.

Più le masse sono disperse e più è alto il momento di inerzia, cioè la varianza. Que-sta nozione qualitativa è espressa in termini probabilistici quantitativi dal teoremadi Tchebycheff che vale per qualsiasi tipo di distribuzione.

Teorema

Preso , e variabile casuale x, vale la disuguaglianza:

6.41

Il teorema ci dice qual è la dimensione dell'intervallo λσ attorno alla media entrocui, per qualunque distribuzione di x , siamo sicuri di racchiudere una probabilitàminima di (1 – 1/λ2).

Dimostrazione

Partiamo dalla definizione di , cioè:

restringendo l'intervallo di integrazione sarà sempre vero che:

6.42

σ x2 M X 2 2µX– µ2+[ ] M X 2[ ] 2µM X[ ]– µ2+ M X 2[ ] µ2–= = =

σ 2

S 2 X( ) 1N---- X j

2

j∑ m2–=

λ∀ 1> ∀

P x µx– λσ x≤( ) 11λ2-----–≥

σ x2

σ x2 σ 2 X µx–( )2 f x( ) dx

∞–

∞

∫= =

σ 2 x µ–( )2 f x( ) dxx µ– λσ≥

∫≥

STATISTICA DI BASE

12

Il primo termine all'interno dell'integrale varrà, per lo meno nell'intervallo di inte-grazione:

dunque l'espressione 6.42 varrà a maggior ragione sostituendo a lacostante :

e, dividendo per :

cioè:

c.v.d.

Il teorema nel caso di variabili statistiche

Consideriamo la variabile:

e facciamo l’ipotesi che sia stata ordinata nel senso crescente

per definizione:

Anche gli scarti νi saranno allora crescenti. Possiamo dividere in tre parti la somma-toria di cui sopra:

s 2 sarà sempre maggiore od uguale alle prime due sommatorie, cioè:

A maggior ragione, essendo nella sommatoria:

x µ–( )2 λσ( )2≥

x µ–( )2

λσ( )2

σ 2 λ2σ 2≥

σ 2

1λ2----- f x( ) dx

x µ– λσ≥∫≥

1λ2----- P x µx– λσ≥( )≥

x1…xn

f1…fn

x1 x2< … xn<

s 2 xi m–( )2 fi

1

n

∑=

s 2 ν i2 fi ν j

2 fj ν k2 fk

k 1=

λ s– v λ s< <

∑+j 1=

v λ s≥

∑+i 1=

v λ s<

∑=

s 2 ν i j,2 fi j,

i j v⁄, λ s≥∑≥ s 2 ν i j,

2 fi j,i j v⁄, λ s≥

∑≥⇒

STATISTICA DI BASE

13

dividendo entrambi i membri per s 2:

dividendo ancora per λ 2 e considerando che :

cioè:

c.v.d.

6.4 LA VARIABILE CASUALE FUNZIONE DI UNA VARIABILE CASUALE

Seguiamo quest'esempio: sia x la vc che rappresenta il lancio di un dado non truc-cato, si ha, chiamando (p,d) i possibili eventi (pari o dispari):

L'insieme S è costituito dall'unione di:

con

prendiamo ora una vc y che rappresenta il lancio di una moneta non truccata eleghiamola alla vc x con questa corrispondenza:

essendo i possibili valori ed associamo per y i valori numerici 0 e 1 a testae croce.

Con ciò . Si ha:

Le due vc si esprimono allora:

ν λ s≥ cioè λ s ν<,

s 2 λ2s2 fi j,i j v⁄, λ s≥

∑≥

1 λ2 fi j,∑≥

fk∑ 1 fi j,∑–=

1λ2----- 1 fk∑–≥

fk∑ 1 1λ2-----–≥

P x p∈( ) 12--- ;= P x d∈( ) 1

2---=

xp{ } xd{ }∪ S=

xp{ } xd{ }∩ φ=

Y g X( )xp y testa↔

xd y croce↔

= =

1 xi 6≤ ≤

0 yi 1≤ ≤

g 2( ) g 4( ) g 6( ) testa 0= = = =

g 1( ) g 3( ) g 5( ) croce 1= = = =

STATISTICA DI BASE

14

Questo esempio è stato fatto su variabili casuali discrete ma può generalizzarsi alcaso di variabili continue in cui una funzione y = g(x) sia definita su tutto l'insiemeSX dei valori argomentali della x.

La g(x) trasforma lo spazio SX nello spazio dei valori argomentali SY.

Cerchiamo ora invece una corrispondenza più interna, più puntuale: poniamo chela funzione g(x) sia una funzione continua: quella tracciata ad esempio in figura 6.4.

Fig. 6.4 – Variabile casuale funzione di variabile casuale.

dove il dominio dei valori argomentali è: SX = (a, b ) SY = (c , d ).

Sia AY un sottoinsieme di SY; a questo sottoinsieme corrisponderà un insieme:

cioè, per definizione:

6.43

Ed ora cerchiamo l'annunciata corrispondenza puntuale: scegliamo per AY unintervallo dy (y0) attorno a y0 e, nell'ipotesi che g(x) sia continua e differenziabile, siavrà che AX sarà formata da uno o più intervalli attorno a xi anch'essi di ampiezzadxi, per cui si avrà la corrispondenza in termini probabilistici di:

6.44

(con il simbolo Σ si intende qui l'operatore unione insiemistica ).

Si ha allora che:

X 1 6⁄ 1 6⁄ 1 6⁄ 1 6⁄ 1 6⁄ 1 6⁄1 2 3 4 5 6

=

Y 0 11 2⁄ 1 2⁄

=

a

yd

bx

c

y=g(x)

dx1 dx2 dx3

x1 x2 x3

dy y0

AX SX g AX( )⁄∈ AY=

P y AY∈( ) P x AX∈( )=

AY dy y0( ) AX→← dxi xi( )∑= =

∪

P y dy y 0( )∈( ) P x dxi xi( )∈( )1

m

∑=

STATISTICA DI BASE

cioè

6.45

in quanto per un intervallo infinitesimo il secondo membro è uguale a ,dove è la densità di probabilità della vc x. Dividendo entrambi i membridella 6.45 per si ottiene:

e, per definizione del primo membro:

che è la formula di trasformazione di variabili casuali fra loro legate da una fun-zione g.

Esempio 1

Il legame fra due vc x ed y sia:

si ha:

quel che serve tuttavia è avere una funzione esplicita di fy in funzione di y cioè fy(y ):

Se nell'esempio scegliamo per fx la funzione definita normale standardizzata o Gaus-siana:

si avrà:

Si può dsformazvariabile

f y( ) dy f x( ) dx∑=

fX x( ) dxfX x( ) dx

dy

P y dy y 0( )∈( )dy

------------------------------------P x dxi xi( )∈( )

dy----------------------------------

fX xi( )dydx------

-------------∑=∑=

y ax b+=

g ' x( ) a ;= fy y( )fx x( )

a-----------=

fy y( )fx

y b–a

----------

a---------------------=

6.47a

6.47b

fx x( ) 1

2π---------- e

x 2

2-------–

=

fy y( ) 1

2π a----------------- e

12--- y b–

a------------

2–

=

6.46fy y 0( )fx xi( )g ' xi( )

----------------i

∑=

15

imostrare che la media della vc y è b ed il suo sqm è ± a. Attraverso la tra-ione lineare precedente si passa cioè dalla variabile non standardizzata alla standardizzata di Gauss.

STATISTICA DI BASE

Esempio 2

Il legame sia y = x 2 cioè . Ad un unico valore di y corrispondono duevalori di x:

Se, come sopra, è la 6.47a si avrà:

6.48

Il quadrato di una variabile gaussiana 6.47 ha dunque funzione di distribuzione diequazione 6.48 che vedremo essere la variabile ad una dimensione cioè .

6.5 TEOREMA DELLA MEDIA

Siano x ed y due variabili casuali legate dalla relazione y = g(x); allora la media diy, se esiste vale:

6.49

È cioè possibile fare il cambiamento di variabili nell'operatore media .

Dimostrazione

Poniamoci, solo per semplicità, nel caso che g(x) sia monotona e crescente(g'(x )>0). Ricordando la definizione di media e la 6.46:

Seguono due importantissimi corollari del teorema.

Corollario 1

La media è un operatore lineare, vale a dire se x ed y sono due vc ed

Infatti:

x y±=

x1 y ;–= x2 y=

g' x1( ) 2x1 2 y ;–= = g' x2( ) 2x2 2 y ;= =

fy y( )fx y–( )

2 y –---------------------

fx y–( )2 y

---------------------+∑ fx y–( ) fx y( )+

2 y ----------------------------------------------= =

fx y( )

fy y( ) 1

2 2πy -------------------- e

12--- y–( )2– 1

2 2πy -------------------- e

12--- y( )2–

+1

2 2πy -------------------- e

y2---–

= = per y 0≥( )

χ2 χ12

µy My= y[ ] Mx g x( )[ ]=

M ⋅[ ]

My y[ ] y fy y( ) dy∞–

∞

∫ yfx x( )g' x( )----------- dy

∞–

∞

∫ g x( )fx x( )g' x( )----------- g' x( )dx⋅

∞–

∞

∫= = =

My y[ ] g x( ) fx x( )dx∞–

∞

∫ Mx g x( )[ ]= = c.v.d.

6.50y ax b+= My y[ ]⇒ aMx x[ ] b+=

16

STATISTICA DI BASE

Corollario 2

Sia y = g(x); sotto opportune ipotesi della g rispetto alle distribuzioni di x ed y econ una certa approssimazione vale:

Fig. 6.5

Dimostr

Sia x unponiamun into

Svilupp

Il secondella va

L'equaz

M y y[ ] Mx ax b+[ ] ax b+( ) fx x( ) dx∞–

∞

∫ a x fx x( ) dx b x fx x( ) dx∞–

∞

∫+∞–

∞

∫= = =

M y y[ ] aMx x[ ] b+=

6.51µy M y= y[ ] g µx( )=

17

– Dimostrazione del 2° corollario del Teorema della media.

azione del 2° corollario

a vc abbastanza concentrata attorno a µx (che abbia cioè piccolo σx), sup-o poi che g(x) abbia andamento molto regolare attorno a µx, per lo meno inrno [a ,b ].

ando g(x) si ha, al primo ordine:

do termine del secondo membro è nullo in quanto rappresenta la mediariabile scarto, risulta dunque provata la 6.51.

ione 6.51 si trasforma nella 6.50 nel caso lineare, nel quale è rigorosa.

µx

µx

y

xa b

y=g(x)

g( )

g x( ) g µx( ) g' µx( ) x µx–( )+≅

µy My y[ ] g x( ) fx x( )dx g µx( ) g' µx( ) x µx–( )+[ ] fx x( )dx∞–

∞

∫≅∞–

∞

∫= =

g µx( ) f x x( ) dx g' µx( ) x µx–( ) fx x( )dx∞–

∞

∫+∞–

∞

∫

STATISTICA DI BASE

18

Esempio

Di un anello si è più volte misurato direttamente il diametro, ottenendo il valoremedio di ; si desidera conoscere la superficie interna media in modo indiretto.Applicando la 6.51 si ha:

6.6 LEGGE DI PROPAGAZIONE DELLA VARIANZA

Sotto le ipotesi del secondo corollario del teorema della media se la vc y è una fun-zione della vc x :

6.52

Dimostrazione

Poniamoci nel solito intervallo [a ,b ] che comprende quasi tutto l'insieme SX, nelqua l e v a l gono l a 6 . 5 0 e l a 6 . 5 1 . Pe r f unz i on i mono tone s i h a

, dunque:

e, sviluppando g(x):

cioè a dire la 6.52.

Osservazioni al teorema di propagazione della varianza

La 6.52 è una formula rigorosa nel caso che g(x ) sia una funzione lineare; in tal casoinfatti:

x

y πx2

4--------=

y g x( )=

σ 2 g' µx( )2 σ x2=

f x x( ) d x f y y( ) d y=

σ y2 g x( ) µx–( )2 fx x( )dx

a

b

∫=

σ y2 g µx/( ) g' µx( ) x µx–( ) µy/–+[ ] 2 fx x( )dx

a

b

∫≅

σ y2 g ' µx( )2 x µx–( )2 fx x( )dx

a

b

∫ g' µx( )2 x µx–( )2 fx x( )dxa

b

∫≅ ≅

y ax b+= µy⇒ a µx b+=

σ y2 My y µy–( )2[ ] M ax b aµx– b–+( )2[ ] a2M x µx–( )2[ ]= = =

σ y2 a2 σ x

2= c.v.d.

STATISTICA DI BASE

19

Data una variabile casuale x qualunque è sempre possibile con una trasformazionelineare costruire da questa una variabile casuale z tale che:

6.53

detta variabile casuale standardizzata.

Grazie al teorema della media e della propagazione della varianza basta infattiporre:

6.54

e si avrà;

Esempio di applicazione del teorema di propagazione della varianza

Nel calcolo della superficie interna di un anello si è misurato il diametro medio x = 5 cme stimato si desidera calcolare la superficie media e la relativavarianza:

Quante cifre hanno senso in questo calcolo?

Ha senso definire dunque al massimo a due cifre dopo la virgola:

.

6.7 ALCUNE IMPORTANTI VARIABILI CASUALI

Distribuzione di Bernoulli o binomiale

Consideriamo un esperimento stocastico ε e siano S i suoi possibili risultati. Suppo-niamo che S sia costituita da due insiemi disgiunti A e B di eventi incompatibili 0ed 1 aventi rispettivamente probabilità p e q=(1–p):

6.55

µz 0 ;= σ z2 1=

zx µx–

σ x-------------=

M z[ ] 1σ x-----M x µx–[ ] 0= =

σ 2 z[ ] 1σx----- σ x

2 1= =

σx 0.01cm±=

yπx 2

4---------19.63495 cm2=

σ y2 2 x π

4---

2

σ x2 ;= σ y

x π2

-------σ x =

σ y 0.0785 cm2±=

y

y 19.63 cm2 0.078 cm2±=

P A( ) p ;= P B( ) q ;= ε0 1q p

:=

STATISTICA DI BASE

con:

Da questa vc discreta ne costruiamo una seconda: consideriamo n ripetizioni indi-pendenti di ε ed indichiamo con β la vc discreta (intera) che descrive la probabilitàche, su n esperimenti ε , k abbiano un risultato in A e (n – k) un risultato in B. Percostruire la seconda riga della vc k:

abbiamo ora bisogno di conoscere il teorema delle probabilità totali che dice inquesto caso: la probabilità di k successi su n prove è uguale alla somma delle proba-bilità di (k–1) successi su (n–1) prove per la probabilità p di un nuovo successo, piùla probabilità di k successi in (n–1) prove per la probabilità q di un insuccesso.

È possibile cioè ricavare la formula ricorsiva:

6.56

Partiamo da una prova dell'esperimento: la probabilità di successo sarà p e di insuc-cesso q:

6.57

Si ha ad esempio, applicando la 6.56:

ed in genere P(n ,0) = qn. Viceversa:

in genere P(n,n) = p e, per valori qualunque di (n,k) si dimostra che vale:

6.58

Dunque la vc discreta β è così definita:

M ε xi pi∑ p ;= = σ 2 ε 1 p–( )2p 0 p–( )2q+ p q= =

ββ = 0 1 2 3 …n

– – – – –

:=

P nk( ) p P n 1 k 1–,–( ) q P n 1 k,–( )⋅+⋅=

P 1 1,( ) p ;= P 1 0,( ) q=

P 2 0,( ) p 0 q q⋅+⋅ q2= =

P 2 1,( ) p P 1 0,( ) q P 1 1,( )⋅+⋅ P 2 1,( ) pq pq+ 2pq= = = =

P 1 2,( ) p P 0 1,( ) q P 0 2,( )⋅+⋅ 0= =

P 2 2,( ) p P 1 1,( ) q P 1 2,( )⋅+⋅ p2= =

P n k,( )n

k pkqn k–=

6.59βk =

0 1 2 … n

qnn

2 p2qn 1– … … pn

:=

20

STATISTICA DI BASE

21

Per ricavare media e varianza della 6.59 possiamo con maggior facilità applicare ilteorema della media e quello della propagazione della varianza. Essendo β la vcsomma delle n variabili ε :

ed avendo ciascuna variabile ε media uguale a p e varianza uguale a pq:

6.60

6.61

La distribuzione binomiale ha la forma di figura 6.6 (è discreta e dunque costituitada un insieme distinto di punti).

Fig. 6.6 – Distribuzione binomiale o di Bernoulli.

Distribuzione normale o di Gauss

La funzione densità di probabilità è data dalla:

6.62

dove si può verificare che µ e σ 2 sono media e varianza della variabile casuale giàvista nella 6.47. La figura 6.7 mostra due distribuzioni normali con stessa media, µ = 1ma con σ =±0.8 e σ =±2 rispettivamente.

La standardizzazione della 6.62 conduce alla variabile z con distribuzione:

6.63

Se cerchiamo la funzione di distribuzione della 6.63 si ha:

β ε1 ε2 … εn+ + +=

M β[ ] np=

σ 2 β[ ] npq=

P1

i0.0

0.1

0.2

0.3

0.4

0.5

0.6

0 2 4 6 8 10 12 14 16 18 20

n = 10

n = 50

fx x( ) 1

σ 2π---------------- e

x µ–

σ 2-----------

2–

= ∞ x ∞≤ ≤–

fz z( ) 1

2π---------- e

z 2

2------–

=

STATISTICA DI BASE

Fig. 6.7 – Distribuzione normale o di Gauss

6.64

Attraverso la Φ(z) possiamo ricavare la probabilità che z od x appartengano a variintervalli attorno a σ : i valori più comuni sono:

6.65

La distribuzione χ 2 (chi quadro)

Si può dimostrare che se sono n variabili casuali indipendenti, aventiuna distribuzione normale e standardizzata la somma χ2 dei loro quadrati è pure unavariabile casuale:

6.66

la cui densità di probabilità (chiamando per non generare confusioni ) èdata da:

0

0.1

0.2

0.3

0.4

0.5

-5 -4 -3 -2 -1 0 1 2 3 4 5 6

0.8=+-σ

2=+-σ

µ=1

φ z( ) def( )erf z( ) 1

2π----------- e

z 2

2------–

zd

∞–

z

∫= =

P x µx–( ) σ < erf 1( ) erf 1–( )– 0.683= =

P x µx–( ) 2σ < erf 2( ) erf 2–( )– 0.954= =

P x µx–( ) 3σ < erf 3( ) erf 3–( )– 0.997= =

z1 z2 … zn,,,

χ2 z12 z2

2 … zn2+ + +=

χ 2 h≡

6.67f h( ) h n 2 1–⁄( ) e n 2⁄– 2n 2⁄ Γn 2⁄[ ] 1–=

22

STATISTICA DI BASE

23

Come si vede χ2 dipende anche dal parametro intero n, detto grado di libertà. Nella6.67 il termine entro la quadra è una costante che fa si che la relativa funzione didistribuzione valga .

Nelle 6.67, in parentesi, compare la funzione Γ di Eulero, generalizzazione dellafunzione fattoriale; per numeri reali si calcola attraverso:

6.68

Per valori di s semi-interi si usa la più comoda formula ricorsiva

6.69

6.70

Si dimostra che:

Nella pratica occorre trovare la probabilità totale dei valori argomentali che supe-rino (figura 6.8).

Fig. 6.8 – Funzione densità di probabilità χ 2.

6.71

F h( )h ∞→lim 1=

Γ s( ) x s 1– e x– xd

0

∞

∫=

Γ 1( ) 1 ;= Γ 32---

π2

-------- =

Γ p 1+( ) p Γ p( )=

µ χ 2( ) n=

σ 2 χ2( ) 2n=

χ 02

f (x)

x

v=12

3

45

67

P χ2 χ02>( ) f h( ) hd

χ02

∞

∫=

STATISTICA DI BASE

24

Questi valori sono in genere tabulati in funzione di e di n. Tale variabile siindica spesso anche con per evidenziare il numero di gradi di libertà.

Distribuzione t di Student

Sia z una normale standardizzata e zi altre variabili normali standardizzate i = 1…ne sia:

6.72

una seconda variabile casuale così costruita ed indipendente da z.

Si definisce la variabile t come:

6.73

Si dimostra che la funzione densità di probabilità f(t ) vale:

6.74

La 6.74 è simmetrica rispetto all'origine, dunque:

6.75

Si prova che:

6.76

Per grandi valori di n , t è molto simile alla variabile z.

Per un certo valore del grado di libertà n i valori della funzione di distribuzione diquesta variabile casuale si trovano tabulati in funzione delle probabilità ; adesempio per α = 5% si trova tabulato:

6.77

χ 02

χ n2

y z12 z2

2 … zn2+ + + χn

2= =

t tnz n

χn2

---------- z n

z12 z2

2 … zn2+ + +

--------------------------------------------= = =

f t( ) 1 t 2

n----+

n 1+

2------------– Γ n 1+

2------------

πn Γ n 2⁄( )------------------------------=

µ t( ) 0=

σ 2 t( ) nn 2–------------= per n 2>

α t1 α–n,

P t tα<( ) 1 α–=

STATISTICA DI BASE

25

Fig. 6.9 – Distribuzione t di Student.

La distribuzione F di Fisher

Siano date due vc χ 2 ad n ed m gradi di libertà ed indipendenti tra loro; allora ilrapporto

6.78

è una vc detta F di Fisher ad (n,m ) gradi di libertà.

Si può dimostrare che:

6.79

e che:

6.80

6.81

-4 -3 -2 -1 0 1 2 3 4

0.08

0.16

0.24

0.32

0.40

Distribuzione di "Student"

(N=4 G. di lib.=3)

Distribuzione normale standard (G. di lib.= ∞)

Fχn

2 1n---⋅

χm2 1

m----⋅

--------------- Fn m,= =

f F( ) F n 2–( ) 2⁄

nF m+( ) n m+( ) 2⁄---------------------------------------nn 2⁄ mm 2⁄ Γ n m+

2-------------

Γ n 2⁄( ) Γ m 2⁄( )------------------------------------------------⋅= per F 0≥

M F[ ] nn 2–------------= n 2>( )

σ 2 F( ) 2n2 m n 2–+( )m n 2–( )2 n 4–( )-----------------------------------------=

STATISTICA DI BASE

26

Fig. 6.10 – Variabile F di Fisher.

Anche qui le tabelle riportano per (n,m ) gradi di libertà.

Generalmente è impiegata la variabile F detta di Fisher modificata che risulta esseresempre maggiore di 1 essendo così definita:

6.82

0 1 2 3 4F0

0,5

1,0

1 GL ; 5 GL

10 GL ; 10 GL

P F F0≥( )

FF con F 1≥

1 F⁄ con F 1<

=

27

7. LA VARIABILE CASUALE A

n

DIMENSIONI

Partiamo col definire una variabile casuale discreta a

n

dimensioni cioè quella varia-bile per cui ogni valore argomentale può essere indicato come un vettore ,cioè un punto nello spazio :

7.1

L'insieme dei valori argomentali S sarà dunque un insieme in cui è definitala nostra distribuzione di probabilità.

La vc si dice

discreta

se la distribuzione di probabilità è concentrata solo su

k

punti

x

i

,

i =

1

,…,k

con la condizione:

7.2

In caso opposto la vc si dice

continua

. Analogamente alla vc discreta ad una dimen-sione si potrà rappresentare una vc discreta ad

n

dimensioni con una tabellan-dimensionale.

Nel caso di vc doppia ad esempio si può costruire la tabella:

x lRn∈lRn

x

x1

x2

.

.

.

xn

=

S lRn∈

P x xi=( )i 1=

k

∑ 1=

x x11 x1

2 … x1k

x21

x22

x2h

p11 p1

2 … p1k

p21 p2

2 … p2k

ph1 ph

2 … phk

Pij P x1 x1i= , x2 x2

i=( )=

LA

VARIABILE

CASUALE

A

n

DIMENSIONI

28

La vc discreta è sempre assimilabile alla variabile statistica, sostituendo alle

p

ij

le fre-quenze relative

f

ij

:

Una distribuzione di probabilità viene chiamata variabile casuale quando è definitala probabilità

per ogni

insieme del tipo:

Anche in questo caso possiamo definire la funzione densità di probabilità dellavariabile casuale

x

se esiste, attraverso il limite:

7.3

dove

ω

(A) è la misura dell'insieme A e

ρ

è il suo «diametro» che tende a zero in attorno al punto

x

.

La

7.3

può essere riscritta con:

7.4

dove d

V

(

x

) è un elemento di volume in

attorno a

x

. Dalla definizione prece-dente si ha:

7.5

e la funzione di distribuzione

7.6

derivando la

7.6

si ricava:

7.7

Esempio 1

In un urna sono contenute due palline bianche (

b, B

) e due nere (

n , N

). La varia-bile casuale discreta che descrive l'estrazione in blocco delle due palline e la relativaprobabilità sono

1

:

1

Si ricorda che gli esempi sono tratti dal già citato testo di F. Sansò.

fijNij

N-------=

x1 x01; …xn x0n<≤{ }

P x1 x01; …xn x0n<≤( ) F x01; x02; …x0n( ) F x 0( )==

f x( ) P A( )ω A( )-------------

ρ 0→lim=

lRn

f x( ) dP x( )dV x( )---------------=

lRn

P x A∈( ) f x( ) dV x( )

A∫=

F x01, x02,…, x0n( ) dx1… f x( )dxn

∞–

∞

∫∞–

∞

∫=

f x( ) ∂nF x( )∂x1…∂xn----------------------=

LA

VARIABILE

CASUALE

A

n

DIMENSIONI

29

Nell'ipotesi di due estrazioni successive con sostituzione (reintegrazione) invece lavc sarà:

Esempio 2

Osservando un gran numero di tiri al bersaglio possiamo dire quanto segue:

a. in ogni zona del bersaglio i colpi tendono a distribuirsi uniformemente aparità di distanza dal centro

b. contando i punteggi si è visto che, indicando con r la distanza dal centro

7.8

Fig. 7.1 –

Distribuzione bidimensionale.

La costante σ 2 è un parametro di bravura del tiratore.

Si vuole trovare la distribuzione bidimensionale dei tiri (figura 7.1).

Notiamo che la 7.8 fornisce la probabilità che P[ξ ,η ] ∈ dC con dC elemento dicorona circolare attorno ad r0.

b B n N 1A ESTRAZIONE

b / bB bn bN

→

0 1/12 1/12 1/12 2A estrazione Bn Bb / Bn BN 1/12 0 1/12 1/12

N nb nB / nN 1/12 1/12 0 1/12

/ Nb NB NB / 1/12 1/12 1/12 0

b B n N 1A ESTRAZIONE

b bb bB bn bN

→

1/16 1/16 1/16 1/16 2A estrazione Bn Bb BB Bn BN 1/16 1/16 1/16 1/16

N nb nB nn nN 1/16 1/16 1/16 1/16

/ Nb NB NB NN 1/16 1/16 1/16 1/16

P r dr r0( )∈[ ]r0

σ 2------ e

r0

2

2σ 2----------–

dr=

dC

d

η

ω

ξ

ϑ dr

ro0

d

LA VARIABILE CASUALE A n DIMENSIONI

Siccome in dC la probabilità è uniformemente distribuita, allora:

Per la definizione di densità di probabilità:

La 7.9 ra

7.1 DIS

Lo scopozionate èpendenti

Conside

È facile inel cercastia in dnale si getale che:

Questa v

ricordanzione F s

Una vc n

P ξ ,η( ) dω∈[ ] P x dC∈[ ] dωdC-------- P x dC∈[ ] dϑ

2π------- 1

σ 2------ e

r0

2

2σ 2---------–

r dr dϑ2π-------= = =

f ξ ,η( ) P ξ ,η( ) dω∈[ ]dω

------------------------------------ P ξ ,η( ) dω∈[ ]r dr dϑ

------------------------------------= =

P[

f x1

7.9f ξ ,η( ) 12πσ 2-------------- e

r2

2σ 2---------– 1

2πσ 2-------------- e

ξ 2 η2+

2σ 2-----------------–

= =

30

ppresenta l'equazione della distribuzione normale a due dimensioni.

TRIBUZIONI MARGINALI

dell'introduzione delle distribuzioni marginali e delle distribuzioni condi-, ai nostri fini, capire se e quando due variabili casuali sono fra loro indi-.

riamo l'evento A:

ntuire che la classe di questi eventi dipende solo dalla variabile casuale x 1 e,re la probabilità dell'evento Ai , domandiamo qual è la probabilità che x 1

x 1 qualunque valore assunto per x2…xn. Da una distribuzione n-dimensio-nera cioè una distribuzione mono-dimensionale ed una corrispondente vc x1

c è detta marginale della x ed ha densità di probabilità:

do la definizione di densità di probabilità 6.23 come derivata dalla fun-i ha:

7.10

-dimensionale avrà n marginali mono-dimensionali.

A x1 dx1 x01( ); ∞– x2 ∞; … ∞– xn ∞< << <∈{ }=

x1 dx1∈ ] P x A∈[ ] dx1 dx 2 dx3… dxn f x01,x2,…xn( )

∞–

∞

∫∞–

∞

∫∞–

∞

∫= =

x 01( ) P x A∈[ ]dx1

---------------------- dx 2 dx 3… dxn f x 01,x 2,…xn( )

∞–

∞

∫∞–

∞

∫∞–

∞

∫= =

f x1x 01( ) ∂

∂x1-------- F x 01, ∞ , ∞ ,…, ∞+ + +( )=


Oltre alle distribuzioni marginali ad una componente si possono anche introdurredistribuzioni marginali di insiemi di componenti: (x1, x2), (x1, x3) ecc. Ad esempio:

che, integrata, fornisce la probabilità che un certo gruppo di componenti (x 1,x 2)appartengano ad un certo elemento di volume dV2 per qualunque valore assunto dallealtre componenti.

7.2 DISTRIBUZIONI CONDIZIONATE

Ci si chiede qual è la probabilità che m variabili, ad esempio (x 1… xm) stiano in unelemento di volume dVm, mentre le altre (xm+1… xn) sono certamente vincolate adun elemento di volume dVm-n.

I due eventi A e B sono:

Si desidera calcolare che vale secondo la 6.7:

Tale distribuzione di probabilità genera una densità di probabilità per le variabili(x1…xm) per qualunque valore delle rimanenti variabili (xm+1…xn) che vale:

f x1 x2x1, x2( ) dx3… dxn f x 01,x 02,…xn( )

∞–

∞

∫∞–

∞

∫=

A x1 …xm( ) dVm∈{ } ; B xm 1+ …xn( ) dVn m–∈{ }P A B[ ]

P A B[ ] P AB[ ]P B[ ]

----------------f x x( )dVm dVn m–

dVn m– f x x1…xm, xm 1+ …xn( )dVm

R m

∫---------------------------------------------------------------------------------------- = =

P A B[ ]f x x1…xm, xm 1+ …xn( )dx1…dxm

dx1… dxm f x x1…xm, xm 1+ …xn( )

∞–

∞

∫∞–

∞

∫---------------------------------------------------------------------------------------------=

f x1…xm xm 1+ …xnx1…xm xm 1+ …xn( )

f x x1…xm, xm 1+ …xn( )

dx1… dxm f x x 1…xm, x m 1+ …xn( )

∞–

∞

∫∞–

∞

∫------------------------------------------------------------------------------------------- =

7.11f x1…xm xm 1+ …xnx1…xm xm 1+ …xn( )

f x x1…xm, xm 1+ …xn( )f xm 1+ …xn

xm 1+ …xn( )-------------------------------------------------------=

31

LA

VARIABILE

CASUALE

A

n

DIMENSIONI

7.3

INDIPENDENZA

STOCASTICA

Leggi relative alle distribuzioni

Ricordando le

6.8

due eventi si definiscono stocasticamente indipendenti se:

6.8

Se ci limitiamo ad esaminare un elemento di volume d

V

m

:

si ha allora che, nel caso di eventi indipendenti, la

7.11

deve essere uguale anche a, cioè a dire:

7.12

Se ciò è verificato le variabili casuali sono stocasticamente indipendentidalle rimanenti .

Se, al contrario, la densità di probabilità totale può essere fattorizzata nelprodotto:

7.13

le prime variabili sono indipendenti dalle seconde.

Si nota che i termini al secondo membro sono proporzionali alle marginali. Siarriva così al teorema:

Condizione necessaria e sufficiente affinché

siano stocasticamenteindipendenti da

e viceversa, è che la densità di probabilità con-giunta si spacchi nel prodotto delle due marginali:

7.14

Ne segue un facile corollario:

Condizione necessaria e sufficiente affinché le

n

componenti di una vc

n

-dimensio-nale siano tutte tra loro indipendenti è che la densità di probabilità congiunta sispacchi nel prodotto delle

n

-marginali:

Si noti,

sioni pu

P A B[ ] P A[ ]=

P A[ ] P x1…xm( ) dVm∈[ ] f x1…xmx1…xm( )dVm= =

fx1…xmx1…xm( )

f x1…xm xm 1+ …xn( ) f x x( ) f x1…xmx1…xm( ) f xm 1+ …x n

xm 1+ …xn( )= =

x1…xm( )xm 1+ …xn( )

f x x( )

f x x( ) φ x1…xm( )ψ xm 1+ …xn( )=

x1…xm( )xm 1+ …xn( )

f x x( ) f x1…xmx1…xm( ) fxm 1+ …xn

xm 1+ …xn( )=

7.15f x x( ) f x1x1( ) f x2

x2( )…f xnxn( )=

32

a proposito, che la 7.9 che rappresenta la variabile di Gauss a due dimen-ò rappresentarsi anch’essa dal prodotto:

f ξ η⋅( ) f ξ( ) f η( )⋅ 1

2π σ------------------ e

12--- ξ

σ-------

2

1

2π σ------------------ e

12---– η

σ-------

2

⋅= =

LA

VARIABILE

CASUALE

A

n

DIMENSIONI

33

7.4 V

ARIABILI

CASUALI

FUNZIONI

DI

ALTRE

VARIABILI

CASUALI

Trasformazione di variabili

Supponiamo che sia data una funzione g che trasformi variabili da

a

:

7.16

( g è un vettore di funzioni).

Si può dimostrare che, a partire da una distribuzione di probabilità in possiamocostruirne una in così fatta:

Sia d

V

m

(

Y

0

)

un'elemento di volume di in un intorno di

Y

0

,

e sia

A

(

Y

0

)

l'immagine inversa di

d

V

m

(

Y

0

),

vale a dire l'insieme di:

Si pone:

7.17

ammesso che il secondo termine sia misurabile.

Dunque da una variabile casuale (a destra dell'uguale) possiamo costruirne unaseconda (a sinistra dell'uguale).

Ci si chiede: conoscendo la distribuzione di come sarà distribuita la variabile ?

I casi da prendere in considerazione sono tre:

Escludiamo subito il caso

m

>

n

,

infatti, se

g(

x

)

è differenziabile l'insieme dei valoriargomental

i

è un insieme in , ma avrebbe misura nulla: nonci interessa per il trattamento delle misure analizzare distribuzioni singolari.

Nel caso in cui n=m, se lo jacobiano J della funzione non è nullo, si ha una cosid-detta trasformazione regolare:

ciò ci permette di dire che esiste anche la relazione inversa che porta da a .

Sia allora dVn( y) un elemento di volume attorno ad e dVn( x) l'elemento divolume corrispondente attorno ad .

Il primo intorno lo otteniamo applicando ad la trasformazione g, cioè è l'intorno:

lRn lRn

y g x( )=

lRn

lRn

lRn

x∀ lRn g x( )⁄ dVm Y0( )∈ ∈

P Y dVm Y0( )∈[ ] P x A Y0( )∈( )=

x

x y

m n;<m n;=

m n.>

Y g x( ) x⁄ lRn∈= lRn

J g( ) ∂g∂x------ det.

∂g1

∂x1--------…

∂g1

∂xn-------

∂gn

∂x1--------…

∂gn

∂xn---------

0≠= = x∀ lRn∈

y x

yx

x


7.18

Per la definizione della probabilità ad n-dimensioni si ha poi l'equazione:

7.19

e, per la definizione di densità di probabilità:

cioè:

7.20

Ma la derivata al denominatore è qualcosa di già noto, infatti è lo Jacobiano di ,:

7.21

e allora la 7.20 si trasforma in:

7.22a

dove:

7.22b

Esempio di applicazione della trasformazione ad un caso lineare

Sia data una trasformazione lineare e regolare da a 1

con:

1 Qui di svettori. tralasciadimostr

dVn y( ) g dVn x( )( )=

P Y dVn y( )∈[ ] P X dVn x( )∈[ ]=

fy y( ) dVn y( ) f x x( ) dVn x( )=

f y y( )f x x( )

dVn y( )

dVn x( )-------------------

------------------------=

gJ g( )

det. ∂g∂x------ ∂g

∂x-----

dVn y( )

dVn x( )------------------= =

f y y( )f x x( )

∂g∂x-------

-------------=

x g 1– y( )=

lRn lRm

7.23y A x b+=

34

eguito indicheremo di tanto in tanto con doppia sottolineatura le matrici e con singola iQuesta notazione è usata per rendere più chiaro il discorso all'inizio di un problema ed èta se il senso della formula è univoco, od in genere, per brevità, all'interno di unaazione già avviata.

A det.A ∂g∂x----- 0≠==


Si ha:

7.24

7.25

Sia la funzione di distribuzione , ad esempio, il prodotto di n normali stan-dardizzate, tali che:

7.26a

che può essere anche scritta come:

Dalla

Si ott

Esam

Definsibile

di mo

La 7.2babilisenta conce

Esam

Ad u

x A 1– y b–( )=

f y y( )f x A 1– y b–( )( )

A------------------------------------=

f x x( )

fx x( ) 1

2π-----------e x– 1

2 2⁄ … 1

2π-----------e x– n

2 2⁄ 12π( )n 2⁄------------------- e

x 12 2⁄∑–

= =

x =

7.26bfx x( ) 12π( )n 2⁄-------------------e

x Tx( )2

--------------–=

7.24 ricaviamo:

iene infine dalla 7.25:

7.27

iniamo l'esponente della 7.27.

ita A2 una matrice reale, simmetrica e positiva, si dimostra che è sempre pos-scomporla nel prodotto:

7.28

do che la 7.27 diviene:

9tàatt

in

n

x T A 1– y b–( )[ ] T y b–( )T A 1–( )T= =

fy y( ) 12π( )n 2⁄ A

--------------------------e12--- y b–( )T A 1–( )T A 1– y b–( )–

=

A2 AT A AAT= =

A

7.29fy y( ) 12π( )n 2⁄ A

-------------------------e12--- y b–( )T A2( ) 1– y b–( )–

=

35

rappresenta la forma nella quale è possibile scrivere la funzione densità di pro- di una qualsiasi variabile normale n-dimensionale non standardizzata e rappre-nche, con la 7.23 e la 7.28 la via da seguire per la standardizzazione. Questii saranno ripresi ed estesi in seguito.

iamo infine il caso di una trasformazione da a con m < n, cioè:

7.30

elemento di volume può corrispondere un insieme di che non ha misura finita:

lRn lRm

y 1 g1 x1…xn( )=

ym gm x1 …xn( )=

dVm y( )X dVm( )


36

Ponendo:

si ha:

7.31

Oltre alla 7.31, se non intervengono ulteriori ipotesi, non si può in questo caso dire altro.

7.5 MOMENTI DI VARIABILI n-DIMENSIONALI

Anche per le variabili casuali n-dimensionali possono generalizzarsi i concetti vistiad una dimensione.

Se esiste la media della variabile casuale n-dimensionale questa è per definizioneun vettore n-dimensionale µx dato da:

7.32

dove il simbolo • sta per prodotto scalare. La componente i-esima di µx vale:

7.33

dalla 7.32 si nota che per calcolare basta conoscere la distribuzione marginaledi xi, infatti:

7.34

cioè la componente i-esima della media di è uguale alla media della compo-nente i-esima.

Nel caso ad esempio di una variabile statistica doppia , rappresentata alsolito dalla tabella:

dVm y( ) g AX dVm( )[ ]=

P Y dVm Y0( )∈[ ] P x AX 0∈[ ]=

fY y( ) 1dVm y( )------------------ f x x( ) dVn x( )

AX dVm( )∫=

x

µ x M x[ ] dVn x( )f x x( )

Rn

∫ x•= =

µxiM xi[ ] dVn x( )xi fx x( )

R n

∞

∫= =

µ xi

µ xidxi dVn 1– xi f x x( )

βn

∫ dxi xi dx1…dx i 1– dx i 1+ …dxn f x x( )∞–

∞

∫∞–

∞

∫= =

µ xidxi xi f x i

xi( )∞–

∞

∫=

x

x y,[ ]


37

possiamo, sfruttando la solita analogia, ricavare:

Teorema della media per variabili casuali n-dimensionali

Sia una trasformazione da a , con variabile casuale e variabile per definizione di media, se esiste, si ha:

7.35

In questo caso il teorema della media afferma che:

7.36

Corollario 1

Nel caso in cui la funzione vettoriale g sia lineare, nel caso cioè in cui:

7.37

Corollario 2

se la variabile è ben concentrata in una zona di attorno alla media µx e,nella stessa zona la funzione che lega le due variabili casuali: è lenta-mente variabile allora:

7.38

in analogia a quanto visto per vc ad una dimensione.

Momenti di ordine di una variabile casuale n-dimensionale

Si definiscono momenti di ordine di una variabile casuale n-dimen-sionale gli scalari:

7.39

x x1, x2,… x r,=

y y1, y2,… y s,=

M x[ ] x 1r--- xi∑= =

M y[ ] y 1s--- yj∑= =

lRn lRm x x lRn∈ yy lRn∈

M y[ ] My g x( )[ ] g x( )fx x( ) xd

lR n

∫= =

MY y[ ] Mx g x( )[ ]=

y A x b+=

µ y A µ xb+=

x lRn

y g x( )=

µ y g µx( )=

n1 n2 … nk,,,( )n1 n2 … nk,,,( )

µ i1,i2,… ,ik

n1,n2,… ,nk M xi1

n1 , xi2

n2, …, x ik

nk[ ]=


Si definiscono momenti centrali i corrispondenti momenti della variabile scarto:

Molto spesso tuttavia i momenti più usati sono quelli del secondo ordine che, perdefinizione indichiamo con:

7.40

Notiamo che per i=k si ha:

7.41

cioè i momenti centrali del secondo ordine per i=k sono le varianze della compo-nente i-esima di .

I coefficienti per si indicano anche con e sono detti coefficienti dicovarianza delle componenti e .

Come evidente dalla 7.40 , la 7.40 e la 7.41 espresse in forma matricialedivengono:

7.42

La è detta per ovvi motivi matrice di varianza covarianza o matrice di dispersioneed è simmetrica.

Si può dimostrare, analogamente al caso mono-dimensionale, che:

Cerchiamnenti di

In quest

e, osserv

si trova,

ν x µx–=

cik M xi µxi–( ) xk µxk–( )[ ] M ν iνk[ ]= =

cii σ i2 M xi µxi–( )2[ ]= =

x

cik i k≠ σ ikxi xk

cik cki=

Cxx cik[ ] M xi µxi–( ) xk µxk–( )[ ] Cxx M x µx–( ) x µx–( )T[ ]= = = =

Cxx

M xi xk[

M xi xk[

7.43Cxx M xxT[ ] µx µxT–=

38

o ora un'altra espressione della 7.42 nel caso particolare in cui le compo- x siano fra loro indipendenti.

o caso può essere scritta come prodotto delle marginali 7.15:

ando che ogni marginale è normalizzata per suo conto, cioè che:

per , ricordando la 7.40,

7.44

f x( )

f x( ) f x1x1( )… f xn

xn( )=

f xjxj( ) xjd

∞–

∞

∫ 1=

i k≠

] xi xk f x x( ) x1…d xnd∫=

f x1x1( ) x1d

∞–

∞

∫

f x2x2( ) x2d

∞–

∞

∫

xi f xixi( ) xid

∞–

∞

∫

xk f xkxk( ) xkd

∞–

∞

∫

=

] µxi µxk

=


ma, ricordando la 7.43:

ne deriva che:

7.45

cioè, per componenti di indipendenti, la matrice è diagonale e assume laforma:

7.46

Si può verificare in molti casi che non è vero viceversa, cioè la forma diagonale di non significa necessariamente che le n-componenti siano fra loro indipendenti.

La propagazione della varianza nel caso lineare ad n-dimensioni

Come nel caso mono-dimensionale ci domandiamo cosa vale la matrice divarianza covarianza di una variabile casuale funzione di una secondavariabile .

L'ipotesi è che la relazione g sia lineare, cioè e che .

Per il teorema della media:

dunque:

ma per

sfruttan

È questa

cik M xi xk[ ] µxi µkk

–=

cik σik 0= = i∀ k≠

x Cxx

Cxx

σ 12…0

0…σ n2

=

Cxx

y lRm∈x lRn∈

y A x b+= m n≤

µy A µxb+=

7.47y µy–( ) A x µ x–( )=

definizione di :

do la linearità dell'operatore media, M[•] , si ha:

Cyy

C yy M y µy–( ) y µy–( )T[ ] M A x µx–( ) x µx–( )T AT[ ]= =

7.48Cyy A M x µx–( ) x µx–( )T[ ] AT A Cxx AT= =

39

la legge di propagazione della varianza nel caso lineare.


40

Esercizio 1

Con un teodolite si misurano le direzioni che ipotizziamo estratte dauna vc a tre dimensioni con media , indipendenti fra di loro e convarianze:

Si determini, valor medio, varianza e covarianza degli angoli azimutali α 1 e α 2così definiti:

Fig. 7.2

L'esercizio è lasciato allo svolgimento del lettore con questo suggerimento: data lamatrice

si applichi il teorema della media e la propagazione della varianza da a .

θ 1 θ 2 θ 3,,θ 1 θ 2 θ 3,,( )

σϑ 1σϑ 2

σϑ 310 10 4–⋅ gon± σ= = = =

α 1 ϑ 1 ϑ 2–=

α 2 ϑ 2 ϑ 3–=

α

α

OP C

B

A

P

2

1

θ3

θ2

θ1

Cϑϑ

σ 2

0

0

0

σ 2

0

0

0

σ 2

=

lR3 lR2


41

Esercizio 2

Si calcoli la covarianza fra x e y e le rispettive varianze per la seguente variabilestatistica doppia:

Si ricavano dapprima le frequenze pi e qj delle marginali; i valori medi sono ricavatiattraverso le frequenze marginali:

Per definizione:

Al secondo membro il secondo termine vale ed il terzo vale ,infine il quarto vale essendo:

Si ha infine:

7.49

y = →x = ↓

4 5 9 pi

↓

1 0.1 0.2 0.1 0.4

2 0.1 0.2 0 0.3

3 0 0.1 0.1 0.2

4 0 0 0.1 0.1

qj → 0.2 0.5 0.3 1

Mx xi pi

1

n 4=

∑ 1 0.4⋅ 2 0.3⋅ 3 0.2⋅+ + 4 0.1⋅+ 2= = =

My yj qj

1

m 3=

∑ 4 0.2⋅ 5 0.5⋅ 9 0.3⋅+ + 6= = =

σxy i 1=

n

∑ x i Mx–( )j 1=

m

∑ yj My–( )f ij=

σxy i 1=

n

∑ xi y j fij

j 1=

m

∑ i 1=

n

∑ xi M y fij

j 1=

m

∑ j 1=

m

∑ yj Mx fij

i 1=

n

∑ i 1=

n

∑ Mx My fij

j 1=

m

∑+––=

My Mx– Mx My–Mx My

fij

j 1=

m

∑i 1=

n

∑ 1=

σxy i 1=

n

∑ xi yj fij

j 1=

m

∑ Mx My–=


42

che rappresenta l'estensione della 7.43. Sostituendo infatti x ad y o viceversa sitrova:

Applicando tutto ciò ai dati dell'esercizio si ricava:

Si ha allora che:

7.6 LA LEGGE DI PROPAGAZIONE DELLA VARIANZA NEL CASO DI FUNZIONI NON LINEARI

Poniamoci ancora nel caso (n, m ) dimensionale in cui e sia:

7.50

una funzione non più lineare della variabile casuale .

Nell'ipotesi che sia ben concentrato attorno alla sua media µ x ed sia pocovariabile attorno a si può operare la linearizzazione:

7.51

È ora possibile utilizzare le 7.47 e 7.48 ricavate per il caso lineare con le seguentisostituzioni:

7.52

σ x2

i 1=

n

∑ x i2

i 1=

n

∑ Mx2–=

σ x2 xi

2 pi

i 1=

4

∑ Mx2– 1 0.4⋅ 4 0.3⋅ 9 0.2⋅ 16 0.1⋅+ + +( ) 4 1=–= =

σ y2 yj

2 qj

j 1=

3

∑ My2– 16 0.2⋅ 25 0.5⋅ 81 0.3⋅++( ) 36 4=–= =

σxy x i 1

4

∑ yj fij

1

3

∑ Mx My– = =

1 4 0.1⋅ 5 0.2⋅ 9 0.1⋅+ +( )⋅ 2 4 0.1⋅ 5 0.2⋅+( )+⋅+=

3 5 0.1⋅ 9 0.1⋅+( ) 4 9 0.1⋅( )⋅ 12–+⋅+

σxy 2.3 2.8 4.2 3.6 12–+ + + 0.9= =

C xy

1 0.9

0.9 4 =

m n≤

y g x( )=

x

x yg µ x( )

y g µ x( ) ∂g∂x-----

x µ x–( )+≅

b g µ x( )=


7.53

La matrice A è detta matrice disegno. La 7.48 diviene allora:

Le matri

Si fissi innale; si anell'ipot

Se scompos

Con Λ

tesi dimo

La radicgono

Esercizio

Di utate

Calcdell'

La trasfdirette

(x , y ) son

A ∂g∂x-----=

Cxx

UTU =

λ

(

ηx

y=

7.54C yy∂g∂x----- Cxx

∂g∂x-----

T

=

ci e sono sempre strettamente definite positive, cioè (definizione):

7.55

fatti e si consideri , con y variabile casuale mono-dimensio-vrà come logico e se x non ha distribuzioni singolari comeesi di trasformazioni regolari.

è regolare (invertibile) e simmetrica, è sempre poi possibile questaizione:

Cxx C yy

Cxx 0: a∀ lRn∈> a T Cxx a 0>⁄

a y aTx=σ y

2 0≥ σ y2 0>

7.56C xx K 2 UΛUT= =

43

matrice diagonale degli autovalori di ed U matrice ortogonale che contiene gli autovettori di . È facile dopo questa ipo-

strare che:

7.57

e quadrata di una matrice diagonale Λ è la matrice i cui elementi val-.

3

n punto P si sono misurate la distanza dall'origine r e l'anomalia ϑ , rappresen- dalle variabili casuali ρ e ϑ con media e sqm seguenti:

olare media e covarianza delle coordinate (x , y ) del punto P e media e varianzaarea A del rettangolo che ha OP per diagonale.

ormazione g permette di ricavare (x, y) in funzione delle misure.

o misurabili cioè indirettamente.

CxxUUT I= Cxx

K UΛ1 2⁄ UT=

i

ρ 1 km= σρ 1mm±= ρ 106 mm=( )

ϑ π 6⁄= σϑ 2 10⋅ 6– rad( )±=

ρ ϑ, )

; ξ

ρϑ

;= Cξξ

σ ρ2 0

0 σ ϑ2

1mm2 0

0 4 10⋅ 12– = =


44

Fig. 7.3

Applicando il teorema della media si ricavano i valori medi:

Si ricava ora la matrice disegno, calcolandola nell'intorno dei valori medi:

Si verifica poi se la trasformazione è regolare.

Si applica infine il teorema di propagazione della varianza:

Per rispondere alle ultime due domande applichiamo ancora il teorema della mediaalla misura indiretta – superficie A – funzione delle due misure dirette ρ e ϑ :

Ed applicando il principio di propagazione della varianza si ricava:

ρA

Y

P

X0

θ

η g ξ( )ρ ϑcos

ρ ϑsin = =

µx 866.025 mm=⇒

µ y 500.000 mm=⇒

∂g∂ξ------

ϑcos ρ ϑsin–

ϑsin ρ ϑcos ;=

∂g∂ξ------

µ ξ

3 2⁄ 10– 6– 2 m⁄

1 2⁄ 106 32

--------------- m=

det.∂g∂ξ-----

µξρ ϑcos2 ϑsin2+( ) ρ 0>= =

Cηη

3 2⁄

1 2⁄

10– 6 2⁄

106 32

--------------- 1

0

0

4 10 12–⋅

3 2⁄

10– 6 2⁄

1 2⁄

106 32

--------------- 1.75

1.30–

1.30–

3.25 = =

A ρ2 ϑ ϑcossin= A 0.433 106 m2 ⋅=⇒

σA2 ρ

2ϑ2

-------sin

2

σ ρ2 ρ 2 2ϑcos( )2 σ ϑ

2+ 1012 34--- 1⋅⋅

1 1024+4

------------------- 14--- 4 10 12–⋅ ⋅ ⋅ = =

σ A 1.323m2±=


Si lascia come esercizio ricavare quest'ultimo risultato a partire dalla relazioneA = xy, con ricavata come sopra.

La propagazione della varianza da n dimensioni ad una dimensione

L'esercizio precedente è un caso particolare nel quale è possibile ricavare una for-mula semplificata rispetto alle 7.48 e 7.54.

Nel caso di trasformazione da n-dimensioni ad una dimensione, l'unica incognita è lavarianza .

Partendo dalla relazione:

7.58

con matrice di varianza covarianza di . La 7.54 diviene:

Cηη

σ y2

y f x1,x2,… xn,( )=

Cxx x

7.59σ y2 ∂f

∂x1--------

2σ x1

2 ∂f∂x2-------

2σ x2

2 … 2∂f∂x1------- ∂f

∂x2--------⋅

σ 12 …2∂f∂xi------ ∂f

∂xk--------⋅

σ ik+ + + +=

45

A conclusione di questa prima parte del trattamento statistico delle misure si pro-pongono questi esercizi.

Esercizio 1

Sia data una v.s. x

Calcolare: - l'istogramma- la funzione di distribuzione- la media, la mediana (è l'ascissa per cui P = 1/2)- la varianza- verificare il teorema di Tchebjcheff tra (µ–10) e ( µ+10).

Esercizio 2

Sia di una v. casuale f (x ) = k.Calcolare:

- k- - - verificare il Teorema di Tchebjcheff

Fig.7.4

x 10 12÷ 12 15÷ 15 20÷ 20 30÷ 30 50÷0.04 0.18 0.40 0.20 0.18

=

xσ x

2

Y

0a b x

f(x)=k


46

Esercizio 3

Sia di una v. casuale f (x ) = kx .Calcolare:

- k- - - verificare il Teorema di Tchebjcheff

Fig.7.5

Esercizio 4

Trasformazioni di variabili casuali. Sia:

trovare: - k

-

- e

- verificare il Teorema di Tchebjcheff

Fare lo stesso esercizio per: ; verificare se .

Esercizio 5

Di un triangolo si sono misurati direttamente a ,b e l’angolo compreso γ.Dati , calcolare la superficie media S ed il suo sigma.

Fig.7.6

xσ x

2

Y

0a b x

f(x)=k x

f x x( ) cost=

y x 2=

f y y( )

M y[ ] σ 2 y( )

y log x( )= M y[ ] g M x[ ]( )=

σa σb σγ,,

S

B

A

b

a

C

γ


47

7.7 INDICE DI CORRELAZIONE LINEARE

Supponiamo che e siano variabili casuali ad n-dimensioni e che siano fra loroindipendenti. Si avrà allora:

7.60

Ipotizziamo ora invece che y sia funzionalmente dipendente da x , e che lo sia inol-tre in modo lineare:

Ne deriva che, come già visto:

Cerchiamo ora le covarianze tra x ed y :

cioè:

7.61

Ora poniamoci nel caso di x ed y ad una componente; nell'ipotesi di indipendenzadella 7.59 si avrà che , mentre nell'ipotesi che ha portato alla 7.61

; inoltre, siccome , applicando la propagazione dellavarianza si ricava , cioè .

Definiamo indice di correlazione lineare di x ed y lo scalare :

7.62

Nella seconda ipotesi di dipendenza lineare si ha:

Nella prima ipotesi 7.60 di indipendenza si può facilmente verificare che:

Questo parametro varia dunque nell'intervallo ± 1 e vale zero per variabili casualifra loro indipendenti.

Si osservi che, viceversa, se le due variabili casuali si dicono incorrelate manon è detto che siano indipendenti.

La figura 7.7 mostra un caso di distribuzione di densità di probabilità di variabilidipendenti ma incorrelate.

è un parametro molto utilizzato grazie a queste sue proprietà:

x y

σ xy M xy[ ] µx µy– 0= =

y A x b+=

y µy–( ) A x µx–( )=

Cxy xy M x µx–( )T y µy–( )[ ] M x µx–( )TA x µx–( )[ ]= =

Cxy xy ACxx=

σxy 0=σxy a2 σ x

2= y ax b+=σ y

2 a2 σ x2= σ y a σ x=

ρxy

ρxy def.( )σxy

σxσy-----------= =

ρxy

aσx2

σx a σy---------------- 1±= =

ρxy0

σxσy---------- 0= =

ρxy 0=

ρxy


– è invariante in modulo per trasformazioni lineari, cioè non cambia se cam-biano linearmente le unità di misura di x e y.

– se x e y sono variabili indipendenti ; se al contrario sono linear-mente dipendenti, assume valore ; +1 per a > 0, e –1 per a < 0, siha cioè .

Fig. 7.7 – Variabili incorrelate ma non indipendenti.

Si può dimostrare che per una variabile doppia non ordinata vale:

7.63

7.8 PROPRIETÀ DELLE VARIABILI NORMALI AD n-DIMENSIONI

Ricordiamo l'espressione 7.26b della variabile normale n -dimensionale con:

7.64

cioè:

7.65

Supponiamo ancora di eseguire una trasformazione lineare del tipo 7.23: y = A x + bma ora ipotizziamo che la matrice A possa essere scritta in questo modo:

7.66

con U matrice ortogonale e Λ1/2 matrice diagonale. Ricordando la 7.29 si ha:

ρxy 0=ρxy 1±=

σxy σ x± σ y=

Y

0 X

ρxy=0

ρxy

N xi yi∑ x i∑ yi∑⋅–

N xi2∑ xi∑

2

– N yi2∑ yi∑

2

–

---------------------------------------------------------------------------------------------------------=

M x[ ] 0=

Cxi xidiag σxi

2( ) 1= =

Cxi xk0=

Cxx I=

A Λ1 2⁄ U=

7.67fy y( ) 12πn 2⁄ ΛU--------------------------- e

12----– y b–( )T UΛ U T( ) 1– y b–( )

=

48


Ora, ricordando la 7.56 che esprime la forma di una qualsiasi matrice regolare simme-trica possiamo sfruttare il risultato a ritroso per standardizzare la variabile casuale y.

La trasformazione inversa sarà dunque:

7.68

Questa operazione si chiama appunto standardizzazione della variabile casuale y, laquale ha media e matrice di varianza covarianza

Per dichiarare che y appartiene ad una distribuzione normale con tali medie evarianze si scrive:

Vediamo due proprietà delle variabili casuali normali:

1. Il concetto di correlazione ed indipendenza stocastica si equivalgono.

2. Tutte le trasformazioni lineari trasformano variabili normali in variabilinormali; cioè se:

e se:

allora, ammesso che e che il rango di A sia pieno, :

.

Si osserva che la variabile:

è una variabile casuale a n gradi di libertà; ciò consente di trovare attorno al vet-tore media una regione simmetrica nella quale sia contenuta una prefissataprobabilità cioè:

I valori più usati sono p = 50 %, p = 90 %.

La regione:

risulta e

e dunqu

x Λ 1 2⁄– UT y b–( ) Cyy1 2⁄– y b–( )= =

µy b= Cyy

y N b,Cyy[ ]=

x N µx ,Cxx[ ]=

y Ax b+=

m n≤ r A( ) m=

y N A µx b; ACxx AT+[ ]=

χn2

µx lRn∈P p=

P x µ–( )T C xx1– x µ–( ) χn

2≤[ ] p=

7.70x µ–( )T Cxx1– x µ–( ) χ n

2≤

7.69x µ–( )T Cx x1– x µ–( ) zTz z i

2

i 1=

n

∑ χn2= = =

49

ssere un iper-ellissoide. Per n = m = 2 ad esempio, si noti che:

e:

det Cxx( ) σ x2σy

2 σ xy– σ x2σ y

2 ρ 2σ x2σ y

2– σ x2σ y

2 1 ρ 2–( )= = =


50

essendo:

Fig. 7.8 – Uso della variabile .

7.71

Si nota con facilità che la 7.71 è un'ellisse, nel caso in cui ρ = 0 e σxy= 0 ed ha cen-tro in .

Dalla 7.71 si nota pure che per una opportuna rotazione di assi l'ellisse ha equa-zione del tipo:

in tal caso ρxy= 0. Cerchiamo dunque questa rotazione.

Sia (u,v ) una variabile normale doppia con matrice di dispersione Cuv = C:

Vogliamo trovare, se possibile, dopo una rotazione degli assi nel piano (u,v ), unanuova variabile normale doppia le cui componenti siano incorrelate (σxy= 0).

La trasformazione sarà in genere la rotazione del tipo:

Cxx1– 1

1 ρ2–--------------

1σ x

2------

σ xy–

σ x2σ y

2-------------

σ xy–

σ x2σ y

2------------- 1

σ y2

------

=

σ xy ρ σ x σ y–=

χ

f

0

p

f ( )2

χ 2χ 2n

χ 2

P χ n2 χ n

2≤( ) p=

x µx–( )2

σ x2

--------------------2 x µx–( ) y µy–( )σ xy

σ x2σ y

2------------------------------------------------

y µy–( )2

σ y2

---------------------+– χ 2 1 ρ2–( )=

µx µy,( )

ξ t–( )2

a2----------------- η u–( )2

b 2-------------------+ χ

22=

Cσu

2 σuv

σuv σv2

=

x

y αcos αsin–

αsin αcos u

v ;=

x

y R

u

v =


Si avrà, applicando la legge della propagazione della varianza:

e, sviluppando i prodotti si ottiene:

7.72

7.73

imponendo σxy= 0, e utilizzando le formule:

ricaviamo:

Ricavat

Si dimminim

Tali valellissoid

Estendsibile tvariabil

Per ultenale, n

Anche dagli au

Cxy

σ x2 0

0 σ y2

RCuvRT= =

σ x2 σu

2 αcos2 2σuv α αsincos σv2 αsin2+–=

σ y2 σu

2 αsin2 2σuv α αcossin σv2 αcos2+ +=

σ xy σu2 σv

2–( ) α αsincos σuv αcos2 αsin2–( )+=

α αsincos 2αsin2

--------------=

2αcos αcos2 αsin2–( )=

7.74tg2α2σuv

σv2 σu

2–------------------

=

51

a la rotazione α si sostituisce nelle 7.72 e 7.73 e si ricavano i valori σx ,σy.

ostra che questi valori sono rispettivamente i valori di massimo e dio σ 2, e si indicano perciò rispettivamente con σI ,σII .

ori si chiamano semiassi principali dell'ellisse d'errore, o dell'ellissoide od iper-e nel caso in cui fossimo nello spazio a più di due dimensioni.

endo il risultato ad n-dimensioni si può infatti ancora dimostrare che è pos-rovare una matrice di rotazione U tale che attraverso il cambiamento die dovuto alla matrice U:

riori approfondimenti si veda l’appendice A. Per una variabile bidimensio-ell’ipotesi semplificativa µx=µ y=0 la 7.70 diviene:

questa curva rappresenta un’ellisse. I semiassi principali sono rappresentatitovalori della matrice Cxx (non di ) che ricaviamo da:

y U x=

Cyy diag cii( )=

x y( )σ x

2 σ xy

σ xy σ y2

x

y cost =

C xx1–

C λ I– 0=


52

cioè:

ricaviamo λ 1 e λ 2 (σ I e σ II):

7.75a

cioè:

7.75b

In alternativa, ricavando in funzione di ricavato con la 7.74 si ottiene:

7.75c

L’inclinazione è data dagli autovettori che rappresentano i coseni direttori degli assiprincipali. Basta sostituire i valori di λ e normalizzare:

7.9 SUCCESSIONI DI VARIABILI CASUALI

Sia una successione di variabili casuali. Si dice che tende stocastica-mente a zero per se:

Ciò significa che tende alla variabile casuale x concentrata nell'origine(P(x = 0) = 1).

Usando il teorema di Tchebjcheff si può così dimostrare che:Condizione sufficiente affinché converga stocasticamente a zero è che:

7.76

7.77

σ x2 λ– σ xy

σ xy σ y2 λ–

0=

σ x2 λ–( ) σ y

2 λ–( ) σ xy2– 0= σ x

2σ y2 λ2 λ σ x

2 σ y2+( ) σ xy

2––+ 0=⇒

σ I II, λ1 2,σ x

2 σ y2+

2------------------

12--- σ x

2 σ y2+( )2 4 σ x

2σ y2 σ xy

2–( )–±= =

σ I II, λ1 2,σ x

2 σ y2+

2------------------

12--- σ x

2 σ y2–( )2 4σ xy

2+±= =

2αsin tg2α

σ I II, λ1 2,12--- σ x

2 σ y2+( ) σ xy 2αsin⁄±= =

vσ x

2 λ1;– σ xy

σ xy ; σ y2 λ–

1= =

σ xy2 σ y

2 λ2–( )2+[ ] 1 2⁄ 1=

x n{ } xn{ }n ∞→

P xn

ε<( )n ∞→lim 1= ε∀ 0>

x n{ }

x n{ }

M xn

[ ]n ∞→lim 0=

σ 2 xn

[ ]n ∞→lim 0=


53

Diremo poi che converge stocasticamente a se converge stocasti-camente a zero.

7.10 CONVERGENZA «IN LEGGE»

Oltre alla convergenza stocastica della successione di vc ad si può definireuna convergenza in legge:

Si dice che tende ad «in legge» se, essendo la successionedelle funzioni di distribuzione di ed la funzione di distribuzione di

si ha:

7.78

Questo tipo di convergenza serve per studiare il comportamento asintotico disomme di variabili casuali del tipo:

7.79

Si può dimostrare infatti che sotto opportune ipotesi sulla successione delle lasuccessione tende asintoticamente in legge ad una distribuzione normale.

7.11 TEOREMA CENTRALE DELLA STATISTICA

Teorema

Sia una successione di variabili casuali indipendenti, tutte con la stessadistribuzione e con:

Allora la successione:

tende asintoticamente in legge (si indica con il simbolo ~) alla normale del tipo:

7.80

distribuzione delle .

Prima osservazione al teorema centrale della statistica

Il teorema interpreta un fatto riconosciuto sperimentalmente – gli errori di misuratendono a distribuirsi normalmente – quando il procedimento di misura è usato allimite della sua precisione massima.

Gli errori di misura cioè dipendono da una serie di fattori ambientali, strumentali e

x n{ } x x n–{ }

x n{ } x

x n{ } x Fn x( ){ }xn{ } F x( )

x

Fn x( )n ∞→lim F x( )=

Sn xi per n ∞→i 1=

n

∑=

xi{ }Sn{ }

xi{ }

M xi[ ] µ ;= σ 2 xi( ) σ 2=

Sn xi

i 1=

n

∑=

Sn N nµ , nσ 2[ ]∼

∀ xi{ }


soggettivi che hanno, ciascuno isolatamente, influenza impercettibile sul procedi-mento di misura ( ), ciascuno di questi fattori assume anche perciòl'aspetto di una vc indipendente dalle altre (umidità, pressione, temperatura,luminosità ecc.).

Tutti questi fattori assieme producono tuttavia un effetto sensibile: l'errore dimisura, che sarà descritto dalla vc somma di molte altre. Per il teorema centralel'errore di misura tende ad essere distribuito normalmente .

Seconda osservazione al teorema centrale della statistica

Il teorema è meno teorico di quanto possa apparire perché permette di usare la nor-male N come distribuzione approssimata di quantità importanti come il valoremedio m (media campionaria).

Sia x una vc comunque distribuita e sia la vc n-dimensionale gene-rata pensando di ripetere n estrazioni dalla vc x . La descrive i cam-pioni di numerosità n della x . La media campionaria vale:

Nell'ipotesi che, per ciascun x i :

sarà dunque:

Se supponiamo che il campione sia numeroso (n grande) possiamo applicare ad mil teorema centrale e dire che ∀ distribuzione iniziale di x , m tenderà asintotica-mente in legge a:

Si noti c

dovrebbpendent

nel casointegrali

µ 0≅ σ 2, 0≅

N nµ nσ 2,[ ]

x1 x2 … xn, , ,{ }x1 x2 … xn, , ,{ }

m1n--- x i

i 1=

n

∑x i

n---- con

xi

n--- v.c. indipendenti

i 1=

n

∑= =

M xi[ ] µ ;= σ 2 x i( ) σ 2=

Mxi

n--- µ

n--- ;= σ 2

xi

n---

σ 2

n2-----=

7.81m N n µn--- , nσ 2

n2------∼ N µ , σ

2

n 2-------=

54

he, se si volesse ricavare la distribuzione esatta di m cioè di , si

ero calcolare n integrali di convoluzione seguenti (infatti le x i sono indi-i):

particolare, siccome si dovrebbero calcolare n di convoluzione di f (x ) con se stessa.

1n--- xi

i 1=

n

∑

f m( ) fx1x1( ) f x2

x2( ) …fxnxn( ) x1…d xnd

∞–

∞

∫=

fxixi( ) fxj

xj( ) f x( )= =


È anche matematicamente possibile dimostrare il teorema, infatti, presa una qualsi-asi f (x ) di partenza, l'integrale di convoluzione di f (x ) con se stessa tende, per ngrande, alla funzione di Gauss.

Si noti che la 7.81 giustifica il fatto che come valore rappresentativo della popola-zione si scelga la media campionaria: rispetto ad una qualsiasi xi ha varianza nvolte minore.

7.12 LE STATISTICHE CAMPIONARIE E I CAMPIONI BERNOULLIANI

Definiamo campione Bernoulliano, tratto da una vc x (che descrive l'esperimentostocastico ξ), l'insieme dei risultati ottenuti dalla ripetizione per n volte in manieraindipendente dello stesso esperimento ξ (esempio: l'estrazione da un'urna con sos-tituzione).

Osservazione

Lo stesso campione Bernoulliano, per l'indipendenza, può essere visto alternativa-mente o come risultato di n estrazioni dalla vc x o come estrazione da una vc a n-dimensioni (x1…xn) tutte indipendenti e tutte distribuite come x. (Esempio: illancio di una moneta n volte e il lancio di n monete una sola volta).Se x ha densità di probabilità la ha densità:

per

Definizio

La cam

Ad esem

t può espionario,

Tutto cin-dimen

Ad esem

t 0 rappr

fx x( ) x n

7.82fxn fxn x1…xn( ) fx x1( ) fx x2( )…fx xn( )= =

55

l'ipotesi di indipendenza.

ne di statistica campionaria

statistica campionaria t è un (∀ ) operatore statistico applicato a una variabilepionaria.

pio:

7.83

sere la media campionaria, la varianza campionaria, il momento di ordine m cam- la correlazione campionaria, ecc.

ò significa che t sarà a sua volta una vc (a una dimensione) funzione della vcsionale .

pio se t è l'operatore media m:

esenta l'estrazione dalla statistica campionaria t .

t t x1 ,x2,… xn,( );=

x n

m1n--- xi

i 1=

n

∑ t0= =


7.13 LE STATISTICHE «CAMPIONARIE» COME «STIME» DELLE CORRISPONDENTI QUANTITÀ TEORICHE DELLE VARIABILI CASUALI

Qual è il rapporto tra la vc statistica campionaria t, di cui disponiamo di una estra-zione t 0 ed il valore teorico (ϑ ) del parametro corrispondente a t ? Ad esempio a mxcorrisponde µ x , ad corrisponde ; quale rapporto esiste fra questi valori? Ilrapporto viene detto stima.

Ad esempio si dice che m è stima di µ , od anche è stima di se è corretta econsistente. Vediamo che significano questi aggettivi.

Stima corretta o non deviata

Si dice che la stima è corretta quando la variabile casuale t ammette come mediateorica ϑ :

7.84

Stima consistente

Si ha quando per la corrispondente successione di variabili casuali tn tendestocasticamente a ϑ , cioè:

7.85

Per il teorema centrale della statistica ciò è verificato se:

Stima efficie

In molti castima t piùt di ϑ di m

Stima di ma

Vi è infine tore t che r

Come esemcome stima

La media cdella vc ,

– cor

s2 σ 2

s2 σ 2

M t[ ] M t x1…xn( )[ ] ϑ= =

n ∞→

tn ϑ=n ∞→lim

x

M

7.86M tn[ ] ϑ=n ∞→lim

7.87σ 2 tn[ ] 0=n ∞→lim

56

nte

si esiste più di una stima corretta e consistente di ϑ , allora si cerca quella concentrata attorno a ϑ cioè una stima efficiente, definita come la stimainima varianza.

ssima verosimiglianza

la stima di massima verosimiglianza che consiste nel trovare quell'opera-ende massima una funzione L detta di verosimiglianza.

pio ed esercizio vediamo se la media campionaria m può essere presa della quantità teorica µ .

ampionaria m è una stima corretta e consistente della media teorica µ infatti soddisfa a:

rettezza

m[ ] M1n--- xi∑ 1

n--- M∑ xi[ ] 1

n---nµ µ= = = = i∀ 1…n=( )


– consistenza: per quanto visto la 7.86 è facilmente provata,

7.88

Per provare la 7.87 si può scrivere:

Per la propagazione della varianza ricaviamo:

ed allora è facile vedere che:

Si può vstime co

Cerchiam

con la co

Questo èLagrang

Il differe

Dunquemedia cvarianza

Come u

dove m é

M m[ ] µ=n ∞→lim

mxi

n---∑=

σ 2 m( ) 1n2-----σ 2 xi( )∑ nσ 2

n2--------- σ 2

n------= = =

7.89σ 2 m( ) 0=n ∞→lim C.V.D.

57

erificare che tutte le stime lineari tali che sonorrette di µ ma m è quella di minima varianza (cioè efficiente).

o infatti il minimo della quantità:

ndizione:

un problema di minimo condizionato che si risolve con i moltiplicatori die minimizzando la funzione:

nziale totale di dovrà annullarsi:

si sceglie come valore rappresentativo di tutta la popolazione di misure laampionaria non solo perché ha varianza n volte minore rispetto alla di ciascun campione, ma anche perché ha la minima varianza.

lteriore esempio vediamo se la varianza campionaria è una stima di :

la media campionaria.

m ' λ i xi∑= λ i∑ 1=

σ 2 m '( ) λ i2σ 2∑=

λ i∑ 1=

φ λi2σ 2∑ λ i∑( ) 1–( ) k⋅+ min= =

φ

∂φ∂λ i--------∀ 0= 2σ 2λ i k+ 0= λ i

k2σ 2---------–=⇒ ⇒

λ i∑ nk2σ 2---------– 1 k⇒ 2σ 2

n---------–= = =

λ i1n---= m'⇒ m= C.V.D.

s2 σ2

s2 1n--- xi m–( )2∑

v i2∑

n------------= =


58

Verifichiamo la correttezza, se cioè:

scriviamo in questo modo:

7.90

Applichiamo alla 7.89 l'operatore media:

per definizione:

inoltre:

7.91

Cioè la stima non è corretta. Si dimostra che è invece corretta la stima dell’operatore ( ) definita da:

7.92

ed è consistente; infatti è facile verificare che:

7.14 FUNZIONE DI VEROSIMIGLIANZA E PRINCIPIO DI MASSIMA VEROSIMIGLIANZA

Partiamo al solito dalla vc n -dimensionale x descritta dalla funzione secondo la forma 7.82 ma ora anche in funzione di operatori statistici ϑ , ad esem-pio , cioè esprimiamo la funzione f attraverso:

M s2[ ] σ 2=

s 2

s 2 1n--- xi µ–( ) µ m–( )+[ ] 2∑ = =

1n--- xi µ–( )2∑ 2

n--- xi µ–( )∑ µ m–( ) µ m–( )2[ ] =+ +=

1n--- xi µ–( )2∑ 2 m µ–( ) µ m–( ) µ m–( )2 + +=

s 2 1n--- xi µ–( )2∑ m µ–( )2–=

M s 2[ ] 1n--- M xi µ–( )2[ ] M m µ–( )2[ ]–∑=

M xi µ–( )2[ ] σ 2=

M m µ–( )2[ ] σ 2 m( ) σ 2

n-----= =

M s2[ ] 1n---/

/n σ 2 σ 2

n-----–

n 1–n

------------σ 2 σ 2≠= =

s 2 M s 2[ ] σ 2=

s 2xi m–( )2∑n 1–( )

----------------------------=

σ 2 s 2( ) nn 1–------------

2

σ 2 s 2( )=n ∞→lim 0=

fx x1…xn( )

ϑ µ σ 2,[ ] T=

fx xi, ϑ( )


per le ipotesi di indipendenza delle n variabili x i , ricordando ancora la 7.82:

7.93

Il secondo uguale definisce la funzione L detta di verosimiglianza (likely hood).

È evidente che nulla abbiamo detto sul generico ϑ ; un criterio di scelta è prendereun valore generico t e cercare di rendere massima L(x i ,ϑ ) verificando che sia mas-sima per ϑ =t , cioè cercare:

7.94

cioè, per la 7.93:

7.95

Ad esempio per la variabile normale standardizzata zn :

7.96

si ha in questo caso:

Il valore massimo di L si ha cercando il minimo dell'esponente:

7.97

con ϑ , variabile scarto. In questo caso il principio di massima verosimiglianza portaalla stima di minima varianza e cioè alla ricerca di uno stimatore efficiente.

Per variabili normali non standardizzate, ricordando la 7.67 e la 7.69 occorre ren-dere minima la quantità:

7.98

La 7.98 spesso viene scritta utilizzando un'altra matrice definita matrice dei pesi P,( è una costante positiva):

È questonale, pu

fx xi, ϑ( ) fx xi, ϑ( )i 1=

n

∏ L xi, ϑ( )= =

t / max L xi, ϑ( )ϑ t=

∂L∂ϑ-------⇒ 0

∂ L( )log∂ϑ

------------------⇒ 0= =∃

∂f xi, ϑ( )∂ϑ

---------------------i 1=

n

∑ 0=

L f x f x xi( )∏ 12π σ2( ) n 2⁄------------------------- e

xi µi–( )2∑2σ 2

--------------------------------–= = =

ϑ µ ,σ 2[ ] T=

12σ 2---------+ xi µi–( )2

i 1=

n

∑ 12σ 2--------- vTv min= =

χ n2 x µ–( )TC xx

1– x µ–( ) vTC xx1– v min= = =

σ 02

7.99P C xx1– σ0

2=

59

il principio dei minimi quadrati che, nel caso in cui P sia una matrice diago-ò essere scritto nella forma:

7.100piv i2

i 1=

n

∑ min σ 02 χ n

2= =


Dobbiamo tuttavia affermare che la stima di minima varianza, che coincide conquella di massima verosimiglianza per variabili normali e che porta al principio deiminimi quadrati, prescinde da ipotesi sulla distribuzione delle misure.

7.15 LA MEDIA PONDERATA (O PESATA)

Poniamo di eseguire n misure di una v.c x , fatte con diversa precisione ma indipen-denti tra loro; ciascuna x i può considerarsi come estrazione da popolazioni condiverse varianze ma con la stessa media µ x . Ci si chiede quale è lastima più attendibile del valore medio di x . Avevamo verificato per la media cam-pionaria che tutte le stime del tipo:

sono cortato non x i con σAnche qminimo

e minimi

ricaviamo

Come pevalore:

cosicché

ma, impo

σ 2 xi( ) σ i2=

7.101x λ i xi∑=

60

rette, d'altra parte non possiamo usare i valori perché il risul-sarà stima di minima varianza; dovremmo, intuitivamente, pesare di più le

i minore.

ui cerchiamo uno stimatore che sia stima efficiente, e troviamo ilcondizionato attraverso i moltiplicatori di Lagrange:

7.102

zziamo la funzione:

:

7.103

r la 7.99, presa una seconda costante positiva, , viene definito peso il

7.104

la 7.103 può scriversi:

nendo la seconda delle 7.102, si ricava k:

λ i 1 n⁄=

x

σ 2 x( ) λ i2σ i

2∑ min= =

λ i 1=∑

φ λi2σ i

2∑ k λ i∑ 1–[ ]–=

∂φ∂λ i

-------- 0 2λ i σi2 k– 0=⇒=

λ ik2---

1σ i

2-------=

σ02

pi

σ02

σ i2-------=

λ ik2---

pi

σ02

-------=

k2σ0

2

pi∑-----------=


61

per cui la 7.103 può essere riscritta:

7.105

dunque la 7.101 diviene:

7.106

Si nota pure che il minimo cercato nella stima di vale:

7.107

Se non si conoscono i valori ma si conoscono solo i pesi pi e (dalla 7.106), la7.107 non è direttamente utilizzabile. Dopo il calcolo di , si dimostra che:

7.108

7.109

λ i

σ02

pi∑-----------

pi

σ02------

pi

pi∑-----------= =

xpixi∑pi∑

----------------=

σ 2 x( )

σ 2 x( ) min λ iσ i2∑

pi2σ i

2∑pi∑( )2

------------------= = =

σ i2 x

x

σ02 1

n 1–------------ pi xi x–( )2∑

piv i2∑

n 1–-----------------= =

σ 2 x( ) σ02

1pi∑

------------piv i

2∑n 1–( ) pi∑

-----------------------------= =

8. APPLICAZIONI DEL PRINCIPIO DEI MINIMI QUADRATI

AL TRATTAMENTO DELLE OSSERVAZIONI

Fig. 8.1

Prendiamo in esame la variabile casuale tridimensionale che rap-presenta le misure che possono essere fatte su un esperimento E

del quale si conoscagià un

modello fisico

, lineare del tipo:

che rapp

sibili

. Sia

la somm

Facciamindispen

Queste i

π

Y2

Y3

Y1

0

v

y y

<

<

y0

a1 y1 + a y2 + 2a y3 = d3

y y1 y2 y3, ,( )=

8.1a1 y1 a2 y2 a3 y3 d=+ +

resenta l'equazione di un piano nello spazio detto piano delle misure ammis- ad esempio E l'esperimento la misura dei tre angoli di un triangolo piano:a di questi deve essere uguale a π.

o poi l'ipotesi che le misure abbiano distribuzione normale (ipotesi nonsabile), media diversa da zero e varianza unitaria, vale a dire:

y

8.2y N y , I[ ]=

62

potesi vengono definite modello stocastico.

APPLICAZIONE

DEL

PRINCIPIO

DEI

MINIMI

QUADRATI

Della variabile casuale si conosce una estrazione, la misura che, a causa delladispersione di non è detto soddisfi la

8.1

. A causa di errori accidentali infatti è fuori da questo piano ad una distanza . In genere cioè si ha:

8.3

tuttavia, siccome è estratto dalla stessa variabile casuale , il suo valore mediosarà identico al valore medio di

y

:

8.4

Ora noi cerchiamo una stima di (il simbolo sta per stima di massimaverosimiglianza) che sia la più vicina possibile a ma che appartenga ancora aivalori ammissibili del piano

π

; in questo caso è intuitivo scegliere per la normalea

π

condotta da , cioè:

tale che renda minimo lo scalare distanza al quadrato:

8.6

Vedremo ora se questa equazione è sufficiente a risolvere il problema, si tratta cioèdi ricavare e le caratteristiche della dispersione di a partire dalle ipotesi stoca-stiche su

y

8.2

, dal modello geometrico

8.1

e dalle condizioni di stima

8.6

. Nel casoin cui la

8.6

si modifica nella già nota equazione di minimi quadrati:

Il princimiglianzciente d

quadratic

come è o

esprima

scegliend

si arriva

che è app

y y0

y y0

v

a1 y01 a2 y02 a3 y03 d u 0≠=–+ +

y0 y

M y0[ ] y=

y y yy0

yy

0

d 2 vT v y0 y–( )T y0 y–( ) min===

y y

Cyy I≠

Cxx I=

8.7d 2 y0 y–( )T Cyy1– y0 y–( ) min==

8.5y y0 v–=

63

pio dei minimi quadrati, che coincide con il principio di massima verosi-a nel caso di distribuzione normale, conduce a trovare uno stimatore effi-i minima norma: la distanza al quadrato 8.7 si chiama infatti normaa del vettore . Il minimo di detta norma rimane tale, come dimostrato evvio, anche per trasformazioni lineari del sistema di riferimento. Che la 8.7poi una distanza è evidente; partendo infatti da variabili casuali x con, il minimo della distanza quadratica vale appunto:

8.8

o una qualsiasi matrice di rotazione per cui:

alla:

8.9

unto un altro modo di vedere la formula 8.7.

v

x0 x–( )T x0 x–( ) min=–

y0 y–( ) R 1– x0 x–( )=

d 2 min y0 y–( )T RTR 1– y0 y–( )= =

APPLICAZIONE

DEL

PRINCIPIO

DEI

MINIMI

QUADRATI

64

8.1 I

MINIMI

QUADRATI

APPLICATI

AD

EQUAZIONI

DI

CONDIZIONE

CON

MODELLO

LINEARE

Vediamo se esiste una soluzione all'equazione

8.7

. Per le ipotesi di minimo lasoluzione cercata sarà la stessa a meno di una costante moltiplicativa .

È possibile allora cercare questo minimo anche partendo dalla conoscenza dellamatrice P che, a meno di una costante moltiplicativa è proporzionale a C

yy :

8.10

P è definita matrice dei pesi. Si cerca ora il minimo della quantità scalare:

8.11

col modello stocastico definito da:

8.12

e le equazioni di condizione, generalizzazione delle

8.1:

1

8.13

Si desidera ricavare la stima delle quantità:

(Il simbolo indica: stima di). Per la ricerca del minimo condizionato si utiliz-zano i moltiplicatori di Lagrange prendendo come funzione obiettivo la funzione

Φ

costruita con le

8.11

e 8.13:

8.14

con:

8.15

dove l è il numero di condizioni ed m il numero di misure.

Imponendo la stazionarietà della funzione Φ si ha:

1 Ad esempio, nel caso della misura di angoli interni di un triangolo, si provi a risolvere come segueil problema nell'ipotesi di avere le misure:

.

y1 σ0

2⁄

σ02

1σ0

2------Cyy Q P 1–= = P⇒ σ02Cyy

1–=

y0 y–( )P y0 y–( ) min=

P Q 1– σ02Cyy

1– σ02diag σ y i

2( ) 1–== =

l m≤

Dy d=

y01 60 gon y0

2; 70 gon y03 70.003 gon con σy

2;=; cost 10 3– gon±= = = =

y y≈

σ 02ˆ σ0

2≈

Cy y

Cyy≈

≈

Φ 12--- y0 y–( )T P y0 y–( ) Dy d–( )λ+=

λ λ 1, λ2, …, λl ( ) l m≤=

dΦ 0 dy TP y0 y–( )– dy TDTλ 0 dy T∀=+= =

APPLICAZIONE DEL PRINCIPIO DEI MINIMI QUADRATI

cioè:

8.16

8.17

che posta nella 8.13 permette di ricavare:

Se definiamo le matrici:

ed il vetto

dove U so

Quest'ulti

Si dimostr

Esempio a

Si sono mlivellazion

dove α è ui dislivelli

P y0 y–( ) DTλ=

y y0 P 1– DTλ–=

D y0 P 1– Dλ–( ) d– 0=

Dy0 DP 1– DTλ d 0=––

K

σ

∆

8.18K DP 1–= DT

re:

8.19

no definiti errori di chiusura, si ha:

ma, posta nella 8.17 permette di ricavare :

U Dy0= d–

λ Dy0 d–( ); λ K 1– Dy0 d–( )==

y

8.20y y0 P 1– DTK 1– U–=

a poi che la stima di vale:σ 02

8.21σ 02 UT K 1– U

l ---------------------=

65

pplicativo: anello di livellazione

isurati i tre dislivelli di un anello di tre lati, attraverso unae geometrica. Si sa che in questo caso:

na costante e D è la distanza percorsa fra i punti espressa in km. Si sa chedebbono soddisfare all'equazione:

∆120 ; ∆23

0 ; ∆130 ,

∆ α D±=

12 ∆23 ∆13 0=–+


66

Fig. 8.2 – Anello di livellazione.

Applicando le formule risolutive ricavate nell'esempio proposto si ha:

Per semplicità, nel calcolo della matrice dei pesi, possiamo trascurare la costante e porre:

Applicando la 8.18 si ha:

e cioè in definitiva:

ed applicando la 8.20 si ha:

Si ricava infine la soluzione:

∆ ∆

∆

1 2

1 3

2 3

1

2

3

D 1 1 1 –( )=

Cyy1– σ0

2 diag1

D12-------- ;

1D23-------- ;

1D31--------

⋅=

σ02

Q P 1– diag D12; D23; D31( )= =

K 1, 1, 1–( )diag D12; D23; D31( ) 1, 1, 1–( )T=

K Dij∑=

U Dy0 d– ∆120 ∆23

0 ∆130–+( )==

y ∆12° , ∆23

° , ∆13°( )T diag D12 , D23 , D31( )

1

1

1–

K 1– ∆12° ∆23

° ∆13°–+( )–=

y1 ∆12ˆ ∆12

°D12U

Dij∑--------------–= =

y2 ∆23ˆ ∆23

°D23U

Dij∑--------------–= =


Si ottiene dunque quanto intuitivamente si poteva già capire: che cioè l'errore dichiusura U si ripartisce in tre parti, proporzionali secondo la formula della mediaponderata, con pesi , che sono le distanze fra i capisaldi altimetrici delle reti.

8.2 MINIMI QUADRATI, FORMULE RISOLUTIVE NEL CASO DELL'UTILIZZO DI PARAMETRI AGGIUNTIVI

Sia dato un modello stocastico definito dai valori osservati (campionem-dimensionale):

che ipotizziamo abbia media:

8.22a

e dispersione:

8.22b

con costante positiva incognita e Q (o P) matrice nota e definita positiva.

Per ipotesi il modello deterministico è ancora lineare.

Per motivi fisici o geometrici ipotizziamo che y sia ristretto a stare su un iperpianoπ (varietà lineare) a n -dimensioni con n<m , del tipo:

con r(A

Le dimeneature

Le com

In funzminima

y3 ∆ 13ˆ ∆13

°D13U

Dij∑--------------–= =

Dij

y0

y01

�

y0m

tratto da y

y1

�

ym

==

M y[ ] y=

Cyy σ02Q σ0

2P 1–= =

σ02

8.23y A x a+=

67

) = n , vale a dire risulta di rango n1 pieno e invertibile.

nsioni di ed , (che brevemente in seguito indicheremo senza sottoli-) sono:

8.24

ponenti di x sono dette parametri aggiuntivi, o più spesso solo parametri.

ione delle misure y 0 estratte da y si vogliono trovare le stime e di varianza:

ATA

x a

x

x1

�

xn

; a

a1

�

am

==

y σ02ˆ

y y≈

σ02ˆ σ0

2≈


e la relativa matrice di varianza covarianza . Occorre trovare, ricordando la 8.5:

con le (m

Come alzata seccasuali y8.26 dall

Anche qcondizio

con:

si ha:

Annullanequazion

Da quest

ma, ricor

allora:

che, sost

cioè:

e, dalla 8

C y y

8.25min y0 y–( )TP y0 y–( ) min v T P v min χm-n2==

-n ) condizioni aggiuntive: , cioè:y π∈

8.26y A x a+=

trove si è notato, la 8.25 rappresenta il minimo di una distanza generaliz-ondo la «metrica» P, mentre la 8.26 esprime il fatto che alle variabili sono legati n parametri aggiuntivi che dipendono nel modo linearee misure .

ui il problema si risolve con i moltiplicatori di Lagrange, si cerca il minimonato della funzione :

8.27

8.28

do i termini che moltiplicano i due differenziali si devono soddisfare lei:

8.29

8.30

'ultima si ottiene, essendo la matrice P definita positiva:

dando anche la 8.26:

ituita nella 8.29 permette di scrivere:

xy

Φ x y,( )

Φ x y,( ) 12--- y0 y–( )T P y0 y–( ) y A x– a–( )λ min=+=

λ λ 1…λm( )T; n m<=

dΦ dyT P y0 y–( )– d x T λ d x T AT λ 0=–+=

ATλ 0=

P y0 y–( )– λ 0=+

y y0 P 1– λ–=

P 1– λ y0 A x– a–=

λ P y0 a–( ) PA x–=

AT P y0 a–( ) AT PA x 0=–

8.31ax AT PA( ) 1– AT P y0 a–( )=

68

.26 si può ricavare .y


Definito poi vettore dei termini noti l :

8.32

e definita matrice normale N:

si può anche scrivere:

8.31b

Infine si può dimostrare che la stima di vale:

dove il numero intero:

8.35

viene detta ridondanza globale o ridondanza.

Lo scalare , (a parte la costante r ), rappresenta dunque la distanza quadratica delvettore nella metrica P o, in alternativa, il valore della 8.25.

Dalla 8.32 e dalla definizione di ricaviamo:

8.36

Si dimostra che la matrice di varianza covarianza dei parametri compensati vale:

8.37

È possibile ricavare inoltre la matrice di varianza covarianza degli scarti, dopo lacompensazione:

8.38

Infine si può dimostrare che la matrice:

8.39

8.40

è una matrice di dimensione m•m detta di ridondanza, contenente dei numeri puri edindipendente dal sistema di riferimento scelto. La proprietà di questa matrice è indi-care il contributo che ogni singola misura apporta alla ridondanza globale r = m-n. Sipuò dimostrare infatti che:

y0 a–( ) l=

x N 1– AT Pl=

σ02ˆ σ0

2

r m n–=

σ02ˆ

v χ2

v

v l A x–=

Cx x σ02ˆ N 1– ;=

Cv v σ02ˆ P 1– AN 1– AT–[ ]=

R1

σ02ˆ

------PCv v

=

R I PAN 1– AT–=

8.41tr R( ) rjj m n–( ) r= =l

m

∑=

8.34σ02ˆ

y0 y–( )T P y0 y–( )m n–

--------------------------------------------vTP vm n–-------------= =

8.33N AT PA=

69


70

con chiamato ridondanza locale dell'osservazione j . Osservando la 8.41 si notache è possibile ricavare R senza aver eseguito le misure y0.

Similmente possiamo notare che anche altre formule già ricavate non dipendonodalle misure eseguite.

Più in generale, nel caso in cui il problema sia il progetto di una rete topografica, sipossono ricavare a priori le precisioni dei parametri, la precisione delle misure dopola compensazione, il contributo delle stesse alla rigidità della rete. È cioè possibilegià in fase di progetto della rete prevedere le precisioni finali, togliere le misure pocosignificative, o che potrebbero nascondere errori che più facilmente sfuggono ai testdi controllo, migliorare infine l'affidabilità della rete.

Esempio applicativo

Compensiamo secondo il metodo dei parametri aggiuntivi la rete di livellazioneprecedentemente vista (fig. 8.2). Si sono misurati i dislivelli:

Si possono identificare i vettori:

Dei dislivelli, che possono ritenersi misurati in modo indipendente, si conoscono ivalori misurati con livellazione geometrica. Si conosce anche:

ove D è la distanza fra i punti espressa in km; per queste ipotesi si potrà porre:

che in questo caso diviene:

I parametri incogniti sono le quote dei tre vertici.

Se effettivamente decidessimo di mantenere come parametri incogniti tutte questetre quote troveremmo tuttavia ben presto una deficienza di rango nella matrice nor-male N. A cosa è dovuta? Nel passaggio dallo «spazio delle misure» allo «spazio deiparametri» dobbiamo considerare in questo caso che le prime, essendo invariantiper traslazione, sono definite a meno di una traslazione del sistema di riferimento.

Nel caso dell'utilizzo dei parametri aggiuntivi «coordinate» in un problema ai

rjj

∆12 Q2 Q1–=

∆23 Q3 Q2–=

∆13 Q3 Q1–=

y

∆12

∆23

∆13

; xQ2

Q3

; y

∆ 12ˆ

∆ 23ˆ

∆ 13ˆ

; y0

∆120

∆230

∆130

====

∆120 ∆23

0 ∆130, ,

σ∆i j1mm D±=

P Q 1– diag σ∆12

2 , σ∆23

2 , σ∆13

2( ) 1–= =

P 1mm( ) 2– diag1

D12--------- ,

1D23--------- ,

1D31---------

=


71

minimi quadrati, occorre allora definire (anche arbitrariamente) questo sistema diriferimento, detto datum, dal quale non dipendono le misure ma dipendono invecei parametri aggiuntivi. Nel caso in esame ciò si fa, senza perdere di generalità, fis-sando ad esempio la quota del punto 1 (ad esempio Q 1= 0 m). In tal modo riman-gono incognite solo le quote dei punti 2 e 3.

Nell'esempio proposto si ha n = 2 (numero dei parametri incogniti) ed m = 3(numero di misure) per cui r = 1. La relazione 8.26 si scrive:

Si ha poi:

La matrice normale vale:

Sviluppando i calcoli si ottiene:

ed il vettore b, formato da due valori, risulta:

Ora si può risolvere il sistema od invertire la matrice N e ricavare:

y

∆ 12ˆ

∆ 23ˆ

∆ 13ˆ

1 0

1 1–

0 1

Q 2

Q 3

Q 1–

0

Q 1–

A x a+=+= =

y0 a–( ) l

∆ 120

∆130

∆230

Q 1+

Q 1+

= =

ATPA N1

0

1–

1

0

1 diag Dij( ) 1–

1

1–

0

0

1

1

= =

n11 1

D12-------- 1

D23--------+=

n12 n211

D23---------–= =

n22 1

D23-------- 1

D13---------+=

AT Pl b=

b11 1

D12-------- ∆ 12 Q1+( ) 1

D23--------∆ 23–=

b21 1

D23---------∆ 23

1D13---------∆ 13+=

x N 1– b=


72

Si verifica inoltre, (numericamente è in questo caso più facile), che la stima dellemisure:

è la stessa ricavata con il metodo delle sole equazioni di condizione, visto per lo stessoesempio.

Si ricavano infine gli scarti:

che permettono di calcolare la 8.34:

che, ancora, deve risultare identico al valore calcolabile con la 8.21.

8.3 MINIMI QUADRATI: EQUAZIONI DI CONDIZIONE E PARAMETRI AGGIUNTIVI

È questo il caso misto che comprende i due precedentemente trattati.

Premettiamo subito che è difficile poter applicare i risultati che si otterranno inquesto caso al calcolo automatico, a causa della quasi impossibile generalizzazionedel problema per scopi topografici; in programmazione questi problemi si risol-vono secondo l'analisi ed i metodi risolutivi visti nel caso delle equazioni aiparametri in quanto è più facile invece ricondurre questo caso al precedente.Daremo tuttavia, per completezza, uno sguardo alla soluzione teorica del problema.

Sia:

il vettore dei parametri, funzione (lineare) delle m quantità osservate y, (ad esempiole quote sono funzioni lineari dei dislivelli).

Le osservabili y sono legate da relazioni lineari contenenti n parametri aggiun-tivi x ( ) secondo il modello:

8.42

dove le dimensioni coinvolte sono:

Al solito le ipotesi stocastiche su y sono:

y A N 1– b( ) a+=

v y0 y ∆ ij0 ∆ ij–=–=

σ 02 vTP v

3 2–------------ min= =

x

x1

�

xn

=

l n l < m≤

Dy Ax d+=

m

l 1

m n

l 1

n

1

l =

y N y , σ 02Q[ ] con M y0[ ] y,==


Il problema è ricavare le stime:

8.43

secondo il modello fisico2:

8.44

e infine secondo la condizione di stima:

Introduciamo i moltiplicatori e minimizziamo la funzione:

ricaviam

che perm

ma, rico

e ricorda

che inser

ed allora

2 Intenden

y y≈

x x≈σ 0

2 σ 02≈

Cyy

Cyy≈

Cxx

Dy Ax d; r D( ) l ; r A( ) n==+=

y0 y–( )P y0 y–( ) min=

λ λ1…λn( )=

8.45Φ x ; y( ) y0 y–( )T P y0 y–( ) Dy A x– d–( )Tλ+=

o il differenziale:

ette ancora di scrivere:

dΦ 2d yT P y0 y–( )– dy T DTλ dx T ATλ 0=–+=

P y0 y–( )– DTλ 2 0=⁄+

ATλ 0=

8.46y y0 P 1– DTλ 2⁄–=

rdando la si ha:

ndo la definizione 8.18 di K:

Dy0 DP 1– DTλ 2⁄ A x d+=–

8.47λ 2K 1– Dy0 d–( ) 2K 1– A x–=

73

ita nella ottiene:

:

8.48a

do per r(• ) il rango del contenuto (• ).

ATλ 0=

AT K 1– Dy0 d–( ) AT K 1– A x 0=–

x AT K 1– A( ) 1– AT K 1– Dy0 d–( )=


simile alla 8.31a. Chiamando infatti:

8.48b

Ricavato poi λ dalla 8.47:

per definizione di U:

8.49

si ha, usando la 8.46:

8.4 PRO

Le stime

Conside

ed allora

Per la co

Non si dla quale

Cerchiail vettor

la 8.48b

Propaga

N AT K 1– A=

x N 1– AT K 1– Dy0 d–( )=

λ 2 K 1– Dy0 d A x––( ) 2 K 1– U==

U Dy0 A x d––=

M x[ ]

8.50y y0 P 1– DT K 1– U–=

PRIETÀ DELLE STIME ED , LORO DISPERSIONE

ed sono stime corrette di x ed y. Vediamo dapprima la ; ricordiamo che:

riamo il valore medio di U e ricordiamo la 8.49 e la 8.45:

si ha:

CVD

rrettezza di partiamo considerando la 8.50:

8.51

imostra qui la consistenza, si ricorda invece che l'efficienza è l'ipotesi, con ricavammo dette stime e dunque è già verificata.

mo ora le matrici di varianza-covarianza delle stime. Chiamiamo con ue:

8.52

assume la forma:

y x

y x x

Dy A x d+=

M U[ ] Dy d Ax 0=––=

AT K 1– A( ) 1– AT K 1– DM y0[ ] d–( ) AT K 1– A( ) 1– AT K 1– Ax 0===

y

M y[ ] M y0[ ] P 1– D K 1– M U[ ] M y0[ ] y CVD==–=

u Dy0 d–=

8.53x AT K 1– A( ) 1– AT K 1– u Su==

74

ndo la varianza attraverso la 8.52 si ha:

Cuu DCy0 y0DT σ 0

2DQDT σ 02K===


75

ed ancora propagando, usando stavolta la 8.53:

che semplificata ottiene:

8.54

Per ottenere la matrice si propaga la varianza a partire dalla 8.50; non si svolge qui ilcalcolo abbastanza laborioso che permette di ricavare:

8.55

con:

8.56

dove l è il numero di condizioni o vincoli, n è il numero di parametri incogniti edm è il numero di misure.

Riassumiamo qui le formule utilizzate nel caso di pure equazioni di condizione e dipure equazioni parametriche utilizzando il risultato generale appena ricavato.

Pure equazioni di condizione

Pure equazioni parametriche

Cx x SCuu ST AT K 1– A( ) 1– AT K 1– σ 02K K 1– A AT K 1– A( ) 1–==

Cx x σ 02 AT K 1– A( ) 1– σ 0

2 N 1–==

Cy y

σ 02 Q QDT K 1– K A N 1– AT–[ ] K 1– DQ–{ }=

σ 02 U T K 1– U

l n–---------------------=

D B; A 0; K BQBT; U By0 b–====

y y0 QBT BQBT( ) 1– By0 b–( )–=

Cu u

σ 02K σ 0

2 BQBT==

σ 02 By0 b–( )T K 1– By0 b–( )

1 n–--------------------------------------------------------=

Cv v σ 02Q BT K 1– BQ=

Cy y

σ 02 Q Cv v–[ ]=

D I; K Q P 1– ; N AT PA== ==

U y0 y–( ) v;= =

x AT PA( ) 1– AT P y0 d–( ); = l y0 d–=

y A x d+=


76

Si noti che:

8.57

Infine la matrice di ridondanza vale:

8.58

chiamando:

i pesi degli scarti dopo la compensazione.

Se P è diagonale si ha:

8.59

Attraverso la 8.58 e l’espressione della si ha:

8.60

8.5 IL PRINCIPIO DEI MINIMI QUADRATI IN CASI NON LINEARI

Premettiamo che in casi non lineari il metodo perde le proprietà di ottimalitàdescritte in precedenza e può anche ammettere più soluzioni.

Siano date equazioni, funzioni delle osservabili y e dei parametri x:

8.61

v l A x–=

σ 02

vT P vm n–-------------=

Cx x σ 02 N 1– ;=

Cuu Cv v σ 02 P 1– A N 1– AT–[ ]= =

Cy y

σ 02A N 1– AT=

Cv v Cyy Cy y

–=

R1

σ 02

------PCv v=

piˆσ vi

2

σ 02-------=

r ii pi

pii

-----=

Cv v

R I PAN 1– AT–=

l

g x,y( )

g1 x,y( )

g2 x,y( )

:.g1 x,y( )

0= =

con y lRm ed x lRn ∈∈


Si cercano le stime , tali che , sotto la condizione.

Supponiamo di conoscere i valori approssimati , e che, nell'intorno di dettivalori, g sia ben linearizzabile, dimodoché:

8.62

Linearizzando attorno ai valori approssimati si ottiene:

Chiamia

la matri

ed infin

Si arriva

notiamo

si ha:

Si noti p

e, posto

si ha da

sotto la

x y y0 y–( )T P y0 y–( ) min=g x , y( ) 0=

x y

y y η+=

x x ξ+=

g x , y( ) 0= x , y( )

8.63g x , y( ) 0 g x , y( ) ∂g∂x-----

ξ ∂g∂y-----

η+ +≅=

77

mo con:

8.64

ce disegno calcolata nei valori ; con:

8.65

e con:

8.66

perciò al sistema linearizzato:

8.67

che essendo:

8.68

oi che:

:

soddisfare:

8.69

condizione 8.67.

∂g∂x-----

∂g i

∂xj------- A= =

x , y( )

∂g∂y-----

∂g i

∂yk------- D–= =

g x , y( ) d=

Dη Aξ d+=

y y η+=

Cηη Cy y

σ02Q= =

y0 y–( )T P y0 y–( ) y0 y– η–( )P y0 y– η–( )=

η0 y0 y–=

η0 η–( )T P η0 η–( ) min=


78

Da questo punto in poi la soluzione è quindi analoga al caso lineare già visto.

Dopo aver ricavato la soluzione in ed in si calcola il vettore degli scarti:

8.70

Gli errori di chiusura valgono:

Ricordando la 8.63 che si scrive anche:

si ha:

8.71

Se gli scarti sono elevati si itera il procedimento, a partire dalle stime ed , uti-lizzate ora come valori approssimati. Si prosegue nelle iterazioni sinché:

8.72

Una seconda alternativa nella scelta di fermare o proseguire le iterazioni consiste nelverificare che le correzioni alle misure ed ai parametri sono trascurabili; scelto cosìun valore ε piccolo a piacere:

8.73

Infine si osservi che se le funzioni g(x ,y ) sono date in forma esplicita rispetto alleosservabili, cioè se sono del tipo:

8.74

non occorre linearizzare rispetto ad y ; questo è in realtà il caso nel quale riusciamoquasi sempre a ricondurre le equazioni nelle osservabili (equazioni generatrici).

Anche complicando un poco la funzione g, è preferibile ricondurci a questoapproccio, perché più semplice da programmare: ci si riduce infatti al caso di osser-vazioni non lineari con soli parametri aggiuntivi.

Si noti ancora che, nel caso di equazioni lineari non occorre la conoscenza diparametri approssimati, cosa invece indispensabile in caso contrario.

Nella ricerca della trasformazione 8.74 in forma esplicita, se è possibile, occorre pri-vilegiare la linearità della funzione a motivo delle proprietà di ottimalità descritte.

8.6 ESERCIZIO

Si desidera esaminare e risolvere il problema della rototraslazione con doppia varia-zione di scala (relativa cioè ai due assi) di un sistema ortogonale su un sistema nonortogonale (fig. 8.3).

ξ η

v η0 η–( )=

U Dy0 A x d Dη0 A ξ– d–=––=

g x , y( ) d A ξ Dη 0=–+=

U g x , y( ) g x ξ , y η+ +( )==

x y

ση i 1+( )2 vi 1+

T P vi 1+ ση i( )2<=

ξ i 1+ ξ i– ε1 oppure η i 1+ η i– ε2<<

y g x( )=


Trascuriamo per semplicità espositive per ora l’effetto dovuto alla traslazione. Esa-miniamo prima il modello geometrico, poniamo poi alcune semplici ipotesi suquello stocastico e risolviamo infine il problema ai minimi quadrati secondo la tec-nica dei parametri aggiuntivi.

Fig. 8.3 – Trasformazione affine tra due sistemi di coordinate.

Modello geometrico

Consideriamo il punto P (fig. 8.3) di coordinate (E,N ) nel sistema cartesiano orto-gonale e di coordinate (x,y ) nel sistema di assi non ortogonali.

Sia α l'angolo orario da x verso Est e β l'angolo da y verso Nord; chiamiamo «affi-nità» l'angolo δ=β–α .

Si avrà:

chiamando:

si può scrivere il sistema lineare; si arriva alla stessa conclusione considerandol’espressione dei versori degli assi (x e y):

Ora avviene che, se si ipotizzano due fattori di scala per ciascun asse:

α

α

αδ

β

β

y

y

0 E F Est

x

x

H

PQ N

Nord

N PH HE y β x αsin+cos=+=

E OF EF– x α y– βsincos==

α a, α c=sin=cos

βsin– b, β d=cos=

E ax by+=

N cx dy+=con le condizioni

a2 c2 1=+

b2 d2 1=+

x λx X=

y λ yY=

8.75E aλx x bλ y y def( ) AX BY+= =+=

8.76N cλx x dλy y def( ) CX DY+= =+=

79


80

mentre le condizioni di normalizzazione riportate sopra per A,B,C,D , divengono:

È possibile verificare inoltre che:

Sfruttando queste relazioni e tenendo conto che:

si ricava:

Abbiamo sinora esaminato il modello fisico-geometrico senza traslazioni di assi, checi ha portati nelle condizioni di risolvere un sistema di equazioni lineari 8.75 ed8.76. Nel caso generale tuttavia rimane ancora da considerare una traslazione fradue sistemi; la 8.75 e la 8.76 divengono allora:

8.77

8.78

Se, di un numero n di punti dei quali sono note le coordinate (X ,Y ), si sono misu-rate anche le coordinate (E,N ), le due equazioni possono essere scritte sintetica-mente in forma matriciale:

8.79

Modello stocastico e soluzione ai minimi quadrati

È facile riconoscere qui sopra le misure y nelle coordinate che ipotizziamoincorrelate, tali che .

Riconosciamo poi i sei parametri incogniti nel vettore trasposto ed i coefficienti diquesti parametri come matrice A.

Perché il problema possa avere una soluzione occorrerà avere a disposizione almenotre coppie di coordinate in entrambi i sistemi. Applicando la 8.23 a questo esempiosi nota che a=0.

Ipotizzando di scrivere dapprima tutte le equazioni nelle e poi tutte quelle

A2 C 2 αλ x2cos2 αλ x

2sin2 λx2=+=+

B 2 D 2 β λy2sin2 β λy

2cos2 λ y2=+=+

CA--- c

a-- tgα= =

BD----- b

d--- tg β=–=–

tgδ tg β α–( ) β α β αsincos–cossinβ α β αsinsin+coscos

--------------------------------------------------==

tgδ AB CD+BC DA–----------------------=

E AX BY E∆+ +=

N CX DY N∆+ +=

Ei

Ni Xi Yi 0 0 1 0

0 0 Xi Yi 0 1

A ,B ,C ,D , E , N∆∆( )T=

Ei Ni,CEN σ2 I=

Ei Ni


81

possono costruirsi la matrice disegno ed il vettore dei termini noti che assumonola forma:

8.80

Facciamo poi l'ipotesi semplificativa che:

La normalizzazione della 8.80

La costruzione della matrice normale 8.33 , porta ad ottenere unamatrice di dimensioni ed un vettore b di dimensione .

È facile ottenere questo risultato per la matrice normale moltiplicando fra loro lecolonne di A e moltiplicando le colonne di A e di l per i termini noti normalizzati.

Occorre ora risolvere un sistema lineare di sei equazioni in sei incognite, ma è pos-sibile una ulteriore semplificazione. Si nota che, se con un artificio, rendessimonulli alcuni termini: si semplificherebbe dimolto il problema: scomparirebbero così le ultime righe e colonne di N. Ciò è pos-sibile, se le coordinate nei due sistemi di partenza, che ora chiamiamo ed

sono tali che, calcolate le coordinate dei baricentri:

Si definiscano le coordinate X, Y, E, N in questo modo:

l y0 Ei,Ni( )T= =

A

Xi

�

Xn

0

�

0

Yi

�

Yn

0

�

0

0

�

0Xi

�

Xn

0

�

0Yi

�

Yn

1

�

10

�

0

0

�

01

�

1

;= l

Ei

�

En

Ni

�

Nn

=

σ 02 σ i

2= 1; P I==

N AT PA=N6

6 AT A= 6 b⋅ AT Pl=

N

Xi2∑

simm

XiYi∑Y i

2∑

0

0

X i2∑

0

0

XiYi∑Y i

2∑

X i∑Yi∑

0

0

n

0

0

X i∑Yi∑

0

n

; b

XiEi∑Yi Ei∑Xi Ni∑Yi Ni∑

Ei∑Ni∑

==

Ei∑ Ni∑ X i∑ Yi∑ 0= = = =

X ' Y ',( )E ' N ',( )

X G

X '∑n

------------ ;=

EG

E '∑n

----------- ;=

YG

Y '∑n

------------=

NG

N '∑n

-------------=


82

Così si avrà sempre che:

e similmente:

In questo modo il problema si riduce al calcolo di soli 4 parametri a due a dueincorrelati: (A,B ) e (C,D ):

8.81

che può essere diviso nei due sistemi:

8.82

Si ottiene facilmente la stima di questi parametri: chiamando con ∆ il determinantedella matrice N:

Le formule:

risolvono il problema. Si ricava poi, ricordando le 8.5, 8.25 e 8.26:

X X ' X G;–=

N N ' NG;–=

Y Y ' YG–=

E E ' EG–=

X i X ' nX G 0=–∑=∑

Yi Ei Ni 0=∑=∑=∑

X i2∑

Simm

XiYi∑Yi

2∑

0

0

Xi2∑

0

0

XiYi∑Yi

2∑ A

B

C

D XiEi∑

YiEi∑XiNi∑YiNi∑

=

N

N

A, B( )T

C, D( )Tb1

b2 =

∆ X i2 Y i

2∑∑ X iYi∑( )2–=

A Y i2 X iEi∑∑ X iEi Yi Ei∑∑–( ) ∆⁄=

B X iYi X iEi∑∑– X i2 Yi Ei∑∑+( ) ∆⁄=

C Y i2 X iNi∑∑ X iYi YiNi∑∑–( ) ∆⁄=

D X iYi X iNi∑∑– X i2 Yi Ni∑∑+( ) ∆⁄=

v y0 Ax–=

vEi Ei xi– A– YiB–=

vNi Ni X iC– Yi D–=


83

Utilizzando poi la 8.45 si ha:

cioè:

Ricavando poi:

si nota ancora che le varianze delle coordinate ricavabili da X e Y sono iden-tiche e valgono:

mentre sono nulle le covarianze sempre ammessa l'ipotesi di partire da unamatrice dei pesi proporzionale alla matrice identità.

σ 02 vTv

2n 4–---------------=

Cx x σ 02 N 1–=

σA2 σ 0

2 Yi2 ∆ σ

C2=⁄∑=

σA B2 σ 0

2 X iYi∑– ∆ σC D2=⁄=

σB2 σ 0

2 X i2∑ ∆⁄ σ

D2= =

Cy y

σ 02 A N 1– AT=

E N,

σE2 σ

N2 σ

A2 X 2 σ

B2 Y 2 2σ

ABXY+ += =

σE N

Documents

A. Manzino progetto - POLITECNICO DI TORINO · DISPENSE DI TOPOGRAFIA P ARTE II – I L TRATTAMENTO STATISTICO DELLE MISURE A. MANZINO Otto Editore P.zza Vittorio Veneto 14 – 10123