94
Probabilit´ es et Statistiques Rapha¨ el KRIKORIAN Universit´ e Paris 6 Ann´ ee 2005-2006

LM345 - Probabilités et Statistiques

Embed Size (px)

Citation preview

Page 1: LM345 - Probabilités et Statistiques

Probabilites et Statistiques

Raphael KRIKORIAN

Universite Paris 6

Annee 2005-2006

Page 2: LM345 - Probabilités et Statistiques

2

Page 3: LM345 - Probabilités et Statistiques

Table des matieres

1 Rappels de theorie des ensembles 5

1.1 Operations sur les ensembles . . . . . . . . . . . . . . . . . . . 5

1.2 Applications entre ensembles . . . . . . . . . . . . . . . . . . . 6

1.3 Denombrement . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.4 Denombrabilite . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2 Espaces Probabilises et variables aleatoires 13

2.1 Espace probabilise . . . . . . . . . . . . . . . . . . . . . . . . 13

2.1.1 Tribus . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.1.2 Probabilite . . . . . . . . . . . . . . . . . . . . . . . . 15

2.1.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2 Variables Aleatoires . . . . . . . . . . . . . . . . . . . . . . . . 24

2.2.1 Le cas particulier des v.a a valeurs dans un ensemblefini ou denombrable . . . . . . . . . . . . . . . . . . . . 25

2.2.2 Loi d’une variable aleatoire . . . . . . . . . . . . . . . 26

2.2.3 Loi des variables aleatoires a valeurs dans un ensemblefini ou denombrable . . . . . . . . . . . . . . . . . . . . 27

2.2.4 Loi de variables aleatoires admettant une densite . . . 29

2.3 Esperance d’une v.a. . . . . . . . . . . . . . . . . . . . . . . . 30

2.3.1 Esperance d’une v.a. a valeurs dans un ensemble fini(ou denombrable) . . . . . . . . . . . . . . . . . . . . . 30

2.3.2 Esperance d’une v.a. positive . . . . . . . . . . . . . . 31

2.3.3 Esperance des v.a integrables . . . . . . . . . . . . . . 32

2.3.4 Formule de transfert . . . . . . . . . . . . . . . . . . . 35

2.3.5 Application au calcul de densite . . . . . . . . . . . . . 40

2.4 Espaces L2, variance et Bienayme-Tchebychev . . . . . . . . . 42

2.4.1 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.4.2 Calculs de variance . . . . . . . . . . . . . . . . . . . . 44

2.4.3 Inegalite de Markov et de Bienayme-Tchebychev . . . . 48

3

Page 4: LM345 - Probabilités et Statistiques

4 TABLE DES MATIERES

3 Vecteurs aleatoires et Independance 513.1 Vecteurs aleatoires . . . . . . . . . . . . . . . . . . . . . . . . 51

3.1.1 Tribu borelienne de Rm . . . . . . . . . . . . . . . . . 513.1.2 Vecteurs aleatoires . . . . . . . . . . . . . . . . . . . . 523.1.3 Loi d’un vecteur aleatoire . . . . . . . . . . . . . . . . 523.1.4 Marginales . . . . . . . . . . . . . . . . . . . . . . . . . 533.1.5 Esperance et variance des vecteurs aleatoires . . . . . . 543.1.6 Formule de transfert . . . . . . . . . . . . . . . . . . . 563.1.7 Calcul de densite de vecteurs aleatoires . . . . . . . . . 56

3.2 Variables aleatoires independantes . . . . . . . . . . . . . . . . 603.2.1 Cas des v.a a valeurs dans un ensemble discret . . . . . 613.2.2 Cas des v.a admettant des densites . . . . . . . . . . . 633.2.3 Esperance des produits de v.a independantes . . . . . . 633.2.4 Criteres d’independance . . . . . . . . . . . . . . . . . 66

3.3 Evenements independants . . . . . . . . . . . . . . . . . . . . 68

4 Sommes de variables aleatoires independantes 714.1 Lois des grands nombres dans le cas L2 . . . . . . . . . . . . . 72

4.1.1 Loi faible des grands nombres . . . . . . . . . . . . . . 724.1.2 Loi forte des grands nombres . . . . . . . . . . . . . . . 73

4.2 Theoreme de la limite centrale . . . . . . . . . . . . . . . . . . 754.2.1 Convergence en loi . . . . . . . . . . . . . . . . . . . . 764.2.2 Fonctions caracteristiques . . . . . . . . . . . . . . . . 784.2.3 Demonstration du theoreme de la limite centrale . . . . 83

4.3 Quelques remarques sur les diverses notions de convergence . . 85

5 Esperance conditionnelle 875.1 Probabilites conditionnelles . . . . . . . . . . . . . . . . . . . 875.2 Esperance conditionnelle : cas discret . . . . . . . . . . . . . . 885.3 Cas des v.a admettant des densites . . . . . . . . . . . . . . . 915.4 Independance . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

Page 5: LM345 - Probabilités et Statistiques

Chapitre 1

Rappels de theorie desensembles

Nous rappelons dans ce chapitre quelques notions elementaires de theoriedes ensembles.

1.1 Operations sur les ensembles

Un ensemble est intuitivement une collection d’elements. Etant donnes unensemble E et un element a on ecrit a ∈ E si a est un element de E. Il existeun unique ensemble ne contenant aucun element ; on le note ∅.Si E et A sont deux ensembles on dit que F est inclus dans E ou que Aest un sous-ensemble de E si tout element de A est un element de E et onecrit A ⊂ E. On peut alors definir le complementaire de A dans E qui estl’ensemble des elements de E qui n’appartiennent pas a A. On le notera dansce cours E − A ou Ac ; cette derniere notation cesse d’etre ambigue si l’onsuppose E fixe une fois pour toute, ce que nous ferons.

Si E est un ensemble, l’ensemble constitue des sous-ensembles de E s’appellel’ensemble des parties de E et se note P(E).

Si (Ai)i∈I est une collection d’ensembles inclus dans E, la reunion des Ai estl’ensemble

i∈I Ai des a ∈ E pour lesquels il existe i ∈ I tel que a ∈ Ai. Dememe l’intersection des Ai est l’ensemble

i∈I Ai des a ∈ E pour lesquelsa ∈ Ai pour tout i ∈ I. On dit que deux ensembles sont disjoints si leurintersection est vide. On dit que les ensembles Ai, i ∈ I constituent unepartition de l’enemble E si i) ils sont non vides, ii) leur union sur i ∈ I vautE iii) ils sont disjoints deux a deux (Ai ∩ Aj = ∅ si i 6= j) ; on dit aussi queE est union disjointe des Ai, i ∈ I.

5

Page 6: LM345 - Probabilités et Statistiques

6 CHAPITRE 1. RAPPELS DE THEORIE DES ENSEMBLES

On a les formules(

i∈I

Ai

)c

=⋂

i∈I

Aci ,

(

i∈I

Ai

)c

=⋃

i∈I

Aci .

Si A1, . . . , An sont des ensembles on peut definir le produit cartesien deces ensembles comme etant l’ensemble des n-uplets (a1, . . . , an) ou a1 ∈A1, . . . , an ∈ An. On note cet ensemble A1 × · · · × An. Quand les Ai sontfinis son cardinal est le produit des cardinaux des Ai.

1.2 Applications entre ensembles

Si A et B sont deux ensembles, une application associe a tout element ade A un unique element note f(a) de B. On dit que f(a) est l’image de a parf . Un element de B peut n’etre l’image d’aucun element de A ou au contraireetre l’image de plusieurs elements de A. On dit qu’une application est injec-tive si tout element de B est l’image d’au plus un element de A, surjectivesi tout element de B est l’image d’au moins un element de A et bijective sielle est injective et surjective. On note BA l’ensemble des applications de Adans B. Quand A et B son finis son cardinal vaut (#B)#A.

Si E est un ensemble fixe, l’ensemble des parties de E est en bijection avecl’ensemble des applications de E dans l’ensemble a deux elements 0, 1.Cette bijection est la suivante : a tout ensemble A ⊂ E on associe sa fonctioncaracteristique ou fonction indicatrice 1A : E → 0, 1 definie par 1A(e) = 1si e ∈ A et 1A(e) = 0 sinon. Reciproquement si f est une application de Edans 0, 1 l’ensemble A des e ∈ E tels que f(e) = 1 est tel que 1A(·) = f(·).En particulier, ceci demontre que quand E est fini le cardinal de P(E) est2#E.

Si A1, . . . , An sont des sous-ensembles de E on a

1A1∩···∩An=

n∏

i=1

1Ai.

Si f est une application de E dans F on definit pour tout B ⊂ F l’ensemblef−1(B) comme etant l’ensemble des e ∈ E tels que f(e) ∈ B. (Cette definitiona un sens meme si f n’est pas inversible.) On dit que f−1(B) est la pre-imagede B par f .

On a toujours

f−1

(

i∈I

Ai

)

=⋃

i∈I

f−1(Ai), f−1

(

i∈I

Ai

)

=⋂

i∈I

f−1(Ai), f−1(Ac) =

(

f−1(A)

)c

.

Page 7: LM345 - Probabilités et Statistiques

1.2. APPLICATIONS ENTRE ENSEMBLES 7

Attention le comportement par image directe n’est pas aussi bon.

Exercice i) Montrer que si A,B sont deux sous-ensembles de E on a

1 − 1A∪B = (1 − 1A)(1 − 1B),

et en deduire que

#(A ∪B) = #A+ #B − #(A ∩B).

ii) En generalisant la formule precedente montrer que

#(A1 ∪ · · · ∪An) =n

p=1

(−1)p−1∑

1≤i1<...<ip≤n

#(Ai1 ∩ · · · ∩ Aip).

Solution. i) Pour tout ensemble F ⊂ E

1F c = 1 − 1F .

Donc

1 − 1A∪B = 1Ac∩Bc

= 1Ac1Bc

= (1 − 1A)(1 − 1B).

On a donc

1A∪B = 1A + 1B − 1A · 1B

= 1A + 1B − 1A∩B.

Or, pour tout ensemble F ⊂ E

#F =∑

e∈E

1F (e).

On a donc bien la conclusion.

ii) De facon generale,

1 − 1A1∪···∪An=

n∏

i=1

(1 − 1Ai),

et donc

1 − 1A1∪···∪An= 1 +

n∑

p=1

(−1)p∑

1≤i1<...<ip≤n

1Ai1· · ·1Aip

= 1 +

n∑

p=1

(−1)p∑

1≤i1<...<ip≤n

1Ai1∩···∩Aip

,

et en sommant sur e ∈ E on obtient bien la formule annoncee.

Page 8: LM345 - Probabilités et Statistiques

8 CHAPITRE 1. RAPPELS DE THEORIE DES ENSEMBLES

1.3 Denombrement

Cardinal d’une union disjointe finie. Si A1, . . . , An sont des ensemblesfinis disjoints deux a deux tels que A1 ∪ · · · ∪ = E alors E et fini et

#E =

n∑

i=1

#Ai.

Cardinal d’un produit. Si A1, . . . , An sont des ensembles finis le cardinaldu produit A1 × · · · ×An est donne par

#(A1 × · · · × An) = (#A1) · · · (#An).

Cardinal de l’ensemble des applications de A dans B. Si A et Bsont des ensembles finis, l’ensemble des applications de A dans B est fini eta pour cardinal

#(BA) = (#B)#A.

Nombre d’injections entre deux ensmbles finis. Si A et B sont deuxensembles finis avec #A = p, #B = n, l’ensemble des applications injectivesde A vers B a un cardinal egal a

0 si #A > #B

n(n− 1) · · · (n− p+ 1) si p ≤ n.

En effet, supposons A = a1, . . . , ap ; si p > n, il ne peut y avoir d’appli-cations injective de A vers B, tandis que si p ≤ n, il y a n choix possiblespour la valeur f(a1), n − 1 choix possibles pour la valeur de f(a2) (commef est injective f(a2) ne peut pas prendre la meme valeur que f(a1)) etc.n− (p− 1) = n− p+ 1 choix possibles pour f(ap)

C’est aussi le nombre de p-uplet (ordonnes) (e1, . . . , ep) ou ei ∈ E.

Nombre de bijections de A vers A. Si A est un ensemble de cardinal n,une application de A vers A est bijective si et seulement si elle est injectiveet par consequent le nombre de bijection de A vers A (on dit aussi le nombrede permutations de A) egale

n! = n(n− 1) · · ·1.

Page 9: LM345 - Probabilités et Statistiques

1.3. DENOMBREMENT 9

Cardinal de P(E). Si E est fini de cardinal n, le nombre de sous-ensemblesde E est egal au nombre d’applications de E vers 0, 1 et vaut donc

#P(E) = 2n.

Nombre de sous-ensembles de cardinal p d’un ensemble a n elements.Si E est un ensemble fini de cardinal n, le nombre de sous-ensemble de E decardinal exactement p egale

(

n

p

)

= Cpn =

n(n− 1) · · · (n− p+ 1)

p!=

n!

p!(n− p)!.

En effet, un sous-ensemble a1, . . . , ap de E peut etre vu comme un p-uplet d’element de E ou l’on oublie l’ordre des elements. Or, etant donnes pelements de E on peut former p! (nombre de bijections de a1, . . . , ap danslui meme) p-uplets. Ainsi, le nombre de sous-ensembles de cardinal p d’unensemble a n elements egale le nombre d’injection de l’ensemble 1, . . . , pdans E (i.e le nombre de p-uplets de E) divise par p!.

Une autre preuve de ce resultat est la suivante : considerons le polynome(1 +X)n = (1 +X) · · · (1 +X). Quand on developpe le produit, on obtientune somme de produits de 1 et de X et on voit que le coefficient de Xp estegal au nombre de facons de choisir p elements parmi n. Or, on sait d’apresla formule du binome de Newton, que le coefficient de Xp est Cp

n.

Cardinal et fonctions caractristiques Si A ⊂ E on a

#A =∑

x∈E

1A(x).

ExerciceUne urne contient N boules noires et M boules blanches.

i) On effectue n tirages sans remise. Quel est le nombre total de tels tirages ?Combien de tirages donnent x (x ≤ n) boules noires ?

ii) ) On effectue n tirages avec remise. Quel est le nombre total de tels ti-rages ? Combien de tirages donnent x (x ≤ n) boules noires ?

Solution.

On note 1, . . . , N l’ensemble des boules noires et N + 1, . . . , N + Ml’ensemble des boules blanches.

i) Un tirage sans remise est equivalent a la donnee d’une injection de 1, . . . , ndans 1, . . . , N + M (ou a une suite ordonnee, un n-uplet (x1, . . . , xn),

Page 10: LM345 - Probabilités et Statistiques

10 CHAPITRE 1. RAPPELS DE THEORIE DES ENSEMBLES

xi ∈ 1, . . . , N + M). Il y a donc (N + M) · · · (N + M − n + 1) tiragessans remise.

Un tirage ou x boules noires sont tirees est equivalent a la donnee d’un sous-ensemble A de 1, . . . , n a x elements (si on pense au tirage comme a uneexperience, A est l’ensemble des temps ou le resultat de notre experience est“boule noire”) et de deux injections, une de A dans l’ensemble des boulesnoires, une seconde du complementaire de A dans 1, . . . , n dans l’ensembledes boules blanches : on a donc

(

n

x

)

·N(N − 1) · · · (N − x+ 1) ·M(M − 1) · · · (M − (n− x) + 1)

choix possibles, c’est-a-dire

(

n

x

)

·N(N − 1) · · · (N − x+ 1) ·M(M − 1) · · · (M − n + x+ 1)

choix possibles.

Remarquons que la proportion du nombre de tirages sans remise ou x boulesnoires sortent dans l’ensemble des tirages sans remise est

(

nx

)

·N(N − 1) · · · (N − x+ 1) ·M(M − 1) · · · (M − n+ x+ 1)

(N +M) · · · (N +M − n+ 1)

=

(

nx

)

·(

Nx

)

x! ·(

Mn−x

)

(n− x)!(

N+Mn

)

n!

=

(

Nx

)(

Mn−x

)

(

N+Mn

)

ii) Un tirage avec remise est equivalent a la donnee d’une application (pasnecessairement injective) de 1, . . . , n vers 1, . . . , N +M (ou encore d’unn-uplet (e1, . . . , en) de 1, . . . , N+Mn) ; il y a donc (N+M)n choix possibles.

Un tirage ou x boules noires sont tirees est equivalent a la donnee : d’un sous-ensemble A de 1, . . . , n a x elements, d’une application (pas necessairementinjective) de A dans 1, . . . , N (ou encore d’un x-uplet de 1, . . . , Nx) etd’une application de 1, . . . , n−A dans N + 1, . . . , N +M (ou encore un(n− x)-uplet de N + 1, . . . , N +M). Il y a donc

(

n

x

)

·Nx ·Mn−x

choix possibles. Remarquons que la proportion du nombre de tirages avec

Page 11: LM345 - Probabilités et Statistiques

1.4. DENOMBRABILITE 11

remise ou x boules noires sortent dans l’ensemble des tirages avec remise est(

n

x

)

NxMn−x

(N +M)n=

(

n

x

)

px(1 − p)n−x,

ou p = N/(N +M).

1.4 Denombrabilite

Definition 1.4.1 Un ensemble est dit denombrable s’il est en bijection avecl’ensemble N des entiers naturels.

Nous etendrons cette definition en disant qu’un ensemble est denombrables’il est fini ou en bijection avec N.

De facon plus concrete, un ensemble est denombrable si on peut enumererses elements.

Proposition 1.4.1 Si A et B sont deux ensembles.

a) S’il existe une injection de A dans B et si B est denombrable alors A estdenombrable

b) S’il existe une surjection de A dans B et si A est denombrable, alors Best denombrable.

Theoreme 1.4.1 a) Si A1, . . . , An sont des ensembles denombrables, le pro-duit A1 × · · · × An est egalement denombrable.

b) Si (Ai)i∈I est une famille denombrable (c’est-a-dire I est denombrable)d’ensembles denombrables (pour tout i ∈ I, Ai est denombrable) alors lareunion

i∈I Ai est egalement denombrable.

Demonstration.—

a) On peut supposer A1 = . . . = An = N. Notons p1, . . . , pn les n premiersnombres premiers (p est premier s’il est divisble uniquement par 1 et parp) et considerons l’application qui a (l1, . . . , ln) ∈ Nn associe le nombre 2l1 ·3l2 · · · pln

n est une injection de Nn dans N car la decomposition en facteurspremiers d’un nombre est unique. La proposition 1.4.1 a) permet de conclure.

b) Considerons l’application de N × N dans⋃

i∈I Ai qui au couple (n,m)associe le m-ieme element de l’ensemble Ain ou in est le n-ieme element deI. C’est une surjection. La proposition 1.4.1 b) donne la conclusion.

2

Corollaire 1.4.1 L’ensemble des entiers relatifs Z et l’ensemble des nombresrationnels Q sont denombrables.

Page 12: LM345 - Probabilités et Statistiques

12 CHAPITRE 1. RAPPELS DE THEORIE DES ENSEMBLES

Demonstration.—L’ensemble Z est denombrable car l’application de l’ensemble denombrable

1,−1×N dans Z qui au couple (ε, n) associe le produit εn est une surjec-tion. De meme, Q est denombrable car l’application de l’ensemble denombrableZ × (N − 0) dans Q qui au couple (p, q) associe le rationnel p/q est unesurjection.

2

On peut demontrer que

Theoreme 1.4.2 L’ensemble des nombres reels R n’est pas denombrable.

Corollaire 1.4.2 L’ensemble des nombres irrationnels n’est pas denombrable.

Demonstration.—Car sinon, R qui est reunion de Q et de l’ensemble des nombres irration-

nels serait denombrable (comme union denombrable d’ensembles denombrables).

2

Page 13: LM345 - Probabilités et Statistiques

Chapitre 2

Espaces Probabilises etvariables aleatoires

2.1 Espace probabilise

Un espace probabilise est la donnee– d’un espace Ω que l’on appelle l’espace des etats. Quand on modelise

une situation concrete Ω est l’ensemble des etats du systeme que l’onconsidere. Bien souvent cet espace est inaccessible a l’experience ;

– d’un sous-ensemble B de P(Ω) qui est l’ensemble des evenements. Dansune situation concrete c’est l’ensemble de tous les resultats d’experiencesque l’on peut effectuer sur le systeme. En theorie des probabilites (doncquand on fait des mathematiques) cet ensemble B sera une tribu ou en-core (c’est equivalent) une σ-algebre (cf. definition 2.1.1 ;

– d’une probabilite P : pour tout evenement A ∈ B le reel P(A) est ledegre de vraisemblance de l’evenement A ; c’est un nombre comprisentre 0 et 1. Mathematiquement, une probabilite est une applicationP : B → [0, 1] verifiant les proprietes decrites en dans la definition 2.1.2.

Nous precisons dans la suite les deux derniers points.

2.1.1 Tribus

Soit Ω un ensemble fixe (l’espace des etats).

Definition 2.1.1 Une tribu ou encore une σ-algebre de Ω est un ensemblede parties de Ω (donc un sous-ensemble de P(Ω), l’ensemble des parties deΩ) qui contient l’ensemble vide, est stable par passage au complementaire etest stable par union denombrable :

– ∅ ∈ B

13

Page 14: LM345 - Probabilités et Statistiques

14CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

– pour tout A ∈ B on a Ac ∈ B– pour toute famille denombrable (Ai)i∈N d’elements de B l’union

i∈N

Ai

est egalement dans B.

Il est clair que Ω est toujours element de la tribu (c’est le complementairede l’ensemble vide) et qu’une intersection denombrable d’elements de la tribuest encore dans la tribu (car ∩i∈NAi = (∪i∈NA

ci)

c).

Exemples

1) Si Ω est un ensemble quelconque on peut toujours definir deux tribus :

la tribu triviale qui est B = ∅,Ωla tribu totale qui est B = P(Ω).

2) Si Ω = 1, 2, 3 le sous-ensemble de P(Ω), B = ∅, 1, 2, 3,Ω est unetribu de Ω.

3) (Exercice :) Si Ω est un ensemble le sous-ensemble de P(Ω) constitue desensembles qui sont denombrables ou dont le complementaire est denombrableest une tribu.

Sauf dans le cas ou l’espace Ω est fini, les exemples precedents de tri-bus sont trop simples pour etre utiles. La proposition donne un moyen trescommode de construire des tribus non-triviales.

Proposition 2.1.1 Soit Ω un ensemble et S un sous-ensemble de partiesde Ω (un sous-ensemble de P(Ω)) sans structure particuliere. Il existe uneunique tribu B qui contient S et qui est minimale pour cette propriete c’est-a-dire :

– (S ⊂ B) : pour tout A ∈ S on a A ∈ B– (minimale) : si B′ est une autre tribu telle que S ⊂ B′ alors B ⊂ B′.

On appelle B la tribu engendree par la partie S et on la note (dans ce cours)B = B(S).

Demonstration.—Considerons l’ensemble E des tribus C de Ω tel que S ⊂ C. Cet ensemble

E est non vide puisqu’il contient la tribu P(Ω) et puisque S ⊂ P(Ω). NotonsB l’intersection des C quand C decrit E. C’est un sous-ensemble de P(Ω) quicontient S mais c’est egalement une tribu comme il est facile de verifier (nous

Page 15: LM345 - Probabilités et Statistiques

2.1. ESPACE PROBABILISE 15

recommandons au lecteur de verifier ce point). Ainsi, B est une tribu conte-nant S et appartient donc a E. Comme B est l’intersection des C decrivantE on a pour toute tribu C contenant S l’inclusion B ⊂ C : ceci qui signifieque B est la plus petite trbibu contenant S.

2

2.1.2 Probabilite

Definition 2.1.2 Si Ω est un ensemble et B est une tribu de Ω, une proba-bilite P est une application de B dans [0, 1] telle P(Ω) = 1 et telle que pourtoute famille denombrable (Ai)i∈N d’evenements de B disjoints 2 a 2 on a

P

(

i∈N

Ai

)

=∞

i=0

P(Ai).

ou l’egalite precedente signifie la chose suivante : la probabilite P(∪i∈NAi)est egale a la limite de la suite croissante de nombres reels

∑Ni=0 P(Ai) quand

N tend vers l’infini.( Cette limite existe toujours car la suite en question estcroissante et bornee.)

Remarque L’interet d’autoriser la stabilite par unions (intersections) denombrablesdans la definition d’une tribu permet de construire a partir d’evenementssimples des evenements beaucoup plus interessants que ceux qu’on obtien-drait en ne supposant que la stabilite par unions (intersections) finies. En re-vanche, si on autorisait la stabilite par unions (intersections) quelconques onne pourrait pas construire beaucoup de probabilites. La stabilite par unions(intersections) denombrable est donc le bon compromis.

Mentionnons tout d’abord deux proprietes immediates des probabilites :

Proposition 2.1.2 Soit (Ω,B,P) un espace probabilise.

a) Si A ∈ B,

P(Ac) = 1 − P(A).

b) P(∅) = 0

c)(Positivite) Si A,B ∈ B verifient A ⊂ B alors P(A) ≤ P(B).

d) Si A,B ∈ B alors

P(A ∪B) = P(A) + P(B) − P(A ∩ B).

Page 16: LM345 - Probabilités et Statistiques

16CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

Demonstration.—

a) Il suffit decrire Ω comme l’union disjointe finie Ω = A∪Ac : comme P estune probabilite 1 = P(Ω) = P(A) + P(Ac).

b) suit de la formule precedente et du fait que P(Ω) = 1.

c) On ecrit B comme l’union disjointe B = A∪ (B ∩Ac) et P(B) = P(A) +P(B ∩ Ac). Comme P(B ∩Ac) ≥ 0 on a bien P(B) ≥ P(A).

d) De l’union disjointe A∪B = A∪ (B ∩Ac) on deduit P(A∪B) = P(A) +P(B ∩ Ac). Mais de l’union disjointe B = (B ∩ Ac) ∪ (B ∩ A) on obtientP(B) = P(B ∩Ac) +P(A∩B). De ces deux egalites on deduit la formule d)

2

La preuve des proprietes qui suivent n’est pas difficile mais, a la differencede la demonstration des proprietes precedentes, ne pourrait se faire sansautoriser des unions denombrables :

Proposition 2.1.3 a) Si Ai, i ∈ N est une famille croissante d’elementsde B dont l’union est A alors A ∈ B et la suite P(An) (qui est croissantebornee) converge vers P(A) :

limn→∞

P(An) = P(A);

b) Si Ai, i ∈ N est une famille decroissante d’elements de B dont l’union estA alors A ∈ B et la suite P(An) (qui est decroissante positive) converge versP(A) :

limn→∞

P(An) = P(A);

c) Si Ai, i ∈ N est une famille denombrable d’ensembles appartenant a B ona toujours (meme si les Ai ne sont pas disjoints deux a deux)

P

(

i∈N

Ai

)

≤∞

i=0

P(Ai),

(ou le membre de droite de l’inegalite precedente qui est la limite de la suitecroissante peut eventuellement etre infini).

Demonstration.—

a) Definissons les ensembles Bn, n ≥ 0 de la facon suivante : B0 = A0, etpour n ≥ 1, Bn = An ∩ Ac

n−1. Les Bn constituent une famille denombrabled’ensembles disjoints deux a deux d’elements de B et on peut donc ecrire

∞∑

k=0

P(Bk) = P

(

k∈N

Bk

)

.

Page 17: LM345 - Probabilités et Statistiques

2.1. ESPACE PROBABILISE 17

c’est-a-dire

limN→∞

N∑

k=0

P(Bk) = P

(

k∈N

Bk

)

,

ou encore, puisque les Bk sont disjoints deux a deux

limN→∞

P

( N⋃

k=0

Bk

)

= P

(

k∈N

Bk

)

,

MaisN⋃

k=0

Bk = AN ,

∞⋃

k=0

Bk = A

ce qui etablit la preuve de a).

b) Il suffit de passer au complementaire et d’utiliser a)

c) Pour ω ∈ Ω definissons l’entier ν(ω) comme etant le plus petit entier k ≥ 0pour lequel ω ∈ Ak. L’ensemble Cn des ω ∈ Ω pour lesquels ν(ω) = n estl’ensemble

Cn = ω ∈ Ω, ν(ω) = n = An ∩ (An−1 ∪ · · · ∪A0)c

qui est clairement dans B. Les ensembles Cn sont de toute evidence disjointsdeux a deux et leur union pour n ≥ 0 est ∪n∈NAn car pour tout ω dans∪n∈NAn il existe un n tel que ν(ω) = n c’est-a-dire il existe un n tel queω ∈ Cn. On a donc

P

(

n≥0

An

)

= P

(

n≥0

Cn

)

=

∞∑

n=0

P(Cn),

et comme P(Cn) ≤ P(An) (puisque Cn ⊂ An) on obtient la conclusion du c).

2

Les deux proprietes precedentes a) et b) sont des proprietes de continuite(dans un sens a preciser) des probabilites.

2.1.3 Exemples

Mesures de Dirac

Sur tout ensemble Ω muni d’une tribu B il est possible de construiredes mesures de la facon suivante : pour tout α ∈ Ω definissons l’applicationδα : B → [0, 1] qui a un ensemble A ∈ B associe le reel 1 si α ∈ A et 0

Page 18: LM345 - Probabilités et Statistiques

18CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

sinon. Cette application δα est une mesure de probabilite que l’on appelle lamesure de Dirac au point α. Verifions rapidement que c’est bien une mesure :deja δα(Ω) = 1 puisque α ∈ Ω ; par ailleurs si Ai ∈ B, i ≥ 0 est une familledenombrable d’ensembles de la trbibu disjoints deux a deux on a

δα

(

i≥0

Ai

)

= δα(Ai),

car :

– soit α appartient a ∪i≥0Ai ; mais alors il existe un i ≥ 0 pour lequel α ∈ Ai

et cet indice i est unique car les Ai sont disjoints deux a deux. L’egaliteprecedente se reduit a 1 = 1 ;

– soit α n’appartient pas a ∪i≥0Ai et de ce fait n’apartient a aucun des Ai :l’egalite se reduit a 0 = 0.

Probabilites sur un ensemble fini

Les espaces probabilises les plus simples sont ceux ou l’espace des etatsΩ est fini. On choisit en general comme tribu B l’ensemble P(Ω) de toutesles parties de Ω (qui est bien une tribu). C’est ce que nous ferons (car lecas ou B est une tribu plus petite que P(Ω) s’y ramene). Ceci etant, il restea definir la probabilite. Remarquons que tout ensemble A ∈ B = P(Ω) estfini (car inclus dans Ω qui est fini) et est par consequent l’union (finie doncdenombrable) des singletons a ou a decrit A :

A =⋃

a∈A

a.

Comme cette union est disjointe et finie on a

P(A) =∑

a∈A

P(a).

Si Ω = c1, . . . , cn et si on note pi = P(ci) on a

P(A) =∑

i,ci∈A

pi.

Remarquons que les pi sont dans [0, 1] et verifient

n∑

i=1

pi = 1.

Page 19: LM345 - Probabilités et Statistiques

2.1. ESPACE PROBABILISE 19

En conclusion : dans le cas ou Ω est fini, une probabilite P sur B = P(Ω) estdeterminee par ses valeurs sur les singletons de Ω. Reciproquement si on sedonne n nombres reels positifs p1, . . . , pn dont la somme vaut 1 (p1+· · ·+pn =1) alors, l’application P : P(Ω) → [0, 1] qui a A ∈ P(Ω) associe le reel (dans[0, 1])

P(A) =∑

i:ci∈A

pi

est une probabilite

Exercice : Demontrer l’enonce precedent.

Probabilites uniformes et lien avec la combinatoire Un cas importantest celui ou tous les pi, 1 ≤ i ≤ n precedents sont egaux. Comme leur sommedoit valoir 1 ceci signifie que p1 = · · · = pn = 1

n. On dit dans ce cas que la

probabilite P est uniforme. On a alors, pour tout sous-ensemble A de Ω

P(A) =∑

i:ci∈A

pi = #i ∈ 1, . . . , n, ci ∈ A. 1n

soit

P(A) =#A

#Ω.

Ainsi, quand on travaille avec une probabilite uniforme sur un ensemble fini,determiner la probabilite d’un evenement revient a calculer son cardinal : onvoit apparaıitre le lien avec la combinatoire.

Exercice : On tire cinq cartes d’un jeu de 32 cartes. Quelle est la probabilited’obtenit un full c’est-a-dire deux cartes de meme valeur et trois autres cartesde meme valeur. On supposera chaque tirage equiprobable

Exercice : Une urne contient n boules noires et b boules blanches.

a) On effectue N tirages avec remises. Quelle est la probabilite d’obtenir xboules noires ?

b) Meme question si les tirages sont sans remises.On supposera les tirages equiprobables.

Jeu de n Pile ou Face On se propose de modeliser un jeu ou l’on lance nfois une piece (Pile/Face). De facon equivalente un experimentateur realisen experience le resultat de chaqu’une d’entre elles pouvant etre positif (1)ou negatif (0). Il est naturel de decrire le jeu ou l’experience precedentes dela facon suivante : on choisit comme espace des etats l’ensemble Ω de toutesles suites de longueur n constituees de 0 ou de 1. Une telle suite est donc un

Page 20: LM345 - Probabilités et Statistiques

20CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

n-uplet ω = (ω1, . . . , ωn) chaque ωi, 1 ≤ i ≤ n appartenant a l’ensemble adeux elements 0, 1. Ainsi

Ω = 0, 1n,

et a 2n elements. Nous choisirons comme tribu B = P(Ω), l’ensemble desparties de Ω (qui a donc 22n

mais cela n’a pas d’importance). Cette tribu nouspermet de decrire des evenements. Par exemple l’evenement (A) “obtenir kPile lors des n lancers” est decrit par l’ensemble A ∈ B (Pile=1, Face=0)

A = ω = (ω1, . . . , ωn),n

i=1

ωi = k..

L’evenement (B) “on tire au moins un Pile” est decrit par l’ensemble

B = ω = (ω1, . . . , ωn), ∃i ∈ 1, . . . , n ωi = 1.

L’evenement “(A) et (B)” est decrit par l’intersection A ∩ B, l’evenement“non A” est decrit par Ac, l’evenement “A ou B” par A ∪B etc.

Le choix de la probabilite sur notre ensemble est dicte par le jeu oul’experience que l’on modelise. Ainsi, on ne modelisera pas de la meme faconun jeu ou pile et face ont les memes chances de sortir qu’un jeu ou pile adeux fois plus de chance de sortir que face. Dans le premier cas, il est naturel1 de choisir comme probabilite P la probabilite uniforme

P(A) =#A

Ω=

#A

2n.

Noter que la probabilite d’un evenement elementaire “on a tire la suite(ε1, . . . , εn)” c’est-a-dire la probabilite du singleton (ε1, . . . , εn) vaut 1/2n

(ceci quel que soit ε1, . . . , εn). En revanche, dans le second cas, on definira laprobabilite d’un evenement elementaire ε1, . . . , εn) comme etant (2/3)k(1/3)n−k

ou k est le nombre de 1 dans la suite ε1, . . . , εn.

Exercice : Calculer dans chacun des cas precedents les probabibilites desevenements A et B.

Le jeu infini de pile ou face

Nous presentons dans ce paragraphe la modelisation du jeu de pile ouface ou l’on joue une infinite de fois. Il est naturel d’introduire comme espacedes etats l’ensemble Ω des suites ω = (ω1, ω2, . . .) ou les ωi valent 0 ou 1. Ona ainsi Ω = 0, 1N−0. Un probleme plus delicat est de trouver une tribu

1en fait cela sera encore plus naturel quand on aura defini la notion d’independance

Page 21: LM345 - Probabilités et Statistiques

2.1. ESPACE PROBABILISE 21

raisonnable sur cet ensemble. On aimerait par exemple pouvoir decrire unevenement du type : “en moyenne pile sort deux fois plus souvent que face”qui de facon ensembliste est l’ensemble des ω = (ω1, . . .) ∈ Ω pour lesquelsla limite quand n tend vers l’infini de la suite

1

n

n∑

i=1

ωi

existe et vaut 2/3. Un moment de reflexion montre que cet evenement n’ap-partient a aucune des tribus Fn qui modelisent un jeu de n pile/face2.

Nous definirons la tribu B sur Ω de la facon suivante : la tribu B est latribu engendree (au sens de la proposition 2.1.1) par tous les evenements Ci,ε

Ci,ε = ω ∈ Ω, ωi = ε,ou i decrit N− 0 et ε decrit 0, 1.

Il reste a present a construire une probabilite sur B ce qui est assezdelicat. Si on joue avec une piece qui donne Pile (resp. Face) avec proba-bilite 1/2 il est naturel d’attribuer a tout evenement Ci,ε la probablite (1/2)(independamment de la valeur de ε) et il est egalement naturel de demanderque la probabilite d’un evenement de la forme3

ω ∈ Ω, ωi1 = ε1, . . . , ωir = εr = Ci1,ε1 ∩ · · · ∩ Cir ,εr

soit egale a (1/2)r. Il n’est en revanche pas du tout clair que l’on puisseattribuer a tout evenement de la tribu B une probabilite qui soit compatibleavec ces choix. En fait c’est possible :

Theoreme 2.1.1 Il existe une unique mesure de probabilite P definie sur(Ω,B) telle que pour tous r ≥ 1, i1, . . . , ir ∈ N − 0, ε1, . . . , εr ∈ 0, 1 onait

P(Ci1,ε1 ∩ · · · ∩ Cir ,εr) =

1

2r.

Probabilite sur R

Il est important de savoir decrire des probabilites sur R, l’ensemble desnombres reels. L’espace des etats est alors Ω = R et la tribu que l’on choisitest la tribu engendree par les intervalles ouverts de R. On l’appelle la tribuborelienne et on la note Bor(R). Retenons la definition :

2On peut toujours considerer un jeu de n pile/face comme un cas particulier d’un jeuinfini de pile/face : Il suffit d’associer a toute suite ω = (ω1, . . . , ωn) de 0, 1n la suiteω ∈ 0, 1N − 0 definie par ωi = ωi si 1 ≤ i ≤ n et ωi = 0 si i ≥ n + 1

3Cet evenement decrit l’experience suivante : au temps i1, . . . , ir, on observe ε1, . . . , εr

et on ne precise pas ce qui se passe aux autres temps

Page 22: LM345 - Probabilités et Statistiques

22CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

Definition 2.1.3 La tribu borelienne de R est la tribu engendree par lesintervalles ouverts de R.4. On la note Bor(R).

Exercice : Montrer que la tribu borelienne de R est egalement la tribu en-gendree par les intervalles de la forme ] −∞, a].

Solution : Notons C la tribu engendree par les intervalles de la forme ]−∞, a].Remarquons pour cela que si ]c, d[ est un intervalle ouvert (c < d peuventetre infinis) on a

]c, d[=] −∞, c]c∩] −∞, d[.

Mais ] −∞, d[ s’ecrit comme union denombrable d’intervalles de C :

] −∞, d[=⋃

n∈N∗

] −∞, d− 1

n].

Ainsi, C etant une tribu (donc stable par union denombrable) ]−∞, d[ appar-tient a C. Comme ]−∞, c] est dans C, l’intersection ]c, d[=]−∞, c]c∩]−∞, d[est egalement dans C (C est stable par complementaire et intersections finiesou denombrables). Nous avons donc demontre que la tribu C contenait lesintervalles ouverts. Or, la tribu borelienne est la plus petite tribu contenantles intevalles ouverts. Par consequent, Bor(R) ⊂ C. L’inclusion recipoque sedemontre de facon similaire (c’est plus facile).

Exercice : 1) Montrer qu’un singleton a est borelien.

2) Montrer que Q l’ensemble des rationnels est borelien.

3) L’ensemble des irrationnels est-il borelien.

4) Montrer qu’un intervalle ferme [a, b] est borelien (on observera que [a, b] =∩p≥1]a− 1

p, b+ 1

p[.)

Definition 2.1.4 Si µ est une probabilite sur (R, Bor(R)) on introduit Fµ

la fonction definie par Fµ(x) = µ(] −∞, x]). On appelle Fµ(·) la fonction derepartition de la mesure de probabilite µ.

Proposition 2.1.4 La fonction Fµ : R → [0, 1] definie par F (x) = µ(] −∞, x])

i) est croissante

ii) admet des limites en +∞ et −∞ qui valent :

limx→∞

F (x) = 1, limx→−∞

F (x) = 0

4elle est egalement engendree par les intervalles ou les intervalles de la forme ] −∞, a]ou encore les intervalles fermes etc.

Page 23: LM345 - Probabilités et Statistiques

2.1. ESPACE PROBABILISE 23

iii) est continue a droite en tout point x ∈ R c’est-a-dire

limt→x,x<t

F (t) = F (x).

Demonstration.—

i) Si x ≤ y on a ] −∞, x] ⊂] −∞, y] et d’apres la proposition 2.2.1 c) on abien µ(] −∞, x]) ≤ µ(] −∞, y]).

ii) Pour tout suite xn croissant vers ∞ (resp. decroissant vers −∞) la suite deboreliens ]−∞, xn] est croissante pour l’inclusion (resp. decroissante pour l’in-clusion) et leur union vaut Ω (resp. leur intersection vaut ∅). Par consequentd’apres la proposition 2.1.3 a) (resp. b)) limn→∞ µ(] − ∞, xn]) = 1 (resp.limn→∞ µ(] −∞, xn]) = 0 ) ce qui demontre ii)

iii) Pour toute suite tn decroissante et convergeant vers x, la suite de boreliens]−∞, tn] est decroissante et leur intersection vaut ]−∞, x] ce qui demontreque limn→∞ µ(] −∞, tn]) = µ(] −∞, x]).

2

Remarque : Attention, la fonction de repartition d’une mesure n’est pastoujours continue a gauche.Considerons en effet la mesure de Dirac en 0 quenous notons δ0 : par definition c’est la mesure qui a tout borelien A de Rassocie 1 si 0 appartient a A et 0 sinon ; on sait que c’est une mesure. Safonction de repartition est : F (x) = 0 si x < 0 et F (x) = 1 si x ≥ 0 (c’estune fonction en escalier) qui est bien continue a droite en 0 mais n’est pascontinue a gauche en 0.

Le theoreme qui suit (dont la demonstration depasse le cadre de ce cours)permet de construire de tres nombreuses mesures de probabilites sur la droitereelle munie de sa tribu borelienne.

Theoreme 2.1.2 Si F : R → [0, 1] est une fonction croissante, qui admetune limite nulle en −∞ et une limite egale a 1 en ∞, et qui est continue adroite en tout point de R alors il existe une unique mesure de probabilite µdefinie sur (R, Bor(R)) qui admet F comme fonction de repartition.

Ce theoreme illustre l’equivalence entre la notion de probabilite sur (R, Bor(R))et celle de fonction de repartition.

Donnons un exemple fondamental et typique d’une telle construction :la fonction F definie par : F (x) = 0 si x < 0, F (x) = x si 0 ≤ x < 1 etF (x) = 1 si x ≥ 1 verifie bien les hypotheses du theoreme 2.1.2 et definitdonc une mesure de probabilite λ que l’on appelle la mesure de Lebesgue surl’intervalle [0, 1]. Si I est un intervalle de R on a

λ(I) = longueur(I ∩ [0, 1]).

Page 24: LM345 - Probabilités et Statistiques

24CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

2.2 Variables Aleatoires

Definition 2.2.1 Une variable aleatoire reelle (en abrege v.a) est une ap-plication X : Ω → R telle que pour tout intervalle ouvert I de R l’ensembleX−1(I) des ω ∈ Ω tels que X(ω) ∈ I, appartient a B.

En fait

Proposition 2.2.1 Si X : Ω → R est une application alors les trois propo-sitions suivantes sont equivalentes

a) pour tout borelien A ∈ Bor(R) X−1(A) ∈ B.

b) X est une variable aleatoire ;

c) pour tout intervalle I de la forme I =] −∞, a], X−1(I) appartient a B ;

Demonstration.— Que a) implique b) et que b) implique c) est evident.Demontrons donc que c) implique a). L’ensemble E des A ⊂ R tels queX−1(A) ∈ B est une tribu (exercice). Or, cet ensemble E contient d’apresc) les intervalles de la forme ] − ∞, a] et par consequent la tribu engendreepar les intervalles de la forme ] −∞, a]. Mais on sait, d’apres l’exercice quisuit la definition 2.1.3, que cette tribu egale la tribu borelienne. Ainsi, pourtout borelien A, X−1(A) ∈ B.

2

Notation Dans la suite du cours, quand X est une v.a et A un borelien deR nous noterons X ∈ A ou [X ∈ A] ou (X ∈ A) l’ensemble ω ∈ Ω :X(ω) ∈ A.

La proposition qui suit permet de construire de v.a.

Proposition 2.2.2 a) Si Xn, n ≥ 1 est une famille de v.a alors Z =supn≥1Xn (resp. Z = infn≥1Xn) est une v.a

b) Si X1, . . . , Xn sont des v.a et f : Rn → R est une application continuealors Z = f(X1, . . . , Xn) est une v.a

Demonstration.—

a) Soit ω tel que supn≥1Xn(ω) > a. Alors par definition du sup, il existeun n pour lequel Xn(ω) > a et ω est donc dans l’union ∪n≥1Xn > a.Reciproquement si ω ∈ ∪n≥1Xn > a alors il existe n tel que Xn(ω) > a eta fortiori supnXn(ω) > a. Nous avons donc demontre que les deux ensemblesZ > a et ∪n≥1Xn > a sont egaux. Mais ce dernier ensemble est une uniondenombrable d’elements de la tribu B (car chaque Xi est une v.a). Ainsi pour

Page 25: LM345 - Probabilités et Statistiques

2.2. VARIABLES ALEATOIRES 25

tout a l’evenement supn≥1Xn(ω) > a est dans B et il en est de meme de soncomplementaire supn≥1Xn(ω) ≤ a. La proposition ?? permet de conclure.

b) Si I est un intervalle de R, Z−1(I) est l’ensmble des ω ∈ Ω tels que(X1(ω), . . . , Xn(ω)) ∈ f−1(I). Comme f est continue, f−1(I) est un en-semble ouvert de Rn et, par consquent, est une union denombrable de pavesouverts c’est -a-dire d’ensembles P de la forme ]a1, b1[× · · ·×]an, bn[. Parconsequent l’ensmble des ω ∈ Ω tels que (X1(ω), . . . , Xn(ω)) ∈ f−1(I) estune union denombrable d’ensembles de la forme ω ∈ Ω, (X1(ω), . . . , Xn(ω) ∈]a1, b1[× · · ·×]an, bn[ c’est-a-dire d’ensembles de la forme ω ∈ Ω, X1(ω) ∈]a1, b1[, . . . , Xn(ω) ∈]an, bn[ = X−1

1 (]a1, b1[) ∩ · · · ∩ X−1n (]an, bn[) qui sont

clairement dans B.

2

En particulier

Proposition 2.2.3 a) Si X : Ω → R est une v.a. et f : R → R est uneapplication continue, alors la fonction Y : Ω → R definie par Y = f X(c’est-a-dire Y (ω) = f(X(ω)) pour tout ω ∈ Ω) est encore une v.a. On lanote Y = f(X).

b) Si X, Y sont deux v.a l’application Z = max(X, Y ) est une v.a

c) Si X et Y sont deux v.a, aX + bY est egalement une v.a.

2.2.1 Le cas particulier des v.a a valeurs dans un en-

semble fini ou denombrable

Il s’agit du cas ou X(Ω) l’ensemble des valeurs prises par X est un en-semble fini ou denombrable de R. Dans ce cas la caracterisation des variablesaleatoires est plus simple :

Proposition 2.2.4 Si X : Ω → R est a valeurs dans un ensemble fini oudenombrable E alors X est une variable aleatoire si et seulement si pour toute ∈ E, X−1(e) ∈ B.

Demonstration.— Il s’agit de demontrer que pour tout intervalle ouvertde la forme ]a, b[ (avec a et b finis par exemple) l’ensemble des ω ∈ Ω telsX(ω) ∈]a, b[ est dans B. On a alors X(ω) ∈]a, b[∩E. Mais ce dernier ensembleest au plus denombrable et comme

X−1(]a, b[) =⋃

e∈]a,b[∩E

X−1(e)

on voit que X−1(]a, b[) est dans B.

Page 26: LM345 - Probabilités et Statistiques

26CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

2

Exemple Revisitons l’exemple du jeu infini de Pile/Face : Ω = 0, 1N et Best la tribu engendree par les ensembles Ci,εi

= ω = (ω0, . . .) ∈ Ω, ωi = εi.Pour n ∈ N l’application Xn : 0, 1N → 0, 1 qui a ω = (ω0, ω1, . . .) associeωn est une variable aleatoire. Il suffit en effet de verifier que pour ε = 0 ouε = 1 l’ensemble des ω pour lesquels ωn = ε appartient a B. Or, cet ensembleest le cylindre Cn,ε qui par definition est dans B. En fait, la tribu B a eteconstruite de facon que toutes les applications Xn : Ω → 0, 1 (n ≥ 0)soient des variables aleatoires (c’est d’ailleurs la plus petite tribu ayant cettepropriete).

Exercice On considere le jeu infini de Pile/Face (Ω,B,P) et on garde lesnotations de l’exemple precedent. Definissons pour tout ω ∈ Ω, l’entier ν(ω)comme etant le plus petit entier k pour lequel Xk(ω) = 1 (en d’autres termesν(ω) est le premier temps ou on tire Pile). Demontrer que ν est une variablealeatoire.

Solution : Si ν = 0 = X0 = 1 est dans B car X0 est une v.a et pour toutn ∈ N, (n ≥ 1)

ν = n = X0 = 0 ∩ · · · ∩ Xn−1 = 0 ∩ Xn = 1;

c’est une intersection finie delements de B (car, puisque chaque Xi est unev.a, les ensembles Xi = 0, 1 ≤ i ≤ n− 1 et Xn = 1c sont dans B)

2.2.2 Loi d’une variable aleatoire

SoitX : Ω → R une v.a. On sait que pour tout borelien A de R l’ensembleX−1(A) est un evenement (appartient a B). Il est donc possible de parler dela probabilite P(X ∈ A) de l’evenement X ∈ A.

Proposition 2.2.5 L’application µX : Bor(R) → [0, 1] qui a tout boreliende R associe le reel P (X ∈ A) de [0, 1] est une probabilite sur (R, Bor(R)).On appelle cette probabilite la loi de la v.a X.

Demonstration.— Il suffit de demontrer que si (Ai)i∈N est une familledenombrable de boreliens de R disjoints deux a deux alors

P(X ∈⋃

i∈N

Ai) =

∞∑

i=0

P (X ∈ Ai),

ce qui est clair car l’evenement X ∈ ∪i∈NAi est l’union denombrable dis-jointe des evenements X ∈ Ai. Enfin la condition P (X ∈ R) = 1 achevela preuve.

Page 27: LM345 - Probabilités et Statistiques

2.2. VARIABLES ALEATOIRES 27

Il faut retenir que la loi d’une v.a est une probabilite sur R (muni desa tribu borelienne). Ceci illustre le fait qu’il est possible de construire denombreuses mesures de probablilites sur R muni de sa tribu borelienne.

2

2.2.3 Loi des variables aleatoires a valeurs dans un en-semble fini ou denombrable

Si X : Ω → R prend ses valeurs dans un ensemble E = e0, e1, . . . quiest fini ou denombrable la loi µX de X est la mesure sur (R, Bor(R))

µX =∑

e∈E

P(X = e)δe.

En effet pour tout borelien (ou tout intervalle) A

P(X ∈ A) = P(X ∈ A ∩E) =∑

e∈A∩E

P(X = e),

et cette somme n’est rien d’autre que∑

e∈E

P(X = e)δe(A).

La loi deX est donc parfaitement determinee par les reels pX(e) = P(X =e), (e ∈ E) et dans la pratique quand on demande de determiner la loi de Xon demande de calculer les reels pX(e) = P(X = e).

Quelques lois classiques de variables aleatoires a valeurs dans unensemble fini ou denombrable

Loi geometrique On dit qu’une v.a X : Ω → N (a valeurs dans N) suitune loi geometrique de parametre a (0 < a < 1) si

P(X = n) = (1 − a)an.

On remarquera que l’on a bien∑∞

k=0 P (X = k) = 1 (∑

k≥0 ak = 1/(1 − a)).

La v.a ν de l’exercice de la section 2.2.1 suit une loi geometrique deparametre 1/2. En effet

ν−1(n) = ω = (ω0, ω1, . . .) ∈ Ω, ω0 = 0, . . . , ωn−1 = 0, ωn = 1= C0,0 ∩ · · · ∩ Cn−1,0 ∩ Cn,1

et d’apres le theoreme 2.1.1

P(ν = n) = (1/2)n.(1/2).

Page 28: LM345 - Probabilités et Statistiques

28CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

Loi binomiale On dit qu’une variable aleatoire Z a valeurs dans 0, . . . , nsuit une loi binomiale (n, p) si

P(Z = k) =

(

n

k

)

pk(1 − p)n−k.

ou(

nk

)

est le coefficient binomial

(

n

k

)

= Ckn =

n!

(n− k)!k!=n(n− 1) · · · (n− k + 1)

k!.

On a bien (formule du binome de Newton)∑∞

k=0 P (X = k) = (p+1−p)n = 1.

Exemple Jouons n fois au jeu de pile/face ou pile sort avec probabilite p etface avec probabilite 1−p et notons Z la variable aleatoire : Z est le nombre depile qui sortent (apres avoir joue n fois). Si on note Xi les variables aleatoiresXi(ω) = ωi (ω = (ω1, . . . , ωn)) on a

Z = X1 + · · ·+Xn.

C’est bien une variable aleatoire Z : B → N a valeurs dans l’ensemble fini0, . . . , n (B = P(Ω)) et

P(Z = k) =

(

n

k

)

pk(1 − p)n−k.

Loi de Poisson Une variable aleatoire Z : Ω → N suit une loi de Poissonde parametre λ > 0 si

P(Z = n) = e−λλk

k!.

On verifie encore que∑∞

k=0 P (X = k) = 1 (cf. le developpement en serie deeλ).

Exercice Soit Xn une v.a suivant une loi binomiale (n, pn). Montrer que silimn→∞ npn = λ on a pour tout k ∈ N

limn→∞

P(Xn = k) = e−λλk

k!.

(On dit que Xn converge en loi vers une loi de Poisson de parametre λ)

Page 29: LM345 - Probabilités et Statistiques

2.2. VARIABLES ALEATOIRES 29

2.2.4 Loi de variables aleatoires admettant une densite

Definition 2.2.2 On dit que la variable aleatoire X : Ω → R admet unedensite continue (resp. continue par morceaux etc.) si sa loi (qui est une me-sure de probabilite sur (R, Bor(R))) admet une densite continue (resp. conti-nue par morceaux etc.) c’est-a-dire s’il existe une fonction positive continue(resp. continue par morceaux etc.) ρX : R → [0,∞[ telle que

∫ ∞

−∞ρX(t)dt = 1

et telle que pour tout intervalle ]a, b[

µX(]a, b]) = P(X ∈]a, b]) =

∫ b

a

ρX(t)dt.

Faisons une remarque importante : si une v.a. X admet une densite ρX

alors sa fonction de repartition

FX(x) = µX(] −∞, x]) =

∫ x

−∞

ρX(t)dt

est continue. Il existe donc des variables aleatoires n’admettant pas de den-site : par exemple une v.a X a valeurs dans R ne prenant que deux valeurs0 ou 1 et telle que P(X = 0) = p avec 0 < p < 1 ne peut posseder de densitecar sa fonction de repartition FX(x) vaut 0 si x < 0, 1/2 si 0 ≤ x < 1 et 1 si1 ≤ x : elle est discontinue en 0 et en 1 (mais bien continue a droite).

Quelques exemples de loi admettant une densite

Loi uniforme La variable aleatoire X : Ω → R suit une loi uniforme surl’intervalle [a, b] si sa densite est donnee par

ρX(x) =1

b− a· 1[a,b].

On a bien ρX(t) ≥ 0 pour tout t et∫

RρX(t)dt = 1. Cette loi est caracterisee

par

P(X ∈ [c, d]) =1

b− alongueur([a, b] ∩ [c, d]).

(En effet,

P(X ∈ [c, d]) =

[c,d]

1

b− a· 1[a,b](x)dx

=1

b− a

R

1[c,d](x) · 1[a,b](x)dx

=1

b− a

R

1[c,d]∩[a,b](x)dx.

Page 30: LM345 - Probabilités et Statistiques

30CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

Loi exponentielle de parametre θ La v.a admet une densite ρX expo-nentielle de parametre θ si

ρX(x) = θe−θx1[0,∞[(x).

La fonction de repartition est

FX(x) =

∫ x

−∞

ρX(t)dt = (1 − e−θx)1[0,∞[(x),

et converge bien vers 1 en ∞. Intuitivement, la loi uniforme sur l’intervalle[a, b] modelise une experience ou la probabilite d’un point de tomber dans unintervalle de taille 2∆x, ]x − ∆x, x+ ∆x[⊂ [a, b] ne depend pas de x (et estlineaire en ∆x).

Loi normale N(µ, σ) C’est la loi de densite

ρX(x) =1√

2πσ2e−(x−µ)2/2σ2

.

Il n’est pas completement evident que∫

RρX(x)dx = 1 (ce qui est indispen-

sable pour que ρX soit une densite). Ceci resulte, apres le changement devariable u = (x− µ)/σ de l’egalite (cf. *** pour une preuve)

∫ ∞

−∞

e−u2/2du =√

2π.

La loi normale N(0, 1), donc de densite,

1√2πe−x2/2,

est dite loi normale centree reduite.

2.3 Esperance d’une v.a.

2.3.1 Esperance d’une v.a. a valeurs dans un ensemblefini (ou denombrable)

Soit X : Ω → R une variable aleatoire ne prenant qu’un nombre fini devaleurs x1, . . . xr. On definit l’esperance de X comme etant le nombre reel

E(X) =

r∑

i=1

xi · P(X = xi).

Page 31: LM345 - Probabilités et Statistiques

2.3. ESPERANCE D’UNE V.A. 31

Remarquons que si X prend ses valeurs dans un ensemble infini denombrablela quantite

E(X) =∞

i=1

xi · P(X = xi),

qui semble etre un bon candidat pour la definition de l’esperance peut ne pasexister car la serie peut ne pas converger. Pour garantir cette convergence ilsuffit de demander que la serie precedente soit absolument convergente.

2.3.2 Esperance d’une v.a. positive

Nous definissons dans cette section l’esperance d’une variable aleatoireX : Ω → R qui ne prend que des valeurs positives ou nulles. Pour cela ondefinit pour n ≥ 1 la variable aleatoire Xn de la facon suivante : on decoupe[0,∞) en intervalles [0, 1[, [1, 2[,..., [n−1, n[, [n,∞) puis on redecoupe chacundes n intervalles [0, 1[, [n − 1, n[ en 2n intervalles d’egale longueur (on netouche pas a [n,∞[) : on obtient n2n − 1 intervalles de taille 2−n de la forme[k/2n, (k + 1)/2n[ (0 ≤ k ≤ n2n − 1) ; on pose alors

Xn(ω) = n si Xn(ω) ≥ n

Xn(ω) = (k/2n) si Xn(ω) ∈ [k/2n, (k + 1)/2n[.Il n’est pas tres difficile de verifier que pour tout ω la suite de v.a Xn(ω)

est croissante (et converge vers X(ω)) ; la suite de nombre reels E(Xn) estdonc croissante (mais pas necessairement bornee). On pose

E(X) = limn→∞

E(Xn),

ou la limite precedente peut etre finie ou infinie.On peut demontrer

Theoreme 2.3.1 L’esperance verifie les conditions suivantes :

a) si A ∈ B on a E(1A) = P(A).

b) Si X, Y sont des v.a positives telle que X ≤ Y (c’est-a-dire pour toutω ∈ Ω X(ω) ≤ Y (ω)) alors E(X) ≤ E(Y ).

c) Si X, Y sont des v.a positives et a, b ∈ R on a (linearite de l’esperance)

E(aX + bY ) = aE(X) + bE(Y ).

d) Si X est une v.a positive telle que E(X) = 0 alors X est nulle P-presquesurement c’est-a-dire que l’ensemble des ω ∈ Ω pour lesquels X(ω) > 0 a uneprobabilite nulle.

Notons que E(a) = a si a est une constante.

Page 32: LM345 - Probabilités et Statistiques

32CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

Remarque On dit qu’une propriete Pω qui depend de ω ∈ Ω est vraie P-presque surement si l’ensemble des ω ∈ Omega pour lesquels Pω est fausseest de P-probabilite nulle (P(ω : Pω fause) = 0).

Mentionnons le theoreme suivant qui permet de calculer l’esperance d’unev.a obtenue comme limite d’autres v.a

Theoreme 2.3.2 (Theoreme de convergence monotone) Si Xn est unesuite de v.a Xn : Ω → [0,∞] qui

i) est croissante : pour tout ω ∈ Ω, Xn(ω) ≤ Xn+1(ω)

ii) converge vers X : Ω → [0,∞] : pour tout ω ∈ Ω la suite Xn(ω) convergevers X(ω).

Alors,

a) l’application X : Ω → [0,∞] est une v.a ;

b) la suite E(Xn) converge vers E(X) (limn→∞E(Xn) = E(X)).En particulier, si Yn est une suite de v.a positives ou nulles on a

E(

∞∑

n=0

Yn) =

∞∑

n=0

E(Yn)

(on peut intervertir le signe de sommation infini et l’esperance).

2.3.3 Esperance des v.a integrables

Nous pouvons definir a present l’esperance de v.a qui ne sont pas necessairementpositives. Pour cela, on constate que toute v.a X : Ω → R peut s’ecrirecomme difference de deux v.a positivesX+ etX− : si on poseX+ = max(0, X)et X− = max(0,−X) on a bien que X+, X− sont des v.a a valeurs positives etque X = X+−X−. Il est donc naturel de definir E(X) comme etant la quan-tite E(X+)−E(X−). Cependant, si E(X+) et E(X−) valent ∞ on obtient decette facon une expression indeterminee de la forme ∞−∞. Pour que la quan-tite E(X+)−E(X−) ait un sens il faut donc que E(X+) <∞ et E(X−) <∞(c’est-a-dire soient des quantites finies). Ceci est equivalent (puisque E(X+)et E(X−) sont positives ou nulles) au fait que E(X+) + E(X−) < ∞. Or ilest facile de voir que

X+ +X− = |X|,et la quantite E(X+) + E(X−) est finie si et seulement si E(|X|) l’est.Resumons :

Definition 2.3.1 Si X est une v.a telle que E(|X|) <∞ on definit l’esperancede X comme etant

E(X) = E(X+) − E(X−),

Page 33: LM345 - Probabilités et Statistiques

2.3. ESPERANCE D’UNE V.A. 33

ou X+ = max(0, X), X− = max(0,−X). On dit que X est integrable (surl’espace probabilise (Ω,B,P)) ou encore P-integrable. L’ensemble des va-riables aleatoires X qui sont P-integrable se note L1(Ω,P).

On a alors les propietes suivantes

Proposition 2.3.1 a) Si A ∈ B, E(1A) = P(A).

b) Si X, Y sont des v.a dans L1(Ω,P) telle que X ≤ Y (c’est-a-dire pourtout ω ∈ Ω X(ω) ≤ Y (ω)) alors E(X) ≤ E(Y ).

c) Si X, Y sont des v.a dans L1(Ω,P) et a, b ∈ R alors aX + bY ∈ L1(Ω,P)et on a

E(aX + bY ) = aE(X) + bE(Y ).

d) Si X ∈ L1(Ω,B) on a toujours |E(X)| ≤ E(|X|) et on a egalite si etseulement si P-ps X ≥ 0 ou P-ps X ≤ 0.

ExerciceExpliquer pourquoi une v.a bornee est P-integrable.

Le theoreme de convergence monotone, vrai pour des v.a positives ou nulles,possede un analogue dans le cas L1.

Theoreme 2.3.3 (Theoreme de convergence dominee) Si Xn est unesuite de v.a P-integrable, Xn : Ω → R (n ∈ N) telle que

i) la suite (Xn) converge vers X : Ω → R : pour tout ω ∈ Ω la suite Xn(ω)converge vers X(ω) (on dit que Xn converge simplement vers X)

ii) il existe une v.a Z telle que E(Z) <∞ (Z est P-integrable) telle que pourtout ω ∈ Ω on ait

∀n ∈ N, |Xn(ω)| ≤ Z(ω).

Alors,

a) l’application X : Ω → R est une v.a ;

b) la suite E(Xn) converge vers E(X) (limn→∞E(Xn) = E(X)).En particulier, si Yn est une suite de v.a positives ou nulles telles que

∞∑

n=0

E(|Yn|) <∞,

alors,

E(∞

n=0

Yn) =∞

n=0

E(Yn)

(on peut intervertir le signe de sommation infini et l’esperance).

Page 34: LM345 - Probabilités et Statistiques

34CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

Exercice Soit X une v.a sur (Ω,P) telle que pour tout t ∈ R la v.a Yt =etX soit integrable. i) Montrer que l’application t 7→ E(Yt) est continue. ii)Supposons que pour tout t ∈ R, E(|X|etX) <∞. Demontrer que t 7→ E(etX)est derivable et caluler sa derivee

Solution i) Supposons t fixe. Il suffit de demontrer que pour toute suite tntendant vers t la suite E(etnX) converge vers E(etX). Or, la suite de v.aetnX converge simplement vers etX . Par ailleurs, pour tout n assez grand|etnX | ≤ Z ou Z = e(|t|+1)|X|. Le theoreme de convergence dominee s’appliquea la suite Ytn et on a donc limn→∞E(etnX) = E(etX).

ii) Fixons t. Notons f(t) = E(etX). On doit demontrer que pour toute suitetn tendant vers t la suite

f(tn) − f(t)

tn − t

admet une limite finie. On constate que

f(tn) − f(t)

tn − t= E

(

etnX − etX

tn − t

)

et on applique le theoreme de convergence dominee a la suite Tn = etnX−etX

tn−t.

Il est clair que pour tout ω

limn→∞

etnX(ω) − etX(ω)

tn − t= X(ω)etX(ω).

Par ailleurs, d’apres la formule des accroissements finis, pour tout ω il existetω entre t et tn pour lequel

etnX(ω) − etX(ω)

tn − t= X(ω)etωX(ω);

par consequent pour n assez grand

etnX(ω) − etX(ω)

tn − t

≤ |X(ω)|e(|t|+1)X(ω).

La v.a Z = |X|e(|t|+1)X est par definition P-integrable si bien que les hy-potheses du theoreme de convergence dominee sont satisfaites. On a donc

limn→∞

E

(

etnX(ω) − etX(ω)

tn − t

)

= E(XetX).

Exercice De facon plus generale demontrer que

Page 35: LM345 - Probabilités et Statistiques

2.3. ESPERANCE D’UNE V.A. 35

i) si une v.a Xt depend continuement d’un parametre reel t, c’est-a-dire sipour tout ω ∈ Ω Xt(ω) est continue par rapport a t alors E(Xt) est egalementcontinue par rapport a t pourvu qu’il existe Z ∈ L1(Ω,P) telle que pour toutt, |Xt| ≤ Z ;

ii) si une v.a Xt depend de facon C1 d’un parametre reel t c’est-a-dire sipour tout ω ∈ Ω Xt(ω) est C1 par rapport a t alors E(Xt) est egalement C1

par rapport a t pourvu que qu’il existe Z ∈ L1(Ω,P) telle que pour tout t,∣

dXt(ω)dt

≤ Z et montrer que dans ce cas,

d

dtE(Xt) = E(

dXt

dt).

2.3.4 Formule de transfert

Il est important dans la pratique de savoir caluler des esperances de v.aaleatoires de la forme Y = f(X) ou X : Ω → R est une v.a et f : R → Rest une fonction (disons continue).

Cas des v.a a valeurs dans un ensemble fini

Supposons que X : Ω → R prenne ses valeurs dans un ensemble finiE ⊂ R et soit f : E → R.

Proposition 2.3.2 L’esperance de la variable aleatoire Y = f(X) est donneepar

E(f(X)) =∑

e∈E

f(e)P(X = e).

Demonstration.—

Comme Y = f(X), la v.a Y ne prend qu’un nombre fini de valeurs e′ quisont dans E ′ = f(E). Par definition de l’esperance

E(Y ) =∑

e′∈E′

e′P(Y = e′).

Pour chaque e′ ∈ E ′, notons Ae′ l’ensemble des e ∈ E tels que f(e) = e′

(Ae′ = f−1(e′) et constatons que E ′ est l’union disjointe des Ae′, e′ ∈ E ′.

Page 36: LM345 - Probabilités et Statistiques

36CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

On a donc,

E(Y ) =∑

e′∈E′

e′P(Y = e′)

=∑

e′∈E′

e′P(f(X) = e′)

=∑

e′∈E′

e′P(X ∈ f−1(e′))

=∑

e′∈E′

e′∑

e∈f−1(e′)

P(X = e)

=∑

e′∈E′

e∈f−1(e′)

f(e)P(X = e)

=∑

e∈E

f(e)P(X = e)

= E(X).

2

Corollaire 2.3.1 En particulier,

E(X) =∑

e∈E

eP(X = e).

Remarque sur l’integration des fonctions sur R

Soit X une v.a et µX sa loi. Celle-ci est une probabilite sur l’espace desetats Ω′ = R muni de sa tribu borelienne. Une fonction f : R → R peutetre vue comme une application de Ω′ = R dans R. Cette fonction f seraune variable aleatoire reelle sur Ω′ = R,B′ = Bor(R) si et seulement si pourtout intervalle I de R l’ensemble f−1(I) est dans B′ = Bor(R). Une telleapplication est dite mesurable. En particulier, toute application continue deR dans R est mesurable. Puisque nous avons a notre disposition une pro-babilite µX sur l’espace probabilise (R, Bor(R)) il est naturel de considererl’esperance de f (pour la probabilite µX). Nous la noterons EµX

(f). Biensur, pour quelle soit definie il faut que EµX

(|f |) soit finie et on dit dans ce casque f est µX -integrable. Dans la pratique on prefere noter cette esperancesous la forme d’une integrale :

EµX(f) =

R

f(x)dµX(x).

Page 37: LM345 - Probabilités et Statistiques

2.3. ESPERANCE D’UNE V.A. 37

Quand X admet une densite ρX cette formule devient

EµX(f) =

R

f(x)ρX(x)dx,

et l’integrale coincide, quand f est continue (ou continue par morceaux ouencore Riemann integrable) avec une integrale classique. Pour ce convaicrede ce resultat, considerons le cas ou f est une fonction en escaliers, c’est-a-dire constante sur des intervalles ]ai, b − i] disjoints deux a deux : on af =

∑ri=1 λi1]a−i,bi] et donc

EµX(f) =

r∑

i=1

λiEµX(1[ai,bi]).

Or,

EµX(1[a−i,bi]) = µX(]ai, bi]) =

∫ bi

ai

ρX(x)dx.

On a donc

EµX(f) =

r∑

i=1

∫ bi

ai

f(x)ρX(x)dx

=

R

f(x)ρX(x)dx.

Quand f est continue (ou continue par morceaux) on sait qu’on peut l’ap-procher uniformement par des fonctions en escaliers et il suffit de passer a lalimite dans l’egalite precedente.

Cas des v.a admettant des densites

Dans le cas general des v.a de la forme Y = f(X) ou X : Ω → R est unev.a et f : R → R est continue, la forme generale de la formule de transfertfait intervenir la loi de X. Afin de simplifier notre expose nous ne consideronsque le cas ou la v.a X admet une densite ρX

5

Theoreme 2.3.4 Si X : Ω → R est une v.a admettant une densite ρX etf : R → R est une fonction continue (resp. continue par morceaux, mesu-rable) alors la v.a Y = f(X) est P-integrable si et seulement si l’integrale

5Dans le cas general

E(f(X)) =

R

f(x)dµX(x)

toutes les fois ou l’integrale converge.

Page 38: LM345 - Probabilités et Statistiques

38CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

∫ ∞

−∞|f(x)|ρX(x)dx est finie et dans ce cas l’esperance de Y = f(X) est

donnee par

E(f(X)) =

R

f(x)ρX(x)dx.

Demonstration.—

i) Demontrons la formule quand f prend un nombre fini de valeurs dans unensemble E. La v.a Y = f(X) est donc egalement a valeurs dans un ensemblefini et on d’apres les resultats des deux sous-sections precedentes

E(f(X)) = E(Y ) =∑

e∈E

eP(Y = e)

=∑

e∈E

eP(f(X) = e)

=∑

e∈E

eP(X ∈ f−1(e)

=∑

e∈E

eµX(f−1(e)

=∑

e∈E

eµX(f = e).

On a donc demontre que si f ne prend qu’un nombre fini de valeurs

E(f(X)) = EµX(f).

ii) Considerons le cas ou f est positive. On sait (cf. la section 2.3.2) que sion note hn

hn(·) = n1[n,∞[(·) +

n2n−1∑

k=0

k

2n1[ k

2n , k+12n [(·),

la suite fn = hn f converge simplement vers f et est croissante. De memela suite Xn = fn(X) = hn f(X) converge simplement vers f(X) et estcroissante. Appliquons le theoreme de convergence monotone (ou la definitionde l’esperance)

– d’une part a la suite de v.a (de fonctions) fn definies sur l’espace probabilise(R, Bor(R), µX)

– d’autre part a la suite de v.a Xn = fn(X) definies sur l’espace probabilise(Ω,B,P)

On obtient

– d’une part, limn→∞EµX(fn) = EµX

(f)

– et d’autre part limn→∞E(fn(X)) = E(X).

Page 39: LM345 - Probabilités et Statistiques

2.3. ESPERANCE D’UNE V.A. 39

Or, d’apres i) EµX(fn) = E(fn(X)). Par consequent,

E(f(X)) = EµX(f).

iii) Si f est de signe quelconque, decomposons f = f+−f− ou f+ = max(f, 0)et f− = max(−f, 0). On a

E(f+(X)) = EµX(f+), E(f−(X)) = EµX

(f−),

et donc E(|f(X)|) = EµX(|f |). Ainsi, f(X) est P-integrable si et seulement

si f est µX integrable c’est-a-dire si et seulement si∫

R|f(x)|ρX(x)dx < ∞

et quand c’est le casE(f(X)) = EµX

(f),

c’est-a-dire

E(f(X)) =

R

f(x)ρX(x)dx,

2

Corollaire 2.3.2 En particulier, si la v.a X admet une densite ρX , X estL1(Ω,P) si et seulement si

∫ ∞

−∞|x|ρX(x)dx <∞ et dans ce cas

E(X) =

∫ ∞

−∞

xρX(x)dx.

Signalons, sans demonstration, la reciproque suivante au theoreme 2.3.4

Theoreme 2.3.5 Si X est une v.a telle que pour toute fonction continuebornee φ : R → R on a

E(φ(X)) =

∫ ∞

−∞

φ(x)ρX(x)dx,

alors X admet ρX pour densite.

Exemple Soit X une v.a suivant une loi normale centree reduite : Une telleloi admet une densite

1√2πe−x2/2.

Comme

E(|X|) =1√2π

∫ ∞

−∞

|x|e−x2/2dx

Page 40: LM345 - Probabilités et Statistiques

40CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

est finie X est dans L1(Ω,P). L’esperance de X est donc definie et vaut

E(X) =

∫ ∞

−∞

x1√2πe−x2/2dx.

Il s’agit de l’integrale d’une fonction integrable, impaire sur un intervallesymetrique : cette integrale est donc nulle.

Exercice Calculer E(Y ) ou Y = X2 est le carre d’une v.a suivant une loinormale centree reduite.

Solution On a

E(X2) =1√2π

∫ ∞

−∞

x2e−x2/2dx

=1√2π

∫ ∞

−∞

x(xe−x2/2)dx

=1√2π

∫ ∞

−∞

xd

dx(−e−x2/2)dx

=1√2π

∫ ∞

−∞

e−x2/2dx

= 1

(on a effectue une integration par parties).

2.3.5 Application au calcul de densite

Le probleme qui nous interesse dans cette section est le suivant : Etantdonnee une v.a X dont on connait la densite ρX , determiner la densite, sielle existe de la v.a Y = f(X), ou f est une fonction continue de R dans R.

Supposons que Y admette une densite ρY . On doit alors avoir pour toutefonction continue φ : R → R

E(φ(Y )) =

∫ ∞

−∞

φ(y)ρY (y)dy.

Mais φ(Y ) = φ(f(X)) = φ f(X) et on a donc,

E(φ(Y )) = E(φ f(X)) =

∫ ∞

−∞

φ f(x)ρX(x)dx.

Supposons que φ soit une bijection derivable de R dans R envoyant R surR. La formule classique de changement de variable montre que (x = φ−1(y),dx = 1/φ′(f−1(y))dy)

∫ ∞

−∞

φ f(x)ρX(x)dx =

∫ ∞

−∞

φ(y)1

|φ′(f−1(y))|ρX(f−1(y))dy.

Page 41: LM345 - Probabilités et Statistiques

2.3. ESPERANCE D’UNE V.A. 41

En conclusion, pour toute fonction φ continue de R → R

∫ ∞

−∞

φ(y)ρY (y)dy =

∫ ∞

−∞

φ(y)1

|φ′(f−1(y))|ρX(f−1(y))dy

et il est naturel de penser que

ρY (y) =1

|φ′(f−1(y))|ρX(f−1(y)),

ce qui est effectivement le cas. Le theoreme 2.3.5 justifie le raisonnementprecedent.

On pourrait demontrer de la meme maniere :

Theoreme 2.3.6 Soient X une v.a de densite ρX prennant ses valeurs dansun intervalle I (fini ou infini) et f : I → J est une application de classe C1

pas necessairement bijective mais telle que tout point y ∈ J ait un nombre finid’antecedents. Alors, la v.a Y = f(X) admet une densite ρY dont l’expressionest donnee par

ρY (y) =∑

x∈f−1(y)

ρX(x)

|f ′(x)| · 1J .

L’expression precedente peut prendre la valeur ∞ mais la fonction positiveρY restera d’integrale 1.

Appliquons ce qui precede a un exemple.

Exercice Supposons que X admette une densite ρX . Determiner la densite,si elle existe de Y = X2. Application au cas ou X suit une loi normaleN(0, 1).

Solution On a Y = f(X) ou f(x) = x2 est une bijection de I− =]−∞, 0[ sur]0,∞[ et de I+ =]0,∞[ sur ]0,∞[ (f est une fonction continue strictementdecroissante sur I− =] − ∞, 0] et strictement croissante sur I+ = [0,∞[.)Pour toute fonction φ : R → R continue et bornee

E(φ(Y )) = E(φ f(X)) =

∫ ∞

−∞

φ(f(x))ρX(x)dx.

Ecrivons,

∫ ∞

−∞

φ(f(x))ρX(x)dx =

∫ 0

−∞

φ(x2)ρX(x)dx+

∫ ∞

0

φ(x2)ρX(x)dx

Page 42: LM345 - Probabilités et Statistiques

42CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

et effectuons dans chacune des integrales du membre de droite le changementde variable y = x2 :

∫ 0

−∞

φ(x2)ρX(x)dx =

∫ ∞

0

φ(y)ρ(−√y)

dy

2√y,

∫ ∞

0

φ(x2)ρX(x)dx =

∫ ∞

0

φ(y)ρ(√y)

dy

2√y,

si bien que

E(φ(Y )) =

∫ ∞

0

φ(y)

(

ρ(−√y) + ρ(

√y)

)

1

2√ydy

=

R

φ(y)

(

ρ(−√y) + ρ(

√y)

)

1

2√y.1]0,∞[(y)dy

et comme cette formule est vraie pour toute fonction φ : R → R continuebornee, on peut conclure que Y admet une densite ρY egale a

ρY (y) =

(

ρ(−√y) + ρ(

√y)

)

1

2√y.1]0,∞[(y).

(Ne pas oublier le terme 1]0,∞[(y).)

Si X suit une loi normale N(0, 1) sa densite est ρX(x) = (1/√

2π)e−(x2/2)

et la densite de Y = X2 vaut

ρY (y) =1√2π

e−y

√y1]0,∞[(y).

Exercice Si X suit une loi normale centree reduite, determiner la loi deY = σX + µ.

Solution On a Y = f(X) ou f(x) = ax+ b. C’est une bijection C1 de R surR. La formule du theoreme ?? montre donc que la denstite de Y est

1√2πσ2

e−(x−µ)2/2σ2

,

c’est-a-dire est une loi N(0, σ2).

2.4 Espaces L2, variance et Bienayme-Tchebychev

Definition 2.4.1 On dit qu’une v.a X est dans L2(Ω,B,P) si son carre estP-integrable,

E(|X|2) <∞.

Page 43: LM345 - Probabilités et Statistiques

2.4. ESPACES L2, VARIANCE ET BIENAYME-TCHEBYCHEV 43

Les proprietes des fonctions de carres integrables sont les suivantes :

Theoreme 2.4.1 a) (Cauchy-Schwarz) Si X et Y sont dans L2(Ω,P) alorsle produit X · Y est dans L1(Ω,P) et on a

E(|X · Y |) ≤ E(|X|2)1/2 · E(|Y |2)1/2.

En outre, l’inegalite precedente est une egalite si et seulement si il existeun reel λ tel que P-presque surement Y = λX ou X = λY (X et Y sontcolineaires). b) (Minkowski) L’espace L2(Ω,P) est un R-espace vectoriel et

on a

E(|X + Y |2)1/2 ≤ E(|X|2)1/2 + E(|Y |2)1/2.

Demonstration.—

a) Rappelons que pour tous reels a, b on a |a · b| ≤ (1/2)(a2 + b2). Parconsequent, |X · Y | ≤ (1/2)(X2 + Y 2) et en prenant l’ esperance de chaquemembre de l’inegalite on obtient

E(|X · Y |) ≤ 1

2(E(X2) + E(Y 2)),

ce qui demontre que X · Y est integrable.

Supposons E(X2) 6= 0 et considerons pour t reel la quantite suivante quiest clairement toujours positive ou nulle (esperance d’un carre) :

E((tX + Y )2) = E(X2)t2 + 2E(X · Y )t+ E(Y 2).

(Si E(X2) = 0 et E(Y 2) 6= 0 on echange X et Y ; si E(X2) = E(Y 2) = 0 il n’ya rien a demontrer carX et Y sont nulles P-ps). Vue comme fonction de t c’estun polynome quadratique si E(X2) 6= 0. Comme il ne prend que des valeurspositives ou nulles son discriminant ∆ = 4(E(X ·Y )2−E(X2)E(Y 2)) doit etrenegatif ou nul (sinon ce polynome admettrait deux racines reelles distincteset serait strictement negatif entre les racines). Ceci n’est rien d’autre quel’inegalite annoncee.

L’egalite a lieu si et seulement si le discriminant s’annule. Or, dans ce casle polynome quadratique E((tX + Y )2) admet une racine reelle t0 (et uneseule). On a donc E(t0X+Y ) = 0 ce qui signifie que t0X+Y = 0 P-presquesurement.

b) Il suffit de demontrer que E((X+Y )2) est finie si E(X2) et E(Y 2) le sont.Or,

E((X + Y )2) = E(X2) + 2E(X · Y ) + E(Y 2),

Page 44: LM345 - Probabilités et Statistiques

44CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

et comme E(X · Y ) ≤ E(X2)1/2E(Y 2)1/2 on a

E((X+Y )2) ≤ E(X2)+2E(X2)1/2E(Y 2)1/2+E(Y 2) =

(

E(|X|2)1/2+E(|Y |2)1/2

)2

,

ce qui demontre b).

2

2.4.1 Variance

Si X est dans L2(Ω,P) la v.a X − E(X) est egalement dans L2(Ω,P)puisque c’est une somme de deux v.a de L2(Ω,P) (une v.a constante esttoujours dans L2(Ω,P)).

Definition 2.4.2 La variance d’une v.a dans L2(Ω,P) est la quantite E(|X−E(X)|2). La racine carree de ce nombre s’appelle l’ecart-type de X.

La variance est donc la moyenne (l’esperance) des carres des ecarts de Xpar rapport a E(X).

Le calcul suivant

E(|X − E(X)|2) = E(X2 − 2XE(X) + E(X)2)

= E(X2) − 2E(X)2 + E(X)2

= E(X2) − E(X)2

demontre

Proposition 2.4.1 Si X ∈ L2(Ω,P), on a V ar(X) = E(X2) −E(X)2.

Remarque De facon plus generale on peut definir pour tout p ≥ 1 l’espaceLp(Ω,P) des v.a X dont le moment d’ordre p est fini c’est-a-dire telles queE(|X|p) <∞. Ce sont encore des espaces vectoriels et la quantite E(|X|p)1/p

definit une (semi-)norme sur Lp(Ω,P) qui en fait un espace de Banach (unespace vectoriel norme complet).

2.4.2 Calculs de variance

Cas des v.a a valeurs dans N,

Un outil tres utile pour calculer les moments d’ordre p d’une v.a a valeursdans N est d’introduire la fonction generatice de X.

Page 45: LM345 - Probabilités et Statistiques

2.4. ESPACES L2, VARIANCE ET BIENAYME-TCHEBYCHEV 45

Definition 2.4.3 La fonction generatrice d’une v.a X a valeurs dans N estla fonction definie par

φX(t) = E(tX)

=∑

k∈N

tkP(X = k).

L’interet de φX reside dans la proposition suivante :

Proposition 2.4.2 On a toujours

limt→1,t<1

d

dtφX(t) = E(X)

et de facon plus generale

limt→1,t<1

dp

dtpφX(t) = E(X(X − 1) · · · (X − p+ 1)).

Demonstration.—Afin de simplifier la demonstration nous supposerons que X ne prend

qu’un nombre fini de valeurs dans 0, 1, . . .N. Il suffit de calculer

dp

dtp

( N∑

k=0

tkP(X = k)

)

=N

k=0

k(k − 1) · · · (k − p+ 1)tk−pP(X = k)

En faisant t = 1 on obtient le resultat d’apres la formule de transfert.Dans le cas general ou X prend ses valeurs dans N on peut proceder de

la facon suivante : pour 0 ≤ t < 1,

dp

dtp

( ∞∑

k=0

tkP(X = k)

)

=

∞∑

k=0

k(k − 1) · · · (k − p+ 1)tk−pP(X = k),

car les series sont uniformement convergentes. La serie du membre de droiteconverge quand t → 1− vers

∑∞k=0 k(k − 1) · · · (k − p + 1)P(X = k) d’apres

le theoreme de convergence monotone et cette quantite egale E(X · · · (X −p+ 1)) d’apres le theoreme de transfert.

2

Le calcul de la variance est alors clair puisque

V ar(X) = E(X2) − E(X)2

= E(X(X − 1)) + E(X) −E(X)2

= φ′′X(1) + φ′

X(1) − (φ′X(1))2.

Page 46: LM345 - Probabilités et Statistiques

46CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

Loi geometrique Dans ce cas X prend ses valeurs dans N et P (X = k) =(1 − a)ak (0 ≤ a < 1). Ainsi

φX(t) = (1 − a)∞

k=0

tkak = (1 − a)1

1 − ta,

pourvu que 0 ≤ t < a−1. On a

φ′X(t) = a

1 − a

(1 − ta)2, φ′′

X(t) = 2a2 1 − a

(1 − ta)3,

et donc

E(X) =a

1 − a, V ar(X) =

a

(1 − a)2.

Loi binomiale Si la v.a X suit une loi (p, n) elle prend ses valeurs dans0, 1, . . . , n et P(X = k) =

(

nk

)

pk(1 − p)n−k. On a

φX(t) =n

k=0

(

n

k

)

tkpk(1 − p)n−k = (tp + 1 − p)n,

si bien que

φ′X(t) = pn(tp+ 1 − p)n−1, φ′′

X(t) = p2n(n− 1)(tp+ 1 − p)n−2,

et donc

E(X) = np, V ar(X) = np(1 − p).

Loi de Poisson Si la v.a X suit une loi de Poisson de parametre λ, elleprend ses valeurs dans N et P(X = k) = e−λ λk

k!. Il vient

φX(t) = e−λ

∞∑

k=0

tkλk 1

k!= e−λetλ = e(t−1)λ.

Ainsi,

φ′X(t) = λe(t−1)λ, φ′′

X(t) = λ2e(t−1)λ,

et donc

E(X) = λ, V ar(X) = λ.

Page 47: LM345 - Probabilités et Statistiques

2.4. ESPACES L2, VARIANCE ET BIENAYME-TCHEBYCHEV 47

Cas des v.a admettant une densite

Si X est une v.a admettant une densite ρX , alors d’apres la formule detransfert, X est dans L2(Ω,P) si et seulement si

E(X2) =

∫ ∞

−∞

x2ρX(x)dx,

est finie.

Loi uniforme La variable aleatoire X : Ω → R suit une loi uniforme surl’intervalle [a, b] si sa densite est donnee par

ρX(x) =1

b− a· 1[a,b](x).

On a

E(X) =

R

x · 1

b− a· 1[a,b](x)dx

=1

b− a

∫ b

a

xdx

=1

b− a[x2

2]ba

=a+ b

2,

ce qui est conforme a l’intuition : la position en moyenne d’un point jete auhasard sur l’intervalle (a, b) sera situee au milieu de l’intervalle (a, b).

Calculons la variance

E(X2) =

R

x2 · 1

b− a· 1[a,b](x)dx

=1

b− a

∫ b

a

x2dx

=1

b− a

b3 − a3

b− a

=a2 + b2 + ab

3,

(b3 − a3 = (b− a)(b2 + ab+ a2)) et donc

V ar(X) = E(X2) − E(X) =a2 + b2 + ab

3−

(

a+ b

2

)2

=(b− a)2

12.

Page 48: LM345 - Probabilités et Statistiques

48CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

Loi exponentielle de parametre θ La v.a admet une densite

ρX(x) = θe−θx1[0,∞[(x).

On a

E(X) =

∫ ∞

−∞

xθe−θx1[0,∞[(x)dx

=

∫ ∞

0

xθe−θxdx

=1

θ

∫ ∞

0

ue−udu

=1

θ,

(apres changement de variable et integration par parties). Le moment d’ordre2 s’obtient de facon analogue,

E(X2) =

∫ ∞

0

x2θe−θxdx

=1

θ

∫ ∞

0

ue−udu

=2

θ2,

(apres changement de variable et deux integrations par parties). On a donc

V ar(X) = E(X2) − E(X)2 =1

θ2.

Loi normale N(µ, σ2) On sait (cf. l’exercice de la section 2.3.5) que si Ysuit une loi N(µ, σ2) alors elle est de la forme σX + µ ou X suit une loinormale N(0, 1) de densite

1√2πe−x2/2.

On sait que pour une telle loi, E(X) = 0 et V ar(X) = 1. Par consequent,E(Y ) = σE(X) + µ = µ et V ar(Y ) = σ2V ar(X) = σ2.

2.4.3 Inegalite de Markov et de Bienayme-Tchebychev

L’interet de considerer les moments d’une v.a X reside dans les proposi-tions suivantes.

Page 49: LM345 - Probabilités et Statistiques

2.4. ESPACES L2, VARIANCE ET BIENAYME-TCHEBYCHEV 49

Proposition 2.4.3 Si X est une v.a dans L1(Ω,P) on a pour tout λ > 0

P(|X| > λ) ≤ E(|X|)λ

.

Demonstration.— La v.a |X| peut secrire

|X| = |X| · 1|X|>λ + |X| · 1|X|≤λ,

et par additivite et positivite de l’esperance on a

E(|X|) ≥ E(|X| · 1|X|>λ).

Or,|X| · 1|X|>λ ≥ λ · 1|X|>λ,

et par consequentE(|X|) ≥ λE(1|X|>λ),

c’est-a-direE(|X|) ≥ λP(|X|〉λ,

ce qui est la conclusion de la proposition.

2

La proposition precedente est une version quantitative du fait que la proba-bilite que X prenne de grandes valeurs a tendance a etre petite.

Si on a des informations sur les moments d’ordre superieurs l’estimationprecedente est meilleure :

Proposition 2.4.4 Si X est une v.a dans L2(Ω,P) on a pour tout λ > 0

P(|X| > λ) ≤ E(|X|2)λ2

.

Demonstration.—Il suffit de remarquer que X > λ = X2 > λ2 et d’appliquer la

proposition precedente a la v.a Y = X2.

2

Appliquee a la v.a Y = X − E(X) la proposition precedente donne letheoreme de Bienayme-Tchebychev :

Theoreme 2.4.2 Si X est une v.a dans L2(Ω,P) on a pour tout λ > 0

P(|X − E(X)| > λ) ≤ V ar(|X|)λ2

.

Page 50: LM345 - Probabilités et Statistiques

50CHAPITRE 2. ESPACES PROBABILISES ET VARIABLES ALEATOIRES

Si on note σ =√

V ar(X) l’ecart type on a donc

P(|X − E(X)| > λσ) <1

λ2,

(d’ou le nom d’ecart type donne a σ)

Le theoreme de Bienayme-Tchebychev permet d’obtenir les probabilites desdeviations importantes de la v.a X par rapport a sa moyenne.

Page 51: LM345 - Probabilités et Statistiques

Chapitre 3

Vecteurs aleatoires etIndependance

3.1 Vecteurs aleatoires

3.1.1 Tribu borelienne de Rm

Rappelons qu’un ouvert de Rm est un ensemble U tel que pour tout pointx de U on peut trouver une boule ouverte de centre x et de rayon ε > 0,B(x, ε) incluse dans U . Par exemple, un pave ouvert de Rm, c’est-a-dire unproduit de m intervalles ouverts (de R) ]a1, b1[× · · ·×]am, bm[ est un ouvertde Rm.

Definition 3.1.1 La tribu borelienne de Rm est la plus petite tribu contenantles ouverts de Rm. Nous la noterons Bor(Rm). C’est egalement la plus petitetribu contenant les paves ouverts.

Le dernier point de la definition precedente merite un commentaire. Pourle justifier il suffit de demontrer (exercice : pourquoi ?) que tout ouvertde Rm peut s’ecrire comme union denombrable de paves ouverts. Ceci sedemontre par exemple de la facon suivante. Considerons les paves P de laforme ]a1, b1[× · · ·×]am, bm[ ou tous les ai, bi sont rationnels (i.e tous les som-mets de P sont a coordonnees rationnelles) et tels que P ⊂ U . L’ensembleQ de ces paves est denombrable et ∪P∈QP est egale a U . En effet, il est clairque cette union est incluse dans U et d’autre part, si y est un point de U ,il existe une boule B(y, ε) incluse dans U . Il n’est pas difficile de voir qu’onpeut trouver un pave P ∈ Q qui contient y et est inclus dans B(y, ε) doncdans U : ceci demontre l’inclusion reciproque.

51

Page 52: LM345 - Probabilités et Statistiques

52 CHAPITRE 3. VECTEURS ALEATOIRES ET INDEPENDANCE

3.1.2 Vecteurs aleatoires

Definition 3.1.2 Un vecteur aleatoire X est une application de X : Ω →Rm telle que pour tout borelien A ∈ Bor(Rm), X−1(A) ∈ B.

D’apres ce qui a ete dit precedemment,

Proposition 3.1.1 Les propositions suivantes sont equivalentes :

a) l’application X : Ω → Rm est un vecteur aleatoire

b) pour tout ouvert U de Rm, X−1(U) ∈ B.

c) pour tout pave ouvert P =]a1, b1[× · · ·×]am, bm[ l’ensemble X−1(P ) ∈ Bd) les composantes Xi, 1 ≤ i ≤ m de X = (X1, . . . , Xm) sont des variablesaleatoires.

Demonstration.—Il est evident que a) implique b) implique c) et d’apres les proprietes

des variables aleatoires que c) est equivalent a d). Il ne reste donc plus qu’ademontrer que c) implique b) et b) implique a). Comme tout ouvert est uniondenombrable de pave ouvert c) implique b). D’autre part, soit C l’ensembledes A ⊂ Rm tels que X−1(A) ∈ B. Cet ensemble C est une tribu est contientles ouverts ; par consequent C contient Bor(Rm), ce qui demontre que b)implique a).

2

Le point d) de la proposition precedente montre en particulier que

Proposition 3.1.2 a) Si X : Ω → Rm et Y : Ω → Rm sont des vecteursaleatoires alors λX + µY est egalement un vecteur aleatoire.

b) Si f : Rp → Rm est une application continue et X = (X1, . . . , Xp) estun vecteur aleatoire alors Y = (Y1, . . . , Ym) = f(X1, . . . , Xp) est un vecteuraleatoire.

3.1.3 Loi d’un vecteur aleatoire

De la meme facon que pour les variables aleatoires on peut definir laloi d’un vecteur aleatoire X = (X1, . . . , Xm) comme etant une mesure deprobabilite sur (Rm, Bor(Rm)). C’est la mesure definie par :

∀A ∈ Bor(Rm), µX(A) = P(X ∈ A).

Donnons quelques exemples :

Page 53: LM345 - Probabilités et Statistiques

3.1. VECTEURS ALEATOIRES 53

Vecteurs aleatoires ne prennant qu’un nombre fini ou denombrablede valeurs Si X = (X1, . . . , Xm) ne prend qu’un nombre fini de valeursdans E1 × · · · × Em la loi de X est determinee par P (X1 = e1, . . . , Xm =em). En d’autres termes, si on connait tous les reels pX(e1, . . . , em), e1 ∈E1, . . . em ∈ Em on peut determiner la probablite de tout evenement X ∈ A :

P((X1, . . . , Xm) ∈ A) =∑

(e1,...,em)∈A

pX(e1, . . . , em).

Vecteurs aleatoires admettant une densite On dit que le vecteuraleatoire X = (X1, . . . , Xm) admet une densite ρX : Rm → R si pour tousintervalles I1, . . . , Im P(X ∈ I1 × · · ·× Im) = P(X1 ∈ I1, . . . , Xm ∈ Im) egale

I1×...×Im

ρX(x1, . . . , xm).

3.1.4 Marginales

Les lois µX1, . . . , µXm

associees aux variables aleatoiresX1, . . . , Xm (definiescomme d’habitude par µXi

(A) = P(Xi ∈ A)) sont appelees les lois marginalesdu vecteur X.

Cas des vecteurs aleatoires a valeurs dans un ensemble fini oudenombrable Si X = (X1, . . . , Xm) prend ses valeurs dans E1 × · · · ×Em

la loi de X1 (plus generalement de Xi) s’exprime de facon simple en fonctionde la loi de X. En effet,

P(X1 = e1) = P(X1 = e1, X2 ∈ E2, . . . , Xm ∈ Em)

=∑

e2∈E2,...em∈Em

P(X1 = e1, X2 = e2, . . . , Xm = em)

=∑

e2∈E2,...em∈Em

pX(e1, e2, . . . , em).

Cas des vecteurs aleatoires admettant des densites Dans le cas desvecteurs aleatoires admettant des densites on a le reesultat suivant

Proposition 3.1.3 Si le vecteur aleatoire X = (X1, . . . , Xm) admet unedensite ρ(x1, . . . , xm) alors les marginales Xi admettent une densite ρXi

(xi).qui est obtenue en integrant ρX(x1, . . . , xm) par rapport aux variables xj (cha-cune integree sur R) a l’exception de xi :

ρXi(xi) =

R

· · ·∫

R

ρX(x1, . . . , xi−1, xi, xi+1, . . . , xm)dx1, . . . dxi−1dxi+1, . . . dxm.

Page 54: LM345 - Probabilités et Statistiques

54 CHAPITRE 3. VECTEURS ALEATOIRES ET INDEPENDANCE

Demonstration.—Pour simplifier les notations demontrons le dans le cas i = 1 : pour tout

intervalle I1 ⊂ R

µX1(I1) = P(X1 ∈ I1)

= P(X1 ∈ I1, X2 ∈ R, . . . , Xm ∈ R)

= P((X1, X2, . . . , Xm) ∈ I1 × R · · · × R)

=

R

· · ·∫

R

ρX(x1, . . . , xm)dx2 . . . dxm.

2

3.1.5 Esperance et variance des vecteurs aleatoires

Esperance On definit l’esperance de X = (X1, . . . , Xm) comme etant levecteur de Rm egal a (E(X1), . . . , E(Xm)) qui est bien defini quand chaquecomposante Xi de X est integrable ou, ce qui est equivalent, quand E(|X|) <∞.

Variance De meme les composantes Xi deX sont de carres integrables si etseulement si la norme de X, ‖X‖ =

X21 + · · ·+X2

m est de carre integrable.On definit alors la variance de X comme etant le reel positif ou nul

V ar(X) = E(‖X − E(X)‖2)

et un calul simple montre que

V ar(X) = E(‖X‖2) − ‖E(X)‖2.

Covariance Si X et Y sont deux variables aleatoires de carre integrables,X − E(X) et Y − E(Y ) sont de carre integrables (Minkowski) et d’apresCauchy-Scwharz le produit (X − E(X))(Y − E(Y )) est integrable.

Definition 3.1.3 Si X et Y sont deux variables aleatoires de carre integrableon definit la covariance de X et Y comme etant le reel

Cov(X, Y ) = E

(

(X −E(X))(Y − E(Y )

)

.

On a l’egaliteCov(X, Y ) = E(X · Y ) − E(X)E(Y ).

Page 55: LM345 - Probabilités et Statistiques

3.1. VECTEURS ALEATOIRES 55

La derniere egalite se demontre tres facilement coome suit :

E

(

(X − E(X))(Y − E(Y )

)

= E

(

XY − E(X)Y −XE(Y ) + E(X)E(Y )

)

= E(XY ) − 2E(X)E(Y ) + E(X)E(Y )

= E(XY ) −E(X)E(Y ).

Notons que Cov(X,X) = V ar(X).On definit pour des raisons pratiques le coefficient de correlation de deux

variables aleatoires X et Y de variance non nulles de la facon suivante :

cor(X, Y ) =Cov(X, Y )

V ar(X)√

V ar(Y ).

Proposition 3.1.4 Si X, Y sont deux v.a de carre integrable et de variancenon nulle, on a

−1 ≤ cor(X, Y ) ≤ 1,

et si cor(X, Y ) = ±1 alors il existe des reels a, b tels que Y = aX + b ouX = aY + b (X et Y sont liees par une relation affine).

Demonstration.—Ceci resulte de Cauchy-Schwarz : si on pose X = X−E(X), Y = Y−E(Y )

on a

|cov(X, Y )| = |E(XY )| ≤ E(X2)1/2E(Y 2)1/2 =√

V ar(X)√

V ar(Y ),

ce qui est l’inegalite annoncee. Par ailleurs l’egalite a lieu dans l’inegaliteprecedente si et seulement si (cas d’egalite dans Cauchy-Scwharz) X−E(X)et Y −E(Y ) sont colineaires. Or ceci est equivalent a l’existence d’une relationaffine entre X et Y . En effet, s’il existe a tel que X −E(X) = a(Y −E(Y ))ou Y − E(Y ) = a(X − E(X)) on a X = aY + b ou Y = aX + b avecb = E(X) − aE(Y ) ou b = E(Y ) − aE(X). Reciproquement, si Y = aX + bon a E(Y ) = aE(X) + b et donc Y −E(Y ) = a(X −E(X)).

2

Le coefficient de correlation admet une interpretation geometrique tres simple.Sur l’espace L2(Ω,P) on peut definir un produit scalaire : pour deux variablesaleatoires U , V de carres integrables, la quantite E(UV ) est le produit sca-laire de U et V . En dimension finie, on sait que le produit scalaire de deuxvecteurs u et v peut s’ecrire (u, v) = ‖u‖‖v‖ cosα ou α est l’angle fait parles deux vecteurs u et v (le fait que | cosα| ≤ 1 est une manifestation deCauchy-Scwharz). Ainsi, le coefficient de correlation represente le cosinus del’angle fait par U, V (disons dans le 2-plan engendre par U, V ).

Page 56: LM345 - Probabilités et Statistiques

56 CHAPITRE 3. VECTEURS ALEATOIRES ET INDEPENDANCE

Revenons au cas ou X = (X1, . . . , Xm) est un vecteur aleatoire de carreintegrable. On peut definir pour tous 1 ≤ i, j ≤ m la covariance de Xi, Xj,Cov(Xi, Xj). L’ensemble de cesm×m nombres forme une matrice (symetrique)dont le coefficient (i, j) est Cov(Xi, Xj) que l’on appelle la matrice de cova-riance des v.a X1, . . . , Xm et que l’on note ***

3.1.6 Formule de transfert

Etant donne un vecteur aleatoire X = (X1, . . . , Xm) et

f : Rm → Rp

(x1, . . . , xm) 7→ (f1(x1, . . . , xm), . . . , fp(x1, . . . , xm))

une application continue, on cherche a calculer l’esperance de Y = f(X)c’est-a-dire que l’on veut calculer le vecteur E(Y ) = (E(Y1), . . . , E(Yp)) ouYj = fj(X1, . . . , Xm). Le probleme se ramene donc au suivant : etant donneX = (X1, . . . , Xm) un vecteur aleatoire calculer E(φ(X1, . . . , Xm)) ou φ estune application de Rm dans R. Ce probleme se resout de la meme faconque dans le cas m = 1 (variables aleatoires). Nous donnons les resultats sansdemonstration (les preuves sont identiques a celles du cas m = 1).

Cas de Vecteurs aleatoires a valeurs dans ensembles finis ou denombrablesSi X = (X1, . . . , Xm) prend ses valeurs dans E1 × · · · × Em on a

E(φ(X1, . . . , Xm)) =∑

e1∈E1,...,em∈Em

φ(e1, . . . , em)P(X1 = e1, . . . , Xm = em).

Cas de Vecteurs aleatoires admettant une densite Si le vecteur aleatoireX = (X1, . . . , Xm) admet une densite ρ(x1, . . . , xm) on a

E(φ(X1, . . . , Xm)) =

R

· · ·∫

R

φ(x1, . . . , xm)ρX(x1, . . . , xm)dx1 · · · dxm.

3.1.7 Calcul de densite de vecteurs aleatoires

Etant donne un vecteur aleatoire X = (X1, . . . , Xm) admettant une den-site ρX(x1, . . . , xm) et

f : Rm → Rp

(x1, . . . , xm) 7→ (f1(x1, . . . , xm), . . . , fp(x1, . . . , xm))

une application de classe C1, on cherche a determiner si Y admet une densiteet si oui laquelle. Il faut distinguer trois cas suivant que m = p, m > p oum < p.

Page 57: LM345 - Probabilités et Statistiques

3.1. VECTEURS ALEATOIRES 57

Cas ou m = p Nous avons deja traite ce cas quand m = p = 1 (variablesaleatoires) et nous avions alors fait usage du theoreme de changement devariables. Nous enoncons une version generale du theoreme de changementde variables quand m = p est plus grand que 1.

Theoreme 3.1.1 (Changement de variables) Soient U et V deux ou-verts de Rm et f : U → V une application bijective de U sur V et de classeC1 (on dit que f est un diffeomorphisme de U sur V ). Pour toute applicationφ : V → R dont le module est d’integrale finie sur Rm

V

φ(y1, . . . , ym)dy1 · · · dym =∫

U

φ(f1(x1, . . . , xm), · · · , fm(x1, . . . , xm))|Jacf(x1, . . . , xm)|dx1 · · · dxm.

ou Jacf(x) est le jacobien de f au point x c’est-a-dire le determinant de lamatrice jacobienne de f qui est une matrice m×m et admet pour coefficient(i, j) le terme ∂fi/∂xj(x1, . . . , xm).1

A l’aide de ce theoreme, calculons E(φ(Y )) ou φ : Rm → R est une appli-cation continue bornee d’un ouvert U sur R et ou f est un diffeomorphismede U sur un ouvert V de Rm. Supposons en outre que X prenne ses va-leurs dans U (ce qui implique que ρX est nulle en dehors de U). On aE(φ(Y )) = E(φ f(X)) et d’apres la formule de transfert

E(φ(Y )) = E(φ f(X)) =

U

φ f(x1, . . . , xm)ρX(x1, . . . xm)dx1 · · · dxm

ce qu’on peut ecrire

E(φ(Y )) =

U

φ(f(x))ρX f−1(f(x))dx1 · · · dxm

ou encore

E(φ(Y )) =

U

φ(f(x))ρX f−1(f(x))|(Jacf) f−1(f(x))||(Jacf) f−1(f(x))|dx1 · · · dxm.

La formule du changement de variable appliquee a ψ(x) = φ(x)ρXf−1(Jacf)f−1(x) donne

E(φ(Y )) =

V

φ(y)ρX f−1(y)

|(Jacf) f−1(y)|dy1 · · · dym

1Une facon de retenir ce theoreme est la suivante : on fait le changement de variabley = f(x) dans l’integrale precedente, on modifie les bornes d’integration en consequenceet on observe que l’element differentiel dy devient dy = (dy/dx)dx, (dy/dx) etant la valeurabsolue du jacobien.

Page 58: LM345 - Probabilités et Statistiques

58 CHAPITRE 3. VECTEURS ALEATOIRES ET INDEPENDANCE

Ceci etant vrai pour toute fonction continue bornee Y = f(X) admet unedensite et qui vaut

ρY (y1, . . . , ym) =ρX f−1(y)

|(Jacf) f−1(y)| · 1V .

On peut generaliser un peu plus ce theoreme : dans la pratique, il estsouvent possible de trouver une partition (union disjointe) de l’ensemblex : ρX(x) > 0 (ouvert si ρX est continue) en une union finie (ou memedenombrable) d’ouverts Ui, x : ρX(x) > 0 = ∪d

i=1Ui, tels que f soit injec-tive sur chaque Ui . Ainsi f est une bijection de chaque ouvert Ui sur sonimage Vi. On a alors

E(φ(Y )) = E(φ f(X))

U

φ f(x1, . . . , xm)ρX(x1, . . . xm)dx1 · · · dxm

ce qu’on peut ecrire

E(φ(Y )) =

d∑

i=1

Ui

φ(f(x))ρX f−1(f(x))dx1 · · · dxm.

Apres changement de variable dans chacune des integrales precedentes onobtient

E(φ(Y )) =d

i=1

Vi

φ(y)ρX f−1(y)

|(Jacf) f−1(y)|dy1 · · · dym

ou encore

E(φ(Y )) =

Rm

φ(y)

( d∑

i=1

ρX f−1(y)

|(Jacf) f−1(y)|1Vi(y)

)

dy1 · · · dym.

Le theoreme 3.1.1 montre donc que

ρY (y1, . . . , ym) =

d∑

i=1

ρX f−1(y1, . . . , ym)

|(Jacf) f−1(y1, . . . , ym))|1Vi(y1, . . . , ym).

Cas ou m > p Afin de simplifier les notations, nous traiterons le cas oum = 2 et p = 1. Soient donc X = (X1, X2) un vecteur aleatoire de R2 quiadmet une densite ρX(x1, x2) et f : R2 → R une application differentiable.On cherche a determiner, si elle existe, la densite de la v.a Y = f(X1, X2).L’idee pour cela est d’introduire un vecteur aleatoire Z qui est de la forme

Page 59: LM345 - Probabilités et Statistiques

3.1. VECTEURS ALEATOIRES 59

Z = (Y,X2) et d’etablir qu’il admet une densite ρZ(y, x2). On saura alorsque Y admet une densite ρY (y) egale a (cf. section 3.1.4

ρY (y) =

∫ ∞

−∞

ρZ(y, x2)dx2.

Le vecteur aleatoire Z peut s’ecrire Z = F (X) ou F est l’application deR2 → R2 definie par

F (x1, x2) = (f(x1, x2), x2).

Sa matrice jacobienne est

(

∂f∂x1

(x1, x2)∂f∂x2

(x1, x2)

0 1

)

et son jacobien (le determinant de la matrice jacobienne) vaut ∂f∂x1

(x1, x2).D’apres ce qui a ete fait dans la section precedente, s’il existe une partitionfinie de l’ensemble (x1, x2) ∈ R2 : ρX(x1, x2) > 0 en ouverts U1, . . . , Uf telsque F soit injective sur chaque Ui, on peut dire que la densite de Z existe etvaut

ρZ(y, x2) =

d∑

i=1

ρX F−1(y, x2)

|(JacF ) F−1(y, x2)|· 1Vi

.

Cas m < p Dans ce cas le vecteur Y n’admet pas de densite. Illustrons cecisur un exemple : supposons que m = 1, p = 2 et soit f : R → R2 definiepar f(x) = (x, 0). Supposons que la variable aleatoire Y = f(X) = (X, 0)admette une densite ρY (y1, y2). Alors, pour tout pave C =]a1, b1[×]a2, b2[ ondevrait avoir :

P(Y ∈ C) =

∫ b1

a1

∫ b2

a2

ρY (y1, y2)dy1dy2.

Considerons un pave C qui n’intersecte pas la droite y2 = 0 ; comme Y =(f(X), 0) on a P(Y ∈ C) = 0. Si ρY est continue (resp. integrable), cecimontre que ρY est nulle en tout point (resp. Lebesgue-presque tout point)(x1, x2) tel que x2 6= 0. On a donc P(Y ∈ R2) = 0 ce qui est impossible(0 6= 1).

Exercice Soient X et Y deux v.a. Supposons que le vecteur aleatoire (X, Y )admette une densite egale a ρ(x, y). Montrer que la v.a X + Y admet unedensite que l’on calculera.

Solution

Page 60: LM345 - Probabilités et Statistiques

60 CHAPITRE 3. VECTEURS ALEATOIRES ET INDEPENDANCE

i) Introduisons le vecteur aleatoire Z = (X + Y, Y ) et calculons sa loi. Pourtoute fonction φ : R2 → R continue bornee,

E(φ(Z)) = E(φ(X + Y, Y )) = E(ψ(X, Y )),

ou ψ : R2 → R egale a ψ(x, y) = φ(x + y, y). Comme (X, Y ) admet unedensite ρ on a d’apres la formule de transfert

E(ψ((X, Y ))) =

R2

ψ(x, y)ρ(x, y)dxdy

=

R2

φ(x+ y, y)ρ(x, y)dxdy.

Effectuons le changement de variables f : (x, y) 7→ (u, v)v = (x + y, y) quiest un diffeomorphisme de R2 sur R2 de jacobien egal a

Jac(f) =

1 10 1

= 1;

on obtient,

R2

φ(x+ y, y)ρ(x, y)dxdy =

R2

φ(u, v)ρ(u− v, v)dudv

et donc,

E(φ(Z)) =

R2

φ(u, v)ρ(u− v, v)dudv.

Ceci etant vrai pour toute fonction φ continue bornee on peut dire que Z =(U, V ) = (X + Y, Y ) admet une densite donnee par ρZ(u, v) = ρ(u− v, v).

ii) La densite de X + Y est donc ρX

ρX(x) =

∫ ∞

−∞

ρ(x− v, v)dv.

3.2 Variables aleatoires independantes

Definition 3.2.1 Une suite X1, . . . , Xm de variables aleatoires est dite independantesi pour tous intervalles I1, . . . , Im de R,

P(X1 ∈ I1, . . . , Xm ∈ Im) = P(X1 ∈ I1) · · ·P(Xm ∈ Im).

En d’autres termes la loi du vecteur X = (X1, . . . , Xm) est determinee parses marginales :

Page 61: LM345 - Probabilités et Statistiques

3.2. VARIABLES ALEATOIRES INDEPENDANTES 61

Proposition 3.2.1 La suite (X1, . . . , Xn) est independante si et seulementsi la loi du vecteur aleatoire X = (X1, . . . , Xn) est le produit de ses loismarginales :

µX(I1 × · · · × Im) = µX1(I1) · · ·µXm

(Im).

On peut preciser un peu le resultat precedent :

Proposition 3.2.2 Une suite X1, . . . , Xm de variables aleatoires est inde-pendante si et seulement si pour tous boreliens A1, . . . , Am de R,

P(X1 ∈ A1, . . . , Xm ∈ Am) = P(X1 ∈ A1) · · ·P(Xm ∈ Am).

Demonstration.—Traitons le cas ou m = 2 (le cas m > 2 est analogie). Fixons un intervalle

ouvert J et considerons l’ensemble CJ des boreliens A pour lesquels

P(X1 ∈ A,X2 ∈ J) = P(X1 ∈ A)P(X2 ∈ J). (3.1)

Il est facile de voir que CJ est une tribu. Comme les intervalles ouverts deR appartiennent a CJ on peut dire que C contient la tribu engendree par lesintervalles ouverts, c’est-a-dire les boreliens. Ainsi pour tout intervalle J ettout borelien A on a (3.1). Fixons a present A et considerons l’ensemble Ddes boreliens B de R pour lesquels

P(X1 ∈ A,X2 ∈ B) = P(X1 ∈ A)P(X2 ∈ B). (3.2)

Il est clair que c’est une tribu et (3.1) montre qu’elle contient les inter-valles ouverts. Le meme argument que celui fait precedemment montre queD contient les boreliens. Ainsi, pour tous boreliens A et B on a (3.2).

2

Definition 3.2.2 Une famille (Xi)i∈A de v.a est dite independante si toutesous famille finie (Xi)i∈J , J ⊂ A fini est independante.

3.2.1 Cas des v.a a valeurs dans un ensemble discret

Si l’on suppose que les Xi sont a valeurs dans Ei ensembles fini oudenombrables la definition precedente se simplifie car on a la propositionsuivante dont la preuve est facile :

Proposition 3.2.3 La suite (X1, . . . , Xn) est independante si et seulementsi pour tout (e1, . . . , en) ∈ E1 × · · · × En on a

P(X1 = e1, . . . , Xm = em) = P(X1 = e1) · · ·P(Xm = em).

Page 62: LM345 - Probabilités et Statistiques

62 CHAPITRE 3. VECTEURS ALEATOIRES ET INDEPENDANCE

En d’autres termes, la loi ρX(e1, . . . , en) est le produit des lois ρXi(ei) :

∀(e1, . . . , en) ∈ E1 × · · · × En, ρX(e1, . . . , en) = ρX1(e1) · · ·ρXn

(en).

Donnons un exemple important.

Le jeu de Pile/Face fini L’espace des etats est Ω = 0, 1n (on joue n fois)muni de la tribu totale P(ω) et de la probabilite uniforme : P(A) = #A/2n.Nous avons deja rencontes les variables aleatoires Xi : Ω → 0, 1 definies parXi(ω) = ωi (ω = (ω1, . . . , ωn) ∈ Ω). La famille X1, . . . , Xn est independante.En effet pour tout (e1, . . . , en) ∈ 0, 1n

P(X1 = e1, . . . , Xn = en) = P(ω : ω1 = e1, . . . , ωn = en)= P(ω : ω ∈ (e1, . . . , en))

=#(e1, . . . , en)

=1

2n

Mais d’autre part,

P(X1 = e1) · · ·P(Xn = en) =1

2· · · 1

2=

1

2n.

On a donc bien P(X1 = e1, . . . , Xn = en) = P(X1 = e1) · · ·P(Xn = en).

Le jeu de Pile/Face infini Ici, Ω = 0, 1n muni de la tribu B engendreepar les evenements elementaires (les cylindres) Ci,e = X−1

i (e), e ∈ 0, 1,i ∈ N (ou les Xi sont definies par Xi(ω) = ωi) et de la probabilite P decriteen ***. Pour toute sous famille Xi1 , . . . , Xin de X1, X2, . . . , on a commeprecedemment

P(Xi1 = e1, . . . , Xin = en) = P(ω : ω1 = e1, . . . , ωn = en)= P(ω : ω ∈ Ci1,e1

∩ Cin,en)

=1

2n

par definition de la probabilite P. Par ailleurs,

P(Xi1 = e1) · · ·P(Xin = en) =1

2· · · 1

2=

1

2n.

On a donc bien pour tous e1, . . . , en l’egalite P(Xi11 = e1, . . . , Xin = en) =P(Xi1 = e1) · · ·P(Xin = en) ce qui demontre l’independance de toute sousfamille Xi1, . . . , Xin .

Nous avons donc demontre que la famille X1, X2, . . . est independante.

Page 63: LM345 - Probabilités et Statistiques

3.2. VARIABLES ALEATOIRES INDEPENDANTES 63

Remarque Le resultat precedent est beaucoup plus profond qu’il n’ap-paraıt. La verification de l’independance des v.aXi est facile mais la construc-tion de le mesure P, qui est justement celle qui rend la famille (Xi)i independante,est loin d’etre triviale.

Il existe en fait un resultat plus general : Etant donnee une famille(Xα)α∈A de v.a a valeurs dans R definies sur un espace probabilise (Ω′,B′,P′), il existe un espace probabilise (Ω,B,P) et des v.a Yα, α ∈ A telles que pourtout α ∈ A, Yα a meme loi que Xα et telles que la famille (Yα)α∈A soitindependante.

Ainsi, la construction de v.a de lois donnees qui sont independantes esttoujours possible.

3.2.2 Cas des v.a admettant des densites

On a la proposition suivante

Proposition 3.2.4 Si les X1, . . . , Xn sont des v.a independantes admettantdes densites ρX1

, . . . , ρXnalors le vecteur aleatoire X = (X1, . . . , Xn) admet

une densite ρX egale a

∀(x1, . . . , xn) ∈ Rn, ρX(x1, . . . , xn) = ρX1(x1) · · ·ρXn

(xn).

Demonstration.—En effet pour tous intervalles I1, . . . , In,

P(X ∈ I1 × · · · × In) = P(X1 ∈ I1) · · ·P(Xn ∈ In)

=

(∫

I1

ρX1(x1)dx1

)

· · ·(

In

ρXn(xn)dxn

)

=

I1×···×In

ρX1(x1) · · ·ρXn

(xn)dx1 · · · dxn,

et le fait que cette identite soit vraie pour tous intervalles I1, . . . , In impliqueque X admet une densite qui est celle annoncee dans l’enonce de la proposi-tion.

2

3.2.3 Esperance des produits de v.a independantes

Avant de demontrer le theoreme fondamental de cette section demontronsle lemme suivant :

Page 64: LM345 - Probabilités et Statistiques

64 CHAPITRE 3. VECTEURS ALEATOIRES ET INDEPENDANCE

Lemme 3.2.1 SiX1, . . . , Xn est une famille de v.a independantes et si φ1, . . . , φn

sont des applications (continues, mesurables...) de R → R alors la famillede v.a φ1(X1), . . . , φn(Xn) est independante.

Demonstration.—En effet, pour tous intervalles I1, . . . , In l’evenement (φi(Xi) ∈ Ii) egale

l’evenement Xi ∈ φ−1i (Ii). Ainsi

P(φ1(X1) ∈ I1, . . . , φn(Xn) ∈ In) = P(X1 ∈ φ−11 (I1), . . . , Xn ∈ φ−1

n (In))

= P(X1 ∈ φ−11 (I1)) · · ·P(Xn ∈ φ−1

n (In)

= P(φ1(X1) ∈ I1) · · ·P(φn(Xn) ∈ In),

d’apres la proposition 3.2.2.

2

On a le theoreme important suivant :

Theoreme 3.2.1 Si X1, . . . , Xn est une famille de v.a independantes et dansL1(Ω,P) le produit Y = X1 · · ·Xn est egalement une v.a dans L1(Ω,P) etson esperance egale le produit des esperance des Xi :

E(X1 · · ·Xn) = E(X1) · · ·E(Xn).

Demonstration.—Traitons le cas n = 2, le cas general se faisant de la meme facon.

i) Supposons que X1, X2 sont a valeurs dans un ensemble fini E. Notonsf : R2 → R l’application definie par f(x1, x2) = x1 · x2. On a d’apres laformule de transfert

E(f(X1 ·X2)) =∑

(e1,e2)∈E×E

f(e1, e2)P(X1 = e1, X2 = e2)

=∑

(e1,e2)∈E×E

e1e2P(X1 = e1),P(X2 = e2)

=

(

(e1∈E

e1P(X1 = e1)

)(

e2∈E

e2P(X2 = e2)

)

= E(X1)E(X2).

ii) Supposons X1 et X2 positives : on sait qu’il existe des suites croissantes

de v.a X(n)1 , X

(n)2 a valeurs dans l’ensemble fini (k/2n : 0 ≤ k ≤ 2n − 1

telles que pour tout ω ∈ Ω, X(n)1 (ω), X

(n)2 (ω) convergent respectivement vers

Page 65: LM345 - Probabilités et Statistiques

3.2. VARIABLES ALEATOIRES INDEPENDANTES 65

X1(ω), X2(ω) et telles que E(X(n)1 ) et E(X

(n)2 ) convergent respectivement

vers E(X1), E(X2). D’apres i) on a

E(X(n)1 X

(n)2 ) = E(X

(n)1 )E(X

(n)2 ).

iii) CommeX(n)1 (ω),X

(n)2 (ω) convergent respectivement versX1(ω),X2(ω) en

croissant, pour tout ω ∈ Ω le produit X(n)1 (ω) ·X(n)

2 (ω) converge en croissantvers X1(ω)X2(ω). Mais d’apres le theoreme de convergence monotone ceciimplique que

limn→∞

E(X(n)1 ·X(n)

2 ) = E(X1 ·X2).

iv) Le passage a la limite dans l’equation du ii) donne la conclusion dans lecas ou X1, X2 sont positives.

v) Si X1, X2 sont integrables de signe quelconque on ecrit X1 = X+1 − X−

1 ,X2 = X+

2 −X−2 :

X1X2 = (X+1 −X−

1 )(X+2 −X−

2 ) = (X+1 X

+2 +X−

1 X−2 ) − (X+

1 X−2 +X−

1 X+2 ).

Comme X±i = h±(Xi) ou h+(x) = max(x, 0), h−(x) = min(x, 0) sont conti-

nues, le lemme 3.2.1 montre que les quatre familles de variables aleatoires(X+

1 , X+2 ), (X+

1 , X−2 ), (X−

1 , X+2 ), (X−

1 , X−2 ) sont independantes et donc

E(X±1 X2±) = E(X±

1 )E(X±2 ), E(X±

1 X2∓) = E(X±1 )E(X∓

2 ).

On a donc

E(X+1 X

+2 +X−

1 X−2 ) = E(X+

1 )E(X+2 ) + E(X−

1 )E(X−2 )

E(X+1 X

−2 +X−

1 X+2 ) = E(X+

1 )E(X−2 ) + E(X−

1 )E(X+2 ).

Comme les E(X±1 ), E(X±

2 ) sont toutes finies, ceci montre que E(X+1 X

+2 +

X−1 X

−2 ) et E(X+

1 X−2 +X−

1 X+2 ) sont finies. En outre,

E(X1X2) = E(X+1 )E(X+

2 ) + E(X−1 )E(X−

2 ) − E(X+1 )E(X−

2 ) + E(X−1 )E(X+

2 )

= (E(X+1 ) −E(X−

1 ))(E(X+2 ) − E(X−

2 ))

= E(X1)E(X2),

ce qui termine la preuve du theoreme.

2

Remarque Dans le cas ou les v.a Xi admettent des densites (continues)ρXi

on peut donner une preuve plus simple : D’apres la formule de transfertappliquee a Y = f(X1, X2) = X1 ·X2 donne

E(X1 ·X2) =

R×R

f(x1, x2)ρX(x1, x2)dx1dx2.

Page 66: LM345 - Probabilités et Statistiques

66 CHAPITRE 3. VECTEURS ALEATOIRES ET INDEPENDANCE

Or on sait que ρX(x1, x2) = ρX1(x1)ρX2

(x2) si bien que

E(X1 ·X2) =

R×R

x1x2ρX1(x1)ρX2

(x2)dx1dx2,

=

R

x1ρX1(x1)

R

x2ρX2(x2)

= E(X1)E(X2).

Remarque Attention, la reciproque du resultat precedent est fausse : si deuxv.a X, Y sont telles que E(XY ) = E(X)E(Y ) on ne peut pas conclure queX, Y sont independantes. En revanche, le resultat suivant est vrai :

Theoreme 3.2.2 Si X1, . . . , Xn sont des v.a telles que pour toutes fonctionscontinues bornees φ1, . . . , φn de R → R on a

E(φ1(X1) · · ·φn(Xn)) = E(φ1(X1)) · · ·E(φn(Xn)),

alors la famille de v.a X1, . . . , Xn est independante.

3.2.4 Criteres d’independance

Dans la pratique il est important de determiner si une famille de v.aest independantes. Un cas qui se presente frequemment est le suivant : onsuppose donnee une famille de v.a independantes X1, X2, . . . et on construit,a partir des Xi, de nouvelles v.a Y1, Y2, . . .. Par exemple, on peut definirY1 = X1, Y2 = X1 +X2, Yn = X1 + · · ·+Xn...mais on pourrait definir les Yi

par Y1 = X1 + X2, Y2 = X2 + X3, Yn = Xn + Xn+1 etc. ou faire des chosesplus compliquees. Le theoreme important de cette section est le suivant :

Theoreme 3.2.3 Soient (Xi)i∈N une famille de v.a independantes et (Ji)(i = 1, 2, . . .) des sous ensembles finis de N qui forment une partition deN (i.e les Ji sont non vides, N = ∪i≥1Ji et Ji ∩ Jj = ∅ si i 6= j). Suppo-sons donnees des applications (continues, continues par morceaux,...) fi deR#Ji → R et posons Yi = fi(Xi1, . . . , Xi#Ji

) (ou i1 < · · · < i#Jisont les

elements de Ji). Alors, la famille de v.a Y1, Y2, . . . est independante.

Demonstration.—Demontrons un cas particulier de ce theoreme (mais la preuve dans le cas

general est la meme) : Supposons que X1, X2, X3, X4 soit une famille de v.aindependantes et que f, g : R2 → R soient des applications (continues...).Posons Y1 = f(X1, X2) et Y2 = g(X3, X4).

Page 67: LM345 - Probabilités et Statistiques

3.2. VARIABLES ALEATOIRES INDEPENDANTES 67

i) Fixons I3 et I4 des intervalles ouverst de R et considerons l’ensemble CI3, I4des boreliens de R2 tels que

P((X1, X2) ∈ A,X3 ∈ I3, X4 ∈ I4) = P((X1, X2) ∈ A)P(X3 ∈ I3)P(X4 ∈ I4).

C’est une tribu et elle contient les paves de la forme I1 × I2 (I1, I2 intervallesouverts de R). Elle contient donc la tribu engendree par les paves ouverts etelle contient donc la tribu borelienne de R2. On a donc demontre que pourtout borelien A de R2 et tous intervalles I3, I4 on a

P((X1, X2) ∈ A,X3 ∈ I3, X4 ∈ I4) = P((X1, X2) ∈ A)P(X3 ∈ I3)P(X4 ∈ I4).

Fixons A boelien de R2 et considerons l’ensemble DA des boreliens B de R2

tels que

P((X1, X2) ∈ A, (X3, X4) ∈ B) = P((X1, X2) ∈ A)P((X3, X4) ∈ B).

C’est une tribu qui contient les paves ouverts de la forme I3 × I4 car

P((X1, X2) ∈ A, (X3, X4) ∈ I3 × I4) = P((X1, X2) ∈ A)P(X3 ∈ I3)P(X4 ∈ I4)

= P((X1, X2) ∈ A)P((X3, X4) ∈ I3 × I4).

Par consequent, la tribu D contient la tribu engendree par les paves ouvertsc’est a-dire la tribu borelienne de R2. On a montre que pour tout borelien Ade R2 et tout borelien B de R2

P((X1, X2) ∈ A, (X3, X4) ∈ B) = P((X1, X2) ∈ A)P((X3, X4) ∈ B).

ii) Soient I, J deux intervalles ouverts :

P(Y1 ∈ I, Y2 ∈ J) = P((X1, X2) ∈ f−1(I), (X3, X4) ∈ g−1(J)).

Les ensembles f−1(I) et g−1(J)) sont des boreliens de R2 et on a donc d’apresi)

P((X1, X2) ∈ f−1(I), (X3, X4) ∈ g−1(J)) =

P((X1, X2) ∈ f−1(I))P((X3, X4) ∈ g−1(J)),

c’est-a-direP(Y1 ∈ I, Y2 ∈ J) = P(Y1 ∈ I)P(Y2 ∈ J).

2

Page 68: LM345 - Probabilités et Statistiques

68 CHAPITRE 3. VECTEURS ALEATOIRES ET INDEPENDANCE

3.3 Evenements independants

Definition 3.3.1 Une famille d’evenements (Ai)i∈I est dite independante(ou encore les evenements de la famille (Ai)i∈I sont dits mutuellement independants)si pour toute sous famille finie Ai1 , . . . , Ain on a

P(Ai1 ∩ · · · ∩ Ain) = P(Ai1) · · ·P(Ain).

Exercice. Demontrer que si A,B sont deux evenements independants lesquatre familles (A,B), (A,Bc), (Ac, B), (Ac, Bc) sont chacune independantes.

Solution. a) Montrons par exemple que (Ac, B) est independante :

P(Ac ∩ B) = P((E −A) ∩B) = P(B − (A ∩ B)) = P(B) − P(A ∩B)

et comme P(A ∩B) = P(A)P(B)

P(Ac ∩B) = P(B)(1 −P(A)) = P(B)P(Ac).

Exercice Trouver un exemple ou chacune des familles (A,B), (B,C), (C,A)est independante mais pas la famille (A,B,C).

Theoreme 3.3.1 La famille d’evenements (Ai)i∈I est independante si etseulement si la famille de variables aleatoires (1Ai

)i∈I est independante.

Demonstration.— i) Demontrons que si la famille d’evenements (Ai)i∈I estindependante alors la famille de variables aleatoires (1Ai

)i∈I est independante.Pour cela il suffit de demontrer, quand I = 1, . . . , n, que pour tout (ε1, . . . , εn) ∈0, 1n,

P(1A1= ε1, . . . , 1An

= εn) =n

i=1

P(1Ai= εi).

Notons Aε l’ensemble A si ε = 1 et Ac si ε = 0. L’egalite precedente devient

E(1Aε11· · ·1Aεn

n) =

n∏

i=1

E(1Aεii).

Remarquons que 1Aεii

egale soit 1Aisoit 1− 1Ai

. On peut donc ecrire 1Aεii

=

(εi + εi1Ai) ou εi = 1 − 2εi. Ainsi,

1Aε11· · ·1Aεn

n=

n∏

i=1

(εi + εi1Ai)

=∑

J⊂I

i∈J

εi∏

i∈I−J

εi1Ai.

Page 69: LM345 - Probabilités et Statistiques

3.3. EVENEMENTS INDEPENDANTS 69

Par consequent,

E(1Aε11· · ·1Aεn

n) = E

( n∏

i=1

(εi + εi1Ai)

)

=∑

J⊂1,...,n

i∈J

εiE

(

i∈I−J

εi1Ai

)

)

=∑

J⊂I

i∈J

εi∏

i∈I−J

εiE(1Ai),

puisque comme les A1, . . . , An sont mutuellement independants

E

(

i∈I−J

1Ai

)

= P

(

i∈I−J

Ai

)

=∏

i∈I−J

P(Ai)

=∏

i∈I−J

E(1Ai).

On a donc,

E(1Aε11· · ·1Aεn

n)) =

n∏

i=1

(εi + εiE(1Ai))

=n

i=1

E(εi + εi1Ai)

=

n∏

i=1

E(1Aεii),

ce est ce que nous voulions demontrer.

ii) La reciproque resulte immediatement de la definition de l’independance.

2

Page 70: LM345 - Probabilités et Statistiques

70 CHAPITRE 3. VECTEURS ALEATOIRES ET INDEPENDANCE

Page 71: LM345 - Probabilités et Statistiques

Chapitre 4

Sommes de variables aleatoiresindependantes

Soient X1, . . . , Xn, . . . une famille de v.a independantes et introduisonsles v.a Sn = X1 + · · ·+Xn. Si par exemple les v.a Xi ont meme loi, l’intuitionque nous avons des probabilites nous incite a penser que les moyennes

1

nSn =

1

n(X1 + · · · +Xn)

convergent quand n tend vers l’infini vers l’esperance E(X1) de X1. En effet,si par exemple les Xi suivent une loi de Bernoulli (1/2, 1/2) et forment unefamille independante de v.a– les Xi modelisent donc un jeu infini de Pile/Faceou les tirages sont independants– l’experience ou l’intuition indique que

1

n(X1 + · · · +Xn)

convergent vers le nombre (ou la v.a constante) 1/2 qui n’est rien d’autreque l’esperance de X1. La premiere difficulte que nous rencontrons est dedonner un sens a la convergence precedente. Rappelons la definition suivantequi introduit la notion de convergence presque-sure, pertinente pour notrepropos :

Definition 4.0.1 On dit que la suite de v.a Yn converge P-presque surementvers la v.a Y l’ensemble des ω ∈ Omega pour lesquels la suite (Yn(ω))n

converge vers Y (ω) est de probabilite 1.

Le theoreme fondamental de ce chapitre et qui est a la base de la theoriemathematique des probabilites est la loi forte des grands nombres qui est

71

Page 72: LM345 - Probabilités et Statistiques

72CHAPITRE 4. SOMMES DE VARIABLES ALEATOIRES INDEPENDANTES

Theoreme 4.0.2 Soit X1, . . . , Xn, . . . une famille de v.a independante oules Xi ont meme loi et sont dans L1(Ω,P). Alors, la suite de v.a

1

n(X1 + · · ·+Xn)

converge P-p.s vers la v.a constante E(X1).

La demonstration de ce theoreme fondamental dans cette generalite sort ducadre de ce cours, mais nous allons en donner une preuve sous des hypothesesplus faibles.

4.1 Lois des grands nombres dans le cas L2

4.1.1 Loi faible des grands nombres

Nous savons deja d’apres la linearite de l’esperance que

E(Sn) = E(X1) + · · ·+ E(Xn)

et d’apres l’independance

V ar(Sn) = V ar(X1) + · · · + V ar(Xn),

et comme les Xi ont meme loi

E(Sn) = nE(X1), V ar(Sn) = nV ar(X1).

Le fait que la variance de la somme des n v.a X1, . . . , Xn se comporte commen et non pas comme n2 (c’est ici ou intervient l’hypothese d’independance)est l’observation fondamentale. Appliquons en effet l’inegalite de Bienayme-Tchebychev :

P(|Sn − nE(X1)| > λ) ≤ nV ar(X1)

λ2,

ce qui peut s’ecrire

P(|Sn

n− E(X1)| >

λ

n) ≤ nV ar(X1)

λ2.

Posons a present λ = nε ou ε est un reel positif :

P(|Sn

n− E(X1)| > ε) ≤ V ar(X1)

nε2.

Nous voyons donc que pour tout ε > 0 on a

limn→∞

P(|Sn

n− E(X1)| > ε) = 0.

Introduisons la definition suivante :

Page 73: LM345 - Probabilités et Statistiques

4.1. LOIS DES GRANDS NOMBRES DANS LE CAS L2 73

Definition 4.1.1 On dit que la suite de v.a (Yn)n converge en probabilitevers la v.a Y si pour tout ε > 0 on a

limn→infty

P(|Yn − Y | > ε) = 0.

Nous avons donc demontre la loi faible des grands nombres

Theoreme 4.1.1 Si (Xi)i≥1 est une famille de v.a independante et si les Xi

ont meme loi et sont dans L2 alors la suite Sn/n converge en probabilite versE(X1).

4.1.2 Loi forte des grands nombres

Rappelons l’enonce de la loi forte des grands nombres :

Theoreme 4.1.2 Soit X1, . . . , Xn, . . . une famille de v.a independante oules Xi ont meme loi et sont dans L1(Ω,P). Alors, la suite de v.a

1

n(X1 + · · · +Xn)

converge P-p.s vers la v.a constante E(X1).

Nous nous proposons dans ce qui suit d’en donner une preuve dans le cas oules v.a sont L2.Demonstration.— Dans le cas L2.

Posons Xk = Xk −E(Xk) et Sn = X1 + · · ·+ Xk. La famille de v.a (Xi)i

est independante et les Xi sont de meme loi et de carre integrable. En outre,

E(Xi) = 0, V ar(Xi) = E((Xi)2),

et

E(Sn) = 0, E((Sn)2) = V ar(Sn) = nV ar(X1).

i) La derniere egalite montre que

E

((

Sn

n

)2)

=1

n2= E((Sn)2) =

1

nV ar(X1),

et donc la serie∞

k=1

E

((

Sk2

k2

)2)

=

∞∑

k=1

1

k2V ar(X1),

Page 74: LM345 - Probabilités et Statistiques

74CHAPITRE 4. SOMMES DE VARIABLES ALEATOIRES INDEPENDANTES

est convergente. D’apres le theoreme de convergence monotone,

E

( ∞∑

k=1

(

Sk2

k2

)2)

=

∞∑

k=1

E

((

Sk2

k2

)2)

;

mais si l’esperance d’une v.a positive est finie, cette v.a est finie pour P-p.s.Par consequent pour P-presque tout ω ∈ Ω

∞∑

k=1

(

Sk2(ω)

k2

)2

<∞,

ce qui en particulier implique que

limk→∞

Sk2(ω)

k2= 0.

Nous avons donc montre que P-p.s la suite Sk2/k2 converge vers 0 quand ntend vers l’infini.

ii) Montrons a present que la suite Sn/n converge vers 0 P-p.s. Pour cela,notons k(n) l’unique entier pour lequel

k(n)2 ≤ n < (k(n) + 1)2.

Les memes calculs que ceux que l’on a effectues precedemment montrent que

E

((

Xk(n)2 + · · ·+Xn

)2)

= V ar

(

Xk(n)2 + · · ·+Xn) = (n−k(n)2

)

V ar(X1),

et∞

n=1

E

((

Xk(n)2 + · · ·+ Xn

n

)2)

=∞

n=1

n− k(n)2

n2V ar(X1).

Mais, comme

n− k(n)2 ≤ (k(n) + 1)2 − k(n)2 = 2k(n) + 1 ≤ 2√n+ 1 ≤ 3

√n

on an− k(n)2

n≤ 3

n√n,

et la serie∑∞

n=1n−k(n)

n2 V ar(X1) est donc convergente. Ainsi

∞∑

n=1

E

((

Xk(n)2 + · · ·+ Xn

n

)2)

Page 75: LM345 - Probabilités et Statistiques

4.2. THEOREME DE LA LIMITE CENTRALE 75

est finie et en raisonnant comme en i)

Xk(n)2 + · · ·+ Xn

n

converge P-p.s vers 0.

iii) Comme

Sn

n=X1 + · · · + Xk(n)2

n+Xk(n)2 + · · ·+ Xn

n

=X1 + · · · + Xk(n)2

k(n)2· k(n)2

n+Xk(n)2 + · · ·+ Xn

n

=1

k(n)2Sk(n)2 ·

k(n)2

n+Xk(n)2 + · · ·+ Xn

n

et que k(n)2/n est borne par 1 on deduit de i) et ii) que Sn/n converge P-p.svers 0. Le fait que

Sn

n=Sn

n− E(X1),

permet de conclure la preuve du theoreme.

2

4.2 Theoreme de la limite centrale

Nous donnons une premiere version de ce theoreme :

Theoreme 4.2.1 Soient X1, . . . , Xn, . . . une famille de v.a independantes etsupposons que les Xi soient de meme loi et dans L2(Ω,P) (c’est-a-dire decarre integrable, E(X2

i ) <∞). Notons µ = E(X1) et σ2 = V ar(X1) (commeles Xi sont de meme loi E(Xi) = µ et V ar(Xi) = σ pour tout i). Alors, pourtout intevalle I de R

limn→∞

P

(

Sn − nµ

σ√n

∈ I

)

=

I

1√2πe−x2/2dx.

Une autre facon d’enoncer ce theoreme est de dire que

limn→∞

P

(√n

σ

(

Sn

n− µ

)

∈ I

)

=

I

1√2πe−x2/2dx.

En d’autres termes, Sn/n−µ converge d’apres la loi forte des grans nombresvers 0, la deviation des moyennes par rapport a l’esperance, “renormalisee”

Page 76: LM345 - Probabilités et Statistiques

76CHAPITRE 4. SOMMES DE VARIABLES ALEATOIRES INDEPENDANTES

par le facteur√n/σ, converge dans un certain sens vers une loi gaussienne

normalisee (esperance nulle, variance egale a 1).Avant de passer a la preuve de ce theoreme, nous devons introduire

quelques notions utiles.

4.2.1 Convergence en loi

Definition 4.2.1 On dit qu’une suite de v.a (Yn)n∈N converge en loi versune v.a Y si et seulement si pour toute fonction continue bornee f : R → R

limn→∞

E(f(Yn)) = E(f(Y )).

L’interet de cette notion reside dans la proposition suivante :

Theoreme 4.2.2 Soient (Yn)n∈N une suite de v.a et Y une v.a. et notonsFYn

: R → [0, 1] et FY : R → [0, 1] les fonctions de repartition des v.a Yn,Y :

FYn(t) = P(Yn ≤ t), FY (t) = P(Y ≤ t).

La suite (Yn)n∈N converge en loi vers Y si et seulement si en tout point t0ou FY est continue a gauche

limn→∞

FYn(t0) = FY (t0).

Demonstration.—

i) Montrons deja que si (Yn)n∈N converge en loi vers Y alors en tout point t0ou FY est continue a gauche FYn

(t0) converge vers FY (t0). Considerons deuxsuites de fonctions gp, hp : R → R qui sont definies de la facon suivante : gp estla fonction continue : egale a 1 sur ]−∞, t0−(1/p)], affine sur [t0−(1/p), t0] etegale a 0 sur [t0,∞[ ; hp est la fonction continue : egale a 1 sur ]−∞, t0], affinesur [t0, t0 +(1/p)] et egale a 0 sur [t0 +(1/p),∞[. La suite de fonctions gp estcroissante et converge simplement vers 1]−∞,t0[ tandis que la suite de fonctionshp est decroissante et converge simplement vers 1]−∞,t0]. De l’inegalite

gp ≤ 1]−∞,t0] ≤ hp

on deduit en passant aux esperances,

E(gp(Yn)) ≤ Fn(t0) ≤ E(hp(Yn)).

D’apres la definition de la convergence en loiE(gp(Yn)) et E(hp(Yn)) convergentrespectivement quand n tend vers l’infini vers E(gp(Y )), E(hp(Y )) et doncd’apres les inegalites precedentes

E(gp(Y )) ≤ lim infn→∞

Fn(t0) ≤ lim supn→∞

Fn(t0) ≤ E(hp(Y )). (4.1)

Page 77: LM345 - Probabilités et Statistiques

4.2. THEOREME DE LA LIMITE CENTRALE 77

Par ailleurs, quand p tend vers l’infini, le theoreme de convergence monotone,montre que E(gp(Y )) converge vers E(1]−∞,t0[(Y )) = P(Y < t0) et E(hp(Y ))converge vers E(1]−∞,t0[(Y )) = P(Y ≤ t0) = FY (t0). Comme FY est continuea gauche en t0 on a E(1]−∞,t0[(Y )) = P(Y < t0) = P(Y ≤ t0) = FY (t0) eten faisant tendre p vers l’infini dans (4.1) on voit que lim infn→∞ Fn(t0) =lim supn→∞ Fn(t0) = FY (t0) ce qui est le resultat annonce.

ii) Montrons la reciproque : soit ε > 0 et A un reel positif tel que P(|Y | > A)soit plus petit que ε/12 (exercice : un tel A existe toujours). On aura dememe si n ≥ n1(ε) P(|Yn| > A) ≤ ε/12 d’apres l’hypothese. Comme FY (t)est croissante, elle admet un nombre au plus denombrable de points de dis-continuite : notons T cet ensemble. Soit f une fonction continue bornee (noussupposerons que |f | ≤ 1 pour simplifier) : elle est uniformement continue sur[−A,A] et on peut donc l’approcher a ε/6 pres uniformement sur [−A,A] parune fonction en escaliers c(x) dont on peut demander que les discontinuitessoient en dehors de T :

|(f(x) − c(x)) · 1[−A,A]| ≤ ε/6,

si bien que

|(f(Yn) − c(Yn)) · 1|Yn|≤A| ≤ ε/6,

|(f(Y ) − c(Y )) · 1|Y |≤A| ≤ ε/6,

et finalement

|E(

f(Yn) − c(Yn)

)

| ≤ ε/4 + 2P(|Yn| > A) ≤ ε/3 (4.2)

|E(

f(Y ) − c(Y )

)

| ≤ ε/4 + 2P(|Y | > A) ≤ ε/3 (4.3)

De telles fonctions c(x) sont des combinaisons lineaires de 1]−∞,t] ou t /∈ T .On a donc :

limn→∞

E(c(Yn)) = E(c(Y )).

Donc des que n est plus grand qu’un certain entier n2(ε) on a |E(c(Yn)) −E(c(Y ))| ≤ ε/3 et en utilisant (4.2), (4.3) on voit que des que n ≥ max(n1(ε), n2(ε))

|E(f(Yn) − E(f(Y ))| ≤ ε,

ce qui est ce que nous voulions demontrer.

2

Un corollaire utile du theoreme precedent est le suivant

Page 78: LM345 - Probabilités et Statistiques

78CHAPITRE 4. SOMMES DE VARIABLES ALEATOIRES INDEPENDANTES

Corollaire 4.2.1 Si les Yn convergent en loi vers une v.a Y qui admet unedensite ρY alors pour tout intervalle I de R

limn→∞

P(Yn ∈ I) =

I

ρY (y)dy

4.2.2 Fonctions caracteristiques

Definition 4.2.2 Si Y est une v.a.r, la fonction caracteristique de Y est lafonction φY : R → R definie par

φY (t) = E(eitY ),

(ou i =√−1).

Remarque i) Pour t fixe la v.a eitY est bornee par 1 (puisque Y est a valeursreelles) et est donc integrable.

ii) La fonction caracteristique d’une v.a ne depend que de la loi de cette v.a.

iii) On peut demontrer (en utilisant le theoreme de convergence dominee)que la fonction caracteristique d’une v.a.r est continue et tend vers 0 en ±∞.

On peut preciser le resultat de continuite precedent :

Proposition 4.2.1 Si Y est une v.a.r integrable, alors la fonction caracteristiquede Y est de classe C1 (derivable et de derivee continue) et

φ′Y (t) = E

(

(iY )eitY

)

.

De meme, si Y est dans Lp(Ω,P) la fonction caracteristique de Y est declasse Cp et on a

dp

dtpφY (t) = E

(

(iY )peitY

)

.

Demonstration.— Soit tn une suite de reels convergeant vers t. Il suffit dedemontrer que pour toute telle suite

limn→∞

φY (tn) − φY (t)

tn − t= E

(

(iY )eitY

)

.

Calculons,φY (tn) − φY (t)

tn − t= E

(

eitnY − eitY

tn − t

)

.

Page 79: LM345 - Probabilités et Statistiques

4.2. THEOREME DE LA LIMITE CENTRALE 79

Pour cela, remarquons que la v.a

Zn(ω) =eitnY (ω) − eitY (ω)

tn − t,

converge simplement (c’est-a-dire pour tout ω fixe) quand n tend vers l’infinivers (itY (ω))eitY (ω) (la derivee en s = t de s 7→ eisY (ω)). En outre, d’apres laformule des accroissement finis, pour tout ω il existe sn,ω ∈ (t, tn) tel que

eitnY (ω) − eitY (ω)

tn − t= (iY (ω)eisn,ωY (ω),

et donc|Zn(ω)| ≤ |Y (ω)|,

des que n est assez grand. Or, le membre de droite de l’inegalite precedenteest une fonction integrable. Le theoreme de convergence dominee s’appliqueet on a donc

limn→∞

E(Zn) = E((iY )eitY ).

Ceci conclut la preuve de la proposition quand p = 1. Le cas general nepresente pas de difficultes supplementaires.

2

Exercice : Montrer que si Z = aY + b

φZ(t) = eitbφY (ta).

Calculons a present les fonctions caracteristiques de certaines lois classiques.

v.a discretes Si Y prend un nombre fini de valeurs y1, . . . , yr et si on notepr = P(Y = yr) on a

φY (t) = E(eitY )

=

r∑

k=1

eitykP(Y = yk)

=

r∑

k=1

(eit)ykP(Y = yk)

et on reconnait (si Y est a valeurs entieres) la fonction generatrice de Y aupoint eit. Le calcul des fonctions caracteristiques de v.a discretes est exacte-ment le meme que celui que nous avons effectue dans un chapitre precedent.

Page 80: LM345 - Probabilités et Statistiques

80CHAPITRE 4. SOMMES DE VARIABLES ALEATOIRES INDEPENDANTES

v.a admettant une densite ρY Dans ce cas

φY (t) = E(eitY )

=

∫ ∞

−∞

eityρY (y)dy.

On habituellement ρY (t) =∫ ∞

−∞eityρY (y)dy et on dit que la fonction ρY est

la transformee de Fourier de la fonction ρY

Exemple : Fonctions caracteristique d’une gaussienne Rappelons que si Zest une v.a suivant une loi gaussienne N (µ, σ) on peut l’ecrire sous la formeZ = σY + µ ou Y suit une loi gaussienne normalisee N (0, 1) de densite

ρ(y) =1√2πe−y2/2.

On a donc

φY (t) =1√2π

∫ ∞

−∞

eitye−y2/2dy.

On a (cf. exercice) :

φY (t) = e−t2/2.

Ainsi, la fonction d’une caracteristique d’une v.a suivant une loi gaussienneN (µ, σ) est

φZ(t) = eitµ−σ2(t2/2).

Mentionnons que l’on peut etendre la notion de fonction generatrice aucas des vecteurs aleatoires reeels.

Definition 4.2.3 Si (Y1, . . . , Yn) est un vecteur aleatoire, la fonction ca-racteristique de Y est la fonction φY : Rn → R definie par

φY (t1, . . . , tn) = E(ei(t1Y1+···+tnYn)),

(ou i =√−1).

Liens avec la convergence en loi

Les fonctions caracteristiques jouent un role important dans les problemesou inteviennent des convergences en loi. Les deux theoremes qui suivent illus-trent ce fait.

Page 81: LM345 - Probabilités et Statistiques

4.2. THEOREME DE LA LIMITE CENTRALE 81

Theoreme 4.2.3 La loi d’une v.a.r (resp. d’un vecteur aleatoire) est determineepar sa fonction caracteristique : si Y et Z sont deux v.a.r (resp. vecteursaleatoires) tel(le)s que pour tout t ∈ R (resp. t ∈ Rn)

φY (t) = φZ(t),

alors la loi de Y et la loi de Z sont les memes : pour tout borelien A de R(resp. de Rn) :

P(Y ∈ A) = P(Z ∈ A).

Theoreme 4.2.4 La suite de v.a.r (resp. de vecteurs aleatoires) (Yn)n∈N

converge en loi vers Y si et seulement si pour tout t ∈ R (resp. t ∈ Rn)

limn→∞

φYn(t) = φY (t).

Demonstration.— Si Yn converge en loi vers Y , pour toute fonction fcontinue bornee et en particulier pour la fonction et(y) = eity (t fixe), ona limn→∞E(et(Yn)) = E(et(Y )). La premiere partie du theoreme est doncfacile.

La preuve de l’implication reciproque est plus delicate. Nous ne don-nons donc qu’un schema de preuve. La convergence simple des fonctionscarcteristiques est equivalente au fait que pour toute fonction f de la formeet(y) = eity, E(et(Yn)) converge vers E(et(Y )). Il est evident que le memeresultat est vrai pour les fonctions g qui sont combinaisons lineaires finies desfonctions et. Or, pour tout ε > 0, tout intervalle [−A,A] et toute fonctioncontinue f on peut trouver une combinaison lineaire finie g des fonctions et

telles que

supy∈[−A,A]

|f(y) − g(y)| < ε/5,

On a donc

|E(f(Y )) − E(f(Yn))| ≤ |E(f(Y )) − E(g(Y ))| + |E(g(Y )) − E(g(Yn))|+|E(g(Yn)) − E(f(Yn))|≤ (ε/5) + P(|Y | > A) + |E(g(Y )) − E(g(Yn))|+(ε/5) + P(|Yn| > A).

Il est clair que P(|Y | > A) tend vers 0 quand A tend vers l’infini, et que lememe resultat est vrai si l’on remplace Y par Yn n etant fixe mais il n’est pasevident que cette convergence soit uniforme en n. Ceci est l’objet du lemmesuivant dont la demonstration sort du cadre de ce cours

Page 82: LM345 - Probabilités et Statistiques

82CHAPITRE 4. SOMMES DE VARIABLES ALEATOIRES INDEPENDANTES

Lemme 4.2.1 On a

P(|Yn| ≥ A) ≤ A

∫ 1/A

−1/A

(1 − φYn(t))dt.

Le theoreme de convergence dominee et la continuite de φY en 0 permettentde demontrer qu’il existe n(A, ε) tel que si n ≥ n(A, ε)

P(|Yn| > A) ≤ ε/5

(et egalement P(|Y | > A) ≤ ε/5). L’inegalite precedant le lemme permetalors de conclure.

2

Fonctions caracteristiques et independance

Theoreme 4.2.5 Les v.a.r Y1, . . . , Yn forment une famille de v.a independantessi et seulement si

φY1,...,Yn(t1, . . . , tn) = φY1

(t1) · · ·φYn(tn).

Demonstration.— 1) Supposons tout d’abord que la famille Y1, . . . , Yn soitindependantes ; on a

E(ei(t1Y1+···+tnYn) = E(eit1Y1 · · · eitnYn),

et puisque la famille de v.a eit1Y1, . . . , eitnYn est independante on a

E(ei(t1Y1+···+tnYn) = E(eit1Y1) · · ·E(eitnYn).

C’est bien la formule annoncee.2) Reciproquement, supposons que

φY1,...,Yn(t1, . . . , tn) = φY1

(t1) · · ·φYn(tn),

et montrons que la famille Y1, . . . , Yn est independante. Pour cela, rappelonsle resultat suivant : Pour toute famille de v.a Y1, . . . , Yn (on pourrait prendre

une famille infinie), il existe des v.a Y1, . . . , Yn qui constituent une familleindependante et telles que pour tout i les lois de Yi et de Yi sont les memes.

i) Montrons que la loi du vecteur (Y1, . . . , Yn) est la meme que celle du vecteur(Y1, . . . , Yn). Il suffit de demontrer que (Y1, . . . , Yn) et (Y1, . . . , Yn) ont memefonctions caracteristiques. Or, comme la famille (Y1, . . . , Yn) est independanteon a

φ(Y1,...,Yn)(t1, . . . , tn) = φY1(t1) · · ·φYn

(tn)

Page 83: LM345 - Probabilités et Statistiques

4.2. THEOREME DE LA LIMITE CENTRALE 83

et puisque Yi et Yi ont meme loi

φ(Y1,...,Yn)(t1, . . . , tn) = φY1(t1) · · ·φYn

(tn)

(la fonction caracteristique ne depend que de la loi de la v.a). On voit doncque

φ(Y1,...,Yn)(t1, . . . , tn) = φ(Y1,...,Yn)(t1, . . . , tn),

ce qu’il fallait demontrer.

ii) Par consequent pour tous boreliens (ou meme intervalles) A1, . . . , An

P(Y1 ∈ A1, . . . , Yn ∈ An) = P(Y1 ∈ A1, . . . , Yn ∈ An)

= P(Y1 ∈ A1) · · ·P(Yn ∈ An)

= P(Y1 ∈ A1) · · ·P(Yn ∈ An),

ce qui est bien l’independance annoncee.

2

Nous avons egalement le resultat suivant

Theoreme 4.2.6 Si les v.a.r X1, . . . , Xn forment une famille independantepour tout t ∈ R

φX1+···+Xn(t) = φX1

(t) · · ·φXn(t).

Demonstration.— Il suffit de constater que

φX1+···+Xn(t) = φ(X1,...,Xn)(t, . . . , t),

et d’appliquer le theoreme precedent.

2

4.2.3 Demonstration du theoreme de la limite centrale

Rappelons l’enonce du theoreme 4.2.1 dans la version equivalente suivante(cf. theoreme ??)

Theoreme 4.2.7 Soient X1, . . . , Xn, . . . une famille de v.a independantes etsupposons que les Xi soient de meme loi et dans L2(Ω,P) (c’est-a-dire decarre integrable, E(X2

i ) <∞). Notons µ = E(X1) et σ2 = V ar(X1) (commeles Xi sont de meme loi E(Xi) = µ et V ar(Xi) = σ2 pour tout i). Alors, lasuite de v.a

Sn − nµ

σ√n

converge en loi vers une loi normale N (0, 1) (de densite (1/√

2π)e−x2/2).

Page 84: LM345 - Probabilités et Statistiques

84CHAPITRE 4. SOMMES DE VARIABLES ALEATOIRES INDEPENDANTES

Nous avons suffisamment d’outils pour demontrer le theoreme de la limitecentrale. Soient donc X1, . . . , Xn, . . . une famille independante de v.a qui sontde meme loi et de carre integrable. Nous posons µ = E(X1) et σ = V ar(X1).Notons Sn = X1 + · · · +Xn, Σn = (X1 − µ) + · · ·+ (Xn − µ) et posons

Zn =Sn − nE(X1)

σ√n

=Σn

σ√n.

La formule de l’exercice du debut de la section 4.2.2 montre que

φZn(t) = φΣn

(

t

σ√n

)

,

et comme Σn est la somme des v.a independantes Xi − µ, 1 ≤ i ≤ n et queces v.a ont meme loi :

φΣn(t) = φX1−µ(t)n.

Si on pose φ(t) = φX1−µ(t) on a donc

φZn(t) = φ

(

t

σ√n

)n

.

Puisque la v.a est de carre integrable la fonction φ est de classe C2. Parailleurs,

φ(0) = E(1), φ′(0) = iE(X1 − µ), φ′′(0) = −E((X1 − µ)2),

c’est-a-direφ(0) = 1, φ′(0) = 0, φ′′(0) = −σ2.

D’apres la formule de Taylor

φ(t) = 1 − σ2

2t2 + o(t2),

et donc pour t fixe

φZn(t) =

(

1 − σ2

2

(

t

σ√n

)2

+ o((t/(σ√n))2)

)n

,

ou encore

φZn(t) =

(

1 − t2

2n+ o(

1

n)

)n

.

Pour n suffisamment grand, 1−(t2)/(2n)+o(1/n) est dans la boule de centre1 et de rayon 1/2 et on peut ecrire

φZn(t) = exp

(

n log

(

1 − t2

2n+ o(

1

n)

))

,

Page 85: LM345 - Probabilités et Statistiques

4.3. QUELQUES REMARQUES SUR LES DIVERSES NOTIONS DE CONVERGENCE85

ou log est la determination principale du logarithme dans le plan complexe(qui admet le meme developpement en serie que le logarithme reel). On adonc

φZn(t) = exp

(

−t2

2+ o(1)

))

= e−(t2/2) + o(1),

et partant,lim

n→∞φZn

(t) = e−t2/2.

On reconnait dans le membre de droite la fonction caracteristique d’une v.agaussienne normalisee et le theoreme 4.2.4 montre que Zn converge en loivers une loi gausienne normalisee.

4.3 Quelques remarques sur les diverses no-

tions de convergence

Nous avons rencontre diverses notions de convergence et il est bon dedegager une hierarchie entre ces notions.

Proposition 4.3.1 a) La convergence p.s et la convergence en moyenne im-pliquent la convergence en probabilite ; la convergence en probabilite (et doncla convergence p.s et la convergence en moyenne) implique la convergence enloi.

b) S’il existe une constante A telle que |Xn| ≤ A la convergence en probabilitede Xn est equivalente a sa convergence en moyenne.

Page 86: LM345 - Probabilités et Statistiques

86CHAPITRE 4. SOMMES DE VARIABLES ALEATOIRES INDEPENDANTES

Page 87: LM345 - Probabilités et Statistiques

Chapitre 5

Esperance conditionnelle

Dans tout ce qui suit (Ω,B,P) est un espace probabilise fixe.

5.1 Probabilites conditionnelles

Definition 5.1.1 Si A et Bsont deux evenements de la tribu Bet si P(B) >0 on definit la probabilite de A sachant B comme etant

P(A|B) =P(A ∩ B)

P(B).

En fait tout evenement B ∈ B definit une nouvelle probabilite sur (Ω,B) :

Proposition 5.1.1 Si B ∈ B est tel que P(B) > 0, l’application PB : B →[0, 1] qui a A ∈ B associe PB(A) = P(A|B) est une probabilite.

La preuve de cette proposition est laissee en exercice au lecteur.

Supposons a present que nous ayons une partition de Ω en evenementsB1, . . . , Br (c’est-a-dire que les evenements B1, . . . , Br sont disjoints deux adeux et que leur union soit egale a Ω) et que pour tout i P(Bi) > 0. On peutdonc definir r probabilites P(·|Bi).

Theoreme 5.1.1 (Formule des causes) Sous les hypotheses precedentes

P(A) =r

i=1

P(A|Bi)P(Bi).

87

Page 88: LM345 - Probabilités et Statistiques

88 CHAPITRE 5. ESPERANCE CONDITIONNELLE

Demonstration.— Il suffit de remarquer que A est l’union disjointe des(A ∩Bi) et donc

P(A) =

r∑

k=1

P(A ∩ Bi)

=

r∑

i=1

P(A ∩ Bi)

P(Bi)· P(Bi)

ce qui est la formule annoncee.

2

Dans la pratique un probleme courant est de calculer P(Bi|A) connaissantles P(A|Bj).

Theoreme 5.1.2 (Formule de Bayes) Sous les hypotheses precedentes :

P(Bi|A) =P(A|Bi)P(Bi)

∑ri=1 P(A|Bj)P(Bj)

.

Demonstration.— Il suffit d’ecrire

P(Bi|A) =P(Bi ∩ A)

P(A)=

P(A|Bi)P(Bi)

P(A),

et d’utiliser la formule des causes.

2

5.2 Esperance conditionnelle : cas discret

Esperance sachant un evenement Supposons fixe B ∈ B un evenementtel que P(B) > 0. On sait que P(·|B) est une probablilite sur (Ω,B) eton obtient donc un espace probabilise (Ω,B,P(·|B)). Pour toute variablealeatoire Y : Ω → R on peut definir E(Y |B) comme etant l’esperance de Ysur l’espace probabilise (Ω,B,P(·|B)).

Dans le cas ou par exemple Y prend un nombre fini de valeurs y1, . . . , ym

on a

E(Y |B) =

m∑

k=1

ykP(Y = yk|B).

Page 89: LM345 - Probabilités et Statistiques

5.2. ESPERANCE CONDITIONNELLE : CAS DISCRET 89

Loi conditionnelle d’une v.a sachant un evenement

Definition 5.2.1 La loi de la v.a Y vue comme v.a sur l’espace probabilise(Ω,B,P(·|B) que nous appelerons la loi conditionnelle de Y sachant B etnoterons p(y|B) est

p(y|B) = P(Y = y|B).

Esperance sachant une tribu (finie) On suppose fixee une partitionB1, . . . , Br de Ω et on fait l’hypothese que pour tout i, P(Bi) > 0. ConsideronsF la plus petite tribu engendree par les ensembles B1, . . . , Br.

Exercice : Montrer que F est l’ensemble des unions finies de Bi :

F = ⋃

i∈J

Bi : J ⊂ 1, . . . , r.

Definition 5.2.2 Si Y : Ω → R est une v.a, on definit l’esperance de Y parrapport a la tribu (finie) F comme etant la variable aleatoire E(Y |F) :Ω → R valant E(Y |Bi) sur Bi :

E(Y |F) =

r∑

k=1

E(Y |Bk) · 1Bk.

Esperance suivant une v.a Supposons a present que X : Ω → R soitune v.a ne prenant qu’un nombre fini de valeurs x1, . . . , xr et notons Bi =X−1(xi), 1 ≤ i ≤ r. et F (ou encore F(B1, . . . , Br)) la tribu engendree parles Bi. Nous supposerons que pour tout i, P(X = xi) > 0.

Definition 5.2.3 On definit l’esperance conditionnelle de Y sachant X commeetant la variable aleatoire E(Y |X) : Ω → R definie par E(Y |X) =E(Y |F(X = x1, . . . , X = xr). On a donc

E(Y |X)(ω) =

r∑

k=1

E(Y |X = xk) · 1X=xk.(ω).

(C’est la fonction qui associe a ω E(Y |X = xk) si X(ω) = xk.)

Mentionnons la propriete suivante evidente mais importante

Proposition 5.2.1 Si on note ψ la fonction ψ(x) = E(Y |X = x) on a

E(Y |X) = ψ(X),

(c’est une egalite entre v.a).

Page 90: LM345 - Probabilités et Statistiques

90 CHAPITRE 5. ESPERANCE CONDITIONNELLE

Loi conditionnelle de Y sachant X Pour tout x ∈ X(Ω) on peut definirla loi conditionnelle de Y sachant l’evenement (X = x).

Definition 5.2.4 On appelle loi conditionnelle de Y sachant X = x laloi conditionnelle de Y sachant l’evenement (X = x) et nous la noteronspY |X(y|x) :

pY |X(y|x) = P(Y = y|X = x) =pX,Y (x, y)

pX(x),

ou on a note pX,Y la loi du couple (X, Y ) et pX la loi de X

Relation entre esperance conditionnelle et loi conditionnelle

Proposition 5.2.2 On a

E(Y |X = x) =

m∑

l=1

ylpY |X(yl|x).

Propriete de l’esperance conditionnelle On a alors

Theoreme 5.2.1 On a

E(E(Y |X)) = E(Y ).

Demonstration.— Il suffit de calculer

E(E(Y |X)) = E(ψ(X))

=

r∑

k=1

E(Y |X = xk)P(X = xk)

=

r∑

k=1

m∑

l=1

ylP(Y = yl|X = xk)P(X = xk)

=m

l=1

r∑

k=1

ylP(Y = yl|X = xk)P(X = xk)

=m

l=1

P(Y = yl)

= E(Y )

(on a utilise la formule des causes).

2

Page 91: LM345 - Probabilités et Statistiques

5.3. CAS DES V.A ADMETTANT DES DENSITES 91

Remarque : L’esperance conditionnelle E(Y |X) est lineaire par rapport aY .

Exercice : Demontrer que si X, Y sont des v.a ne prenant qu’un nombre finide valeurs E(f(X, Y )|X) = ψ(X) ou

ψ(xk) =

m∑

l=1

f(xk, yl)pY |X(yl|xk).

Exercice : Soient X et Y deux v.a independantes qui suivent des lois dePoisson de parametres respectifs λ et µ. Soit S = X + Y

a) Determiner la loi de S

b) Calculer l’esperance conditionnelle E(X|S).

(Reponse : a) S suit une loi de Poisson de parametre λ + µ ; b) E(X|S) estla variable aleatoire S · λ/(λ+ µ))

5.3 Cas des v.a admettant des densites

Supposons donnee deux v.a Y et X telles que le couple (X, Y ) admetteune densite ρX,Y . Les v.a X et Y admettent donc des densites respectives ρX

et ρY egales a :

ρX(x) =

∫ ∞

−∞

ρX,Y (x, y)dy, ρY (y) =

∫ ∞

−∞

ρX,Y (x, y)dx.

Nous supposerons dans toute la suite que ρX(x) > 0 pour tout x.Nous allons definir l’esperance E(Y |X) en nous inspirant de la definition

5.2.4, de la proposition 5.2.2 et de la proposition 5.2.1.

Definition 5.3.1 Nous appelerons densite conditionnelle de Y sachant X =x la fonction ρY |X(y|x) definie par

ρY |X(y|x) =ρX,Y (x, y)

ρX(x).

Definition 5.3.2 L’esperance de Y sachant X = x est la fonction de x ∈ R

E(Y |X = x) =

R

yρY |X(y|x)dy.

Definition 5.3.3 L’esperance conditionnelle E(Y |X) est la variable aleatoire

E(Y |X) = ψ(X),

ou ψ(x) = E(Y |X = x).

Page 92: LM345 - Probabilités et Statistiques

92 CHAPITRE 5. ESPERANCE CONDITIONNELLE

Exercice : Soient X, Y deux v.a dont la loi du couple (X, Y ) admet unedensite egale a ρX,Y (x, y) = (1/x) · 1T (x, y) ou T est le triangle T = 0 <y < x < 1. Calculer E(Y |X).

Solution : La densite de X se calcule en integrant ρX,Y (x, y) par rapport ay ∈ R. On trouve ρX(x) = 1]0,1[(x) et donc pour x ∈]0, 1[

ρY |X(y|x) =1

x1]0,x[(y).

On trouve ψ(X) = E(Y |X = x) = (x/2) et donc E(Y |X) = ψ(X) = X/2.

On a encore le theoreme important suivant

Theoreme 5.3.1E(E(Y |X)) = E(Y ).

Demonstration.— Notons ψ(x) = E(Y |X = x). Comme par definitionE(Y |X) = ψ(X), la formule de transfert donne

E(E(Y |X)) = E(ψ(X)) =

R

ψ(x)ρX(x)dx

=

R

(∫

R

yρY |X(x, y)dy

)

ρX(x)dx

=

R

(∫

R

yρX,Y (x, y)

ρX(x)dy

)

ρX(x)dx

et comme d’apres le theoreme de Fubini on peut intervertir l’ordre d’integration :

E(E(Y |X)) =

R

(∫

R

ρX,Y (x, y)

ρX(x)ρX(x)dx

)

ydy

=

R

ρY (y)ydy

= E(Y ).

2

Exercice : Demontrer que E(Y g(X)|X) = g(X)E(Y |X).

On a l’analogue suivant du theoreme de transfert que nous donnons sansdemonstration (comparer avec la definition 5.3.2) :

Theoreme 5.3.2 Si Z = f(X, Y ) on a E(f(X, Y )|X) = ψ(X) ou

ψ(x) =

R

f(x, y)ρY |X(y|x)dy.

Page 93: LM345 - Probabilités et Statistiques

5.4. INDEPENDANCE 93

Remarque : L’esperance conditionnelle E(Y |X) est lineaire par rapport aY .

Exercice : Demontrer que si on prend l’enonce du theoreme precedentcomme definition de E(f(X, Y )|X) on a bien E(f(X, Y )) = E(E(f(X, Y )|Y )).

5.4 Independance

Considerons a present le cas ou les v.a X et Y sont independantes. Dansce cas on sait que

pX,Y (x, y) = pX(x)pY (y),

dans le cas discret etρX,Y (x, y) = ρX(x)ρY (y)

dans le cas continu. Par consequent

pY |X(y|x) = pY (y)

dans le cas discret etρY |X(y|x) = ρY (y)

dans le cas continu. On a donc dans les deux cas

Proposition 5.4.1 Si X et Y sont independantes

E(Y |X) = E(Y )

ou en d’autres termes, la variable aleatoire E(Y |X) est constante.

Dans la pratique on a souvent a calculer des esperances de v.a de la formeZ = f(X, Y ) ou X et Y sont des v.a independantes. Il est souvent utile pourcela de conditionner Z par rapport a une des variables (disons X) c’est-a-direde faire le calcul en deux etapes :

i) On introduit la v.a E(Z|X) = E(f(X, Y )|X) ;

ii) On utilise ensuite la relation E(Z) = E(E(Z|X)).Pour l’etape i) on dispose de la proposition suivante :

Proposition 5.4.2 Soient X et Y deux v.a independantes. Notons pour x ∈R, Yx la variable aleatoire Yx = f(x, Y ) (c’est-a-dire l’application de Ω → Rtelle que Yx(ω) = f(x, Y (ω))) et soit F : R → R l’application definie parF (x) = E(Yx) (F (x) = E(f(x, Y ))). On a

E(f(X, Y )|X) = F (X).

Page 94: LM345 - Probabilités et Statistiques

94 CHAPITRE 5. ESPERANCE CONDITIONNELLE

Demonstration.—Nous faisons la demonstration dans le cas de v.a admettant des densites

(le cas discret se traite de la meme facon). Notons Z = f(X, Y ). On a d’apresle theoreme 5.3.2

E(Z|X) = ψ(X)

ou

ψ(x) =

R

f(x, y)ρY |X(y|x)dy

=

R

f(x, y)ρY (y)dy

= E(Yx)

= F (x).

On a donc bien la conclusion.

2

Exercice : Soient N,X1, . . . , Xn, . . . une famille independante de v.a dememe loi, integrables et a valeurs dans N∗. Soit S la v.a

S =∑

1≤i≤N

Xi.

Calculer E(S).

Solution : On calcule d’abordE(S|N) et pour cela on evalue ψ(n) = E(S|N =n).

E(S|N = n) =∑

1≤i≤n

E(Xi|N = n)

=∑

1≤i≤n

E(Xi) = nE(X1).

On a donc E(S|N) = E(X1) · N . On utilise ensuite la formule E(S) =E(E(S|N)) et on trouve E(S) = E(X1)E(N).