65
COURS DE STATISTIQUES INFERENTIELLES Licence d’´ economie et de gestion Laurence GRAMMONT [email protected] http://www.univ-st-etienne.fr/maths/CVLaurence.html September 19, 2003

COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

  • Upload
    phamnga

  • View
    238

  • Download
    11

Embed Size (px)

Citation preview

Page 1: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

COURS DE STATISTIQUES

INFERENTIELLES

Licence d’economie et de gestion

Laurence [email protected]

http://www.univ-st-etienne.fr/maths/CVLaurence.html

September 19, 2003

Page 2: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

2

Page 3: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

Contents

1 Rappels 51.1 Statistique descriptive . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.1 Statistique descriptive univariee . . . . . . . . . . . . . . . 51.1.2 Statistique descriptive bivariee . . . . . . . . . . . . . . . 7

1.2 Rappels de probabilite . . . . . . . . . . . . . . . . . . . . . . . . 81.2.1 Espace probabilisable, espace probabilise . . . . . . . . . . 81.2.2 Variables aleatoires . . . . . . . . . . . . . . . . . . . . . . 91.2.3 Independance . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.3 Notions de convergence de v.a . . . . . . . . . . . . . . . . . . . . 111.4 Lois discretes usuelles . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4.1 La loi binomiale B(n, p) . . . . . . . . . . . . . . . . . . . 121.4.2 La loi hypergeometrique H(N,n, p) . . . . . . . . . . . . 131.4.3 La loi de Poisson P(m) . . . . . . . . . . . . . . . . . . . 13

1.5 Lois continues usuelles . . . . . . . . . . . . . . . . . . . . . . . . 141.5.1 La loi normale (Laplace-Gauss) N (µ, σ) . . . . . . . . . . 141.5.2 La loi du Khi-deux a n degres de liberte (χ2

n) . . . . . . . 161.5.3 La loi de Student a n degres de liberte (Tn) . . . . . . . . 171.5.4 La loi de Fischer-Snedecor (F(n1, n2)) . . . . . . . . . . . 18

2 Introduction a la statistique inferentielle 192.1 Generalites sur l’inference statistique . . . . . . . . . . . . . . . . 19

2.1.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . 192.1.2 Les problemes a resoudre . . . . . . . . . . . . . . . . . . 202.1.3 Echantillon, realisation d’echantillon, statistiques . . . . . 21

2.2 Quelques statistiques classiques . . . . . . . . . . . . . . . . . . . 232.2.1 La moyenne empirique et la variance empirique . . . . . . 232.2.2 Lois de probabilite des statistiques X et S2 . . . . . . . . 242.2.3 Frequence empirique F . . . . . . . . . . . . . . . . . . . 27

3 Estimation 293.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.2 Generalites sur les estimateurs . . . . . . . . . . . . . . . . . . . 303.3 Estimation ponctuelle des parametres usuels . . . . . . . . . . . . 31

3.3.1 Estimation de la moyenne . . . . . . . . . . . . . . . . . 31

3

Page 4: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

4 CONTENTS

3.3.2 Estimation de la variance d’une population Gaussienne . 313.3.3 Estimation d’une proportion . . . . . . . . . . . . . . . . 33

3.4 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . 343.4.1 Generalites . . . . . . . . . . . . . . . . . . . . . . . . . . 343.4.2 Intervalle de confiance pour une moyenne . . . . . . . . . 343.4.3 Intervalle de confiance pour la variance d’une variable

gaussienne . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.4.4 Intervalle de confiance pour une proportion . . . . . . . . 39

4 Tests de conformite 414.1 Generalites sur les tests statistiques . . . . . . . . . . . . . . . . . 414.2 Generalites sur les tests de conformite . . . . . . . . . . . . . . . 424.3 Tests de conformite sur une moyenne . . . . . . . . . . . . . . . . 42

4.3.1 Cas d’une variable Gaussienne . . . . . . . . . . . . . . . 424.3.2 Cas d’un echantillon de grande taille . . . . . . . . . . . . 46

4.4 Tests de conformite sur une variance d’une v.a Gaussienne . . . . 464.5 Tests de conformite sur une proportion . . . . . . . . . . . . . . . 494.6 Tests de choix entre deux valeurs du parametre . . . . . . . . . . 50

5 Tests de comparaison 515.1 Generalites sur les tests de comparaison . . . . . . . . . . . . . . 515.2 Tests de comparaison de deux moyennes . . . . . . . . . . . . . 51

5.2.1 Cas ou σ1 et σ2 sont connus . . . . . . . . . . . . . . . . . 525.2.2 Cas ou σ1 et σ2 sont inconnus avec σ1 = σ2 et n1 et n2

< 30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 535.2.3 Cas ou σ1 et σ2 sont inconnus et n1 et n2 > 30 . . . . . . 54

5.3 Tests de comparaison de deux variances . . . . . . . . . . . . . 555.4 Tests de comparaison de deux proportions . . . . . . . . . . . . 56

6 Tests du Khi-deux 596.1 Tests d’adequation a une loi theorique . . . . . . . . . . . . . . . 596.2 Tests d’independance de deux caracteres . . . . . . . . . . . . . . 616.3 Tests d’homogeneite (d’une v.a X) . . . . . . . . . . . . . . . . . 62

Page 5: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

Chapter 1

Rappels

1.1 Statistique descriptive

C’est une methode de description et non une theorie. Elle permet de decrire etnon d’expliquer.

1.1.1 Statistique descriptive univariee

• Ω : ensemble d’individus (population)• M : ensemble de modalites• x : Ω −→ M variable statistique

ex :

Ω = ω/ω = etudiant en AESM = m, b, v, nx(ω) = couleur des yeux de ω

• Soit C1, . . . , Ck une partition de M en k classes.

∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣

classes freq. abs. freq. rel. freq. cumul.C1 n1(nb.ind. ∈ C1) f1 =

n1

NF1 = f1

C2 n2 f2 =n2

NF2 = F1 + f2

...

Ck nk fk =nk

NFk = Fk−1 + fk = 1

N = cardΩ

∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣a) cas discret : Ci = xib) cas continu : Ci = [ei−1, ei[ et l’on pose xi = 1

2 (ei−1 + ei)

5

Page 6: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

6 CHAPTER 1. RAPPELS

• definition(mode): Cj est la classe modale (mode) ssi ∀i ∈ 1, . . . , k

fj ≥ fi

• definition (moments):a) moments d’ordre p centres en 0:

Mp =k∑

i=1

fixpi

x = M1 =k∑

i=1

fixi moyenne de x

a) moments d’ordre p centres en x:

mp =k∑

i=1

fi(xi − x)p

V (x) = m2 =k∑

i=1

fi(xi − x)2 variance de x (= M2 − x2)

• definition (courbe de distribution):a) cas discret

F (x) =∑

i/xi≤x

fi

b) cas continu

F (x) =

0 si x ≤ e0

Fi−1 +fi

ei − ei−1(x− ei−1) si x ∈ [ei−1, ei[

1 si x ≥ ek

• representation graphique

– frequences relatives : diagramme en batons pour les variablesdiscretes ou diagramme circulaire (secteurs proportionnels aux frequences)ou diagramme a bandes pour les variables qualitatives.

– histogramme pour les variables continues :

[ei−1, ei[7−→ hi =fi

ei − ei−1

(surface de l’histogramme =1)

• definition (indices):a) indices centraux (ou parametres de la tendance centrale)

Page 7: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

1.1. STATISTIQUE DESCRIPTIVE 7

La moyenne x = represente globalement le caractere de x (resumeen une seule valeur la grandeur typique d’un ensemble de donnees ;montre une tendance centrale).

La mediane Me est definie par F (Me) = 1/2.

Le mode M0 est la valeur xi t.q. P (x = xi) soit maximale.

b) indices de dispersion

σ =√

V (x) mesure de l’etendue du caractere x.

Quantiles: a l ≥ 2 on associe l − 1 quantiles Q1, . . . , Ql−1 t.q.F (Qj) = j/l, j = 1, . . . , l − 1

c) γ1 =m3

σ3= indice de dissymetrie

(< 0 si x concentre a droite de x, > 0 si x concentre a gauche de x)

d) γ2 =m4

σ4− 3 = indice d’aplatissement

1.1.2 Statistique descriptive bivariee

• 2 variables statistiques x, y definies sur Ω• interet : si on peut expliquer y par x• C1, . . . , Ck classes de xD1, . . . , Dl classes de y

D1 D2 . . . Dl

C1 n11 n12 . . . n1l n1•

C2 n21 n22 . . . n2l n2•

Ck nk1 nk2 . . . nkl nk•

n•1 n•2 . . . n•l

nij = effectifs = cardω ∈ Ω/x(ω) ∈ Ci et y(ω) ∈ Dj = nb.d’individus de Ci ∩Dj

fij = frequences relatives

fij =nij

NN =

∑i,j

nij

effectifs marginaux frequences marginales

ni• =l∑

j=1

nij (cardCi) fi• =ni•

N

n•j =k∑

i=1

nij (cardDj) f•j =n•jN

Page 8: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

8 CHAPTER 1. RAPPELS

• definition (indices centraux et de dispersion):

x =k∑

i=1

fi•xi y =l∑

j=1

f•jyj

V (x) =k∑

i=1

fi•(xi − x)2 V (y) =l∑

j=1

f•j(yj − y)2

σx =√

V (x) σy =√

V (y)

• definition (indices de correlation):

cov(x, y) =k∑

i=1

l∑j=1

fij(xi − x)(yj − y) covariance

ρ(x, y) =cov(x, y)

σxσycoeff. de correlation

y = ax + b, a =cov(x, y)

V (x), b = y − ax droite de regression lineaire

1.2 Rappels de probabilite

1.2.1 Espace probabilisable, espace probabilise

Une experience aleatoire definit un ensemble d’evenements possibles Ω appeleunivers.

• definition : On appelle tribu sur Ω tout sous-ensemble F de P(Ω) tel que(1) Ω ∈ F(2) Si A ∈ F alors A ∈ F(3) ∀An ∈ F , on a ∪nAn ∈ F(Ω,F) est un espace probabilisable.

• definition Soit (Ω,F) est un espace probabilisable. On appelle probabilitesur (Ω,F) toute application P de F dans [0, 1] telle que(1) P (Ω) = 1(2) Pour toute famille (An)n∈IN d’elements deux a deux disjoints de F , on aP (∪nAn) =

∑n P (An)

(Ω,F , P ) est un espace probabilise.P est appelee loi de probabilite.Si Ω est fini, la tribu F est le plus souvent egale a l’ensemble des parties de Ω(P(Ω)). Par contre si Ω = IR, P(IR) ”possede beaucoup trop d’elements ” pourdefinir une axiomatique coherente.Rappelons quelques proprietes elementaires :

∀A,B ∈ P(Ω) P (A ∪B) = P (A) + P (B)− P (A ∩B)

∀A,B ∈ P(Ω) P (A|B) =P (A ∩B)

P (A)

Page 9: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

1.2. RAPPELS DE PROBABILITE 9

• Formule de Bayes Soient (Bi)i=1,..,n une partition de Ω en elements de Fet A ∈ F , on a

P (Bj |A) =P (A|Bj)P (Bj)∑i P (A|Bi)P (Bi)

1.2.2 Variables aleatoires

• definition Soit (Ω,F , P ) un espace probabilise. On appelle variable aleatoireX toute application de Ω dans (E,B) un espace probabilisable qui verifie

∀A ∈ B,X−1(A) ∈ F

• definition Soit (Ω,F , P ) un espace probabilise. On appelle loi de proba-bilite de la variable aleatoire X l’application PX definie sur B par

∀A ∈ B,PX(A) = P (X−1(A))

• Fonction de repartition : F : IR −→ [0, 1]x 7−→ F (x) = P (X ≤ x) (F est une fonction croissante)

(elle associe a x la probabilite de trouver une valeur inferieure a x)Dans la suite v.a sera l’abreviation de variable aleatoire.

Quelques generalites sur les lois discretes

• definition Une variable aleatoire est discrete (v.a.d) si elle est numerique (E = IR) et si l’ensemble de ses valeurs est denombrable X(Ω) = x1, . . . , xNou xn n ∈ IN.

• Une variable aleatoire discrete est definie parSes valeurs x1, . . . , xN ou xn n ∈ INSes probabilites pi = P (X = xi)

• Esperance d’une v.a.d

E(X) =i=N∑i=1

pixi

• Variance d’une v.a.d

V (X) =i=N∑i=1

pix2i − E(X)2

Soient X et Y des v.a.d. dont les valeurs sont respectivement x1, .., xN ety1, .., yM. On notera pi = P (X = xi) et qj = P (Y = yj).

• definition On appelle variable conditionnelle X sachant Y = yj noteeX|Y = yj la v.a.d dont les valeurs sont x1, .., xN et les probabilites sontP (X = xi|Y = yj)On note pij = P (X = xi ∩ Y = yj).

Page 10: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

10 CHAPTER 1. RAPPELS

• definition L’ esperance conditionnelle de X sachant Y = yj est la quantite

E(X|Y = yj) =N∑

i=1

xiP (X = xi|Y = yj)

• Theoreme de l’esperance conditionnelle

E(X) =M∑

j=1

E(X|Y = yj)P (Y = yj)

Quelques generalites sur les lois continues

• Une v.a est dite continue si sa fonction de repartition est continue.• une loi de proba continue est totalement definie soit par sa fonction de

repartition, soit par sa fonction densite de probabilite.

• fonction densite de probabilite: f , positive,∫ ∞

−∞f(t)dt = 1

• fonction de repartition F (x) =∫ x

−∞f(t)dt

•Proprietes: E(X) =

∫ +∞

−∞tf(t)dt

V (X) =∫ +∞

−∞t2f(t)dt− [E(X)]2

Soient X et Y des v.a.c. dont les densites sont respectivement f et g etdont la loi conjointe est definie par la densite h (qui est une fonction de deuxvariables ).

• definition La densite conditionnelle de X par rapport a Y = y est lafonction definie

fX|Y (x, y) =h(x, y)g(y)

• definition L’ esperance conditionnelle de X par rapport a Y = y est laquantite

E(X|Y ) =∫ +∞

−∞xfX|Y (x, y)dx

Si X est integrable, E(X|Y ) est une variable aleatoire en y.• Theoreme de l’esperance conditionnelle

E(X) ==∫ +∞

−∞E(X|Y )g(y)dy

Page 11: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

1.3. NOTIONS DE CONVERGENCE DE V.A 11

1.2.3 Independance

• definition Soient (Ω,F , P ) un espace probabilise et A,B ∈ F . A et B sontdeux evenements independants ssi

P (A ∩B) = P (A)× P (B)

• Soient X et Y deux v.a.d telles que X(Ω) = x1, . . . , xN, Y (Ω) =y1, . . . , yMX et Y sont independantes si

∀i, j P (X = xi ∩ Y = yj) = P (X = xi)× P (Y = yj).

• Soient X et Y deux v.a.c de fonction densite respectivement f et g et defonction densite conjointe h.X et Y sont independantes si

∀x, y h(x, y) = f(x)× g(y).

1.3 Notions de convergence de v.a

• definition Soit (Xn)n∈IN une suite de v.a on dit que (Xn) converge en proba-bilite vers la v.a X (Xn → X en probabilite) ssi∀ε, η, ∃N, (n ≥ N) ⇒ P (|Xn −X| > ε) < ηou plus simplement limn→∞ P (|Xn −X| > ε) = 0.

• Loi faible des grands nombres∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣

∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣

Soient X1, . . . , Xn, n v.a independantes,

soient µi = E(Xi) , σ2i = V (Xi), X =

1n

n∑i=1

Xi

Si1n

n∑i=1

µi −→ µ et1n2

n∑i=1

σ2i −→ 0 quand n −→∞

alors X −→ µ en probabilite(P [|X − µ| > ε] −→ 0 quand n −→∞ ∀ε).

• Corollaire de la loi faible des grands nombres∣∣∣∣∣∣∣∣∣∣∣∣

Soient X1, . . . , Xn, n v.a independantes, de meme loiSi µ = E(Xi)alors X −→ µ en probabilite.

• definition on dit que (Xn) converge en loi vers la v.a X(Xn −→ X en loi ) ssi∀x, Fn(x) −→ F (x)Fn(x) et F (x) etant les fonctions de repartition de Xn et X.

Page 12: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

12 CHAPTER 1. RAPPELS

• La convergence en probabilite implique la convergence en loi mais lareciproque est fausse.

•Theoreme de limite centrale∣∣∣∣∣∣∣∣∣∣∣∣∣

∣∣∣∣∣∣∣∣∣∣∣∣∣

Soient (X1, X2, . . . , Xn) n v.a. independantes de meme loi, de meme esperance µet de meme ecart type σ.Posons Sn = X1 + X2 + . . . + Xn. Alors:

E(Sn) = nµV (Sn) = nσ2

Sn − nµ

σ√

n−→ N (0, 1) en loi quand n −→∞ (Sn ∼ N (nµ, σ

√n) quand n −→∞)

Exemple: Convergence de la loi binomiale (somme de n lois de Bernouilli)vers la loi normale.

1.4 Lois discretes usuelles

1.4.1 La loi binomiale B(n, p)

La loi de Bernouilli B(1, p)

•On realise une experience aleatoire qui a deux resultats possibles : soit le succesqui a un probabilite p de se realiser, soit l’echec qui a une probabilite q=1-p. Lavariable aleatoire X= nombre de succes obtenus suit la loi de Bernouilli noteeB(1, p) et definie par :

P : 0, 1 −→ [0, 1]P (X = 0) = 1− p et P (X = 1) = p

• Proprietes: si X ∼ B(1, p) alorsE(X) = pV (X) = pq

La loi binomiale B(n, p)

• On realise n fois successivement et d’une maniere independante une experiencealeatoire qui a deux resultats possibles, le succes ( associe au resultat pour lequelnous voulons determiner la probabilite) qui a une probabilite p de se realiser etl’echec qui a une probabilite q = 1 − p de se realiser. La v.a X = nombre desucces obtenus au cours des n epreuves suit la loi binomiale notee B(n, p) definiepar:

P : 0, 1, . . . , n −→ [0, 1]

k 7−→ P (X = k) = Cknpk(1− p)n−k, Ck

n =n!

k!(n− k)!(qui represente la probabilite d’obtenir k succes en n essais)• ex: lancement d’une piece de monnaie (pile ou face); qualite d’un produit

(bon ou defectueux); sondage electoral (pour ou contre);...

Page 13: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

1.4. LOIS DISCRETES USUELLES 13

•Proprietes:si X ∼ B(n, p) alors

E(X) = npV (X) = npqsi X1 ∼ B(n1, p) et X2 ∼ B(n2, p) alors, si ces 2 v.a. sont independantes,

Y = X1 + X2 ∼ B(n1 + n2, p)

• remarque: Une variable binomiale est la somme de n variables de Bernouilliindependantes.

X ∼ B(n, p); X = X1 + . . . + Xn, Xi ∼ B(1, p)

1.4.2 La loi hypergeometrique H(N, n, p)

• Dans une population de taille N , on a deux types d’elements, N1 elements detype I et N2 elements de type II. On effectue n tirages sans remise (=prelevementd’un seul coup de n elements). La v.a. discrete X = nombre d’elements de typeI obtenus apres les n tirages suit la loi hypergeometrique notee H(N,n, p) avecp = N1

N , definie parP : 0, 1, . . . , n −→ [0, 1]

k 7−→ P (X = k) =Ck

N1Cn−k

N2

CnN

avec N1 = Np, N2 = Nq

•Proprietes: si X ∼ H(N,n, p) alors

E(X) = np

V (X) =N − n

N − 1npq

•Convergence de la loi hypergeometrique vers la loi binomiale∣∣∣∣∣∣∣∣ Si N −→∞ avec N1/N et N2/N restant finisH(N,n, p) −→ B(n, p) en loi.

(en pratique n/N < 10%).

1.4.3 La loi de Poisson P(m)

• Elle convient a la description d’ evenements dont les chances de realisationsont faibles.

• ex: nb d’occurences d’un evenement dans un certain laps de temps ou dansune region donnee (nb. d’accidents/semaine sur une autoroute; nb. d’appelstelephoniques dans un intervalle de temps; nb. de naissances/ annee dans unepetite municipalite...)

Page 14: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

14 CHAPTER 1. RAPPELS

• La probabilite d’observer exactement k occurrences d’un certain evenementdans une unite de temps ou de region si X ∼ P(m), est donnee par:

P (X = k) =e−mmk

k!ou m = nb. moyen d’occurences.•Proprietes:

si X ∼ P(m) alorsE(X) = mV (X) = msi X1 ∼ P(m1) et X2 ∼ P(m2), X1, X2 independantes, alors

Y = X1 + X2 ∼ P(m1 + m2)generalisation: Z = X1 + X2 + . . . + Xn ∼ P(m1 + m2 + . . . + mn)

• exemple: Parmi la production de pieces d’une machine, 4% sont defectueuses.On preleve un echantillon de 100 pieces. X= nb. de pieces defectueuses danscet echantillon.

a) P (X = 0) =? ; X ∼ H(N, 100, 0.04) ∼ B(100, 0.04) ∼ P(m), m =100× 0.04 = 4

P (X = 0) = 0.0183b) P (X < 10) = P (X ≤ 9) = 0.9919 (tables)c) P (X > 5) = 1− P (X ≤ 5) = 1− 0.7852 = 0.2148

•Convergence de la loi binomiale vers la loi de Poisson∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣

Soit X ∼ B(n, p) alors , si n grand et p petiton peut approximer la loi binomiale par une loi de PoissonP(m), m = np.(il s’agit d’une convergence en loi)

(en pratique n > 50, p < 0.1)

1.5 Lois continues usuelles

1.5.1 La loi normale (Laplace-Gauss) N (µ, σ)

• µ ∈ IR, σ ∈ IR∗+

C’est la plus importante des lois de probabilite continues. Des questionstant theoriques que pratiques font appel a cette loi (souvent loi limite). His-toriquement elle apparaıt vers 1773 comme la forme limite de la loi binomiale(Abraham de Moivre). Gauss en 1809 et Laplace en 1812 lui donnerent sa formedefinitive.

• definition (fonction densite): Une v.a. suit une loi de Laplace-Gauss deparametres µ et σ si sa fonction densite est:

f(t) =1

σ√

2πe−

12(t− µ

σ)2

pour t ∈ IR

Page 15: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

1.5. LOIS CONTINUES USUELLES 15

• X ∼ N (µ, σ)• fonction de repartition

F (x) =∫ x

−∞

1σ√

2πe−

12(t− µ

σ)2

dt

•Proprietes: si X ∼ N (µ, σ) alors

E(X) = µV (X) = σ2

• La loi normale centree reduite∣∣∣∣∣∣∣∣∣∣

∣∣∣∣∣∣∣∣∣∣

Soit X ∼ N (µ, σ) alors

U =X − µ

σ∼ N (0, 1) loi normale centree reduite

fU (t) =1√2π

e−

12t2

(X = σU + µ)

• remarque: La loi normale centree reduite est tabulee et la formule ci-dessus

(U =X − µ

σ) permet un calcul rapide des probabilites.

• Exemple:a)∣∣∣∣∣∣∣∣∣∣∣

X ∼ N (µ, σ)

P (a < X < b) = P (a− µ

σ<

X − µ

σ<

b− µ

σ) = P (

a− µ

σ< U <

b− µ

σ)

numerique : µ = 2, σ = 0.5, a = 1.7, b = 2.1P (1.7 < X < 2.1) = P (−0.6 < U < 0.2)

b)∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣

U ∼ N (0, 1)si P (U < a), a > 0 est connue, alors

P (U < −a) = 1− P (U < a);P (−a < U < a) = P (U < a)− P (U < −a)= P (U < a)− [1− P (U < a)] = 2P (U < a)− 1;

numerique : a = 1.87P (U < 1.87) = 0.9693;P (U < −1.87) = 1− 0.9693 = 0.0307;P (−1.87 < U < 1.87) = 0.9693− 0.0307 = 0.9386 (= 2× 0.9693− 1 = 0.9386).

Page 16: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

16 CHAPTER 1. RAPPELS

•Additivite ( v.a. independantes)∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣

∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣

Soient X1 ∼ N (µ1, σ1) et X2 ∼ N (µ2, σ2) independantes, alors

X1 + X2 ∼ N (µ1 + µ2,√

σ21 + σ2

2)generalisation : a)Xi ∼ N (µi, σi), i = 1, . . . , n independantes

n∑i=1

Xi ∼ N (n∑

i=1

µi,

√√√√ n∑i=1

σ2i )

b) Xi ∼ N (µ, σ), i = 1, . . . , n independantes1n

(X1 + . . . + Xn) ∼ N (µ,σ√n

)

•Convergence de la loi binomiale vers la loi normale∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣

Soit X ∼ B(n, p) alorsX − np√

npq−→ N (0, 1) en loi quand n −→∞

ou bien B(n, p) ≈ N (np,√

npq) (n −→∞)

Ceci signifie que lorsque n est assez grand, on peut approximer laloi binomiale par la loi normale; en pratique p ∈ [0.1, 0.9], n > 30.Dans certains ouvrages, on trouve la condition np(1 − p) > 9 ounp , nq > 5.

• Convergence de la loi de Poisson vers la loi normale∣∣∣∣∣∣∣∣∣∣∣∣

Soit X ∼ P(m) alors si m −→∞X −m√

m−→ N (0, 1) en loi

L’approximation est tres satisfaisante pour m > 18.

1.5.2 La loi du Khi-deux a n degres de liberte (χ2n)

• elle joue un role important dans les tests statistiques.• on obtient une valeur χ2

n en additionnant des nombres au carre, donc cettevaleur ne peut pas etre negative

• l’aspect de la courbe d’une distribution χ2n variera selon le nombre de

degres de liberte n qui est le seul parametre de cette distribution.• definition: Soient X1, . . . , Xn n v.a. independantes t.q. Xi ∼ N (0, 1) ∀i.

AlorsX2

1 + . . . + X2n ∼ χ2

n

• remarque: la fonction densite de probabilite de χ2n est

fχ2n(t) = cntn/2−1e−t/2

Page 17: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

1.5. LOIS CONTINUES USUELLES 17

ou cn sont t.q.∫

IR

fχ2n(t)dt = 1.

• si n > 2 alors le mode = n − 2 (mode = valeur pour laquelle la courbeatteint son maximum)

• Proprietes: si X ∼ χ2n (mode = n− 2, n > 2) alors

E(X) = nV (X) = 2n

• Convergence de la loi χ2n vers la loi normale (approximation)∣∣∣∣∣∣∣∣∣∣

∣∣∣∣∣∣∣∣∣∣Soit X ∼ χ2

n alorsX − n√

2n−→ N (0, 1) en loi quand n −→∞

ou bien χ2n ≈ N (n,

√2n) n −→∞

(en pratique n > 30)

• Additivite ( v.a. independantes)∣∣∣∣∣∣∣∣ Soient X1 ∼ χ2n1

, . . . , Xk ∼ χ2nk

independantesAlors Z = X1 + . . . + Xk ∼ χ2

n avec n = n1 + . . . + nk

1.5.3 La loi de Student a n degres de liberte (Tn)

• Elle joue un role important dans l’estimation par intervalle de confiance. Elleest symetrique, de moyenne nulle et depend d’un parametre n appele nombrede degres de liberte.

• L’aspect de la courbe variera selon le nombre de degres de liberte n (defacon generale, elle est plus aplatie que N (0, 1) et quand n augmente (n > 30)les 2 courbes se confondent)

• definition: Soient X ∼ N (0, 1), Y ∼ χ2n v.a. independantes. Alors

Z =X√Y/n

∼ tn

• remarque: la fonction densite de probabilite de tn est

ftn(t) = cn(1 +t2

n)−(n+1)/2

ou cn sont t.q.∫

IR

ftn(t)dt = 1.

• Proprietes: si X ∼ tn alors

E(X) = 0 , n > 1V (X) =

n

n− 2, n > 2

Page 18: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

18 CHAPTER 1. RAPPELS

• Convergence de la loi Student vers la loi normale (approximation)∣∣∣∣∣∣∣∣∣∣∣∣

Soit X ∼ tn alorsX −→ N (0, 1) en loi quand n −→∞(en pratique n > 30)

1.5.4 La loi de Fischer-Snedecor (F(n1, n2))

• loi continue• definition: Soient Y1 ∼ χ2

n1et Y2 ∼ χ2

n2, 2 v.a. independantes. Alors

F =Y1/n1

Y2/n2∼ F(n1, n2)

(loi de Fischer-Snedecor a n1 et n2 degres de liberte)• remarque: la fonction densite de probabilite de F(n1, n2) est

fF (t) = cn1,n2tn1/2−1(n1t + n2)−(n1+n2)/2, t > 0

• 2 parametres: n1, n2

• Proprietes: si F ∼ F(n1, n2) alors

E(F ) =n1

n2 − 2, n2 > 2

V (F ) =2n2

2(n1 + n2 − 2)n1(n2 − 2)2(n2 − 4)

, n2 > 4

Page 19: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

Chapter 2

Introduction a la statistiqueinferentielle

2.1 Generalites sur l’inference statistique

2.1.1 Definitions

population, echantillon

• population = ensemble d’unites statistiques

(poulets, etudiants inscrits en AES en 1996, firmes commerciales ...)

recensement = observer toutes les unites de la population

• echantillon = sous-ensemble de la population etudiee

(joueurs de foot = population

equipe de St-Etienne = echantillon)

sondage = observer les unites de l’echantillon (il aboutit, on le verraplus tard, a une distribution experimentale)

• en statistique, on decrit ces groupes d’unites (population ou echantillon)a l’aide de mesures ou caracteristiques (effectif, moyenne, ecart-type, pourcent-age...)

∥∥∥∥∥∥∥∥– mesures ou caracteristiques utilisees pour decrire une population

s’appellent PARAMETRES.– mesures ou caracteristiques utilisees pour decrire un echantillon

s’appellent realisations (ou observations) de STATISTIQUES.

19

Page 20: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

20CHAPTER 2. INTRODUCTION A LA STATISTIQUE INFERENTIELLE

L’inference statistique

C’ est l’ensemble des methodes permettant de tirer des conclusions sur un groupedetermine a partir des donnees provenant d’un echantillon choisi dans cettepopulation.

2.1.2 Les problemes a resoudre

Question 1

exemple: Le responsable de la diffusion d’un produit fait un sondagepour connaıtre la depense moyenne par differentes categories socio-professionnelles de la population francaise pour ce type d’achat. Ilfera ainsi une estimation de cette depense moyenne. Il peut aussivouloir connaıtre la precision de cette estimation.

Ainsi, les statistiques sont utilisees pour ESTIMER les parametres.

Un premier probleme qui se pose est donc de faire desestimations ponctuellesestimations par intervalle de confiance

et fera l’objet du chapitre 3.

Question 2

exemple: En matiere de controle de qualite, on souhaite lors de lareception d’echantillons de pieces mecaniques comparer le taux dedechets observes par rapport a la norme fixee de maniere a refuserle lot si son le taux de dechets depasse la norme.

Dans la plupart des situations reelles, la valeur du parametre est inconnue,mais il arrive que l’on ait une idee du parametre et qu’on puisse formuler uneHYPOTHESE concernant la valeur de celui-ci. Les observations peuvent con-firmer ou infirmer l’hypothese formulee. Il arrive souvent que la difference entrela valeur de la statistique d’echantillon et la valeur hypothetique du parametrene soit ni petite ni grande, de sorte que la decision a prendre ne s’impose pasd’elle meme. Il faut donc definir les criteres qui permettent la prise de decision.

Ce sont les TESTS DE CONFORMITE (chapitre 4).

Question 3

Les personnes qui decident sont souvent interessees a determiner si deux pop-ulations donnees sont semblables ou nettement differentes par rapport a unecaracteristique particuliere.

ex.1: un medecin peut vouloir determiner si la reponse a un certainmedicament (experimental) differe d’un groupe a un autre.

Page 21: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

2.1. GENERALITES SUR L’INFERENCE STATISTIQUE 21

ex.2: un acheteur peut vouloir comparer la duree de vie d’un certainproduit provenant de 2 fournisseurs. differents

Ce sont les TESTS DE COMPARAISON (chapitre 5).

Question 4

D’autres problemes peuvent se poser, par exemple de savoir si une populationdonnee suit une loi de probabilite particuliere connue.

Ce sont les TESTS D’AJUSTEMENT (analytique) qui permettent de verifierla qualite de l’ajustement de la population etudiee a une loi normale, binomiale,de Poisson ou encore uniforme.

Ils ont pour but d’etablir s’il est plausible que l’echantillon (aleatoire) provi-enne d’une population dont la loi de probabilite aurait ete celle specifiee (chapitre6).

Question 5

Il est interessant de savoir, dans certaines situations, si 2 caracteres qualitatifssont independants. Les TESTS D’INDEPENDANCE seront traites dans lechapitre 6.

Question 6

On peut vouloir savoir si plusieurs populations sont homogenes par rapport aun certain caractere. Les TESTS D’HOMOGENEITE seront traites dans lechapitre 6).

2.1.3 Echantillon, realisation d’echantillon, statistiques

On veut, a partir d’un echantillon de la population, deduire des informationssur cette population. Le probleme qui se pose alors est le suivant: commentchoisir une partie de la population qui reproduit le plus fidelement possible sescaracteristiques. C’est le probleme de l’echantillonnage.

Prelevement d’un echantillon (echantillonnage)

1. Echantillonnages sur la base des methodes empiriques

La Methode des quotas (respect de la composition de la population pourcertains criteres) est la plus utilisee.

2. Echantillonnages aleatoires

– Quand la probabilite de selection de chaque element de la populationest determinee avant meme que l’echantillon soit choisi.

– Il permet de juger objectivement la valeur des estimations.

Echantillonnage aleatoire simple – on tire au hasard et avec remise lesunites dans la population concernee.

Page 22: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

22CHAPTER 2. INTRODUCTION A LA STATISTIQUE INFERENTIELLE

Echantillonnage stratifie

– Subdiviser d’abord la population en sous-ensembles (strates) relative-ment homogenes.

– Extraire de chaque strate un echantillon aleatoire simple.

– Regrouper tous ces echantillons.

Echantillonnage par grappes

– Choisir un echantillon aleatoire d’unites qui sont elles-memes des sous-ensembles de la population (grappes).

(ex : diviser la ville en quartiers; un certain nombre de quartiers sontchoisis pour faire partie de l’echantillon; on fait l’enquete aupres de toutesles familles residant dans ces quartiers).

Modelisation de l’echantillonnage aleatoire simple

Dans la suite, on traite le cas de l’echantillonnage aleatoire simple, car les con-cepts fondamentaux et les formules importantes decoulent de cette methode.Ce type d’echantillonnage consiste a extraire un echantillon de taille n dans unepopulation de taille N par des tirages aleatoires equiprobables et independants(tirages avec remise). On introduit le modele suivant :Soit Ω = w1, . . . , wN la population constituee d’elements appeles unites d’observation.Soit X le caractere que l’on voudrait etudier sur l’ensemble de cette population.Xk, le resultat aleatoire du k iem tirage, est une v.a qui suit la meme loi queX. On note xk le resultat du k iem tirage.On note (X1, . . . , Xn) les resultats aleatoires de ces tirages.

• definition: (X1, . . . , Xn) sont n v.a. independantes et de meme loi (cellede X); il est appele n-echantillon ou echantillon de taille n de X.

Apres tirage au sort,(X1, . . . , Xn) prend les valeurs (x1, . . . , xn)

• definition: La realisation unique (x1, . . . , xn) de l’echantillon (X1, . . . , Xn)est l’ensemble des valeurs observees.

• definition: Une statistique Y sur un echantillon (X1, . . . , Xn) est une v.a.,fonction mesurable des Xk; Y = f(X1, . . . , Xn).

Apres realisation, la v.a. Y (statistique) prend la valeur f(x1, . . . , xn).

Les statistiques sont utilisees pour estimer les caracteristiques de la popu-lation totale. Les statistiques les plus utilisees sont la moyenne empirique, lavariance empirique, la frequence empirique.

Page 23: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

2.2. QUELQUES STATISTIQUES CLASSIQUES 23

2.2 Quelques statistiques classiques

Rappels

E(aX + b) = aE(X) + bE(X + Y ) = E(X) + E(Y )V (aX + b) = a2V (X)V (X) = E(X2)− [E(X)]2 = E([X − E(X)]2)si X, Y independantes,

V (X + Y ) = V (X) + V (Y )

2.2.1 La moyenne empirique et la variance empirique

Posons E(X) = µ, V (X) = σ2 (inconnues)

• definition : On appelle moyenne empirique de l’echantillon (X1, . . . , Xn)de X, la statistique

X =1n

n∑i=1

Xi.

Sa realisation est x =1n

n∑i=1

xi (qui est la moyenne de l’echantillon) aussi

appelee moyenne observee.(on verra plus tard que X estimera l’esperance E(X))

• Proprietes: E(X) = µ

V (X) =1n

σ2

Calculons

E(X) = E(1n

n∑i=1

Xi) =1n

n∑i=1

E(Xi) =1n

n∑i=1

E(X) = E(X) = µ

V (X) = V (1n

n∑i=1

Xi) =1n2

V (n∑

i=1

Xi) =1n2

n∑i=1

V (Xi) =1n2

n∑i=1

V (X)

=nV (X)

n2=

1n

V (X) =1n

σ2

• definition : On appelle variance empirique de l’echantillon (X1, . . . , Xn)de X , la statistique

S2 =1n

n∑i=1

(Xi − X)2 =1n

(n∑

i=1

X2i )− X2.

Page 24: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

24CHAPTER 2. INTRODUCTION A LA STATISTIQUE INFERENTIELLE

Sa realisation est s2 =1n

n∑i=1

(xi − x)2 (qui est la variance de l’echantillon), aussi

appelee variance observee.• Proprietes:

E(S2) =n− 1

nσ2

Calculons

E(S2) = E(1n

n∑i=1

(Xi − X)2) = E(1n

n∑i=1

X2i − X2)

=1n

E(n∑

i=1

X2i )− E(X2) =

1n

n∑i=1

E(X2i )− E(X2)

=1n

n∑i=1

[V (Xi) + (E(Xi))2]− [V (X) + (E(X))2]

=1n

n∑i=1

[V (X) + (E(X))2]− 1n

σ2 − µ2

= V (X) + (E(X))2 − 1n

σ2 − µ2 = σ2 + µ2 − 1n

σ2 − µ2

= (1− 1n

)σ2 =n− 1

nσ2

2.2.2 Lois de probabilite des statistiques X et S2

• Theoreme limite centrale (pour l’echantillon) (rappel):∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥

Soit X une v.a. t.q. E(X) = µ, V (X) = σ2 6= 0Soit (X1, . . . , Xn) un n- echantillon de X

X =1n

(X1 + . . . + Xn)

AlorsX − µ

σ/√

n∼ N (0, 1) pour n →∞

(loi approximative)(ou bien X ∼ N (µ,

σ√n

) pour n →∞)

• 2 cas a etudier:

– a) la taille n de l’echantillon est grande

– b) X suit une loi gaussienne

a) Taille n grande

(d’apres le thm. limite centrale)

1)X − µ

σ/√

nsuit approximativement N (0, 1)

Page 25: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

2.2. QUELQUES STATISTIQUES CLASSIQUES 25

X − µ

σ/√

n∼ N (0, 1) pour n →∞

ou bien

X suit approximativement N (µ,σ√n

) (en pratique n > 30)

• exercice Soit un lot de 500 chocolats. Le poids d’un chocolat est une v.a.telle que µ = 5g et σ = 0.5g. Quelle est la probabilite qu’une boıte de 50chocolats issus de ce lot ait un poids total superieur a 260g?

solution

L’echantillon etant grand (n = 50 > 30) et on peut appliquer lapremiere formule:

X ∼ N (5,0.5√50

) approximativement

on pose T = 50X; cette nouvelle v.a. suit approximativement:

T ∼ N (50× 5,50× 0.5√

50) = N (250, 0.5

√50)

calculons

P (T > 260) = P (U > 260−2500.5

√50

) = P (U > 2.83)= 1− P (U < 2.83) = 1− 0.9977

b) Echantillon gaussien

Soit X ∼ N (µ, σ)

(d’apres l’additivite pour des v.a. suivant des lois normales)

1) X ∼ N (µ,σ√n

)

ou bien

X − µ

σ/√

n∼ N (0, 1)

Attention!!!!!

c’est une loi exacte et non une approximation comme dans le casd’un echantillon de grande taille ou la loi n’est pas connue.

2)n

σ2S2 ∼ χ2

n−1

3)X − µ√

S2/√

n− 1∼ tn−1

Page 26: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

26CHAPTER 2. INTRODUCTION A LA STATISTIQUE INFERENTIELLE

U =X − µ

σ/√

n∼ N (0, 1)

Y =nS2

σ2∼ χ2

n−1

et alors

Z =U√

Y/(n− 1)∼ tn−1

calculons Z : Z =X − µ

σ/√

n· 1√

nS2

σ2(n−1)

=X − µ√

S2

n−1

•exercice On preleve 25 pieces dans une production industrielle. Une etudeprealable a montre que le diametre de ces pieces suivait une loi gaussiennede moyenne 10mm et d’ecart-type 2mm. Entre quelles valeurs a-t-on 85% dechances de trouver l’ecart-type de ces pieces?

solution

pour commencer, il faut determiner α et β t.q.

0.85 = P (α < nS2

σ2 < β) = P (nS2

σ2 < β)− P (nS2

σ2 < α)= 1− P (nS2

σ2 > β)− [1− P (nS2

σ2 > α)]= P (nS2

σ2 > α)− P (nS2

σ2 > β)

on sait quenS2

σ2∼ χ2

25−1 = χ224 et alors on cherche dans la table du

χ2n a 24 degres de liberte les valeurs α et β comme suit:

P (nS2

σ2 > α) = 0.90P (nS2

σ2 > β) = 0.05(choix du aux tables)

on trouve: α = 15.659β = 36.415

et alorsP (15.659 < 25S2

22 < 36.415) = 0.85P (2.5054 < S2 < 5.8264) = 0.85

P (1.58 < S < 2.41) = 0.85

Attention: il ne faut pas confondre l’ecart-type de l’echantillon, note s, valeurobservee de la statistique S (les calculs ont ete faits pour cette statistique S),avec le PARAMETRE ecart-type sur la population, note σ, de la loi normalequi etait connu dans ce probleme!

Page 27: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

2.2. QUELQUES STATISTIQUES CLASSIQUES 27

2.2.3 Frequence empirique F

Soit une population comportant deux modalites A et B. Soit π la proportiond’individus de la population possedant la modalite A. 1−π est donc la proportiondes individus de la population possedant la modalite B.

On extrait de la population un echantillon de taille n. Soit Kn la v.a quirepresente le nombre d’individus dans l’echantillon ayant la modalite A.

• definition: La v.a. F =Kn

ns’appelle frequence empirique.

Sa realisation f est la proportion d’individus dans l’echantillon ayant lamodalite A.

• Proprietes: K ∼ B(n, π) doncE(F ) = π

V (F ) =π(1− π)

n

• Loi de probabilite pour F

F ∼ N (π,

√π(1− π)

n)

des que n > 30, π ∈ [0.1, 0.9]. On trouve aussi nπ > 5, n(1−π) > 5ou les seules conditions nπ > 5, n(1− π) > 5)

(loi approximative).

F − π√π(1−π)

n

∼ N (0, 1)

Page 28: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

28CHAPTER 2. INTRODUCTION A LA STATISTIQUE INFERENTIELLE

Page 29: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

Chapter 3

Estimation

3.1 Introduction

La distribution exacte d’une variable X modelisant le caractere qui interessele statisticien (taux de pollution d’une riviere, depenses des menages pour lelogement...) est generalement partiellement connue. Souvent la loi de X dependd’un parametre inconnu. On cherche a se faire une idee sur ce parametre a partirdes donnees observees sur l’echantillon.

Attribuer au parametre une valeur numerique unique est une ESTIMATIONPONCTUELLE. Pour ce faire, on choisit une statistique dont la valeur est, aprestirage aleatoire de l’echantillon, l’estimation du parametre. Cette statistique estl’ESTIMATEUR.

Mais quelles sont les chances pour que cette estimation ponctuelle soit ex-acte? Plutot que d’estimer un parametre a l’aide d’un seul nombre, il ar-rive frequemment que l’on fasse l’estimation en donnant un INTERVALLE devaleurs. Un INTERVALLE D’ESTIMATION (ou de CONFIANCE) est definide telle sorte que l’on puisse affirmer avec un degre de confiance fixe que leparametre vise se trouve dans cet intervalle.

Nous nous interesserons dans ce chapitre a l’estimation des principales car-acteristiques (ou parametres) d’une v.a dans une population, a savoir la moyenne,la variance et la frequence.

Notations

• les parametres a estimer seront notes par des lettres grecques minuscules

µ : moyenne

σ : ecart-type

σ2 : variance

π : proportion

• les realisations d’echantillon seront notees par des lettres latines minuscules

29

Page 30: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

30 CHAPTER 3. ESTIMATION

x1, . . . , xn : valeur de l’echantillon

x : moyenne de l’echantillon

s : ecart-type de l’echantillon

s2 : variance de l’echantillon

p : proportion dans l’echantillon

• les estimateurs ( v.a. ou statistiques) seront notes par des majuscules

X

S2

F

3.2 Generalites sur les estimateurs

Soit X une v.a. dont la loi depend d’un parametre inconnu θ.Soit (X1, . . . , Xn) un n-echantillon de X et (x1, . . . , xn) sa realisation. Il

s’agit d’estimer le parametre θ.

• definition : Un ESTIMATEUR de θ sera une statistique T = f(X1, . . . , Xn)et sa realisation sera notee t = f(x1, . . . , xn)

Pour un meme parametre, il peut y avoir plusieurs estimateurs possibles(ex: Le parametre λ d’une loi de Poisson admet comme estimateurs possiblesla moyenne empirique et la variance empirique). Pour pouvoir choisir, il fautdefinir les qualites qui font qu’un estimateur sera meilleur.

• On appelle erreur d’estimation: T − θ.Celle-ci peut se decomposer de la facon suivante:T − θ = T − E(T ) + E(T )− θLe terme T − E(T ) traduit la fluctuation de T autour de son esperanceet le terme E(T ) − θ = B(T ) represente l’erreur systematique et s’appelle

BIAIS de l’ESTIMATEUR

• definition (estimateur sans biais):Un estimateur T de θ est dit sans biais si

E(T ) = θ, (ou bien B(T ) = 0)

• exemple : La moyenne empirique est un estimateur sans biais du parametreλ d’une loi de Poisson. La variance empirique est estimateur biaise du memeparametre λ.

En effet, E(X) = λ, E(S2) =n− 1

nλ car E(X) = V (X) = λ.

Page 31: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

3.3. ESTIMATION PONCTUELLE DES PARAMETRES USUELS 31

• definition :Un estimateur T de θ est dit asymptotiquement sans biais si E(T ) −→ θ

pour n →∞.

• definition :

Un estimateur

sans biaisasymptotiquement sans biais

est dit convergent si V (T ) −→

0 pour n →∞.• definition :Soient T et T ′ deux estimateurs sans biais de θ. T est dit plus efficace que

T ′ siV (T ) ≤ V (T ′)

• definition :L’estimateur sans biais et de variance minimale est appele estimateur efficace.

3.3 Estimation ponctuelle des parametres usuels

3.3.1 Estimation de la moyenne

Soit X une v.a dont on veut estimer la moyenne (ou esperance) µ = E(X) apartir d’un n-echantillon (X1, . . . , Xn) de X.

On ne suppose rien sur la loi de X.

• theoreme

X =1n

(X1 + . . . + Xn) , la moyenne empirique, est un estimateur efficace

de µ.

car sans biais E(X) = µ et de plus V (X) =V (X)

n−→ 0 pour

n →∞, et ∀T , un autre estimateur de µ , V (T ) > V (X).

• x est la realisation de X et donc une estimation efficace de µ

3.3.2 Estimation de la variance d’une population Gaussi-enne

Soit X une v.a qui suit une loi normale N (µ, σ). On veut estimer la varianceσ2 de X.

a) µ connue

• theoreme :

T 2 =1n

n∑i=1

(Xi − µ)2 est un estimateur efficace de σ2

Page 32: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

32 CHAPTER 3. ESTIMATION

en effet,

E(T 2) = E(1n

n∑i=1

(Xi − µ)2) = E(1n

n∑i=1

X2i − 2

1n

n∑i=1

µXi + µ2)

=1n

E(n∑

i=1

X2i )− 2µ

1n

n∑i=1

E(Xi) + µ2

=1n

n∑i=1

E(X2i )− µ2 =

1n

n∑i=1

[V (Xi) + (E(Xi))2]− µ2

= σ2 + µ2 − µ2 = σ2

donc sans biais

V (T 2) = V (1n

n∑i=1

(Xi − µ)2) =1n2

V (n∑

i=1

(Xi − µ)2)

=1n2

n∑i=1

V ((Xi − µ)2) =1n2

n∑i=1

[E((Xi − µ)4)− (E((Xi − µ)2))2] = . . . −→ 0

b) µ inconnue

• theoreme :

S2 =1n

n∑i=1

(Xi − X)2 , c’est-a-dire la variance empirique, est un estimateur

biaise de σ2, mais asymptotiquement sans biais.

en effet,

E(S2) =n− 1

nσ2

B(S2) = E(S2)− σ2 = (1− 1n

)σ2 = − 1n

σ2

V (S2) −→ 0 pour n →∞

• theoreme :

(S′)2 =n

n− 1S2 =

1n− 1

n∑i=1

(Xi − X)2

est un estimateur sans biais de σ2

en effet,

E((S′)2) =n

n− 1E(S2) =

n

n− 1n− 1

nσ2 = σ2

donc sans biais

• n grand, E(S2) ≈ E((S′)2) et on prefere S2

• n petit, on prefere (S′)2

Page 33: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

3.3. ESTIMATION PONCTUELLE DES PARAMETRES USUELS 33

3.3.3 Estimation d’une proportion

Soit une population ayant des individus possedant une certaine caracteristiqueA. On veut estimer a partir d’un echantillon de taille n la proportion d’individuspossedant cette caracteristique A. Soit K la v.a qui represente le nombre d’individusdans l’echantillon possedant la caracteristique A.

• theoreme :La frequence empirique F = K/n est l’estimateur efficace de π.

E(F ) =E(X1) + . . . + E(Xn)

n= π donc F est un estimateur sans biais de

π

V (F ) =V (X1) + . . . + V (Xn)

n2=

nπ(1− π)n2

=π(1− π)

ndonc F est un es-

timateur convergent de π

Exemples d’estimations ponctuelles

• Exercice 1: (estimation d’une moyenne, d’un ecart-type)Lors d’un concours radiophonique, on note X: le nb. de reponses recues

chaque jour. On suppose X ∼ N (µ, σ). Durant 10 jours on a obtenu:xi — 200 240 190 150 220 180 170 230 210 210 . Donner une es-

timation ponctuelle de µ, σ2.solutionn = 10X =

110

(X1 + . . . + X10) est un estimateur de µ

sa realisation x =110

(x1 + . . . + x10) =200010

= 200 est une estimation ponctuelle,efficace de µ

– on est dans le cas ou la moyenne µ n’est pas connue (cas b))

S2 =110

(X21 + . . . + X2

10)− (X)2 est un estimateur biaise de σ2

sa realisation s2 =110

(x21 + . . . + x2

10)− x2 = 40700− 40000 = 700 est une

estimation ponctuelle, biaise de σ2

(S′)2 =n

n− 1S2 =

109

S2 est un estimateur sans biais de σ2

sa realisation (s′)2 =109

s2 =109

700 = 778 est une estimation ponctuelle,

sans biais de σ2

• Exercice 2: (estimation d’une proportion)Dans une population d’etudiants AES, on a preleve independamment 2

echantillons de taille n1 = 120, n2 = 150. On constate que 48 etudiants du1-er echantillon et 66 du 2-eme ont une formation scientifique secondaire. Soitπ la proportion d’etudiants ayant suivi une formation scientifique. Calculer 3estimations ponctuelles de π.

Page 34: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

34 CHAPTER 3. ESTIMATION

solution

F =K

n; f1 =

48120

= 0.4, f2 =66150

= 0.44, f3 =48 + 66

120 + 150= 0.422

3.4 Intervalle de confiance

3.4.1 Generalites

Il est plus realiste et plus interessant de fournir une estimation du type

t1 < θ < t2

plutot que d’ecrire sechement θ = t, car on sait que la valeur estimee t differetoujours de la valeur exacte du parametre recherche, θ. Il est donc souhaitablede donner la precision de l’estimation en acceptant de faire une erreur α surcelle-ci.

• definition:Soit X une v.a. dont la loi depend d’un parametre inconnu θ; on appelle

INTERVALLE DE CONFIANCE pour θ de niveau 1 − α (ou de seuil α), unintervalle qui a la probabilite 1− α de contenir la vraie valeur de θ.

[t1, t2] est un intervalle de confiance de niveau 1− α pour θ signifie

P (t1 < θ < t2) = 1− α

(plus le niveau de confiance est eleve, plus la certitude est grande que la methoded’estimation produira une estimation contenant la vraie valeur de θ)

• les niveaux de confiance les plus frequemment utilises sont 90%, 95%, 99%• α est appele le seuil (le risque); on choisira dans la plupart des cas un

intervalle a risques symetriques, c-a-d t.q.

P (θ < t1) =α

2, P (θ > t2) =

α

2

• remarque: Si on augmente le niveau de confiance 1 − α, on augmente lalongueur de l’intervalle.

3.4.2 Intervalle de confiance pour une moyenne

a) cas ou n, la taille de l’echantillon, est petite n < 30

On suppose que X ∼ N (µ, σ).On distingue deux cas σ connu et σ inconnu.

a-1) σ connu

• X ∼ N (µ,σ√n

) d’apres un resultat du chapitre 2

Page 35: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

3.4. INTERVALLE DE CONFIANCE 35

(ou bienX − µ

σ/√

n∼ N (0, 1))

• On se fixe le risque α et on cherche dans la table de la loi normale la valeuru1−α

2telle que

P (−u1−α2

<X − µ

σ/√

n< u1−α

2) = 1− α

m

P (X − µ

σ/√

n< u1−α

2) = 1− α/2

u1−α2

est le fractile d’ordre 1− α2 de la loi normale centree reduite.

P (−u1−α2

<X − µ

σ/√

n< u1−α

2) = 1− α

mP (X − u1−α

2

σ√n

< µ < X + u1−α2

σ√n

) = 1− α

• Conclusion : si x est une realisation de X, l’intervalle de confiance de µde seuil α est

I = [x− u1−α2

σ√n

, x + u1−α2

σ√n

]

• exemple: n = 15, σ = 3.75, α = 5%,∑15

i=1 xi = 2400 alors x =2400/15 = 160, u1−α

2= 1.96 car P (U < −1.96) = 0.025

on suppose X gaussienne et on obtient l’intervalle de confiance:

[160− 1.963.75√

15, 160 + 1.96

3.75√15

] = [158.10, 161.90]

a-2) σ inconnu

• X − µ

S√

n− 1∼ tn−1 d’apres le chapitre 2.

• On cherche dans la table de la loi de Student, α etant fixe, la valeurtn−1(1−α

2 ) telle que

P (−tn−1(1−α2 ) <

X − µ

S/√

n− 1< tn−1(1−α

2 )) = 1− α

m

P (X − µ

S/√

n− 1< tn−1(1−α

2 )) = 1− α/2.

Page 36: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

36 CHAPTER 3. ESTIMATION

On a

P (−tn−1(1−α2 ) <

X − µ

S/√

n− 1< tn−1(1−α

2 )) = 1− α

m

P (X − tn−1(1−α2 )

S√n− 1

< µ < X + tn−1(1−α2 )

S√n− 1

) = 1− α

• Conclusion : si x est une realisation de X et s une realisation de S,l’intervalle de confiance de µ de seuil α est

I = [x− tn−1(1−α2 )

s√n− 1

, x + tn−1(1−α2 )

s√n− 1

]

• exemple n = 30,∑30

i=1 xi = 1673,∑30

i=1 x2i = 98285, α = 10% alors

x = 55.77, s2 = 165.87, s = 12.88, t29(10%) = 1.699

I = [55.77− 1.69912.88√

29, 55.77 + 1.699

12.88√29

] = [51.71, 59.83]

b) cas ou n, la taille de l’echantillon, est grande n > 30

Il n’est plus necessaire de supposer que X est Gaussienne.

b-1) σ connu

• D’apres le chapitre 2X − µ

σ/√

n∼ N (0, 1) pour n →∞

La demarche est la meme que dans a-1)

• Conclusion : Si x est une realisation de X et si s une realisation de S,l’intervalle de confiance de µ de seuil α est

I = [x− u1−α2

σ√n

, x + u1−α2

σ√n

]

b-2) σ inconnu

On peut prendre comme intervalle de confiance celui de la section a-2). Onpeut egalement utiliser l’approximation suivante :

• X − µ

S√

n→ N (0, 1) .

• On se fixe l’erreur α et on cherche dans la table de la loi normale la valeur

Page 37: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

3.4. INTERVALLE DE CONFIANCE 37

u1−α2

telle que

P (−u1−α2

<X − µ

S/√

n< u1−α

2) = 1− α

m

P (X − µ

S/√

n< u1−α

2) = 1− α/2.

On a

P (−u1−α2

<X − µ

S/√

n< u1−α

2) = 1− α

m

P (X − u1−α2

S√n

< µ < X + u1−α2

S√n

) = 1− α

• Conclusion : si x est une realisation de X et s une realisation de S,l’intervalle de confiance de µ de seuil α est

I = [x− u1−α2

s√n

, x + u1−α2

s√n

]

• remarque: Plus n est grand, plus I est petit (car 1/√

n ou bien 1/√

n− 1est petit) et donc meilleure est la precision de l’estimation.

3.4.3 Intervalle de confiance pour la variance d’une vari-able gaussienne

On suppose que X ∼ N (µ, σ).

a) µ connue (peu frequent)

• T 2 =1n

n∑i=1

(Xi − µ)2 est un estimateur efficace de σ2 (voir estimation

ponctuelle); sa realisation est t2 =1n

n∑i=1

(xi − µ)2. CommeXi − µ

σ∼ N (0, 1),

nT 2

σ2=

n∑i=1

(Xi − µ

σ)2 est une somme de n v.a. independantes qui suivent la loi

normale N (0, 1) et donc

nT 2

σ2∼ χ2

n

• L’erreur α etant fixee, on cherche dans la table χ2n les valeurs kn(1−α

2 ) etkn(1−α/2) telles que

P (kn( α2 ) <

n

σ2T 2 < kn(1−α

2 )) = 1− α (1)

Page 38: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

38 CHAPTER 3. ESTIMATION

P (

nT 2

σ2< kn(1−α

2 )) = 1− α/2

P (nT 2

σ2< kn( α

2 )) = α/2

(1) ⇐⇒ P (nT 2

kn(1−α2 )

< σ2 <nT 2

kn( α2 )

) = 1− α

• Conclusion : si t2 est une realisation de T 2, l’intervalle de confiance de σ2

de seuil α est

I = [nt2

kn(1−α2 )

,nt2

kn( α2 )

]

l’intervalle de confiance pour σ au seuil α est

I = [t

√n

kn(1−α2 )

, t

√n

kn( α2 )

]

• exemple:

n = 10, µ = 6,10∑

i=1

x2i = 402, α = 5%

alorst2 = 40.2− 36 = 4.2, k10(0.025) = 20.5, k10(0.975) = 3.25

I = [10× 4.2

20.5,10× 4.2

3.25] = [2.05, 12.92]

b) µ inconnue

• On a

nS2

σ2∼ χ2

n−1

• On cherche dans la table χ2n−1 les valeurs kn−1(1−α

2 ) et kn−1( α2 ) telles que

P (kn−1( α2 ) <

n

σ2S2 < kn−1(1−α

2 )) = 1− α (1)

⇑P (

nS2

σ2< kn−1( α

2 )) = α/2

P (nS2

σ2< kn−1(1−α

2 )) = 1− α/2

(1) ⇐⇒ P (nS2

kn−1(1−α2 )

< σ2 <nS2

kn−1( α2 )

) = 1− α

• Conclusion : si s2 est une realisation de S2, l’intervalle de confiance de σ2

de seuil α est

Page 39: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

3.4. INTERVALLE DE CONFIANCE 39

I = [ns2

kn−1(1−α2 )

,ns2

kn−1( α2 )

]

l’intervalle de confiance pour σ au seuil α est

I = [s

√n

kn−1(1−α2 )

, s

√n

kn−1( α2 )

]

• remarque: Si dans les tables du χ2n ou de tn vous ne trouvez pas les valeurs

correspondantes a α/2 et a 1− α/2, on prendra un risque asymetrique.• ATTENTION a ne pas confondre S avec T et x avec µ• exemple:

n = 30,30∑

i=1

xi = 1683,30∑

i=1

x2i = 98295, α = 10%

alorsx = 55.77, s2 = 165.87, k29(0.05) = 42.6, k29(0.95) = 17.7

I = [30× 165.87

42.6,30× 165.87

17.7] = [116.81, 281.14]

3.4.4 Intervalle de confiance pour une proportion

• on sait que F =K

nest un estimateur de π ou π est la proportion de la

population possedant le caractere considere.

F ∼ N (π,

√π(1− π)

n) pour nπ, n(1− π) > 5

( ou les autres conditions citees en 2.2.3)

ou bienF − π√

π(1−π)n

∼ N (0, 1) pour nπ, n(1− π) > 5

• On cherche dans la table de N (0, 1) la valeur u1−α2

telle que

P (−u1−α2

<F − π√

π(1−πn

< u1−α2) = 1− α

m

P (F − π√

π(1−πn

< u1−α2) = 1− α/2.

Page 40: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

40 CHAPTER 3. ESTIMATION

On a

P (−u1−α2

<F − π√

π(1−πn

< u1−α2) = 1− α

m

P (F − u1−α2

√π(1− π)

n< π < F + u1−α

2

√π(1− π)

n) = 1− α

• probleme: π(1− π) est inconnu !!!

• solution 1 : methode par estimation de l’ecart-type

on remplace

√π(1− π)

npar

√f(1− f)

n, f etant la valeur observee de F

(estimation de π) et on a

I = [f − u1−α2

√f(1− f)

n, f + u1−α

2

√f(1− f)

n]

• solution 2: methode de l’ellipse (moins classique, mais plus rigoureuse)

P (−u1−α2

√π(1−π

n < F − π < u1−α2

√π(1−π

n ) = 1− α

⇐⇒ P (|π − F | < u1−α2

√π(1−π

n ) = 1− α

⇐⇒ P ((π − F )2 − u21−α

2

π(1−πn < 0) = 1− α

⇐⇒ P (π2(1 +u2

1−α2

n )− π(2F +u2

1−α2

n ) + F 2 < 0) = 1− α

On cherche les racines π1 et π2 de l’equation (π−F )2 − u21−α

2

π(1− π

n= 0 ,

en connaissant u1−α2

et f , la valeur observee de F

I = [π1, π2]

Page 41: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

Chapter 4

Tests de conformite

4.1 Generalites sur les tests statistiques

Un test statistique est un mecanisme visant a trancher entre deux hypothesesa partir de resultats observes sur un ou plusieurs echantillon(s). On formuleune hypothese de depart, appelee hypothese nulle et souvent notee (H0) et ils’agit de decider si on rejette ou non cette hypothese par opposition a un contre-hypothese appelee hypothese alternative et souvent notee (H1).

On ne pourra jamais conclure avec certitude dans un test statistique. Il yaura toujours des erreurs de decision. Pour effectuer le test statistique, il faudrachoisir un certain risque d’erreur qui est la probabilite de se tromper en prenantla decision retenue. Il existe deux types d’erreurs :

• On appelle erreur de premiere espece ou erreur de type I, notee α, la proba-bilite de rejeter (H0) alors qu’elle est vraie. α est aussi appele niveau ou seuil de signification.

• On appelle erreur de deuxieme espece ou erreur de type II, notee β, laprobabilite d’accepter (H0) alors qu’elle est fausse.

• on appelle puissance du test pour (H1) la probabilite de retenir (H1) alorsqu’elle est vraie (= 1− β).

Mecanisme des tests

• Il s’agit d’abord de formuler les hypotheses (H0) et (H1).• On choisit en general le risque de type I , α. (souvent donne dans l’enonce).• On determine la variable de decision Z (qui est une statistique) dont on

connaıt la loi si (H0) est vraie.• On calcul la region critique ou region de rejet W qui est l’ensemble des

valeurs de Z qui conduiront a rejeter (H0). Ainsi, si α est fixe, W est determinepar α = P [Z ∈ W avec (H0) vraie ] . Le complementaire de W est appeleregion d’acceptation. Les points de jonction entre les deux regions sont lespoints critiques.

41

Page 42: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

42 CHAPTER 4. TESTS DE CONFORMITE

• On calcul la valeur de Z a partir de l’observation de l’echantillon.• Conclusion du test : acceptation ou rejet de (H0) selon que la valeur de Z

est ou non dans la region d’acceptation.

4.2 Generalites sur les tests de conformite

Soit X une v.a dont la loi depend d’un parametre inconnu θ.• (H0) θ = θ0 , θ0 etant une valeur numerique. (H1) peut etre de 3 types :

- (H1) θ 6= θ0 test bilateral

- (H1) θ > θ0 test unilateral a droite

- (H1) θ < θ0 test unilateral a gauche.

• Choix de la variable de decision Z qui est l’estimateur de θ ou une fonctionsimple de l’estimateur de θ.

• Calcul de la region critique :α = P [decider (H1)alors que (H0) est vraie] ⇐⇒α = P [Z ∈ W alors que θ = θ0].

a) tests bilateraux

On peut chercher W sous la forme ] − ∞, z1[ ∪ ]z2,∞[ (W =[z1, z2]).

Ainsi P [z1 ≤ Z ≤ z2 avec θ = θ0] = 1− α

b) tests unilateraux a droite

On peut chercher W sous la forme ]z,∞[.

Ainsi P [Z > z avec θ = θ0] = α

c) tests unilateraux a gauche

On peut chercher W sous la forme ]−∞, z[.

Ainsi P [Z < z avec θ = θ0] = α

On traitera egalement (dans la section 4.6) les tests de choix entredeux valeurs du parametre:

(H0) θ = θ0 contre (H1) θ = θ1 ou θ0 et θ1 sont des valeursnumeriques.

4.3 Tests de conformite sur une moyenne

4.3.1 Cas d’une variable Gaussienne

On supposera que X ∼ N (µ, σ).• On veut tester l’hypothese(H0) µ = µ0 , µ0 etant une valeur numerique contre

Page 43: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

4.3. TESTS DE CONFORMITE SUR UNE MOYENNE 43

(H1) µ 6= µ0 ou µ > µ0 ou µ < µ0.• On se fixe α, le risque de type I et on connaıt la taille de l’echantillon.

a) cas σ connu

• On prend comme variable de decision X [ou Z =X − µ

σ/√

n].

Si µ = µ0 alorsX − µ0

σ/√

n∼ N (0, 1)

• Calcul de la region critique et conclusion du test.

a-1) test bilateral (H1) µ 6= µ0

On cherche la region d’acceptation sous la forme [x1, x2], intervalle symetriqueautour de µ0.

Soit u1−α2

le reel determine comme habituellement dans la table de la loinormale (P (−u1−α

2< U < u1−α

2) = 1− α avec U ∼ N (0, 1) ).

Ainsi, si µ = µ0 alors P (µ0 − u1−α2

σ√n

< X < µ0 + u1−α2

σ√n

) = 1− α

(on remplace U parX − µ0

σ/√

n).

L’intervalle d’acceptation pour X au risque α est

Iaccept = [µ0 − u1−α2

σ√n

, µ0 + u1−α2

σ√n

]

• Conclusion :Si x , la realisation de X, ∈ Iaccept , on ne peut rejeter (H0) ,sinon, on rejette (H0).

Remarque Si on choisit comme variable de decision Z, l’intervalle d’acceptationpour Z au risque α est [−u1−α

2;u1−α

2] . Si z, la realisation de Z, ∈ [−u1−α

2;u1−α

2],

on ne rejette pas (H0). Sinon, on la rejette.

a-2) test unilateral a droite (H1) µ > µ0

On cherche la region critique sous la forme [x1,+∞[.Soit u1−α le reel determine dans la table de la loi normale tel que P (U < u1−α) = 1− α

avec U ∼ N (0, 1).

Ainsi, si µ = µ0 alors P (X > µ0 + u1−ασ√n

) = α

(on remplace U parX − µ0

σ/√

n)

La region critique (ou intervalle de rejet) pour X au risque α est

Irejet = [µ0 + u1−ασ√n

,+∞[

Page 44: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

44 CHAPTER 4. TESTS DE CONFORMITE

• Conclusion :Si x , la realisation de X, ∈ Irejet , on rejette (H0) ,sinon, on ne la rejette pas.

Remarque Si on choisit comme variable de decision Z, l’intervalle d’acceptationpour Z au risque α est [u1−α; +∞] . Si z, la realisation de Z , ∈ [u1−α; +∞[,on rejette (H0). Sinon, on ne la rejette pas.

a-3) test unilateral a gauche (H1) µ < µ0

On cherche la region critique sous la forme ]−∞, x1].Soit u1−α le reel determine dans la table de la loi normale tel que P (U < u1−α) = 1− α

avec U ∼ N (0, 1). On a donc P (U < −u1−α) = α.Ainsi, si µ = µ0 alors P (X < µ0 − u1−α

σ√n

) = α (on remplace U par

X − µ0

σ/√

n)

La region de rejet pour X au risque α est

Irejet =]−∞, µ0 − u1−ασ√n

]

• Conclusion :Si x , la realisation de X, ∈ Irejet , on rejette (H0) ,sinon, on ne la rejette pas.

Remarque Si on choisit comme variable de d ]−∞ : −u1−α] . Si z, larealisation de Z , ∈ ] −∞ : −u1−α], on rejette (H0). Sinon, on ne la rejettepas.

b) cas σ inconnu

• On prend comme variable de decision X [ou Z =X − µ

S/√

n− 1].

Si µ = µ0 alorsX − µ0

S/√

n− 1∼ tn−1

• Calcul de la region critique et conclusion du test.

b-1) test bilateral (H1) µ 6= µ0

On cherche la region d’acceptation sous la forme [x1, x2], intervalle symetriqueautour de µ0.

Soit tn−1(1−α2 ) le reel determine comme habituellement dans la table de tn−1

(P (−tn−1(1−α2 ) < T < tn−1(1−α

2 )) = 1− α avec T ∼ tn−1).

Ainsi, si µ = µ0 alors P (µ0 − tn−1(1−α2 )

S√n− 1

< X < µ0 + tn−1(1−α2 )

S√n− 1

) = 1− α

(on remplace T parX − µ0

S/√

n− 1).

Page 45: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

4.3. TESTS DE CONFORMITE SUR UNE MOYENNE 45

L’intervalle d’acceptation pour X au risque α est

Iaccept = [µ0 − tn−1(1−α2 )

s√n− 1

, µ0 + tn−1(1−α2 )

s√n− 1

]

• Conclusion :Si x , la realisation de X, ∈ Iaccept , on ne peut rejeter (H0) ,sinon, on rejette (H0).

Remarque Si on choisit comme variable de decision Z, l’intervalle d’acceptationpour Z au risque α est [−tn−1(1−α

2 ); tn−1(1−α2 )] . Si z, la realisation de Z ,

∈ [−tn−1(1−α2 ); tn−1(1−α

2 )], on ne rejette pas (H0). Sinon, on la rejette.

b-2) test unilateral a droite (H1) µ > µ0

On cherche la region critique sous la forme [x1,+∞[.Soit tn−1(1−α) le reel determine dans la table de tn−1 tel que P (T < tn−1(1−α)) = 1− α

avec T ∼ tn−1.

Ainsi, si µ = µ0 alors P (X > µ0 + tn−1(1−α)S√

n− 1) = α (on remplace T

parX − µ0

S/√

n− 1)

La region de rejet pour X au risque α est

Irejet = [µ0 + tn−1(1−α)s√

n− 1,+∞[

• Conclusion :Si x , la realisation de X, ∈ Irejet , on rejette (H0) ,sinon, on ne la rejette pas.

Remarque Si on choisit comme variable de decision Z, l’intervalle de rejetpour Z au risque α est [tn−1(1−α),+∞] . Si z, la realisation de Z , ∈ ] −∞ :

−u1−α], on rejette (H0). Sinon, on ne la rejette pas.

b-3) test unilateral a gauche (H1) µ < µ0

On cherche la region critique sous la forme ]−∞, x1].On a P (T < −tn−1(1−α)) = α.

Ainsi, si µ = µ0 alors P (X < µ0 − tn−1(1−α)S√

n− 1) = α.

La region de rejet pour X au risque α est

Irejet =]−∞, µ0 − tn−1(1−α)s√

n− 1]

• Conclusion :Si x , la realisation de X, ∈ Irejet , on rejette (H0) ,sinon, on ne la rejette pas.

Page 46: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

46 CHAPTER 4. TESTS DE CONFORMITE

Remarque Si on choisit comme variable de decision Z, l’intervalle de rejetpour Z au risque α est [−∞ : −tn−1(1−α)] . Si z, la realisation de Z , ∈ [−∞ :

−tn−1(1−α)], on rejette (H0). Sinon, on ne la rejette pas.

4.3.2 Cas d’un echantillon de grande taille

(Ce qui signifie en pratique n > 30)a) cas σ connu

Quand n est grand, on peut considerer que si µ = µ0,X − µ0

σ√n

∼ N (0, 1) .

Tous les resultats du paragraphe 4.3.1 a) sont valables.

b) cas σ inconnu

Quand n est grand, on peut considerer que si µ = µ0,X − µ0

S√n

∼ N (0, 1) .

Il faut reprendre les resultats du paragraphe 4.3.1 b) en remplacant n− 1par n , tn−1(1−α) par u1−α et tn−1(1−α

2 ) par u1−α2.

• test bilateral : L’intervalle d’acceptation pour X au risque α est

Iaccept = [µ0 − u1−α/2s√n

, µ0 + u1−α/2s√n

]

• test unilateral a droite : L’intervalle de rejet pour X au risque α est

Irejet = [µ0 + u1−αs√n

,+∞]

• test unilateral a gauche : L’intervalle de rejet pour X au risque α est

Irejet = [−∞, µ0 − u1−αs√n

]

4.4 Tests de conformite sur une variance d’unev.a Gaussienne

On suppose X ∈ N (µ, σ).• On veut tester l’hypothese(H0) σ2 = σ2

0 , σ20 etant une valeur numerique. contre

(H1) σ2 6= σ20 ou σ2 > σ2

0 ou σ2 < σ20 .

• On se fixe α, le risque de type I et on connaıt la taille de l’echantillon.

a) cas µ connu

Page 47: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

4.4. TESTS DE CONFORMITE SUR UNE VARIANCE D’UNE V.A GAUSSIENNE47

• On prend comme variable de decision T 2 ==1n

n∑i=1

(Xi − µ)2 [ou Z =

nT 2

σ2].

Si σ2 = σ20 alors

nT 2

σ2∼ χ2

n

• Calcul de la region critique et conclusion du test.

a-1) test bilateral (H1) σ2 6= σ20

On cherche la region d’acceptation sous la forme [t1, t2].Soit kn(α/2) et kn(1−α/2) les reels determines dans la table de la loi χ2

n telsque

P (nT 2

σ2< kn(1−α

2 )) = 1− α/2

P (nT 2

σ2< kn( α

2 )) = α/2

Si σ2 = σ20 , on a donc P (kn(α/2) <

n

σ20

T 2 < kn(1−α/2)) = 1− α

d’ou P (σ2

0

nkn( α

2 ) < T 2 <σ2

0

nkn(1−α

2 )) = 1− α

L’intervalle d’acceptation pour T 2 au risque α est

Iaccept = [σ2

0

nkn( α

2 ),σ2

0

nkn(1−α

2 )]

• Conclusion :Si t2 , la realisation de T 2, ∈ Iaccept , on ne peut rejeter (H0) ,sinon, on rejette (H0).

Remarque Si α est tel que l’on ne peut determiner kn(α/2) et kn(1−α/2),on cherche l’intervalle d’acceptation sous la forme [kα1 , kα2 ] determines dans latable de la loi χ2

n tels que P (n

σ20

T 2 > kα2) = α2 et P (n

σ20

T 2 < kα1) = α1 avec

α = α1 + α2 donc Iaccept = [σ2

0

nkα1 ,

σ20

nkα2 ]

a-2) test unilateral a droite (H1) σ2 > σ20

On cherche la region critique sous la forme [t1,+∞[.Soit kn(1−α) le reel determine dans la table de la loi χ2

n par P (n

σ20

T 2 < kn(1−α)) = 1− α

La region critique (ou intervalle de rejet) pour T 2 au risque α est

Irejet = [σ2

0

nkn(1−α),+∞[

• Conclusion :Si t2 , la realisation de T 2, ∈ Irejet , on rejette (H0) ,

Page 48: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

48 CHAPTER 4. TESTS DE CONFORMITE

sinon, on ne rejette pas (H0).

a-3) test unilateral a gauche (H1) µ < µ0

On cherche la region critique sous la forme ]−∞, t1].

Soit kn(α) le reel determine dans la table de la loi χ2n par P (

n

σ20

T 2 < kn(α)) = α

La region critique (ou intervalle de rejet) pour T 2 au risque α est

Irejet = [−∞,σ2

0

nkn(α)]

• Conclusion :Si t2 , la realisation de T 2, ∈ Irejet , on rejette (H0) ,sinon, on ne rejette pas (H0).

Remarque Si on choisit comme variable de decision Z, l’intervalle d’acceptationpour Z au risque α pour un test bilateral est Iaccept = [kn( α

2 ), kn(1−α2 )] l’intervalle

de rejet pour Z au risque α pour un test unilateral a droite et a gauche est re-spectivement Irejet = [kn(1−α),+∞] et Irejet = [−∞, kn(α)]

b) cas µ inconnu

• On a

nS2

σ2∼ χ2

n−1

On reprend les resultats de a) en remplacant T 2 par S2 et χ2n par χ2

n−1.• Resume–Intervalle d’acceptation pour S2 dans un test bilateral

Iaccept = [σ2

0

nkn−1( α

2 ),σ2

0

nkn(1−α

2 )]

–Intervalle de rejet pour S2 dans un test unilateral a droite

Irejet = [σ2

0

nkn−1(1−α),+∞]

–Intervalle d’acceptation pour S2 dans un test unilateral a gauche

Irejet = [−∞,σ2

0

nkn−1(α)]

Page 49: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

4.5. TESTS DE CONFORMITE SUR UNE PROPORTION 49

4.5 Tests de conformite sur une proportion

Soit π la proportion de la population possedant le caractere considere. On veuttester l’hypothese

• On veut tester l’hypothese(H0) π = π0 , π0 etant une valeur numerique. contre(H1) π 6= π0 ou π > π0 ou π < π0.• On prend comme variable de decision F = K/n.Si π = π0

F ∼ N (π0,

√π0(1− π0)

n) (approximation)

• On se fixe α, le risque de type I et on connaıt la taille de l’echantillon.• Calcul de la region critique et conclusion du test

a) Test bilateral π 6= π0

On cherche un intervalle symetrique autour de π0. On cherche dans la tablede N (0, 1) la valeur u1−α

2telle que

P (−u1−α2

<F − π0√

π0(1−π0n

< u1−α2) = 1− α

m

P (F − π0√

π0(1−π0n

< u1−α2) = 1− α/2

L’intervalle d’acceptation pour F au risque α est

I = [π0 − u1−α2

√π0(1− π0)

n, π0 + u1−α

2

√π0(1− π0)

n]

• Conclusion :Si f , la realisation de F , ∈ Iaccept , on ne peut pas rejeter (H0) ,sinon, on rejette (H0).

b) Test unilateral a droite π > π0

On cherche dans la table deN (0, 1) la valeur u1−α telle que P (F − π0√

π0(1−π0n

< u1−α) = 1− α

L’intervalle de rejet pour F au risque α est

I = [π0 + u1−α

√π0(1− π0)

n,+∞]

• Conclusion :Si f , la realisation de F , ∈ Irejet , on rejette (H0) ,

Page 50: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

50 CHAPTER 4. TESTS DE CONFORMITE

sinon, on ne rejette pas (H0).

c) Test unilateral a gauche π < π0

On a P (F − π0√

π0(1−π0n

< −u1−α) = α

L’intervalle de rejet pour F au risque α est donc

I = [−∞, π0 − u1−α

√π0(1− π0)

n]

• Conclusion :Si f , la realisation de F , ∈ Irejet , on rejette (H0) ,sinon, on ne rejette pas (H0).

4.6 Tests de choix entre deux valeurs du parametre

On presentera ici un test d’hypothese un peu different dans sa formulation maisdont les etapes sont essentiellement les memes que celles des tests de conformitedeja vus. On presentera deux types de problemes.

Soit X une v.a qui depend d’un parametre θ inconnu. Le probleme est dechoisir entre deux valeurs numeriques θ0 et θ1 du parametre θ.

(H0) θ = θ0

contre(H1) θ = θ1.

premier type de test

• Le risque de type I est donne, ainsi que la taille de l’echantillon.• Calcul de la region critique W , Z etant la variable de decision.a) Si θ1 > θ0 W = [θ, +∞[ avec P (Z > θ avec θ = θ0) = α.b) Si θ1 < θ0 W =]−∞, θ] avec P (Z < θ avec θ = θ0) = α.• Calcul du risque de deuxieme espece β = P (accepter(H0)alors que (H1)est vraie)a) β = P (Z < θ avec θ = θ1).

b) β = P (Z > θ avec θ = θ1).

deuxieme type de testOn suppose que les risques α et β sont donnes et on veut determiner la region

critique et la taille de l’echantillon.

On peut faire le premier type de test avec la moyenne, la variance et laproportion. On fera le deuxieme test sur la moyenne d’un grand echantillon etsur la proportion.

Page 51: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

Chapter 5

Tests de comparaison

5.1 Generalites sur les tests de comparaison

On considere deux variables aleatoires X1 et X2 definies sur deux populationsP1 et P2 respectivement. Ces v.a dependent d’un parametre inconnu θ1 et θ2

respectivement.• On veut tester l’hypothese(H0) θ1 − θ2 = 0contre(H1) θ1 − θ2 6= 0 ou θ1 − θ2 > 0 ou θ1 − θ2 < 0.• On choisit le risque α.On dispose d’un n1-echantillon de X1 et d’un n2-echantillon de X2 qui four-

nissent respectivement T1 un estimateur de θ1 et T2 un estimateur de θ2.• On determine la variable de decision Z qui est une fonction de T1 et T2,

et dont on connaıt la loi de probabilite si (H0) est vraie.• α etant connu, on calcule la region critique ou la region d’acceptation

comme dans le chapitre precedent.• On calcule la valeur z de Z a partir des resultats des echantillons.Si z ∈ Irejet, on rejette (H0) avec un risque α de se tromper.Sinon, on ne peut rejeter (H0).

5.2 Tests de comparaison de deux moyennes

Soient deux populations P1 et P2 et deux v.a X1 et X2 definies respectivementsur P1 et P2, X1 et X2 etant independantes.

On pose µ1 = E(X1) , µ2 = E(X2) , σ1 = σ(X1) , σ2 = σ(X2).On dispose d’un n1-echantillon de X1 qui donne une moyenne x1 et un ecart

type s1 et d’un n2-echantillon de X2 qui donne une moyenne x2 et un ecart types2.

• On veut tester l’hypothese(H0) µ1 − µ2 = 0

51

Page 52: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

52 CHAPTER 5. TESTS DE COMPARAISON

contre(H1) µ1 − µ2 6= 0 ou µ1 − µ2 > 0 ou µ1 − µ2 < 0.• On choisit le risque α.

5.2.1 Cas ou σ1 et σ2 sont connus

On supposera que X1 ∼ N (µ1, σ1) et X2 ∼ N (µ2, σ2) ou que n1, n2 > 30.

• On prend comme variable de decision Z =X1 − X2√σ2

1

n1+

σ22

n2

.

Si µ1 − µ2 = 0, alors

X1 − X2√σ2

1

n1+

σ22

n2

∼ N (0, 1)

a) test bilateral µ1 − µ2 6= 0On cherche un intervalle d’acceptation centre en 0. Soit u1−α

2le reel determine

comme habituellement dans la table de la loi centree reduite N (0, 1).L’intervalle d’acceptation pour Z au risque α est

Iaccept = [−u1−α2,+u1−α

2]

• Conclusion :

Si z =x1 − x2√

σ21

n1+ σ2

2n2

, la realisation de Z, ∈ Iaccept , on ne peut rejeter (H0)

; sinon, on rejette (H0).

b) test unilateral a droite µ1 − µ2 > 0Soit u1−α le reel determine comme habituellement dans la table de la loi

centree reduite N (0, 1).L’intervalle de rejet pour Z au risque α est

Irejet = [u1−α,+∞[

• Conclusion :

Si z =x1 − x2√

σ21

n1+ σ2

2n2

, la realisation de Z, ∈ Irejet , on rejette (H0) au risque

α de se tromper; sinon, on ne peut pas rejeter (H0).

c) test unilateral a gauche µ1 − µ2 < 0Soit u1−α le reel determine comme habituellement dans la table de la loi

centree reduite N (0, 1).L’intervalle de rejet pour Z au risque α est

Page 53: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

5.2. TESTS DE COMPARAISON DE DEUX MOYENNES 53

Irejet =]−∞,−u1−α]

• Conclusion :

Si z =x1 − x2√

σ21

n1+ σ2

2n2

, la realisation de Z, ∈ Irejet , on rejette (H0) au risque

α de se tromper; sinon, on ne peut pas rejeter (H0).

5.2.2 Cas ou σ1 et σ2 sont inconnus avec σ1 = σ2 et n1 etn2 < 30

On supposera que X1 ∼ N (µ1, σ1) et X2 ∼ N (µ2, σ2).

• On prend comme variable de decision Z =X1 − X2√

n1S21 + n2S2

2

n1 + n2 − 2

√1n1

+1n2

.

Si µ1 − µ2 = 0,

X1 − X2√n1S2

1 + n2S22

n1 + n2 − 2

√1n1

+1n2

∼ tn1+n2−1

a) test bilateral µ1 − µ2 6= 0On cherche un intervalle d’acceptation centre en 0. Soit t1−α/2 le reel

determine dans la table de la loi de student tn1+n2−1 tel que P (−t1−α/2 <Z < t1−α/2) = 1− α ( ⇐⇒ P (Z < t1−α/2) = 1− α/2) .

L’intervalle d’acceptation pour Z au risque α est

Iaccept = [−t1−α/2,+t1−α/2]

• Conclusion :

Si z =x1 − x2√

n1s21 + n2s2

2

n1 + n2 − 2

√1n1

+1n2

, la realisation de Z, ∈ Iaccept , on ne

peut pas rejeter (H0) ,sinon, on rejette (H0).

b) test unilateral a droite µ1 − µ2 > 0Soit t1−α le reel determine dans la table de la loi de student tn1+n2−1 tel que

P (Z < t1−α) = 1− α.L’intervalle de rejet pour Z au risque α est

Irejet = [t1−α,+∞[

• Conclusion :

Page 54: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

54 CHAPTER 5. TESTS DE COMPARAISON

Si z =x1 − x2√

n1s21 + n2s2

2

n1 + n2 − 2

√1n1

+1n2

, la realisation de Z, ∈ Irejet , on rejette

(H0) au risque α de se tromper ,sinon, on ne peut pas rejeter (H0).

c) test unilateral a gauche µ1 − µ2 < 0L’intervalle de rejet pour Z au risque α est

Irejet =]−∞,−t1−α]

• Conclusion :

Si z =x1 − x2√

n1s21 + n2s2

2

n1 + n2 − 2

√1n1

+1n2

, la realisation de Z, ∈ Irejet , on rejette

(H0) au risque α de se tromper ,sinon, on ne peut pas rejeter (H0).

5.2.3 Cas ou σ1 et σ2 sont inconnus et n1 et n2 > 30

• On prend comme variable de decision Z =X1 − X2√S2

1

n1 − 1+

S22

n2 − 1

.

Si µ1 − µ2 = 0, alors

X1 − X2√S2

1

n1 − 1+

S22

n2 − 1

∼ N (0, 1)

a) test bilateral µ1 − µ2 6= 0On cherche un intervalle d’acceptation centre en 0. Soit u1−α

2le reel determine

comme habituellement dans la table de la loi centree reduite N (0, 1).L’intervalle d’acceptation pour Z au risque α est

Iaccept = [−u1−α2,+u1−α

2]

• Conclusion :

Si z =x1 − x2√s21

n1−1 + s22

n2−1

, la realisation de Z, ∈ Iaccept , on ne peut rejeter

(H0) ,sinon, on rejette (H0).

b) test unilateral a droite µ1 − µ2 > 0Soit u1−α le reel determine comme habituellement dans la table de la loi

centree reduite N (0, 1).L’intervalle de rejet pour Z au risque α est

Page 55: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

5.3. TESTS DE COMPARAISON DE DEUX VARIANCES 55

Irejet = [u1−α,+∞[

• Conclusion :

Si z =x1 − x2√s21

n1−1 + s22

n2−1

, la realisation de Z, ∈ Irejet , on rejette (H0) au

risque α de se tromper ,sinon, on ne peut pas rejeter (H0).

c) test unilateral a gauche µ1 − µ2 < 0Soit u1−α le reel determine comme habituellement dans la table de la loi

centree reduite N (0, 1).L’intervalle de rejet pour Z au risque α est

Irejet =]−∞,−u1−α]

• Conclusion :

Si z =x1 − x2√s21

n1−1 + s22

n2−1

, la realisation de Z, ∈ Irejet , on rejette (H0) au

risque α de se tromper ,sinon, on ne peut pas rejeter (H0).

5.3 Tests de comparaison de deux variances

Soient deux v.a independantes X1 ∼ N (µ1, σ1) et X2 ∼ N (µ2, σ2).On dispose d’un n1-echantillon de X1 qui donne un ecart type s1 et d’un

n2-echantillon de X2 qui donne un ecart type s2.• On veut tester l’hypothese(H0) σ2

1 − σ22 = 0

contre(H1) σ2

1 − σ22 6= 0.

• On choisit le risque α.

• On choisit comme variable de decision, la statistique Z =

n1S21

n1 − 1n2S

22

n2 − 1Si σ2

1 − σ22 = 0, alors

Z =

n1S21

n1 − 1n2S

22

n2 − 1

∼ F(n1 − 1, n2 − 1)

Page 56: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

56 CHAPTER 5. TESTS DE COMPARAISON

• Pour calculer la region critique, on determine dans la table de la loi deFischer-Snedecor F(n1 − 1, n2 − 1) les reels fα/2 et f1−α/2 tels que

P (Z < f1−α/2) = 1− α/2P (Z < fα/2) = α/2

(⇒ P (f1−α/2 < Z < fα/2) = 1− α).L’intervalle d’acceptation au risque α est

Iaccept = [f1−α/2, fα/2]

• Conclusion

Si z =

n1s21

n1 − 1n2s

22

n2 − 1

, la realisation de Z , ∈ Iaccept, on accepte (H0); sinon on

rejette (H0).• Remarque importanteSi α est tel que l’on ne puisse pas lire dans la table de Fischer-Snedecor les

valeurs fα/2 et f1−α/2, on cherchera un intervalle d’acceptation pour Z de laforme [fα1 , fα2 ], fα1 etant definie par P (Z < fα1) = α1 et fα2 etant definie parP (Z > fα2) = α2 avec α = α1 + α2.

5.4 Tests de comparaison de deux proportions

Soient π1 la proportion d’individus possedant le caractere considere A dans lapopulation P1 et π2 la proportion d’individus possedant le meme caractere dansla population P2.

On dispose d’un n1- echantillon de P1 et un n2- echantillon de P2. Soient F1

la frequence empirique associee a l’echantillon de P1 et F2 la frequence empiriqueassociee a l’echantillon de P2.

• On veut tester l’hypothese(H0) π1 = π2

contre(H1) π1 6= π2 ou π1 > π2 ou π1 < π2.• On choisit le risque de type I α.• Choix de variable de decision :Si π1 = π2 (= π)

Z =F1 − F2√

π(1− π)(1n1

+1n2

)∼ N (0, 1).

PROBLEME : π est inconnu !!!

On remplace π par f =n1f1 + n2f2

n1 + n2. Ainsi

Page 57: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

5.4. TESTS DE COMPARAISON DE DEUX PROPORTIONS 57

Z =F1 − F2√

f(1− f)(1n1

+1n2

)∼ N (0, 1).

a) test bilateral π1 6= π2

On cherche un intervalle d’acceptation centre en 0. Soit u1−α2

le reel determinecomme habituellement dans la table de la loi centree reduite N (0, 1).

L’intervalle d’acceptation pour Z au risque α est

Iaccept = [−u1−α2,+u1−α

2]

• Conclusion :

Si z =f1 − f2√

f(1− f)(1n1

+1n2

), la realisation de Z, ∈ Iaccept , on ne peut

rejeter (H0) ,sinon, on rejette (H0).

b) test unilateral a droite π1 > π2

Soit u1−α le reel determine comme habituellement dans la table de la loicentree reduite N (0, 1).

L’intervalle de rejet pour Z au risque α est

Irejet = [u1−α,+∞[

• Conclusion :Si z , la realisation de Z, ∈ Irejet , on rejette (H0) au risque α de se

tromper ,sinon, on ne peut pas rejeter (H0).

c) test unilateral a gauche π1 < π2

Soit u1−α le reel determine comme habituellement dans la table de la loicentree reduite N (0, 1).

L’intervalle de rejet pour Z au risque α est

Irejet =]−∞,−u1−α]

• Conclusion :Si z , la realisation de Z, ∈ Irejet , on rejette (H0) au risque α de se

tromper ,sinon, on ne peut pas rejeter (H0).

Page 58: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

58 CHAPTER 5. TESTS DE COMPARAISON

Page 59: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

Chapter 6

Tests du Khi-deux

6.1 Tests d’adequation a une loi theorique

On a un phenomene aleatoire represente par une v.a notee X. Generalement,on ne connaıt ni la forme de la loi de probabilite suivie par ce phenomene,ni les parametres de cette loi. Pour remedier a cette ignorance, on tire un n-echantillon que l’on analyse selon les methodes de statistiques descriptives. Celanous permettra de choisir parmi les lois de probabilite classiques (binomiale,de Poisson, normale,..) celle qui semble etre le plus proche de la distributionexperimentale induite par l’echantillon.

On estime ensuite, a partir des resultats observes sur l’echantillon, les parametresde cette loi theorique choisie pour modeliser le phenomene aleatoire.

Mais il subsiste toujours des ecarts entre la loi theorique ainsi determinee etla distribution issue du sondage.

Si ces ecarts ne sont pas trop grands, on conclura qu’ils sont dus au hasardet l’hypothese selon laquelle le phenomene suit la loi theorique choisie ne pourrapas etre refusee; sinon, on conclura que le phenomene ne suit pas la loi theoriqueretenue.

Ce qui precede resume le principe des tests d’hypotheses concernant la va-lidite de l’ajustement d’une distribution experimentale issue d’un sondage a uneloi theorique.

On veut tester l’hypothese selon laquelle la v.a X suit une loi Q.• L’hypothese sera donc(H0) X suit la loi Qcontre(H1) X ne suit pas la loi Q.

• Il s’agit de determiner la variable de decision.Pour cela on dispose de n observations ou realisations de cette v.a. Ces

observations peuvent etre groupees en k classes ou modalites notees C1, . . . , Ck.A chaque classe Ci correspond un EFFECTIF OBSERVE note ni.

La distribution experimentale peut etre mise sous la forme :

59

Page 60: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

60 CHAPTER 6. TESTS DU KHI-DEUX

classes de X effectifs observes

C1 n1

C2 n2

......

Ck nk

total n =i=k∑i=1

ni

Ecart entre une distribution experimentale et une loi theorique

Si X ∼ Q, on peut calculer la probabilite de la classe Ci, notee pi (pi = P (X ∈Ci)) car on connaıt Q.

definition On appelle EFFECTIF THEORIQUE le produit npi.( Ce n’est pas forcement un entier).

definition L’ecart entre la distribution theorique et experimentale est mesurepar la distance

d =i=k∑i=1

(ni − npi)2

npi

A cette distance d, on associe la statistique D dont la realisation est d:

D =i=k∑i=1

(Ni − npi)2

npi, Ni etant la v.a qui compte l’effectif de la classe Ci et

dont la realisation est ni.

On choisira comme variable de decision D.Si X ∼ Q, alors

i=k∑i=1

(Ni − npi)2

npi∼ χ2

k−r−1

ou r est le nombre de parametres de la loi Q qui ont ete estimes et k, le nombrede classes de X.

• On choisit le risque de type I α et on va rejeter (H0) si l’ecart D est tropgrand. Ainsi, on choisira la zone de rejet de la forme [d∗,+∞[. On determinedans la table de χ2

k−r−1, le reel kk−r−1(1−α) tel que P (D < kk−r−1(1−α)) = 1−α.

Page 61: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

6.2. TESTS D’INDEPENDANCE DE DEUX CARACTERES 61

• conclusionSi d ∈ [kk−r−1(1−α),+∞[ on rejette (H0) avec le risque α de se tromper;

sinon on ne la rejette pas.

6.2 Tests d’independance de deux caracteres

Soient X et Y deux variables aleatoires definies sur la meme population Ωmesurant deux caracteres (X et Y peuvent etre des variables qualitatives).

X : Ω → M , M etant un ensemble de modalites divise en k classes C1, C2, . . . , Ck.Y : Ω → M ′, M ′ etant un ensemble de modalites divise en l classes D1, D2, . . . , Dl.On veut savoir s’il existe une liaison significative entre X et Y .• On veut tester l’hypothese(H0) X et Y sont independantescontre(H1) X et Y ne sont pas independantes.

• Il s’agit de determiner la variable de decision.Pour cela, on dispose d’un echantillon de X et d’un echantillon de Y dont

les resultats peuvent se mettre sous la forme du tableau de contingence suivant:

D1 D2 . . . Dl Effectifs des Ci

C1 n11 n12

... n1l n1•

C2 n21 n22

... n2l n2•...

......

......

...

Ck nk1 nk2

... nkl nk•

Effectif desDj n•1 n•2... n•l n

avec n•j =i=k∑i=1

nij et ni• =j=l∑j=1

nij et n =i=k∑i=1

j=l∑j=1

nij .

Si (H0) est vraie, alors

P ((X ∈ Ci) ∩ (X ∈ Dj)) = P (X ∈ Ci)× P (Y ∈ Dj) ∀i, j.Comme on ne connaıt pas les probabilites theoriques de X et Y , on peut

traduire cette propriete par :fij = fi• × f•j ∀i, j (1)

avec fij =nij

n, fi• =

ni•

n, f•j =

n•jn

definition On appelle EFFECTIF THEORIQUE la quantite tij =ni• × n•j

n

Page 62: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

62 CHAPTER 6. TESTS DU KHI-DEUX

On a (1) ⇐⇒ nij = tij ∀i, j

(effectif theorique =total de la ligne× total de la colonne

n).

On definit la quantite d =i=k∑i=1

j=l∑j=1

(nij − tij)2

tij. Il est naturel de decider que

si d est trop grande, on rejette (H0).On choisit comme variable de decision la v.a D associee a d.Si (H0) est vraie,

i=k∑i=1

j=l∑j=1

(Nij − Tij)2

Tij∼ χ2

(k−1)(l−1)

ou Tij et Nij sont les v.a dont les realisations sont respectivement tij et nij .• Le risque de type I, α, etant fixe, n calcule la region critique en determinant

le reel k(k−1)(l−1)(1 − α) dans la table du χ2 correspondante tel que P (D <k(k−1)(l−1)(1− α)) = 1− α.

• conclusionSi d ∈ [k(k−1)(l−1)(1−α),+∞[ on rejette (H0) avec le risque α de se tromper;

sinon on ne la rejette pas.

• Remarque Tous les effectifs doivent etre superieurs a 5. Si ce n’est pasle cas, il faut regrouper les classes (ceci est egalement valable pour les testsd’adequation et ceux d’homogeneite).

6.3 Tests d’homogeneite (d’une v.a X)

On considere r populations P1, P2, . . . , Pr chacune divisees en k classes distinctesC1, C2, . . . , Ck selon une meme variable aleatoire X.

Definition : On dira que les populations sont homogenes si la distributionest la meme dans les r populations.

• On veut tester l’hypothese(H0) les r populations sont homogenescontre(H1) les r populations ne sont pas homogenes.

Mais comment traduire cette hypothese ? On note pij la probabilite de laclasse Cj dans la population Pi. Les r populations sont homogenes si les pij nedependent pas de la population Pi ce qui se traduit par

(H0) pij = pj ∀i = 1, . . . , r ∀j = 1, . . . , k avecj=k∑j=1

pj = 1

Mais les pj sont inconnus puisque l’on ne connaıt pas la loi de probabilitetheorique de X (pj = P (X ∈ Cj)).

Page 63: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

6.3. TESTS D’HOMOGENEITE (D’UNE V.A X) 63

On a a notre disposition un echantillon de X dans chacune des r populationsdont les resultats peuvent se mettre sous la forme du tableau de contingencesuivant :

C1 C2 . . . Ck Taille des echantillons

P1 n11 n12

... n1k n1•

P2 n21 n22

... n2k n2•...

......

......

...

Pr nr1 nr2

... nrk nr•

Effectif desCj n•1 n•2... n•k n

avec n•j =i=r∑i=1

nij et ni• =j=k∑j=1

nij et n =i=r∑i=1

j=k∑j=1

nij .

On estimera naturellement le parametre pj par la proportion correspondantedans l’echantillon : pj ≈

n•jn

Ainsi si (H0) est vraie, l’effectif theorique de la classe Cj dans la population

Pi est a peu pres tij = ni• × pj =ni• × n•j

n

On definit la quantite d =i=k∑i=1

j=l∑j=1

(nij − tij)2

tij. Il est naturel de decider que

si d est trop grand, on rejette (H0).On choisit comme variable de decision la v.a D associee a d.Si (H0) est vraie,

i=k∑i=1

j=l∑j=1

(Nij − Tij)2

Tij∼ χ2

(k−1)(r−1)

ou Tij et Nij sont les v.a dont les realisations sont respectivement tij et nij .• Le risque de type I, α, etant fixe, on calcule la region critique en determinant

le reel k(k−1)(r−1)(1 − α) dans la table du χ2 correspondante tel que P (D <k(k−1)(r−1)(1− α)) = 1− α.

• conclusionSi d ∈ [k(k−1)(r−1)(1−α),+∞[ on rejette (H0) avec le risque α de se tromper;

sinon on ne la rejette pas.

•Remarque Les notations sont les memes que dans les tests d’independance,mais les significations de ces notations sont differentes.

Page 64: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

64 CHAPTER 6. TESTS DU KHI-DEUX

Page 65: COURS DE STATISTIQUES INFERENTIELLES Licence d'économie

Bibliography

[1] B. Goldfarb et C. PardouxIntroduction a la methode statistiqueDunod.

65