48
1 Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN PROBABILITÉS ET STATISTIQUES

PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

Embed Size (px)

Citation preview

Page 1: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

1

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

PROBABILITÉS

ET

STATISTIQUES

Page 2: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

2

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Sommaire Chapitre 1 Statistique descriptive 4

1 La statistique et les statistiques 4

2 Généralités sur les distributions statistiques 4

2.1 Population et échantillon

2.2 Variables statistiques

2.2.1 Variables quantitatives

2.2.2 Variables qualitatives ou catégorielles.

3 Distribution statistique d’une variable 5

3.1 Données brutes

3.2 Suites ordonnées

3.3 Distribution d’effectifs.

3.4 Intervalles de classe - bornes - centre de classe

3.5 Représentation des données

4 Indices de Position – Indices de dispersion. 8

4.1 Indices de position (moyenne, médiane, mode)

4.2 Indices de dispersion (étendue, valeurs extrêmes, quantiles, variance, écart-type)

5 Somme de deux variables 10

Chapitre 2 Principales distributions de probabilité 13

1 Notion de variable aléatoire 13

2 Loi de probabilité d’une variable aléatoire discrète 13

2.1 Loi Binomiale ou distribution de Bernoulli 13

2.2 Loi de Poisson : 14

3 Loi de probabilité d’une variable aléatoire continue 14

3.1 Loi de Laplace –Gauss (ou loi normale) 14

3.1.1 Définition de la loi normale

3.1.2 Courbe représentative de la densité de probabilité

3.1.3 Loi normale centrée réduite

3.1.4 Table de l’écart –réduit

3.1.5 Importance de la loi normale

3.2 Lois dérivées de la loi normale 17

3.2.1 Loi du chi-deux

3.2.2 Loi de Student

Chapitre 3 : Probabilités conditionnelles. Indépendance entre évènements. Théorème de Bayes. 19

1 Généralités 19

Les éventualités résultant d’une expérience:

Propriétés élémentaires des probabilités

2 Probabilités conditionnelles 19

3 Indépendance en Probabilité 20

4 Théorème de Bayes 20

Chapitre 4 Fluctuation d’échantillonnage 22

1 Population des Echantillons issus d’une population d’individu 22

2 Fluctuations d’échantillonnage d’une moyenne 22

3 Fluctuations d’échantillonnage d’une proportion 22

Chapitre 5 Estimation par intervalle de confiance ²25

Généralités 25

1 Estimation ponctuelle 25

2 Estimation par intervalle de confiance. 26

2.1 Variable quantitative – estimation d’une moyenne par intervalle de confiance

2.2 Variable qualitative – estimation d’une fréquence par intervalle de confiance

3 Précision d’un intervalle de confiance 27

4 Nombre de sujets nécessaire 27

Chapitre 6 : Comparaison d’une caractéristique observée à une caractéristique théorique 29

1 Etapes d’un test statistique - grands échantillons: 29

2 Risque de première , risque de deuxième espèce, puissance d’un test statistique 30

Chapitre 7. Comparaison de deux variances 32

1 Test de Fisher 32

2 Table de Fisher 33

Chapitre 8 Comparaison entre deux caractéristiques observées 34

1 Comparaison de deux moyennes observées 34

1.1 Cas des échantillons indépendants

1.2 Cas des échantillons appariés

Page 3: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

3

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

2 Comparaison de deux fréquences observées 38

2.1 Cas des échantillons indépendants

2.2 Cas des échantillons appariés Chapitre 9 Le test de chi-deux 39

1 Le chi-deux d’indépendance 39

2 Le chi-deux d’ajustement 41

3 Table de chi-deux 42

Chapitre 10 Tests non paramétriques 45

1 Principes des tests non paramétriques 45

2 Tests non paramétriques avec échantillons indépendants 45

3 Table de U - pour le test de Mann et Whitney 47

4 Tests non paramétriques avec échantillons appariés 47

Références

48

Page 4: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

4

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Chapitre 1

Statistique Descriptive 1. La statistique et les statistiques

La statistique est une « méthode de raisonnement permettant d’interpréter le genre de données très

particulières, qu’on rencontre notamment dans les sciences de la vie, dont le caractère essentiel est

la variabilité « D. Schwartz ».

Les statistiques ensemble des données relatives à un groupe d’individus ou d’unités.

La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une

population donnée, sans tirer de conclusion pour une population plus grande.

2. Généralités sur les distributions statistiques

La statistique descriptive va nous permettre d’étudier un certain nombre d’objets par le terme de

série ou ensemble statistique.

Il existe 2 grands types de séries statistiques : la population et l’échantillon.

2.1. Population et échantillon

Population : ensemble de tous les individus qui relèvent d’une définition donnée.

La population est plus ou moins vaste, selon sa définition (parfois, des milliers de sujets).

Echantillon = fraction de la population

Pour avoir des renseignements sur la population à partir de l’échantillon extrait : l’échantillon doit

être représentatif.

L’échantillon est représentatif

si sa taille est suffisamment grande

et si il est extrait au hasard de la population (tirage au sort)

2.2. Variables statistiques

Une variable statistique est une caractéristique p

La variable peut être quantitative ou catégorielle.

2.2.1 Variables quantitatives : sont des variables mesurables : poids, taille, âge. Elles sont

souvent accompagnées d’une unité de mesure (ex : poids = 50 kg).

On distingue 2 sous – catégories :

* Variables continues qui peuvent prendre un nombre infini de valeur dans un intervalle

donné (ex : taille, pression artérielle diastolique).

* Variables discrètes : ne peuvent prendre qu’un nombre fini de valeur : ex : nombre

d’enfants d’une famille.

On transforme souvent une variable continue en variable discrète : c’est la discrétisation ou

groupement par classe.

2.2.2 Variables qualitatives ou catégorielles.

Ce sont des variables non mesurables. Elles ont un certain nombre de catégories ou modalités.

Une variable catégorielle à 2 catégories est dite dichotomique ou (binaire).

Ex la variable fumeurs (fumeurs-non fumeurs) est une variable catégorielle à deux catégories.

En présence de plusieurs catégories, on distingue :

Les variables ordinales : elles peuvent bénéficier d’un classement ordonné ou d’un ordre

naturel.

Page 5: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

5

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Ex : l’intensité de douleur : nulle, légère, intense, insupportable.

La transformation d’une variable catégorielle ordinale en variable catégorielle dichotomique est

possible. Ex pour la douleur : pas de douleur / douleur.

Les variables nominales : Il n’existe pas d’ordre naturel. Chaque classe désigne une

catégorie (elle la nomme). Par exemple, pour la couleur des yeux : noir / marron / vert /bleu.

3 Distribution statistique d’une variable

3.1 Données brutes : données rassemblées sans se soucier d’un ordre quelconque.

3.2 Suites ordonnées : les données sont rangées par ordre fixe (croissant ou décroissant).

Considérons la valeur xi, elle se rencontre ni fois

ni est appelé effectif

fi = ni/n est appelé fréquence ou pourcentage (* 100)

Valeur

de la variable

effectif fréquence

x1 n1 f1

xi ni fi

xp nP fp

n n est l’effectif total de l’échantillon

3.3. Distribution d’effectifs. Après avoir ordonné les données, on découpe l’étendue en classes (ou

catégories) et on dénombre toutes les mesures qui tombent à l’intérieur d’une même classe. A

chaque classe on associe l’effectif (et la fréquence).

Ex : Répartition d’un dosage chez l’enfant de moins de 16 ans :

Valeur du dosage effectif

> 10 - <20 6

> 20 - <30 26

> 30 - <40 42

> 40 - <50 26

Total 100

3.4. Intervalles de classe - bornes - centre de classe

Les classes sont d’étendues égales (en général). La borne inférieure comprise, borne supérieure

exclue.

Considérons la classe 20-30 du tableau

-Cette classe définit tous les enfants dont le dosage est compris entre 20 et 30.

-La borne inférieure est 20, la borne supérieure est 30.

- L’intervalle de classe est fermé : > 20 - <30 ou encore [20 - 30[

Dans un intervalle de classe ouvert, une des bornes n’existe pas. Ex valeur du dosage >50

-Le centre de classe est défini comme la moyenne des bornes de la classe :

Pour la classe 30 - 40 le centre de classe est 35.

Dans une distribution en classes, lors du calcul de la moyenne ou de la variance, chaque élément

d’une classe a la valeur du centre de classe : on suppose donc que les 42 enfants de la classe 30-40

ont une valeur du dosage égale à 35.

3.5 Représentation des données

Page 6: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

6

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Elle dépend du type de la variable étudiée. Il existe des formes de présentation différentes pour les

variables quantitatives et catégorielles.

Le tableau

Le tableau est utilisable quelle que soit la nature des données. Il permet de présenter de façon

complète et précise les données

Distribution de l’âge de 180 hommes

suivis dans un service de Diabétologie.

Age (ans) Effectif s Fréquence (%)

40 4 0,02

41 3 0,02

42 8 0,04

43 5 0,03

44 8 0,04

45 9 0,05

46 11 0,06

47 14 0,08

48 12 0,07

49 8 0,04

50 20 0,11

51 10 0,06

52 14 0,08

53 13 0,07

54 9 0,05

55 10 0,06

56 3 0,02

57 8 0,04

58 7 0,04

59 4 0,02

N=180

On peut aussi représenter cette distribution de l’âge en classes.

Age (ans) Effectifs Fréquence

(%)

Fréquence

cumulée (%)

[40 – 45[ 28 16 16

[45 – 50[ 54 30 46

[50 – 55[ 66 37 83

[55 – 60[ 32 17 100

Quelques principes :

Par convention, le titre du tableau figure au dessus du tableau. Il doit être informatif.

Dans un bandeau de titre, on indique la nature des informations, avec un trait plein au dessus et au

dessous du bandeau.

Les chiffres sont alignés par colonne et le même nombre de décimale est donné.

Le graphique

La fréquence ou effectif relatif d’une

classe ou de la valeur d’un caractère

quantitatif est le rapport entre l’effectif de

cette classe et l’effectif total de l’ensemble

des classes.

En général, elle est exprimée en %

Ex classe [40 – 45[ ans: 16 %.

La fréquence cumulée d’une classe

correspond à l’ensemble des éléments

inférieurs à la borne supérieure de

cette classe.

Pour la classe [45 – 50[la fréquence

cumulée est 46% (16% + 30%).

On a 100% à la borne supérieure de la

dernière classe.

Page 7: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

7

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Par convention, le titre d’un graphique figure au-dessous du graphique.

.

Pour une variable quantitative continue,

L’histogramme : est un graphique où l’axe des abscisses représente les valeurs de la variable,

regroupées en classes, et l’ordonnée représente l’effectif ou la fréquence de chacune des classes.

Effectif

ou fréquence

Figure : Distribution de l’âge

Chez 180 hommes.

Pour une variable catégorielle.

Le diagramme à barres.

Permet de donner la fréquence (ou le nombre) de chaque catégorie

Un espace est laissé entre chaque barre. Effectifs

Figure : Description de l’intensité de la

douleur chez 105 enfants drépanocytaires

Le diagramme en secteurs dit en « camembert

Donne la répartition d’une variable qualitative. Il est souvent moins informatif qu’un tableau.

L’aire d’un rectangle est proportionnelle à

l’effectif ou à la fréquence de la classe

Le polygone de fréquence : est la courbe obtenue en joignant

les points dont les abscisses sont les centres de classes et les

ordonnées les effectifs

Age (ans)

-Le choix de l’échelle doit être correct

-L’axe des abscisses couvre toute l’étendue des données présentées.

Dans notre exemple, 40 à 60 ans.

-Il n’y a pas d’espace entre la base des différents rectangles en

abscisse (variable continue).

Figure : Description de la douleur chez des

enfants drépanocytaires. Représentation à

l’aide d’un diagramme en secteurs

Page 8: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

8

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

4. Indices de Position – Indices de dispersion.

Ils permettent de présenter de manière synthétique les données observées dans l’échantillon.

4.1. Indices de position

4.1.1 Moyenne arithmétique (ou moyenne)

Pour une variable quantitative la moyenne permet de résumer les valeurs obtenues sur un

échantillon.

4.1.1.1. Définition

La moyenne est un paramètre de position.

La moyenne est obtenue en faisant la somme des valeurs divisée par le nombre de valeurs (noté ici

N).

-Soit une série de n mesures x1, x2…………..xn d’une variable quantitative X. La somme est notée

n

ixi1

(somme de toutes les valeurs, de la première à la dernière)

La moyenne est désignée par X = N

xn .. x2x1 soit X =

N

n

ixi1

( on remarque que n

ixi1

= N. X )

Ex : Si on considère l’âge en années de 7 étudiants

: 20, 17, 23, 19, 16,18.

On a : x1 = 20, x2 = 17, x3 = 23, x4 = 19. x5 = 16, x6 = 18

La somme = 113 ans et la moyenne = 18,83 ans.

-Considérons un échantillon divisé en k classes de valeurs centrales yj :

X =N

k

j

y jn j1

nj étant l’effectif de la jième classe

Si chaque élément de l’échantillon a la même chance d ‘être tiré : J

jP

N

n= probabilité que (X = yJ),

on obtient l’espérance mathématique

X = k

1j

JjPy

Propriétés de la moyenne

On peut réaliser un changement d’origine et/ou d’échelle pour simplifier les calculs

Changement d’origine : (méthode de la moyenne provisoire)

Soit la variable X’ = X – x0

On démontre que 'X = X – x0 X = 'X + x0

On a intérêt à choisir x0 de manière à obtenir une simplification des calculs et donc des

valeurs très petites de X’. Il faut choisir de préférence le mode.

Changement d’échelle :

Page 9: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

9

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

X’ = h

X 'X =

h

X X = h 'X

Changement d’origine et Changement d’échelle

X’ = h

xX 0 'X = h

xX 0 X = h 'X + x0

Autre propriété : la somme algébrique des écarts à la moyenne est nulle.

4.1.2 La médiane

La médiane est la valeur centrale de la distribution, qui divise l’échantillon en deux moitiés de taille

égale (même effectif). L’une à toutes les valeurs supérieures à la médiane, l’autre a toutes les

valeurs qui lui sont inférieures.

- Si le nombre d’observations est impair, la médiane est la valeur correspondant à l’observation

située au milieu, celle située au

2

)1(n ème rang. (3ème

rang pour l’exemple ci-dessous).

Ex des étudiants de la salle

IL faut d’abord classer toutes les observations par ordre croissant.

Pour 20, 17, 23, 19, 16, on observe après classement 16, 17, 19, 20, 23

La médiane est 19 ans

- Si n est un nombre pair, on considère que la médiane est à mi-chemin entre les deux valeurs du

milieu.

16, 17, 19, 20, 23, 24

médiane = (19 + 20)/2 = 19, 5 ans.

4.1.3 Le Mode (ou valeur dominante)

C’est la valeur de la variable la plus souvent rencontrée. Dans la distribution d’une variable, le

mode peut ne pas exister ou ne pas être unique

X = (1, 2, 5, 2, 4, 2, 5) a pour mode 2

X = (1, 3, 5, 2, 4, 7) pas de mode

X = (2, 7, 5, 2, 5, 8, 9) a pour mode 2 et 5. On parle de distribution bimodale.

Sur un plan graphique, le mode est la valeur de x sur l’axe des abscisses dont l’ordonnée est la plus

grande.

Si les données sont rangées par classes, la classe modale est celle dont l’effectif est le plus élevé.

4.2 Indices de dispersion :

4.2.1 Valeurs extrêmes : la plus petite et la plus grande des valeurs

Ex de l’âge avec les valeurs suivantes : 16, 17, 19, 20, 23, 24 ans

La plus petite valeur est 16 (minimum), la plus grande est 24 (maximum).

L’étendue est 16 – 24 ans = 8 ans.

4.2.2 Etendue : L’étendue d’une série correspond à la différence entre les valeurs extrêmes.

4.2.3 Les quantiles : quartiles, déciles, percentiles.

Les quartiles : valeurs qui partagent la série ordonnées en 4 groupes de même effectif.

On détermine des quartiles pour des échantillons importants.

Ces quartiles se répartissent en :

Page 10: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

10

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

-Premier quartile : valeur de la série qui a 25% (n/4) de la distribution au dessous et 75% au

dessus.

-Deuxième quartile, correspond à la médiane qui a 50% (n/2) au dessous et 50% au dessus.

-Troisième quartile, valeur de la série qui a 75% (3n/4) de la distribution au dessous et 25% au

dessus.

Déciles : partagent la distribution en 10 parties égales

Centiles: partagent la distribution en 100 parties égales

4.2.4 Variance

Définition de la variance

La variance est égale à la somme des carrés des écarts à la moyenne divisée par l’effectif total.

Si x = (x1, x2, ……xn)

La variance est notée var (x), σ2, ou s

2 pour l’échantillon.

s2

(X) = N

n

i

Xx

1

2

n

i

Xx

1

2

La variance a l’unité de la variable au carré: si x est par exemple une longueur exprimée en cm, la

variance est exprimée en cm2

Si on développe le numérateur, on obtient

Nxixi

n

i

Xx22

1

2

On peut écrire la formule de la variance sous la forme suivante.

s2

(X) = N

NTT /2

12 avec T1 = N

1i

ix et T2 = N

1i

2

ix c’est la formule la plus utile pour

effectuer des calculs.

Propriétés de la variance

Changement d’origine : un changement d’origine ne modifie pas la variance

X’ = X – x0

On démontre que

s2 ( 'X ) = s

2 (X) s

2 (X) = s

2 (

'X )

Changement d’échelle :

X’ = h

X s

2 ( 'X ) =

2

2 )(

h

Xs s

2 (X) = h

2. s

2 (

'X )

Changement d’origine et Changement d’échelle :

'X = h

xX 0 s2 ( 'X ) =

2

2 )(

h

Xs s

2 (X) = h

2. s

2 (

'X )

4.2.5 L’écart-type

Si l’on souhaite exprimer la dispersion avec une même unité que la variable elle-même,

Il faut considérer l’écart type = racine carré de la variance.

s(X) = Xvar s(X) = Xs2

5. Somme de 2 variables

Pour la moyenne

Soit Y et Z deux variables quantitatives (ou plus généralement 2 variables aléatoires)

et soit X = Y + Z

On démontre que ZYX

Page 11: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

11

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

L’espérance d’une somme algébrique de variables aléatoires est la somme algébrique des

espérances de ces variables.

IL en résulte que :

s2

(X) =

2

1

N

ZzYyN

i

ii

En développant, on trouve

s2

(X) = N

ZzYy

N

Zz

N

Yy

N

i

iiii 1

22

2 N

ZzYy

ZY

N

i

ii

1,cov

s2

(Y + Z) = s2

(Y ) + s2

( Z) + 2 cov (Y, Z)

La relation entre les variances se simplifie si les 2 variables Y et Z résultent de 2 tirages

indépendants dans une population. Mais

La covariance de deux variables aléatoires indépendantes est nulle.

Cov (Y, Z) = 0 et donc

s2

(Y + Z) = s2

(Y ) + s2 ( Z)

Remarque si X = Y – Z

De la même façon :

ZYX s

2 (Y - Z) = s

2 (Y ) + s

2 ( Z) - 2 cov (Y, Z)

et on retrouve si Y et Z sont indépendants

s2

(Y - Z) = s2

(Y ) + s2

( Z)

Exercice On dose une enzyme chez 100 individus normaux avec les résultats suivants (les dosages sont exprimés

en unités arbitraires :U)

Classe Effectif

[ 4 à 6 U [ 25

[ 6 à 8 U [ 40

[ 8 à 10 U [ 20

[10 à 12 U[ 10

[12 à 14 U[ 5

(Pour les classes : borne inférieure comprise, borne supérieure exclue)

1.1 - Quelle est la classe modale de cette distribution ? Donner sa définition.

1.2 – On admet que X est le centre de classe.

Après un changement d’origine : Y = X – 9, on obtient :

- la somme des valeurs de Y niyi = - 140

- la somme des carrés des valeurs de Y niyi2 = 680

Calculer la moyenne et la variance du taux de cette enzyme.

1.3 – Quels sont les pourcentages de sujets ayant :

a) une valeur inférieure à 8

b) une valeur supérieure ou égale à 10

1.4 – Tracer l’histogramme correspondant à cette distribution

Corrigé

1.1 : Classe modale 6 à 8

Sa définition : c’est la classe des valeurs de cette variable la plus souvent rencontrée (ou encore ayant

l’effectif le plus élevé).

1.2 : Calcul de la moyenne et de l’écart-type

Page 12: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

12

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

effectif niYi niYi2

4 à 6 U 25

6 à 8 U 40

8 à 10 U 20

10 à 12 U 10

12 à 14 U 5

N =100 T1 = -140 T2 =680

N =100, T1 = -140, T2 =680

- Y = X – x0 mx = my + x0

- my = N

niyi-1,4 U mx = - 1,4 + 9 mx = 7,6 U

- s2y =

N

NTT 2

12 s2y = 4,84

s2y = s

2x s

2x= 4,84 U

2

1.3 – pourcentage de sujets ayant

a) une valeur inférieure à 8 = 65 /100 = 0,65 soit 65%

b) une valeur supérieure ou égale à 10 = 15 /100 = 0,15 soit 15%

Page 13: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

13

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Chapitre 2

Principales distributions de probabilité En général, on ne connaît pas les distributions des variables que l’on étudie dans une population et

on essaie de rattacher ces distributions à certaines lois théoriques qui constituent des modèles.

1. Notion de variable aléatoire On peut caractériser une variable aléatoire X par la donnée complète de la distribution de

probabilité.

Soit E un ensemble d’évènements pour lesquels on a défini une distribution de probabilité. On

appelle variable aléatoire X une fonction numérique définie sur cet ensemble E

Une variable aléatoire traduit une situation liée au hasard.

Par convention on écrit :

En majuscules la variable

En minuscules la valeur déterminée que prend la variable (la réalisation de la variable)

La variable peut-être discontinue (ou discrète) ou continue.

La variable x est dite discontinue si elle ne peut prendre que certaines valeurs x1, x2, xi..xn. On

parle aussi de variable discrète.

On peut associer à chaque valeur de xi une probabilité pi telle que : pi= Pr (X=xi).

Les lois principales sont :

- la loi binomiale

- la loi de Poisson

Une variable est dite continue si elle peut prendre toutes les valeurs sur un certain intervalle fini ou

infini.

La principale loi de probabilité est la loi de Laplace-Gauss dite encore loi Normale.

2. Loi de probabilité d’une variable aléatoire discrète

2.1 Loi Binomiale ou distribution de Bernoulli

Soit une variable aléatoire ayant 2 valeurs possibles 1 et 0 (événement et son contraire)

Exemples : succès / échec

Boules noires / boules blanches dans une urne.

La variable prend la valeur 1 avec une probabilité p et la valeur 0 avec la probabilité q (q = 1 – p)

Elle suit la loi de Bernouilli. On parle de variable de Bernoulli de paramètre p.

Sa moyenne vaut p et sa variance p (1 –p) = pq

La variable binomiale est la somme de n variables de Bernoulli indépendantes.

Considérons une suite de n épreuves de Bernoulli identiques et indépendantes. Appelons k le

nombre de réalisations de l’événement A (nombre de succès ou nombre de boules noires) au cours

de n épreuves.

k est une réalisation d’une variable K qui peut prendre les valeurs 0, 1,2….n (intervalle fini).

La loi binomiale dépend de 2 paramètres p et n.

Formule de la loi Binomiale :

Page 14: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

14

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Pour une variable aléatoire X suivant une loi binomiale de paramètres p et n

P (X = k) : C knkk

n qp .. avec C k

n = nombre de combinaison de n « objets » pris k par k ;

C k

n = )!(!

!

knk

n

Rappel : Le nombre n! se lit "factorielle n". Exemple : 1.2.3.4.5!5

La variable binomiale a pour moyenne la somme des moyennes (n.p) et comme variance la somme

des variances (n.p.q)

Moyenne : E (X) = n.p

Variance : Var (X) = n.p.q et écart-type (X) = qpn ..

Si l’on exprime les résultats en pourcentage observé po = k/n

po p

Var po pq / n

2.2 Loi de Poisson :

La loi de Poisson s’applique aux évènements « rares », p est très petit.

Définition : lorsqu’une variable aléatoire X suit une loi de Poisson, ses valeurs possibles sont 0, 1,

2, 3…k

La probabilité pk d’observer la valeur k est donnée par la formule :

P (X = k) = e !k

aa

k

a étant le paramètre de la loi de Poisson

Moyenne E (X) = Var (X) = a

C’est donc une loi discontinue qui ne dépend que d’un seul paramètre a.

On appelle aussi la loi de Poisson la loi des petites probabilités

De nombreux phénomènes suivent une loi de Poisson. Elle permet de représenter la survenue

d’évènements qui se produisent au hasard dans le temps ou dans l’espace.

Exemple : en pharmacovigilance, la loi de Poisson permet d’estimer la fréquence des évènements

adverses à partir des rares cas signalés.

Exemple : le nombre d’éléments (bactéries, hématies…etc.) d’une solution très diluée observée

dans le champ d’un appareil appelé hématimètre.

Cet appareil comporte un certain nombre de carrés et on compte le nombre d’éléments par carré. Si

la préparation est homogène, la distribution observée doit suivre une loi de Poisson. Dans le cas

contraire, la préparation n’est pas homogène.

3. Loi de probabilité d’une variable aléatoire continue

3.1 Loi de Laplace –Gauss (ou loi normale)

3.1.1 Définition de la loi normale

Soit une variable continue X pouvant prendre toutes les valeurs de à

La loi normale est définie par sa densité de probabilité s’écrit :

f (x) = 2)

x(

2

1

e2

1 (formule à ne pas retenir)

e est la base des logarithmes népériens.

µ désigne l’espérance (la moyenne) et 2 est la variance de la variable aléatoire X

Page 15: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

15

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

L’écart-type = racine carrée

Si X obéit à une loi normale de moyenne et d’écart-type , on note en abrégé X est

N ( ),

3.1.2 Courbe représentative de la densité de probabilité La courbe représentative de la densité de probabilité est souvent appelée «courbe en cloche»

Elle est symétrique par rapport à l’abscisse pour f(x)

La moyenne est et est en même temps la médiane et le mode

L’écart-type est . On montre que est la distance entre l’axe de la courbe et le point d’inflexion

de la courbe.

3.1.3 Loi normale centrée réduite

Une loi normale est complètement définie par la structure de sa fonction de densité et les données

de son espérance et de son écart-type.

Il y a autant de variables X normales que de couples de nombres et .

Cas particulier = 0 et = 1 alors, f (x) = 2)(

2

1

2

1 x

e

On a alors affaire à la loi normale réduite.

Désignons la variable réduite par le symbole U (elle est parfois nommée ε). On montre qu’on peut

passer d’une variable normale quelconque X à une variable réduite U par un changement de

variable linéaire de la forme :

X = + U Soit U =X

Propriétés de la loi normale réduite

La moyenne E(U) = 0, la variance Var (U) = 1

U = N (0,1) C’est la variable normale centrée réduite (encore appelée variable réduite) ;

La densité de probabilité de la Loi normale centrée réduite est

f (u) = 2)u(

2

1

e2

1 u =

x

La courbe de cette loi normale centrée réduite

-u 0 +u

Page 16: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

16

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Règle : Pour obtenir une variable normale réduite U à partir d’une variable normale X de

moyenne et d’écart-type , il suffit de lui retrancher sa moyenne et de la diviser par son écart-

type. U =X

.

Toute question posée sur X sera transformée en question posée sur U.

On déduit facilement la probabilité pour qu'une variable suivant une loi normale quelconque X(μ, σ)

de moyenne μ et d'écart-type σ, soit comprise dans un intervalle donné [x1, x2] :

Pr (x1 < X <x2) = Pr ( 1x < U < 2x

)

3.1.4 Table de l’écart –réduit P (u) est associée à cette loi normale : elle donne pour chaque valeur

de U la probabilité que U soit à l’extérieur de l’intervalle (-u ; +u)

P (u) = Pr (U < -u ou U > u)

Ou = Pr (| U| > u)

2

)u(P -u 0 +u 2

)u(P

1 – P(u)

P(u) est représenté par la zone hachurée.

On en déduit que

1 – P(u) = Pr (-u ≤ U ≤ u) ou ≤

On utilisera souvent en statistique les relations suivantes avec un seuil %5

Pr (| U| >1,96) = 0,05

Pr (-1,96 ≤ U ≤ 1,96) = 1 – 0,05 = 0,95

On peut lire la table à partir de P(u) ou à partir de U :

La valeur de P(u) est obtenue par addition des nombres inscrits en ligne et en colonne.

A leur intersection est lue la valeur de U

Ex pour α = 0,05, la valeur U est lue à l’intersection de la ligne indicée par 0,00 et de la colonne

indicée par 0,05 (est alors 0,00 + 0,05) U =1,96.

U = 1 P(u) =0,32 1 – P(u) = 0,68

U = 0,68 (3

2) P(u) =0,50 1 – P(u) = 0,50

U = 1 P(u) =0,32 1 – P(u) = 0,68

U = 1,96 ( 2 ) P(u) =0,05 1 – P(u) = 0,95

Quelques probabilités :

a) Pr1(u) = Pr (U > u) Pr1(u) = 2

)u(P

b) Pr2(u) = Pr (U < u) Pr2(u) = 1 - 2

)u(P

Page 17: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

17

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

c) Pr3 (u) = (0 < U < u) Pr3 (u) = 2

)u(P1 (ou encore 0,5 –

2

)u(P)

d) Pr4 (u) = (U < 0) ou Pr4 (u) = (U > 0) Pr4 (u) = 0,50

3.1.5 Importance de la loi normale

-L’importance de la loi normale vient du théorème fondamental énoncé ci-dessous.

La moyenne d’un échantillon extrait d’une population quelconque est distribuée selon une loi

pratiquement normale quand la taille de l’échantillon est suffisamment grande.

-Autres raisons de l’importance de cette loi normale :

- La loi normale est la loi limite de la loi binomiale et de la loi de Poisson

En pratique, l’approximation est valable quand :

np et n (1 – p) > 10 pour la loi binomiale

np = a > 10 pour la loi de Poisson

Remarque : la loi de Poisson qui devient normale garde sa propriété essentielle

Moyenne E (X) = Var (X)

- Si des variables sont gaussiennes, il en est de même de leur somme et de leur différence.

- Souvent une transformation simple conduit à une distribution normale.

On peut écrire X = log Y. X est alors distribuée normalement.

3.2. Lois dérivées de la loi normale

3.2.1 Loi du chi-deux Définition de la loi de chi-deux

Soit U1 U2…….UV , n variables aléatoires indépendantes distribuées chacune selon une loi normale

centrée réduite (c’est-à-dire de moyenne 0 et d’écart-type 1), la somme des carrés de ces variables

aléatoires définit une nouvelle variable aléatoire, notée 2

2

U12

+ U22……+.UV

2

Cette nouvelle variable suit une loi de 2

à v degré de liberté (ddl).

La variable aléatoire 2

à 1 ddl correspond donc au carré d’une loi normale centrée réduite

La table de la loi de 2

donne la valeur de telle que p = Pr (2 2 n fonction

du nombre de ddl.

Pour le test de 2: voir chapitre 9.

3.2.2 Loi de Student

Soit X une variable aléatoire distribuée selon une loi normale de moyenne µ et de variance σ2. Soit

X1, X2,….Xn, un échantillon de taille n. Soit m et s2 les estimations de µ et σ

2. La quantité t

1

2

n

s

mt suit une loi de probabilité de Student à n-1 ddl.

La table de Student donne la probabilité p telle que p= Pr| t |> tα, pour n-1 ddl

Pour le test de Student / :

voir chapitre 6.

Remarquons que quand n > 30, t suit approximativement une loi normale réduite U car m est

distribué normalement et s2

ne s’écarte pas trop de σ2.

Page 18: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

18

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Exercices

Exercice 1. Soit une variable aléatoire X distribuée selon une loi normale centrée réduite

Quelle est la valeur de la limite y pour que les expressions suivantes soient vérifiées ?

a) Pr (x > y) = 0,70

b) Pr (x > y) = 0,40

Exercice 2. Dans une population, on admet que la valeur X du taux de cholestérol sanguin obéit à une loi normale

de moyenne = 2,2 g/l et d’écart-type = 0,5 g/l.

2.1 – De quel type de variable s’agit-il ?

2.2 - Quelles sont les probabilités pour qu’un sujet tiré au hasard ait un taux de cholestérol

a) – supérieur à 1,2g/l

b) – compris entre 1,2g/l et 2,7g/l

__________________________ Corrigé exercice 1 X est une variable aléatoire distribuée selon une loi normale centrée réduite

La valeur de la limite y pour que les expressions suivantes soient vérifiées

a)Pr (x > y) = 0,70

y < 0

1 - 2

= 0,70 60,0 y = - 0,524

b)Pr (x > y) = 0,40 2

= 0,40 80,0 y = 0,253

Corrigé exercice 2

2.1 – Le taux de cholestérol sanguin est une variable quantitative

2.2 - X est N ( , ) avec = 2,2 g/l et = 0,5 g/l.

Y = x Y est N (0, 1)

a) Calcul de la probabilité pour que x > 1,2g/l

Pr (x > 1,2) = Pr (Y > 5,0

2,22,1 ) Pr (x > 1,2) = Pr (Y > - 2)

Y = 2 05,0

La probabilité recherchée est 1 - 2

= 1 – 0,025 = 0,97 p = 0,97

b) Calcul de la probabilité pour que 1,2 < x < 2,7 g/l

Pr (1,7 < x < 3,2) = Pr (5,0

2,22,1 < Y < 5,0

2,27,2 )

Pr (-2 < Y < 1)

Y1 = 2 05,01 pour Y2 = 1 32,02

La probabilité recherchée est : 1 - 2

1 - 2

2 = 1 – 0.025 – 0,16 p = 0,81

Page 19: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

19

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Chapitre 3

PROBABILITÉS CONDITIONNELLES

INDÉPENDANCE ENTRE ÉVENEMENTS - THÉORÈME DE BAYES.

1. Généralités

On appelle évènements élémentaires, l’ensemble des éventualités possibles résultant d’une

expérience ou d’une observation.

Exemple : en jetant un dé, les événements élémentaires sont constitués par l’apparition de l’une des 6

faces.

L’évènement est un sous-ensemble A d’un ensemble E (constitué par toutes les éventualités

possibles).

Les éventualités résultant d’une expérience:

Evènement certain : se produit à coup sûr. Sa liste comprend tous les évènements élémentaires. Il est

identique à E.

Evènement impossible , ne se produit pas

Evènement contraire : Si l’on s’intéresse à un évènement A, deux éventualités sont possibles A et son

complémentaire A , EAA Si l’on s’intéresse à deux évènements A et B

-L’évènement {A ou B} se réalise si se produit un évènement élémentaire appartenant à A ou à

B ou les deux : BA -L’évènement {A et B} est réalisé si A et B se produisent les deux à la fois. On note BA -A et B sont incompatibles A et B ne peuvent se produire en même temps. On parle de sous-

ensemble disjoint : BA =

Propriétés élémentaires des probabilités

- La probabilité de tout évènement associé à une épreuve est un nombre compris entre 0 et 1.

- La probabilité de l’évènement certain est égale à 1 (100%).

Pr (E) = 1

Pr( ) = 0

-Si la réalisation de A entraîne celle de B on écrit A B

-Si deux évènements A et B sont incompatibles (ou disjoints) BA = , la probabilité de

l’évènement {A ou B} est égale à la somme des probabilités de A et de B.

)Pr( BA = BA PrPr

-Si A et B sont deux évènements quelconques, on a Pr )Pr(PrPr)( BABABA

-Si A est le complémentaire de A., 1.)Pr()Pr( AA

2. Probabilités conditionnelles

Dans un ensemble E des évènements possibles, considérons deux évènements A et B.

A est le complémentaire de A

B est le complémentaire de B

Il est possible de calculer la probabilité de l’évènement A si l’évènement B s’est déjà produit.

Il s’agit d’une probabilité conditionnelle

Pr (A si B) ou Pr A sachant B ou Pr (A|B) Pr (A|B) = )Pr(

)Pr(

B

BA

Soit le rapport de Pr ( A et B) sur Pr (B)

Page 20: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

20

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Cette formule est valide si Pr(B) > 0 : B n’est pas un évènement impossible.

Réversibilité de la formule

(A et B) est le même évènement que (B et A) ; Ils correspondent tous les deux à l’ensemble des

évènements appartenant à la fois à A et à B.

On peut écrire de manière équivalente Pr (A B) = Pr (A).Pr (B|A)

Pr (B A) = Pr (B) . Pr (A| B)

Pr (A B) = Pr (B A)

Au total : Pr (A) . Pr (B|A) = Pr (B) . Pr (A| B)

3. Indépendance en Probabilité

On dit que deux évènements A et B sont indépendants si la connaissance de l’un ne modifie pas la

probabilité de l’autre.

Alors si A et B sont indépendants,

Pr (A) = Pr (A|B). La réalisation de B n’a aucune influence sur celle de A

Pr (B) = Pr (B|A) La réalisation de A n’a aucune influence sur celle de B.

Selon la probabilité conditionnelle Pr (A B) = Pr (A) . Pr (B|A)

Pr (A B) = Pr (A) . Pr (B)

4. Théorème de Bayes

On s’intéresse à la modification des probabilités d’évènements suite à la connaissance des faits.

Il s’agit d’exprimer Pr (A|B), probabilités de A à posteriori (connaissant B) en fonction de probabilité

de A à priori.

Pr (A|B) = )Pr(

)Pr(

B

BA

En changeant la formulation du numérateur

Pr (A|B) = )Pr(

)Pr().Pr(

B

AAB

En général, on ne connait pas B. On peut l’exprimer en fonction de A

Pr (B) = Pr (A B) + Pr ( A B)

Les évènements (A B) et ( A B) sont incompatibles. La probabilité d’avoir l’un et l’autre est

la somme des probabilités.

Pr (B) = Pr (B|A) . Pr (A) + Pr (B| A ) . Pr ( A ).

Le théorème de Bayes

Pr (A|B) = )Pr().Pr()Pr().Pr(

)Pr().Pr(

)Pr(

)Pr(

AABAAB

AAB

B

BA

____________________________________________

Exercices

Exercice 1

Considérons 2 évènements :

A : tirer une face paire au jeu de dés

B : tirer un multiple de 3.

Donner les valeurs des proabilités suivantes : Pr(A), Pr(B) et Pr (A B)

Exercice 2

Soixante pout cent des individus atteints d’une maladie (M) sont des femmes. Elles proviennent d’une

population ou il y a 50% de femmes et 50% d’hommes. Dans cette population, la fréquence de la

maladie est de 2%. Quelle est la fréquence de la maladie chez les femmes.

Page 21: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

21

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Corrigés

exercice 1 : Tirer une face paire et tirer un multiple de 3 sont deux évènements indépendants en probabilité.

Pr (A) = 6

3 Pr (B) =

6

2

Pr (A B) = probabilité de tirer une face paire multiple de 3 (c’est à la dire la face 6) = 6

1

On trouve un résultat identique avec le calcul de Pr (A B) = Pr (A) . Pr (B) = 6

1

36

6

6

2.

6

3

exercice 2

En fonction des probabilités conditionnelles, on peut écrire Pr (F). Pr (M|F) = Pr (M). Pr (F| M)

Pr (F| M)= 0,60 Pr (F) = 0,50 Pr (M) = 0,02

La fréquence de la maladie chez les femmes. Pr (M|F)= )Pr(

)Pr().Pr(

F

MMF

Pr (M|F)= 024.050,0

02,0.60,0 La fréquence de la maladie chez les femmes. Pr (M|F) = 2,4%

Page 22: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

22

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Chapitre 4

Fluctuation d’échantillonnage

1 Population des Echantillons issus d’une population d’individu A partir d’une population P, on peut extraire de multiples façons des échantillons E.

Le tirage au sort d’échantillons successifs E1, E2 ……EI conduit le plus souvent à des valeurs

différentes des quantités f (fréquence), m (moyenne), s2

(variance).

Les caractéristiques fournies ne sont pas les caractéristiques exactes. Elles s’en écartent plus ou

moins selon le hasard de l’échantillonnage.

On dit qu’elles ont des fluctuations d’échantillonnage.

Le calcul d’un intervalle de fluctuation est donc une autre manière de représenter la dispersion

d’une variable.

2. Fluctuations d’échantillonnage d’une moyenne

Soit X une variable quantitative de moyenne et d’écart-type dans une population P. En

considérant différents échantillons de même effectif N tirés de P, on observe des moyennes m1, m2,

….mn

Ces moyennes subissent une fluctuation d’échantillonnage (induite par le hasard).

On démontre que :

La moyenne de ces moyennes observées vaut

La variance de ces moyennes vaut N

2

et l’écart-type N

Intervalle de Pari d’une moyenne (ou intervalle de fluctuation) au risque .

La moyenne m observée dans un échantillon tiré au sort est susceptible de se trouver dans un

intervalle [ + U N

] avec une probabilité ( 1 - )

Pour une moyenne observée obéissant à une loi normale, Si N > 30 (condition de validité)

Ou Si X est N ( , ) dans P, les moyennes observées dans les échantillons d’effectifs N

tirés au hasard suivent une distribution normale N ( ,N

)

L’intervalle de pari au risque

m [ + U N

] (U valeur de l’écart-réduit correspondant à )

* Grand échantillon pour variable quantitative : si N > 30

3 Fluctuations d’échantillonnage d’une proportion Soit Y une variable qualitative Y ayant pour fréquence (ou proportion) P pour un caractère donné

dans une population P

Page 23: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

23

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Considérons différents échantillons de même effectif N tirés au sort.

Les fréquences « observées » f subissent une fluctuation d’échantillonnage (induite par le hasard )

On démontre que

- la moyenne des fréquences f , moy (f) = P

- La variance des fréquences var (f) = N

QP. avec Q = 1 - P

Les fréquences observées dans les échantillons d’effectifs N tirés au hasard suivent une distribution

normale N (P, N

Q.P )

Intervalle de Pari d’une proportion (ou intervalle de fluctuation), au risque .

On ne peut définir un intervalle de pari pour un risque qui lui est associé (risque d’erreur

consenti).

La fréquence observée est susceptible de se trouver dans un intervalle défini par un écart autour de

P.

Conditions d’application Si N.P et NQ > 5

Ip au risque : f [ P + U N

Q.P ] avec Q = 1 – P.

** Grand échantillon pour variable qualitative : N.P et NQ > 5 (ou > 10 pour certains

auteurs).

Dans le domaine médical, les paramètres étudiés suivent souvent (de manière approchée) une loi

normale

Ainsi on peut démontrer, qu’une moyenne ou une fréquence observée suivent approximativement

une loi normale dès que la taille de l’échantillon est assez grande.

Ce résultat est approché lorsque l’effectif de l’échantillon est « grand » est exact si la distribution de

la variable X est elle même normale.

___________________

Exercice 1 Dans une population, la fréquence d’un facteur est de 12%.

On tire au hasard un échantillon de 100 sujets.

Calculer l’intervalle de pari à 95% et à 99% de la fréquence de ce facteur Corrigé 1

P = 0,12 et n=100

Les conditions d’applications sont vérifiées pour le calcul de l’intervalle de pari d’un pourcentage puisque :

np =12 et Nq = 88 sont > 5

L’intervalle de fluctuation à 95% ( = 0,05 U = 1,96)

f 0,12 + 1,96 100

.88,0*12,0

0,12 + 0,064

Ip95% [0,06 – 0,18]

L’intervalle de fluctuation à 99% ( = 0,01 U = 2,576)

0,12 + 2,576 100

.88,0*12,0 0,12 + 0,084

Ip99% [0,04 – 0,20]

Page 24: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

24

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Exercice 2

Dans une population, le poids de naissance des nouveau-nés a une moyenne = 3300g et une

variance = 250 000 g2. Considérons des échantillons de 400 nouveaux nés tirés au sort dans cette

population. Calculer l’intervalle de pari à 95% et à 99% de la moyenne du poids de naissance.

N > 30

1. Intervalle de fluctuation (pari) à 95% de la moyenne m des poids de naissance observés sur ces

échantillons est

3300 + 1,96 400

250000 3300 + 49

m [3251 ; 3349] g

2. Intervalle de fluctuation (pari) à 99%

3300 + 2,57 400

250000 3300 + 64

m [3236 ; 3364] g

Page 25: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

25

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Chapitre 5

Estimation – Intervalle de confiance

Généralités :

Lorsque l’on étudie une caractéristique dans une population, il est souvent nécessaire d’étudier cette

caractéristique dans un groupe de sujets (échantillon) avant de généraliser les résultats à la population.

L’estimation est la théorie qui permet cette généralisation de l’échantillon à la population.

Ex : On souhaite évaluer la prévalence (fréquence) de l’hypertension artérielle (HTA) dans un

département d’outre mer. La population de ce département est trop vaste

On sélectionne un échantillon représentatif (tiré au sort) de cette population.

On décrit sur cet échantillon la prévalence de l’HTA.

Puis, on cherche à estimer la prévalence de l’HTA dans la population.

On distingue 2 types d’estimation :

l’estimation ponctuelle qui fournit une valeur que l’on souhaite la plus proche possible de la

vraie valeur du paramètre

l’estimation par intervalle qui donne un intervalle, appelé intervalle de confiance, qui a une

probabilité fixée à priori de contenir la vraie valeur du paramètre.

1. Estimation ponctuelle

Définitions et notations L’estimation consiste à attribuer une valeur au paramètre étudié à partir des observations faites sur l’échantillon.

Cette valeur numérique = estimation

Il est préférable, de noter différemment la valeur vraie (valeur théorique) du paramètre dans la

population, et la valeur estimée sur un échantillon.

Les notations des estimations des paramètres les plus couramment utilisées :

Paramètre

Valeur théorique Estimation

sur un échantillon

Fréquence P po ou f

Moyenne m

Variance 2 s2

Estimateur, définition

La formule ou procédure mathématique utilisée pour « estimer » s’appelle l’estimateur

Biais d’un estimateur Le biais d’un estimateur est évalué par la différence entre les estimations d’un paramètre obtenues sur des

échantillons successifs et la vraie valeur du paramètre.

Les qualités d’un estimateur dépendent de la formule utilisée pour le calculer et de la façon dont a été choisi

l’échantillon.

Les échantillons représentatifs de la population (en pratique, tirés au sort) permettent d’éviter la plupart

des erreurs dues au choix de l’échantillon.

Page 26: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

26

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Pour qu’un estimateur convienne, il faut vérifier qu’il présente 2 qualités principales : absence de biais

et variance faible.

Estimateur sans biais : un estimateur sans biais donne en moyenne la bonne valeur du

paramètre.

Une variance faible indique que les estimations sont peu dispersées et qu’il y a donc peu d’écarts

entre les valeurs issues de 2 échantillons distincts

L’absence de biais signifie que les estimations obtenues sur des échantillons successifs ne s’écartent

pas de la vraie valeur de manière systématique.

Un estimateur est donc d’autant meilleur qu’il est sans biais et a une variance minimum.

Estimateur de la fréquence, de la moyenne et de la variance d’une variable.

La moyenne des fréquences observées f sur des échantillons tirés au sort était égale à la fréquence P

théorique dans la population de la variable qualitative étudiée

E (f) = P f estime P

La moyenne des moyennes observées m sur des échantillons tirés au sort était égale à la moyenne

théorique dans la population de la variable quantitative étudiée

E (m) = m estime

La fréquence et la moyenne observées (sur des échantillons tirés au sort) sont des estimateurs sans

biais des moyennes et fréquences théoriques.

La variance

Soit E un échantillon, d’effectif N, correctement extrait de P. On s’intéresse à une variable quantitative

X dans cette population.

Soit 2 la variance théorique et inconnue d’une variable quantitative X dans une population P.

m et s2

étant respectivement la moyenne et la variance de X observées dans l’échantillon E .

s2

(X) = N

mxN

i

i

1

2

On démontre que s2 est un estimateur biaisé pour 2 .

L’estimateur de 2 comprend un facteur 1

1

N (et non

N

1)

2 Estimation par intervalle de confiance.

Soit P une population dans laquelle la variable quantitative X a une moyenne inconnue (ou la

variable qualitative Y a une fréquence théorique p inconnue).

L’intervalle de confiance d’un paramètre inconnu est l’intervalle dans lequel le paramètre inconnu

qu’on cherche à estimer a une probabilité (1 - α) de se trouver et α de ne pas se trouver.

2.1 Variable quantitative – estimation d’une moyenne par intervalle de confiance (Ic)

Cas des grands échantillons (N > 30)

La condition de validité (N > 30) doit être pour appliquer la formule de l’intervalle de confiance.

Page 27: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

27

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

La moyenne m suit une loi normale de moyenne et d’écart-type N

m est N ( ,N

)

U = N

m est N (0, 1)

Ic de au seuil α : + Uα 1N

s]

Cas des petits échantillons (N < 30)

Calcul de l’intervalle de confiance dans le cas où la variable étudiée X est normale

Dans ce cas m est N ( , N

)

Ic de au seuil α [ m + tα 1N

s ]

tα est donné par la table de Student à (N – 1) degrés de liberté.

2.2 Variable qualitative – estimation d’une fréquence par intervalle de confiance

Cas des grands échantillons (Np et Nq > 5)

Les conditions de validité du calcul sont vérifiées à postériori aux bornes de l’intervalle de confiance

f est N (p, N

q.p ) on estimeN

q.p par N

)f1(f U =

N

)f1(f

pf est N (0, 1)

Ic de p au seuil α [f + N

)f1(f ]

Cas des petits échantillons (Np et Nq < 5)

L’intervalle de confiance est donné par des tables spéciales : abaques

3. Précision d’un intervalle de confiance

Pour un risque α donné, la précision du renseignement est donnée par l’intervalle de confiance.

Elle d’autant plus grande que l’intervalle est petit.

Uα. 1N

s est la précision de l’estimation de la moyenne.

Uα.N

)f1(f est la précision de l’estimation du pourcentage.

4. Nombre de sujets nécessaire

En bio statistique, la question suivante est souvent posée : Combien faut-il de sujets, pour répondre à

une question, dans une étude.

Il est possible de déterminer le nombre minimum de sujets nécessaire pour un sondage, à condition :

-de fixer i (la précision désirée) et

-de connaître P. P étant inconnu, on peut utiliser une valeur approximative par ex f obtenue

au préalable sur un petit échantillon.

Page 28: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

28

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Si on veut obtenir une précision fixée à l’avance, c'est-à-dire un intervalle de confiance déterminé par

± i, on doit avoir, pour un risque α donné

i = Uα.N

ff )1(

et donc n = 2

2)1(

i

ffU

______________________

Exercice 1 Dans une population P , on s’intéresse au taux de cholestérol sanguin (g/L).

On tire au hasard un échantillon de 32 femmes . La moyenne et l’écart-type du taux de cholestérol de

l’échantillon sont égal à 2,2 et 0,52.

Calculer l’intervalle de confiance à 99% pour le taux moyen de cholestérol de la population totale des

femmes.

Corrigé de l’exercice 1

Taux de cholestérol sanguin en g/L = variable quantitative

N est grand > 30

Ic à 99% = 0,01 U = 2,57

m + U

1N

s 2, 2 + 2,57

31

52,0 2, 2 + 2,57 0,09

Ic 99% [1,96 ; 2,44] g/L

Exercice 2 Dans un centre anti-cancéreux, on examine après tirage au sort un échantillon de 100 femmes pour

lesquelles on suspecte un cancer utérin. En fait 25% de ces femmes présentent un cancer utérin. Quel est

l’intervalle de confiance au risque 5 % de la fréquence du K utérin dans la population féminine suspecte

reçue au centre anti-cancéreux.

Corrigé de l’exercice 2

L’Ic au risque 5% de la fréquence du cancer utérin dans la population féminine suspecte au centre anti-

cancéreux.

N =100 f =0,25. On suppose que l’échantillon est grand. Les conditions d’application (npi , nqi, nps, nqs > 5

seront vérifiées à portériori).

P [0,25+ 2

100

75,025,0 ] Ic95% P [0,16 ; 0,34]

Les conditions vérifiées : npi, nqi, nps, nqs > 5

___________________________________________________________

Page 29: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

29

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Chapitre 6

Comparaison d’une caractéristique observée à une caractéristique

théorique. Les tests statistiques.

La question posée dans le cas d’une moyenne, dans le cas d’une moyenne : la moyenne observée

m diffère t’elle de moyenne théorique (connue) ?

L’échantillon E est-il représentatif de P ?

En fait, on veut savoir si la différence observée est attribuable aux fluctuations d’échantillonnage ou

si elle correspond à une différence réelle.

Le test statistique permet de répondre à cette question. Il est basé sur l’estimation de l’écart-réduit.

1. Etapes d’un test statistique - grands échantillons:

1.1 Les hypothèses nulle et alternative

H 0 : hypothèse nulle : E est représentatif de P

La moyenne observée ne diffère pas de la moyenne théorique

La fréquence observée ne diffère pas de la fréquence théorique

H 1 : hypothèse alternative : E n’est pas représentatif de P

1.2 La statistique du test statistique Après vérification des conditions de validité du test.

Si l’effectif de l’échantillon E est grand, ce paramètre U obéit sous H 0 à une loi connue

U =

N

m

2 est N (0,1) Puisque que N > 30

avec m = moyenne de x dans l’échantillon

= moyenne de x dans la population

écart-type dans la population

N = taille de l’échantillon (N est grand > 30)

Ou U =

N

)p1(p

pf est N (0,1)

Avec f = fréquence de x dans l’échantillon

p = fréquence de x dans la population

N = taille de l’échantillon (N est grand Np et N(1-p) > 5)

1.3 Définir le seuil : seuil de signification ou risque de première espèce.

Généralement on choisit = 0,05

1.4 Définir la zone de rejet de H0 (zone hachurée)

Au risque choisi, correspond un intervalle [-U + U ] ou le paramètre a 1 - de

chance de se trouver.

La zone de rejet comprend 2 parties

ainsi, au seuil = 0,05 _________________________________

-1,96 0 + 1,96

Page 30: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

30

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

1.5 Calculer le paramètre (valeur numérique de la statistique)

On calcule le paramètre en fonction des données du problème.

1.6 Décision

- Si X tombe dans la zone de rejet, on rejette H 0 avec un risque d’erreur <

= risque de première espèce

-Si X ne tombe pas dans la zone de rejet, je ne rejette pas H 0

si on accepte H 0 , cette décision est associée à un risque de deuxième espèce

2. Risque de première et deuxième espèces, puissance d’un test statistique

a) = risque de première espèce. Risque d’erreur, est le risque de rejeter l’hypothèse nulle alors

qu’en fait elle est exacte.

b) = risque de deuxième espèce ou manque de puissance, est le risque de ne pas rejeter l’hypothèse

nulle alors qu’en fait elle est fausse. C’est la probabilité de ne pas mettre en évidence une

différence qui existe réellement.

Les risques et , sont antagonistes.

Si l’on choisit un risque très petit, on ne peut le plus souvent rejeter H0.

On choisit le plus souvent un risque de 5%. Ce risque fixé est appelé seuil de signification,

c) 1 - :puissance du test. C’est la probabilité de mettre en évidence une différence qui existe

réellement.

Synthèse

Réalité Décision

On ne rejette pas H0 Rejet de H0

H0 vraie 1 -

H0 fausse 1 -

Page 31: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

31

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Exemples

Exercice 1 On suppose que la moyenne de la taille normale des nouveaux -nés à terme est 50cm et l’écart-type 3.

Sur un échantillon de 50 nouveaux –nés représentatifs des prématurés (enfant nés avant terme) on

observe une moyenne de taille égale à 45 cm.

La différence est-elle significative ? C’est à dire peut-on affirmer que les prématurés naissent plus

petits que les nouveaux nés à terme ?

Corrigé de l’exercice 1

Dans la population P, cm50 et cm3 . Pour l’échantillon m= 45 cm

Il s’agit de comparer une moyenne observée à une moyenne théorique.

1 . Hypothèse nulle Ho

Il n’y a pas de différence significative entre la taille des prématurés et celle des nouveaux nés à terme

2 Sous l’hypothèse nulle Ho

N étant > 30.

U = N

m qui est N (0, 1)

3 Le seuil = 0,05 (dans la table de l’écart-réduit, = 0,05 U = 1,96.

4 La zone de rejet (hachurée) _________________________________

-1,96 0 + 1,96

5) Calcul de la valeur numérique de U

U cal =

50

3

5045= -

3

5. 50 = - 11,7

5) Décision U calculé tombe dans la zone de rejet. Je rejette H0 avec un risque de première espèce

05,0 et même à 10-4

. Il y a une différence significative entre les 2 moyennes

La taille des prématurés est significativement plus petite que celle des nouveaux nés à terme.

Exercice 2

Sur les 10 000 enfants nés de 1968 à 1973, on a compté 5300 filles.

On demande si la proportion de filles est compatible avec l’hypothèse d’équiprobabilité d’une fille et

d’un garçon au risque 1%?

Corrigé de l’exercice 2

On utilise le test de comparaison d’une fréquence observée à une fréquence théorique p = 0,5

1) L’hypothèse nulle : équiprobabilité des naissances d’une fille ou d’un garçon.

2) Sous H0

np et n(1-p) > 5 U =

n

pp

pf

)1( Np et N(1-p) > 5)

3) Seuil = 0,01 U = 2,567

4) Zone de rejet hachurée ___________________________

-2,57 0 + 2,57

5) calcul de U

Ucal =

10000

50,0*50,0

50,053,0= 6

6) je rejette H0 avec un risque de 1ère

espèce = 0,01 (et même < 10-8

)

Il n’y a pas d’équiprobabilité de naissance d’une fille ou d’un garçon.

Page 32: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

32

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Chapitre 7

COMPARAISON de DEUX VARIANCES

Pour comparer les distributions d’une variable dans deux populations, on peut être amené à

comparer les variances.

La comparaison des variances permet aussi de vérifier les conditions d’application de tests

statistiques (exemple : test de Student).

1 Le Test de Fisher

Nous présentons la comparaison de deux variances observées, par leur rapport.

Soit deux échantillons d’effectifs n1 et n2 tirés au sort dans 2 populations.

Notons s1 et s2 les variances d’une variable X observées dans les deux échantillons.

On souhaite comparer les variances observées

Les étapes du test

H0 et H1 doivent porter sur les valeurs vraies

1ère

étape : H0 hypothèse nulle, pas de différence entre les variances

2

1 = 2

2 .

H1 hypothèse alternative

2

1 ≠ 2

2 .

2ème

étape : Statistique du test

Sous l’hypothèse nulle, c'est-à-dire si 2

1 =2

2 , le rapport des variances F

F = 2

2

2

1

s

s (si s 2

1 > s 2

2 ) ou F = 2

1

2

2

s

s (si s2

2 > s 2

1 )

F suit une loi de Fisher à (n1-1) et (n2-1) ddl notée 11

12

n

nF ou 12

11

n

nF

Condition de validité : les deux séries sont extraites de populations à distribution normale.

3ème

Le seuil choisi est

4ème

La zone de rejet est déterminée à partir de 2

avec k1 et k2 ddl

k1 pour le numérateur de F (plus grande variance) : effectif échantillon – 1

soit n1 – 1 ou n2 - 1

k2 pour le dénominateur de F : égal à n2 - 1 ou n1 – 1

Si le seuil choisi est = 0,05. Il faut utiliser la table de 2

soit = 0,025 et le rapport est

ainsi comparé à la valeur de F donnée par la table (point 2,5%) à l’intersection de la colonne

(n1 – 1) et de la ligne (n2 – 1)

La zone de rejet est hachurée

F

Page 33: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

33

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

4ème

Calcul de F0 On calcule celui des deux rapports qui est supérieur à 1.

5ème

Décision

-Si F0 ne tombe pas dans la zone de rejet : on ne rejette pas H0 (l’hypothèse d’égalité des variances

est vérifiée). Les deux variances ne diffèrent pas significativement à 5%.

- Si F0 dépasse la valeur seuil (correspondant à 2

dans la table de Fisher aux ddl appropriés), on

rejette H0 et on conclut à une différence significative entre les variances au risque .

2 . La table de Fisher (en annexe table de F point 2,5% et table de F point 5%)

La table de Fisher 1

2

k

KF donne la valeur de Fα telle que = Pr ( 1

2

k

KF > Fα).

________________________________

Exercice :

On compare les variances d’une variable X estimée dans deux échantillons de taille n1 = 6 et n2 = 15.

On trouve F = 2

2

2

1

s

s = 3. La variable X est distribuée normalement. Les deux variances sont-elles différentes au

seuil = 5 %.

Corrigé de l’exercice:

H0 : 2

1 = 2

2 .

Le seuil n’est pas précisé dans l’énoncé, donc = 5 %. 11

12

n

nF on cherche la valeur de F pour k1 (n1-1) et k2 (n2-1) ddl dans la table de Fisher pour la

ligne / 2 = 2,5 %. (ou dans la table de Fisher 2,5%).

Condition de validité : distribution normale de X.

Pour 5

14F on trouve F 0,025 = 3,66

Conclusion ; je ne rejette pas H0

Les variances ne diffèrent pas significativement

Page 34: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

34

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Chapitre 8

Comparaison entre deux caractéristiques observées.

1. Comparaison de 2 moyennes observées

2 situations différentes selon que

*E1 et E2 sont 2 échantillons indépendants

Ou *E1 et E2 sont 2 échantillons appariés. C’est à dire que les individus qui les constituent sont

liés entre eux, parfois, ils sont les mêmes.

1.1 Cas des échantillons indépendants Exemple concret :

Un échantillon de 110 malades atteints de cancer du colon a été comparé à un échantillon 180 témoins non

malades quant à leur consommation moyenne de caféine. Pour les malades elle est égale à m1 = 149 mg/j et pour

les témoins à m2 = 130 mg/j. Ces deux moyennes sont-elles différentes.

De manière plus générale, soit 2 échantillons d’effectifs n1 et n2 tirés au sort dans chacune des 2

populations que l’on compare.

Ces échantillons sont définis par

n1 m1 s1

n2 m2 s2

Problème: les moyennes m1 et m2 diffèrent-elles significativement ou non ?

On veut savoir si la différence observée entre m1 et m2 est attribuable aux fluctuations

d’échantillonnage ou correspond à une différence réelle entre les valeurs vraies dans les populations

dont sont tirés les deux échantillons

Notons 1 et 2 les moyennes vraies dans les populations d’où sont issus les échantillons.

Les hypothèses nulles et alternatives s’écrivent :

H0 : 1 = 2

(les 2 échantillons proviennent de la même population de moyenne )

H1 1 ≠ 2 (test bilatéral)

1 > 2 ou 1 < 2 test unilatéral.

1.1.1. Grands échantillons : n1 et n2 > 30. Approximation par la loi normale

Lorsque les deux échantillons sont grands (en pratique, n1 > 30 et n2 > 30)

m1 suit approximativement une distribution normale, N ( 1 , )1

2

1

n

et m2 suit approximativement une distribution normale est N ( 2 , )2

2

2

n

La différence m 1 -m 2 suit approximativement une loi normale de moyenne 1 - 2 et de variance

1

2

1

n +

2

2

2

n si les deux échantillons sont indépendants.

On note classiquement m 1 et m 2 les estimations de 1 et 2 et s1 et s2 les estimations de 2

1 et 2

2 .

Page 35: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

35

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

on démontre que m est N (0, 2

2

2

1

2

1

N

s

N

s)

Si les échantillons sont grands et indépendants,

L’hypothèse nulle Ho (m1 = m2) 1 = 2 ou 1 - 2 = 0

L’hypothèse alternative H1 1 ≠ 2 test bilatéral

Pour comparer les deux moyennes, on utilise la statistique

U=

2

2

2

1

2

1

21

N

s

N

s

mm qui suit approximativement une loi normale centrée réduite ; est N (0, 1)

Les étapes du test : comparaison de 2 moyennes observées pour 2 échantillons indépendants

1) H0 : pas de différence significative entre 1 et 2

Ou encore, les 2 échantillons sont issus de la même population.

2) Statistique de test

Sous H0, U=

2

2

2

1

2

1

21

N

s

N

s

mm est N (0, 1)

3) Choix du seuil

4) Déterminer la zone de rejet

5) Calcul de U

6) Décision

* si U calculé tombe dans la zone de rejet

- on rejette H0 avec un risque de première espèce <

- la différence entre m1 et m2 est significative

si U calculé ne tombe pas dans la zone de rejet

- les données ne permettent pas de rejeter l’hypothèse d’égalité des

moyennes

- ou on accepte H0 avec un risque de 2ème

espèce

Exercice : On a appliqué à deux lots de souris deux traitements A ou B après tirage au sort. Les résultats sont

présentés dans le tableau suivant :

n M en jours de survie s2

Traitement A 50 16 16

Traitement B 50 18 14

Le délai moyen diffère t-il entre les deux groupes

Corrigé :

- il s’agit de la comparaison de 2 moyennes observées pour 2 échantillons indépendants

- H0 : il n’y a pas de différence entre A = B

-La statistique de test

les échantillons sont grands nA et nB ≥ 30

Page 36: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

36

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

U=

B

B

A

A

BA

n

s

n

s

mm

22 est N (0, 1)

-Au seuil = 0,05, U = 1,96

-Définition de la zone de rejet de Ho (zone hachurée)

________|_______________________|_________

-1,96 0 + 1,96

-Calcul Ucalculé =

50

14

50

16

1816=

6,0

2= - 2,6

-Décision :

On rejette H0 avec un risque < 0,05 et même < 10-5

Les délais moyens de survie sont significativement différents dans le sens d’une guérison

plus longue avec B (18 jours) ou plus courte avec A (16 jours).

1.1.2. Petits échantillons : n1 ou n2 < 30 Quand au moins un des échantillons a une taille trop petite (en pratique n1 < 30 ou n2 < 30)

l’approximation par la loi normale n’est plus possible.

On peut utiliser le test du t de Student-Fisher

-Si la distribution de la variable étudiée est normale dans chacune des deux populations

- Et si les variances σ12 et σ2

2 sont égales

Pour la condition 1 : la distribution peut-être normale compte tenu de la nature même de la variable

étudiée

Pour la condition 2, quand les échantillons sont petits, les estimations ss et2

2

2

1 de σ1

2 et σ2

2

peuvent s’écarter beaucoup des vraies valeurs. On aborde le problème de la manière suivante :

On peut d’abord réaliser le test d’égalité des variances.

Si on suppose que σ12 = σ2

2, on calcule sur l’ensemble des échantillons une variance commune

s2, obtenue à partir des deux échantillons.

avec s2 =

2

)1()1(

21

2

22

2

11

nn

nn ss

Cette variance commune, prend en compte la taille de chaque groupe.

Le paramètre T =

21

21

11

nns

mm suit une loi de Student à (n1 + n 2 - 2) ddl

Si | t | < à la valeur de t lue dans la table, au risque α pour n1+n2-2 ddl, on ne rejette pas H0. La

différence n’est pas significative.

Dans le cas contraire (si t > t n1+n2-2) au seuil α on rejette H0. En fonction des valeurs observées,

m1 > m2 ( 1 > 2 ) ou m2 > m1 ( 2 > 1 )

Page 37: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

37

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

On recherche, dans la table, le degré de signification p ; c’est la plus petite valeur telle que t > t

n1+n2-2

L’utilisation du test t reste possible dans le cas des grands échantillons

La table de la loi de Student indique, pour un nombre de ddl allant de 1 à 120, la probabilité

d’obtenir une valeur de T à l’extérieur de l’intervalle [- t , +t ] .

La table :

Indique donc la valeur telle que = Pr[T > t ]

La première colonne de la table correspond au nombre de degrés de liberté,

La première ligne donne des valeurs de

L’intersection d’une ligne et d’une colonne indique la valeur de t .

1.2 Cas des échantillons appariés

Dans cette situation, chaque élément de la série 1 est lié à un élément de la série 2.

Ex : comparer les corrections d’un sujet d’examen (n copies) par deux examinateurs :

Pour chaque copie, il y aura 2 notes La liaison est représentée par la copie et pour chaque

copie, il y a un couple de note.

On peut disposer des notes données par l’examinateur 1 et des notes données par

l’examinateur 2 pour les N copies.

Pour traiter ce problème, on s’intéresse à la différence observée pour chaque couple de notes entre les

n copies.

De manière générale, pour comparer les moyennes de deux séries appariées, on forme pour chaque

paire la différence des deux mesures et on compare l moyenne des n différences à 0.

Pour les grands échantillons n ≥ 30

La moyenne de ces différences n

dm i

d n couples (observations appariées)

Condition d’application: n ≥ 30

sd2 =

N

md di

2

variance des différences

Sous l’hypothèse nulle

Le paramètre U= 1ns

m

d

d

Si | U | < Uα (ex : < 1,96 si α = 5%), je ne rejette pas H0, les moyennes ne diffèrent pas

significativement.

| U | ≥ Uα (ex : ≥ 1,96 si α = 5%), je rejette H0 au risque correspondant à U (lu dans la table de

l’écart-réduit).

Pour les petits échantillons n < 30

Condition d’application, les différences di sont distribuées selon une loi normale.

On compare la moyenne des différences dm à 0 par le rapport :

t= ns

m

d

d 0 ou

ns

m

d

d qui suit une loi de Student à (n – 1) ddl.

dm et ds désignent la moyenne et l’écart-type estimés sur l’échantillon des n différences

Page 38: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

38

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Si | t | < tα lu dans la table de t pour (n -1) ddl, et un risque α donné, je ne rejette pas H0, les

moyennes ne diffèrent pas significativement.

Si | t | ≥ tα lu dans la table de t pour (n -1) ddl, je rejette H0 au risque correspondant à t (lu dans la

table de t). Les moyennes diffèrent significativement.

2 Comparaison de 2 fréquences observées

Soit une variable qualitative et 2 échantillons

E1 N1 f1

E2 N2 f2

NB : Nous verrons dans un autre chapitre que l’on peut utiliser les test de pour comparer 2

fréquences

2.1 Cas des échantillons indépendants

Comparaison de 2 proportions pour grands échantillons

Soit une variable qualitative et 2 échantillons ayant respectivement les effectifs n1 et n2. La

comparaison des 2 pourcentages observés f1 et f2

Conditions : n1 .f1 et n1. (1– f1) > 5

n2 .f2 et n2. (1– f2) > 5

Sous H0 (ou f1 = f2), la différence (f1 – f2) est distribuée selon une

loi N (0, )11

.(.21 nn

qp )

- on estime la fréquence théorique par p = 21

2211 ..

nn

fnfn et q = 1-p

p et q désignent des proportions évaluées sur l’ensemble des deux échantillons.

La comparaison des 2 pourcentages est basée sur le test de l’écart-réduit.

Le paramètre U =

)11

.(.21

21

nnqp

ff est N (0, 1)

Si | U | < Uα (ex : < 1,96 si α = 5%), je ne rejette pas H0, les fréquences ne diffèrent pas

significativement.

| U | ≥ Uα (ex : ≥ 1,96 si α = 5%), je rejette H0 au risque correspondant à U (lu dans la table de

l’écart-réduit). La différence est significative.

2.2. Cas des échantillons appariés :

La comparaison des pourcentages pour les échantillons appariés sera présentée dans le chapitre du

test de chi2

(chapitre 9).

Pour la comparaison de 2 fréquences observées, préférer le test de 2

Page 39: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

39

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Chapitre 9

Le test de chi-deux

Il est fréquent d’avoir à comparer 2 pourcentages. En effet, la maladie est souvent caractérisée par

une variable dichotomique (malade / non malade).

Par exemple, si on veut savoir si le taux de guérison est ou non amélioré par un traitement, on sera

amené à comparer des pourcentages de malades (ceux guéris sans traitement, ceux guéris sous

traitement).

Le plus souvent, on compare des pourcentages (ou des distributions) observés dans deux

échantillons (ou plus) mais on est parfois aussi amené à comparer un pourcentage à une valeur de

référence.

On utilise

2 d’ajustement : pour la comparaison d’une distribution observée sur un échantillon à une

distribution théorique

2 d’homogénéité ou d’indépendance : pour la comparaison de deux distributions observées.

1. Le 2 d’indépendance

Problème général :

On cherche à rejeter, ou non, l’indépendance entre deux variables qualitatives (exemple Traitement

(oui/non) – Guérison (oui/non)).

Ou compare deux pourcentages observés et on cherche à savoir si la différence observée entre po1 et

po2 (ou f1 et f2) peut-être attribuée aux fluctuations d’échantillonnage ou si elle correspond à une

différence entre les valeurs vraies du pourcentage dans les deux populations dont sont issus les

échantillons.

Notons que P1 et P2 sont les pourcentages vrais dans les populations d’où sont issus les

échantillons.

Le problème de la comparaison de 2 pourcentages revient en fait à la comparaison de 2

distributions.

Ex : Des patients atteints de la même maladie ont été traités par 2 traitements différents. Parmi

les 70 qui ont reçu le traitement A , 22 ont guéri et parmi les 50 qui ont reçu le traitement B, 25

ont guéri. Le taux de guérison est-il différent entre les 2 traitements.

Principe du test :

On fait l’hypothèse d’indépendance entre 2 facteurs (Ex maladie et consommation de tabac, ou

Traitements -guérison).

C’est l’hypothèse nulle H0 P1 = P2

l’hypothèse alternative H1 P1 ≠ P2 test bilatéral

ou P1 > P2 ou P1< P2 test unilatéral

Page 40: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

40

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Sous H0

On pose le tableau de contingence observé Dans les différentes cases de ce tableau, nous allons nous intéresser aux effectifs observés plutôt

qu’aux pourcentages pour une maladie (malade M+ – non malade M-) et une exposition au tabac

(Fumeurs T+ et non Fumeurs T-).

Malade M+ M-

Fumeur T+ eo11 eo12 n1 T- eo21 eo22 n2 m1 m2 N

Les pourcentages observés de malades po1 = 1

11o

n

e parmi les fumeurs

et de malades po2 =

2

21o

n

e parmi les non fumeurs

On calcule le tableau de contingence théorique

M+ M-

T+ et 11 et 12 n1

T- et 21 et 22 n2

m1 m2 N

En effet, si H0 est vraie, les effectifs observés fluctuent autour de ces effectifs théoriques (calculés).

Commençons par la première case du tableau qui correspond aux sujets malades M+ de

l’échantillon T+

pour la 1ère

case : le nombre théorique de malade dans l’échantillon T+ est

e t 11 = N

nm 11.

Explication Si H0 est vraie, le pourcentage de malades est le même dans les deux populations d’où sont issus les

échantillons T+ et T- : P1 =P2.

La meilleure estimation de ce pourcentage est p = m1 /N, p obtenu par la réunion de 2 échantillons. La valeur

théorique du nombre de malades attendus pour T+ est n1.p = n1 . m1/n

Il en est de même pour les autres cases.

L’effectif calculé d’une case est obtenu en multipliant les effectifs des marges correspondant à

cette case et en divisant le résultat par le total général.

Test

Si H0 est vraie, les effectifs observés, eoij fluctuent autour des effectifs calculés etij et on montre que

si la taille de l’échantillon est assez grande, et si l’hypothèse d’indépendance est vérifiée, la quantité

t

2

to

e

)ee(suit une loi de

2 à (L-1) (C-1) ddl . L étant le nombre de lignes du tableau

C étant le nombre de colonnes du tableau

2 =

t

2

to

e

)ee(

Le test consiste à calculer à partir des observations faites sur les échantillons

Conditions d’application du test, les effectifs théoriques ou calculés doivent être > 5

Définir un seuil exemple, pour = 0,05 et le ddl = 1 2

α = 3,84

Page 41: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

41

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Définir la zone de rejet

Zone de rejet > 2

α zone hachurée)

2 α lu dans table de

2 pour un seuil α et un nombre de ddl (L-1) (C-1)

La zone de rejet est définie par la

_____________________

0 2

α

La table de la loi de donne la valeur de 2 telle que = P ( ≥ 2 .

Calcul de

Conclusion

Dans le cas d’un test bilatéral, on rejette H0 au risque , si 2

≥ 2

* Si 2

> 2 2

tombe dans la zone de rejet), on rejette H0 avec un risque d’erreur de 1ère

espèce <

Si 2

< 2 2

ne tombe pas dans la zone de rejet), on ne rejette pas H0.

(ou on accepte H0 avec un risque d’erreur de 2ème

espèce

Dans le cas d’un test unilatéral distinguer les cas selon la formulation de H1.

Si H1 s’écrit p1> p2, on rejette H0 au risque , si 2

> 22 et si p1> p2

Si H1 s’écrit p1 < p2, on rejette H0 au risque , si 2

> 22 et si p1< p2

Autres écriture du 2

de comparaison de 2 pourcentages

Pour calculer le 2

, nous avons utilisés la formule

2

t

to2

e

)ee(

Utilisons les notations suivantes M+ M-

T+ a b n1

T- c d n2

m1 m2 N

On montre que 2

= 2121

2bc-ad

mmnn

n

Cette formule est plus simple à calculer

Il ne faut pas oublier les CA d’application portent toujours surs les etij

2. Le 2 d’ajustement Problème général :

- On compare une distribution observée à une distribution théorique ou encore un pourcentage

observé à un pourcentage théorique

On cherche à savoir si la différence observée peut être attribuée aux fluctuations

d’échantillonnage ou si elle correspond à une différence réelle.

Page 42: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

42

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

La variable qualitative étudiée a K classes (ou K modalités). Si nous analysons la variable

« couleurs des yeux », cette variable peut avoir 4 classes par exemple : yeux noir, vert, bleu,

marron.

Le problème se pose donc de la façon suivante, on a observé un pourcentage po sur un échantillon

et on se demande s’il diffère d’une valeur de référence (ou théorique) que nous noterons pt.

2.1 Principe du test :

l’hypothèse nulle H0 : L’échantillon est représentatif de la population

2.1.1 Présentation du tableau de calcul de 2

M+ = malade, M- = Non malade

Malade M+ M+ M-

Effectifs observés eo1 eo2 n

Effectifs théoriques et1 = nPt Et2 = nQt n

Qt = 1 - Pt

2.1.2 Calcul du 2

CA : tous les effectifs théoriques sont > 5

2 =t

2

to

e

)ee( suit une loi de

2 à (K – 1) ddl (K étant le nombre

de modalités de la variable).

3. La table de la loi de 2

La table de la loi de 2

donne la valeur de 2α

telle que = Pr (

2 ≥

2α)

.

La première colonne de la table indique le nombre de degrés de liberté

La première ligne indique la valeur de α

L’intersection d’une ligne et d’une colonne donne la valeur de 2α

=

9,49.

Exemple

Pour un nombre de ddl égal à 4, et pour une valeur de α égale à 5 %, 2α

=

9,49

Interprétation : la probabilité qu’une variable 2

(à 4ddl) prenne une valeur supérieure ou égale

à 9,49 est égale à 5%.

Page 43: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

43

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Exercice 1.

Un groupe de 300 malades est réparti par tirage au sort, entre 3 chirurgiens, pour une intervention.

La fréquence des complications est présentée dans le tableau suivant :

Chirurgiens

1 2 3

Nombre de complications 10 4 6

Nombre de malades 100 100 100

Les performances de trois chirurgiens diffèrent-elles dans leur ensemble ?

Corrigé exercice 1.

Chirurgiens

Complications 1 2 3

OUI 10

6,7 4

6,7

6

6,7

20

NON 90

93,3 96

93,3

94

93,3

280

Malades 100 100 100 300

Fréquences des complications : Chir 1 =10% Chir 2 = 4% Chir3 = 6%

H0 Les performances des 3 chirurgiens ne diffèrent pas significativement

Les conditions d’applications du test : tous les effectifs théoriques > 5

Le test 2

d’indépendance 2

2 )(

t

to

e

ee suit une loi de

2à (L-1) (C-1) ddl soit 2 ddl

Le seuil α = 0,05 Le seuil n'ayant pas été précisé dans l'énoncé, on choisit 5%.

La zone de rejet : 2

> 2

soit2

> pour α = 5% et 2 ddl).

_____________________ 0

Calcul de 2

2 =

3,93

)3,9394(

3,93

)3,9396(

3,93

)3,9390(

7,6

)7,66(

7,6

)7,64(

7,6

)7,610( 222222

3

Conclusion : 2

< 2

: (2 ne tombe pas dans la zone de rejet), on ne rejette pas H0

Les performances des 3 chirurgiens ne diffèrent pas dans leur ensemble.

Exercice 2

Lors d’une enquête réalisée sur un échantillon de taille 400, représentatif des décès enregistrés dans

une région, on a observé que 140 décès (35%) étaient dus à une maladie cardio -vasculaire. Ce

pourcentage diffère-t-il de la valeur de référence (40 %) donnée par les statistiques nationales ?

Corrigé exercice 1.

On cherche donc à savoir si le pourcentage observé de maladie cardio-vasculaire est différent de la valeur

de référence

Test de 2 d’ajustement.

Hypothèse nulle H0 = Le pourcentage observé ne diffère pas de la valeur de référence

Sous l’hypothèse nulle on présente le tableau de 2 d’ajustement.

Page 44: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

44

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Décès dus à une maladie cardiovasculaire

Oui Non

Effectifs observés 140 260 400

Effectifs théoriques 400 x 0,40 = 160 400 x 0,60 = 240 400

Les conditions d’applications du test: tous les effectifs théoriques ≥ 5

Ces conditions sont vérifiées (les effectifs théoriques pour cet exemple sont 160 et 240)

Le test

2

t

to2

e

)ee(

suit une loi de 2 à (K- 1) ddl (2 modalités – 1, soit 1 ddl).

Le seuil = 0,05 2

. Le seuil n'ayant pas été précisé dans l'énoncé, on choisit 5%.

Définition de la zone de rejet : 2

> 2

soit2

>

_____________________

0

Calcul de 2

2= 16,4

240

)240260(

160

)160140( 22

Conclusion : 2

> 2 2

tombe dans la zone de rejet), je rejette H0 avec un risque de première espèce

Il existe une différence significative entre les pourcentages de décès par maladie cardiovasculaire

dans la région et dans l’ensemble du pays. Le pourcentage est plus faible dans la région.

Page 45: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

45

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

Chapitre 10

Tests non paramétriques

1. Principes des tests non paramétriques La plupart des tests statistiques sont construits à partir d'hypothèses sur les distributions des

variables étudiées chez les individus

L'utilisation d'un test paramétrique suppose de connaître la loi (ou la famille de lois) de la

population dont est issu l’échantillon

Loi normale,

Distribution binomiale ou distribution de Poisson

Dans le cas des petits échantillons ces hypothèses ne peuvent être vérifiées

Soit 2 populations P1 et P2 dont on tire 2 échantillons E1 et E2

On veut savoir au vu d’E1 et E2, sans faire d’hypothèses sur les lois attachées à P1 et P2, si

ces lois sont identiques ou non.

On utilise un test dit non paramétrique : en anglais « distribution free test »

Tests paramétriques Tests non paramétriques

Test t de Student non appariés Test de Mann et Whitney

Test t de Student appariés Test de Wilcoxon

Analyse de variance Test de Kruskall et Wallis

Cas particulier de 2 variables

2. Tests non paramétriques avec échantillons indépendants Test de Mann - Whitney

Le test de Mann-Whitney est un test non paramétrique portant sur deux échantillons

indépendants issus de variables numériques ou ordinales.

Ce test non paramétrique permet aussi de comparer deux échantillons indépendants de petite taille.

Il porte sur le fait que deux séries de valeurs numériques (ou ordinales) sont issues d'une même

distribution.

Il est non paramétrique, c'est à dire qu'il ne fait aucune hypothèse sur les formes analytiques

des distributions F1(x) et F2(x) des populations P1 et P2. Il teste donc l'hypothèse :

H0 : "F1 = F2"

Il utilise les RANGS, c’est-à-dire l’ordre dans lequel apparaissent les observations des deux

échantillons réunis dans un même ensemble. Par conséquent, il est valide sur des données

quantitatives ou ordinales.

NB1 : Il est quelquefois appelé «test de Wilcoxon». Mais à ne pas confondre avec le lest des

rangs de Wilcoxon…

NB2 : Si les populations sont supposées normales et de même variance, le test t aura la

préférence.

Le test U de Mann et Whitney pour séries indépendantes

Si 2 populations sont identiques, il doit y avoir intrication des valeurs de ces 2 populations

(hypothèse H 0 ).

Page 46: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

46

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

La réalisation du test est basée sur

-le classement des observations par ordre croissant (sans tenir compte du groupe) ;

-la détermination du rang de chacune d'elle (on attribue aux rangs ex-aequo la valeur

moyenne des rangs) ;

-le calcul de la plus petite somme des rangs.

Un exemple concret permet de comprendre l'affectation des rangs aux valeurs et le traitement

des ex æquo.

Exemple

Soit à comparer les notes obtenues par deux groupes d'étudiants A et B de tailles respectives nA

= 6 et nB = 8 . Groupe A Groupe B

7 4

8 5

10 7

13 9

16 10

18 11

12

14

Somme Moyennes des

Des rangs

rangs

GA 7 8 10 13 16 18 TA = 54 9

GB 4 5 7 9 10 11 12 14 TB= 51 6,4

na 0 0 1 1 0 1 0 0 1 0 1 1

nb 1 1 1 0 1 1 1 1 0 1 0 0

na +nb 1 1 2 1 1 2 1 1 1 1 1 1

rang 1 2 3 ,5 5 6 7,5 9 10 11 12 13 14

nA=6, nB=8

On fait pour chaque groupe la somme des rangs qui le compose.

TA= ni (A) . ri = (1x3,5) + (1x5) + (1x7,5) + (1x11) + (1x13) + (1x14) = 54

TB= ni (B) . ri = (1x1) + (1x2) + (1x3,5) + (1x6) + (1x7,5) +(1x9) + (1x10) + (1x12) = 51

On vérifie que TA + TB est égale à la somme des rangs des groupes A et B = 105. Cela permet de

vérifier qu’il n’y a pas d’erreur sur les calculs de TA etTB

Le test de Mann et Whitney définit la variable U telle que

UA = nA . nB + [ nA (nA+1) / 2 ] - TA

UB = nA . nB + [ nB (nB+1) / 2 ] - TB

Dans notre exemple

UA = 48 + 42/2 - TA = 69 – 54 = 15

UB = 48 + 72/2 - TB = 84 – 51 = 33

On peut calculer µU = (nA . nB)/2= 24

µU = 24

UA = 15 TA = 54 nA = 6

UB = 33 TB= 51 nB = 8 .

Page 47: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

47

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

3.La table de U présentée ci-dessous donne la limite inférieure de U telle que Pr(U<Uα) pour

deux échantillons d’effectifs n1 et n2 avec n1< n2

Dans notre exemple les effectifs sont nA = 6 et nB = 8

La valeur seuil lue à l’intersection de la ligne nA = 6 et de la colonne nB = 8 est Uα =8 pour α=5%.

UA = 15 > Uα . On ne rejette pas H0. Les notes obtenus par les étudiants du groupe A ne sont pas

significativement différentes de celles obtenues par les étudiants du groupe B.

4. Avec échantillons appariés

Le test de Wilcoxon pour séries appariées

Le test des rangs de Wilcoxon est la version non paramétrique du test t sur séries appariées. Il

repose sur les rangs des différences entre chaque paire d'observations. Il teste l'hypothèse nulle (H0)

selon laquelle la somme des différences entre les rangs homologues est égale à zéro.

Page 48: PROBABILITÉS ET STATISTIQUES - dphu.org · La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une population donnée, sans tirer de

48

Probabilités et Statistiques PAES 2012 - 2013 L FOUCAN

REFERENCES

Bouyer J. Méthodes statistiques. Médecine - Biologie.

Paris : INSERM; 1996. 353 pages.

ISBN 2-909455-74-2

Campus Numérique SEME

Principaux outils en statistique. Version du 17 octobre 2007.

Institut de Santé Publique, d’Épidémiologie et de Développement (ISPED)

UVSB 2.

Dalmay F, Preux PM, Druet-Cabanac M. Qu’est-ce qu’un test non paramétrique. Rev Mal Resp

2003 ; 20.955-8.

Falissard B. Comprendre et utiliser les statistiques dans les sciences de la vie. 2ème

édition.

Masson, Paris 1998. 332 pages (Abrégés).

ISBN 2225850305

Lazar Ph, Schawartz D. Eléments de probabilités et statistiques

Flammarion Médecine – Sciences

ISBN 2-257-10578 -8, Paris 1997. 163 pages.

Valleron AJ.

Probabilités et statistiques.

Médecine, Pharmacie, Deug SVT.

Masson; Paris 2001. 230 pages (Abrégés).

ISBN 2-225-85701-6