_____________________________Département TECHNIQUES DE COMMERCIALISATION
Cours en ligne : sur l’ENT, section « outils pédagogiques », plateforme Claroline, catégorie TC, Cours « MATHS2 ».
Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats aux devoir et partiel.
Semestre 2
Statistiques descriptives et prévisionnelles
______________ à deux variables ______________
MATHEMATIQUES
SOMMAIRE
Cours et TD 3
I Introduction, vocabulaire 3
I-1 Objectifs 3
I-2 Mises en forme 3
II Paramètres des séries à deux variables 4
II-1 Tendance centrale 4
II-2 Dispersion 4
III Nuage de points et ajustement linéaire 6
III-1 Nuage de points 6
III-2 Problématique de l'ajustement linéaire 6
III-3 Méthode de Mayer 7
III-4 Méthode des moindres carrés 9
III-5 Coefficient de corrélation linéaire 10
IV Ajustement non linéaire : le changement de variable 12
V Statistiques prévisionnelles 13
V-1 Estimation ponctuelle 13
V-2 Estimation par intervalle de confiance 14
VI Particularités des tableaux de contingence 16
VI-1 Variables quantitatives et régression 16
VI-2 Test d'indépendance du χ² (Khi-deux) 18
Exercices 22
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 2 sur 25
I Introduction, vocabulaire
I-1 Objectifs
Deux caractères seront ici étudiés simultanément sur chaque individu d'une population de taille n .
Les deux listes de valeurs des caractères forment deux variables quantitatives X et Y .
Objectifs : * faire apparaître un lien, une relation, entre ces deux caractères : une corrélation ;
modéliser cette corrélation par une fonction mathématique : régression ;
utiliser cette relation à des fins prévisionnelles, confiance en cette prévision.
* tester l'hypothèse qu'il n'y a pas de lien entre ces deux variables croisées
I-2 Mises en forme
Deux mises en forme des résultats peuvent apparaître, suivant l'étude menée :
1. Une observation (n° i) se décrira comme un couple de valeurs (x i ; y i).
exemple : lien entre quantité d'engrais épandu et production recueillie
parcelle n° X (kg.ha-1
) Y (q.ha-1
)
1 150 46 "liste"
2 80 37
3 120 46
4 220 51
5 100 43 n = 5
Ce type de cas sera étudié dans les parties II à V.
2. A deux valeurs x i et y j prises au hasard correspond un certain effectif "n ij"
exemple : lien entre âge et taille (mesures prises sur 200 personnes)
X : âge
Y : acuité "tableau de contingence"
1 5 10 20
8 12 25 18
55 26 14 6 n = 200
Ce type de cas sera exclusivement étudié dans la partie VI.
Remarque
Dans le cas d'un lien, il y a une relation de cause à effet entre les deux caractères.
La variable correspondant à la cause sera nommée variable explicative (le plus souvent X ),
celle correspondant à l'effet sera nommée variable expliquée (le plus souvent Y ).
3/10
20 40 50 60
quantité d'engrais production recueillie
9/10
6/10
1
2
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 3 sur 25
II Paramètres des séries à deux variables
II-1 Tendance centrale
La moyenne de X et celle de Y sont bien entendu : et
déf Le point particulier est appelé de la série.
II-2 Dispersion
La variance de X et celle de Y sont bien entendu :
et
et leurs écarts-types : et
On appelle du couple (X ,Y ) le nombre :
théorème de Koenig : V(X ) = ; V(Y ) =
et Cov(X ,Y ) =
TD1 : paramètres d'une série à deux variables
1 - Calculs manuels
En se basant sur l'exemple 1 (engrais/récolte), calculer les paramètres définis ci-dessus :
1
( )( )
n
i
i
x x
V Xn
=
−=∑
2
1 ( )( )
n
i
i
y y
V Yn
=
−=∑
2
1
( )( )( )
,
n
i i
i
x x y y
Cov X Yn
=
− −=∑
1
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 4 sur 25
2 - Utilisation de la calculatrice
En se basant sur l'exemple précédent, saisir les données dans les colonnes 1 et 2
de votre calculatrice, puis noter les résultats obtenus (en "2var", bien sûr).
Calculer alors les paramètres définis dans le cours.
Notez ci-dessous les actions
que vous avez effectuées sur votre calculatrice.
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 5 sur 25
III Nuage de points et ajustement linéaire
III-1 Nuage de points
Dans un repère orthogonal, on porte les valeurs de X sur l'axe des abscisses et celles de Y sur l'axe
des ordonnées. Chaque couple (x i ; y i) donne lieu à un point Mi.
Exemple 3 : Voici les dépenses en publicité (en k€) d'un groupe de produits alimentaires :
X : année 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
Y : dépense 41 60 55 66 87 61 90 95 82 120 125 118
III-2 Problématique de l'ajustement linéaire
Un nuage de points peut refléter un lien entre les deux variables si ses points ne sont apparemment pas
dispersés au hasard. Dans certains cas, ce nuage peut être de forme allongée, relativement fine, avec
un "axe" assez droit montrant une certaine tendance…
Peut-on trouver un axe, une droite, dans ce repère, qui "suive au mieux" l'ensemble du nuage ?
y
Imaginons que l'on ait tracé (D)
une droite (D), d'équation
y = ax + b.
Pour une valeur x i choisie, on observe
la valeur (ordonnée du point Mi du nuage)
et la valeur (sur la droite) =
x
définition : on appelle résidu le nombre
Vocabulaire
On l'appellera droite d'ajustement de la série et on dira qu'on fait un ajustement linéaire (ou affine ).
La pratique consistant à modéliser un nuage de points par une droite est appelée régression linéaire .
M3
×
×
M2
Mi
×
1 2 3 4 5 6 7 8 9 10 11 12 année (1 : 2002)
dépense (k€)
120
100
80
60
+
++
+
+
+
++
+
++
+
3
M1
×
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 6 sur 25
III-3 Méthode de Mayer
Certains résidus sont positifs, d'autres négatifs.
L'idée de Mayer est de dire que la "meilleure" droite est celle pour laquelle la somme des résidus est nulle
(les résidus négatifs compensent les résidus positifs).
définition : on appelle principe de Mayer celui qui consiste à trouver une droite d'ajustement
conduisant à
étude mathématique :
Cette somme vaut zéro
propriété : la droite de Mayer, d'équation y = ax + b , contient le point moyen du nuage, G(x , y ).
remarque : cette propriété est en soi insuffisante pour trouver la droite de Mayer, puisqu'elle ne porte que sur
un point. Il existe une infinité de droites annulant la somme des résidus ! On montre que la droite
qui contient les points G1 et G2, points moyens de deux "demi-nuages", est l'une d'entre elles.
Méthode de Mayer :
Diviser le nuage de points en deux parties :
* Le nuage est divisé en deux nuages de même nombre de points (n /2) si n est pair
ou si n est impair, en un nuage de (n +1)/2 points et un autre de (n -1)/2 points.
* Les abscisses des points du premier nuage sont toutes inférieures à celles des points du second.
Calculer les coordonnées de G1 et G2, points moyens des deux nuages ;
Tracer la droite (G1G2), droite de Mayer, annulant la somme des résidus.
TD2 : Droite de Mayer d'une série
Avec l'exemple 1 :
quantité d'engrais production recueillie
parcelle n° X (kg.ha-1
) Y (q.ha-1
)
1 150 46
2 80 37
3 120 46 Ci-dessous, représenter
4 220 51 le nuage de points et
5 100 43 la droite de Mayer de la série.
coordonnées des points moyens :
Trouver l'équation de la droite de Mayer :
n
i
i
e=
=∑1
0
( )i i i i ie y ax b y a x nb= − − = − −∑ ∑ ∑ ∑
i issi y a x n b ssi y ax bn n n
− − = − − =∑ ∑1 1 1
0 0
1
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 7 sur 25
TD3 : Lissage d'une série chronologique :
moyennes mobiles, droite de Mayer
Considérons l'évolution du chiffre d'affaires d'une entreprise.
tri1 tri2 tri3 tri4 tri1 tri2 tri3 tri4 tri1 tri2 tri3 tri4 tri1 tri2 tri3 tri4
(M€) 28 45 49 36 30 44 48 40 28 46 52 37 31 42 54 39
Outre les variations saisonnières liées à son secteur d'activités, peut-on avoir une vision plus claire de
son évolution et voir se dégager une tendance ?
1 - Droite de Mayer
La méthode (grossière) consiste à couper la période étudiée en deux périodes de même durée, puis
à calculer leurs deux valeurs moyennes, à placer les deux points moyens correspondants, et enfin
à les relier par une droite : la droite de Mayer.
2 - Les moyennes mobiles
Objectif : tracer une courbe comportant moins de points et plus régulière, montrant une tendance.
Chaque nouveau point est un point moyen de 2, ou 3, ou 4, ou …, points initiaux.
Par exemple : représentons les moyennes mobiles groupées par 5 points :
(faire un travail de groupe, mutualiser les calculs)
moyenne moyenne moyenne
valeurs 1 à 5 valeurs 2 à 6 valeurs 3 à 7
explications :
etc… etc… etc…
12 à 16etc…etc…etc… etc…
etc…
20122009 2010 2011
2009 2010 2011 2012
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 8 sur 25
III-4 Méthode des moindres carrés
L'idée de cette méthode est de considérer le carré de chaque résidu, puis la somme de ces carrés,
et enfin de dire que la "meilleure" droite est celle qui rend cette somme minimale (obtenir la plus petite
somme possible, en considérant l'infinité des droites du plan).
définition : On appelle principe des moindres carrés celui qui consiste à trouver une droite d'ajustement
conduisant à
étude mathématique : posons : : polynôme de deux
variables a et b .
On peut développer ce polynôme d'au moins deux manières différentes :
(1)
qui est un trinôme du second degré en b ;
(2)
qui est un trinôme du second degré en a .
Dans ce contexte, on peut suivre cet itinéraire :
* considérons a constant et b variable. P(a,b) (1) est minimal lorsque sa dérivée par rapport à b
s'annule (son 1er coefficient, n , est positif), ce qui conduit à ;
* considérons que b a la valeur précédemment trouvée, et que a est variable. P(a,b) (2) est alors
minimal lorsque sa dérivée par rapport à a s'annule, ce qui conduit à
Pour les férus de calcul : essayez de retrouver les deux résultats précédents !
remarque : l'expression de b entraîne que la droite trouvée contient le point moyen G du nuage.
méthode des moindres carrés :
Calculer les coefficients puis
Ecrire l'équation de la droite de régression de Y en X , D Y/X : y = ax + b
TD4 : Droite d'ajustement suivant la méthode des moindres carrés
Reprendre l'exemple 3 et réaliser l'ajustement linéaire suivant la méthode des moindres carrés ;
Tracer cette droite sur le graphique déjà établi et vérifier qu'elle contient G .
Calculs :
n
i
i
e est minimum sur le nuage=∑
2
1
( ) ( ),2
i iP a b y ax b= − −∑
( ) ( ) ( ) ( ), ( )i i i i i i
P a b y ax b nb b y ax y ax= − − = − − + −∑ ∑ ∑2 22 2
( ) ( ) ( ) ( ), ( )i i i i i i iP a b y b ax a x a x y b x y b= − − = − − + −∑ ∑ ∑ ∑ ∑2 22 2 2
b y ax= −
( )( )
. ,i i
i
x y x y Cov X YnaV X
x xn
−= =
−
∑
∑2 2
1
1
( )( )
,Cov X Ya
V X= b y ax= −
3
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 9 sur 25
III-5 Coefficient de corrélation linéaire
Un nuage de points présente un lien plus ou moins fort entre deux variables X et Y , qui se révèle parfois sous la forme
d'un nuage de forme allongée et plutôt droite : dans ce cas on parle bien entendu de corrélation linéaire .
Le but du coefficient de corrélation linéaire est de chiffrer cette tendance.
déf coefficient de corrélation linéaire
entre X et Y : r =
On montre que quelle que soit la série statistique, on a toujours
(en pratique, la majuscule R ou la lettre grecque ρ sont souvent employées pour désigner ce coefficient)
Sur la calculatrice :
En général, une calculatrice le note r . Certains modèles ne le calculent pas.
On choisira donc toujours de calculer soi-même un coefficient de corrélation linéaire.
Interprétation de sa valeur :
Plus la corrélation linéaire est forte (nuage tendant vers une droite), plus |r | est proche de 1.
r est positif lorsque Y est globalement fonction croissante de X "corrélation positive"
r est négatif lorsque Y est globalement fonction décroissante de X "corrélation négative"
0 ≤ |r | ≤ 0,5 : corrélation linéaire faible, modèle linéaire inadapté.
0,5 ≤ |r | ≤ 0,75 : corrélation linéaire moyenne, modèle linéaire peu fiable.
0,75 ≤ |r | ≤ 0,95 : corrélation linéaire assez forte, modèle linéaire pas forcément le meilleur.
0,95 ≤ |r | ≤ 1 : corrélation linéaire très forte, modèle linéaire parmi les plus adaptés.
Remarques :
* lien concrêt ? Un coefficient de corrélation linéaire proche de 1 (ou de -1) rend compte d'un
nuage de points presque alignés, mais ne dit pas que les variables X et Y sont concrêtement liées.
exemple : en France, de 1974 à 1981, le taux de mariages a baissé de manière quasi linéaire, alors
que le PIB a augmenté de manière quasi linéaire. Le quatrième graphique, ci-dessous, montre le
nuage de points obtenu en croisant ces deux variables : la corrélation est très forte.
Cependant, il n'y a pas de relation de cause à effet entre les deux ! (l'évolution du taux de
mariage après 1981 ne correspond plus à la droite d'ajustement).
* corrélation linéaire r ne rend compte que d'une corrélation linéaire . Il se peut que la corrélation
entre X et Y soit très forte, mais sans que le nuage de points suive une droite. Dans ce cas,
r est éloigné de 1 et de -1, et il faudra prolonger l'étude (voir II-4).
Quelques exemples : taux de réussite en collège / % de CSP défavorisées
revenus (€)
ancienneté
R = 0,8449 (semaines)
R = -0,7457
-1 ≤ r ≤ 1
Cov(X, Y)
σ(X)σ(Y)
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 10 sur 25
marge unitaire (€/u) taux de mariage en fonction du PIB
quantité (milliers d'u)
R = 0,6438
R = -0,9875
TD5 : Corrélation linéaire
Calculer les coefficients de corrélation linéaire des exemples 1 et 3.
1
3
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 11 sur 25
IV Ajustement non linéaire : le changement de variable
Il est pratiqué lorsque le nuage de points semble suivre la courbe d'une fonction.
La fonction à envisager sera toujours indiquée dans un énoncé. Elle peut être notamment :
* une fonction logarithme ou exponentielle
* une fonction du second degré ou puissance
* une fonction trigonométrique
TD6 : Changement de variable
Exemple et méthodologie :
Soit le tableau de données suivant :
Pour un deux-roues, on a relevé simultanément la vitesse X
(km.h-1
) et la consommation Y (L par 100 km) :
X 10 20 30 40 50 60 70 80 90
Y 15,2 11,6 9,3 7,8 7 6,6 6,9 8 9,6
Ces points semblent suivre une parabole dont le sommet a pour
abscisse 60. L'énoncé dira :
Soit la variable T = (X - 60)². Etudier la corrélation linéaire
des variables T et Y .
Ce que vous devez faire :
Changement de variable : remplacement de X par T .
T
Y
Déterminer le coefficient de corrélation linéaire du couple (T , Y ), interpréter.
Déterminer une équation de la droite de régression de Y en T par la méthode des moindres carrés.
En déduire l'expression de la régression curvilinéaire donnant Y en fonction de X .
Représenter sur le graphique la courbe de cette fonction.
8 9,66,6 6,97,8 715,2 11,6 9,3
0
2
4
6
8
10
12
14
16
0 10 20 30 40 50 60 70 80 90 100
4
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 12 sur 25
V Statistiques prévisionnelles
V-1 Estimation ponctuelle
La droite d'ajustement obtenue (sans ou avec changement de variable) permet de par son équation
d'estimer une valeur de la variable expliquée Y en choisissant une valeur non explorée de la variable
explicative X (en général supérieure à celles récoltées dans la série).
En l'occurrence, si X représente une date, il est permis de faire une prévision sur le futur.
TD7 : Estimation ponctuelle
1 - Avec l'exemple 3, estimer la dépense publicitaire à prévoir en 2013.
2 - Avec l'exemple 1, estimer la quantité d'engrais à épandre pour récolter 60 q/ha.
3 - Avec l'exemple 4, estimer la consommation à une vitesse de 100 km/h.
3
1
4
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 13 sur 25
V-2 Estimation par intervalle de confiance
La valeur donnée par une estimation ponctuelle est à prendre avec du recul : suivant la valeur du coefficient
de corrélation linéaire (donc suivant la dispersion du nuage de points), on peut lui faire plus ou moins confiance.
L'idée ici est de donner une fourchette pour l'estimation faite, plutôt qu'une valeur unique, et de savoir dire
quelle est la probabilité que la valeur réelle, non encore mesurée, se trouve dans cet intervalle.
Méthode des rapports (en corrélation linéaire, pour estimer y à partir de x ) :
1. Pour chaque valeur x i du tableau de données :
* calculer les valeurs y 'i d'après l'équation de la droite de régression
* calculer les rapports z i = y i / y 'i
* calculer la moyenne et l'écart-type des valeurs z i de la variable Z
2. On fait ensuite l'hypothèse, souvent très proche de la réalité, que les valeurs de Z suivent
une loi normale , cadre mathématique bien défini par une certaine répartition des valeurs
autour de leur moyenne. Il en découle entre autres que :
95 % des valeurs de Z se trouvent dans l'intervalle
99 % des valeurs de Z se trouvent dans l'intervalle
3. Calculer la valeur y '0 associée à la nouvelle valeur souhaitée x 0, d'après la régression linéaire.
On estime alors la valeur réelle y 0, inconnue, comme suit :
Il y a 95% de chances que y 0 se trouve dans
Il y a 99% de chances que y 0 se trouve dans
remarques : * cette méthode n'est valable que pour r > 0 (corrélation positive)
* le taux (95%, 99%, etc.) s'appelle niveau de confiance de l'estimation.
Son complémentaire (5%, 1%, etc.) est le seuil de risque .
* l'amplitude d'un tel intervalle de confiance (donc l'incertitude) augmente lorsque
. le niveau de confiance désiré augmente,
. |r | diminue,
. x 0 s'éloigne des valeurs x i de la série relevée.
[ ], ; ,z z
z zσ σ− +1 96 1 96
( ) ( )' , ; ' ,z zy z y zσ σ− + 0 01 96 1 96
[ ], ; ,z zz zσ σ− +2 58 2 58
( ) ( )' , ; ' ,z z
y z y zσ σ− + 0 02 58 2 58
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 14 sur 25
TD8 : Estimation par intervalle de confiance
1 - Avec l'exemple 3, estimer la dépense publicitaire à prévoir en 2013 par un intervalle de confiance
au niveau de confiance de 95%.
2 - Avec l'exemple 1, estimer la récolte pour 300 kg/ha d'engrais épandus, par un intervalle de
confiance à 99%.
3
1
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 15 sur 25
VI Particularités des tableaux de contingence
Une observation, donc ici un couple de valeurs (x , y ), peut avoir été observée sur plus d'un individu.
Dans ce cas, on peut former ce qu'on appelle un tableau de contingence :
* en colonnes (par exemple) les différentes valeurs de X , les x i ;
* en lignes celles de Y , les y j , pas forcément en même nombre que celles de X ;
* en contenu, chaque effectif ; l'effectif correspondant à x i et y j se notera alors n ij .
VI-1 Variables quantitatives et régression
exemple : relation entre acuité visuelle et tranche d'âge
X : âge * Les colonnes sont composées des valeurs du
Y : acuité caractère X : tranche d'âge ; x 1, x 2, x 3, x 4.
3/10 1 5 10 20 * Les lignes sont composées des valeurs du
6/10 8 12 25 18 caractère Y : acuité ; y 1, y 2, y 3.
9/10 55 26 14 6 * L'intérieur du tableau est composé des nombres
n = 200 de personnes étudiées correspondant aux critères.
Le nombre 25, par exemple, correspond aux caractères x 3 et y 2. On notera : n 32 = 25.
remarque : les variables X ou Y pourraient être continues, donc exprimées en classes.
A ce moment-là, on prend pour valeurs de X ou Y les centres des classes.
Comment, alors, calculer les moyennes, variances, et la covariance ?
La calculatrice (et une personne traitant manuellement les données) calcule les sous-totaux
des colonnes et des lignes : effectifs marginaux , ainsi que le total : effectif total de la série
X : âge
Y : acuité
3/10
6/10
9/10
n i.
Les effectifs marginaux n i. correspondent à chaque valeur de X .
On calculera donc E(X) et V(X) avec ces effectifs.
Les effectifs marginaux n .j correspondent à chaque valeur de Y .
On calculera donc E(Y) et V(Y) avec ces effectifs.
Pour Cov(X , Y ), chaque effectif individuel doit être multiplié par les valeurs de X et de Y associées.
Les lignes et colonnes qui ont été rajoutées ici au tableau initial correspondent à ce qu'il
faudrait réaliser manuellement pour arriver à nos fins. Les résultats chiffrés de cet exemple
sont présentés en début de TD10.
Bien entendu, vous n'aurez pas à faire tout cela par vous-même : il faudra plus simplement
être capable d'utiliser les résultats pré-calculés par votre calculatrice pour obtenir les
paramètres demandés par tel ou tel exercice.
n i.x i
n i.x i²
Sn ijx iy jSn 1jx 1y j Sn 2jx 2y j Sn 3jx 3y j Sn 4jx 4y j
Sn i.x i
Sn i.x i²
n 1. n 2. n 3. n 4. N Sn .jy j
n 13 n 23 n 33 n 43
n .2 Sn i2x iy 2n 12 n 22 n 32 n 42
n 11 n 21 n 31 n 41
60n .j n .jy j n .jy j²
20 40 50
6020 40 50
n .1
n .3
Sn .jy j²
Sn i1x iy 1
Sn i3x iy 3
Sn ijx iy j
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 16 sur 25
TD9 : Calculs des paramètres dans un tableau de contingence
Reprenons l'exemple donné, complété suivant les instructions ci-dessus :
X : âge
Y : acuité
3/10
6/10
9/10
n i.
Saisissez le tableau de contingence (valeurs de X et de Y , effectifs) sur votre calculatrice.
Donnez les résultats qu'elle vous renvoie en mode stat.
Vous vérifierez que certains correspondent aux cellules grisées du tableau donné page précédente.
Donner l'équation de la droite de régression de Y en X suivant les moindres carrés.
Donner un intervalle de confiance à 99 % de l'acuité visuelle d'une personne de 80 ans.
107,73 523864 43 49 44 200 139,5
158400 37530068800 122500
n i.x i1280
n i.x i² 25600
2640
52381092 1284 1530 1332
101 90,9 81,81 288055 26 14 6
80901720 2450
1 5 10 20 36 10,8 3,24 576
22,68 17828 12 25 18 63 37,8
20 40 50 60n .j n .jy j n .jy j²
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 17 sur 25
VI-2 Test d'indépendance du χχχχ² (Khi-deux)
Un test statistique consiste à décider si une hypothèse donnée peut ou ne peut pas être rejetée.Cette hypothèse est formulée au départ et est nommée "hypothèse nulle", H0.
Si la décision conduit à un rejet de H0 (on répond "non" au test), cela se fait avec un certain risque
de se tromper, risque dont la probabilité est nommée "seuil de risque" et notée αααα .
Le cas particulier du test d'indépendance :
Une étude croise deux variables en général qualitatives (dans l'exemple du prochain TD : sexe etrelation au tabac), variables dont on souhaite estimer, chiffrer, la dépendance au sein d'une population, à partir de la seule connaissance de la répartition des citations (effectifs) dans le tableau croisé obtenu d'un échantillon interrogé.
En cas d'indépendance, les réponses sont censées se répartir uniformément dans le tableau,en respectant simplement la proportion des sous-totaux imposés (par exemple : on a interrogé un certainnombre d'hommes et un certain nombre de femmes, nombres éventuellement différents).
Le but ici est de comparer la réalité des observations à cette répartition idéale d'indépendance,d'en tirer une valeur, "χ²" (prononcer Khi-deux), symbolisant un "écart à l'indépendance" constaté surl'échantillon étudié, puis enfin de juger si cet écart est anormalement grand ou pas.
Méthodologie du test :n observations sont faites : n individus sont évalués sur deux variables X et Y .On suppose que le caractère X présente r modalités différentes,et que Y présente k modalités.
L'hypothèse nulle H0 est par convention : les variables sont indépendantes
Le test compare la réalité à ce qu'aurait donné l'indépendance parfaite.
On rejette cette hypothèse lorsque la distribution observée diffère trop de la distribution théorique.
1. Calcul du χ²* tableau des observations sur n individus
* tableau de répartition théorique dans le cas de l'indépendanceOn construit un tableau sur le même modèle, où les sous-totaux et le total général sontrespectés, mais où les effectifs thij respectent les proportions des sous-totaux par rapport à n .
* calcul du χ² total entre observation et théorie : χχχχ²calc.
2. Seuil de non-rejetLa variable χ² exprime la différence globale, aléatoire, entre ce que peut donner n'importe quel échantillon issu d'une population où règne l'indépendance, et ce qu'aurait donné unéchantillon parfaitement représentatif de la population (ce qui est en général rare).
Cette variable suit une loi du même nom, réglée par son nombre de degrés de liberté (ddl).ddl = (r - 1)(k - 1)
A chaque χ² possible correspond une probabilité "αααα " qu'un échantillon a de le dépasser.
On fait alors une lecture, dans la table de la loi du χ², du seuil χχχχ²lim (connaissant p = 1 - α )
3. Comparaison et décisionSi χχχχ²calc (calculé entre les tableaux) > χχχχ²lim (donné par la table de la loi), alors on peut
rejeter l'hypothèse nulle (l'indépendance), mais au risque αααα de se tromper.
Y1 Y2 … Yk total X
X1
X2
…
Xr obsr1 effobs r2 … obsrk total Xr
total Y
obs11 obs12 … obs1k total X1
obs21 obs22 … obs2k total X2
… … … … …
total Y1 total Y2 … total Yk n
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 18 sur 25
TD10 : Test du χχχχ² d'indépendance de deux variablesLa position d'une personne vis-à-vis du tabac est-elle indépendante de son sexe au seuil de 10 % ?Voici les résultats d'une enquête portant sur 85 hommes et 61 femmes :
S : caractère "sexe" T : caractère "position vis-à-vis du tabac"Sh : hommes Tj : n'ont jamais fuméSf : femmes Tf : sont fumeurs
Ta : ont arrêté
observations : effectifs théoriques sous l'hypothèse H0 :
Sh Sf
Tj 26 20 Tj
Tf 44 28 Tf
Ta 15 13 Ta
1. Placer les sous-totaux et le total général du tableau d'observations2. Reporter ces valeurs dans le tableau théorique reflétant l'indépendance, puis le compléter
par le calcul (6 valeurs th centrales) : l'indépendance se traduit par un tableau de proportion
3. Rédaction du test et de la décision, au seuil de 10 % :
Hypothèse nulle :
Calcul du χ²
Valeur de la variable aléatoire χ² calculée entre l'échantillon et la théorie : χ²calc =
Seuil de non-rejet
Seuil de risque : α = 1 - p = Nombre de ddl : (r-1)(k-1) =
Valeur de la variable aléatoire χ² limite avant rejet : χ²lim =
Comparaison et décision :
S : caractère "sexe" Sh : hommesSf : femmes
T : caractère "position vis-à-vis du tabac"Tj : n'ont jamais fuméTf : sont fumeursTa : ont arrêté
Sh Sf
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 19 sur 25
TD11 : Test du χχχχ² d'indépendance de deux variables : exemple concretExemple d’utilisation de ce test lors d’un projet réalisé par des étudiants de seconde année :
Un sondage a été réalisé sur un échantillon de 335 personnes (180 hommes, 155 femmes).Les données sont récoltées dans le logiciel Sphinx (traitement statistique), que vous utiliserezavec M.Gonzales.
* Une des questions portait sur les stations de radio écoutées (plusieurs réponses possibles par personne), ce qui a donné les tableaux suivants (les non-réponses n’ont pas été comptabilisées) :Ces pourcentages sont des « taux de pénétration » : Voici le tableau exprimé en « citations » Europe 1 touche 56,70% des hommes, etc : (nombre de réponses)
Remarque : les sous-totaux se dénomment « effectifs marginaux »
On peut réaliser ci-dessous un tableau d’effectifs et représenter ci-dessous les valeurs des c² partielsthéoriques respectant les effectifs marginaux : (obs - th)²/th, et en faire le total (c²calc) :
Le logiciel Sphinx donne le résultat précédent, arrondi à deux décimales : Khi2 = 7,92puis en déduit un seuil de risque (qu'il note « p »…). Il donne l’information suivante : 1 – p = 83,95 %.
Dans quelle mesure cette valeur est-elle compatible avec les informations que vous pouvez trouver dans la table du Khi2 ?
Quelle signification peut-on donner aux 83,95 % indiqués par Sphinx ?
* Remarque 1 : En pratique, on rejette l’hypothèse nulle d’indépendance tant que ce pourcentage est inférieur à 95%, ce qui est le cas ici.
Station/Sexe: Homme Femme TOTAL station/Sexe: Homme Femme TOTAL
Europe1 0,567 0,51 0,54 Europe1 102 79 181
Fr.Cult/Mus 0,106 0,129 0,116 Fr.Cult/Mus 19 20 39
France Info 0,311 0,232 0,275 France Info 56 36 92
France Inter 0,317 0,316 0,316 France Inter 57 49 106
RMC 0,144 0,252 0,194 RMC 26 39 65
RTL 0,267 0,239 0,254 RTL 48 37 85
TOTAL 308 260 568
station/Sexe: Homme Femme TOTAL station/Sexe: Homme Femme TOTAL
Europe1 98,15 82,85 181 Europe1 0,1512 0,1791 0,3303
Fr.Cult/Mus 21,15 17,85 39 Fr.Cult/Mus 0,2182 0,2584 0,4766
France Info 49,89 42,11 92 France Info 0,7490 0,8873 1,6362
France Inter 57,48 48,52 106 France Inter 0,0040 0,0047 0,0087
RMC 35,25 29,75 65 RMC 2,4257 2,8735 5,2992
0,0936 0,1726
TOTAL 308 260 568 TOTAL 3,6270 4,2966 7,9237RTL 46,09 38,91 85 RTL 0,0790
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 20 sur 25
* Remarque 2 : On peut analyser en particulier la liste des rapports Khi2 partiel / Khi2 total, en pourcentage, pour voir à quels endroits la contribution d’un écart observation/indépendance est la plus forte :
(Sphinx arrondit ces pourcentagesà l'entier et place devant eux unsigne moins lorsque la valeurobservée est inférieure à lavaleur théorique)
Donner une interprétation de ces résultats :
En conclusion :Le Khi2 observé et le niveau de confiance qui en découle sont des informations globales, il conviendra d’observer en détail quelles réponses contribuent le plus à la valeur c²calc et donc à la dépendance
des deux caractères que l’on confronte.
écoute rpn/Sexe: Homme Femme
Europe1 1 -2
-2 3
RTL 0 -1
France Info 9 -11
France Inter 0 0
RMC -30 36
Fr.Cult/Mus
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 21 sur 25
Exercice 1 ajustement affine
On a comparé l'indice de pouvoir d'achat des habitants d'un pays au chiffre d'affaires de son industrie automobile :
pouvoir d'achat (indice) X
CA automobile (G€) Y
1) Donner une équation de la droite de régression de Y en X suivant la méthode de Mayer.
2) Par estimation ponctuelle faite sur cette régression, dire quel indice de pouvoir d'achat il faudrait
atteindre pour que l'industrie automobile atteigne un CA de 10 G€ (10 milliards d'euros).
3) Une bonne corrélation linéaire entre deux variables est-elle le signe d'une forte relation de cause à effet
de l'une vers l'autre ?
Exercice 2 ajustement affine
Les recettes mensuelles d'un site internet commercial sont listées ci-dessous, de janvier à décembre 2010 :
en k€ : 3 5 4 8 10 9 13 12 17 18 18 21
1) Décrire en quelques mots la méthode des moindres carrés.
2) En se basant sur la tendance générale de l'évolution de la recette mensuelle, avec la méthode des
moindres carrés, donner l'intervalle de confiance à 95% de la recette de décembre 2011.
(numéroter les mois à partir de 1 pour janvier 2010)
3) Quelle est la probabilité qu'en décembre 2011 la recette soit inférieure à 29,23 k€ ?
4) Représenter le nuage de points (échelle 2 cm pour un mois), la droite de régression
et enfin l'intervalle de confiance trouvé.
Exercice 3 ajustement affine
ville X Y Le tableau ci-contre regroupe huit grandes villes d'un pays.
A 850 58 La variable X donne, en milliers, le nombre d'habitants de la ville ;
B 623 37 la variable Y donne, en milliers, le nombre d'étudiants de cette ville.
C 587 38
D 360 20 1) En annexe, représenter le nuage de points de cette série.
E 312 16 2) Donner les coordonnées de G, point moyen du nuage.
F 275 15 3) a. En appliquant la méthode de Mayer, déterminer manuellement
G 262 12 l'équation de la droite de régression du nuage de points.
H 244 12 b. Tracer cette droite. Contient-elle G ?
c. Donner le "principe de Mayer".
4) On utilisera ici une autre droite de régression, dont l'équation est : y ' = 0,07x - 6.
a. En s'appuyant sur cette droite, donner l'intervalle de confiance à 95% du nombre d'étudiants inscrits
dans une ville de deux millions d'habitants.
b. Que dire de la probabilité que le nombre d'étudiants de cette ville dépasse 155000 ?
Exercice 4 ajustement affine
Le tableau suivant indique le prix de vente (€) d’une machine et le nombre d’exemplaires vendus sur quatre ans.
rang de l'année
prix de vente X
nombre de ventes Y
1) Représenter le nuage des points M i de coordonnées (x i , y i ) dans le plan muni d’un repère orthogonal.
On prendra pour origine du repère le point de coordonnées (210, 160), et les échelles
1 cm pour 15 € sur l’axe des abscisses et 1 cm pour 10 unités sur l’axe des ordonnées.
Vérifier qu’un ajustement affine paraît justifié.
2) Déterminer les coordonnées du point moyen G du nuage. Le placer sur la figure.
3) a) Déterminer une équation de la droite D de régression de Y sur X par la méthode des moindres carrés.
Les coefficients seront déterminés à 10-3 près.
b) Construire cette droite de régression sur le graphique du 1°)
4) En quelle année a-t-on eu le chiffre d’affaires le plus élevé ? Quel est ce chiffre d’affaires ?
210 270 375
4
EXERCICES
59400 50400 59940 60000198 240
9,479,3 9,56 9,36 9,24
3,63,26 3,85 3,44 3,08
1 2 3
222 160
300
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 22 sur 25
pour aller plus loin :
5) On suppose maintenant que, chaque année, le nombre d’exemplaires vendus y et le prix de vente x suivent
la relation : y = – 0,498x + 349.
On note S (x ) le chiffre d’affaire réalisé en vendant y machines valant chacune x francs.
a) Exprimer S (x ) en fonction de x .
b) Étudier les variations de la fonction S définie sur [210 ; 375] par x → S (x ).
c) En déduire le prix de vente d’une machine l’année de rang 5 si l’on veut que la somme encaissée S (x )
soit maximale. Quel sera le nombre d’exemplaires vendus, à une unité près ?
Quelle sera alors la somme encaissée ?
Exercice 5 ajustement du second degré
Une entreprise a noté son bénéfice réalisé Y en fonction de la quantité produite et vendue X :
2 3 5 7 11
38 55 72 69 24
1) A l'aide de la calculatrice, donner le coefficient de corrélation linéaire entre X et Y . Interpréter.
2) On introduit la variable T = -(X - 6)².
a. Compléter le tableau.
b. Calculer, à l'aide de la calculatrice, Cov(T , Y ) puis leur coefficient de corrélation linéaire.
c. Un ajustement affine de Y sur T est-il justifié ?
d. Donner l'équation de la droite de régression de Y sur T par la méthode des moindres carrés.
e. En déduire une expression de la régression de Y sur X .
3) Sur un graphique, placer le nuage de points (x i, y i) ainsi que la courbe dont l'équation a été trouvée
à la question 2)e.
Exercice 6 ajustement du second degré
Une étude de marché a été conduite sur un nouveau type de produit. Le tableau ci-dessous donne, pour
plusieurs prix de ventes proposés, le nombre de personnes prêtes à payer ce prix-là.
X
Y
1) Calculer la covariance des variables X et Y puis interpréter son signe.
2) On pose T = X (X - 20)
a. Calculer le coefficient de corrélation linéaire entre les variables T et Y .
b. Interpréter sa valeur.
c. Donner l'équation de la droite de régression de Y sur T (méthode des moindres carrés).
d. En déduire une expression développée de Y en fonction de X .
3) On examine ici le chiffre d'affaires attendu (prix unitaire de vente × nombre de ventes), si les nombres
de citations obtenus lors du sondage sont autant d'unités vendues.
a. Calculer les différents chiffres d'affaires CA issus du tableau de citations.
b. Calculer, pour les mêmes valeurs de X , les chiffres d'affaires CA' obtenus grâce à la formule
obtenue à la question 2)d.
c. Quel prix unitaire de vente fixeriez-vous, pour obtenir le meilleur chiffre d'affaires possible ?
Exercice 7 ajustement inverse
Une enseigne de parfumerie, lors de l'analyse de son chiffre d'affaires, met en relation les nombres ( Y ) de ventes
de différentes marques et différents modèles de parfum avec les prix (X ) des flacons.
Les résultats sont consignés dans le tableau suivant :
X , prix du flacon (€) 15 25 30 40 45 60 75 90
Y , quantité vendue 202 117 107 82 78 60 55 48
Dans les questions commençant par "calculer", on s'aidera des résultats intermédiaires de la calculatrice.
1) a. Calculer la covariance des variables X et Y ; interpréter son signe.
b. Calculer le coefficient de corrélation linéaire de X et Y ; interpréter sa valeur.
2) Pour une étude plus précise de la relation entre X et Y , on décide d'un changement de variable :
a. Après avoir calculé les différentes valeurs de T dans une troisième liste de votre calculatrice,
justifier que la corrélation linéaire entre T et Y est excellente.
b. Donner l'équation de la droite de régression de Y en T , selon la méthode des moindres carrés.
c. Rappeler le critère des moindres carrés.
d. Déduire de la question 2)b une expression modélisée de Y en fonction de X .
e. D'après cette modélisation, combien de flacons d'un parfum coûtant 150€ est-on supposé vendre ?
5 6 74
34 25
X (tonnes)
Y (k€)
T
prix à l'unité (€) 2 3
nombre de citations 47 18 1466
TX
= 850
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 23 sur 25
Exercice 8 ajustement logarithmique
Dans cet exercice tous les résultats seront donnés par leur valeur approchée à 10 -3 près. On a étudié la
durée de vie d’un certain nombre équipements bureautique identiques. Dans le tableau suivant, t i représente
la durée exprimée en milliers d'heures et R(t i ) le pourcentage d’équipements encore en service à la date t i .
(par exemple, au bout de 1000 heures, il reste 90 % d’équipements en service, et R(t i ) = 0,90).
1) On pose y i = ln R (t i ) où ln désigne le logarithme népérien. Remplir le tableau suivant puis représenter le
nuage de points M i de coordonnées (t i , y i ) dans le plan muni d’un repère orthogonal.
2) Peut-on envisager un ajustement affine du nuage précédent ?
Calculer le coefficient de corrélation linéaire de la série statistique de variables T et Y .
3) Déterminer par la méthode des moindres carrés une équation de la droite de régression de Y sur T .
En déduire qu’il existe deux nombres réels positifs k et λ, tels que l'ajustement précédent donne :
R (t ) = k e-λλλλt
.
4) Dans cette question on prend k = 1,174 et λ = -0,266.
a. Déterminer le pourcentage d’équipements encore en service au bout de 10000 heures de fonctionnement.
b.Déterminer la date t 0 à laquelle 50 % des équipements sont encore en service.
5) Dans cette question on cherche un intervalle de confiance du pourcentage restant en service au bout de
10000 heures de fonctionnement.
a. Calculer les valeurs y 'i issues de la régression linéaire de Y sur T .
b. Calculer les valeurs z i = y i/y 'i, puis la moyenne et l'écart-type de Z .
c. En déduire un intervalle de confiance à 95% de y pour t = 10.
d. Quel est alors l'intervalle de confiance à 95% de R ?
Exercice 9 tableau de contingence
500 personnes ayant obtenu leur permis de conduire sont classées dans le tableau ci-dessous.
Elles sont réparties en fonction du nombre X de fois qu'elles ont tenté l'épreuve de conduite avant de la réussir
et du nombre Y d'heures de conduite passées en présence d'un moniteur (ces 500 personnes n'ont pas bénéficié
de la conduite accompagnée) avant la première tentative.
X Y 1) Qu'est-ce qu'un effectif marginal ?
Donner un exemple à partir de ce tableau.
1 2) Décrire brièvement la marche à suivre pour saisir les
2 données de ce tableau correctement sur calculatrice.
3 3) Calculer la covariance du couple (X, Y) et interpréter
4 la valeur trouvée (on sera concret).
4) Parmi les personnes qui ont pris entre 15 et 25 h de leçons de conduite, quel est le taux de celles qui ont obtenu
leur permis au troisième essai ?
5) Parmi les personnes qui ont obtenu leur permis au troisième essai, quel est le taux de celles qui ont pris
entre 15 et 25 h de leçons de conduite ?
Exercice 10 tableau de contingence
Un commercial analyse son activité et son efficacité. Y
A chaque visite chez un client potentiel, il a noté le temps X 0 1 2 3
(X , en minutes) pendant lequel il a présenté son produit, 3 2 2 0
ainsi que la quantité (Y ) vendue. L'intérieur du tableau 0 4 8 7
se compose des nombres de visites correspondant 1 5 12 3
à chaque couple (X , Y ).
[0 ; 15[ [15 ; 25[ [25 ; 40[
y i
t i 1 2 3 4 5 6 7 8
0,4
5
0,32
8
0,14
9
0,1
9
6
0,25
7
0,19
t i
R (t i )
1 3
0,53
4
0,9
2
0,66
[0 ; 10[
[10 ; 20[
[20 ; 30[
42 35 13
12 6 3
23 92 80
77 84 33
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 24 sur 25
1) Que signifie l'effectif "8" du tableau ?
2) Calculer manuellement le temps moyen passé par visite.
3) Donner la covariance du couple (X , Y ).
Exercice 11 tableau de contingence
Reprenons l'exemple du début du cours : 100 enfants répartis en fonction de leur âge et de leur taille.
taille Y (cm)
âge X (ans) x i y j
1) Saisissez ce tableau sur calculatrice.
2) Calculer alors la variance et l'écart-type de X et de Y , et leur covariance.
3) Calculer leur coefficient de corrélation linéaire. Interpréter cette valeur.
4) Au vu du tableau, voit-on néanmoins se dégager une tendance ?
5) En considérant que la relation entre âge et taille est linéaire jusqu'à l'âge de 12 ans,
donner l'intervalle de confiance à 95% de la taille d'un enfant de 12 ans.
Exercice 12 test d'indépendance du Khi-2
Pour l’élection présidentielle, deux candidats sont en présence, S. R. et N. S.
Dans un village du Nord de la France, il y a 500 électeurs, dont 100 sont retraités, 50 sont chômeurs,
et 350 sont actifs.
Les résultats des élections sont (après décompte manuel) :
1) Dire, au seuil de risque de 1%, si dans ce village l’opinion dépend de l’appartenance à un groupe social.
2) Que peut-on dire si on ne tient pas compte des votes blancs et des abstentions ?
Exercice 13 test d'indépendance du Khi-2
On observe dans le tableau ci-contre la fréquentation de deux magasins A et B.
A l'issue d'un sondage, on note le nombre de personnes ayant effectué au A B
moins un achat, par tranches d'âges (10 à 15 ans, etc). 46 24
29 35
1) Dire, au seuil de 5%, si le magasin fréquenté est lié à l'âge 14 17
des consommateurs. 12 18
2) Quelle tranche d'âge contribue le plus au résultat précédent ? Expliquer.
3) Donner la signification de ce "seuil de 5 %" par rapport à votre réponse à la question 1.
4) D'après la table, peut-on être plus précis quant au risque pris lors de notre affirmation ?
Exercice 14 test d'indépendance du Khi-2
Dans le cadre d'un sondage, on a interrogé 100 personnes sur leur âge et leur fréquentation des salles de cinéma.
On note ici X la variable "âge" et Y la variable "nombre annuel de sorties au cinéma". Le résultat du sondage est
le tableau de citations suivant : Y X
1) Par un test du Khi-2 d'indépendance, dire au seuil de 2% si, dans la population, il y a un lien ou non entre
l'âge d'une personne et le nombre de sorties qu'elle consacre au cinéma.
2) Discuter du niveau de confiance que l'on peut accorder à l'affirmation "âge et fréquentation sont dépendants".
3) Repérer les Khi-2 partiels les plus importants et donner la signification de ces fortes valeurs.
magasins
10 à 15
15 à 20
20 à 40
40 et plus
0
15
[3 ; 5[ 15 10
[7 ; 9[ 2 13
[5 ; 7[ 8 32
Actifs
[95 ; 105[ [105 ; 125[ [125 ; 135[
5
122 148 80
Retraités 36 27 37
candidatSR NS
blanc /
absten.électeursRentiers 24 16 10
12 à 23 13 8 4
≥ 24 6 3 2
[15 ; 25[ [25 ; 50[ 50 et plus
aucune 4 6 13
1 à 11 10 16 15
IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 25 sur 25
IUT - TC Mathématiques - Formulaire "Statistiques à deux variables"
Sans contingence
* moyenne, variance et écart-type
* covariance et coefficient de corrélation linéaire
* paramètres de l'équation de la droite d'ajustement de Y sur X (méthode des moindres carrés)
y = ax + b avec et
Avec contingence (pour le partiel uniquement)
* moyenne et variance
* covariance
* les autres formules sont identiques à celles données au-dessus
Intervalle de confiance de y pour une valeur x 0 donnée :
où * y' 0 = ax 0 + b * y' i = ax i + b et
* u = 1,96 (niveau de confiance : 95%) ou 2,58 (niveau de confiance : 99%)
;
n n
i i
i i
x y
x yn n
= == =∑ ∑
1 1 ( ) ( );
n n
i i
i i
x y
V X x V Y yn n
= == − = −∑ ∑2 2
2 21 1
( ) ( ) ( ) ( );x yX V X Y V Yσ σ σ σ= = = =
( ).
, .
n
i i
i
x y
Cov X Y x yn
== −∑
1( , )
.x y
Cov X Yρσ σ
=
b y ax= −( )( )
,Cov X Ya
V X=
..
;
qp
j ji iji
n yn x
x yN N
=== =∑∑
11 ( ) ( )..
;
qp
j ji iji
n yn x
V X x V Y yN N
=== − = −∑∑
22
12 21
( ), .
p q
ij i j
i j
n x y
Cov X Y x yN
= == −∑∑
1 1
i
i
i
yz
y=
′
( ) ( );Z Z
y z u y z uσ σ′ ′− × + × 0 0
Table de la loi du χχχχ²
Le tableau donne les valeurs χ²lim
telles que p(χ² < χ²lim) = p
1 - p 1 - p 1 - p 1 - p
ddl 1% 2% 5% 10% ddl 1% 2% 5% 10% ddl 1% 2% 5% 10% ddl 1% 2% 5% 10%
1 6,64 5,41 3,84 2,71 26 45,6 42,9 38,9 35,6 51 77,4 73,8 68,7 64,3 76 108 103 97,4 92,2
2 9,21 7,82 5,99 4,61 27 47 44,1 40,1 36,7 52 78,6 75 69,8 65,4 77 109 105 98,5 93,3
3 11,3 9,84 7,82 6,25 28 48,3 45,4 41,3 37,9 53 79,8 76,2 71 66,5 78 110 106 99,6 94,4
4 13,3 11,7 9,49 7,78 29 49,6 46,7 42,6 39,1 54 81,1 77,4 72,2 67,7 79 111 107 101 95,5
5 15,1 13,4 11,1 9,24 30 50,9 48 43,8 40,3 55 82,3 78,6 73,3 68,8 80 112 108 102 96,6
6 16,8 15 12,6 10,6 31 52,2 49,2 45 41,4 56 83,5 79,8 74,5 69,9 81 114 109 103 97,7
7 18,5 16,6 14,1 12 32 53,5 50,5 46,2 42,6 57 84,7 81 75,6 71 82 115 110 104 98,8
8 20,1 18,2 15,5 13,4 33 54,8 51,7 47,4 43,7 58 86 82,2 76,8 72,2 83 116 112 105 99,9
9 21,7 19,7 16,9 14,7 34 56,1 53 48,6 44,9 59 87,2 83,4 77,9 73,3 84 117 113 106 101
10 23,2 21,2 18,3 16 35 57,3 54,2 49,8 46,1 60 88,4 84,6 79,1 74,4 85 118 114 108 102
11 24,7 22,6 19,7 17,3 36 58,6 55,5 51 47,2 61 89,6 85,8 80,2 75,5 86 119 115 109 103
12 26,2 24,1 21 18,5 37 59,9 56,7 52,2 48,4 62 90,8 87 81,4 76,6 87 121 116 110 104
13 27,7 25,5 22,4 19,8 38 61,2 58 53,4 49,5 63 92 88,1 82,5 77,7 88 122 117 111 105
14 29,1 26,9 23,7 21,1 39 62,4 59,2 54,6 50,7 64 93,2 89,3 83,7 78,9 89 123 118 112 106
15 30,6 28,3 25 22,3 40 63,7 60,4 55,8 51,8 65 94,4 90,5 84,8 80 90 124 120 113 108
16 32 29,6 26,3 23,5 41 65 61,7 56,9 52,9 66 95,6 91,7 86 81,1 91 125 121 114 109
17 33,4 31 27,6 24,8 42 66,2 62,9 58,1 54,1 67 96,8 92,9 87,1 82,2 92 126 122 115 110
18 34,8 32,3 28,9 26 43 67,5 64,1 59,3 55,2 68 98 94 88,3 83,3 93 128 123 117 111
19 36,2 33,7 30,1 27,2 44 68,7 65,3 60,5 56,4 69 99,2 95,2 89,4 84,4 94 129 124 118 112
20 37,6 35 31,4 28,4 45 70 66,6 61,7 57,5 70 100 96,4 90,5 85,5 95 130 125 119 113
21 38,9 36,3 32,7 29,6 46 71,2 67,8 62,8 58,6 71 102 97,6 91,7 86,6 96 131 127 120 114
22 40,3 37,7 33,9 30,8 47 72,4 69 64 59,8 72 103 98,7 92,8 87,7 97 132 128 121 115
23 41,6 39 35,2 32 48 73,7 70,2 65,2 60,9 73 104 99,9 93,9 88,9 98 133 129 122 116
24 43 40,3 36,4 33,2 49 74,9 71,4 66,3 62 74 105 101 95,1 90 99 135 130 123 117
25 44,3 41,6 37,7 34,4 50 76,2 72,6 67,5 63,2 75 106 102 96,2 91,1 100 136 131 124 118
χ²lim χ²
p