29
STT1000 CHAPITRE 1 - STATISTIQUES DESCRIPTIVES SOLUTIONS

STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

  • Upload
    others

  • View
    5

  • Download
    1

Embed Size (px)

Citation preview

Page 1: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

STT1000

CHAPITRE 1 - STATISTIQUES DESCRIPTIVES

SOLUTIONS

Page 2: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

2 Chapitre 1 Statistiques descriptives STT1000 Solutions

Serge Alalouf 7 novembre 2017

Page 3: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

STT1000 Solutions Chapitre 1 Statistiques descriptives 3

Serge Alalouf 7 novembre 2017

1.1 Déterminer la moyenne et l’écart-type des données suivantes a)

Nombre de pièces dans un échantillon de 61 logements

2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 7 7 7 7 7 8 8 8 8 9 9

Moyenne : 4,770492; Variance : 3,193228.

1.2 [Données du tableau A01] Le tableau A01 présente des données sur les professeurs d’une certaine université.

a) Représentez par des moyens graphiques la distribution de la variable « Salaire à l'entrée ».

b) Comparer les salaires à l'entrée des hommes et des femmes au moyen de deux polygones de fréquences.

1.3 Déterminer la moyenne des données au numéro 1.1 après les avoir disposées sous forme de distribution.

La distribution de la variable est

xi 2 3 4 5 6 7 8 9

ni 5 10 17 10 8 5 4 2

Histogramme des salaires à l'entrée

Salaire à l'entrée

Eff

ectif

10000 20000 30000 40000 50000 60000

020

40

60

10000 20000 30000 40000 50000 60000

0.0

0.1

0.2

0.3

0.4

Salaire à l'entrée

Fré

quence

Femmes

Hommes

Page 4: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

4 Chapitre 1 Statistiques descriptives STT1000 Solutions

Serge Alalouf 7 novembre 2017

Moyenne : [2(5) + 3(10) + … + 9(2)]/61 = 4,770492

1.4 Déterminez la moyenne arithmétique de la distribution suivante:

y 3 6 8 9 11 Total

Fréquence 0,2 0,4 0,2 0,1 0,1 1

Moyenne : 6,6; Variance : 5,64

1.5 Déterminez l'écart-type de la distribution au numéro 1.4 :

1.6 Déterminer l’écart-type des données au numéro 1.1 a) d’abord en utilisant la série entière telle quelle, ensuite b) après

les avoir disposées sous forme de distribution.

1.7 Laquelle des deux séries suivantes semble plus dispersée ? Répondre sans calculer.

A 50 59 60 61 70

B 18 19 20 21 22

A est plus dispersée

1.8 Laquelle des deux séries suivantes semble plus dispersée? Répondre sans calculer

A 30 40 50 60 70

B 10 29 30 31 50

A est plus dispersée

1.9 Laquelle des deux variables suivantes vous semble la plus dispersée? Répondre sans calculer:

x 1 2 3 4 5 Total

Effectif 6 2 4 2 6 20

y 4 5 6 7 8 Total

Effectif 2 4 8 4 2 20

La variable X est plus dispersée.

1.10 Présenter les données du numéro 1.1 au moyen d'une moustache.

2 3 4 5 6 7 8 9

51

01

5

ValeurE

ffectifs

Page 5: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

STT1000 Solutions Chapitre 1 Statistiques descriptives 5

Serge Alalouf 7 novembre 2017

1.11 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01,

classés selon le sexe. LI et LS sont les limites inférieure et supérieure déterminées pour fins de construction d'une

moustache.

Femmes Hommes

LI 44 894 57 836 Q1 62 471 79 161 Médiane 74 691 87 007 Q3 85 815 94 158 LS 107 071 107 865

Construire deux moustaches côte à côte pour les femmes et pour les hommes.

1.12 Voici les moustaches demandées au numéro précédent :

a) Lequel des deux groupes a une médiane plus élevée? Les hommes

b) Laquelle des deux distributions est plus asymétrique? Les hommes : plusieurs observations au bas de l’échelle

c) Quels commentaires peut-on faire concernant les dispersions relatives des deux groupes? La dispersion est

probablement un peu plus forte chez les femmes.

d) Comment expliquer le fait que 10 hommes se situent au-dessous de la limite inférieure alors que des femmes avec

des salaires comparables se situent à l'intérieur des limites? La dizaine de salaires faibles chez les hommes est signalée

parce que, étant donné la concentration des données autour du centre, ces données sont particulièrement excentriques.

1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01,

classés selon le sexe. LI et LS sont les limites inférieure et supérieure déterminées pour fins de construction d'une

moustache.

Page 6: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

6 Chapitre 1 Statistiques descriptives STT1000 Solutions

Serge Alalouf 7 novembre 2017

a) La moyenne arithmétique est-elle supérieure ou inférieure à la médiane chez les femmes? Chez les hommes? Dans

les deux cas, la moyenne est supérieure à la médiane à cause d’une concentration de petites valeurs et un certain nombre de

valeurs particulièrement élevées.

b) Quelle explication peut-on donner au fait que le salaire médian des femmes est supérieur à celui des hommes?

(Tenir compte du fait que les dates d'entrée s'échelonnent sur plus de 30 ans.) Cela s’explique par le fait que, en

moyenne, les femmes ont été engagées plus récemment. Elles ont en moyenne17,6 années d’ancienneté, à comparer aux

hommes qui en ont 22.

c) Qu'est-ce qui pourrait expliquer le grand nombre (19) d'hommes qui se situent au-dessus de la limite supérieure?

(Tenir compte du fait que les dates d'entrée s'échelonnent sur plus de 30 ans). Une forte concentration de faibles

salaires (due à un grand nombre d’engagements dans les premières années) fait que par comparaison, les salaires récents sont

relativement élevés.

1.14 La moyenne et la variance d’une série de températures quotidiennes, en degrés Celsius, sont respectivement 18 et 25.

Déterminez la moyenne, la variance et l’écart-type de la même série, exprimée en degrés Fahrenheit.

Y : la température en degrés Celsius ; X : la température en degrés Fahrenheit.

32 (9 / 5) 32 (9 / 5)(18) 64,4y x 2 2 2 2 2(9 / 5) (9 / 5) (5) 81y x y = 9.

1.15 Voici une série de 6 températures enregistrées en Arizona, exprimées en degrés Fahrenheit (X)

Valeurs de X : 50°F , 59°F , 68°F , 77°F ,86°F , 95°F

a) Déterminer la moyenne x et l’écart-type X de X.

Moyenne : 72,5. Écart-type : 15,37043.

b) Convertir les températures en degrés Celsius, c’est définir une nouvelle variable, Y, fonction de X, définie par Y =

160 5

9 9X . Vérifiez que les valeurs de Y sont :

Valeurs de Y : 10°C , 15°C, 20°C, 25°C , 30°C , 35°C

c) Déterminer la moyenne y et l’écart-type Y de Y, d’abord directement à partir des valeurs de Y, ensuite en

utilisant les règles y a bx et Y = |b|X lorsque Y est définie par Y = a + bX.

Moyenne : 22,5 = 160 5

9 9x ; Écart-type 8,539126.

Page 7: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

STT1000 Solutions Chapitre 1 Statistiques descriptives 7

Serge Alalouf 7 novembre 2017

d) Convertissez toutes les valeurs de X et toutes les valeurs de Y en cotes Z. Vous devriez constater que les deux

séries sont identiques. Calculez la moyenne z et l’écart-type Z des cotes Z. Vous devriez constater que z = 0

et Z =1. De quelle propriété générale ces observations découlent-elles?

Les cotes Z sont -1,46385; -0,87831; -0,29277; 0,29277; 0,87831; 1,46385

On vérifie aisément que leur moyenne est 0 et leur écart-type 1.Voici le détail des calculs

°F (X) °C (Y) ZX ZY

50 10 (50-72,5)/ 236, 25 = -1,46385 (10-22.5) / 72, 91 6 = -1,46385

59 15 (59-72,5)/ 236, 25 = -0,87831 (15-22.5) / 72, 91 6 = -0,87831

68 20 (68-72,5)/ 236, 25 = -0,29277 (20-22.5) / 72, 91 6 = -0,29277

77 25 (77-72,5)/ 236, 25 = 0,29277 (25-22.5) / 72, 91 6 = 0,29277

86 30 (86-72,5)/ 236, 25 = 0,87831 (30-22.5) / 72, 91 6 = 0,87831

95 35 (95-72,5)/ 236, 25 = 1,46385 (35-22.5) / 72, 91 6 = 1,46385

Moyenne 72,5 22,5 0 0

Variance 236,25 72,9167 1 1

Écart-type 15,37043 8,53913 1 1

1.16 Voici une série de valeurs accouplées x et y :

x 4 6 8 12 15

y 5 12 9 12 22

Déterminer les moyennes de X et de Y; les écarts-types de X et Y; la covariance entre X et Y; les coefficients b1 et b0 de

la droite de régression de Y sur X; et le coefficient de corrélation r. Voici les calculs :

x y

Moyennes 9 12

Variances 16 31,6

Covariance XY = 19,6

b1 1,225

b0 0,975

Coefficient de corrélation r 0,871671

1.17 Démontrez les propriétés y a bx et y = |b|x, où X est une variable et Y = a + bX. Déduisez que les cotes Z sont

de moyenne nulle et d’écart-type 1.

Y = a + bX est une variable dont les valeurs sont yi = a + bxi. Donc ( )y a bxi iy

n n

=

na b xin

=

b xia a bxn

( )

i i i i iy a bx a bx na b x b x

y a a bxn n n n n

.

2 2 2 2

2 2

( ) [( ) ( )] [ ( )] [( )]i i i i

Y

y y a bx a bx b x x x xb

n n n n

2 2

Xb Y = |bX | .

1.18 Un médecin vous dit que votre pression intraoculaire est de 23. Pour une population de 100 000 personnes de votre

âge, la pression moyenne est de 17 avec un écart-type de 2,1. Votre pression est-elle excessive ?

Votre cote Z est (23-17)/2,1 = 2,857, ce qui est plutôt extrême.

1.19 Soit X le revenu des corporations multinationales du Canada; et soit Y le revenu annuel des petites et moyennes

entreprises du Canada. D’après vous, l’écart-type de X est-il supérieur ou inférieur à celui de Y? Discuter. Les revenus des multinationales étant énormes, on peut s’attendre à une grande variation entre elles — bien plus que pour les PME,

dont les revenus sont bien plus petits.

1.20 Soit A la série des 365 températures quotidiennes à Montréal (pour une année donnée) et B la série des 365

températures quotidiennes à Miami (même année.) D’après vous, laquelle des deux séries a la plus grande variance?

Page 8: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

8 Chapitre 1 Statistiques descriptives STT1000 Solutions

Serge Alalouf 7 novembre 2017

Celles de Montréal sont certainement plus dispersées

1.21 Considérons les variables X et Y, où X représente la proportion quotidienne de garçons parmi les nouveau-nés d’un

petit hôpital et Y la proportion quotidienne parmi tous les nouveau-nés canadiens. D’après vous, laquelle des deux

variables a le plus grand écart-type? Discutez.

Une plus grande dispersion dans les petits hôpitaux

1.22 Une usine fabrique des toiles métalliques pour des usines de pâtes et papier. Afin de mieux répartir son personnel, le

gérant aimerait prévoir le temps, T, requis pour la finition des toiles. Ce temps pourrait être lié, entre autres variables,

à la surface de la toile, S. On a obtenu les données du tableau 1 :

Tableau 1 Temps de finition d’une toile (T) et surface de la toile (S)

i T S i T S

1 5,50 9,30 9 6,50 15,80

2 5,90 13,50 10 6,50 14,90

3 5,80 11,10 11 7,10 18,60

4 6,30 14,90 12 7,00 15,80

5 7,00 16,70 13 6,90 16,70

6 7,50 23,20 14 6,80 15,80

7 5,50 11,10 15 6,60 16,70

8 7,20 20,40

a) Faire un graphique des données. Tracer la droite de régression. Le modèle est-il raisonnable?

b) Quelle variable doit-on utiliser comme variable dépendante? (Justifier ce choix). La variable indépendante est S,

puisque c’est la surface qui sert à prédire le temps.

c) Déterminer l’équation de régression correspondante et le coefficient de corrélation. ∑ x = 234,5; ∑ y = 98,1; ∑ x2 = 3845,13;

∑ y2 = 647,05; ∑ xy = 1562,98; Écart-type des x = 3,455559; écart-type des y = 0,6042075; Covariance entre X et Y = 1,95667;

b0 = 3,978279 ; b1 = 0,1638627 ; r = 0,9371572.

d) Quel est le temps moyen de finition pour une toile de 20 m2? 7,255534

1.23 Un professeur de secondaire est responsable de l’enseignement de l’algèbre. Au début de l’année, il fait passer à 20 de

ses étudiants un petit test mesurant les habiletés arithmétiques (M) de ses étudiants. À la fin du premier semestre, il

examine les résultats (A) de ses étudiants à l’examen d’algèbre. Les résultats sont présentés au tableau 2:

*

**

*

*

*

*

*

**

**

**

*

10 12 14 16 18 20 22

5.5

6.0

6.5

7.0

7.5

Relation entre le temps de finition

d'une toile et sa surface

Surface

Tem

ps

Temps de finition=3,97+0,163(Surface)

Page 9: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

STT1000 Solutions Chapitre 1 Statistiques descriptives 9

Serge Alalouf 7 novembre 2017

Tableau 2 Habileté mathématique (M) et résultat à un examen d’algèbre (A)

i A M i A M 1 36 9 11 59 26

2 23 10 12 58 28

3 22 13 13 72 30

4 36 15 14 87 31

5 49 16 15 86 32

6 32 18 16 79 33

7 44 20 17 74 34

8 52 22 18 78 36

9 51 23 19 99 38

10 83 24 20 85 40

a) Faire un graphique des données. Tracer la droite de régression. Le modèle est-il raisonnable?

La relation semble bien linéaire et assez forte

b) Quelle variable doit-on utiliser comme variable dépendante? (Justifier ce choix). On prédit la note d’algèbre à partir du test d’habileté mathématique. Donc A est la variable dépendante.

c) Déterminer l’équation de régression correspondante et calculer le coefficient de corrélation entre les deux

variables. ∑ x = 498 ; ∑ y = 1205 ; ∑ x2 = 14074 ; ∑ y2 = 82981 ; ∑ xy = 33789 ; Écart-type des x = 9,148224 ; Écart-type des y :

22,78130 ; Covariance : 189,225; bo = 3,950532 ; b1 = 2,261023 ; r = 0,9079528. La relation est très forte (ces données

sont fictives. Il est très rare que des données psychométriques présentent de telles corrélations)

d) Quelle note à l’examen d’algèbre aurait un étudiant dont la note au test d’habileté mathématique aurait été 25? 60,4761

1.24 Les données suivantes présentent le nombre de bactéries N encore vivantes après avoir été exposées à des rayons X

pendant un temps de durée t.

N 355 211 197 166 142 106 104 60 56 38 36 32 21 19 15

t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

a) Déterminer la droite des moindres carrés pour exprimer N comme fonction linéaire de t. Déterminer le coefficient

de corrélation. Voici le nuage de points. L’ajustement à une droite est douteux.

*

* *

*

*

*

*

* *

*

* *

*

* *

*

**

*

*

10 15 20 25 30 35 40

20

40

60

80

100

Relation entre la note d'algèbre

et l'habileté mathématique

Habileté mathématique

Note

en a

lgèbre

Note en algèbre=3,95+2,26(Habileté mathématique

Page 10: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

10 Chapitre 1 Statistiques descriptives STT1000 Solutions

Serge Alalouf 7 novembre 2017

∑ x = 120; ∑ y = 1558; ∑ x2 = 1240 ; ∑ y2 = 290654; ∑ xy = 7014 ; Écart-type des x = 4,320494 ; Écart-type des y = 92,67496 ;

Covariance = -363,333; b0 = 259,5810 ; b1 = -19,46429 ; r = - 0,9074223.

b) Supposons que le phénomène soit assez bien connu pour savoir que la relation entre N et t est de la forme N =

1b t

ob e

. De là, on peut conclure que Y = ln N est une fonction linéaire de t. Donc remplacez N par Y et décidez

si l’ajustement ici est meilleur. Les valeurs de Y = ln N sont 5,872118 ; 5,351858 ; 5,283204 ; 5,111988 ; 4,955827 ; 4,663439 ; 4,644391 ; 4,094345 ;

4,025352 ; 3,637586 ; 3,583519 ; 3,465736 ; 3,044522 ; 2,944439 ; 2,708050

La relation peut être approchée par une droite, d’après le graphique suivant :

∑ x = 120 ; ∑ y = 63,38637 ; ∑ x2 = 1240 ; ∑ y2 = 281,3715 ; ∑ xy = 445,9319 ; Écart-type des x = 4,320494 ;

Écart-type des y = 0,94925 ; Covariance = -4,0773; ln b0 = 5,97316 ; bo = 392,7449 b1 = - 0,2184253 ; r = -0,9941623.

1.25 Le tableau A01 présente des données sur les professeurs d’une certaine université.

a) Représentez par des moyens graphiques la distribution de la variable « Département ».

*

**

*

*

* *

* ** * *

* * *

2 4 6 8 10 12 14

50

100

150

200

250

300

350

Évolution du nombre de bactéries

Temps

Baté

ries

Bactéries=259,58-18,46(Temps)

*

* **

*

* *

* *

* **

**

*

2 4 6 8 10 12 14

3.0

3.5

4.0

4.5

5.0

5.5

Évolution du logarithme du nombre de bactéries

Temps

ln(B

até

ries)

log(Bactéries)=5,97-0,2184(Temps)

Page 11: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

STT1000 Solutions Chapitre 1 Statistiques descriptives 11

Serge Alalouf 7 novembre 2017

b) On compare ici les salaires à l’entrée et les salaires en 2012. Vous auriez intérêt à exprimer les salaires en milliers,

de façon à ne pas être encombré de gros chiffres.

(i) Faites deux polygones de fréquences représentant la distribution des salaires à l’entrée et la distribution des

salaires en 2012. Faites un commentaire sur les différences entre les deux distributions. Les polygones des fréquences ne fonctionnent pas du tout. Ils donnent ceci :

Voici une comparaison par « moustaches ». Bien sûr les salaires en 2001 sont supérieurs et aussi plus dispersés.

0 10 20 30 40 50

Management

Ressources humaines

Études urbaines

Finance

Effectif

Département

Distribution de la variable « Département »

0 20 40 60 80 100

0.0

0.1

0.2

0.3

Salaires à l'entrée et en 2012

Salaire

Fré

quence

Salaire à l'entrée

Salaire en 2012

Page 12: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

12 Chapitre 1 Statistiques descriptives STT1000 Solutions

Serge Alalouf 7 novembre 2017

(ii) Déterminez la moyenne, la médiane et l’écart-type des deux distributions: ces deux mesures confirment-elles

les impressions visuelles? Bien sûr, la moyenne, la médiane et l’écart-type sont plus élevés en 2012

Moyenne Médiane Écart-type

Salaire à l’entrée 17 990 13 075 11 148 Salaire en 2012 79 873 84 126 15 451

(iii) Les positions relatives des médianes par rapport aux moyennes arithmétiques ne sont pas les mêmes dans les

deux distributions. Expliquez ce fait en termes des caractéristiques visuelles des histogrammes. Suggérez aussi

une explication dans les termes du contexte. Les histogrammes montrent que les deux distributions sont asymétriques, mais asymétriques de différentes façons. En

voici une deuxième représentation graphique, qui montre une concentration à gauche pour les salaires à l’entrée et à droite

pour 2012:

C’est ce qui explique qu’à l’entrée la moyenne est inférieure à la médiane et que c’est le contraire en 2001.

(iv) La dispersion des salaires en 2012 est bien plus importante qu’à l’entrée. Mais les écarts-types sont-ils

réellement comparables? Une mesure de dispersion relative, appelée coefficient de variation et définie par CV

= x

, peut aider à répondre à cette question. Calculez le coefficient de variation des salaires en 2012 et à

Salaire à la rentrée Salaire en 2012

20

40

60

80

100

Salaire à l'entrée et

salalire en 2012

Salaire à l'entrée

Salaire à l'entrée

Eff

ectif

10 20 30 40 50 60

0.0

00

.02

0.0

40

.06

Salaire en 2012

Salaire en 2012

Eff

ectif

40 50 60 70 80 90 100

0.0

00

.01

0.0

20

.03

Page 13: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

STT1000 Solutions Chapitre 1 Statistiques descriptives 13

Serge Alalouf 7 novembre 2017

l’entrée. Pouvez-vous expliquer le fait que maintenant c’est le salaire à l’entrée qui est plus dispersé? Le

coefficient de variation est de 0,620 pour les salaires à l’entrée et de 0,193 pour les salaires en 2012. Ce qui veut dire que

l’écart-type des salaires à l’entrée n’était faible que parce que les montants l’étaient. En fait, relativement à la moyenne, la

dispersion est plus élevée à l’entrée. Ce qui s’explique : les salaires à l’entrée ont été payés au cours de plusieurs années,

et la croissance des salaires au cours de ces années contribuent à de grands écarts.

c) Examinez la relation entre le salaire en 2012 (sal12) et l’ancienneté (anc): faites un graphique, déterminez la droite

de régression s’il y a lieu, calculez le coefficient de corrélation.Voici un nuage de points avec la droite des moindres

carrés dont l’équation est sal12 = 47978 + 1579( anc) . Le coefficient de corrélation est 0,918:

La relation est forte, ce qui ne surprend pas, puisque le salaire est en partie déterminé par l’ancienneté.

d) On s’intéresse au lien entre le salaire à la date d’engagement et l’expérience.

(i) Déterminez un nuage de points permettant de voir s’il y a une relation entre le salaire à la date d’engagement

et l’expérience.

La relation n’est pas nulle, mais elle ne semble pas très forte. Le coefficient de corrélation est 0,141.

(ii) Déterminez la droite des moindres carrés. D’après votre droite, qu’est-ce qu’une année de plus rapporte en

salaire?

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

*

**

*

*

*

**

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

*

**

**

*

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

**

* * *

*

*

*

*

*

*

*

**

*

**

*

*

*

*

* *

*

*

*

** *

*

*

*

*

**

*

*

*

*

*

***

*

*

*

*

*

*

*

*

*

***

*

**

*

*

*

*

*

*

*

**

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

0 5 10 15 20 25 30

50

60

70

80

90

100

110

Relation entre le salaire (en 1000$)

en 2012 et l'ancienneté

Ancienneté

Sala

ire e

n 2

012

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

* *

*

*

*

*

*

*** *

*

*

*

**

*

**

* *

*

*

*

*

**

*

*

* *** *

*

* *

** *

*

**

*

** *

*

*

*

***

*

*

*

*

**

**

*

***

*

**

*

*

* *

*

**

*

*

*

*

** ***

*

*

*

**

******

***

*

* ** *

*

*

*

*

*

*

*

*

*

**

**

*

*

*

*

*

* *

*

* *

*

*

**

*

*

*

*

*

*

*

*

*

*

*

*

* *

*

*

**

*

**

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

10 20 30 40

10000

30000

50000

Relation entre le salaire à l'entrée

et l'expérience

Exoérience

Sala

ire à

l'e

ntr

ée

Page 14: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

14 Chapitre 1 Statistiques descriptives STT1000 Solutions

Serge Alalouf 7 novembre 2017

La droite des moindres carrés est sal0 = 11233 + 236,8 Exp.

(iii) Déterminez le coefficient de corrélation entre la date d’engagement et le salaire à l’entrée; et entre la date

d’engagement et le salaire en 2012. Corrélation entre date d’engagement et salaire à l’entrée : r = 0,937; corrélation entre date d’engagement et salaire en 2001 :

r = -0,918. La première corrélation reflète l’inflation : plus l’engagement est récent, plus le salaire est élevé; la seconde

corrélation reflète l’effet de l’ancienneté : un engagement récent signifie moins d’ancienneté et donc salaire inférieur. Voici

la relation entre la date d’engagement (-1980) et le salaire en 2012 :

e) On s’intéresse ici à la relation entre le salaire à l’entrée (y) et la date d’entrée (x). (Vous pourriez choisir de

transformer les données sur les années en soustrayant un même nombre (1980, par exemple) de chaque donnée).

(i) Faites un nuage de points pour montrer la relation entre le salaire à l’entrée et la date d’entrée.

On constate une certaine courbure dans la forme du nuage, ce qui fait penser que la relation n’est pas réellement linéaire.

(ii) Utilisez la droite des moindres carrés en (i) pour prédire le salaire (à la date d’engagement) pour chaque sujet.

Construisez une colonne des différences entre les salaires et la prédiction du salaire. Calculez l’écart-type de

ces différences. Comment cet écart-type se compare-t-il à l’écart-type des salaires à la date d’engagement?

Pouvez-vous expliquer pourquoi il y a une aussi grande différence? La droite de régression est y = 4,216 + 1,165x,

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

*

**

*

*

*

**

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

*

**

**

*

*

* *

*

*

*

*

*

*

*

*

*

*

*

*

*

* *

*

**

***

*

*

*

*

*

*

*

**

*

* *

*

*

*

*

**

*

*

*

***

*

*

*

*

**

*

*

*

*

*

***

*

*

*

*

*

*

*

*

*

** *

*

* *

*

*

*

*

*

*

*

**

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

0 5 10 15 20 25 30

50000

70000

90000

110000

Relation entre le salaire en 2012

et la date d'entrée

Date d'entrée (-1980)

Sala

ire e

n 2

012

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

*

**

*

*

*

**

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

*

**

**

*

*

* *

*

*

*

*

*

*

*

*

*

*

*

*

*

* *

*

**

***

*

*

*

*

*

*

*

**

*

* *

*

*

*

*

**

*

*

*

***

*

*

*

*

**

*

*

*

*

*

***

*

*

*

*

*

*

*

*

*

** *

*

* *

*

*

*

*

*

*

*

**

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

0 5 10 15 20 25 30

50000

70000

90000

110000

Relation entre le salaire en 2012

et la date d'entrée

Date d'entrée (-1980)

Sala

ire e

n 2

012

Page 15: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

STT1000 Solutions Chapitre 1 Statistiques descriptives 15

Serge Alalouf 7 novembre 2017

où x est la date d’engagement moins 1970. L’écart-type des différences entre le salaire réel et le salaire prédit est 3,89.

L’écart-type des salaires à la date d’engagement est 11,16, beaucoup plus grand. Ces écarts-types sont tous deux des

mesures d’erreur. L’écart-type 11,16 mesure l’erreur commise quand on prédit un salaire donné à partir de la moyenne

globale des salaires, sans tenir compte de la date d’engagement. L’écart-type de 3,89 est une mesure de l’erreur commise

lorsque prédit un salaire en tenant compte de la date à laquelle il a été établi.

Voici un graphique qui montre la relation entre les erreurs d'estimation et la date d'entrée.

(iii) Les nuages de points obtenus en (i) et en (iii) montrent clairement que la relation n’est pas linéaire. Si on

suppose que les salaires se sont accrus à un taux constant ce dernières décennies, alors la relation est en fait

exponentielle: y = ex. Auquel cas, ln y = ln + x. Examinez à l’aide d’un nuage de points la relation entre

le logarithme du salaire et la date d’engagement.

Le coefficient de corrélation est r = 0,963. La relation ne s’en est que très légèrement améliorée (le coefficient de

corrélation entre le salaire et la date d’entrée est de 0,937).

(iv) Bien que le graphique en (iii) demeure quelque peu convexe, déterminez la droite des moindres carrés qui lie

le logarithme du salaire à l’année d’engagement. Estimez le salaire moyen d’un professeur engagé en 1988.

*

*

*

*

**

*

*

*

*

*

*

*

*

*

* *

*

*

**

*

**

*

*

*

*

*

*

*

*

*

***

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

* *

*

** *

*

*

*

**

*

*

*

** *

* *

*

*

*

*

*

*

*

*

*

**

**

*

*

*

*

*

**

*

** **

*

*

**

* *

*

*

**

*

*

*

*

***

*

**

*

**

**

*

* *

*

*

*

*

* *

**

**

*

*

*

*

**

*

*

*

* *

**

*

*

*

*

*

*

**

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

** *

* *

**

*

*

*

*

*

** *

*

*

*

0 5 10 15 20 25 30

-20

-15

-10

-50

510

Erreur d'estimation du salaire (en 1000$)

en fonction de la date d'entrée (-1980)

Date d'entrée (-1980)

Err

eur

d'e

stim

ation

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

** **

*

*

*

* *

*

**

*

*

*

*

*

*

*

*

*

*

**

**

*

*

**

*

**

*

*

*

*

*

**

*

*

*

* *

*

*

*

*

*

*

*

*

*

*

*

**

*

**

*

*

**

*

*

*

*

*

*

*

***

**

*

*

*

*

*

**

** **

*

* *

*

**

***

*

*

*

*

*

*

*

*

*

*

* *

*

*

*

*

*

**

*

**

*

*

**

*

*

*

*

*

*

*

*

*

*

*

*

* *

*

*

**

*

**

*

*

*

*

*

*

*

*

*

*

*

*

* *

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

0 5 10 15 20 25 30

9.0

9.5

10.0

10.5

11.0

Relation ln(salaire)

et la date d'entrée

Année d'entrée

ln(S

ala

ire à

l'e

ntr

ée)

Page 16: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

16 Chapitre 1 Statistiques descriptives STT1000 Solutions

Serge Alalouf 7 novembre 2017

LogSal = 8,97+0,05728(DateEntree). Évaluée à (8=1988 - 1980) nous avons LogSal = 9,425 et donc Sal = 12394 $.

(v) Montrez que le pourcentage d’accroissement annuel dans une relation de la forme y = ex est de 100(e - 1) %.

Estimez le pourcentage annuel d’accroissement (t) à partir des résultats en (iv).

100

( 1)

100( 1)x x

x

ae aee

ae

. = 0,05728293, e =1,05895538 un taux d’accroissement de 6 % environ par année.

f) Revenons au salaire à l’entrée et l’expérience. Utilisez le taux d’accroissement t obtenu en e) (iv) pour ajuster les

salaires y à l’entrée, c’est-à-dire, pour les exprimer en dollars de 2012. Il suffit de multiplier y par (1+t)k , où k est

la différence entre 2012 et l’année d’engagement. Maintenant calculez l’écart-type et le coefficient de variation des

salaires ajustés. Faites un commentaire sur les différences entre ces mesures et celles obtenues pour les salaires de

l’année 2012. Est-ce que les écarts entre professeurs s’accentuent? Le coefficient de variation pour les salaires (à

l’entrée) ajustés est de 0,136, bien plus petit que celui des salaires non ajustés (0,620) et inférieur à celui des salaires de 2012

(0,193). La dispersion des salaires non ajustés est due à deux choses : la variation due à la date et celle due aux différences entre

candidats. La première source ayant été à peu près éliminée (par l’ajustement), il ne reste que la variation entre candidats. Celle-

ci est inférieure à la variation dans les salaires de 2012 car ce sont des salaires offerts pour la plupart à des débutants, alors que

ceux de 1991 sont des salaires gagnés par des gens ayant différents niveaux d’ancienneté.

g) On veut comparer le salaire moyen (en 2012) des femmes et des hommes.

(i) Montrer que le salaire des femmes est nettement inférieur à celui des hommes. Femmes : 73 941 $; Hommes: 83 910 $. Différence: 9969 $ de plus pour les hommes

(ii) Montrer, cependant, que les hommes ont en moyenne plus d'ancienneté. Femmes: 17,63 ans; Hommes: 21,94 ans; différence: 4,31 ans.

(iii) Déterminer la droite des moindres carrés liant le salaire des femmes à leur ancienneté. Salaire = 46792 + 1540(Ancienneté)

(iv) Déterminer la droite des moindres carrés liant le salaire des hommes à leur ancienneté. Salaire = 50275 +1533(Ancienneté)

(v) Estimer le salaire des femmes et le salaire des hommes ayant 18 ans d'ancienneté. Est-ce que la différence

augmente (par rapport à la différence établie en (i)) ou est-ce qu'elle diminue? Interpréter. Femmes: 74511 $; Hommes: 77868 $. Différence: 3357 $ de plus pour les hommes. Le salaire moyen des femmes est

inférieur en partie parce qu'elles ont moins d'ancienneté en moyenne. La différence de 3357 $ calculée ici représente une

différence entre hommes et femmes ayant même ancienneté (18 ans); elle ne peut donc pas être attribuée à l'ancienneté.

1.26 [Données du tableau A02] Le tableau A02 présente quelques données sur 43 maisons vendues. Présentez des tableaux,

des graphiques, ou des mesures descriptives qui permettent de confirmer ou d’infirmer les propositions suivantes (pour

les besoins de cet exercice, une « vieille » maison est une maison de plus de 10 ans):

a) Les vieilles maisons ont moins souvent un sous-sol. Répondez de deux façons: i) en considérant l’âge comme

variable quantitative; et ii) en la considérant comme variables dichotomique: 1 = vieille, 0 = pas vieille.

i) Pourcentages de maisons sans et avec sous-sol, selon l’âge

Sous-sol?

Sans sous-sol Avec sous-sol

Âge de la

maison

Jeune 15,79 % 84,21 % 100 %

Vieille 45,8 % 54,17 % 100 %

ii) Âge des maisons selon qu’elles n’ont pas ou ont un sous-sol :

Sous-sol?

Sans sous-sol Avec sous-sol

Âge de la

maison

Moyenne 47,11 10,48

Écart-type 35,07 9,69

b) Les maisons qui ont deux salles de bains ou plus coûtent en moyenne 10 000 $ de plus que celles qui en ont moins

de deux. Prix des maisons selon qu’elles ont moins de deux salles de bains ou deux salles de bains ou plus :

Page 17: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

STT1000 Solutions Chapitre 1 Statistiques descriptives 17

Serge Alalouf 7 novembre 2017

Salles de bains

Moins de deux Deux ou plus Différence

Prix moyen 48 414 $ 73 286 $ 24 872 $

La différence en fait est de 24872 $

c) Le fait d’avoir deux places de garage ajoute plus à la valeur d’une vieille maison qu’à celle d’une moins vieille. Faux. Prix moyen des maisons selon l’âge (jeune ou vieille) et le nombre de places de garage (moins de deux ou deux)

Places de garage

Moins de deux Deux Différence

Âge de la

maison

Jeune 64 150 $ 73 653 $ 9504 $

Vieille 49 108 $ 56 664 $ 7556 $

Le fait d’avoir deux places de garage ajoute en moyenne 9504 $ au prix moyen des maisons jeunes et 7556 $ à celui des

maisons vieilles.

d) En général, plus une maison est vieille, moins elle coûte. C’est vrai. Le coefficient de corrélation entre le prix et l’âge est r = -0,535. Il est vrai que les vieilles maisons ont moins

souvent deux places de garage. Serait-ce la raison principale de leur prix inférieur ? Ceci est démenti par les données du

numéro précédent : les vieilles maisons sont moins cher, même lorsqu’elles ont le même nombre de garages. Voici en outre

une représentation de la dépendance entre l’âge (traitée comme variable quantitative) et le prix selon que la maison a deux

garages ou pas :

e) Le prix des maisons décroît avec l’âge, mais c’est surtout parce que les vieilles maisons ont moins souvent deux

salles de bains. Le graphique suivant montre que si l’on tient compte du nombre de salles de bains, on constate que la

dépendance entre l’âge et le prix s’affaiblit considérablement.

Page 18: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

18 Chapitre 1 Statistiques descriptives STT1000 Solutions

Serge Alalouf 7 novembre 2017

Il est possible de montrer, cependant, que la dépendance existe quand même. On peut refaire l’analyse en traitant l’âge come

variable dichotomique. Voici les prix moyens des maisons, selon le nombre de salles de bains et l’âge :

Âge des maisons

Jeunes Vieilles Différence

Bains Moins de deux 54680 46571 8109

Deux 76357 67143 9214

Les différences de prix entre les maisons jeunes et les maisons vieilles et de 18 082 $. Lorsqu’on effectue cette comparaison en

séparant les maisons à deux salles de bains des autres, on voit qu’une différence persiste, mais elle est moins importante. On

résume donc : les vieilles maisons coûtent moins cher, en partie parce qu’elles ont moins de deux salles de bains, et en partie

pour d’autres raisons (associées à la vieillesse).

1.27 [Données du tableau A09] Le tableau A09 en annexe présente des données sur une expérience dont l’objet est de

comparer trois méthodes d’enseignement chez des enfants. L’objectif de cet enseignement est de parfaire la

compréhension de texte. Chaque sujet a composé deux pré-tests (A1, A2) avant la période d’apprentissage et 3 post-

tests (B1, B2, B3) après. Comparez la méthode 1 à la méthode 2 de deux façons:

a) Utilisez la moyenne Y de A1 et A2 et la moyenne X de B1 et B2 comme mesures de compréhension avant et après

la période d’apprentissage, respectivement. Comparez les deux groupes par rapport à la différence entre les

moyennes de Y (vous supposerez que les scores aux tests A1, A2, B1, B2 sont comparables, de sorte qu’il est

raisonnable de les additionner, ou de soustraire l’un de l’autre). À première vue, quelle est la méthode la plus

prometteuse?

Moyennes

Groupe 1 Groupe 2

Moyennes 6,113636 8,000000

b) Peut-on attribuer la différence entre les deux groupes à une différence initiale? Considérer cette possibilité en

comparant les aptitudes initiales, que vous mesurerez par le score moyen X = (A1+A2)/2: comparer la moyenne de

X dans les deux groupes.

Groupe 1 Groupe 2

Moyennes 7,886364 7,409091

c) Déterminer une droite des moindres carrés pour chaque groupe.

Groupe 1 Groupe 2

Droite de régression y =1,524 + 0,582 x 3.878 + 0,556 x

Page 19: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

STT1000 Solutions Chapitre 1 Statistiques descriptives 19

Serge Alalouf 7 novembre 2017

d) Se servir des équations déterminées en c) afin d'estimer la différence d'aptitude Y pour des personnes ayant la même

aptitude initiale, soit X = 7,5.

Groupe 1 Groupe 2 Différence

Prédiction 1ˆ 5,889y 2

ˆ 8,051y 2 1ˆ ˆ 2,162y y

e) Comparez les méthodes 1 et 2 en n’employant cette fois-ci que la variable B3 comme mesure de compréhension

après la période d’apprentissage (le test B3 est de nature différente des autres; il n’a été donné qu’après une période

d'attente suivant l’apprentissage).

Groupe 1 Groupe 2

Moyennes 41,045 46,727

f) En b), on compare les groupes par rapport à un post-test seulement. Est-ce valable? Si oui, y a-t-il un avantage à

procéder de cette façon, ou est-ce préférable d’utiliser la méthode pré-test/post-test?

Groupe 1 Groupe 2

Moyennes 0,796 1,111

1.28 [Données du tableau A05] Le tableau A05 en annexe présente des données sur la température (en degrés Fahrenheit) de

130 sujets (prises par les sujets eux-mêmes).

a) Il est bon de vérifier de façon empirique ce qui se démontre formellement. Convertissez les températures dans ce

tableau (x) en degrés Celsius (y) et utilisez ces données pour vérifier les propriétés y = a + b x , 2

y = 2 2b x , et y =

|b|x .

b) Dans le même esprit qu’en a), utilisez les données sur la température pour montrer que les cotes Z sont de moyenne

nulle et d’écart-type égal à 1.

c) On utilise souvent en statistique la loi normale, une courbe symétrique en forme de cloche: une loi que plusieurs

variables dans la nature semblent suivre. Représenter la distribution des températures au moyen d'un histogramme,

d'un polygone des fréquences ou d'une moustache. Cette distribution vous semble-t-elle normale?

d) Quel intervalle de températures considérez-vous normal? À partir de quelle valeur diriez-vous qu’une température

est excessive? Considérez toute valeur éloignée de plus de 2,5 écarts-types de la moyenne comme étant excessive.

(i) Si on considère comme « normale » toute valeur se situant à deux écart-types ou moins de la moyenne, quelles

sont les limites « normales »? Avec ce critère, la température maximale observée de 100,8 est-elle anormale?

98,24923; 0,7331; 2,5 96,42; 2,5 100,08y S y S y S . Une température de 100,8 est à la limite de la normale. Il

est vrai aussi que la température minimale observée de 96,3 est dans l’intervalle des valeurs « normales ».

Distribution des températures corporelles

Température

Fré

quence

96 97 98 99 100 101

0.0

0.1

0.2

0.3

0.4

0.5

Page 20: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

20 Chapitre 1 Statistiques descriptives STT1000 Solutions

Serge Alalouf 7 novembre 2017

(ii) Éliminer les trois données excessives (deux trop faible, une trop forte), ce qui est raisonnable si on estime que

ces trois personnes sont malades (ou ont mal lu le thermomètre). Quelles sont les limites une fois ces données

éliminées?

e) Y a-t-il une différence de température entre hommes et femmes? Répondez par des mesures descriptives et par des

graphiques si ceux-ci sont révélateurs. Éliminez d’abord la plus grande des données.

f) Y a-t-il une relation entre la température (Y) et le nombre de battements du cœur (X)?

(i) Faites un nuage de points et déterminez la droite de régression et le coefficient de corrélation.

Distribution des températures corporelles

après élimination des données extrêmes

Fré

quence

96.5 97.0 97.5 98.0 98.5 99.0 99.5 100.0

0.0

0.1

0.2

0.3

0.4

0.5

96 97 98 99 100 101

0.0

00.1

00.2

00.3

0Distribution de la température corporelle

Femmes et hommes

Températude

Fré

quence Hommes Femmes

Page 21: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

STT1000 Solutions Chapitre 1 Statistiques descriptives 21

Serge Alalouf 7 novembre 2017

(ii) Est-ce que la relation entre X et Y semble différente pour les hommes et les femmes?

Femmes Hommes

Droites de régression y = 96,442+0,026x y = 96,400+0,023x

La relation entre les deux variables est à peu près la même chez les hommes et les femmes, sauf que, selon les données

de cet échantillon, pour un même pouls la température des femmes est légèrement supérieure. Il est fort probable,

cependant, que cette différence soit purement fortuite.

1.29 [Données du tableau A03] Le tableau A03 en annexe présente des données sur 28 sujets desquels on a obtenu une mesure

de la grosseur du cerveau ainsi que certaines mesures d’aptitude mentale.

a) Faites un graphique permettant de voir si la variable P, le score de performance, dépend de la taille du cerveau.

Vous devriez constater que la relation, si elle existe, est plutôt faible.

*

*

**

* * **

*** * ** *

** **

* ** ***

** *** ***

** * ***

* * * ** *

* * ** * ** *

* ***

* * **

**

**

*

**

* *

*

***

** ** * *

* *** **

** * ***** ** ** * *

** * **

* ** * * ** * * ** * *

** *

****

**

**

*

60 65 70 75 80 85 90

97

98

99

100

Relation entre la température corporelle et le pouls

Battements du coeur

Tem

péra

ture

corp

ore

lle

Température corporelle = 96.3068 + 0.0263 ( Battements du coeur )

*

*

**

* * **

*** * ** *

** **

* ** ***

** *** ***

** * ***

* * * ** *

* * ** * ** *

* ***

* * **

**

**

60 65 70 75 80 85

96.5

97.0

97.5

98.0

98.5

99.0

99.5

Relation entre la température du corporelle

et le pouls - Femmes et hommes

Battements du coeur

Tem

péra

ture

corp

ore

lle

*

**

* *

*

***

** ** * *

* *** **

** * ***** ** ** * *

** * **

* ** * * ** * * ** * *

** *

****

**

*

Température corporelle = 96.4421 + 0.0263 ( Battements du coeur )

Température corporelle = 96.4421 + 0.0263 ( Battements du coeur )

Page 22: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

22 Chapitre 1 Statistiques descriptives STT1000 Solutions

Serge Alalouf 7 novembre 2017

Relation entre la grosseur du cerveau et P

b) Utilisez un symbole différent pour les femmes et pour les hommes. Que constatez-vous?

Relation entre la grosseur du cerveau et P (M = homme; F = femme)

c) Vérifiez que la taille du cerveau est corrélée avec la taille de la personne. Coefficient de corrélation: r = 0,597

d) Déterminer deux droites de régression liant l'aptitude P à la grosseur du cerveau (irm = IRM/5000), l'une pour les

femmes l'autre pour les hommes. Commenter sur la différence entre les deux.

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

160 170 180 190 200 210

80

100

120

140

Grosseaur du cerveau

P

P = 5.72 + 0.6 ( Grosseaur du cerveau )

F

M

M

F

F

F

F

M

M

F

M

M

F

F

F

F

M

FM

M

F

M

F

M

F

M

F

F

160 170 180 190 200 210

80

100

120

140

Grosseur du cerveau

P

P = 5.72 + 0.6 ( Grosseur du cerveau )

Page 23: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

STT1000 Solutions Chapitre 1 Statistiques descriptives 23

Serge Alalouf 7 novembre 2017

Relation entre P et irm, selon le sexe

e) Étant donné la constatation faite en c), déterminez la relation entre P et irmt = irm/Taille (cette dernière variable

ajuste le poids du cerveau en l’exprimant comme proportion de la taille de la personne). Y a-t-il une amélioration

dans le coefficient de corrélation?

Nuage de points, P en fonction irmt(F = femme; H = homme)

L'amélioration est négligeable: r = 0,424 entre P et irm; 0,4233777 entre P et irmt; r = 0,480

1.30 [Données du tableau A10] Le tableau A10 présente des données démographiques et économiques sur 91 pays.

a) Présenter la distribution du PIB (pib( au moyen d'une moustache. Identifier les pays particulièrement riches.

H

F

H

F

H

F

H

F

H

F

H

F

H

F

H

F

H

FH

F

H

F

H

F

H

F

H

F

160 170 180 190 200 210

80

100

120

140

Grosseur du cerveau

P

F

H

Femmes

Hommes

F

H

H

F

F

F

F

H

H

F

H

H

F

F

F

F

H

FH

H

F

H

F

H

F

H

F

F

2.4 2.6 2.8 3.0

80

100

120

140

irmt

P

P = -39.1 + 57.57 ( irmt )

Page 24: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

24 Chapitre 1 Statistiques descriptives STT1000 Solutions

Serge Alalouf 7 novembre 2017

.

b) Faites un graphique pour montrer la relation entre pib (x) et l’espérance de vie des hommes espvie0m (y). Vous

verrez qu’elle est loin d’être linéaire. Essayez d’expliquer pourquoi le nuage a cette forme.

espvie0m = 56,94 + 0,0008(pib)

Distribution du PND dans les pays du Proche et Moyen orient

PNB

Effe

ctif

0 5000 10000 15000 20000 25000 30000 35000

01

02

03

04

05

0

Page 25: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

STT1000 Solutions Chapitre 1 Statistiques descriptives 25

Serge Alalouf 7 novembre 2017

c) Déterminez maintenant la droite de régression permettant de prédire l’espérance de vie des hommes à partir de lpib,

le logarithme du PIB (c’est-à-dire, construisez une colonne contenant x = ln PIB, puis faites une régression de

espvie0m (y) sur x. Estimez l’espérance de vie des hommes d’un pays dont le PIB est de 1000 $ par habitant. y = 24,47 + 4,78x; r = 0,808.

d) La relation entre le taux de mortalité infantile, mortif et le pib ne semble pas non plus linéaire. Montrer que la

relation entre les logarithmes de ces deux variables est proche d’une relation linéaire. Soit y = lmortit = ln(mortif) et x = lpib = ln(pib). Présenter le nuage de points et tracer la droite de régression de y sur x Calculer le coefficient

de corrélation. Estimez le taux de mortalité d’un pays dont le PNB est de 1000 $ par habitant.

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

*

* *

*

*

*

*

*

***

*

*

** *

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

* *

*

*

*

**

*

*

*

*

*

*

*

*

*

*

**

**

**

0 10000 20000 30000 40000

40

50

60

70

pib

Espéra

nce d

e v

ie à

la n

ais

sance (

Hom

mes)

Espérance de vie à la naissance (Hommes) = 60.21 + 0.00061 ( pib )

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

*

* *

*

*

*

*

*

**

*

*

*

***

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

*

* *

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

* *

*

*

*

**

*

*

*

*

*

*

*

*

*

*

**

**

* *

5 6 7 8 9 10

40

50

60

70

ln(pib)

Espéra

nce d

e v

ie

Espérance de vie = 20.89 + 5.53733 ( ln(pib) )

Page 26: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

26 Chapitre 1 Statistiques descriptives STT1000 Solutions

Serge Alalouf 7 novembre 2017

Mort = 75,342 + 0,0034(PNB) LMort = 7,730+0,559(LPNB)

e) Comparer espvie0f et espvie0m au moyen de deux moustaches. Identifiez les données extrêmes.

f) Évaluez la relation entre espvie0f (y) et espvie0m (x). Interprétez le fait que le coefficient b1 est supérieur à 1.

*

* *

**

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

* **

**

*

*

*

** **

*

*

*

*

**

*

** * *

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

**

*

**

* *

*

*

** *

*

*

*

**

*

* *

**

*

*

*

*

** *

**

*

*

0 10000 20000 30000 40000

020

40

60

80

100

120

PIB

Mort

alit

é infa

ntile

Mortalité infantile = 47.14 + -0.00174 ( PIB )

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

* *

*

*

*

*

*

*

*

*

*

*

*

**

*

***

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

* *

*

*

*

* *

*

*

*

* *

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

5 6 7 8 9 10

12

34

5

ln(pib)

ln(M

ort

alit

é infa

ntile

)

ln(Mortalité infantile) = 7.88 + -0.61506 ( ln(pib) )

Page 27: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

STT1000 Solutions Chapitre 1 Statistiques descriptives 27

Serge Alalouf 7 novembre 2017

1.31 [Données du tableau A08] Le tableau A08 présente des données économiques sur 46 grandes villes du monde.

a) Faites un graphique montrant la relation entre le coût des produits (x) et les salaires (y). Salaire = -25,677 + 0,9304(Prix)

b) Considérer les différences iy y ainsi que les différences ˆi iy y , où ˆ

iy est la prédiction de y à partir de xi : ˆiy =

bo+b1xi. Calculez l’écart-type de chacune de ces deux séries. Considérer le sens de ces écarts pour expliquer

pourquoi la deuxième série ne peut pas être plus dispersée que la première.

ˆy y =

13.641 6.020 1.914 2.785 7.512 -14.020 -20.179 18.819 3.630 -3.635 12.839 16.761

26.750 -13.419 -5.884 5.080 2.132 -4.897 -13.678 -7.813 -6.465 16.629 30.624 -11.597

-7.540 -14.958 2.682 14.335 -10.392 13.973 9.410 -18.087 -6.300 -4.345 -6.902 -8.721

4.133 -18.142 -38.679 11.903 -18.258 -9.940 -13.321 18.561 4.404 32.635

y y =

*

*

*

*

*

**

* *

*

**

*

*

*

*

*

*

*

*

*

*

*

*

**

**

*

*

*

*

*

*

* *

*

*

*

*

*

*

*

*

*

*

40 60 80 100

020

40

60

80

100

Relation entre les prix et les salaires

Prix

Sala

ire

Salaire = -25.6766 + 0.9304 ( Prix )

Page 28: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

28 Chapitre 1 Statistiques descriptives STT1000 Solutions

Serge Alalouf 7 novembre 2017

9.454 -9.146 -28.046 -34.246 10.954 -27.046 -28.646 22.354 23.354 1.854 20.654 20.854

50.754 27.054 -11.746 6.754 -15.546 -29.646 -36.846 -20.746 6.654 25.654 31.554 10.454

-35.546 -33.846 13.754 16.754 -33.746 26.254 -11.246 24.154 -25.746 6.354 -29.046 -28.446

-6.846 -23.446 -0.346 12.554 -5.046 -12.546 28.454 18.654 11.754 60.454

ˆÉcart-type de ( ) 14,728;Écart-type de ( ) 24,7577y y y y

1.32 [Données du tableau A11] Présentez des données ou des tableaux qui confirment ou infirment les propositions suivantes: Pour toute paire de variables, nous éliminons les cas où l'une ou l'autre des deux valeurs est manquante (réponse = 5).

a) Ceux qui croient à l’évolution n’ont pas tendance à croire à l’astrologie Voici la distribution conjointe des variables Singe et Astro.

Astro

1 2 3 4

Singe

1 14 12 14 2 42 2 7 10 14 8 39 3 4 5 3 6 18 4 1 3 2 1 7

26 30 33 17 106

Afin d'assurer un effectif suffisant dans chaque case, nous groupons certaines valeurs consécutives. Ici, les réponses 3 et 4

sont réunies en une seule pour les deux variables.

Astro

1 2 3+4

Singe 1 14 12 16 42 2 7 10 22 39 3+4 5 8 12 25

26 30 50 106

Voici les distributions conditionnelles de la variable Astro pour chaque niveau de la variable Singe.

Astro

1 2 3+4

Singe 1 33,3 28,6 38,1 100

2 17,9 25,6 56,4 100 3+4 20,0 32,0 48,0 100

24,5 28,3 47,2 100

On constate que ceux qui croient fortement à la théorie de l'évolution (Singe = 1) sont proportionnellement plus nombreux

(33,3%) à croire que « l'astrologie est une ânerie » (Astro = 1) que ceux qui n'en sont pas convaincus (Singe = 2; 17,9 %) ou

ceux qui n'y croient réellement pas (Singe = 3 ou 4; 20,0 %). Et proportionnellement moins nombreux (38,1 %) à nier la

validité de l'astrologie (Astro = 3 ou 4) que ceux qui n'en sont pas convaincus (56,4 %) ou ceux qui n'y croient réellement pas

(48,0 %).

b) Ceux qui vont régulièrement à l’église préfèrent généralement épouser des coreligionnaires. Distribution conjointe des variables Égl et Rel:

Rel

1 2 3 4

Égl

1 2 1 2 3 8

2 1 1 3 6 11

3 1 1 2 11 15

4 7 14 10 47 78

11 17 17 67 112

Nous combinons les réponses 1, 2 et 3 en une seule pour les deux variables

Rel

1+2+3 4

Égl 1+2+3 14 20 34

2 31 47 78

45 67 112

Page 29: STT1000 CHAPITRE 1 STATISTIQUES DESCRIPTIVES...1.13 Voici des mesures descriptives sur les salaires en 2012 des professeurs de la population présentée au tableau A01, classés selon

STT1000 Solutions Chapitre 1 Statistiques descriptives 29

Serge Alalouf 7 novembre 2017

Distributions conditionnelles de la variable Rel pour chaque valeur de Égl

Rel

1+2+3 4

Égl 1+2+3 41,2 58,8 100

4 39,7 60,3 100

40,2 59,8 100

La proportion de ceux qui n'épouseraient qu'un coreligionnaire (Rel = 1, 2 ou 3) est presque la même parmi ceux qui vont

régulièrement à l'Église et parmi ceux qui n'y vont pas régulièrement.

c) Ceux qui croient à l’astrologie ont tendance à croire à la signification de la ligne de vie. Pour la variable Astro nous combinons les réponses 1 et 2 ainsi que 3 et 4; pour la variable Paume, nous combinons les trois

premières.

Paume

1+2+3 4

Astro 1+2 16 29 45

3+4 23 18 41

39 47 86

Distributions conditionnelles de la variable Paume pour chaque valeur de Astro.

Paume

1+2+3 4

Astro 1+2 35,6 64,4 100

3+4 56,1 43,9 100

45,3 54,7 100

Ceux qui croient que l'astrologie est une ânerie (Astro = 1 ou 2) sont proportionnellement moins nombreux (35,6 %) à croire à

la validité de la ligne de vie que ceux qui croient en l'astronomie (56,1 %).