Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
1
� Retour sur le cours 3� Présentation de tableaux et graphiques� Les mesures de tendance centrale› Moyenne› Mode (et classe modale)› Médiane
� Les mesures de position› Quartiles› Déciles
� Mesures tendance centrale et histogramme� La fonction «recoder»
2
Types de variable Types de graphique Particularités
Qualitative•Nominale•Ordinale
Diagramme à rectangles verticaux ou horizontaux
Diagramme circulaire ou àsecteurs
Tableau de fréquence/distribution
•Permet de comparer plusieurs groupes.•Donne une bonne représentation visuelle de la distribution de la variable.
•Permet de comparer plusieurs groupes.•Donne une bonne représentation des proportions d’un tout.•À éviter lorsque la variable a plus de 7 modalités.
•Donne un aperçu complet de la distribution de la variable, de ses % et de ses % cumulés.•Moins visuel.
Quantitative discrète Diagramme en bâtons • Représentation visuelle facile des valeurs de la variable.
Quantitative continue Histogramme
Polygone de fréquences
•Représentation visuelle facile des valeurs de la variable.
•Rend compte de la continuité de la variable.•Permet d’identifier le modèle mathématique qui s’applique à la distribution. 3
Tableau de fréquence/distribution
Tableau 1. Répartition du nombre d’armes personnelles enregistrées parmi les agents des douanes du canada, 2008.
Nb d’armes enregistrées
Fréquence %
1 359 42.6%
2 297 35.2%
3 et plus 187 22.2%
Total 843 100%
Source: Données fictives
4
5
Graphique XX : Répartition du nombre de victimes selon la gravité de la
blessure subie lors d'un vol qualifié
0
1000
2000
3000
4000
5000
6000
7000
Aucune Physique légère Physique grave
Gravité de la blessure
Nom
bre
de
vic
tim
es
6
Graphique XX : Répartition du nombre de victimes selon la gravité de la
blessure subie lors d'un vol qualifié
0 1000 2000 3000 4000 5000 6000 7000
Aucune
Physique légère
Physique grave
Gra
vit
é d
es
ble
ss
ure
s
Nombre de victimes
� Diagramme circulaire
7
Source des données…
� Variable quantitative discrète
� Le diagramme à bâtons
8
Répartition des jeunes en Centre jeunesse
selon le nombre d'amis délinquants
0
5
10
15
20
25
30
35
40
0 1 2 3 4 5 6
Nombre d'amis délinquants
Po
urc
en
tag
e d
es
ré
po
nd
an
ts (
%)
� Variable quantitative continue
� L’histogramme ou le polygone de fréquence
9
La statistique descriptives : Les analyses univariées
Le ¾ de la population carcérale au Québec est constituée de détenus de moins de 35 ans. Le ¾ de la population carcérale au Québec est constituée de détenus de moins de 35 ans.
11
L’analyse exploratoire des données ou les statistiques descriptives
� Elle constitue l’étape préliminaire à toute analyse statistique, même la plus sophistiquée
� Elle donne une idée générale de la nature des variables
� Elle aide à orienter les analyses subséquentes, et à faire des choix judicieux
� On s’attarde habituellement à trois aspects:
� les mesures de tendance centrale
� les mesures de dispersion
� la distribution des résultats (dans le cas des variables continues)
Les mesures de tendance centrale
� Elle est une mesure qui indique où se trouve la majeure partie des données ou scores d’une distribution.
� Les mesures de tendance centrale sert à représenter le score typique d’une distribution
� Elle est un effort de synthèse: représenter un ensemble d’informations sur la base d’une seule
� Il en existe principalement 3 types, qui sont fonction de l’échelle de mesure des variables : � mode, moyenne et médiane
14
Types d’armes à feu Effectifs
Armes de poing 67
Armes de chasse 86
Arme d’assaut 45
15
� Classe modale: Classe où l’on retrouve le plus de cas.
› Le point milieu de la classe est un bon approximatif du mode.
Nombre d’arrestation
Effectifs %
Aucun 17 14,0de 1 à 3 61 50,4
de 4 à 6 24 19,8de 7 à 9 17 14,09 et plus 2 1,7
Interprétation:La majorité des criminels a été arrêtée de 1 à 3 fois … mais attention à« majorité » ou à « la plupart »… le plus souvent c’est incorrect, préférez la catégorie le plus souvent représentée, etc…
� Avantages
› Il s’applique aux variables de tous les niveaux de mesure
› Il est le seul paramètre de mesure de tendance centrale pour les données nominales
� Inconvénients
› Moins utilisé car très sommaire
› Il peut être difficile à interpréter� Il peut être trompeur
� Il peut y en avoir plusieurs
16
La Moyenne
� La somme des données divisée par leur nombre.
� Se calcule sur:› Des données brutes
› Les effectifs d’un tableau de distribution
› Les pourcentages d’un tableau de distribution
› Des données pondérées
17
La Moyenne
� Données brutes
18
Exemple
Distance en km entre la résidence du tueur en série Clifford Olson et les sites de rencontre avec ses victimes.
(0.5; 0.5; 7; 8; 13; 18; 3; 4.5; 8; 10; 2)
N=11
74,5/11= 6,8km
La Moyenne
� Effectifs d’un tableau de distribution
19
Valeur Effectif Valeur x effectif
0,5 2 1
2 1 2
3 1 3
4,5 1 4.5
7 1 7
8 2 16
10 1 10
13 1 13
18 1 18
Total 11 74,574,5/11= 6,8Km
La Moyenne
� Avantages› Simplicité du calcul› Bon estimateur pour faire de l’inférence sur la population
� Inconvénients› Juste pour les variables quantitatives› Nécessité de connaître toutes les valeurs que peut prendre la variable (donc ne s’applique pas lorsqu’il y a des classes ouvertes)› Est facilement affectées par les valeurs extrêmes
20
Comment la moyenne est affectée par les valeurs extrême : un exemple
Distribution des revenus criminels chez les 450 prisonniers
0
5
10
15
20
25
30
35
010
0030
00500
070
0090
00110
00130
0015
000
1700
019
00021
00023
000250
0027
000
2900
031
00033
000350
00370
0039
000
4100
043
00045
000470
00490
0051
000
5300
055
00057
000
Revenu criminel (en $)
No
mb
re d
e p
ris
on
nie
rs
Moyenne des revenus criminels : 29 000 $
Comment la moyenne est affectée par les valeurs extrême : un exemple
Moyenne des revenus criminels avant : 29 000 $
Moyenne des revenus criminels après : 51 000 $
Distribution des revenus criminel chez les 451 prisonniers
0
5
10
15
20
25
30
35
050
00
1100
0
1700
0
2300
0
2900
0
3500
0
4100
0
4700
0
5300
0
5900
0
6500
0
7100
0
7700
0
8300
0
8900
0
9500
0
1010
00
Revenu Criminel ($)
No
mb
re d
e p
ris
on
nie
rs
� La médiane correspond à l'observation du milieu, c'est-à-dire la valeur de part et d'autre de laquelle se situe la moitié des observations.
� Valeur qui coupe la distribution en 2 parties égales : 50 % à gauche et 50 % à droite
�Pour la mesurer, on établit la liste des observations individuelles par ordre croissant ou décroissant.
La médiane
On demande à 7 criminels de nous dire combien de crimes ils ont commis.
Réponses : 6, 5, 4, 2, 0, 3, 4
La médiane est la données centrale de la série
On ordonne en ordre croissant les réponses
0, 2, 3, 4, 4, 5, 6,
Médiane = 4
› Interprétations:
50 % des criminels ont commis 4 crimes ou moins…ou 50% des criminels ont commis 4 crimes ou plus.
24
La Médiane
Aimez-vous la façon dont vous avez été traité par le système pénal?1- Aucunement2- Un peu 3- Moyennement4- Beaucoup5-Énormément
Réponse des 15 participants en ordre croissant1, 2, 2, 2, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 5
7 avant 7 après
La médiane sur une variable ordinale
Interprétation : Au moins 50 % des …. estiment avoir beaucoup ou énormément aimé la façon dont ils ont été traité par le système pénal.
La Médiane
� Avantages
› Elle s’applique aux variables ordinales et quantitatives
› Elles n’est pas influencée par les valeurs extrêmes
› Elle est un bon substitut de la moyenne
� Désavantages
› Ne s’applique pas pour les variables nominales
26
Le choix de la mesure de tendance centrale
1 – MODE
2 – MÉDIANE
3 – MOYENNE
Continue
1 – MODE
2 – MÉDIANE
3 – MOYENNE
Discrète
Quantitative
1 – MODE
2 – MÉDIANEOrdinale
1 – MODENominale
Qualitative
� La symétrie› Mode = médiane = moyenne› Moyenne est le meilleur indicateurde tendance centrale
� L’asymétrie› Positive: mode < médiane < moyenne
� Concentration de faibles valeurs� Médiane est le meilleur indicateur de tendance centrale
› Négative: mode > médiane > moyenne� Concentration de fortes valeurs� Médiane est le meilleur indicateur de tendance centrale
Moyenne
D
Moyenne
C
Moyenne
A
Moyenne Mode (et classe modale)
Médiane
Échelle d’intervalleÉchelle de rapport
Échelle d’intervalleÉchelle de rapportÉchelle ordinaleÉchelle nominale
Échelle d’intervalleÉchelle de rapportÉchelle ordinale
Dépend de toutes les données et de leur nombre.
Dépend de la fréquence des modalités/valeurs.
Dépend du nombre de données et de leur rang.
La moyenne est unique Il peut y avoir plus d’un mode
La médiane est unique
Idéale lorsque la distribution est relativement symétrique et unimodale.
Il ne fait sens que si la fréquence du mode est nettement supérieure àcelle des autres valeurs ou modalités.
Utile dans les cas de distribution très asymétrique. Elle est un bon complément à la moyenne.
Dans une distribution normale, la moyenne, le mode et la médiane sont similaires.29
� Utilité› Renseignent sur la position d’une donnée par rapport aux autres données d’une distribution ordonnée.
� Quantiles: valeurs qui partagent une distribution en un certain nombre de parties égales.
� Quartiles
� Quintiles
� Déciles� Centiles… 30
� Séparent la distribution en 4 groupes de même effectifs (à une unité près).› Il existe 3 quartiles qui divisent la distribution en 4 sous-groupes:� 1er quartile (Q1): 25% des données
� Un quart des valeurs sont inférieures à Q1
� 2ème quartile (Q2): 50% des données
� 3ème quartile (Q3): 75% des données� Un quart des valeurs sont supérieures à Q3
31
� Séparent une série statistique en 10 groupes de mêmes effectifs (à une unitéprès).› Il existe 9 déciles qui divisent la distribution en 10 sous-groupes.� 1er décile (D1): 10% des données
� …9ème décile (D9): 90% des données� Interprétations: Au moins 10% des valeurs sont inférieures ou
égales à D1…Au moins 90% des données sont inférieures ou égales à D9...
32
33
Au Laboratoire aujourd’hui
Pour obtenir les mesures de tendance centrale
Analyse – Statistiques descriptives - Effectifs – Option Statistiques
� Deux types
› Apporter des modifications aux valeurs/modalités existantes (Recoder)
› Créer de nouvelles variables à l’aide des variables existantes (Calculer)
36
� Pour tenir compte des valeurs manquantes (NSP, pas de réponse…)
� Pour éliminer les valeurs extrêmes et douteuses (exagérées)
� Pour tenir compte des erreurs humaines (durant la collecte ou la saisie)
� Pour apporter des modifications afin d’adapter les données à vos propres questions de recherche
� Pour réduire le nombre de catégories37
Recodage d’une variable qualitative nominale
Recodage d’une variable quantitative en classes égales
Statistics
valvolfr Valeur du vol ou de la fraude5708
2768
1744,1759
200,0000
100,001,00
350000,00
86,0000
200,0000
628,7500
Valid
Missing
N
Mean
Median
Mode
Minimum
Maximum
25
50
75
Percentiles
ValeurVol_recodée Valeur du vol en 4 catégories
1428 16,8 25,0 25,0
1457 17,2 25,5 50,5
1396 16,5 24,5 75,0
1427 16,8 25,0 100,05708 67,3 100,0
2768 32,7
8476 100,0
1,00 Entre 1 et 86 $2,00 Entre 87 et 200 $
3,00 Entre 201 et 628.75 $
4,00 629 $ et plusTotal
Valid
SystemMissing
Total
Frequency Percent Valid PercentCumulative
Percent
Variable quantitative Continue Variable qualititative ordinale
Recodage d’une variable quantitative en classes inégales
Age du suspect varie de 0 à 60
(Variable continue)
Recode en fonction des groupes d’âge établis par Statistique Canada
(variable ordinale)
25 à 34 ans,
ETC
15 à 24 ans
10 à 14 ans
5 à 9 ans
Moins de 5 ans
0
10
20
30
40
50
60
70
80
Recodage d’une variable quantitative en classes inégales
� Échelle de comportements délinquants varie de 1 à 4 (1.15, 1.2, 2.3, 2.5, etc.)
� Échelle a été créé en additionnant plusieurs indicateurs de type qualitative ordinale.1 – Jamais2 – peu souvent3 – très souvent4 – toujours
� On peut créer des catégories en fonction de ces délimitations : (1) 1 ; (2) 1.01 à 2 ; (3) 2.01 à 3 (4) 3.01 à 4