14
1 Retour sur le cours 3 Présentation de tableaux et graphiques Les mesures de tendance centrale Moyenne Mode (et classe modale) Médiane Les mesures de position Quartiles Déciles Mesures tendance centrale et histogramme La fonction «recoder» 2 Types de variable Types de graphique Particularités Qualitative Nominale Ordinale Diagramme à rectangles verticaux ou horizontaux Diagramme circulaire ou à secteurs Tableau de fréquence/distribution Permet de comparer plusieurs groupes. Donne une bonne représentation visuelle de la distribution de la variable. Permet de comparer plusieurs groupes. Donne une bonne représentation des proportions d’un tout. À éviter lorsque la variable a plus de 7 modalités. Donne un aperçu complet de la distribution de la variable, de ses % et de ses % cumulés. Moins visuel. Quantitative discrète Diagramme en bâtons Représentation visuelle facile des valeurs de la variable. Quantitative continue Histogramme Polygone de fréquences Représentation visuelle facile des valeurs de la variable. Rend compte de la continuité de la variable. Permet d’identifier le modèle mathématique qui s’applique à la distribution. 3

Présentation de tableaux et graphiques Les mesures de ...€¦ · Graphique XX : Répartition du nombre de victimes selon la gravité de la blessure subie lors d'un vol qualifié

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Présentation de tableaux et graphiques Les mesures de ...€¦ · Graphique XX : Répartition du nombre de victimes selon la gravité de la blessure subie lors d'un vol qualifié

1

� Retour sur le cours 3� Présentation de tableaux et graphiques� Les mesures de tendance centrale› Moyenne› Mode (et classe modale)› Médiane

� Les mesures de position› Quartiles› Déciles

� Mesures tendance centrale et histogramme� La fonction «recoder»

2

Types de variable Types de graphique Particularités

Qualitative•Nominale•Ordinale

Diagramme à rectangles verticaux ou horizontaux

Diagramme circulaire ou àsecteurs

Tableau de fréquence/distribution

•Permet de comparer plusieurs groupes.•Donne une bonne représentation visuelle de la distribution de la variable.

•Permet de comparer plusieurs groupes.•Donne une bonne représentation des proportions d’un tout.•À éviter lorsque la variable a plus de 7 modalités.

•Donne un aperçu complet de la distribution de la variable, de ses % et de ses % cumulés.•Moins visuel.

Quantitative discrète Diagramme en bâtons • Représentation visuelle facile des valeurs de la variable.

Quantitative continue Histogramme

Polygone de fréquences

•Représentation visuelle facile des valeurs de la variable.

•Rend compte de la continuité de la variable.•Permet d’identifier le modèle mathématique qui s’applique à la distribution. 3

Page 2: Présentation de tableaux et graphiques Les mesures de ...€¦ · Graphique XX : Répartition du nombre de victimes selon la gravité de la blessure subie lors d'un vol qualifié

Tableau de fréquence/distribution

Tableau 1. Répartition du nombre d’armes personnelles enregistrées parmi les agents des douanes du canada, 2008.

Nb d’armes enregistrées

Fréquence %

1 359 42.6%

2 297 35.2%

3 et plus 187 22.2%

Total 843 100%

Source: Données fictives

4

5

Graphique XX : Répartition du nombre de victimes selon la gravité de la

blessure subie lors d'un vol qualifié

0

1000

2000

3000

4000

5000

6000

7000

Aucune Physique légère Physique grave

Gravité de la blessure

Nom

bre

de

vic

tim

es

6

Graphique XX : Répartition du nombre de victimes selon la gravité de la

blessure subie lors d'un vol qualifié

0 1000 2000 3000 4000 5000 6000 7000

Aucune

Physique légère

Physique grave

Gra

vit

é d

es

ble

ss

ure

s

Nombre de victimes

Page 3: Présentation de tableaux et graphiques Les mesures de ...€¦ · Graphique XX : Répartition du nombre de victimes selon la gravité de la blessure subie lors d'un vol qualifié

� Diagramme circulaire

7

Source des données…

� Variable quantitative discrète

� Le diagramme à bâtons

8

Répartition des jeunes en Centre jeunesse

selon le nombre d'amis délinquants

0

5

10

15

20

25

30

35

40

0 1 2 3 4 5 6

Nombre d'amis délinquants

Po

urc

en

tag

e d

es

po

nd

an

ts (

%)

� Variable quantitative continue

� L’histogramme ou le polygone de fréquence

9

Page 4: Présentation de tableaux et graphiques Les mesures de ...€¦ · Graphique XX : Répartition du nombre de victimes selon la gravité de la blessure subie lors d'un vol qualifié

La statistique descriptives : Les analyses univariées

Le ¾ de la population carcérale au Québec est constituée de détenus de moins de 35 ans. Le ¾ de la population carcérale au Québec est constituée de détenus de moins de 35 ans.

11

L’analyse exploratoire des données ou les statistiques descriptives

� Elle constitue l’étape préliminaire à toute analyse statistique, même la plus sophistiquée

� Elle donne une idée générale de la nature des variables

� Elle aide à orienter les analyses subséquentes, et à faire des choix judicieux

� On s’attarde habituellement à trois aspects:

� les mesures de tendance centrale

� les mesures de dispersion

� la distribution des résultats (dans le cas des variables continues)

Page 5: Présentation de tableaux et graphiques Les mesures de ...€¦ · Graphique XX : Répartition du nombre de victimes selon la gravité de la blessure subie lors d'un vol qualifié

Les mesures de tendance centrale

� Elle est une mesure qui indique où se trouve la majeure partie des données ou scores d’une distribution.

� Les mesures de tendance centrale sert à représenter le score typique d’une distribution

� Elle est un effort de synthèse: représenter un ensemble d’informations sur la base d’une seule

� Il en existe principalement 3 types, qui sont fonction de l’échelle de mesure des variables : � mode, moyenne et médiane

14

Types d’armes à feu Effectifs

Armes de poing 67

Armes de chasse 86

Arme d’assaut 45

15

� Classe modale: Classe où l’on retrouve le plus de cas.

› Le point milieu de la classe est un bon approximatif du mode.

Nombre d’arrestation

Effectifs %

Aucun 17 14,0de 1 à 3 61 50,4

de 4 à 6 24 19,8de 7 à 9 17 14,09 et plus 2 1,7

Interprétation:La majorité des criminels a été arrêtée de 1 à 3 fois … mais attention à« majorité » ou à « la plupart »… le plus souvent c’est incorrect, préférez la catégorie le plus souvent représentée, etc…

Page 6: Présentation de tableaux et graphiques Les mesures de ...€¦ · Graphique XX : Répartition du nombre de victimes selon la gravité de la blessure subie lors d'un vol qualifié

� Avantages

› Il s’applique aux variables de tous les niveaux de mesure

› Il est le seul paramètre de mesure de tendance centrale pour les données nominales

� Inconvénients

› Moins utilisé car très sommaire

› Il peut être difficile à interpréter� Il peut être trompeur

� Il peut y en avoir plusieurs

16

La Moyenne

� La somme des données divisée par leur nombre.

� Se calcule sur:› Des données brutes

› Les effectifs d’un tableau de distribution

› Les pourcentages d’un tableau de distribution

› Des données pondérées

17

La Moyenne

� Données brutes

18

Exemple

Distance en km entre la résidence du tueur en série Clifford Olson et les sites de rencontre avec ses victimes.

(0.5; 0.5; 7; 8; 13; 18; 3; 4.5; 8; 10; 2)

N=11

74,5/11= 6,8km

Page 7: Présentation de tableaux et graphiques Les mesures de ...€¦ · Graphique XX : Répartition du nombre de victimes selon la gravité de la blessure subie lors d'un vol qualifié

La Moyenne

� Effectifs d’un tableau de distribution

19

Valeur Effectif Valeur x effectif

0,5 2 1

2 1 2

3 1 3

4,5 1 4.5

7 1 7

8 2 16

10 1 10

13 1 13

18 1 18

Total 11 74,574,5/11= 6,8Km

La Moyenne

� Avantages› Simplicité du calcul› Bon estimateur pour faire de l’inférence sur la population

� Inconvénients› Juste pour les variables quantitatives› Nécessité de connaître toutes les valeurs que peut prendre la variable (donc ne s’applique pas lorsqu’il y a des classes ouvertes)› Est facilement affectées par les valeurs extrêmes

20

Comment la moyenne est affectée par les valeurs extrême : un exemple

Distribution des revenus criminels chez les 450 prisonniers

0

5

10

15

20

25

30

35

010

0030

00500

070

0090

00110

00130

0015

000

1700

019

00021

00023

000250

0027

000

2900

031

00033

000350

00370

0039

000

4100

043

00045

000470

00490

0051

000

5300

055

00057

000

Revenu criminel (en $)

No

mb

re d

e p

ris

on

nie

rs

Moyenne des revenus criminels : 29 000 $

Page 8: Présentation de tableaux et graphiques Les mesures de ...€¦ · Graphique XX : Répartition du nombre de victimes selon la gravité de la blessure subie lors d'un vol qualifié

Comment la moyenne est affectée par les valeurs extrême : un exemple

Moyenne des revenus criminels avant : 29 000 $

Moyenne des revenus criminels après : 51 000 $

Distribution des revenus criminel chez les 451 prisonniers

0

5

10

15

20

25

30

35

050

00

1100

0

1700

0

2300

0

2900

0

3500

0

4100

0

4700

0

5300

0

5900

0

6500

0

7100

0

7700

0

8300

0

8900

0

9500

0

1010

00

Revenu Criminel ($)

No

mb

re d

e p

ris

on

nie

rs

� La médiane correspond à l'observation du milieu, c'est-à-dire la valeur de part et d'autre de laquelle se situe la moitié des observations.

� Valeur qui coupe la distribution en 2 parties égales : 50 % à gauche et 50 % à droite

�Pour la mesurer, on établit la liste des observations individuelles par ordre croissant ou décroissant.

La médiane

On demande à 7 criminels de nous dire combien de crimes ils ont commis.

Réponses : 6, 5, 4, 2, 0, 3, 4

La médiane est la données centrale de la série

On ordonne en ordre croissant les réponses

0, 2, 3, 4, 4, 5, 6,

Médiane = 4

› Interprétations:

50 % des criminels ont commis 4 crimes ou moins…ou 50% des criminels ont commis 4 crimes ou plus.

24

Page 9: Présentation de tableaux et graphiques Les mesures de ...€¦ · Graphique XX : Répartition du nombre de victimes selon la gravité de la blessure subie lors d'un vol qualifié

La Médiane

Aimez-vous la façon dont vous avez été traité par le système pénal?1- Aucunement2- Un peu 3- Moyennement4- Beaucoup5-Énormément

Réponse des 15 participants en ordre croissant1, 2, 2, 2, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 5

7 avant 7 après

La médiane sur une variable ordinale

Interprétation : Au moins 50 % des …. estiment avoir beaucoup ou énormément aimé la façon dont ils ont été traité par le système pénal.

La Médiane

� Avantages

› Elle s’applique aux variables ordinales et quantitatives

› Elles n’est pas influencée par les valeurs extrêmes

› Elle est un bon substitut de la moyenne

� Désavantages

› Ne s’applique pas pour les variables nominales

26

Le choix de la mesure de tendance centrale

1 – MODE

2 – MÉDIANE

3 – MOYENNE

Continue

1 – MODE

2 – MÉDIANE

3 – MOYENNE

Discrète

Quantitative

1 – MODE

2 – MÉDIANEOrdinale

1 – MODENominale

Qualitative

Page 10: Présentation de tableaux et graphiques Les mesures de ...€¦ · Graphique XX : Répartition du nombre de victimes selon la gravité de la blessure subie lors d'un vol qualifié

� La symétrie› Mode = médiane = moyenne› Moyenne est le meilleur indicateurde tendance centrale

� L’asymétrie› Positive: mode < médiane < moyenne

� Concentration de faibles valeurs� Médiane est le meilleur indicateur de tendance centrale

› Négative: mode > médiane > moyenne� Concentration de fortes valeurs� Médiane est le meilleur indicateur de tendance centrale

Moyenne

D

Moyenne

C

Moyenne

A

Moyenne Mode (et classe modale)

Médiane

Échelle d’intervalleÉchelle de rapport

Échelle d’intervalleÉchelle de rapportÉchelle ordinaleÉchelle nominale

Échelle d’intervalleÉchelle de rapportÉchelle ordinale

Dépend de toutes les données et de leur nombre.

Dépend de la fréquence des modalités/valeurs.

Dépend du nombre de données et de leur rang.

La moyenne est unique Il peut y avoir plus d’un mode

La médiane est unique

Idéale lorsque la distribution est relativement symétrique et unimodale.

Il ne fait sens que si la fréquence du mode est nettement supérieure àcelle des autres valeurs ou modalités.

Utile dans les cas de distribution très asymétrique. Elle est un bon complément à la moyenne.

Dans une distribution normale, la moyenne, le mode et la médiane sont similaires.29

� Utilité› Renseignent sur la position d’une donnée par rapport aux autres données d’une distribution ordonnée.

� Quantiles: valeurs qui partagent une distribution en un certain nombre de parties égales.

� Quartiles

� Quintiles

� Déciles� Centiles… 30

Page 11: Présentation de tableaux et graphiques Les mesures de ...€¦ · Graphique XX : Répartition du nombre de victimes selon la gravité de la blessure subie lors d'un vol qualifié

� Séparent la distribution en 4 groupes de même effectifs (à une unité près).› Il existe 3 quartiles qui divisent la distribution en 4 sous-groupes:� 1er quartile (Q1): 25% des données

� Un quart des valeurs sont inférieures à Q1

� 2ème quartile (Q2): 50% des données

� 3ème quartile (Q3): 75% des données� Un quart des valeurs sont supérieures à Q3

31

� Séparent une série statistique en 10 groupes de mêmes effectifs (à une unitéprès).› Il existe 9 déciles qui divisent la distribution en 10 sous-groupes.� 1er décile (D1): 10% des données

� …9ème décile (D9): 90% des données� Interprétations: Au moins 10% des valeurs sont inférieures ou

égales à D1…Au moins 90% des données sont inférieures ou égales à D9...

32

33

Page 12: Présentation de tableaux et graphiques Les mesures de ...€¦ · Graphique XX : Répartition du nombre de victimes selon la gravité de la blessure subie lors d'un vol qualifié

Au Laboratoire aujourd’hui

Pour obtenir les mesures de tendance centrale

Analyse – Statistiques descriptives - Effectifs – Option Statistiques

� Deux types

› Apporter des modifications aux valeurs/modalités existantes (Recoder)

› Créer de nouvelles variables à l’aide des variables existantes (Calculer)

36

Page 13: Présentation de tableaux et graphiques Les mesures de ...€¦ · Graphique XX : Répartition du nombre de victimes selon la gravité de la blessure subie lors d'un vol qualifié

� Pour tenir compte des valeurs manquantes (NSP, pas de réponse…)

� Pour éliminer les valeurs extrêmes et douteuses (exagérées)

� Pour tenir compte des erreurs humaines (durant la collecte ou la saisie)

� Pour apporter des modifications afin d’adapter les données à vos propres questions de recherche

� Pour réduire le nombre de catégories37

Recodage d’une variable qualitative nominale

Recodage d’une variable quantitative en classes égales

Statistics

valvolfr Valeur du vol ou de la fraude5708

2768

1744,1759

200,0000

100,001,00

350000,00

86,0000

200,0000

628,7500

Valid

Missing

N

Mean

Median

Mode

Minimum

Maximum

25

50

75

Percentiles

ValeurVol_recodée Valeur du vol en 4 catégories

1428 16,8 25,0 25,0

1457 17,2 25,5 50,5

1396 16,5 24,5 75,0

1427 16,8 25,0 100,05708 67,3 100,0

2768 32,7

8476 100,0

1,00 Entre 1 et 86 $2,00 Entre 87 et 200 $

3,00 Entre 201 et 628.75 $

4,00 629 $ et plusTotal

Valid

SystemMissing

Total

Frequency Percent Valid PercentCumulative

Percent

Variable quantitative Continue Variable qualititative ordinale

Page 14: Présentation de tableaux et graphiques Les mesures de ...€¦ · Graphique XX : Répartition du nombre de victimes selon la gravité de la blessure subie lors d'un vol qualifié

Recodage d’une variable quantitative en classes inégales

Age du suspect varie de 0 à 60

(Variable continue)

Recode en fonction des groupes d’âge établis par Statistique Canada

(variable ordinale)

25 à 34 ans,

ETC

15 à 24 ans

10 à 14 ans

5 à 9 ans

Moins de 5 ans

0

10

20

30

40

50

60

70

80

Recodage d’une variable quantitative en classes inégales

� Échelle de comportements délinquants varie de 1 à 4 (1.15, 1.2, 2.3, 2.5, etc.)

� Échelle a été créé en additionnant plusieurs indicateurs de type qualitative ordinale.1 – Jamais2 – peu souvent3 – très souvent4 – toujours

� On peut créer des catégories en fonction de ces délimitations : (1) 1 ; (2) 1.01 à 2 ; (3) 2.01 à 3 (4) 3.01 à 4