49
1 Statistiques Organisation du cours : 1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives – Echantillonnage Codage des variables Statistiques descriptives univariées Statistiques descriptives multivariées • Probabilités Probabilités et probabilités conditionnelles Caractéristiques d’un test diagnostique Lois de probabilité 2ième semestre 2003/2004 : Pr. ALBUISSON Moyens pédagogiques Cours et TD Polycopiés : Exercices TD : => à retirer pour le premier semestre à SPI-EAO (Bâtiment D RDC) Cours : ADCN • www.spieao.uhp-nancy.fr/~kohler/ Livres : Livre du Pr. B. LEGRAS

1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

Embed Size (px)

Citation preview

Page 1: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

1

Statistiques

• Organisation du cours :– 1er semestre 2003/2004 : Pr. KOHLER

• Statistiques descriptives– Echantillonnage– Codage des variables– Statistiques descriptives univariées– Statistiques descriptives multivariées

• Probabilités– Probabilités et probabilités conditionnelles– Caractéristiques d’un test diagnostique– Lois de probabilité

– 2ième semestre 2003/2004 : Pr. ALBUISSON

• Moyens pédagogiques– Cours et TD– Polycopiés :

• Exercices TD : => à retirer pour le premier semestre à SPI-EAO (Bâtiment D RDC)

• Cours : ADCN• www.spieao.uhp-nancy.fr/~kohler/

– Livres :• Livre du Pr. B. LEGRAS

Page 2: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

2

Statistiques : Généralités

• Introduction– Statistiques (latin « status » état)

• Ensemble cohérent de données numériques relatives à un groupe d'individus.

– Statistiques démographiques– Statistiques annuelles des

établissements de santé– Statistiques du chômage– Statistiques de santé

» Etat de santé de la population» Activité : Statistiques d’activité

hospitalière (SAE), PMSI– …– Rôle de l’INSEE

– Statistique• Ensemble des méthodes qui

permettent de rassembler et d'analyser les données numériques

• Paramètre tel que moyenne... calculé à partir d'un ensemble de données

Page 3: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

3

Historique

• Dénombrement de populations humaines pour les besoins de la guerre et de l'impôt.

• Véritable début : 18ième siècle : – Arithmétique politique : connaissance d'un état– Première classification des causes de décès– Calcul des probabilités en France (B. Pascal, A. de

Moivre, D. Bernouilli, P. S. de Laplace, K. F. Gauss, S. D. Poisson)

– Statistiques mathématiques modernes 19ième siècle 1853 premier congrès (A. Quetelet, C. Babbage)

• Première moitié du 20ième siècle– Statistiques biologiques et psychologiques

• Biométrie et Psychométrie– 1920 A. Fisher et les plans d'expérience– 1930 Econométrie, Contrôle de qualité industriel– 1940 Recherche opérationnelle

• Deuxième moitié du 20ième siècle– Développement de l'informatique– Test de rang, test « exact »– Analyses multi variées ou multidimensionnelles– Analyse des données– Méthodes bayesiennes

Page 4: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

4

La variabilité en santé

• Variabilité de la mesure– Essayer de mesurer plusieurs(100) fois la taille en

mm d’un individu : vous trouverez des valeurs différentes cependant dans l’absolu un individu a une taille et une seule.

• Variabilité inter individus– Si vous observez des personnes dans la rue vous

constatez qu’elles n’ont pas toutes la même couleur de cheveux.

• Variabilité intra individu– Si vous mesurez la tension artérielle d’un individu à

différents moments de la journée ou au même moment mais plusieurs jours de suite vous obtiendrez des valeurs différentes.

• Du fait de la variabilité, on est dans le domaine de l’incertain. Cette science de l’incertain, c’est le défi qu’a relevé la statistique en s’appuyant sur le concept de probabilité.– Plutôt qu’une seule valeur, la prise en compte de

l’incertain permet de déterminer un intervalle à l’intérieur duquel on a une certaine probabilité de se situer et donc un risque de ne pas y être.

Page 5: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

5

Statistiques et santé

• Description de l'état de santé d'une population– Causes de décès, morbidité

• Évaluation d'un test ou d'un signe– Sémiologie quantitative : spécificité, sensibilité,

valeurs prédictives• Évaluation d’un traitement

– Essai thérapeutique• Recherche de facteurs étiologiques• Économie de la santé• Évaluation de la qualité et contrôle de production• ….

1700 : John Graunt

% d'enfants nés vivants, et morts avant l'âge de 6 ans

MuguetConvulsionsRachitismeAccidents dentaires et versNaissances prématuréesDécès de la première enfanceGros Foie

Etouffement par couvertureVarioleVaricelleRougeoleVers sans convulsionInconnue

13 causes de Décès

Page 6: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

6

Les différentes étapes de toute étude statistique

• La collecte des données– Simple observation– Expérimentation

• c'est-à-dire en provoquant volontairement l'apparition de certains phénomènes contrôlés

• Analyse statistique– Analyse "déductive" ou descriptive

• a pour but de résumer et de présenter les données observées pour que l'on puisse en prendre connaissance facilement : tableaux, graphiques ...

– Analyse "inductive" ou inférence• permet d'étendre ou de généraliser dans

certaines conditions les conclusions obtenues. Cette phase comporte certains risques d'erreur qui peuvent être mesurés en faisant appel à la théorie des probabilités.

• Ces étapes ne sont pas indépendantes. – L'inférence nécessite des conditions

particulières parfois très restrictives. Il en résulte que l'observation et l'expérimentation doivent être organisées de manière à répondre autant que possible à ces conditions.

• Dossiers médicaux / cimetières de données

Page 7: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

7

La collecte des données

• Enquête– Ensemble des opérations qui ont pour but de

collecter de façon organisée des informations relatives à un groupe d'individus ou d'éléments observés dans leur milieu ou leur cadre habituel.

– Les individus (malades...) ou les éléments en question (séjour hospitalier, comprimés...) sont appelés unité de base ou unité statistique ou individu statistique. L'ensemble des unités auquel on s'intéresse est appelé population ou univers ou ensemble statistique

• Lorsque toutes les unités de la population sont observées l'enquête est exhaustive. Elle est encore appelée recensement.

• Lorsqu'au contraire, une partie de la population est observée, l'enquête est dite partielle ou par échantillonnage. Elle est encore appelée sondage. La partie de la population observée constitue l'échantillon.

• Les principaux problèmes qui se posent dans la préparation de l'enquête sont :– la définition de l'unité de base et de la population– la définition des observations à réaliser– le choix d'une méthode de collecte des données– le choix d'une méthode d'échantillonnage– la détermination de la taille de l'échantillon

Page 8: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

8

La définition de l'unité de base et de la population

• Problème complexe• Exemple : recensement de la population humaine

– Normalement basé sur l'étude individuelle de chacun des groupes de personnes qui vivent en commun dans un même logement ou << sous un même toit>>.

– Faut-il dans ce cas partir de la notion de famille ou de la notion de ménage ?

– Comment faut-il considérer les communautés religieuses ou militaires ?

– Comment faut-il traiter le cas des personnes qui, venues de l'extérieur, se trouvent dans le territoire au moment de l'enquête pour une période plus ou moins longue ?

– Où faut-il comptabiliser les personnes qui ne vivent pas constamment au même endroit (étudiants...) ? …

• Exemple : l’étude des malades par l ’intermédiaire de la description des séjours hospitaliers (PMSI)– L ’unité est-elle : Le patient ? La maladie ? Le

séjour ?• Le lecteur de tous rapports, mémoires ou

publications doit s'interroger si des réponses précises à ce genre de questions ne sont pas fournies.

Page 9: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

9

La définition des observations

• Les observations à réaliser doivent être parfaitement définies.– S'il s'agit d'observations qualitatives (résultat

du classement de l’observation dans un groupe), tel que le diagnostic, l'état civil ou la profession, la signification exacte des termes employés devra être précisée de manière non ambiguë : « Qu’est ce qu’une Blonde ? »

– Intérêt des classifications établies avec leurs règles de codage (CIM, CCAM, CIH...)

– S'il s'agit d'observations quantitatives (résultat d’une mesure ou d’un comptage), tel que la glycémie (taux de sucre dans le sang), la pression artérielle, la fréquence cardiaque... non seulement les termes devront être définis mais le mode de détermination des valeurs (comptage, mesure, estimation visuelle), et les unités de mesure devront être précisées ainsi que le domaine de validité des mesures.

– Entre les deux : les observations ordinales : estimation d'un signe subjectif : constipation, douleur.... rang dans une série : nombre d'étoiles du général...

Page 10: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

10

La définition des observations

• Il faut également préciser les circonstances d'observation : date, heure, repos/effort...

• La méthode de collecte des données repose sur un questionnaire.– Comment est-il rempli ?

• Envoi postal; • Enquêteur; • Enquête téléphonique

– Pour éviter les déboires et tester le questionnaire on fait une pré-enquête

• Attention aux "non-réponses » (Données manquantes)

Page 11: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

11

Quelques méthodes d'échantillonnage

• Attention : la nature ne fait pas si bien les choses...– Si l'objet de l'étude est d'évaluer la proportion de

myopes dans la population de Nancy, que penser d'une étude qui ne s'adresserait qu'aux secrétaires ?

• Biais évident : âge souvent jeune, sexe le plus souvent féminin, fonction pouvant affecter la vision

• Echantillonnage aléatoire simple (simple random sampling)

• Echantillonnage stratifié (stratified sampling)– A utiliser quand la population-parent (patients

hospitalisés) est très hétérogène (service hospitalier et décès par exemple) et que l'on souhaite s'assurer que ses différentes composantes seront toutes bien représentées. La stratification peut apporter un gain de précision important par rapport à un échantillonnage aléatoire simple.

• Echantillonnage à deux ou plusieurs niveaux (two-stage sampling, multistage sampling) – Tirage au sort des familles– Puis tirage au sort dans chaque famille de la personne

enquêtée.• Méthode des quotas (quota) largement utilisée dans

les sondages d'opinion.• Toutes les méthodes nécessitent une base

d'échantillonnage

Page 12: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

12

La taille de l'échantillon

• Fixée en valeur absolue ou en valeur relative : fraction de sondage

• La précision dans une enquête dépend :– de la taille de l'échantillon– du caractère plus ou moins homogène ou

hétérogène de la population parent.

• La précision est d'autant meilleure que la taille de l'échantillon est importante et que la population est homogène.– => Pas de recette : pour fixer la taille d'un

échantillon il est nécessaire d'avoir une idée suffisante de la précision souhaitée (risque accepté) et d'autre part du degré d'homogénéité (variabilité) de la population étudiée.

– => Attention : la comparaison brute (de pourcentages par exemple) obtenu sur des échantillons de taille très différente aboutit à comparer des choses de précision très différente.

Page 13: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

13

Au total un échantillon représentatif ?

• Un échantillon est représentatif d’une population si tous les individus de cette population ont la même probabilité (même chance) d’être dans l’échantillon. Si ce n’est pas le cas on a une erreur systématique : un biais.

• Le tirage au sort donne un échantillon représentatif mais il nécessite de disposer d’une base de sondage « listing » de la population

• Exemple– Lors de la fabrication de comprimés, on utilise

une machine avec 6 moules. Si l’on constitue un échantillon en prenant 1 comprimé sur 6, on a un échantillon de comprimés issus du même moule donc non représentatif de la production.

– Si l’on s’intéresse aux chutes en ne prenant que les malades hospitalisés on a un biais de recrutement : les malades les plus graves décédés à leur domicile nous échappent comme les plus légers qui ne sont pas hospitalisés

• La capacité de généraliser les résultats dépend de la représentativité de l’échantillon.

Page 14: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

14

L'expérimentation

• Principes– L'expérimentation ou encore la réalisation

d'essais suppose que l'apparition des faits que l'on désire étudier est volontairement provoquée, dans des conditions qu'on maîtrise au moins partiellement.

– Plus efficace que l'observation– Protocole expérimental en vue d'affirmer la

causalité• But de l'étude• Conditions de l'expérience• Définition des facteurs à étudier

– Sous l'entière dépendance de l'expérimentateur– Qualitatifs (Nature du traitement)

» Modalités définies a priori– Quantitatifs (Dose administrée)

» Niveau : progression arithmétique ou géométrique

• Définition des unités expérimentales– Inclusion– Exclusion

• Définition des observations à étudier– Critère de jugement

• Définition du dispositif expérimental (Plan d'expérience)

Page 15: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

15

Exemples :

• 1)– Dans un hôpital, on a établi un registre au

niveau de l’accueil dont on reproduit ci-dessous certains éléments.

Nom du patient Sexe Date Date Date

de naissance d'entrée de sortie

Dupond Marcelle Masculin 10/02/48 01/03/00 14/03/00

Albert Maurice Masculin 24/06/19 02/03/00 12/03/00

Calvari Emilie Femme 24/11/59 03/03/00 07/03/00

Calvari Emilie Féminin 24/11/59 10/03/00 18/03/00

Dupond Marcel Homme 10/02/48 17/03/00 17/05/00

Dupond Marcel Masculin 10/02/48 25/03/00 28/03/00

A) Les données sont elles correctes ?

B) Comment coder le sexe ?

C) Combien a-t-on d’hospitalisations, de patients ?

D) Comment calculer la durée de séjour ?

E) Quel est le pourcentage de femme ?

• 2)– Peut on utiliser ce registre pour connaître

l’âge moyen des personnes habitant le bassin de population drainé par cet hôpital ?

Page 16: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

16

Données quantitatives

Données ordinales

Données qualitatives

Grande richesse en information

Faible richesse en information

Nature et enregistrement des données

• Types de données– Données quantitatives

• Données discontinues ou discrètes• Données continues

– Données qualitatives• Données binaires• Données nominales

– Données ordinales ou semi quantitatives

Page 17: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

17

Données quantitatives

• Données discontinues ou discrètes :– Donnent lieu à des dénombrements ou

comptages. – Les résultats s'expriment en nombres entiers

non négatifs. – Exemples : Nombre d'enfants dans une famille;

Nombre de désintégrations par minute...

• Données continues– Donnent lieu à des mesures (mensurations).

Elles soulèvent des problèmes de précision et de choix d'unité. Dans le domaine biologique il est illusoire, inutile et même dangereux d'utiliser plus de deux ou trois chiffres pour exprimer les résultats individuels.

– Exemple : Taille, Poids ...– En pratique, dans le cas des mesures, on

effectue en réalité des observations discontinues en raison de la nécessité d'arrondir les données alors que celles-ci sont fondamentalement continues (mise en classe).

• Permettent les calculs arithmétiques (moyenne, écart type...)

Page 18: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

18

Données Qualitatives

• Elles concernent des caractères ou des attributs que chacun des individus peut posséder ou non.

• Codées avec des classes mutuellement exclusives

• Type le plus simple : variable binaire (sexe...)

• Type nominal : plus de deux classes– Problème de la classification utilisée– Exemple : Classification internationale des

maladies– Peut être décomposé en variables binaires

• Couleur des cheveux (brun, blond, autre) décomposée en Brun (oui, non); Blond (oui, non); Autre (oui, non)

• Ne permettent pas les calculs arithmétiques (moyenne…) mais donnent lieu à des dénombrements.

Page 19: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

19

Je ne suis

pas fatigué

Je suis

très fatigué

Données ordinales

• Données qualitatives exprimant des niveaux différents ordonnés. – Exemple intensité d'une cuti (négatif, faiblement

positif, positif, très positif)– Codées (0, +, ++, +++ ou 0, 1, 2 , 3)

• Interprétation parfois délicate des calculs arithmétiques

• Transformation en données quantitatives: utilisation d’échelles analogues visuelles

• Très fréquentes en médecine et biologie

Page 20: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

20

Enregistrement et traitement des données

• Bordereau papier / Saisie informatique directe– Papier : disponibilité, coût initial faible (mais il

faudra faire la saisie)– Informatique : possibilité de contrôle à la source :

vérification intra champ et inter champs, aide au codage.

• Standardisation de la présentation• A partir de l'observation médicale on a les phases

suivantes– Extraction et interprétation des signes et

symptômes : douleur thoracique caractéristique irradiant dans le bras gauche survenant au froid ou à l'effort => ANGOR

– Synthèse : patient présentant une toux, des cors au pied, une élévation des enzymes cardiaques, un angor, un tabagisme, un infarctus du myocarde

• Infarctus du myocarde avec élévation des enzymes cardiaques, angor...

• Chez un fumeur qui tousse et qui a des cors au pied.– Hiérarchisation, Sélection

• Traitement des données– Calculette (en voie de disparition)– Traitement informatique

• Tableurs• Logiciels de statistique (EPIINFO, STATVIEW, SAS,

SPPS ...)

Page 21: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

21

La statistique descriptive

• But : présenter les données pour que l'on puisse en prendre connaissance facilement

• peut concerner :– une variable à la fois : statistique à

une dimension– deux variables à la fois : statistique à

deux dimensions– plus de deux variables à la fois :

statistique multidimensionnelle

• comporte :– les tableaux : distributions de

fréquences– les diagrammes : graphiques– les paramètres statistiques : réduction

des données à quelques valeurs numériques caractéristiques

Page 22: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

22

xi ni fi Ni Fi

x1 172 3 0,015 3 0,015

x2 175 15 0,075 18 0,09

x... n... f...

xp np fp N 1

N=200= p ni 1= 1

p fi

Les distributions de fréquences

• Séries statistiques :– simple énumération ou dénombrement des observations– peut être ordonnée (variable quantitative)– le nombre total d'observations, appelé effectif de

l'échantillon, est noté N• Distributions non groupées

– Lorsque les observations sont nombreuses, une même valeur peut être observée plusieurs fois.

– On utilise xi pour représenter les valeurs différentes, son nombre d’occurrences est noté ni et est appelé fréquence absolue ; p représente le nombre de valeurs différentes que l'on a observé.

– ni/N est appelé fréquence relative.– En cas de variable quantitative, on ordonne les xi et les

fréquences absolues ou relatives peuvent être additionnées de proche en proche de manière à obtenir les fréquences cumulées notées Ni et Fi

Page 23: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

23

Les distributions groupées

• Variables quantitatives– Quand le nombre de valeurs distinctes est élevé, on

condense les tableaux statistiques en groupant les observations en classes. On obtient ainsi les distributions groupées.

– Les classes sont mutuellement exclusives. Leurs valeurs extrêmes sont appelées bornes des classes.

– L'amplitude de la classe encore appelée intervalle ou module de classe correspond à l'écart entre la borne supérieure et la borne inférieure.

– Le point central ou encore point médian est situé à mi chemin entre les bornes.

– L'intervalle de classe est généralement constant, toutefois, on utilise parfois une amplitude variable notamment pour les classes des valeurs extrêmes.

– Dans certains cas la limite inférieure de la première classe ou supérieure de la dernière classe n'est pas précisée. On parle de classes ouvertes. A éviter !...

– En cas de classes d'amplitudes différentes, la densité de fréquence ni/amplitude classei permet de comparer les fréquences d'une classe à l'autre.

• Toutes les distributions relatives à des variables continues doivent être considérées comme des distributions groupées, puisque l'infinité de valeurs admissibles est condensée en un nombre fini de mesures en fonction de la précision de la méthode de mesure utilisée.

Page 24: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

24

Distribution groupée : exemple

Classe Ci ni fi Ni Fi

[140-160[ 150 10 0,05 10 0,05

[160-165[ 162,5 20 0,10 30 0,15

[165-170[ 167,5 30 0,15 60 0,30

[170-175[ 172,5 45 0,225 105 0,525

[175-180[ 177,5 40 0,20 145 0,725

[180-185[ 182,5 35 0,175 180 0,90

[185-190[ 187,5 15 0,075 195 0,975

[190-200[ 195 5 0,025 200 1,0

N=200 1k fi =1

k = nombre de classes

Page 25: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

25

Les graphiques

• Diagrammes sur distributions non cumulées– Diagramme en bâtons

• Distribution non groupée• On trace parallèlement à l'axe des

ordonnées, en regard des xi qui sont portés en abscisse, un segment de longueur proportionnel à ni

– Polygone des fréquences• Ligne brisée joignant les bâtons• fréquences absolues / relatives

– Histogramme• Distribution groupée• composé de rectangles ayant comme

base l'intervalle de classe et comme hauteur la densité de fréquence (ni/i). La surface est proportionnelle à ni.

– Diagramme sectoriel• Variable qualitative• Angle au centre proportionnel à ni (ou fi)

Page 26: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

26

Les graphiques

• Diagrammes sur distributions cumulées– Polygone des fréquences

• sur distribution non groupée = escalier• sur distribution groupée : ligne brisée

– Histogrammes

• Principaux aspects– Symétrie - Aplatissement– Distribution :

• en cloche• en J• en U• à plusieurs bosses• ...

• Autres représentations• Attention : Excel ne fait pas

d’histogramme

Page 27: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

27

Polygone des fréquences

Exemple

Nombre de colonies bactériennes/dm2

1 2 3 4 5 6 7 8 9 10

11 1205

1015202530354045

Nombre de colonies bactériennes/dm2 ni1 52 73 154 255 356 457 328 289 1610 1211 312 1

Page 28: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

28

Histogramme : exemple

Classe ni Densité (*10)[140-160[ 10 5[160-165[ 20 40[165-170[ 30 60[170-175[ 45 90[175-180[ 40 80[180-185[ 35 70[185-190[ 15 30[190-200[ 5 5

140 160 170 180 1900

10

20

3040

50

60

70

80

90

200

Page 29: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

29

Diagramme sectoriel : exemple

GROUPE niA 35B 9O 40AB 16

A

BO

AB

Page 30: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

30

Les paramètres statistiques

• Paramètres de position – Valeurs centrales

• Moyenne arithmétique• Les autres moyennes

– géométrique– harmonique– quadratique

• Médiane• Mode• Médiale

– Les fractiles• Quartiles• Percentiles

• Paramètres de dispersion– Amplitude ou étendue– Ecart interquartiles– Variance, Ecart type– Coefficient de variation

• Paramètre d'aplatissement et de symétrie

Page 31: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

31

• Appelée moyenne notée x– Paramètre central qui concerne bien évidemment uniquement

des variables quantitatives.– Calculable quelque soit la loi qui régit la distribution. – Somme des valeurs (T) divisée par le nombre de mesures

(N). – Suivant la forme de présentation des observations,

différentes formules de calcul peuvent être employées.• Propriétés :

– Centre de gravité de la distribution. – La somme des écarts à la moyenne est nulle. – Affectée par les changements de variable.

• Si y = ax + b; on a : y = ax + b– La moyenne contrairement à la médiane est très sensible aux

valeurs extrêmes. – La moyenne d'un groupe résultant de la fusion d'autres

groupes n'est égale à la moyenne des moyennes que si tous les groupes ont le même effectif.

– Si la distribution de la variable suit une loi normale, la moyenne et la médiane et le mode sont confondus.

– La distribution des moyennes de petits échantillons (N<30) indépendants tirés de la même population suit une loi normale si la distribution de la variable est normale.

– Au delà de 30, la distribution des moyennes suit une loi normale sans condition sur la distribution de la variable.

– La moyenne de l'échantillon est le meilleur estimateur de la moyenne de la population.

Population m (mean) Echantillon x (average)

La moyenne arithmétique :

Page 32: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

32

N = Nombre total de mesures,p = Nombre de valeurs différentes observées, ni = Nombre d'occurrences de chaque valeur observée.fi = pourcentage de la valeur observée ig = nombre de groupes

N nii 1

p

T x ii1

N

ni xi i1

p

N * fixii 1

p

fi = ni

N fi

i =1

p

1

x T

N fix i

i1

p

La moyenne : formules

• Somme des valeurs / Nbre d'observations

Page 33: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

33

• Soit la série statistique correspondant aux tailles de 6 étudiants : 160, 170, 180, 180, 190, 200

N = 6, T = 1080, x =1080/6 = 180

• Soit la distribution suivante

Nombre de colonies bactériennes/dm2 ni ni*xi1 5 52 7 143 15 454 25 1005 35 1756 45 2707 32 2248 28 2249 16 14410 12 12011 3 3312 1 12p = 12 N = 224 T = 1 366

x = 1 366 / 224 = 6,098

La moyenne

• Exemples

Page 34: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

34

Les autres valeurs centrales

• Les autres moyennes– Moyenne géométrique d'une

série de valeur positives est la racine Nième du produit des N valeurs. Elle est toujours inférieure ou égale à la moyenne arithmétique.

– Moyenne harmonique d'une série de valeurs positives est égale à l'inverse de la moyenne des inverses.

– Moyenne quadratique est la racine carré de la moyenne arithmétique des carrés.

Page 35: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

35

Les autres valeurs centrales

• La médiane notée x(tilde) est telle que la moitié des observations lui sont inférieure (ou égale) et la moitié supérieure (ou égale) : xi tel que Fi = 0,5.– Sur les distributions symétriques (normales par

exemple) la médiane est égale à la moyenne et au mode.

– Paramètre peu sensible aux valeurs extrêmes– Sur une distribution non groupée :

• Si N impair, la médiane est l'observation de rang (N+1)/2

• Si N est pair, tout nombre entre xN/2 et xN/2+1 convient. On prend la moyenne (pondérée en cas d'exaequo) entre ces deux valeurs.

– Sur distribution groupée, la classe médiane est celle qui contient la médiane.

• Détermination graphique• En admettant que les observations soient réparties

uniformément dans cette classe, on a :

xi limite inférieure de la classe contenant la médiane

i amplitude de la classe contenant la médiane

fi fréquence relative de la classe contenant la médiane

F ( xi) fréquence relative cumulée de la classe

xi -1

xi

˜ x = xi

i*

0 , 5 F ( xi)

fi

˜

Page 36: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

36

Autres valeurs centrales et Fractiles

• Valeurs centrales - suite– Mode encore appelé valeur dominante

• Correspond à la valeur la plus fréquente. xi correspondant au ni maximum.

• Dans les distributions unimodales symétriques, mode médiane et moyenne sont confondus (distribution normale par exemple)

– Médiale est la valeur telle que la somme des observations qui lui sont inférieures et la somme des observations qui lui sont supérieure sont égale.

• Fractiles– Quartiles

• Q1: xi tel que Fi = 0,25 => 1/4 des valeurs lui sont inférieures, 3/4 lui sont supérieures.

• Q2 = Médiane• Q3 : xi tel que Fi = 0,75 => 3/4 des valeurs lui

sont inférieures, 1/4 lui sont supérieures.– Détermination graphique– interpolation (cf médiane)

– Percentiles• 10ième percentile : xi tel que Fi = 0,10

Page 37: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

37

71 210 268 342 741

Paramètres de dispersion

• Amplitude ou étendue– Ecart entre la valeur de l'observation maximale

et celle de l'observation minimale.– Non définie pour les distributions groupées– On montre que l'écart type est toujours inférieur

ou égal à la moitié de l'amplitude.– Dans les distributions unimodales en cloche

l'écart type est égal au tiers de l'amplitude pour N de l'ordre de 10, au quart de l'amplitude pour N entre 15 et 50, au cinquième pour des effectifs de 50 à 200 et au sixième pour des effectifs de 200 à 1000.

• Ecart interquartiles– Q3 -Q1– Englobe 50% des observations– On utilise parfois l'écart semi-interquartile (Q3-

Q1)/2– Donne naissance à la représentation en

« boxplot »

Page 38: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

38

Paramètres de dispersion : Variance, Écart type

• Variance et écart type– La variance (variance) d'une série ou d'une distribution

de fréquence est la moyenne arithmétique des carrés des écarts à la moyenne.

– C'est par rapport à la moyenne que la somme des carrés des écarts est la plus faible.

– La variance de l'échantillon est notée S2. Ce n'est pas un bon estimateur de la variance de la population notée 2.

– L’estimation de la variance est notée 2.– Le numérateur de la variance est appelé somme des

carrés des écarts et noté SCE.– L'écart type est la racine carré de la variance. On

l'appelle également déviation standard (standard deviation). Il est dans l'unité de la variable.

– Variance et écart type sont indépendants des translations (changement d ’origine) mais pas des multiplications (changement d'unité).

– Si y = a * x + b, on a Sy = |a| * Sx– Pour les distributions en cloche, la variance calculée à

partir des classes est surestimée, certain réalise la correction de Sheppard.

• => Ne pas utiliser de distribution groupée…• Coefficient de variation (cv)

– C’est le rapport de l’écart type divisé par la moyenne• Écart type de la moyenne

– Cf distribution des moyennes de plusieurs échantillons

^

Page 39: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

39

U x i2

i 1

N

n i x i2

i1

p

S SCEN

ˆ SCEN 1

S N 1N * ˆ ˆ N

N 1 * S

N nii1

p

T x ii1

N

ni xi i1

p

N * fixii 1

p

CV ˆ x

SCE (ix

i1

N

x )2 U 2

TN

Variance et écart type : calcul

• Attention aux notations

Page 40: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

40

Paramètres de dispersion :

Coefficient de variation• Le coefficient de variation CV

(Coefficient of variation, percentage standard deviation) – CV est le rapport écart type

divisé par la moyenne.– CV est un nombre pur, sans

unités.– CV est totalement indépendant

des unités.– Le CV permet de comparer la

variabilité de distributions de variables qui ne sont pas dans les mêmes unités.

Page 41: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

41

Paramètres d'aplatissement et de symétrie

• Moments centrés d'ordre k– moyenne arithmétique des écarts à la moyenne

élevée à la puissance k.

– si k pair => paramètre de dispersion

– si k impair => paramètre de symétrie

• Coefficient de Pearson et de Fisher– b1 pour caractériser la symétrie de la courbe; b2

pour caractériser l'aplatissement

– b1 = M32 / M2

3 : est voisin de 0 si la distribution est symétrique

– b2 = M4 / M22 : est voisin de 3 si la distribution suit

une loi normale (plus aplatie qu'elle si b2 < 3)

– cf Loi Normale

• Skewness et kurtosis

Page 42: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

42

Statistique descriptive à 2 dimensions

• Objectif : mettre en évidence les relations qui existent entre deux séries d'observations.

• Situations :– Nature des variables : les deux

variables peuvent être quantitatives, qualitatives ou l'une quantitative et l'autre qualitative.

– Séries appariées : même variable mesurée dans deux circonstances

• Avant - Après traitement• Cas - Témoins on apparie un témoin

dépourvu de la maladie que l'on veut étudier sur différents points que l'on sait lier au phénomène étudié (par exemple pour une étude de la mortalité on apparie sur âge, sexe, ...)

– Séries non appariées• Deux variables mesurées chez le même

individu par exemple poids et taille; poids et couleur des yeux...

Page 43: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

43

Poids Taille70 17080 18065 16575 17590 18273 17060 16268 16583 180

... ...

5560657075808590

160 165 170 175 180 185Taille

Poids

PoidsTaille 60 65 68 70 73 75 80 83 90 Tot.162 1 1165 1 1 2170 1 1 2175 1 1180 1 1 2182 1 1Tot. 1 1 1 1 1 1 1 1 1 9

Tableaux statistiques à deux dimensions et

représentation graphique• Séries• Distribution de fréquence• Table de contingence

Page 44: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

44

Cheveux

Yeux Blonds Bruns Autres Tot. (Li)

Clairs 50 20 30 100

Foncés 60 80 60 200

Tot. (Cj) 110 100 90 300

300 = Nombre total de mesures

100 = Nombre d'individus ayant les yeux clairs

110 = Nombre d'individus ayant les cheveux blonds

50 / 300 = % d'individus ayant les cheveux blonds et les yeux clairs

50 / 110 = % d'individus parmi les blonds ayant les yeux clairs

50 / 100 = % d'individus parmi les yeux clairs ayant les cheveux blonds

Fréquences relatives

• Nombre de mesure totale N

• Total de chaque ligne = Li

• Total de chaque colonne = Ci

• Effectif d'une cas = nij

• Fréquences relatives:– nij / Li

– nij / Cj

– nij / N

– Li / N

– Cj / N

Page 45: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

45

Cov (x,y) =

N

i = 1

N

x * y -i i N

T * Tx y

i = 1

N

x * y i i

= Txy = somme des produits

• sert au calcul du coefficient de corrélation r.

Covariance

– Variable quantitative– cov (x,y) = moyenne des produits des

écarts à la moyenne. 1/N * 1N(xi-x)*(yi-y)

pour i = 1 à N– si x' = ax+b et y'=cy + d,

on a Cov(x'y') = ac Cov (x,y)– toujours inférieure ou égale au produit des

écart types– positive = "nuage" croissant– négative = "nuage" décroissant

• calcul :

Page 46: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

46

Quelques indicateurs statistiques classiques des

établissements de santé• La SAE

– Enquête annuelle déclarative établie par tous les établissements français

– Décrit essentiellement les moyens– Décrit partiellement l’activité, plus particulièrement

certaines activités soumises à autorisation (IVG,…)• Quelques difficultés

– Combien de lits équipent mon établissement ?• Lits autorisés• Lits installés• Lits ouverts à une date donnée• Lits ouverts en moyenne sur l’année

– Combien d’entrées entre le 1er janvier et le 31 décembre inclus ? (4)

– Combien de sorties dans la même période ? (5)– Combien de malades présents dans la période ? (6)– Combien de journées ?

• Des séjours des malades entrés dans la période (80)• Des parties de séjours des malades présents dans la

période (73)• Des malades sortis dans la période (72)

1er janvier 31 décembre

2 310

30

20

164

1 6

Page 47: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

47

Quelques indicateurs statistiques classiques des

établissements de santé

• La durée moyenne de séjour pour une période donnée

– SAE• Le nombre de journées est celui des

malades présents auquel on ajoute le nombre de décès (hospitalisation complète)

• Le nombre de malades est le nombre d’entrées (somme des entrées directes et des entrées par mutation)

• DMS = 73/4 = 18,25 jours (si pas de décès)

– PMSI• Le nombre de journées est celui des

malades sortis pendant la période• Le nombre de malades est le nombre de

malades sortis• DMS = 72/5 = 14,4 jours

maladesdeNombre

journéesdeNombreDMS

Page 48: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

48

Quelques indicateurs statistiques classiques des

établissements de santé

• Taux d’occupation des lits– Le taux d’occupation des lits

mesure l’utilisation des moyens mis à la disposition d’un établissement

– Il existe une norme fixée au niveau national 85% en médecine et en chirurgie, 80% en obstétrique

périodeladeduréedécembreauinstalléslitsdeNombre

présentsmaladesdesjournéesdeNombreTO

*31

Page 49: 1 Statistiques Organisation du cours : –1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives –Echantillonnage –Codage des variables –Statistiques

49

Quelques indicateurs statistiques classiques des établissements de

santé

• Comment compter le personnel ?– On différencie

• Le nombre de personnes dans les différentes catégories professionnelles :

– Employés, médecins, kinésithérapeutes….• Le nombre d’équivalents temps plein

(ETP) pour pouvoir tenir compte du travail à temps partiel. Ce nombre représente la « force » de travail.

• Exemple :– Dans un CHU, on a 150 médecins

hospitalo-universitaires qui travaillent à mi-temps à l’hôpital, 200 praticiens qui travaillent à temps plein et 50 praticiens qui travaillent à 80%. Quel est le nombre d’équivalents temps plein de ce CHU ?ETP = 150 * 0,5 + 200 + 50 * 0,8

= 75 + 200 + 40= 315