112
Statistiques descriptives F. Richard 1 1 Institut Pprime - UPR-3346 CNRS epartement Fluides, Thermique, Combustion France Institut des Risques Industriels Assurantiels et Financiers ”IRIAF” F. Richard Statistiques descriptives 1

Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

  • Upload
    others

  • View
    8

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Statistiques descriptives

F. Richard1

1Institut Pprime - UPR-3346 CNRSDepartement Fluides, Thermique, Combustion

France

Institut des Risques Industriels Assurantiels et Financiers

”IRIAF”

F. Richard Statistiques descriptives 1

Page 2: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Etapes d’une etude de statististique descriptive

1 Recolter les donnees

⇒ tableau des donnees brutes

2 Organiser les donnees

⇒ tableau des frequences

3 Resumer les donnees

⇒ graphiques

⇒ indicateurs numeriques

4 Interpreter les donnees

F. Richard Statistiques descriptives 2

Page 3: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Recolter les donnees

Extraction via une base de donnees

Donnees issues d’un calcul

Sondage

...

Exemple :

Soit une population d’individus de taille N et les variables

statistiques suivantes associees a chaque individu

Nombre d’enfants

Age

Mention au bac

Couleur des yeux

F. Richard Statistiques descriptives 3

Page 4: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Recolter les donnees

Tableau des donnees brutes

n◦ individu nbre enfants age mention coul. yeux

1 0 21 passable bleu

2 1 17 AB marron

3 1 10 B marron

4 2 18 AB vert

5 1 20 passable bleu

6 2 22 passable marron

7 2 16 AB bleu

8 2 28 AB marron

9 3 25 TB marron

10 2 19 B vert

F. Richard Statistiques descriptives 4

Page 5: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Recolter les donnees

Types de variable statistique

Qualitative

- Nominale : couleur des yeux (marron, bleu ...)

- Ordinale : mention au bac (AB, B, TB)

Quantitative

- Discrete : 1 partie des entiers (nbre d’enfants)

- Continue : 1 partie des reels (temperature)

Nombre d’enfants : variable discrete

Age : variable continue

Mention : variable ordinale

Couleur yeux : variable nominale

F. Richard Statistiques descriptives 5

Page 6: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Organiser les donnees

Definitions

Modalites

Differentes valeurs que peut prendre la variable statistique

Frequence

Popularite des differentes modalites

Frequence absolue (fa) ou Effectif (ni) de la modalite i

L’effectif de la modalite i est le nbre d’individus ayant cette

modalite

Frequence relative (fr )

fr =niN , N : taille de la population

Frequence cumulee (fc)

La frequence cumulee a la modalite i est la somme des

frequences relatives anterieures a fi (fi−1 + fi−2 + ...) + fi

F. Richard Statistiques descriptives 6

Page 7: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Organiser les donnees

Tableau des frequences

Le tableau des frequences ne traite qu’1 variable

statistique a la fois ⇒ analyse ”univariee”

Nombre d’enfants

modalites ni (fa) fr fr (%) fc0 1 0.1 10 0.1

1 3 0.3 30 0.4

2 5 0.5 50 0.9

3 1 0.1 10 1∑

10 1 100

ord

recro

issa

nt

Interpretations : 50% des individus ont 2 enfants,...

F. Richard Statistiques descriptives 7

Page 8: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Organiser les donnees

Age

mod . ni fr fc10 1 0.1 0.1

11 0 0 0

12 0 0 0

13 0 0 0

14 0 0 0

15 0 0 0

16 1 0.1 0.2

17 1 0.1 0.3

18 1 0.1 0.4

19 1 0.1 0.5

20 1 0.1 0.6

Age

mod . ni fr fc21 1 0.1 0.7

22 1 0.1 0.8

23 0 0 0

24 0 0 0

25 1 0.1 0.9

26 0 0 0

27 0 0 0

28 1 0.1 1∑

10 1 100

Interpretation

des donnees ?!

Trop de modalites : difficile a interpreter

⇒ Construction de classes modales

F. Richard Statistiques descriptives 8

Page 9: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Organiser les donnees

Definitions

Etendue des valeurs (E)

E = Xmax − Xmin

Nombre de classes (k) : formule de Sturges

k = 1+10

3log10 N avec 6 ≤ k ≤ 12

Amplitude de classe moyenne (A)

A =E

k

F. Richard Statistiques descriptives 9

Page 10: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Organiser les donnees

Age

classe mod . ni fr fc[10; 14[ 1 0.1 0.1

[14; 18[ 2 0.2 0.3

[18; 22[ 4 0.4 0.7

[22; 26[ 2 0.2 0.9

[26; 30[ 1 0.1 1∑

10 1 100

Interpretations : 70% des individus ont moins de 22 ans,...

Dans quel cas construire des classes ?

⇒ Quand il y a trop de modalites

Dans quels cas peut il y avoir trop de modalites

⇒ Variable statistique continue

⇒ Variable statistique discrete, trop de modalites

F. Richard Statistiques descriptives 10

Page 11: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Organiser les donnees

Mention bac

modalites ni fr fcpassable 3 0.3 0.3

AB 4 0.4 0.7

B 2 0.2 0.9

TB 1 0.1 1∑

10 1 100

Couleur des yeux

modalites ni fr fcBleus 3 0.3 0.3

Marrons 5 0.5 0.8

Verts 2 0.2 1∑

10 1 100

Interpretations :

40% des individus ont eu la mention AB, ...

30% des individus ont les yeux bleus, ...

F. Richard Statistiques descriptives 11

Page 12: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Resumer les donnees : graphiques

”Les variables qualitatives ordinales et quantitatives peuvent

etre resumees par des graphiques”

Diagramme batons

⇒ Variables ordinales

⇒ Variables discretes (sans classes modales)

Histogramme

⇒ Variables discretes (classes modales)

⇒ Variables continues

Objectif : donner une image de la distribution statistique

(distribution des donnees)

F. Richard Statistiques descriptives 12

Page 13: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Resumer les donnees : graphiques

0.1

0.2

0.3

0.4

0.5

0 1 2 3

Nombre d’enfants

Fr

0.1

0.2

0.3

0.4

0.5

p AB B TB

Mention bac

Fr

0.2

0.4

0.6

0.8

1

0 1 2 3

Nombre d’enfants

Fc

0.2

0.4

0.6

0.8

1

p AB B TB

Fc

Mention bac

Diagramme batons

Diagramme des

frequences cumulees

F. Richard Statistiques descriptives 13

Page 14: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Resumer les donnees : graphiques

0.1

0.2

0.3

0.4

0.5

12 16 20 24

Age

Fr

Histogramme

Polygonne des frequences

0.2

0.4

0.6

0.8

1

Fc

28

0.5F(20)=0.5

Ci =ai−1 + ai

2

hi =ni

Ai

Ci : centre de classe

hi : hauteur de classe

Pour des intervalles de classe non constants, on remplace

l’effectif par la hauteur de classe en ordonnee

F. Richard Statistiques descriptives 14

Page 15: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Resumer les donnees : Indicateurs numeriques

Indicateurs de tendance centrale

- Moyennes

- Mode

- Mediane

Indicateurs de position

- Quantiles

Indicateurs de dispersion

- Etendue

- Ecart interquartile

- Ecart absolu moyen

- Ecart type

Indicateurs de forme

- Asymetrie

- Aplatissement

F. Richard Statistiques descriptives 15

Page 16: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de tendance centrale : Les moyennes

Moyenne aritmetique

”La moyenne arithmetique d’une variable statistique

quantitative (X ) est egale a la somme des valeurs prises par

cette variable divisee par le nombre d’observations”

x =1

N

n∑

i=1

xi (moyenne simple), N =n∑

i=1

ni

Si une valeur xi de X est observee plusieurs fois, nous

calculons une moyenne arithmetique ponderee

x =1

N

n∑

i=1

nixi (variable statistique discrete)

F. Richard Statistiques descriptives 16

Page 17: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de tendance centrale : Les moyennes

Moyenne aritmetique

Pour 1 variable continue, on fait l’hypothese que les

valeurs sont reparties uniformement a l’interieur de

chaque classe

x =1

N

n∑

i=1

nici ci : centre de la classe

Remarque :

x = 3

1 2 3 4 5 6 7 8 9 10

x = 4

1 2 3 4 5 6 7 8 9 10

”La moyenne arithmetique est affectee par les valeurs

extremes”

F. Richard Statistiques descriptives 17

Page 18: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de tendance centrale : Les moyennes

Moyenne aritmetique

Proprietes :

La somme algebrique des ecarts d’une variable statistique

a sa moyenne est nulle

n∑

i=1

(xi −x) = 0

n∑

i=1

ni(xi−x) = 0

Lorsque l’on fait subir a la variable statistique un

changement d’origine et d’echelle (transformation lineaire),

sa moyenne subit la meme transformation

y = ax + b ⇒ y = ax + b

F. Richard Statistiques descriptives 18

Page 19: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de tendance centrale : Les moyennes

Moyenne aritmetique

Soit p 1 population de taille n partagee en 2 sous

populations p1 et p2 de tailles respectives n1 et n2. Soit X

1 variable stat. definie sur p, on peut exprimer sa moyenne

x en fonction des moy. x1 sur p1 et x2 sur p2

x =x1 + x2

2x =

1

N

n∑

i=1

nixi

Generalisation de la notion de moyenne :

”Au sens statistique, la moyenne d’une population est la valeur

unique que devrait avoir tous les individus de la population pour

que le total reste inchange”

F. Richard Statistiques descriptives 19

Page 20: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de tendance centrale : Les moyennes

”Total” : ∗ des valeurs ⇒ moy. geometrique

”Total” : + des valeurs ⇒ moy. arithmetique

”Total” : + des 1/valeurs ⇒ moy. harmonique

Moyenne geometrique

G = n

Πni=1xi (moyenne simple)

G = n

Πni=1x

ni

i(moyenne ponderee)

Exemple :

Supposons que pendant 10 ans, les salaires aient ete ∗ par 2

et que pendant la decenie suivante, ils aient ete multiplies par

4. Par combien les salaires ont ete multiplie en moyenne sur

les 20 ans ?

F. Richard Statistiques descriptives 20

Page 21: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de tendance centrale : Les moyennes

Moyenne geometrique

x =2 + 4

2= 3 G =

2√

2 ∗ 4 = 2.83

Proprietes :

La moyenne geometrique du produit xy est egale au

produit des moyennes geometriques de x et de y

zi = xi .yi ⇒ G(zi) = G(xi)G(yi)

La moyenne geometrique du quotient de x et y est egale

au quotient des moyennes de x et de y

zi =xi

yi⇒ G(zi) =

G(xi)

G(yi)

F. Richard Statistiques descriptives 21

Page 22: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de tendance centrale : Les moyennes

Moyenne harmonique

H =N

∑ni=1

1xi

(moyenne simple)

H =N

∑ni=1

nixi

(moyenne ponderee)

Exemple :

On achete des dollars une 1ere fois pour 1 AC au cours de

1.15 AC le dollars, une 2eme fois pour 1 AC au cours de 1.28 AC le

dollars. Quel est le cours moyen du dollars sur les 2 changes ?

x =1.15 + 1.28

2= 1.215 H =

21

1.15 + 11.28

= 1.211

F. Richard Statistiques descriptives 22

Page 23: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de tendance centrale : Les moyennes

Definition generale de la moyenne

Soit f (x) une fonction croissante ou decroissante de la variable

statistique x , M represente la moyenne et f (M), une fonction de

la moyenne differente selon le type de moyenne consideree

f (M) =1

H(moyenne harmonique)

f (M) = ln G (moyenne geometrique)

f (M) = x (moyenne arithmetique)

f (M) =1

N

ni f (xi)

F. Richard Statistiques descriptives 23

Page 24: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de tendance centrale : Les moyennes

Definition generale de la moyenne

Pour f (x) = 1x

1

H=

1

n

∑ ni

xi⇒ H =

N∑ ni

xi

Pour f (x) = ln x

ln G =1

N

ni ln xi ⇒ G = exp

(

1

N

ni ln xi

)

Pour f (x) = x

x =1

N

nixi

Pour f (x) = x2

Q2 =1

N

nix2i ⇒ Q =

1

N

nix2i

F. Richard Statistiques descriptives 24

Page 25: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de tendance centrale : Les moyennes

Definition generale de la moyenne

Proprietes

Les moyennes arithmetiques et quadratiques donnent

beaucoup d’influence aux elements les plus eleves des

series (la moyenne quadratique plus que la moy.

arithmetique)

Les moyennes harmoniques et geometriques tendent a

reduire l’influence des observations les plus grandes et a

augmenter celles des plus petites (la moyenne

geometrique moins que la moy. harmonique)

H < G < x < Q

F. Richard Statistiques descriptives 25

Page 26: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de tendance centrale : Le mode

”Le mode d’une distribution est la valeur de la variable

statistique pour laquelle la frequence est la plus elevee (valeur

la plus representee)”

Mode Distribution Bi modale Classe modale

Pour les variables continues, on defini une classe

modale et le mode est le centre de la classe

F. Richard Statistiques descriptives 26

Page 27: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de tendance centrale : La mediane

”La mediane d’une distribution est la valeur de la variable

statistique telle que le nombre d’observations qui presentent

une valeur inferieure est egale au nombre d’observations qui

presentent une valeur superieure”

C’est la valeur de la variable qui partage les individus en 2

effectifs egaux

La mediane est la valeur pour laquelle la frequence

cumulee est F (Me) = 0.5

Variable discrete : valeur ou intervalle (on peut trouver

une mediane theorique en faissant une interpolation

lineaire)

Variable continue : On cherche la classe mediane puis on

effectue une interpolation lineaire pour trouver la mediane

F. Richard Statistiques descriptives 27

Page 28: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de tendance centrale : La mediane

Exemple :

Age

classe mod . ni fr fc[10; 14[ 1 0.1 0.1

[14; 18[ 2 0.2 0.3

[18; 22[ 4 0.4 0.7

[22; 26[ 2 0.2 0.9

[26; 30[ 1 0.1 1∑

10 1 100

Classe mediane : [18; 22[

0.7

0.3

2218

y

x

y = 0.5

0.7 − y

0.7 − 0.3=

22 − x

22 − 18

Me = 20

Sur des valeurs brutes : 21,17,10,18,20,22,16,28,25,19

10,16,17,18,19,20,21,22,25,28

Classement ordre croissant

Me=19.5

F. Richard Statistiques descriptives 28

Page 29: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de tendance centrale : Exemple

Couleur des yeux

modalites ni fr fcBleus 3 0.3 0.3

Marrons 5 0.5 0.8

Verts 2 0.2 1∑

10 1 100

Variable nominale

Mode = marron

Mediane =? : impossible

x =? : impossible

Mention bac

modalites ni fr fcpassable 3 0.3 0.3

AB 4 0.4 0.7

B 2 0.2 0.9

TB 1 0.1 1∑

10 1 100

Variable ordinale

Mode = AB

Mediane = AB

x =? : impossible

F. Richard Statistiques descriptives 29

Page 30: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de tendance centrale : Exemple

Nombre d’enfants

modalites ni fr fc0 1 0.1 0.1

1 3 0.3 0.4

2 5 0.5 0.9

3 1 0.1 1∑

10 1 100

Variable discrete

Mode = 2

Mediane = 2

x = 1.6

Age

classe mod . ni fr fc[10; 14[ 1 0.1 0.1

[14; 18[ 2 0.2 0.3

[18; 22[ 4 0.4 0.7

[22; 26[ 2 0.2 0.9

[26; 30[ 1 0.1 1∑

10 1 100

Variable continue

Mode = 20

Mediane = 20

x = 20

F. Richard Statistiques descriptives 30

Page 31: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de tendance centrale : Conclusion

SymetrieAsymetrie gauche Asymetrie droite

Moy . < Med . < Mo. Moy . = Med . = Mo. Moy . > Med . > Mo.

Mode, Mediane, Moy. arithmetique sont des indicateurs de

position (indicateurs de tendance centrale)

- variable nominale : mode

- variable ordinale : mode, mediane

- variable discrete, continue : mode, mediane, moyennes

F. Richard Statistiques descriptives 31

Page 32: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de tendance centrale : Conclusion

La moyenne est l’indicateur le plus utilise. Son calcul est

base sur l’ensemble des valeurs xi , de ce fait elle est

influencee par les valeurs extremes contrairement a la

mediane

La mediane est un parametre calcule en fonction de sa

position dans la serie

Le mode est l’indicateur le plus sensible lors du

regroupement des informations (classes). 2

regroupements differents peuvent conduire a plus de

modes distincts

F. Richard Statistiques descriptives 32

Page 33: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de position : Les quantiles

”Le quantile d’ordre α, Qα avec 0 ≤ α ≤ 1 est la modalite de la

variable statistique telle qu’une proportion α des individus ont

une modalite inferieure ou egale a Qα”

Les quantiles sont definis pour toutes les variables sauf les

variables nominales

1 2 3 4 5 6 7 8 9 10

Q0.550 % 50 %

Q0.4

40 % 60 %

Quantiles particuliers :

Quartiles : Q0.25, Q0.5, Q0.75

Deciles : Q0.1, Q0.2, ...

Centiles : Q0.01, Q0.02, ...

F. Richard Statistiques descriptives 33

Page 34: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de position : Les quantiles

La frequence cumulee du quantile Qα est egale a l’ordre α

F (Qα) = α

Pour un intervalle [ai−1; ai [, l’interpolation lineaire donne :

classe mod . fc[ai−2; ai−1[ Fai−1

[ai−1; ai [ Fai

[ai ; ai+1[ Fai+1

Qα = ai +(ai −ai−1).

(

α− Fai

Fai− Fai−1

)

F. Richard Statistiques descriptives 34

Page 35: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de dispersion : L’etendue

E = Xmax − Xmin

1 2 3 4 5 6 7 8 9 10

E

Individu athipique

(outlier)

remarque :

L’etendue ne tient compte que des 2 valeurs extremes quelque

soit le nombre de valeurs de la population

F. Richard Statistiques descriptives 35

Page 36: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de dispersion : L’ecart interquartile

Pour remedier aux inconvenients de l’etendue, il est possible

d’ecarter du calcul de la caracteristique de dispersion les

valeurs extremes d’une serie statistique

EIQ = Q0.75−Q0.25

Les indicateurs de dispersion nous renseignent sur la

dispersion des valeurs autour d’un parametre de position

Concernant l’ecart interquartile, le parametre de position

est la mediane

”L’EIQ est l’intervalle qui contient 50% des individus, en laissant

de cote 25% des individus dont les observations sont les plus

petites et 25% des individus dont les observations sont les plus

grandes”

F. Richard Statistiques descriptives 36

Page 37: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de dispersion : L’ecart interquartile

EID = Q0.9 −Q0.1

L’ecart interdeciles (EID) regroupe 80% des individus

autour de la mediane

remarque :

L’EIQ ne tient compte que de l’ordre des observations et non de

leurs valeurs et des ecarts qui existent entre elles

F. Richard Statistiques descriptives 37

Page 38: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de dispersion : L’ecart absolu moyen

Pour definir un meilleur indicateur de dispersion, on calcule

l’ecart de chacune des observations xi par rapport a une

caracteristique de tendance centrale ′′C′′ (x , Me) :

(xi − C)

On retient comme mesure de la dispersion de la serie, la

moyenne des valeurs absolues des ecarts a la moyenne

(la moyenne des ecarts a la moyenne etant nulle)

|xi − C|

Cette moyenne est donc une grandeur positive qui

constitue une caracteristique de dispersion

F. Richard Statistiques descriptives 38

Page 39: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de dispersion : L’ecart absolu moyen

Ecart absolue moyen a la moyenne :

ex =1

N

|xi−x | ex =1

N

ni |xi − x |

Ecart absolue moyen a la mediane :

ex =1

N

|xi − Me| ex =1

N

ni |xi−Me|

F. Richard Statistiques descriptives 39

Page 40: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de dispersion : L’ecart type

”L’ecart type est la racine carre de la moyenne des ecarts a la

moyenne au carre”

V (x) =1

N

(xi−x)2

”Variance”

σ(x) =

1

N

(xi − x)2

”L’ecart type”

V (x) ≥ 0

L’ecart type est la moyenne quadratique des ecarts a la

moyenne arithmetique (σ(x) : ecart quadratique moyen)

F. Richard Statistiques descriptives 40

Page 41: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de dispersion : L’ecart type

Moyenne quadratique :

f (M) =1

N

f (xi) f (M) = Q2 f (x) = x2

Q2 =1

N

x2i

Q =

1

N

x2i

On peut faire apparaitre la moyenne quadratique dans la

formule de la variance : theoreme de Konig

V (x) =1

N

nix2i − x2

Demonstration

F. Richard Statistiques descriptives 41

Page 42: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de dispersion : L’ecart type

Exemple : notes d’etudiants

10; 12; 8; 15; 14; 11; 16; 11; 13; 9

x =10 + 12 + 8 + 15 + ...

10= 11.9

σ =

1

10

(

(10 − 11.9)2 + (12 − 11.9)2 + ...

)

= 2.47

”En moyenne, les notes des 10 etudiants sont dispersees

autour de la moyenne arithmetique de 2.47 points”

La variance n’a pas d’unite

L’ecart type a la meme unite que celle des observations

F. Richard Statistiques descriptives 42

Page 43: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de dispersion : Coefficient de variation

L’ecart type comme la moyenne s’expriment dans la meme

unite que celle de la variable statistique

On peut avoir a comparer les dispersions de distributions

qui ne sont pas exprimees dans la meme unite ou les

dispersions de distributions dont les moyennes sont

totalement differentes

CV =σx

x

Le coefficient de variation est sans dimension et donc

independant des unites des variables statistiques

Exemple

F. Richard Statistiques descriptives 43

Page 44: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de forme : Introduction

L’objectif est d’avoir des informations sur la forme de la

distribution sans avoir a la tracer

2 types d’indicateurs :

La symetrie (asymetrie) : skewness

L’aplatissement : Kurtosis

Moments centres

Le moment centre d’ordre k est egale a la moyenne

arithmetique des puissances d’ordre k des ecarts (xi − x)

µk =1

N

ni(xi − x)k

Si k = 0 ⇒ µ0 = 1

Si k = 1 ⇒ µ1 = 0

Si k = 2 ⇒ µ2 = σ2 : variance

F. Richard Statistiques descriptives 44

Page 45: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de forme : Asymetrie

4 moyens de definir l’asymetrie d’une distribution

Comparaison indicateurs tendance centrale

Mo = Me = x ⇒ serie ”symetrique”

Mo > Me > x ⇒ serie ”etalee vers la gauche”

Mo < Me < x ⇒ serie ”etalee vers la droite”

Coefficient de Yule

On compare les quartiles entre eux :

s =(Q3 − Me)− (Me − Q1)

(Q3 − Me) + (Me − Q1)s ∈ [−1; 1]

s = 0 ⇒ serie ”symetrique”

s > 0 ⇒ serie ”etalee vers la droite”

s < 0 ⇒ serie ”etalee vers la gauche”

F. Richard Statistiques descriptives 45

Page 46: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de forme : Asymetrie

Coefficient de Pearson

Pearson etablie une statistique basee sur les ecarts entre

moyenne et mode

p =x − Mo

σ

p = 0 ⇒ serie ”symetrique”

p > 0 ⇒ serie ”etalee vers la droite”

p < 0 ⇒ serie ”etalee vers la gauche”

Coefficient de Fisher

Fisher utilise la notion de moment centre

γ1 =µ3

µ3/22

γ1 = 0 ⇒ serie ”symetrique”

γ1 > 0 ⇒ serie ”etalee vers la droite”

γ1 < 0 ⇒ serie ”etalee vers la gauche”µ2 6= 0

F. Richard Statistiques descriptives 46

Page 47: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de forme : Aplatissement

Les coefficients d’aplatissement mesurent l’importance des

”extremites” de la distribution, la reference prise est la

distribution normale

Definition

Une courbe est aplatie (platikurtique) quand une forte

variation de la valeur etudiee ne s’accompagne pas de

forte variation de la frequence (par ref. a la distribution

normale)

Quand la courbe est moins aplatie que la loi normale, elle

est dite leptokurtique

F. Richard Statistiques descriptives 47

Page 48: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de forme : Aplatissement

Coefficient d’aplatissement de Fisher

γ2 =µ4

µ22

−3 µ2 6= 0

γ2 = 0 ⇒ distribution ”normale”

γ2 > 0 ⇒ distribution ”leptokurtique”

γ2 < 0 ⇒ distribution ”platikurtique”

Coefficient d’aplatissement de Pearson

β2 =µ4

µ22

β2 = 3 ⇒ distribution ”normale”

β > 3 ⇒ distribution ”leptokurtique”

β < 3 ⇒ distribution ”platikurtique”

F. Richard Statistiques descriptives 48

Page 49: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs de forme

Remarque :

Ces coefficients (asymetrie et aplatissement) sont invariants

par changement d’origine et d’echelle mais sont sensibles aux

fluctuations d’echantillonnages puisqu’ils font intervenir des

moments d’ordres eleves

F. Richard Statistiques descriptives 49

Page 50: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Calcul des indicateurs : Exemple

Age

classe mod . ni fr fc[10; 14[ 1 0.1 0.1

[14; 18[ 2 0.2 0.3

[18; 22[ 4 0.4 0.7

[22; 26[ 2 0.2 0.9

[26; 30[ 1 0.1 1∑

10 1 100

F (Q0.25) = 0.25

y − 0.3

0.3 − 0.1=

x − 14

18 − 14avec y = 0.25 et x = Q0.25

20(y − 0.1) + 14 = x

Q0.25 = 20∗(0.25−0.1)+14 = 17

F. Richard Statistiques descriptives 50

Page 51: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Calcul des indicateurs : Exemple

F (Q0.5) = 0.5 ⇒ Q0.5 = 20

F (Q0.75) = 0.75 ⇒ Q0.75 = 23

EIQ = Q0.75 − Q0.25 = 23 − 17 = 6

ex = 110

(

|12 − 20|+ 2|16 − 20|+ ...)

= 3.2

eMe = 3.2

σ =√

110

(

(−8)2 + 2 ∗ (−4)2 + (0)2 + ...)

= 4.38

s = (23−20)−(20−17)(23−20)+(20−17) = 0

p = 20−204 = 0

µ2 = σ2 = 4.382 = 19.18

µ3 = −512−128+128+51210 = 0

F. Richard Statistiques descriptives 51

Page 52: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Calcul des indicateurs : Exemple

µ4 = 110

(

(−8)4 + 2(−4)4 + ...)

= 921.6

γ1 = 019.183/2 = 0

γ2 = 921.619.182 − 3 = −0.5

β2 = 2.5

Indicateurs Valeurs

Mode 20

Mediane 20

x 20

Q0.25 17

Q0.5 20

Q0.75 23

EIQ 6

ex 3.2

Indicateurs Valeurs

emed 3.2

σ 4.38

s 0

p 0

γ1 0

γ2 -0.5

β2 2.5

F. Richard Statistiques descriptives 52

Page 53: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Distribution statistique a 2 dimensions

F. Richard Statistiques descriptives 53

Page 54: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Tableau de contingence

Hypotheses

X , Y : 2 variables definies sur une population composee

de N individus

(xi , yj) : couples de modalites correspondants

k , l : nbres respectifs de modalites des variables X et Y

”Le tableau de contingence est un tableau a k lignes et l

colonnes qui donne l’effectif de chaque couple de modalites”

⇒ Remplace table des frequences lors d’1 analyse

univariee

La construction du tableau de contingence s’effectue par la

realisation d’un tri croise des donnees

F. Richard Statistiques descriptives 54

Page 55: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Tableau de contingence

Tri croise

Le tri croise consiste a compter les individus de la

population par couple de modalites

Variable a expliquer

C’est la variable dont le comportement nous interesse

Variable explicative

C’est la variable servant a expliquer le comportement de la

variable a expliquer

F. Richard Statistiques descriptives 55

Page 56: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Tableau de contingence

Y

X y1 y2 ... yj ... yl Totaux

lignes

x1 n11 n12 ... n1j ... n1l n1.

x2 n21 ... ... ... ... ... ...

... ... ... ... ... ... ... ...

xi ni1 ... ... nij ... ... ni.

... ... ... ... ... ... ... ...

xk nk1 ... ... ... ... nkl nk .

Totaux n.1 ... ... n.j ... n.l N = n..

colonnes

distribution jointe

distributions marginales

distributions conditionnelles

F. Richard Statistiques descriptives 56

Page 57: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Tableau de contingence

Effectif marginal associe a la modalite xi

ni. =

j=l∑

j=1

nij

Effectif marginal associe a la modalite yi

n.j =i=k∑

i=1

nij

Effectif total

N = n.. =i=k∑

i=1

j=l∑

j=1

nij =i=k∑

i=1

ni. =

j=l∑

j=1

n.j

F. Richard Statistiques descriptives 57

Page 58: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Tableau de contingence

Distribution conditionnelle

”Une distribution conditionnelle est la distribution d’1 variable

statistique X lorsque l’autre variable statistique Y est fixee”

ligne i : distribution de Y sachant que X = xi ou

X ∈ [ai−1; ai ]

ligne j : distribution de X sachant que Y = yj ou

Y ∈ [bj−1; bj ]

Y |X = xi , Y |X ∈ [ai−1; ai ] X |Y = yj , X |Y ∈ [bj−1; bj ]

Frequences du couple (xi , yj)

fij =nij

N

F. Richard Statistiques descriptives 58

Page 59: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Tableau de contingence

Frequences marginales

fi. =ni.

N(frequences marginales associees aux modalites

xi )

f.j =n.j

N

(frequences marginales associees aux modalites

yj )

i=k∑

i=1

j=l∑

j=1

fij =i=k∑

i=1

fi. =

j=l∑

j=1

f.j = 1

Frequences conditionnelles

fi |Y=yj=

nij

n.j(frequence conditionnelle pour Y fixee)

fj |X=xj=

nij

ni.(frequence conditionnelle pour X fixee)

F. Richard Statistiques descriptives 59

Page 60: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Tableau de contingence

On peut aller plus loin dans la presentation des donnees

croisees en etudiant 2 tableaux (tableaux des profils):

⇒ Tableau des frequences horizontales

⇒ Tableau des frequences verticales

On peut lire le tableau de contingence de 2 facons

differentes selon que l’on priviligie l’une ou l’autre des

variables (lecture en lignes ou en colonnes)

⇒ L’objectif est de ramener la somme de chaque

ligne ou chaque colonne a 100%

⇒ On construit donc les 2 tableaux avec les

frequences conditionnelles

F. Richard Statistiques descriptives 60

Page 61: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Tableau de contingence

Tableaux des frequences horizontales et verticales

Frequences verticales

Y

X y1 ... yj ... yl

x1 ... ... ... ... ...

x2 ... ... ... ... ...

... ... ... ... ... ...

xi ... ... fi|Y=yj... ...

... ... ... ... ... ...

xk ... ... ... ... ...

Total 1 1 1 1 1

Frequences horizontales

Y

X y1 ... yj ... yl Total

x1 ... ... ... ... ... 1

x2 ... ... ... ... ... 1

... ... ... ... ... ... 1

xi ... ... fj|X=xi... ... 1

... ... ... ... ... ... 1

xk ... ... ... ... ... 1

Exemple

F. Richard Statistiques descriptives 61

Page 62: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs numeriques

Moyennes et variances marginales

x =1

N

i=k∑

i=1

ni.xi =i=k∑

i=1

fi.xi =1

N

i=k∑

i=1

j=l∑

j=1

nijxi

y =1

N

j=l∑

j=1

n.jyj =

j=l∑

j=1

f.jyj =1

N

i=k∑

i=1

j=l∑

j=1

nijyj

V (x) =1

N

i=k∑

i=1

ni.x2i − x2

V (y) =1

N

j=l∑

j=1

n.jy2j − y2

F. Richard Statistiques descriptives 62

Page 63: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Indicateurs numeriques

Moyennes et variances conditionnelles

x |Y=yj=

1

n.j

i=k∑

i=1

nijxi =i=k∑

i=1

fi|Y=yjxi

y |X=xi=

1

ni .

j=l∑

j=1

nijyj =

j=l∑

j=1

fj|X=xiyj

V (x|Y=yj) =

1

n.j

i=k∑

i=1

nijx2i − x|Y=yj

2

V (y|X=xi) =

1

ni.

j=l∑

j=1

nijy2j − y|X=xi

2

Exemple

F. Richard Statistiques descriptives 63

Page 64: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Covariance

”La covariance entre 2 variables X et Y est egale a la

moyenne des produits des ecarts a la moyenne de X et Y ”

La covariance permet de determiner l’existance d’une rela-

tion (variation simultannee ) entre 2 variables quantitatives

Soit X et Y , 2 variables quantitatives definies sur une

meme population composee de N individus. (xi ; yi), les N

couples d’observations correspondant

cov(X ,Y ) =1

N

n∑

i=1

(xi−x)(yi−y) (donnees brutes)

cov(X ,Y ) : covariance du couple (X ;Y )

F. Richard Statistiques descriptives 64

Page 65: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Covariance

Donnees resumees dans un tableau de contingence

cov(X ,Y ) =1

N

k∑

i=1

l∑

j=1

nij(xi − x)(yj − y)

cov(X ,Y ) =1

N

k∑

i=1

l∑

j=1

nijxiyj − x y

F. Richard Statistiques descriptives 65

Page 66: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Covariance

Interpretation

cov(X ,Y ) > 0 : les couples (xi , yj) nous indiquent que X

et Y varient globalement dans le meme sens

cov(X ,Y ) < 0 : les couples (xi , yj) nous indiquent que X

et Y varient globalement dans le sens inverse

Le signe de la covariance peut etre negatif contrairement a

celui de la variance qui est toujours positif

Remarque

La covariance est un indicateur du sens de variation

simultanee de X et de Y

Si X et Y croissent simultanement, les produits

(xi − x)(yi − y) seront positifs, tandis que si Y decroit

lorsque X croit (ou l’inverse), ces memes produits seront

negatifs

F. Richard Statistiques descriptives 66

Page 67: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Covariance

Proprietes

Si 2 variables X et Y sont independantes

⇒ cov(X ,Y ) = 0 , ”La reciproque est fausse !”

cov(aX , bY ) = abcov(X ,Y ) avec a, b constantes

cov(X ,X ) = V (X ), cov(Y ,Y ) = V (Y )

Exemple : notes maths, francais

cov(X ,Y ) =1

N

k∑

i=1

l∑

j=1

nijxiyj − x y

cov(X ,Y ) =1

100

(

10∗4∗5+20∗10∗5+10∗16∗5+...

)

−11∗10.6 = 2.4

cov(X ,Y ) = 2.4 > 0 ⇒ X et Y varient dans le meme sens

F. Richard Statistiques descriptives 67

Page 68: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Independance et liaison fonctionnelle

La liaison entre 2 variables peut etre plus ou moins accentuee

2 cas extremes :

Abscence de liaison ⇒ independance

Liaison totale ou liaison fonctionnelle ⇒ dependance

Independance

”La variable X est independante de la variable Y si les

frequences conditionnelles fi |Y=yjsont egales entres elles pour

i fixe”

fi |Y=yjdepend de i eventuellement mais pas de j

f1|Y=y1= f1|Y=y2

= f1|Y=y3= ...

f2|Y=y1= f2|Y=y2

= f2|Y=y3= ...

F. Richard Statistiques descriptives 68

Page 69: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Independance et liaison fonctionnelle

Independance

L’independance est reciproque

Si X est independant de Y alors Y est independant de X

⇒ Les 2 variables sont ”independantes”

fj |X=xi=

nij

ni.; fi |Y=yj

=nij

n.j(1)

n1j

n1.=

n2j

n2.=

nkj

nk .;

ni1

n.1=

ni2

n.2=

nil

n.l(2)

Ces fractions egales entres elles sont egales a la fraction

obtenue en ajoutant numerateur et denominateur

(2)n1j + n2j + n3j + ...+ nkj

n1. + n2. + n3. + ...+ nk .=

∑ki=1 nij

∑ki=1 ni.

=n.j

N= f.j

F. Richard Statistiques descriptives 69

Page 70: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Independance et liaison fonctionnelle

Independance

(2)ni1 + ni2 + ni3 + ...+ nil

n.1 + n.2 + n.3 + ...+ n.l=

∑lj=1 nij

∑lj=1 n.j

=ni.

N= fi.

fi. =ni.

N=

nij

n.j; f.j =

n.j

N=

nij

ni.

Consequence de l’independance :

ni . ∗ n.j

N= nij

fi |Y=yj= fi. fj |X=xi

= f.j

Les lignes du tableau de contingence sont proportionnelles

entre elles

Les colonnes du tableau sont proportionnelles entre ellesExemple

F. Richard Statistiques descriptives 70

Page 71: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Independance et liaison fonctionnelle

Liaison fonctionnelle

”A la difference de l’independance, la liaison fonctionnelle n’est

pas toujours reciproque”

2 cas possibles :

La variable Y est liee fonctionnellement a X lorsqu’a

chaque modalite de X correspond une modalite unique et

determinee de Y et reciproquement

2 variables X et Y sont reciproquement dependantes

lorsqu’a chaque modalite de X correspond une modalite

unique et determinee de Y et reciproquement

Exemple

F. Richard Statistiques descriptives 71

Page 72: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Independance et liaison fonctionnelle

Remarques

L’independance et la liaison fonctionnelle sont 2 cas

extremes que l’on rencontre rarement en pratique

Le cas le plus courant est de se trouver entre ces 2 cas

⇒ Les 2 variables statistiques X et Y on

une ”liaison relative” (ou partielle)

Des methodes d’analyse statistique permettent d’evaluer

l’intensite de la liaison relative entre 2 variables

statistiques

F. Richard Statistiques descriptives 72

Page 73: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Test d’independance du χ2

”Le test d’independance du χ2 permet de dire si 2 variables

qualitatives sont independantes”

Le test permet de trancher la proposition suivante :

”Il n’y a pas de relation entre les 2 variables” (H0)

H0 : hypothese nulle

Pratiquement

Pour montrer qu’il existe une relation, on cherche a montrer que

l’inexistence de relation a une faible probabilite de se realiser

Principe du test

Comparer la repartition des observations du tableau de

contingence a une distribution ”ideale” qui correspond a 1

situation de liaison nulle entre les 2 variables

F. Richard Statistiques descriptives 73

Page 74: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Test d’independance du χ2

On compare donc 2 tableaux :

Tableau des effectifs observes

Tableau des effectifs theoriques (si absence de liaison)

Le test d’independance du χ2 mesure l’ecart entre ces 2

tableaux

Plus l’ecart est grand :

Plus faible est la chance que le tableau observe soit

semblable au tableau theorique

Plus faible est la chance que l’hypothese nulle se realise

Plus de chance que la liaison soit significative

F. Richard Statistiques descriptives 74

Page 75: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Test d’independance du χ2

Calcul du tableau des effectifs theoriques

Ce calcul s’appuie sur un theoreme d’independance satistique :

Si le produit des marges est egal aux effectifs croises

⇒ Independance

ni. ∗ n.j

N= nij ; posons tij =

ni. ∗ n.j

N

tij : effectif theorique

tij ≥ 5 : sinon l’indicateur n’a pas de sens

Calcul du χ2

χ2calcule =

k∑

i=1

l∑

j=1

(nij − tij)2

tij

F. Richard Statistiques descriptives 75

Page 76: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Test d’independance du χ2

Le χ2calcule est une mesure d’ecart

⇒ Plus sa valeur est grande et moins il est probable

qu’il n’y ait pas de liaison

Regle de decision

Cet indicateur doit etre compare a un ”seuil” note χ2α

(avec α, risque de 1er espece)

Si χ2calcule < χ2

α : on accepte l’hypothese H0

X et Y sont independantes

Si χ2calcule > χ2

α : on refuse l’hypothese H0

Le degre de liberte (DDL) est le 2eme parametre dont depend la

valeur du χ2α tableau

DDL = (k−1)(l−1)k : nbre de lignes

l : nbre de colonnes

F. Richard Statistiques descriptives 76

Page 77: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Test d’independance du χ2

Remarque

Le test d’independance du χ2 permet de conclure a l’existance

eventuelle d’une relation mais ne permet pas de preciser la

nature de celle-ci

Exemple

F. Richard Statistiques descriptives 77

Page 78: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Regression - Methode des moindres carres

Objectif

Trouver 1 fonction mathematique qui represente au mieux

la distribution statistique (quantitative)

Remarque

Modelise la representation ”discrete” d’une distribution

statistique par une fonction mathematique ”continue”

Exempledetails

F. Richard Statistiques descriptives 78

Page 79: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Regression - Methode des moindres carres

Demarche

Contexte

2 distributions statistiques X et Y dependantes

Objectif

Trouver 1 fct math. representant ”au mieux” la dist. jointe

(X ,Y ) (comportement moyen) ⇒ La regression

Y X=xi= f (xi)

f : classe de fonctions simples (affines, log, exp,

polynomiales...)

Trouver la fct f la plus proche de Y X=xi⇒ Ajustement de la fct

La metode d’ajustement la plus utilisee est celle des

”moindres carres”

F. Richard Statistiques descriptives 79

Page 80: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Regression - Methode des moindres carres

Principe

La fonction decrivant le mieux la dist. est celle qui minimise la

somme quadratique des deviations des mesures aux

predictions de f (xi)

J =N∑

i=1

(

yi − f (xi)

)2

F. Richard Statistiques descriptives 80

Page 81: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Regression - Methode des moindres carres

Ajustement lineaire

La fonction f (xi) est une fonction affine du type :

y = ax + b

Remplace f (xi) dans J

J(a, b) =N∑

i=1

(

yi−(axi+b)

)2

details

Minimise la fonction J(a, b) pour trouver les cstes a et b

Un minimum d’1 fct. de plusieurs variables ne peut se produire

qu’en 1 pt., ou les derivees partielles s’annulent

∂J(a, b)

∂a= 0,

∂J(a, b)

∂b= 0

details

F. Richard Statistiques descriptives 81

Page 82: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Regression - Methode des moindres carres

Covariance

Cov(x , y) =1

N

N∑

i=1

(

xi − x

)(

yi − y

)

demonstraion

Ajustement lineaire

y =Cov(x , y)

Var(x)(x − x) + y

demonstraion

F. Richard Statistiques descriptives 82

Page 83: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Regression - Methode des moindres carres

M

d

x

y

x

y

M d

Droite d’ajustement de Y en X :

y =Cov(x , y)

Var(x)(x − x) + y

Droite d’ajustement de X en Y :

x =Cov(x , y)

Var(y)(y − y) + x

y =Var(y)

Cov(x , y)(x − x) + y

F. Richard Statistiques descriptives 83

Page 84: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Regression - Methode des moindres carres

x

y

d’

d La droite d’ajustement de Y

en X est toujours plus proche

de l’horizontale

Coefficient de correlation lineaire ”Pearson”

r2 =a

a′=

Cov(x ,y)Var(x)

Var(y)Cov(x ,y)

=

(

Cov(x , y)

σ(x)σ(y)

)2

r =Cov(x , y)

σ(x)σ(y)

F. Richard Statistiques descriptives 84

Page 85: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Regression - Methode des moindres carres

x

y

d’

d

0 < r < +1

x

y

d’

d

−1 < r < 0

x

y

d = d’

r = −1

x

y

d = d’

r = +1

x

y

d

d’

r = 0

F. Richard Statistiques descriptives 85

Page 86: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Analyse multivariee

Objectifs

Faire une etude sur plusieurs variables simultanement

Analyse en Composantes Principales (ACP)

Nature des variables : Quantitatives

Objectif : Etude des relations existantes entre variables

quantitatives et individus

F. Richard Statistiques descriptives 86

Page 87: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Analyse multivariee

Analyse Factorielle des correspondances (AFC)

Nature des variables : Qualitatives

Objectif : Etude des relations existantes entre 2 variables

qualitatives

Analyse des Correspondances Multiples (ACM)

Nature des variables : Qualitatives

Objectif : Etude des relations existantes entre plusieurs

variables qualitatives

F. Richard Statistiques descriptives 87

Page 88: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Analyse multivariee

Autres methodes ...

Classification Ascendante Hierarchique (CAH)

Analyse Factorielle Discriminante (AFD)

La segmentation

Regression Lineaire Multiple (RLM)

Regression ”Partial Least Square” (PLS)

Regression logistique

Reseau de Neurones

Monte Carlo

Scoring

Plans d’experiences (DOE)

Maıtrise Statistique des Processus (MSP)

Serie chronolgiques

F. Richard Statistiques descriptives 88

Page 89: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Exemple

V (x) =1

N

ni(xi − x)2

=1

N

ni(x2i − 2xix + x2)

=1

N

(

nix2i −∑

2nixix+∑

nix2

)

=1

N

(

nix2i −2x

nixi+x2∑

ni

)

=1

N

(

nix2i −2x

nixi+Nx2

)

=1

N

(

nix2i −2xNx+Nx2

)

F. Richard Statistiques descriptives 89

Page 90: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Exemple

=1

N

(

nix2i −2Nx2+Nx2

)

=1

N

(

nix2i − Nx2

)

V (x) =1

N

nix2i − x2

Remarque :

x =1

N

nixi ⇒∑

nixi = Nx∑

axi = ax1+ax2 = a(x1+x2) ⇒∑

axi = a∑

xi∑

(xi+yi) = (x1+y1)+(x2+y2) ⇒∑

(xi+yi) =∑

xi+∑

yi

Retour

F. Richard Statistiques descriptives 90

Page 91: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Exemple

Distributions de revenus aux US et en France

Fr : x = 1500 e, σ1 = 120 e

US : x = 1200 $, σ1 = 100 $

CVFr =120

1500= 0.080

CVUS =100

1200= 0.083

Retour

F. Richard Statistiques descriptives 91

Page 92: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Exemple

X : reussite en L1, Y : type de bac (ES,S,STT)

Tableau de contingence (effectifs) :

ES S STT∑

ni.

Reussite L1 41 59 54 154

Echec L1 21 36 75 132∑

n.j 62 95 129 286

Tableau de contingence (frequences) :

ES S STT∑

ni.

Reussite L1 0.14 0.21 0.19 0.54

Echec L1 0.07 0.13 0.26 0.46∑

n.j 0.21 0.34 0.45 1

freussite ES =nreussite ES

N=

41

286= 0.14

”14% des etudiants ont un bac ES et ont reussi en L1”

F. Richard Statistiques descriptives 92

Page 93: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Exemple

Tableau des frequences verticales : Retour

ES S STT

Reussite L1 0.66 0.62 0.42

Echec L1 0.34 0.38 0.58∑

1 1 1

freussite|Y=ES =nreussite ES

n.ES

=41

62= 0.66

”66% des etudiants ayant un bac ES ont reussi en L1”

Tableau des frequences horizontales :

ES S STT∑

Reussite L1 0.27 0.38 0.35 1

Echec L1 0.16 0.27 0.57 1

fES|X=reussite =nreussite ES

nreussite.=

41

154= 0.27

”27% des etudiants ayant reussis en L1 ont un bac ES”

F. Richard Statistiques descriptives 93

Page 94: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Exemple

X : note en maths, Y : note en francais

X/Y [0; 8[ [8; 12[ [12; 20[ ni.

[0; 10[ 10 20 10 40

[10; 20[ 10 30 20 60

n.j 20 50 30 100

x =1

100

(

40∗5+60∗15

)

= 11

y = 10.6

σ(x) =

1

100

(

40(5 − 11)2 + 60(15 − 11)2

)

= 4.9

σ(y) = 4.2

x |y = 4 =1

20

(

10∗5+10∗15

)

= 10

F. Richard Statistiques descriptives 94

Page 95: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Exemple

x |y = 10 =1

50

(

20∗5+30∗15

)

= 11

x |y = 16 =1

30

(

10∗5+20∗15

)

= 11.7

y |x = 5 =1

40

(

10∗4+20∗10+10∗16

)

= 10

y |x = 15 =1

60

(

10∗4+30∗10+20∗16

)

= 11

σ(x)|y = 4 =

1

20

(

10(5 − 10)2 + 10(15 − 10)2

)

= 5

F. Richard Statistiques descriptives 95

Page 96: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Exemple

σ(x)|y = 10 =

1

50

(

20 ∗ 52 + 30 ∗ 152

)

= 4.9

σ(x)|y = 16 = 4.7

σ(y)|x = 5 =

1

40

(

10 ∗ 42 + 20 ∗ 102 + 10 ∗ 162

)

= 4.2

σ(y)|x = 15 = 4.1

On peut calculer la variance des moyennes conditionnelles

et la moyenne des variances conditionnelles

Retour

F. Richard Statistiques descriptives 96

Page 97: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Exemple

La distribution jointe suivante est celle de 2 variables X et

Y independantes

X/Y Y1 Y2 Y3 Y4 ni. fi.X1 3 5 2 4 14 7/49

X2 6 10 4 8 28 14/49

X3 12 20 8 16 56 28/49

n.j 21 35 14 28 98 1

f.j 21/98 35/98 14/98 28/98 1

f1|Y=y1=

3

21=

1

7, f2|Y=y1

=6

21=

2

7

f1|Y=y2=

5

35=

1

7, f2|Y=y2

=10

35=

2

7

f1|Y=y3=

2

14=

1

7, f2|Y=y3

=4

14=

2

7Retour

F. Richard Statistiques descriptives 97

Page 98: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Exemple

Y1 Y2 Y3

X1 0 10 0

X2 0 15 0

X3 0 0 16

Y est liee fonctionnellement a

X

Dans le tableau, il n’y a qu’une

valeur non nulle par ligne

Y1 Y2 Y3

X1 0 0 0

X2 10 15 0

X3 0 0 16

X est liee fonctionnellement a

Y

Dans le tableau, il n’y a qu’une

valeur non nulle par colonne

Y1 Y2 Y3

X1 10 0 0

X2 0 15 0

X3 0 0 16

X et Y sont reciproquement

dependantes

Il existe une seule valeur non nulle

par ligne et par colonneRetour

F. Richard Statistiques descriptives 98

Page 99: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Exemple

X : guerison du patient

Y : cout du medicament

medicament cher medicament bon marche∑

Guerison 156 44 200

Non guerison 44 6 50∑

200 50 250

Question :

Existe t-il une relation entre le cout du medicament et la

guerison ou non des patients ?

tij =ni. ∗ n.j

N(effectifs theoriques)

F. Richard Statistiques descriptives 99

Page 100: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Exemple

Tableau des effectifs theoriques :

medicament cher medicament bon marche

Guerison 160 40

Non guerison 40 10

t11 =n1. ∗ n.1

N=

200 ∗ 200

250= 160

t12 =n1. ∗ n.2

N=

200 ∗ 50

250= 40

t21 =n2. ∗ n.1

N=

50 ∗ 200

250= 40

t22 =n2. ∗ n.2

N=

50 ∗ 50

250= 10

F. Richard Statistiques descriptives 100

Page 101: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Exemple

χ2calc =

k∑

i=1

l∑

j=1

(nij − tij)2

tij=

(156 − 160)2

160+(44 − 40)2

40+... = 2.5

DDL = 1

χ2cal < χ2

0.10

Les variables X et Y sont independantes avec une probabilite

de 10% de se tromperRetour

F. Richard Statistiques descriptives 101

Page 102: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Modelisation distribution jointe

X

Y

2 4 6 8 10 12

2

4

6

8

10

12

F. Richard Statistiques descriptives 102

Page 103: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Modelisation distribution jointe

X

Y

2 4 6 8 10 12

2

4

6

8

10

12

Retour

F. Richard Statistiques descriptives 103

Page 104: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Regression lineaire

M

d

x

y

Retour

F. Richard Statistiques descriptives 104

Page 105: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Regresion lineaire

J(a, b) =N∑

i=1

(

yi − axi − b

)2

∂J(a, b)

∂a= −2

N∑

i=1

xi

(

yi − axi − b

)

∂J(a, b)

∂b= −2

N∑

i=1

(

yi − axi − b

)

∑Ni=1 xiyi − a

∑Ni=1 x2

i − b∑N

i=1 xi = 0 (1)∑N

i=1 yi − a∑N

i=1 xi − Nb = 0 (2)

F. Richard Statistiques descriptives 105

Page 106: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Regresion lineaire

(2) b =

∑Ni=1 yi − a

∑Ni=1 xi

N

(1)N∑

i=1

xiyi − a

N∑

i=1

x2i +

(

a∑N

i=1 xi −∑N

i=1 yi

N

)

N∑

i=1

xi = 0

(

(∑N

i=1 xi

)2

N−

N∑

i=1

x2i

)

a =

∑Ni=1 xi

∑Ni=1 yi

N−

N∑

i=1

xiyi

a =

∑Ni=1 xi

∑Ni=1 yi − N

∑Ni=1 xiyi

(∑N

i=1 xi

)2 − N∑N

i=1 x2i

F. Richard Statistiques descriptives 106

Page 107: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Regresion lineaire

b =1

N

(

N∑

i=1

yi−(∑N

i=1 xi

∑Ni=1 yi − N

∑Ni=1 xiyi

(∑N

i=1 xi

)2 − N∑N

i=1 x2i

) N∑

i=1

xi

)

b =1

N

(

N∑

i=1

yi−(

(∑N

i=1 xi

)2∑Ni=1 yi − N

∑Ni=1 xi

∑Ni=1 xiyi

(∑N

i=1 xi

)2 − N∑N

i=1 x2i

)

)

b =1

N

(

(∑N

i=1 xi

)2∑Ni=1 yi − N

∑Ni=1 x2

i

∑Ni=1 yi

(∑N

i=1 xi

)2 − N∑N

i=1 x2i

...+N

∑Ni=1 xi

∑Ni=1 xiyi − (

∑Ni=1 xi)

2∑N

i=1 yi

...

)

F. Richard Statistiques descriptives 107

Page 108: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Regresion lineaire

b =

∑Ni=1 xi

∑Ni=1 xiyi −

∑Ni=1 yi

∑Ni=1 x2

i(∑N

i=1 xi

)2 − n∑N

i=1 x2i

Retour

F. Richard Statistiques descriptives 108

Page 109: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Covariance

Cov(x , y) =1

N

N∑

i=1

(

xi−x

)(

yi−y

)

Cov(x , y) =1

N

N∑

i=1

(

xiyi−xiy−yix+x y

)

Cov(x , y) =1

N

(

N∑

i=1

xiyi−y

N∑

i=1

xi−x

N∑

i=1

yi+Nx y

)

Cov(x , y) =1

N

(

N∑

i=1

xiyi−yNx−xNy+Nx y

)

F. Richard Statistiques descriptives 109

Page 110: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Covariance

Cov(x , y) =1

N

(

N∑

i=1

xiyi − Nxy

)

Cov(x , y) =1

N

N∑

i=1

xiyi − x y

Retour

F. Richard Statistiques descriptives 110

Page 111: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Regression lineaire

y =Cov(x , y)

Var(x)(x − x) + y

y =Cov(x , y)

Var(x)x−Cov(x , y)

Var(x)x+y

a b

N2Var(x) = N

N∑

i=1

x2i −(

N∑

i=1

xi)2, N2Cov(x , y) = N

N∑

i=1

xiyi−N∑

i=1

xi

N∑

i=1

yi

a =

∑Ni=1 xi

∑Ni=1 yi − N

∑Ni=1 xiyi

(∑N

i=1 xi)2 − N∑N

i=1 x2i

=−N2Cov(x , y)

−N2Var(x)=

Cov(x , y)

Var(x)

F. Richard Statistiques descriptives 111

Page 112: Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Regression lineaire

b =1

N

N∑

i=1

yi−∑N

i=1 xi

∑Ni=1 yi − N

∑Ni=1 xiyi

(

∑Ni=1 xi

)2− N

∑Ni=1 x2

i

1

N

N∑

i=1

xi

b =1

N

(

∑Ni=1 yi(

∑Ni=1 xi)

2 − N∑N

i=1 x2i

∑Ni=1 yi

(

∑Ni=1 xi

)2− N

∑Ni=1 x2

i

+ ...−(∑N

i=1 xi)2∑N

i=1 yi + N∑N

i=1 xi

∑Ni=1 xiyi

...

)

b =

∑Ni=1 xi

∑Ni=1 xiyi −

∑Ni=1 yi

∑Ni=1 x2

i

(∑N

i=1 xi)2 − N∑N

i=1 x2i

Retour

F. Richard Statistiques descriptives 112