37
La corrélation et la La corrélation et la régression régression

La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Embed Size (px)

Citation preview

Page 1: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

La corrélation et la régressionLa corrélation et la régression

Page 2: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Mesure de la relation entre deux Mesure de la relation entre deux variablesvariables

2 variables sont prises en considération simultanément2 variables sont prises en considération simultanément Ex. Résultats en français et en mathématiqueEx. Résultats en français et en mathématique Couleur d’une auto et le nombre d’accidentsCouleur d’une auto et le nombre d’accidents

Attention, ce n’est jamais un indice de cause à effetAttention, ce n’est jamais un indice de cause à effet -> manipulations expérimentales-> manipulations expérimentales

La relation est décrite par le coefficient de corrélation (La relation est décrite par le coefficient de corrélation ( rr)) Il varie entre -1 et 1: Il varie entre -1 et 1:

1 (ou -1) = relation parfaite1 (ou -1) = relation parfaite0 = absence de relation0 = absence de relation

Il existe donc trois cas possibles: Il existe donc trois cas possibles: Relation positive : x augmente; y augmenteRelation positive : x augmente; y augmente Relation négative : x diminue; y augmenteRelation négative : x diminue; y augmente Absence de relation: x augmente (ou diminue); y ne change pasAbsence de relation: x augmente (ou diminue); y ne change pas

Page 3: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Exemples de relationExemples de relation

Page 4: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Exemples de relationExemples de relation

Page 5: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

ExempleExemple

575 3

122.5 0.64x y

x y

s s

1

2

3

4

5

450 2

500 3

525 3

650 3.25

750 3.75

Sujet x y

s

s

s

s

s

Page 6: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

ExempleExemple

1

2

3

4

5

( )( )

450 2 125 1 125

500 3 75 0 0

525 3 50 0 0

650 3.25 75 0.25 18.75

750 3.75 175 0.75 131.25

2875 15 0 0 275

Sujet x y x x y y x x y y

s

s

s

s

s

1

( )( )275

68.751 4

n

i ii

xy

x x y yCov

n

Mesure la direction et la grandeur de la relation

Page 7: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

NoteNote

1

2

1

2

( )( )

1

( )

1

n

i ii

xx

n

ii

xx

xx x

x x x xCov

n

x xCov

n

Cov s

Page 8: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

ExempleExemple

2 2

1

2

3

4

5

( )( ) ( ) ( )

450 2 125 1 125 15625 1

500 3 75 0 0 5625 0

525 3 50 0 0 2500 0

650 3.25 75 0.25 18.75 5625 0.0625

750 3.75 175 0.75 131.25 30625 0.5625

2875 15 0 0 275 60000 1.625

Sujet x y x x y y x x y y x x y y

s

s

s

s

s

Comme on ne peut pas comparer des mesures de covariances entrent-elles, il faut la standardiser.

1

2 2

1 1

68.25 2750.88 0.88

122.5 0.64 6000 1.625

n

i ixy i

xy n nx y

i ii i

x x y yCov

rs s

x x y y

Page 9: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Coefficient de détermination Coefficient de détermination

x y

x y

x y

Variance commune = 0 %

Variance commune = 25 %

Variance commune = 80 %

22

2 2

xyxy

x y

Covr

s s

Page 10: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

ExempleExemple

77% de la variance en y peut être expliquée par la variance en x2 2

0.88

(0.88) 0.7744

xy

xy

r

r

Exemple 2 (SAT)Exemple 2 (SAT)36% de la variance de la réussite universitaire peut être expliquée par la variance du score au SAT

2 2

0.6

(0.6) 0.36

xy

xy

r

r

Page 11: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Coefficient de corrélation erronésCoefficient de corrélation erronésRestriction de l’étendue: diminue la corrélation

Page 12: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Coefficient de corrélation erronésCoefficient de corrélation erronésUtilisation de groupes extrêmes: augmente la corrélation

L L

LLL

L

LL

L L

HH

HHH

H

HH H

r = 0.75

Page 13: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Coefficient de corrélation erronésCoefficient de corrélation erronésUtilisation de groupes extrêmes: augmente la corrélation

L L

LLL

L

LL

L L

HH

HHH

H

HH H

xxx

xx

x

xx

xx

x

xx

x

xx

x

xx x

xx

x

x

x

xx x x x x

x

xx

xx

xx

x

r = 0.50

Page 14: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Coefficient de corrélation erronésCoefficient de corrélation erronésCombiner des groupes: augmente ou diminue la corrélation

r1 = 0

r2 = 0 r 1 > 0

r 2 > 0

r 1 > 0

r2 > 0

Page 15: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Coefficient de corrélation erronésCoefficient de corrélation erronésScore extrême: augmente ou diminue la corrélation

xxx

xxx

xxxx

xxxx

xxxx

x

Page 16: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Coefficient de corrélation erronésCoefficient de corrélation erronésRelation non linéaire: diminue la corrélation

Page 17: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

NoteNote Même si le coefficient de corrélation est celui rapporté, il n’est pas

un estimateur non biaisé de la corrélation dans la population. Plus, l’échantillon est petit, plus le biais sera grand. Pour corriger la situation, le coefficient de corrélation ajusté est calculé.

2(1 )( 1)1

2

(1 0.7744)(5 1)1

5 20.836182

xyajusté

ajusté

ajusté

r nr

n

r

r

Page 18: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

InférenceInférence

Page 19: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

InférenceInférence L’hypothèse émise est que la corrélation entre x et y est nulle dans la

population. Autrement dit, on cherche à savoir si x et y sont linéairement indépendants. Si on rejette cette hypothèse, alors cela indique que les populations ne sont pas indépendantes et qu’il existe une relation linéaire entre les deux.

2

2 2(1 ) (1 )

2

xyxy

xy xy

r dlt dl r

r r

dl n

0

1

: 0

: 0

xy

xy

H

H

Page 20: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

ExempleExemple

0.7744(5 2) 3.20903

(1 0.7744)t

0

1

2

: 0

: 0

5

0.7744

2 5 2 3

xy

xy

xy

H

H

n

r

dl n

(0.05,3) 3.182t

Comme le tobs >tcrit (3.209>3.182) on rejette

H0 et on accepte H1. Les 2 populations sont

donc dépendantes.

Page 21: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Régression linéaireRégression linéaire

Page 22: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Régression linéaireRégression linéaire On veut une relation fonctionnelle entre 2 variables et non On veut une relation fonctionnelle entre 2 variables et non

seulement un indice d’associationseulement un indice d’association Autrement dit, on veut être en mesure de faire de la prédictionAutrement dit, on veut être en mesure de faire de la prédiction

x1

y1Rappel des caractérisiques (pente, constante) de l’équation d’une droite

Page 23: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Les paramètres de la droite de Les paramètres de la droite de régressionrégression

1 2

0 1

xy

x

Covb

s

b y b x

0 1y b b x

0 1

1 1

1

ˆ

ˆ

ˆ ( )

y b b x

y y b x b x

y y x x b

Si on remplace b0

Page 24: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

NoteNote

xyxy

x y

xy xy x y

Covr

s s

Cov r s s

On sait que

Si on remplace la covariance par sa valeur

1 2

1 2

1

xy

x

xy x y

x

xy y yxy

x x

Covb

s

r s sb

s

r s sb r

s s

Page 25: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Exemple 2Exemple 2

2 2

1

2

3

4

5

6

7

( ) ( ) ( )( )

8 10 3 4 9 16 12

6 8 1 2 1 4 2

3 2 2 4 4 16 8

5 6 0 0 0 0 0

7 9 2 3 4 9 6

2 2 3 4 9 16 12

4 5 1 1 1 1 1

35 42 0 0 28 62 41

Sujet x y x x y y x x y y x x y y

s

s

s

s

s

s

s

5 6

2.16 3.21x y

x y

s s

2

cov 6.83

0.98

0.96

xy

xy

xy

r

r

Page 26: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Exemple 2Exemple 2

1

0 1

0 1

3.210.98 1.46

2.16

6 1.46 5 1.3

ˆ

ˆ 1.3 1.46

yxy

x

sb r

s

b y b x

y b b x

y x

Page 27: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

PrédictionPrédiction À partir de l’équation de régression, il est possible de faire des

prédiction

Ex. 1 Si x = 7.5, que vaut ?y

ˆ 1.3 1.46

ˆ 1.3 1.46 7.5 9.65

y x

y

Page 28: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

PrédictionPrédiction De façon similaire on peut prédire x à partie de y

Ex. 2 Si y = 9.65, que vaut ?

ˆ1.3 1.46

1.3ˆ

1.46

y x

yx

1.3 9.65 1.3ˆ 7.5

1.46 1.46

yx

x

Page 29: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

PrédictionPrédiction Enfin!

Ex. 3 Si x = 3, que vaut ?y

ˆ 1.3 1.46 1.3 1.46 3 3.08y x

Or, (x,y) => (3,2). Donc, la prédiction commet une certaine erreur

Page 30: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Erreur type de la régressionErreur type de la régression La différence entre la droite de régression constitue l’erreur de prédiction à partir de x.

2

1

2

3

4

5

6

7

ˆ ˆ ˆ( )

8 10 10.38 0.38 0.1444

6 8 7.46 0.54 0.2916

3 2 3.08 1.08 1.1664

5 6 6 0 0

7 9 8.92 0.08 0.0064

2 2 1.62 0.38 0.1444

4 5 4.54 0.46 0.2116

35 42 42 0 1.9648

Sujet x y y y y y y

s

s

s

s

s

s

s

ˆ 1.3 1.46y x

2

1

ˆ( )

2

1.96480.63

7 2

n

ii

yx

yx

y ys

n

s

Page 31: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

NoteNotePour des grands échantillons

2(1 )yx y xys s r

Page 32: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Intervalles de confianceIntervalles de confiance

L’erreur type est un estimé de l’erreur totale. Cependant il n’est pas un bon estimé pour la prédiction d’un x donné. En effet, l’estimation de l’erreur sera petite lorsque x est près de la moyenne et plus grande lorsqu’il est loin de la moyenne.

2

'2

11

( 1)new

yx yxx

x xs s

n n s

'

1 , ˆi crit yxIC y t s

Prédiction à partir d’un nouveau score

Page 33: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Intervalles de confianceIntervalles de confiance

Exemple xnew= 7.5 pour un IC de 95%

Prédiction à partir d’un nouveau score

( 0.05, , 5) 2.571critt t bic dl 1

2

3

4

5

6

7

8 10

6 8

3 2

5 6

7 9

2 2

4 5

Sujet x y

s

s

s

s

s

s

s

5

2.16

0.63x

yx

x

s

s

'1 0.05

0.95

ˆ 9.65 2.571 0.759

[8.44; 12.34]

crit yxIC y t s

IC

2 2

'2 2

7.5 51 11 0.63 1 0.759

( 1) 7 (7 1)2.16new

yx yxx

x xs s

n n s

Page 34: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Relation entre le test Relation entre le test tt et la corrélation et la corrélation

Page 35: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Groupes Groupes indépendantsindépendants

1

2

1 2

x

x

x x

b s

c s

a s

b

ca

Variabilité dans l’estimation des paramètres (erreur type)

1 2

1 2x x

x xt

a

Par Pythagore

2 2 2

2 2

a b c

a b c

Si on remplace « a » par sa valeur

1 2 1 2

2 2

2 2x x x x

a b c

s s s

1 2

1 2

1 2

2 2x x

x x

x xt

s s

Page 36: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Groupes Groupes dépendantsdépendants

1

2

1 2

x

x

x x

b s

c s

a s

b

ca

Variabilité dans l’estimation des paramètres (erreur type)

1 2

1 2x x

x xt

a

Par la loi du Cosinus

2 2 2

2 2

2 cos

2 cos

a b c bc

a b c bc

Si on remplace « a » par sa valeur

1 2 1 2 1 2 1 2

2 2

2 2

2 cos

2x x x x x x x x

a b c bc

s s s s s r

Page 37: La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément 2 variables sont prises

Groupes Groupes dépendantsdépendants

1 2

1 2 1 2 1 2

1 2

2 2 2x x

Dx x x x x x

x x Dt

ss s s s rn