La corrélation et la régression. Mesure de la relation entre deux variables 2 variables sont...

Preview:

Citation preview

La corrélation et la régressionLa corrélation et la régression

Mesure de la relation entre deux Mesure de la relation entre deux variablesvariables

2 variables sont prises en considération simultanément2 variables sont prises en considération simultanément Ex. Résultats en français et en mathématiqueEx. Résultats en français et en mathématique Couleur d’une auto et le nombre d’accidentsCouleur d’une auto et le nombre d’accidents

Attention, ce n’est jamais un indice de cause à effetAttention, ce n’est jamais un indice de cause à effet -> manipulations expérimentales-> manipulations expérimentales

La relation est décrite par le coefficient de corrélation (La relation est décrite par le coefficient de corrélation ( rr)) Il varie entre -1 et 1: Il varie entre -1 et 1:

1 (ou -1) = relation parfaite1 (ou -1) = relation parfaite0 = absence de relation0 = absence de relation

Il existe donc trois cas possibles: Il existe donc trois cas possibles: Relation positive : x augmente; y augmenteRelation positive : x augmente; y augmente Relation négative : x diminue; y augmenteRelation négative : x diminue; y augmente Absence de relation: x augmente (ou diminue); y ne change pasAbsence de relation: x augmente (ou diminue); y ne change pas

Exemples de relationExemples de relation

Exemples de relationExemples de relation

ExempleExemple

575 3

122.5 0.64x y

x y

s s

1

2

3

4

5

450 2

500 3

525 3

650 3.25

750 3.75

Sujet x y

s

s

s

s

s

ExempleExemple

1

2

3

4

5

( )( )

450 2 125 1 125

500 3 75 0 0

525 3 50 0 0

650 3.25 75 0.25 18.75

750 3.75 175 0.75 131.25

2875 15 0 0 275

Sujet x y x x y y x x y y

s

s

s

s

s

1

( )( )275

68.751 4

n

i ii

xy

x x y yCov

n

Mesure la direction et la grandeur de la relation

NoteNote

1

2

1

2

( )( )

1

( )

1

n

i ii

xx

n

ii

xx

xx x

x x x xCov

n

x xCov

n

Cov s

ExempleExemple

2 2

1

2

3

4

5

( )( ) ( ) ( )

450 2 125 1 125 15625 1

500 3 75 0 0 5625 0

525 3 50 0 0 2500 0

650 3.25 75 0.25 18.75 5625 0.0625

750 3.75 175 0.75 131.25 30625 0.5625

2875 15 0 0 275 60000 1.625

Sujet x y x x y y x x y y x x y y

s

s

s

s

s

Comme on ne peut pas comparer des mesures de covariances entrent-elles, il faut la standardiser.

1

2 2

1 1

68.25 2750.88 0.88

122.5 0.64 6000 1.625

n

i ixy i

xy n nx y

i ii i

x x y yCov

rs s

x x y y

Coefficient de détermination Coefficient de détermination

x y

x y

x y

Variance commune = 0 %

Variance commune = 25 %

Variance commune = 80 %

22

2 2

xyxy

x y

Covr

s s

ExempleExemple

77% de la variance en y peut être expliquée par la variance en x2 2

0.88

(0.88) 0.7744

xy

xy

r

r

Exemple 2 (SAT)Exemple 2 (SAT)36% de la variance de la réussite universitaire peut être expliquée par la variance du score au SAT

2 2

0.6

(0.6) 0.36

xy

xy

r

r

Coefficient de corrélation erronésCoefficient de corrélation erronésRestriction de l’étendue: diminue la corrélation

Coefficient de corrélation erronésCoefficient de corrélation erronésUtilisation de groupes extrêmes: augmente la corrélation

L L

LLL

L

LL

L L

HH

HHH

H

HH H

r = 0.75

Coefficient de corrélation erronésCoefficient de corrélation erronésUtilisation de groupes extrêmes: augmente la corrélation

L L

LLL

L

LL

L L

HH

HHH

H

HH H

xxx

xx

x

xx

xx

x

xx

x

xx

x

xx x

xx

x

x

x

xx x x x x

x

xx

xx

xx

x

r = 0.50

Coefficient de corrélation erronésCoefficient de corrélation erronésCombiner des groupes: augmente ou diminue la corrélation

r1 = 0

r2 = 0 r 1 > 0

r 2 > 0

r 1 > 0

r2 > 0

Coefficient de corrélation erronésCoefficient de corrélation erronésScore extrême: augmente ou diminue la corrélation

xxx

xxx

xxxx

xxxx

xxxx

x

Coefficient de corrélation erronésCoefficient de corrélation erronésRelation non linéaire: diminue la corrélation

NoteNote Même si le coefficient de corrélation est celui rapporté, il n’est pas

un estimateur non biaisé de la corrélation dans la population. Plus, l’échantillon est petit, plus le biais sera grand. Pour corriger la situation, le coefficient de corrélation ajusté est calculé.

2(1 )( 1)1

2

(1 0.7744)(5 1)1

5 20.836182

xyajusté

ajusté

ajusté

r nr

n

r

r

InférenceInférence

InférenceInférence L’hypothèse émise est que la corrélation entre x et y est nulle dans la

population. Autrement dit, on cherche à savoir si x et y sont linéairement indépendants. Si on rejette cette hypothèse, alors cela indique que les populations ne sont pas indépendantes et qu’il existe une relation linéaire entre les deux.

2

2 2(1 ) (1 )

2

xyxy

xy xy

r dlt dl r

r r

dl n

0

1

: 0

: 0

xy

xy

H

H

ExempleExemple

0.7744(5 2) 3.20903

(1 0.7744)t

0

1

2

: 0

: 0

5

0.7744

2 5 2 3

xy

xy

xy

H

H

n

r

dl n

(0.05,3) 3.182t

Comme le tobs >tcrit (3.209>3.182) on rejette

H0 et on accepte H1. Les 2 populations sont

donc dépendantes.

Régression linéaireRégression linéaire

Régression linéaireRégression linéaire On veut une relation fonctionnelle entre 2 variables et non On veut une relation fonctionnelle entre 2 variables et non

seulement un indice d’associationseulement un indice d’association Autrement dit, on veut être en mesure de faire de la prédictionAutrement dit, on veut être en mesure de faire de la prédiction

x1

y1Rappel des caractérisiques (pente, constante) de l’équation d’une droite

Les paramètres de la droite de Les paramètres de la droite de régressionrégression

1 2

0 1

xy

x

Covb

s

b y b x

0 1y b b x

0 1

1 1

1

ˆ

ˆ

ˆ ( )

y b b x

y y b x b x

y y x x b

Si on remplace b0

NoteNote

xyxy

x y

xy xy x y

Covr

s s

Cov r s s

On sait que

Si on remplace la covariance par sa valeur

1 2

1 2

1

xy

x

xy x y

x

xy y yxy

x x

Covb

s

r s sb

s

r s sb r

s s

Exemple 2Exemple 2

2 2

1

2

3

4

5

6

7

( ) ( ) ( )( )

8 10 3 4 9 16 12

6 8 1 2 1 4 2

3 2 2 4 4 16 8

5 6 0 0 0 0 0

7 9 2 3 4 9 6

2 2 3 4 9 16 12

4 5 1 1 1 1 1

35 42 0 0 28 62 41

Sujet x y x x y y x x y y x x y y

s

s

s

s

s

s

s

5 6

2.16 3.21x y

x y

s s

2

cov 6.83

0.98

0.96

xy

xy

xy

r

r

Exemple 2Exemple 2

1

0 1

0 1

3.210.98 1.46

2.16

6 1.46 5 1.3

ˆ

ˆ 1.3 1.46

yxy

x

sb r

s

b y b x

y b b x

y x

PrédictionPrédiction À partir de l’équation de régression, il est possible de faire des

prédiction

Ex. 1 Si x = 7.5, que vaut ?y

ˆ 1.3 1.46

ˆ 1.3 1.46 7.5 9.65

y x

y

PrédictionPrédiction De façon similaire on peut prédire x à partie de y

Ex. 2 Si y = 9.65, que vaut ?

ˆ1.3 1.46

1.3ˆ

1.46

y x

yx

1.3 9.65 1.3ˆ 7.5

1.46 1.46

yx

x

PrédictionPrédiction Enfin!

Ex. 3 Si x = 3, que vaut ?y

ˆ 1.3 1.46 1.3 1.46 3 3.08y x

Or, (x,y) => (3,2). Donc, la prédiction commet une certaine erreur

Erreur type de la régressionErreur type de la régression La différence entre la droite de régression constitue l’erreur de prédiction à partir de x.

2

1

2

3

4

5

6

7

ˆ ˆ ˆ( )

8 10 10.38 0.38 0.1444

6 8 7.46 0.54 0.2916

3 2 3.08 1.08 1.1664

5 6 6 0 0

7 9 8.92 0.08 0.0064

2 2 1.62 0.38 0.1444

4 5 4.54 0.46 0.2116

35 42 42 0 1.9648

Sujet x y y y y y y

s

s

s

s

s

s

s

ˆ 1.3 1.46y x

2

1

ˆ( )

2

1.96480.63

7 2

n

ii

yx

yx

y ys

n

s

NoteNotePour des grands échantillons

2(1 )yx y xys s r

Intervalles de confianceIntervalles de confiance

L’erreur type est un estimé de l’erreur totale. Cependant il n’est pas un bon estimé pour la prédiction d’un x donné. En effet, l’estimation de l’erreur sera petite lorsque x est près de la moyenne et plus grande lorsqu’il est loin de la moyenne.

2

'2

11

( 1)new

yx yxx

x xs s

n n s

'

1 , ˆi crit yxIC y t s

Prédiction à partir d’un nouveau score

Intervalles de confianceIntervalles de confiance

Exemple xnew= 7.5 pour un IC de 95%

Prédiction à partir d’un nouveau score

( 0.05, , 5) 2.571critt t bic dl 1

2

3

4

5

6

7

8 10

6 8

3 2

5 6

7 9

2 2

4 5

Sujet x y

s

s

s

s

s

s

s

5

2.16

0.63x

yx

x

s

s

'1 0.05

0.95

ˆ 9.65 2.571 0.759

[8.44; 12.34]

crit yxIC y t s

IC

2 2

'2 2

7.5 51 11 0.63 1 0.759

( 1) 7 (7 1)2.16new

yx yxx

x xs s

n n s

Relation entre le test Relation entre le test tt et la corrélation et la corrélation

Groupes Groupes indépendantsindépendants

1

2

1 2

x

x

x x

b s

c s

a s

b

ca

Variabilité dans l’estimation des paramètres (erreur type)

1 2

1 2x x

x xt

a

Par Pythagore

2 2 2

2 2

a b c

a b c

Si on remplace « a » par sa valeur

1 2 1 2

2 2

2 2x x x x

a b c

s s s

1 2

1 2

1 2

2 2x x

x x

x xt

s s

Groupes Groupes dépendantsdépendants

1

2

1 2

x

x

x x

b s

c s

a s

b

ca

Variabilité dans l’estimation des paramètres (erreur type)

1 2

1 2x x

x xt

a

Par la loi du Cosinus

2 2 2

2 2

2 cos

2 cos

a b c bc

a b c bc

Si on remplace « a » par sa valeur

1 2 1 2 1 2 1 2

2 2

2 2

2 cos

2x x x x x x x x

a b c bc

s s s s s r

Groupes Groupes dépendantsdépendants

1 2

1 2 1 2 1 2

1 2

2 2 2x x

Dx x x x x x

x x Dt

ss s s s rn

Recommended