Corrélation et Régression Linéaire -...

Corrélation et Régression

Linéaire

PACES 2011-2012

C. Bulot

Introduction

Dans une population, on veut savoir si 2 variables X et Y observées sur une même entité sont indépendantes ou non.

C'est-à-dire si la connaissance du résultat d'une variable ne nous permet pas de tirer des informations pour prédire le résultat de l'autre.

On s'intéressera à 2 cas :

• 2 variables qualitatives

Ex : Maladie/Exposition

Test du c² (cf cours Pr Salamon)

PACES 2011-2012 C.Bulot 2

•2 variables quantitatives :

Ex : poids/taille, temps/dose, température/temps

– Un graphique nous donnera une idée sur l'existence d'une association éventuelle entre les 2 variables

– Etude de la force de leur association :

corrélation

– Prédiction (Y en fonction de X) :

Régression

1. Séries Statistiques doubles

2. Corrélation

3. Régression linéaire

4. Tests d’indépendance linéaire

1. Séries Statistiques Doubles

1. Définition

On observe 2 caractères quantitatifs (variables associées

X et Y) sur n individus :

n couples de valeurs (xi , yi)

Cet ensemble de couples est appelé série statistique

double si X et/ou Y est aléatoire

2 cas : (i) X fixé ou contrôlé, Y aléatoire

Cas particulier : X temps : série chronologique.

(ii) X et Y aléatoires (ex : poids – taille) PACES 2011-2012 C.Bulot 5

2. Représentation graphique

Dans un repère orthogonal, on trace les points de

coordonnées (xi , yi)

L’ensemble des points est appelé nuage de points ou

diagramme de dispersion

Exemple

Dose x en mg

175 180 190 200 210 220 230

Temps y en s

17 18 19 20 19 19 20

170 180 190 200 210 220 230

dose (mg)

Forme allongée : liaison possible entre les

caractères

Points dispersés : pas de liaison

Le nuage de points donne des informations qualitatives sur une éventuelle liaison entre les 2 caractères

Information quantitative : Corrélation

2. Corrélation

1. Covariance

Dans une population de N sujets (de valeurs de X et Y :

(xi , yi)), on définit la covariance de X et Y par :

On extrait un échantillon de n individu.

Covariance de X et Y dans l'échantillon :

y - yx - x ii )( ( Y) cov(X,

y - yx - x ii )( ( s XY

• Propriétés

(i) Si X = Y, cov(X,X) = var(X)

(ii) var(X + Y) = var(X) + var(Y) + 2cov(X,Y)

(iii) Si X et Y sont indépendantes

var(X Y) = var(X) + var(Y)

et cov(X,Y) = 0

La covariance dépend de l’unité :

On détermine une quantité proportionnelle à la

covariance :

Coefficient de Corrélation PACES 2011-2012 C.Bulot 10

2. Coefficient de corrélation

On appelle coefficient de corrélation de X en Y

dans la population :

Avec sx : écart type de X dans la population

sy : écart type de Y dans la population

On montre que -1 ≤ r ≤ 1

et r = 1 Y = aX + b

Si X et Y sont indépendantes : r = 0

Y X σ σ),cov(

Y) ρ(X,YX

Coefficient de corrélation de l’échantillon :

sx et sy écarts type dans l'échantillon (r invariant si on échange X et Y)

– On estime le coefficient de corrélation de la population r par le coefficient de corrélation de l’échantillon r

– -1 ≤ r ≤ 1

y - (y x - (x

)y - yx - (x

)²)²

12 PACES 2011-2012 C.Bulot

r indique la force et le sens de l’association

(linéaire) entre X et Y

– plus r² est proche de 1, plus la relation est forte :

• r = -1 : corrélation négative parfaite

• r = 0 : pas de corrélation

• r = 1 : corrélation positive parfaite

• Le nuage de points donne des informations

qualitatives sur une éventuelle liaison entre les 2

caractères.

• La corrélation quantifie la force de l’association

• Forme de la relation ?

• Si on a Y = f(X), les points se répartissent autour de la

courbe d’équation y = f(x)

Estimation de f

Construction d’une courbe d’estimation qui s’ajuste au

nuage de points (xi , yi).

Régression

Dans la suite du cours :

– régression linéaire

–on considère les (vraies) relations entre X et

Y du type

y a x + b

– relations s’y ramenant

• Exponentielle, logarithmique, …

–a et b inconnus : on les estimera à partir

d’un échantillon

3. Régression Linéaire

On suppose la vraie relation entre X et Y dans la

population du type : y = a x + b (inconnue)

On estime à partir d’un échantillon :

a a et b b

Idée : l'écart entre les points et la droite doit être le +

petit possible

1. Droite de régression

La droite (D) y = a x + b, ajustée aux points (xi ,

yi) telle que soit minimale est

appelée droite de régression de Y en X

L’équation de la droite (D) est déterminé par la

méthode des moindres carrés :

- la pente :

- l'ordonnée à l'origine :

(b est la valeur de y en x = 0)

)²x - (x

)y - (y )x - (x a

xy a - b

² )) b a ( - ( n

Remarques

• (D) passe par le point médian :

• Le coefficient de corrélation (observé) :

– r (sans unité) et a sont proportionnels

– Si r=0, a=0

– S'il n'y a pas de relation linéaire entre X et Y :

• la pente a est nulle

• droite horizontale

s ss r

) , ( yx

𝑦 = 𝑏 = 𝑦

Remarques (suite)

– La corrélation indique s’il y a une relation linéaire entre 2 variables

– La régression linéaire permet de prédire Y en fonction de X

2. Précision de l’ajustement linéaire aux valeurs observées

– Si on ne connaît que Y, on peut prédire Y par observé dans l'échantillon

– On veut savoir si la connaissance de X nous donne une meilleure prédiction que la moyenne de y

– On va quantifier la qualité de la prédiction de Y en fonction de X

– On a

Ecart dû à la Ecart résiduel

régression

) )( - ( ))( ( - xf y y - xf yy i i i i +

Variabilité des données

Moyenne de y

variation totale

variation non expliquée

variation expliquée

• On montre

–Part de la variation de Y expliquée par la droite de régression : r²

– r² : coefficient de détermination

– r² mesure l’intensité de l’association linéaire entre X et Y, indépendamment des unités.

– Si r² = 1 : ajustement parfait • Les points sont alignés

– Si r² = 0, s²exp = 0 : l’ajustement est à rejeter

totalevarianceexpliquée variance

• Causalité :

– r ne donne pas la raison de la relation entre X et Y

– une 3ème variable peut expliquer les 2 variables

• ex : alcool et cancer des bronches (facteur de confusion : tabac)

• La droite de régression n’est valable qu’entre les extrémités

– on ne sait pas si au delà il y a relation

• plusieurs types de relations possibles pour le même r

Exemples

R2 = 0,80

Y R2 = 0,80

R2 = 0,80

Y R2 = 0,80

3. Régressions non linéaires

• Régressions pouvant se ramener par un changement de variables à une régression linéaire

– Exemple :

v = k eax (k > 0)

donc ln v = ax + ln k

On pose y = ln v , b = ln k

y = ax + b

4. Tests d’indépendance linéaire

– r est l’observation du « vrai » coefficient de corrélation dans la population r

– a et b estimations de a et b

– Il y a des tests pour tester l’indépendance linéaire ou la significativité de la corrélation

– 3 tests équivalents :

• coefficient nul : r = 0

• pente nulle : a = 0 (y = b = moyenne des yi)

• Test de Fisher : comparaison des variances

On considère une population avec 2 caractères

quantitatifs X et Y

Test du coefficient de corrélation

On suppose que la vraie régression est linéaire

Soit r le « vrai » coefficient de corrélation entre X et Y dans la

population.

On va tester

(H0) : « r = 0 »

« Les 2 variables sont indépendantes»

On fixe le seuil de signification a

On extrait un échantillon de taille n et soit r le coefficient de corrélation observé

– Soit R la v.a. d’observation r

– Si (H0) est vraie, R est de moyenne 0 et

– Soit le paramètre

– Si n ≥ 30 , T suit approximativement une loi N(0,1)

– Si n < 30, (sous les bonnes conditions de normalité) T suit une loi de Student à n–2 ddl

R sR T

2 -n ²r - 1 s (R)var 2

– On calcule l’expression :

– On la compare à tthéo donné par les tables pour a fixé

– Si tobs ≥ tthéo , on rejette (H0) au seuil de signification a

2 -n ²r - 1

r tobs

• Interprétation

– Si (H0) n’est pas rejetée : on n'a pas mis en évidence de relation (ou dépendance ou corrélation) linéaire entre X et Y :

Une relation linéaire ne permet pas de prédire correctement Y en connaissant X (pas mieux que la moyenne de y)

–Si (H0) est rejetée : il y a une corrélation entre X et Y

X aide à la prédiction de Y (mieux que la moyenne de y)

La droite donne la tendance de la variation de Y en fonction de la variation de X

Exemples

r non nul

Yr non nul

Exemple

On étudie la relation entre le poids (Y en kg) et

la taille (X en cm) chez les hommes adultes.

On extrait un échantillon de 14 hommes adultes et on

observe les résultats suivants :

sxy = 16

sx = 8 mx = 176 cm

sy =4 my = 80 kg

Calculer le coefficient de corrélation observé r.

Déterminer l'équation de la droite de régression de Y en X

Calcul du coefficient de corrélation observé :

5,04.8

Equation de la droite de régression :

Pente :

Ordonnée à l'origine :

xy amm b

3644804

360,25x y +

Au seuil de signification 5%, le coefficient de corrélation dans la population est-il significativement différent de 0 ?

(On supposera les conditions de normalité vérifiées)

Conclure

Soit r le vrai coefficient de corrélation entre X et Y dans la population.

•On teste (H0) : « r = 0 »

•On fixe le seuil a=5%

•Coefficient de corrélation observé : r=0,5

•On a un échantillon de taille n = 14 < 30

(+ conditions de normalité)

Test avec la loi de Student à n-2 ddl

On calcule :

Pour a = 5%, et n-2=12ddl la table de Student donne t5%,12ddl = 2,179

tobs < t5 %,12ddl

2 -n ²r - 1

r t obs

² 0,5 - 1

2-14 0,5

On n'a pas mis en évidence que le coefficient de corrélation est significativement différent de 0.

Donc au risque b, on accepte (H0) :

Conclusion : Il y a indépendance linéaire entre la taille et le poids au risque b (ou il n’y a pas de corrélation linéaire entre la taille et le poids).

Exercice

On étudie la relation entre la tension artérielle (Y) et le

BMI (X, poids en kg / carré de la taille en m) chez les

hommes adultes.

On extrait un échantillon de 38 hommes adultes et on

observe les résultats suivants :

sxy = 8

sx = 2,5

sy = 4

Calculer le coefficient de corrélation observé r.

Au seuil de signification 5%, le coefficient de corrélation dans la population est-il significativement différent de 0 ?

Conclure

Calcul du coefficient de corrélation observé :

8,04.5,2

Soit r le vrai coefficient de corrélation entre X et Y dans la population.

•On teste (H0) : « r = 0 »

•On fixe le seuil de signification a=5%

•Coefficient de corrélation observé : r=0,8

•On a un échantillon de taille n = 38 > 30

Test avec la loi normale

On calcule :

Pour a = 5%, on a Ua = 1,96

Uobs > Ua

2 -n ²r - 1

r U obs

36 0,8

² 0,8 - 1

2-38 0,8

Donc au risque de première espèce a ≤ 5%, on rejette (H0) :

le coefficient de corrélation est significativement différent de 0.

Conclusion : Il y a corrélation linéaire entre X et Y au risque de première espèce a ≤ 5%

(ou il y a association linéaire)

Corrélation et Régression Linéaire -...

Documents

DSCG 2021 - UE4

VFX勉強会スライド「徹底比較UE4 vs Unity」

DSCG UE4 sujet 2016

Chara@Maya ライブ！～キャラクターセットアップからUE4への出力～

UE4 パーティクルへのライティング（後半）

Ue4 bone controller

[CGWCC2016] UE4でリギング

Sujet Corrige Dscg Ue4 2011

CGDC 2016 Building paragon in UE4

Dscg 2014-sujet-ue4-comptabilite-et-audit

Stray sheep #ggjsap 2016 UE4 Team

UE4 Option d'ouverture - formations-lettres.sorbonne

DIPLÔME SUPÉRIEUR DE COMPTABILITÉ ET DE GESTION UE4

UE4 MTH1 04 Chap 4 Model Pheno Medic

Sujet Corrige Dscg Ue4 2008

Le tissu nerveux - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE2/Histologie /Le tissu... · Le tissus nerveux est un tissu difﬁcilement accessible et analysable.

RÉPERTOIRE DES UNITÉS D’ENSEIGNEMENT UE3 et UE4 · 2020. 11. 13. · Spécialisation progressive . Ce répertoire des UE3 et UE4 a été conçu pour vous aider à choisir, pour

UE4 Q90 Déficit Moteur - CERF

Holo lens × ue4での開発について

Ue4 render texture_public