Corrélation Régression

  • View
    56

  • Download
    0

Embed Size (px)

DESCRIPTION

Licence STE 2eme année. Corrélation Régression. Plan. Introduction Coefficient de corrélation Principe Interprétation Modèles de régression Régression linéaire Ajustement par un polynôme Fonction exponentielle Le coéfficient de détermination Approche non-paramétrique - PowerPoint PPT Presentation

Text of Corrélation Régression

  • Statistiques*Licence STE 2eme anne

    Statistiques

  • Statistiques*Introduction Coefficient de corrlation Principe Interprtation Modles de rgression Rgression linaire Ajustement par un polynme Fonction exponentielle Le cofficient de dtermination

    Approche non-paramtriqueCoefficient de correlation de SpearmanPlan

    Statistiques

  • Statistiques*Mthode et but2 variables numriques (quantitatives)Identifier la nature des variables : indpendante x et dpendante y.Dcrire la relation entre les variablesgraphiquementen utilisant une quationUtiliser lquation pour prvoir une valeur yi partir dune valeur xi.Etablir le degr de fiabilit de lestimation (relation probabiliste seulement)La relation entre deux variables peut tre : dterministe (Ceci ne nous concerne pas ici) probabiliste (Cest ce dont on va parler)1. Introduction

    Statistiques

  • Statistiques*Relation dterministe: La valeur de la variable y peut tre prcisement prdite partir de la valeur de la variable x.

    Exemples: Prix dune maison et taxe due.Vitesse dun corps en chute libre et temps. V=V0+gt VtV01. Introduction

    Statistiques

  • Statistiques*Relation probabiliste: La valeur dune variable y ne peut pas tre prcisement prdite partir de la valeur de la variable x - cause dautres facteurs.

    Exemples: Consommation en eau et une population x = nombre dhabitants y = eau consomme Nombre dheures passes rviser un examen et la note obtenue. x = heures passes rviser y = note obtenue

    Regression possible avec une relation probabiliste.1. Introduction

    Statistiques

  • Statistiques*Le coefficient de corrlation r est une mesure du degr de corrlation linaire. En pratique on essaye dobtenir une estimation (r) partir dun chantillon reprsentatif de la population.Approche gomtrique:Q1Q3Q2Q42. Coefficient de correlation

    Statistiques

    Q1

    Q2

    Q3

    Q4

    +

    -

    -

    +

    +

    +

    -

    -

    +

    -

    +

    -

    _1159021964.unknown

    _1159021981.unknown

    _1159021948.unknown

  • Statistiques*videmment cette somme dpend de n. On va donc diviser par (n-1).Au fait, pourquoi (n-1) et pas simplement n??? Cov(x,y) est la covariance. Elle est utilise dans de nombreusesmthodes multivaries.Il y a encore un problme La covariance dpend fortement des units de x et de y. Alors que faire...?est un paramtre intressant2. Coefficient de correlation

    Statistiques

  • Statistiques*Pour viter ce problme on va diviser la covariance par lcart type de x et lcart type de y. Attention : les donnes doivent tre normalement distribue (mais nous reviendrons sur ce point)Coefficient de corrlation de Bravais-PearsonUn exemple...2. Coefficient de correlation

    Statistiques

  • Statistiques*2. Coefficient de correlation

    Statistiques

    Numro de l'essai i

    Masse mi

    xi

    Long. li

    yi

    1

    2

    42.0

    -4.0

    16.0

    -9.3

    86.9

    37.28

    2

    4

    48.4

    -2.0

    4.0

    -2.9

    8.5

    5.84

    3

    6

    51.3

    0.0

    0.0

    0.0

    0.0

    0

    4

    8

    56.3

    2.0

    4.0

    5.0

    24.8

    9.96

    5

    10

    58.6

    4.0

    16.0

    7.3

    53.0

    29.12

    n=5

    6

    51.32

    0.0

    40

    0.0

    173.2

    82.2

    _1032452458.unknown

    _1159022223.unknown

    _1159022341.unknown

    _1159022368.unknown

    _1159022324.unknown

    _1159022206.unknown

    _1032452124.unknown

    _1032452446.unknown

    _1032452088.unknown

  • Statistiques*r = 0,9872. Coefficient de correlation

    Statistiques

    Graph1

    42

    48.4

    51.3

    56.3

    58.6

    Masse (kg)

    Longueur (cm)

    Balance ressort

    Feuil1

    Numro de l'essaiMasseLongueurmi^2li2

    imili

    1242.04.01764.084.0

    2448.416.02342.6193.6

    3651.336.02631.7307.8

    4856.364.03169.7450.4

    51058.6100.03434.0586.0

    30256.622013341.91621.8

    n=5

    Feuil1

    0

    0

    0

    0

    0

    Masse (kg)

    Longueur (cm)

    Balance ressort

    y = 2.055x + 38.99

    Feuil2

    Feuil3

  • Statistiques*Allons un peu plus loin...Ingalit de Schwarz: Donc... r = 1r = -1r = 0.7r 0Liaisons absolues(dterministe)Liaison stochastique(probabiliste)Pas de liaison2. Coefficient de correlation

    Statistiques

  • Statistiques*Un exemple:Teneurs en Be, Zn et Sr (ppm)dans ltang de ThauEtude des variables deux deux2. Coefficient de correlation

    Statistiques

  • Statistiques*La matrice de corrlation...Reprsentation pratique pour lexploration2. Coefficient de correlation

    Statistiques

  • Statistiques*2. Coefficient de correlation

    Statistiques

  • Statistiques*En pratique attention!!!!!!

    Ce coefficient de corrlation doit tre mani avec grande prcaution r = 0.93r = 0 r donne le degr de liaison linaire. Dpendance curvilinaire forte et r faible dans le 2eme cas. Le diagramme xy doit donc toujours tre examin en mme temps que la valeur de r.2. Coefficient de correlation

    Statistiques

  • Statistiques*r = -0.13r = 0.19r = 0.53r = 0.92Le coefficient de corrlation peut produire de hautes valeurs si des points isols sont prsents.2. Coefficient de correlation

    Statistiques

  • Statistiques*La corrlation de deux variables log-transformes doit toujours tre interprte avec prcautionr = 0.355100500306090ZnPbr = 0.7844.83.01.22.03.05.0ln(Zn)ln(Pb)4.02. Coefficient de correlation

    Statistiques

  • Statistiques*Les coefficients de corrlation pour des donnes fermes (i.e. %) sontprobablement biaiss!!!r = -1100500Qz (%)Fldp (%)Pourquoi? La valeur dune variable aura tendance affecter les autres.

    10050r = - 0.62100500Qz (%)Fldp (%)10050Roche igne avec un 3ieme composant

  • Statistiques*r = - 0.62100500Qz (%)10050Roche igne avec un 3ieme composant
  • Statistiques*Paleocologie. Frquence dune communaut par m2.Attention. Ce sont des donnes fermes et une corrlationngative peut tre induite.

    Mieux vaut travailler en nombre absolu dindividus.

    Ceci nest malheureusement pas possible en ptrologie.Autre exemple de donnes fermes:2. Coefficient de correlation

    Statistiques

  • Statistiques*Encore un autre exemple (donnes fermes):Pb, Zn, Cd, Tl (ppm) dans un sdiment.SiO2 varie

    La corrlation entre les lments traces devient positive par dilution avec le SiO2!!Alors comment faire??2. Coefficient de correlation

    Statistiques

  • Statistiques*2. Coefficient de correlationQuoiquil en soit gare aux corrlations entre rapports de variables! Quand la mme variable apparat dans chacun des rapports

    Quand son coefficient de variation est important face aux autres variables

    Quand les donnes sont loin dtre normalement distribues

    Statistiques

    A

    B

    C

    A/C

    B/C

    12

    50

    2

    6

    25

    10

    49

    6

    1,67

    8,2

    9

    46

    3

    3

    15

    7

    65

    20

    0,35

    3,3

    5

    37

    54

    0,09

    0,7

    11

    69

    3

    3,67

    23

    9

    58

    5

    1,8

    12

    8

    48

    28

    0,29

    1,7

    9

    37

    55

    0,16

    0,7

    10

    51

    32

    0,31

    1,6

    12

    43

    40

    0,3

    1,1

    13

    43

    2

    6,5

    22

    6

    56

    17

    0,35

    3,3

    7

    76

    8

    0,88

    9,5

    8

    48

    12

    0,67

    4

    13

    67

    54

    0,24

    1,2

    Moyenne

    9,31

    52,7

    21

    ET

    2,44

    11,5

    20

    CV

    26,2

    21,9

    94

  • Statistiques*Au fait, partir de quelle valeur de r peut-on considrer quon a vraisemblablement une corrlation??0.6 ?0.9 ?0.4 ?2. Coefficient de correlation

    Statistiques

  • Statistiques*Tests dhypothsesPopulation normale conjointe, hypothse concernant la valeur de rRemarque: un coefficient de corrlation r = 0.4 peut tre significatifsi n = 100 mais pas si n = 10.2. Coefficient de correlation

    Statistiques

  • Statistiques*Exemple:Les donnes Pb(ppm) vs. Zn (ppm) mesures dans les sols du Derbyshire(n=44) permettent de calculer un coefficient de corrlation r = 0,765.Y-a-til une corrlation significative entre Pb et Zn?

    2. Coefficient de correlation

    Statistiques

  • Statistiques*Comparaison de deux coefficients de corrlation exprimentaux:Deux valeurs de r obtenues sur deux diffrents groupes sont-elles diffrentes?Z est la transforme de r par transformation de FisherSi Za20):Zd est cens suivre une loi normale N(0,1)

    Statistiques

  • Statistiques*Attention: ces tests sont valides seulement si les donnes sont prises sans biais dans une population normalement distribue (au moins raisonnablement) par rapport aux deux variables. Ce nest pas souvent le cas en gologie ou en environnement!

    Une alternative: lapproche non-paramtrique que nous allons voir plus tard.2. Coefficient de correlation

    Statistiques

  • Statistiques*La rgression

    Une technique statistique pour analyser les relations qui existent parmi les variables. Modle de rgression linaire simple. Equation linaire dcrivant la relation entre une simple variable independante x et une variable dpendante y2. Analyse de regression

    Statistiques

  • Statistiques*Estimer lquation linaire qui dcrit le mieux la relation entre une variable dpendante (y) et une variable indpendante (x).ExempleUn chantillon alatoire de 15 appartements vendus Dijon.Variables (pour chaque appartement): prix