View
6
Download
0
Category
Preview:
Citation preview
Corrélation et régression linéaire chapitre 2
1
Corrélation et régression linéaire
I- la régression linéaire
Introduction
L’analyse de la régression est appropriée lorsque deux variables Y et X sont liées, on
appel la variable y variable dépendante (population de microorganisme par exemple), x la
variable indépendante (une composante temporelle……) .
La variable dépendante y est la variable mesurée quantitativement lorsque la variable x
indépendante fixé à différent niveau.
Exemple explicatif
Prenons l’exemple le cas d’une certaine concentration de staphylococcus aureus dans
une population microbienne ( variable Y) exposée à une solution de iodine de 10% a des
intervalles de temps différents ( variable x ) pour 1 0min,20,30…..analyse de la régression
correspond à une fonction linéaire entre les deux .supposons que lorsque x=2 y =4,x=3
y=6…….
Figure 1 : Représentation graphique de la fonction linéaire entre x et y.
En algèbre, les points reliés par une ligne sont appelés fonction de x ou
Y=f(x) = ax+b dont a=
qui correspond à la pente de la ligne de régression, c’est une
relation fonctionnelle alors qui suit un modèle mathématique linéaire ou tous les points qui
forment le nuage de points tombent parfaitement sur la courbe c’est-à-dire chaque valeur de xi
a une seul valeur de yi qui est une valeur réel.
Corrélation et régression linéaire chapitre 2
2
Contrairement à la relation fonctionnelle , la relation statistique n’est pas
parfaite , et tous les points de cordonnées (xi ;yi) ne tombent pas tous sur la courbe de la
fonction c’ est à dire chaque valeur de xi a deux valeurs de y une valeur réel représente le yi
et une valeur prédite (théorique ) prend le symbole issu de la courbe .l’ écart entre yi et
appelé le résidu ei ou erreur aléatoire (Déjà vu dans le chapitre de statistique descriptive) de
ce fait l’équation statistique s’écrit ainsi :
Y=f(x) = ax+ b +ei
Dont la somme ∑ =0
Pour mieux comprendre la notion de valeur de y réel et y prédit prenant l’exemple suivant :
Imaginons une parcelle dans une forêt choisie au hasard (échantillons aléatoire) on
dénombre le nombre total d’arbres contenus dans la parcelle (variable y) et on établit la
courbe de nombres d’arbre par apport à la taille de la parcelle (variable x).
les points ou les ordonnées (xi ;yi) forment un nuage de points. La courbe passe par le
le maximum de points pour estimer au mieux le y prédit .les points qui restent en dehors
de la courbe corresponds au y réel. Cette distribution est due à la distribution spatiale des
arbres qui peut être irrégulière.
Figure 2 : courbe de régression linaire nombre d’arbre en fonction de la taille de la parcelle
xi
��
yi
ei le résidu yi-��
Corrélation et régression linéaire chapitre 2
3
I- 1-La méthode des moindres carrés
La méthode des moindres carrés détermine l’ajustement entre y et x qui
produit le petit terme d’erreur c’est à dire réduire les valeurs de résiduelle ei ; minimum
d’erreur. Le calcul de la pente( a )dans ce cas et ajusté comme suit :
a=∑( ) ( )
∑( )
Et l’origine b b = -a
Exemple explicatif :
supposons que les données suivante ont été collectées à partir de l’exposition
séquentiel de E.coli à une solution de 10% de providine iodin au temps suivant
25s,50s,1m,5m avec 3 répétitions pour chaque temps (n=15) .l’exigence dans cette étude et de
démontré une régression linéaire entre les deux variables y(quantité de population en log10)et
le x ( temps) à fin de produire une ligne droite , dans le tableau des données les valeurs y ont
été transformé en log 10 qui est une échelle habituelle en microbiologie .
Table de données
N Y (log10) X (temps m) xy X2
1 6 0 0 0
2 5.8 0 0 0
3 6.5 0 0 0
4 5.1 0.41 2.091 0.1681
5 5.2 0.41 2.132 0.1681
6 5.6 0.41 2.296 0.1681
7 4.8 0.83 3.984 0.6889
8 4.7 0.83 3.984 0.6889
9 5.1 0.83 4.233 0.6889
10 4.4 1 4.4 1
11 4.6 1 4.6 1
12 4.5 1 4.5 1
13 2.3 5 11.5 25
14 2.1 5 10.5 25
15 2.5 5 12.5 25
L’équation =5.087-0.558 x
Corrélation et régression linéaire chapitre 2
4
Nous remarquons que quand x=0 y intercepté avec b est égale à
5.5087log10.La pente a prend une valeur négative -0.558 cette valeur signifie que la courbe
et Décroissante elle explique que la population microbienne et réduite de 0.558 log 10 pour
chaque instant d’exposition.
Dans l’équation le y prédit = 5.087quand x=0 mais le y réel peut prendre le
6.5 , 5.58, et le 6log10 quand x=0 (voir le tableau). Pour cela on opte pour la correction de la
courbe on utilisant le résiduelle ei .
Le e est simplement la différence entre la valeur réel y et la valeur prédite,
dans ce cas pour minimiser le e on laisse tomber les valeurs de x =0 et on ajuste la courbe
pour n=12.
I-2-Prédiction de la moyenne de à partir de x
Comme toujours valeur prédite dans un processus suit toujours la loi =ax+b
avec une condition que la valeur prédite à x soit inclus dans la courbe de régression. La
moyenne des valeurs de y ou valeur réel peut être calculé avec la formule habituel
=∑
Cette formule ne peut pas être appliqué pour les valeurs prédites c’est-à-dire la moyenne
prédite .de ce fait pour avoir cette valeur ont va estimer cette valeur et ont va l’encadrer
dans un intervalle de confiance. Cette estimation suit la loi de student ( à documenter).
La prédiction doit se faire dans un intervalle de confiance 100(1-α) autour de la moyenne y
prédite barre ( ) alors nous obtiendrons l’intervalle de confidence comme suit :
= ±t(α/2,n-2)
Corrélation et régression linéaire chapitre 2
5
I-3-Prédiction de la moyenne de spécifique à partir de x
La prédiction de la valeur à partir de x est similaire à la prédiction de la
moyenne comme toute premier étape et déterminé la courbe de régression après déterminé
le a une valeur précis de x .
La prédiction se fait dans un intervalle de confiance de 100(1-α).
La différence entre Sy et Sy¯ et ajouté le 1 à la valeur 1/n
II –la corrélation
On distingue deux types une corrélation, corrélation paramétrique et une corrélation non
paramétrique non paramétrique.
II-1 corrélation paramétrique
La corrélation paramétrique relié directement à l’analyse de régression la corrélation mesure
le degré de liaison entre deux variables prenons l’équation suivante y=1+2 x le tableau
suivant montre les valeurs xi et yi .
X Y y-
1 3 3 0
2 5 5 0
3 7 7 0
4 9 9 0
5 11 11 0
6 13 13 0
Nous remarquons que y=^y et e =0 pas d’erreur ces données sont parfaitement corrélé =1
Contrairement quand les valeurs prédite y^ n’interfère pas avec le ^y≠ax+b la corrélation =0
et la représentation graphique est un nuage de point diffus.
Corrélation et régression linéaire chapitre 2
6
II-2 Le coefficient de corrélation
Le coefficient limité dans un intervalle -1≤r≤1.il mesure le lien entre deux variables qui
suivent une loi normal c’est le coefficient de corrélation paramétrique ou de Pearson « r ».
II-3 Interprétation de r
II-4 coefficient de détermination r
2
Mesure de la qualité de prédiction d’une régression linéaire, ce coefficient varie entre
0 et 1 soit faible prédiction soit forte .ex si r=0.96, r2
=0.92 veut dire 92% seulement des
points expliqués par l’équation de régression.
Corrélation et régression linéaire chapitre 2
7
II-5 les tests de contrastes ou d’inférence de la pente a et de coefficient r
En statistique, la détermination de r et l’équation de régression ne suffit pas , il faut
toujours mesuré le risque d’ erreur ou mesurer la certitude de nos résultat par apport a un seuil
de risque α , cette étape appelé statistique inférencielle repose sur la formulation des
hypothèses qui traitent la probabilité d’ avoir un r qui s’éloigne de la valeur 0 avec un modèle
linéaire de régression entre deux variables x et y .cependant on peut poser la question
suivante : la corrélation entre x et y est- elle vraiment linéaire ou bien par hasard ? la variable
y depend ou corrèle avec la variable x ou bien c’est au hasard aussi ?
Pour répondre à cette question nous réalisons un test de contraste ou d’inférence
connu aussi par le test de certitude ou encore test de signification. Ce sont des tests
hypothétiques de comparaison ou de conformité entre une valeur calculé et une valeur
théorique ou tabulé.
Cette valeur tabulée dépend de la loi de distribution statistique et de la densité de
probabilité . Ce sont des table statistique standardisé et universelle pour chaque type de
distribution ou de loi .
Remarque : le test de contraste dans la régression linaire simple (deux variable) suit la
loi de student au taux de risque α et d.d.l =n-2
II-5-1 test de la pente a à 0
Dans certain étude, il n’est pas acquis d’avance qu’il existe une relation linéaire entre
x et y , alors il peut être pertinent de considérer la possibilité que tout tendance apparente
dans les données soit illusoire et ne reflète que l’amplitude de la variabilité dans cette
situation il est naturel de formuler l’hypothèse nul H0 et l’hypothèse alternative H1 .
H0 : pas de relation de dépendance entre y et x et a =0
Ou bien pas de corrélation entre y et x a=0
Ou bien pas de linéarité entre y et x
H1 : a≠0 il existe une relation entre X et Y
Corrélation et régression linéaire chapitre 2
8
Le test utilisé test de student avec une seuil de risque α ( le seuil de risque c’est le
pourcentage donné ou l’intervalle donné pour avoir commis une erreur ) et un d.d.l =n-2
dont n est la taille de l’échantillon ou bien le nombre de mesures effectuer ( d.d.l par
définition désigne le nombre de variable aléatoire qui ne peuvent pas être fixé par une
équation )
La valeur du test calculé est :
ts=
=
Variance résiduelle de la régression = ∑( )
-Les Règles de décision
Si la valeur du test de student calculé ˂ valeur du test dans la table H0 est accepté et
H1 rejeté, au seuil de risque α et d.d.l =n-2.
Si la valeur du test de student calculé ≥ valeur du test dans la table H0 rejeté et H1
accepté au seuil de risque α et d.d.l =n-2.
II-6.2 Test de r à 0
Avec le même principe on test le coefficient de corrélation par le test de student au seuil de
risque α et d.d.l= n-2.
La formulation des hypothèses comme suit :
H0 : pas de corrélation entre x et y
H1 : : ≠0
Variance de la pente a
Corrélation et régression linéaire chapitre 2
9
La formule du test de la valeur calculé et
ts=
√
Règle de décision :
Si la valeur calculée du test de Student < valeur tabulée pour (n-2) ddl : rejet de H1
Si la valeur calculée du test de Student ≥ valeur tabulée pour (n-2) ddl : rejet de H0
III-Corrélation non paramétrique
Comme déjà vu, le coefficient de Pearson est les tests de significations qui lui sont
associés reposaient sur deux principes ; les variables X et Y deux variables quantitatives qui
suivent une distribution normale, ce qui implique la linéarité de la relation entre eux.
Or , on biologie il est fréquent que la variable soit semi quantitative ordinal( on peut
l’ordonné d’une manier croissante ou décroissante, comme l’âge , la taille , le poids , le Ph )
qu’ elle ne soit pas liées linéairement ou que leur distribution ne soit pas normale .
Dans un cas pareil on utilise un coefficient de corrélation de rang qui mesure le
degré de concordance ou de liaison entre les rangs des observations en x et y .une parfaite
concordance produit un coefficient =1.
Remarque : comme dans les statistiques descriptives le rang définie la position des
valeurs par exemple dans une série statistique de valeur paire comme suit :
16 , 12,8,0,2,6,,36,….72 si on ordonne la série d’une manière croissante
0,2,6,8,12,16,36,….72 , la valeur 0 prend le rang 1 , la valeur 2 prend le rang 2 …
Corrélation et régression linéaire chapitre 2
10
III-1 Corrélation de Spearman
III-1-1 Définition et propriété
Le coefficient de corrélation de Spearman, symbolisé par , mesure le degré de
liaison existant entre le classement des éléments selon la variable X et le classement selon Y
.il s’agit en fait d’un coefficient de corrélation de Pearson calculé non pas sur les valeurs de
X et Y , mais sur les rangs des valeurs de X et Y .
Ou égale aussi a
Avec : correspond au rang de la variable x
la moyenne des rang de la variable x .
Correspond au rang de la variable Y
la moyenne des rang de la variable Y .
Correspond l’écart entre : - .
Le ρ de Spearman est une variante du coefficient de Pearson, il en reprend les propriétés
essentielles, à savoir : −1 ≤ ρ ≤ +1 ; il prend la valeur 0 lorsque les variables sont
indépendantes.
L’emploi du coefficient de Spearman est préférable à celui de Pearson dans les situations
suivantes :
-l’ échelle de variation d’au moins une des deux variable n’est pas relative mais ordinal (on
peut la ranger d’une manière croissante ou décroissante)
-la liaison entre X et Y non linéaire mais suspecte elle peut être monotone ( exponentielle
par exemple ).
-les distributions s’écarte de la normale ou présentent des valeurs exceptionnelles .
Ou
Corrélation et régression linéaire chapitre 2
11
Exemple numérique
Nous voulons étudier si une corrélation existe entre la taille (m) et le poids (kg) de 15
hommes pris au hasard dans une population choisie d’une manière aléatoire. Les résultats sont
présentés dans le tableau suivant.
Nombre Taille(m) Poids
(kg)
1 1.697 77.564
2 1.539 55.000
3 1.629 76.657
4 1.633 62.596
5 1.500 58.068
6 1.679 72.575
7 1.643 82.000
8 1.626 76.667
9 1.543 58.060
10 1.542 71.668
11 1.621 68.039
12 1.577 70.060
13 1.557 61.689
14 1.496 67.585
15 1.637 59.874
Solution
-Nature de la variable ; semi qualitative la variable X taille (qualitative mais mesurable)
-La variable Y représente le poids.
-Les deux variables sont ordinal (on peut les ordonnées d’une manière croissante).
- la liaison entre le poids et la taille n’est pas linéaire car on ne peut dire que la taille corrèle
positivement avec le poids si le poids est augmenté la taille augmente
Dans ce cas on utilise le coefficient de Spearman pour étudier la relation de corrélation entre
X et Y .
Corrélation et régression linéaire chapitre 2
12
On attribue les rangs pour la variable x (Ri) d’une manier croissante et(Si) le rang pour
la variable y .
Nombre Taille(m) =x Poids
(kg) =y
Ri Si RiSi Di
1 1.697 77.564 15 14 210 1 1
2 1.539 55.000 3 1 3 2 4
3 1.629 76.657 10 12 120 -2 4
4 1.633 62.596 11 6 66 5 25
5 1.500 58.068 2 3 6 -1 1
6 1.679 72.575 14 11 154 3 9
7 1.643 82.000 13 15 195 -2 4
8 1.626 76.667 9 13 117 -4 16
9 1.543 58.060 5 2 10 3 9
10 1.542 71.668 4 10 40 -6 36
11 1.621 68.039 8 8 64 0 0
12 1.577 70.060 7 9 63 -2 4
13 1.557 61.689 6 5 30 1 1
14 1.496 67.585 1 7 7 -6 36
15 1.637 59.874 12 4 48 8 64
somme 120 120 1133 214
On calcule le coefficient de Spearman on utilisant les 3 formules, juste pour voir que nous
obtiendrons le même résultat .
Nous avons tout d’abord formé le nuage de point
-
Corrélation et régression linéaire chapitre 2
13
-Dans la colonne 4 et 5, nous calculons respectivement les rangs Ri et Si , Nous
calculons alors le ρ avec la formule 1 . en appliquant directement la formule de Spearman sur
les rangs. Nous obtenons ρˆ = 0.61786 .
- Dans la colonne 6 , nous formons le produit Ri × Si , nous obtenons la somme ∑ i
RiSi = 1133. A partir de la formule 2, nous produisons ρˆ = 0.61786.
- La même valeur que précédemment. En7 émme colonne, nous calculons l'écart Di
et nous formons la colonne D2 i . La somme ∑ i D2 i = 214. En appliquant la formule 3, la
troisième estimation ρˆ = 0.61786 est totalement cohérente avec les précédentes.
Cas particulier
Traitement des ex aequo
Par définition on parle de valeurs ex aequo lorsque deux observation ou plus sont
égales. Dans l’exemple précédant sur les 15 hommes on pouvait avoir deux homme ou
plus possédant la même taille et même poids, la question qui se pose, ces valeurs
prennent-elles le même rang ou le rang suivant ?, dans un cas pareille on utilise le rang
moyen.
Prenons l’exemple suivant, nous avons 12 observations triés selon la valeur de X :
Individu Variable x Rang brute Rang moyen
1 0 1 1.5
2 0 2 1.5
3 1 3 3
4 2 4 5
5 2 5 5
6 2 6 5
7 5 7 7
8 6 8 8
9 7 9 9
10 8 10 10.5
11 8 11 10.5
12 12 12 12
-Comme nous voyons plusieurs observations ont des valeurs identiques, la premier
étape et établir les rangs brute d’une maniéré croissante la plus petit valeur prend le rang 1
jusqu’à n éme valeur.
Corrélation et régression linéaire chapitre 2
14
-Nous effectuons un second passage sur les données, nous calculons et attribuons la
moyenne de leur rang aux individus portant les mêmes valeurs. Ici, individu 1 et 2 ont la
même valeur, ils portent respectivement les rangs 1 et 2, nous leur affectons au final le rang
moyen
=1,5.
Pour les individus 4,5 et 6 nous effectuons le calcul
= 5.
Et pour les individus 10 et 11, nous calculons
=10.5
Nous réalisons les mêmes étapes pour la variable on attribue d’abord les rangs absolus
puis les rangs moyens.
Après cette étape des rangs moyens nous pouvons par la suite calculer le coefficient
par l’une des formules déjà donné de Ri et Si et de Di .
III-2 Test de signification du coefficient de Spearman
Avec le même principe que les tests de significations de coefficient de Pearson , le
coefficient de Spearman obéit a une loi de student . l’hypothèse nulle H0 sera formuler par
apport au 0 .
La première étape formulations des hypothèses :
H0 : =0 , pas de corrélation entre la variable X et Y.
H1 : ≠0 , existe une corrélation entre la variable X et Y.
Deuxième étapes : on calcule la valeur T calculer sauf si l’effectif n est aux alentours de
20 à 30
T=
√
Si l’effectif n est supérieur que 35 on utilise cette formule
T= √
Si l’effectif n compris entre 4 et 10 dans ce cas-là le test de signification suit des tables
spécifique difficile a aborder a cette étape .
Corrélation et régression linéaire chapitre 2
15
Troisième étape : règle de décision
La décision de rejeté l’hypothèse nul ou de l’accepté repose sur la comparaison entre la
valeur du test T tabulé au degré de liberté d.d.l n-2 et seuil de risque α
Si t calculé ≥ a t de la table H0 est rejeté
Si t calculé ˂ a t de la table H 0 est accepté
Résumer
La corrélation : est l’analyse qui permet de vérifier l’existence d’une relation entre
deux variables X et Y , dans ce chapitre nous abordons que deux type de corrélation :
- la Corrélation paramétrique représenté par le coefficient de Pearson .
- la Corrélation non paramétrique représenté par le coefficient de Spearman.
Régression linéaire : c’est la fonction mathématique ou graphique qui lie entre X et
Y elle est de l’ordre ax+b elle interprète la linéarité entre deux variable quantitative qui
suit une loi normal est corrèle entre eux par le coefficient de Pearson.
Corrélation paramétrique Corrélation non paramétrique
Coefficient Pearson ,r Spearman,
Nature de variable Qualitative Semi qualitative, ordinal
Distribution des variables Symétrique, loi normal Ne suit pas la loi normale
Test de signification de r Test de student Test de student n doit être
compris entre 20 et plus
Nuage de points Relation linéaire ax +b
Déterminer par la méthode
des moindres carrés
Test de signification de la
courbe sur la pente test de
student
Relation monotone,
exponentiel, ou parabolique
pour déterminer la courbe il
faut utiliser un modèle
mathématique.
Recommended