10
Méthode des moindres carrés Voici le problème à résoudre Supposons des données expérimentales portées sur un graphique (figure ci-dessous), qui forment un nuage de points. Les points sont numérotés de 1 jusqu’à n. On cherche à déterminer l’équation de la droite qui passe le plus près possible de l’ensemble des points. 1 1 ( , ) xy 2 2 ( , ) x y ( , ) n n x y y mx b = + pente ordonnée à l’origine (0, ) b meilleure droite possible Figure 1: Nuage de points avec meilleure droite possible. On s’intéresse à l’erreur sur l’ordonnée de chaque point par rapport à la meilleure droite possible. La figure ci-dessous montre comment on mesure ces erreurs par rapport à la droite. 1 1 ( , ) xy 2 2 ( , ) x y ( , ) n n x y y mx b = + (0, ) b Erreur 1 = y 1 -(mx 1 +b) Erreur n = y n -(mx n +b) Erreur 2 = y 2 -(mx 2 +b) Tableau 1: Erreurs par rapport à la droite idéale. Comme certaines des erreurs (ou résidus) sont positives et d’autres négatives, il est pré- férable d’utiliser les carrés des erreurs pour quantifier l’erreur par rapport à la droite. On

Méthode des moindres carrés - Université de Sherbrooke

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Méthode des moindres carrés - Université de Sherbrooke

Méthode des moindres carrés

Voici le problème à résoudreSupposons des données expérimentales portées sur un graphique (figure ci-dessous),

qui forment un nuage de points. Les points sont numérotés de 1 jusqu’à n. On cherche àdéterminer l’équation de la droite qui passe le plus près possible de l’ensemble des points.

1 1( , )x y

2 2( , )x y

( , )n nx y

y mx b= +

pente ordonnée à l’origine

(0, )b

meilleure d

roite possib

le

Figure 1: Nuage de points avec meilleure droite possible.

On s’intéresse à l’erreur sur l’ordonnée de chaque point par rapport à la meilleure droitepossible. La figure ci-dessous montre comment on mesure ces erreurs par rapport à la droite.

1 1( , )x y

2 2( , )x y

( , )n nx y y mx b= +

(0, )b Erreur1= y1-(mx1+b)

Erreurn= yn-(mxn+b)

Erreur2= y2-(mx2+b)

Tableau 1: Erreurs par rapport à la droite idéale.

Comme certaines des erreurs (ou résidus) sont positives et d’autres négatives, il est pré-férable d’utiliser les carrés des erreurs pour quantifier l’erreur par rapport à la droite. On

Page 2: Méthode des moindres carrés - Université de Sherbrooke

PHQ260 Méthode des moindres carrés

écrira donc que la somme des carrés des erreurs (SCE) vaut

SCE = (y1 − (mx1 + b))2 + (y2 − (mx2 + b))2 + ...+ (yn − (mxn + b))2 (1)

Pour trouver la meilleure droite possible, il faut déterminer les valeurs de m et de b quiminimisent la SCE.

Un peu de mathématiqueCommençons d’abord par développer les termes au carré de l’équation [1].

SCE = y21 − 2y1(mx1 + b) + (mx1 + b)2

+ y22 − 2y2(mx2 + b) + (mx2 + b)2

::+ y2

n − 2yn(mxn + b) + (mxn + b)2

(2)

On développe ensuite les dernières parenthèses qui sont au carré

SCE = y21 − 2y1mx1 − 2y1b+m2x2

1 + 2mx1b+ b2

+ y22 − 2y2mx2 − 2y2b+m2x2

2 + 2mx2b+ b2

::+ y2

n − 2ynmxn − 2ynb+m2x2n + 2mxnb+ b2

(3)

On peut ensuite regrouper les termes semblables

SCE = (y21 + y2

2 + ...+ y2n)− 2m(y1x1 + y2x2 + ...+ ynxn)− 2b(y1 + y2 + ...+ yn)

+ m2(x21 + x2

2 + ...+ x2n) + 2mb(x1 + x2 + ...+ xn) + nb2

(4)Le premier terme de cette équation peut être réécrit différemment. En effet, la moyenne descarrés des y s’écrit

y2 = y21 + y2

2 + ...+ y2n

n=⇒ ny2 = y2

1 + y22 + ...+ y2

n

Également, le deuxième terme de la SCE, la moyenne des produits des x par y, s’écrit

y1x1 + y2x2 + ...+ ynxn

n= xy =⇒ nxy = y1x1 + y2x2 + ...+ ynxn

En procédant asinsi pour les autres termes de la SCE, on peut écrire

SCE = n y2 − 2mnxy − 2b ny +m2 nx2 + 2mbnx+ nb2 (5)

Il faut maintenant minimiser la SCE. Il faut donc trouver les valeurs de m et b pour lesquellesla SCE présente un minimum.

Attention : Ici les x et les y ne sont pas des variables, leurs valeurs sontconnues. Seules m et b sont inconnues.

11.2

Page 3: Méthode des moindres carrés - Université de Sherbrooke

PHQ260 Méthode des moindres carrés

La figure suivante montre une droite de pente égale à 5 avec une ordonnée à l’origine de 3avec un peu de dispersion.

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

X

-4

-2

0

2

4

6

8

10

Y

Figure 2: Droite de pente égale à 5 et d’ordonnée à l’origine de 3.

Traçons maintenant la valeur de la SCE en fonction des paramètres m et b. Nous obtenonsune surface qui présente un minimum lorsque m = 5 et b = 3.

010

1

5 20

2

10 4

SCE

15

3

ordonnée à l'origine

0 10

pente

5

4

-5 0-5

-10 -10

Figure 3: Valeur de la SCE en fonction des paramètres m et b.

On se pose maintenant la question suivante : comment trouver mathématiquement lesvaleurs de m et de b pour lesquelles la SCE est minimale ? La réponse réside tout simplement

11.3

Page 4: Méthode des moindres carrés - Université de Sherbrooke

PHQ260 Méthode des moindres carrés

par la résolution des deux équations suivantes∂(SCE)

∂m = 0

∂(SCE)∂b = 0

(6)

En effet, notez que la SCE présente un minimum dans la direction de l’axe m et un autre lelong de l’axe b. Il faut donc exiger que la dérivée partielle de la SCE par rapport à m soitnulle et que sa dérivée partielle par rapport à b soit nulle aussi. La dérivée partielle veutdire que lorsqu’on dérive une fonction à plusieurs variables (ici m et b), on dérive l’équationpar rapport à une seule variable et on laisse les autres fixes. On obtient donc que

∂(SCE)∂m

= −2nxy + 2mnx2 + 2bnx = 0 (7)

∂(SCE)∂b

= −2ny + 2mnx+ 2bn = 0 (8)

Remarquez qu’on peut diviser les deux équations précédentes par 2n et obtenir le systèmesuivant

−xy +mx2 + bx = 0 (9)−y +mx+ b = 0 (10)

On peut résoudre directement ce système de deux équations à deux inconnues. Il est parcontre intéressant de les transformer encore un peu pour s’intéresser à leur sens physique.Réécrivons-les comme étant

mx2 + bx = xy (11)mx+ b = y (12)

On rappelle maintenant que l’on cherche à déterminer les paramètres de l’équation y =mx + b qui passe à travers les points. D’après l’équation [12], il est évident que le pointG(x, y) situé à x = x et y = y passe par cette droite d’ajustement (appelée droite desmoindres carrés).

→ G(x, y) ∈ droite des moindres carrés

1 1( , )x y

2 2( , )x y

( , )n nx y

pente ordonnée à l’origine

(0, )b

meilleure d

roite possib

le

y G

x

y mx b= +

Figure 4: Le point G fait partie de la droite d’ajustement.

11.4

Page 5: Méthode des moindres carrés - Université de Sherbrooke

PHQ260 Méthode des moindres carrés

Trouvons maintenant un autre point de la droite à l’aide de l’équation [11]. D’abord,réécrivons-la sous la forme

mx2

x+ b = xy

x(13)

Ce qui veut dire que le point H( x2

x ,xyx ) fait aussi partie de la droite des moindres car-

rés. Reprenons maintenant les équations [13] et [12] et modifions-les un peu. La premièretransformation consiste à faire la soutraction entre les équations [13] et [12].

m x2

x + b = xyx m

(x2

x − x)

= xyx − y

=⇒mx+ b = y mx+ b = y

Nous avons donc obtenu deux nouvelles équations qui vont maintenant nous permettre dedéterminer m et b. Prenons la première et multiplions-la par x/x. Nous obtenons

m =xyx − y

x2

x − x× x

x= xy − yxx2 − (x)2 (14)

et évidemment on peut trouver b facilement à l’aide de la relation

b = y −mx (15)

Reprenons maintenant ces résultats en termes d’indicateurs statistiques (variance et cova-riance). La variance des x est définie comme suit :

σ2x =

n∑i=1

x2i

n− (x)2 = x2 − (x)2 (16)

et la covariance des x et y est définie par

cov(x, y) =

n∑i=1

(xi − x)(yi − y)

n(17)

et il est possible de montrer que (voir Annexe)

cov(x, y) = xy − xy (18)

Avec ces définitions, on peut donc écrire que

m = cov(x, y)σ2

x

et b = y −mx (19)

11.5

Page 6: Méthode des moindres carrés - Université de Sherbrooke

PHQ260 Méthode des moindres carrés

Exemple simpleDonnons maintenqant un exemple simple avec un nuage de points ne contenant que trois

données. Soient les points (1, 2), (2, 1) et (4, 3) du graphique suivant.

(1, 2)

(2, 1)

(4, 3)

x

y

Figure 5: Exemple de nuage de points.

Pour déterminer m et b, nous allons utiliser les relations suivantes :

m = xy − yxx2 − (x)2 et b = y −mx

Procédons aux calculs des quantités nécessaires :

x = 1+2+43 = 7

3

y = 2+1+33 = 2

xy = 1×2+2×1+4×33 = 16

3

x2 = 12+22+42

3 = 213 = 7

Maintenant on peut calculer m et b :

m =163 −

73 × 2

7−(

73

)2 =163 −

143

7− 499

=23

63−499

= 23 ×

914 = 3

7

b = 2− 37 ×

73 = 2− 1 = 1

Le graphique suivant montre le résultat obtenu.

11.6

Page 7: Méthode des moindres carrés - Université de Sherbrooke

PHQ260 Méthode des moindres carrés

(1, 2)

(2, 1)

(4, 3)

droite des moindres carrés

x

y

Figure 6: Exemple de régression linéaire.

Coefficient de détermination (R2)Nous allons maintenant décrire comment est calculé le fameux coefficient de détermi-

nation appelé R2 qui sert à quantifier la qualité de la régression linéaire. Il faut cependants’assurer visuellement que le nuage de points suit bien une droite pour apprécier la valeurde ce coefficient. Commençons par imaginer un nuage de points duquel on a trouvé la droitedes moindres carrés (y = mx+ b).

1 1( , )x y

( , )n nx y

droite des moindres carrés

1y1y

1e

2e2y

2y

ne

y mx b= +

Figure 7: Nuage de points où l’on montre les écarts p/r à la droite D.

Les symboles (e1,e2, ..., en) représentent les erreurs par rapport à la droite. Les coordon-nées y (y chapeau) représentent la coordonnée y d’un point (x, y) situé sur la droite avecla même coordonnée x que le point expérimental. Nous avons déjà vu qu’il fallait calculerla somme des carrés des erreurs par rapport à la droite D.

SCED = e21 + e2

2 + ...+ e2n

SCED = (y1 − (mx1 + b))2 + (y2 − (mx2 + b))2 + ...+ (yn − (mxn + b))2

11.7

Page 8: Méthode des moindres carrés - Université de Sherbrooke

PHQ260 Méthode des moindres carrés

et qu’à partir de là on pouvait trouver les valeurs de m et de b. On va maintenant s’intéresserà une autre quantité : la somme des carrés des erreurs par rapport à la moyenne des y.

SCEy = (y1− y)2 +(y2− y)2 +...+(yn− y)2 somme des carrés des erreurs p/r à la moyenne

1 1( , )x y

( , )n nx y

y mx b= +

droite des moindres carrés

1y1y

1e

2e2y

2y

ne

y

Figure 8: Nuage de points avec la moyenne des y.

La figure suivante montre ces écarts par rapport à la moyenne (barres vertes).

1 1( , )x y

( , )n nx y

y mx b= +droite des moindres carrés

écart p/r à la moyenne

1y1y

1e

2e2y

2y

ne

y

Figure 9: Nuage de points où l’on montre les écarts p/r à la moyenne y.

On se pose maintenant la question suivante : quelle proportion de la SCEy est expliquéepar la droite D ? Il est plus facile d’aborder cette question en disant que

SCED : partie de la SCEy qui n′est pas expliquee par la droite D

11.8

Page 9: Méthode des moindres carrés - Université de Sherbrooke

PHQ260 Méthode des moindres carrés

Il est alors possible d’écrire que

SCED

SCEy: proportion de la SCEy qui n

′est pas expliquee par la droite D

La proportion de la SCEy qui est expliquée par D, qui est notée R2, est donnée par

R2 = 1− SCED

SCEy(Coefficient de détermination) (20)

11.9

Page 10: Méthode des moindres carrés - Université de Sherbrooke

PHQ260 Méthode des moindres carrés

Annexe A Démonstration de la covariance (équation [18])

Nous voulons démontrer que

cov(x, y) =

n∑i=1

(xi − x)(yi − y)

n= xy − xy (A-1)

1n

n∑i=1

(xi − x)(yi − y) = 1n

Σ (xiyi − xiy − xyi + xy)

= 1n

(Σxiyi − nyΣxi − nxΣyi + nxy)

= Σxiyi

n− nyΣxi

n− nxΣyi

n+ xy

= Σxiyi

n− yx− xy + xy

= Σxiyi

n− yx

= xy − xy

11.10