L’Estimation de Moindres Carrés

8/16/2019 L’Estimation de Moindres Carrés

http://slidepdf.com/reader/full/lestimation-de-moindres-carres 1/23



1.

Abstract

Les discussions sur les propriétés d'un estimateur sont largement concernées par l'estimation

ponctuelle qui est, dans la façon d'utiliser les informations de l'échantillon le plus efficacement

possible pour produire la meilleure estimation des paramètres du modèle.

Dans cet article, nous allons analyser le model général et des questions spécifiques soulevées

par l'estimation Bayésienne des moindres carrés et l’estimation linéaire des moindres

d’erreurs carrés.

2. Introduction

La méthode des moindres carrés est une approche standard dans l'analyse de régression pour

la solution approchée des systèmes surdéterminés, à savoir, ensembles d'équations dans

lesquelles il y a plus d'équations que d'inconnues. "Moindres carrés" signifie que la solution

globale minimise la somme des carrés des erreurs dans les résultats de chaque équation

unique.

Il est issu des domaines de l'astronomie et la géodésie que les scientifiques et les

mathématiciens ont cherché à apporter des solutions aux défis de naviguer les océans de la

Terre au cours de l'âge de l'exploration. La description précise du comportement des corps

célestes est la clé pour permettre aux bateaux de naviguer en haute mer, où les marins ne

pouvaient plus compter sur les observations terrestres pour la navigation.

La première exposition claire et concise de la méthode des moindres carrés a été publiée par

Legendre en 1805. La technique est décrite comme une procédure algébrique pour les

équations linéaires d'ajustement aux données et Legendre démontre la nouvelle méthode en

analysant les mêmes données que Laplace pour la forme de La terre. La valeur de la méthodede Legendre des moindres carrés a été immédiatement reconnue par les plus grands

astronomes et géodésiens de l'époque.

En 1809, Carl Friedrich Gauss a publié sa méthode de calcul des orbites des corps célestes.

Dans ce travail, il a prétendu avoir été en possession de la méthode des moindres carrés depuis

1795. Ceci a naturellement conduit à un conflit de priorité avec Legendre.



Cependant, à l'honneur de Gauss, il est allé au-delà de Legendre et a réussi à relier la

méthode des moindres carrés avec les principes de la probabilité et de la distribution normale.

Il avait réussi à compléter le programme de Laplace de spécifier une forme mathématique de la

densité de probabilité pour les observations, en fonction d'un nombre fini de paramètres

inconnus, et de définir une méthode d'estimation qui minimise l'erreur d'estimation.

Gauss a montré que moyenne arithmétique est en effet la meilleure estimation du paramètre

de localisation en changeant à la fois la densité de probabilité et de la méthode d'estimation. Il

a ensuite tourné autour du problème en demandant à ce que former la densité devrait avoir et

quelle méthode d'estimation doit être utilisée pour obtenir la moyenne arithmétique comme

estimation du paramètre de localisation. Dans cette tentative, il a inventé la distribution

normale.

En 1810, après avoir lu les travaux de Gauss, Laplace, après avoir prouvé le théorème central

limite, utilisé pour donner une grande justification de l'échantillon pour la méthode desmoindres carrés et la distribution normale. En 1822, Gauss a été en mesure d'affirmer que

l'approche des moindres carrés à l'analyse de régression est optimal en ce sens que dans un

modèle linéaire où les erreurs ont une moyenne de zéro, ne sont pas corrélées, et ont des

variances égales, le meilleur estimateur linéaire sans biais de les coefficients est l'estimateur

des moindres carrés. Ce résultat est connu comme le théorème de Gauss-Markov.

L'idée de l'analyse des moindres carrés a également été formulée de façon indépendante par

l'Américain Robert Adrian en 1808. Au cours des deux prochains travailleurs des siècles dans la

théorie des erreurs et des statistiques a trouvé beaucoup de façons différentes de la mise en

œuvre des moindres carrés. [4]

Un exemple très simple que nous allons traiter en détail afin d'illustrer le problème plus

général est celui d'une régression linéaire à une collection de paires d'observations , où 1, 2, … , . Nous supposons qu'un modèle raisonnable est de la forme:

,

[2.1]

et nous avons besoin d'un mécanisme pour déterminer

et

. Ceci est bien sûr qu'un cas

particulier de nombreux problèmes plus généraux, notamment à intégrer un polynôme d’ordre , pour lesquels il serait nécessaire de trouver 1 coefficients.

La méthode la plus couramment utilisée pour trouver un modèle est celui d'estimation des

moindres carrés. On suppose que est un organisme indépendant (ou prédiction) variable qui

est connu de façon précise, tandis que est un (ou réponse) variable dépendante. Des



moindres carrés (LS) estime pour et sont ceux pour lesquels les valeurs prédites de la

courbe de minimiser la somme des carrés des écarts des observations. [5]

Le problème est de trouver les valeurs de , qui minimise la somme résiduelle des carrés

, =

[2.2]



3. La methode des moindres carres

Supposément le signal utile s[n] a un modèle connu, mais qui dépend d'un paramètreinconnu, Ѳ, à déterminer. Le signal utile s[n] est généré par un modèle déterministe, en fonctiondu paramètre Ѳ inconnu à déterminer. Le signal utile s[n] est généré de façon déterministe, maisest affectée par le bruit d'observation et des erreurs causées par la différence entre le modèle et laréalité. Il suit les erreurs de modèle ou de modélisation. Par conséquent les données x[n] sontaléatoires et seules ces données sont disponibles. L’approche fondée sur la méthode des

moindres carres est montre dans la figure 1 [1].

Figure 1. Approche fondée sur la méthode des moindres carres

L'estimation de la méthode des moindres carrés (MC) permettra de déterminer la valeurdu paramètre inconnu Ѳ, qui fait que le signal s[n] soit le plus près possible des donnéesmesurées x[n]. La proximité du signal utile des données x[n] est mesurée en moins de différencede l'énergie x [n] - s [n], l’erreur ponctuelle [1].



Ѳ ∑ ∑ Ԑ−=−= [3.1]

La dépendance de Ѳ est soutenue par signal utile, s[n]. La valeur qui minimise ladifférence d'énergie est l’estimateur MC. S’observe qui nous n’avons pas fait aucune hypothèse

sur des données statistiques x[n]. Par conséquent, la méthode MC est applicable lorsque nous

avons des données de caractérisation statistiques ou lorsque l’estimateur optimal ne peut pas être

déterminé ou est trop compliquée pour être appliquée dans la pratique [1].

Exemple 3.1. On suppose que le signal utile est s[n] = A. Pour déterminer l’estimateur

MC la fonction dérivée est égale à zéro :

−=

Nous avons :

2 −= 2 2 0−

=

Il résulte que :

∑ −= [3.2]

L'estimateur MC pour la composante continue est la moyenne de l'échantillon, quelle que soit ladistribution statistique des données x [n]. L’estimateur est, dans le cas général, optimale dans la

sens de MVU. Il minimise seulement l’erreur MC, [3.1]. Si x[n] = A + w[n], le bruit v[n] est blanc, gaussien, avec la moyenne nulle, EMC est dans le même temps MVU.

Exemple 3.2. Les données utiles sont considérées comme un signal sinusoïdal:

2; 0, 1, … , 1 [3.3]



Avec la fréquence f 0 numérique inconnu. L’estimateur MC pour minimisez après f, f 0 :

∑ 2

−= [3.4]

Nous avons :

2 ∑ 222 0−= [3.5]

L'équation à résoudre est non linéaire par rapport à f 0 et ne peut être établi une formule pour . La détermination d’estimateur consiste à minimiser la fonction numérique J(f 0).

Si le signal utile est une fonction linéaire du paramètre inconnu, la fonction J est unefonction du second degré, dont le minimum est déterminé facilement. Un signal qui dépend

linéairement du paramètre inconnu génère un problème des moindres carrés linéaires. Dansd'autres cas, causent des problèmes non linéaires des moindres carrés.

Exemple 3.3. Le model pour le signal utile est :

2; 0, 1, … , 1

et le seul paramètre inconnue est l'amplitude A. Pour déterminer

on doit minimiser

après A la fonction:

∑ 2−= [3.6]

Le signal utile s[n], même s’il n’est pas linéaire dans le temps, il dépend linéairement du

paramètre A. Nous avons un problème des moindres carrés linéaires :

2 22 0−=



Il résulte :

∑ −

= 2 ∑ 2−=

[3.7]

Mais :

∑ −= 2 ∑ + ∑ 4 ≅ −=−= [3.8]

Si f 0 n’est pas très proche de 0 ou 0,5, le résultat final est:

∑ 2−= [3.9]



3.1. L’estimation Bayésienne des moindres carrés

Estimation de X de l'observation (ou la mesure) de Y

Étant donné un distribution préalable f x(x) pour X, une observation ou un ensembled'observations Y, et la distribution conditionnelle des observations f X|Y(y|x) , la distributionconditionnelle de X étant donné les observations est, après la règle de Bayes :

|| ||=∫ ||∞∞ [3.10]

Estimation ponctuelle : Étant donné des observations Y = y, l'objectif est souvent de

produire un nombre X y gy, plutôt qu’une densité, comme l'estimation pour X.

Dans les essais de hypothèses (où X prends un ensemble fini de valeurs ), la philosophie plus simple que toutes les erreurs sont tout aussi mauvaises conduit à la probabilité minimum decritère d'erreur qui se traduit par un maximum d'une règle de décision de probabilité a posteriori.

Dans l’estimation, nous ne souhaitons pas d'habitude d'obtenir exactement X et nous ne

considérons pas toutes les erreurs aussi mauvais - une mauvaise réponse très proche de la valeurréelle prise par X vaut mieux qu'une mauvaise réponse loin de X. Compte tenu du coût de

l'estimation incorrecte X y être X y x, conduit au critère de moyenne minimale d'erreurquadratique.

Estimation de moyenne minimale d'erreur quadratique.

Choisissez l'estimateur:

[3.11]



Qui minimise le coût moyen (= erreur carré):

,

[3.12]

La solution, comme nous l'avons vu, est la moyenne conditionnelle donnée par lesobservations:

| [3.13]

Exemple 3.1.1. Vous avez vérifié la pression d'air dans le pneu et vous avez déterminé lasemaine dernière elle était 30 psi. Tu crois qu’aujourd’hui tu as sa valeur approximative, mais

avec un écart type de 3 psi, en raison de changements de température et les fuites possibles. Vousmesurez aujourd'hui avec une jauge de pression a un écart-type de 1 psi et obtenir une lecture de29 psi. Trouve l'estimation MMSE de la vraie pression des pneus X d’aujourd'hui, étant donné

votre Y. Assume la mesure de pression et l'erreur de mesure X (X-Y) sont variables gaussiennesaléatoires indépendantes. [2]

Modèle: la distribution Avant de la pression des pneus X:

~ 30, 3

Erreur W de mesure Y:

~ 0, 1

29

On assume X, W indépendantes:



|| 0, 1

|| || [3.14]

1 1√ 2 −− 1√ 2 −−

1 1√ 21√ 2 −− +−

1 1√ 21√ 2 ℎ

ℎ exp 12 1 1 2

ℎ exp 12 2

ℎ exp 12 2



|| ℎ exp + 2 + +

[3.15]

|| est Gaussien. Il y a besoin de remplir la carre pour trouver lamoyenne conditionnelle et la variance de X, quand Y=y est donné :

2 [ 2 ( )]

( ) ( ). [3.16]

|| ℎ exp + 2 + − −}

[3.17]

ℎ exp + + [3.18]

| + + 0.9 0.1 29.1 . [3.19]

Mais : 3 1



| + 0.9 [3.20]

Observe que la dernière densité gaussienne et la densité conditionnelle gaussienne produit

une densité gaussienne postérieure. Ceci est une propriété particulière (et tout à fait inhabituel)de densités gaussiennes. Si l'on ajoute une deuxième (ou troisième ou ...) mesure indépendante,nous pouvons itérative affiner les estimations, en réutilisant les calculs précédents.

Le problème de Roméo et Juliette:

Il est bien connu que votre partenaire sera en retard avec une quantité aléatoires de X,uniformément répartie en [0, θ], où θ est propre à chaque personne et est inconnue: il estuniformément distribué entre 0 heures et 1 heure. Le problème est d'estimer vos partenaires θ à lafin de votre premier rendez-vous [2].

Le pdf d’avant est :

1, 0 ≤ ≤ 10,ℎ

Et la pdf conditionnelle est :

|| {1/, 0 ≤ ≤ 0,ℎ

En utilisant la règle de Bayes, la distribution postérieure est :

|| || ∫ ′ ||′′

(Le numérateur disparait sauf si 0 ≤ ≤ ≤ 1)



/∫ / || , 0 ≤ ≤ ≤ 1 [3.21]

La estimation MAP de

est l’estimateur :

[3.22]

Elle ne sera jamais plus en retard, qu’elle a été ce soir.

L'estimateur minimum d'erreur quadratique moyenne est l'estimateur:

| ∫ || −|| [3.23]

Figure 2. MAP et LMS estimations, et leur erreur quadratique moyenne conditionnelle enfonction de l'observation x [2]



3.2. L’estimation linéaire des moindres d’erreurs carrés

Compte tenu de Y, nous voulons un estimateur

qui donne une bonne

estimation pour X. Ici, bonne signifie qu'il a la propriété d'erreur LMS.Si nous trouvons le meilleur estimateur linéaire (par exemple, l'un avec une erreur de

moins de LMS que tout autre estimateur linéaire) puis:

1. (les mauvaises nouvelles) de moins bons résultats de performance: l'optimum(minimum) attendu erreur carrée augmente au plus de celui de la moyenne conditionnelle (oureste le même si la moyenne conditionnelle était linéaire en premier lieu),

2. (les bonnes nouvelles) l'estimateur est généralement plus simple à trouver, nécessite beaucoup moins de connaissance de la distribution conjointe de X et Y, et est plus facile à mettre

en œuvre.[3]

3.2.1 La covariance

, ≜ ∗ [3.24]

Cas de moyenne nulle : ,



,

∑ = ∑ 2 ∑ , ,:<= [3.25]

- Independent : , 0 (la réciproque est fausse)

Pour trouver le LMS linéaire de l’estimateur d'erreur de X ayant Y minimise :

( )

[3.26]

Utilisez les variables de moyenne nulle et et définir la dérivée de ( ) par rapport à a à zéro:

0 ( )

2 2 2 0 [3.27]

−−− , [3.28]

Donc, l’estimateur linéaire de est :

, [3.29]



Donc :

,

[3.30]

On vérifie si l’estimateur linéaire est biaisé :

≜ ≜ , [3.31]

,

0 [3.32]

[ ] [3.33]

Donc l'estimateur LMS linéaire est impartial.

On vérifie comment fonctionne l’estimateur linéaire :

-erreur quadratique moyenne de l'estimateur LMS linéaire :

,

,

, 2 , ,



, 1 ,

[3.34]

Mais, le coefficient de corrélation est:

, ≜ , [3.36]

1 , [3.37]

, ≜ , ,1 ≤ , ≤ 1

Est le coefficient de corrélation qui liens X a Y.

≤

↔ , 0

La construction de l’estimateur LMMSE :

,

[3.38]

Nécessite de connaître seulement cinq attentes : E[X], E [Y], E[X2], E [Y2], E [XY]

1 ≤ , ≤ 1, , Independentes , 0



( ) , ≤ [3.39]

Si x et y sont conjointement gaussien (comme dans la pression du pneu exemple

précédent), alors l'estimateur MMSE se révèle être automatiquement linéaire.

Dans le cas gaussien: estimateur LMS = estimateur LMS linéaire

Exemple simple:

X est une variable aléatoire uniforme 1 ≤ ≤ 1

Observation Y=X+N, où N est une variable aléatoire uniforme, ≤ ≤ ,indépendamment de X.

0 [3.40]

12 3 ,−

13,

+

[3.41]

, [3.42]

, + [3.43]

, ≜ , ⁄ ⁄ ⁄ + √ + [3.44]

(1 , ) + [3.44]



Beaucoup de ceci est intuitive. L'erreur quadratique attendue est toujours inférieure àl'erreur quadratique prévu pour votre meilleure estimation faite avec pas de données, parexemple, il est toujours inférieur à et approches d'en bas que a devient si grande lamesure devient inutile.

Le grand plus grand Y possi ble de la valeur est 1 + a. Pour certaines valeurs d’a, parexemple a = 0,5, la grande valeur maximale de est :

1 ++ 5 [3.45]

Tout ce qui est plus grande que la plus grande valeur possible de X (qui est 1).

Retourner à l'exemple de rendez-vous:

Votre partenaire a un montant maximum de temps dans lequel elle apparaîtra enretard, avec θ réparties uniformément dans [0,1] heure. À chaque rendez-vous, elle veutmontrer en retard d'au montant X, où X est réparti uniformément dans [0,θ]. Compte tenu devotre première rendez-vous (qui comprend une seule mesure X), trouve la meilleureestimation linéaire de θ, étant donné X. [3]

,

[3.46]

14 , 12

7144, 112

Pour trouver , , on utilise :

, [3.47]

Et :



[3.48]

| |

[3.49]

Donc :

, 16 12 14 124

Et enfin :

, 12 1247144 14 67 27

Figure 3. Trois estimateurs et leur erreur quadratique moyenne, en fonction de la valeur xobservé [3]



Bibliographie

[1] Detectie si estimare, material de curs, Ioan Nafornita

[2] PROBABILISTIC SYSTEMS ANALYSIS & APPLIED PROBABILITY, Massachusetts Institute of

Technology, Lecture 21

[3] PROBABILISTIC SYSTEMS ANALYSIS & APPLIED PROBABILITY, Massachusetts Institute of

Technology, Lecture 22

[4] Least squares https://en.wikipedia.org/wiki/Least_squares

[5] Geophysical Data Analysis: Statistics (C. Constable, D. C. Agnew)



Documents

L’Estimation de Moindres Carrés