Analyse Donnees

Université de Toulouse – Pôle de Recherche et d’Enseignement Supérieur

Institut National des Sciences Appliquées de Toulouse

Université Paul Sabatier – Toulouse III

Laboratoire Matériaux et Durabilité des Construction s

Stéphane LAURENS – 2008/2009

ANALYSE ET EXPLOITATION DE DONNEES EXPERIMENTALES –

Notions sur la MODELISATION …

Master 2 Recherche « Génie Civil – Matériaux – Structu res »

Préambule

Ce cours présente certains concepts dédiés à l’analyse et à l’exploitation de données expérimentales. Il aborde aussi dans ce cadre la problématique générale de la modélisation qui constitue souvent une finalité scientifique pour le chercheur.

Il est volontairement dépouillé des « détails mathématiques » qui sont accessibles très facilement dans un grand nombre d’ouvrages ou sur l’Internet. Il vise, en un temps limité, à donner aux futurs chercheurs en génie civil un aperçu de certains outils conceptuels ayant vocation àrépondre à certaines leurs futures préoccupations.

Il appartiendra ensuite à ces chercheurs d’approfondir les concepts qu’ils jugent pertinents vis-à-vis de leurs projets de recherche.

Remarques préliminaires

Préambule

Dans ce séminaire, les parties « Rappels théoriques » et « Grands concepts d’analyse statistique » s’appuient en grande partie s ur les références suivantes :

Data Mining 1. Exploration statistique , Alain Baccini & Philipe Besse, Publications du LSP, Université Paul Sabatier, 2003

Décision et prévision statistiques , Thierry Verdel, Ecole des Mines de Nancy, 2001

Cours de Probabilités et Statistiques , Hélène Milhem et Benoit Truong-Van, INSA Toulouse, 2006-2007

Statistique avec de petits échantillons , Gilles Celeux, Conférence présentée aux Journées Fiabilité des Matériaux et des Structures, Nantes, 2008

Internet et Wikipedia

Références bibliographiques

1 – Introduction : modélisation

2 – Modélisation statistique

3 – Rappels : théorie des probabilités

4 – Analyses de données : grands concepts

Analyse en composantes principales

Classification

Inférence statistique

Inférence bayésienne

Test d’hypothèse

Au sommaire…

Introduction :

Généralités

Discussion sur la modélisation en GC

Introduction

Expérimentation, acquisition de données …

Analyse de données …

Modélisation…

Remarques préliminaires…

Variabilité de la mesure… Variabilité du matériau…Incertitudes / aléas

Recherche de corrélations simples ou complexes, de liens de causalité…Caractériser l’aléa observable sur des données mesurées et l’intégrer dans la démarche de modélisation…

Décrire, expliquer…Prédire … Recherche de liens mathématiques entre des données…

Introduction

Qu’est-ce que la modélisation ?

Actions, sollicitations, excitations… variables… physiques, mécaniques, chimiques, couplées

Réactions, réponses, conséquences…… physiques, mécaniques, chimiques, couplées

Modèle ou loi de comportement… physiques, mécaniques, chimiques, couplées

Propriétés(paramètres du modèle)

Modélisation directe

Introduction

Modélisation inverse

Introduction

Problème d’identification !

Modélisation inverse

Introduction

Modélisation statique

Modélisation dynamique

Invariance par rapport au temps

Ex. Modèle de calcul des sollicitations internes dans une structure sous sollicitations statiques

Dépendance à la variable temps

Ex. Modèle de calcul des sollicitations internes dans une structure sous sollicitations dynamiquesEx. Prédiction de la concentration en chlorures dans le béton à une échéance donnée

Introduction

Difficultés liées à la modélisation en génie civil

Variabilité / Stochasticité spatiale à l’échelle du matériau

Degré d’hétérogénéité variable avec l’échelle d’observation

Milieux poreux – phénomènes de transport souvent réactifs

Interactions chemo-physico-mécaniques « complexes / compliquées »

Interactions spatio-temporelles

Non-linéarités omniprésentes

Phénomènes irréversibles : « vieillissement »

Endommagements mécaniques : isotrope et anisotrope …

La modélisation physique statique et dynamique des matériaux de construction et des structures confronte le chercheur à des problème s d’une complexité rare…

Introduction

Problématiques de recherche à différentes échelles :

Matériaux (nano, micro, méso, macro)

Structures

Villes

Planète

Difficultés liées à la modélisation en génie civil

Introduction

Approches de modélisation classiques en GC:

- approche déterministe classique… modèle physique

- approche probabiliste, semi-probabiliste

- approche statistique… modèle empirique

Unicité du lien entre les variables d’entrée du modèle et la sortie…

Comment tenir compte de la variabilité éventuelle des sollicitations, des propriétés des matériaux… ?

Les entrées et/ou les propriétés d’un modèle déterministe sont définies comme des variables aléatoires… La réponse du modèle est donc une variable aléatoire.

Relations trop complexes pour être approchées de façon classique …Apprentissage par des méthodes appropriées des relations observées expérimentalement entre des données (exemple : réseaux de neurones artificiels)

Introduction

- approche systémique

- approche probabiliste

- physique de non-équilibre

- Systèmes dynamiques… chaos

- Systèmes complexes

-Processus stochastiques(Paradigme purement probabiliste)

Paradigmes en voie de développement dans le champ d u génie civil :

Comportement DETERMINISTE…

Comportement STOCHASTIQUE…

CHAOS…

… comportement d’apparence stochastique généré par un syst. déterministe… hypersensibilité aux conditions initiales du système

Introduction

Modélisation dynamique… ou comment prévoir l’avenir…

Paradigmes classiquesEx. Dynamique newtonienne

Paradigmes probabilistesEx. Processus stochastiques

Paradigmes mixtes (recours nécessaire aux probabilités)

… parfaitement prévisible

… totalement imprévisible

Introduction

Approche systémique

Entité physique dont l’état est défini par n variables indépendantes : v i avec i = 1…n

Les variables d’état sont les degrés de liberté du système.

Système dynamique

Les variables d’état sont des fonctions du temps : v i(t)

Dans certains cas, la loi d’évolution est connue ou supposée connue. Le système dynamique est alors décrit par le système différentiel :

où p j sont les paramètres de la loi d’évolution.)p,,p;t,v,,v(Ft

i KK 11=∂

Système …

Introduction

Système dynamique non linéaire …

Nombre de variables ≥ 3

+ non-linéarité (la fonction Fi est non linéaire)

= possibilité de chaos

Chaos : hypersensibilité aux conditions initiales

… imprévisibilité du comportement du système au-delà d’un temps caractéristique (temps de Lyapunov)

Espace des phases

Le comportement du système est étudié dans l’espace des phases, espace abstrait de dimension n dont les axes traduisent les variables d’état. Un point dans l’espace des phases décrit l’état du système à un instant donné. Une trajectoire (ensemble de points) décrit l’évolution de l’état du système.

Introduction

Exemple du système de Lorenz

Système dynamique non linéaire… théorie du chaos

ββββ−−−−====

−−−−ρρρρ====

−−−−σσσσ====

Modélisation de la convection atmosphérique

Série temporelle x(t)… apparence stochastiqueTrajectoire dans l’espace des phases…

Attracteur de Lorenz

Introduction

Système constitué d’un grand nombre d’entités en interaction.

Nombre très important de degrés de liberté.

Le comportement des systèmes complexes ne peut être appréhendé selon une approche réductionniste.

La connaissance de lois de comportement définies à l’échelle des « composants élémentaires »du système ne permet pas d’inférer le comportement global du système.

Concept d’émergence : le comportement du système complexe émerge des interactions locale àgrande échelle entre les composants élémentaires.

Les propriétés émergentes ne peuvent être décrites au moyen d’un formalisme mathématique défini à l’échelle globale du système. Elles ne sont observables qu’au travers de l’expérience ou de la simulation basée sur l’itération suffisamment poussée de lois locales (automates cellulaires, dynamique sur réseaux, essaim particulaires…).

Système complexe

Introduction

Un système en interaction avec son environnement est par définition en état « hors-équilibre ».

L’état « hors-équilibre » est instable.

Béton, béton armé ???

Quel point de vue adopter pour décrire l’évolution de ces systèmes ?

Equilibre ?Non-équilibre ?

Physique/thermodynamique de non-équilibre

Introduction

Théorie des probabilités / Statistique

Statistique = Application utilitaire de la théorie des probabilités… Autre exemple d’application : les assurances

Statistique descriptive … méthode de résumé (forme la plus ancienne)…condenser, analyser et présenter des informations numériques trop nombreuses pour être utilisables exhaustivement… produire un nombre réduit d’infos utilisables qualifiées de statistiques

Objet de la statistique = définitions diverses…

Statistique mathématique … introduction du concept de probabilité… connaissance plus économe d’une population, influence des divers facteurs de variations, recherche d’ordre dans le désordre

Statistique prédictive …… tirer des hypothèses sur le futur à partir de la connaissance des statistiques du passé (notion de conjoncture en économie)

Intérêt de l’analyse statistique pour la recherche en génie civil

Introduction

Définition de la statistique

Ensemble des méthodes permettant de prendre des décisions raisonnables en présence d’incertitude !

Liens multiples avec la recherche en génie civil…

Variabilité des matériaux (résistance caractéristique…)…

Sollicitations stochastiques (vent, trafic routier, séismes...)…

Diffusion… physique statistique ???

Systèmes complexes…

Intérêt de l’analyse statistique pour la recherche en génie civil

Modélisation

statistique

Modélisation statistique

Régression linéaire ou non linéaire

Problème typique

f(x 0)

f(x 1)

f(x 2)

f(x 3)

f(x 4)

x2 x3 x4

Soit un jeu de données « expérimentales » (x i, f(x i)) représenté sur la figure ci-dessous.

La régression linéaire ou non linéaire consiste à définir les paramètres d’un modèle connu ou inconnu de façon à ce que celui-ci s’ajuste « au mieux » sur des données expérimentales.

Exemple : le comportement expérimental peut être modélisé par une fonction affine y = a.x + b

Comment trouver un couple (a,b) permettant de minimiser l’erreur

entre le modèle et l’expérience ?

Problème typique

f(x 0)

f(x 1)

f(x 2)

f(x 3)

f(x 4)

x2 x3 x4

Comment juger de leurs pertinences respectives ?

Modèle 1

Modèle 2

Modèle 3

- sens physique- erreur modèle / expérience « au sens des moindres carrés »...

Le modèle 3 produit l’erreur modèle/expérience la plus faible, mais cela ne signifie pas qu’il est physiquement pertinent.

Attention : sur un même jeu de données, on peut ajuster différents modèles.

Problème typique

Droite ajustée

Polynôme d’interpolation

Attention : Ajustement (approximation) ≠≠≠≠ Interpolation !!!

x2 x3 x4

Exemple : ajustement d’une droite d’équation ym = a.x+b sur les données ( x i,y i )

y i = valeur expérimentale associée à x i

ymi = a.x i+b = valeur théorique associée à x i

Problème de moindres carrés

Approche algébrique : soit un couple (a,b) quelconque...

+=+=+=+=+=

−−−−−

Expérience Modèle Différence Expérience/Modèle

L’erreur produite par le modèle y = a.x + b peut êt re évaluée au moyen de la norme du vecteur « Différence ».

( ) ( ) ( ) ( ) ( )24m4

20m0m yyyyyyyyyyyy −+−+−+−+−=−

La norme du vecteur est donc une mesure de l’écart entre l’expérience et le modèle.

L’approximation au sens des moindres carrés consiste à trouver un couple (a,b) tel que la norme de soit minimale.

Plus généralement, l’approximation consiste à ajuster les paramètres d’un modèle de sorte que la norme de élevée au carré soit minimale.

( ) ( ) ( ) ( )2mnn

m yy......yyyyyyyy −++−+−+−=−rr

Généralisation au cas d’un jeu de n données

Problème des moindres carrés

+=+=+=+=+=

Formulation matricielle

s.Ayrr

Formulation générale

Théorème

La solution du problème de moindres carrés linéaire vérifie le système des équations normales :

5 équations et 2 inconnues : Système sur-déterminé > n’existe passr

( ) y.A.A.AsyAs.A.A T1Tmc

T rrrr −=⇒=

Problème de moindres carrés linéaire

cx.bx.ay

++=Ajustement des paramètres d’un polynôme de degré 2 ? Pb de moindres carrés linéaire !

s.Ayrr

Formulation générale

Théorème

La solution du problème des moindres carrés linéaire vérifie le système des équations normales :

5 équations et 2 inconnues : Système sur-déterminé > n’existe passr

( ) y.A.A.AsyAs.A.A T1Tmc

T rrrr −=⇒=

Problème de moindres carrés linéaire

Pas de formulation matricielle possible…

… ajustement des paramètres du modèle non linéaire à l’aide d’outils d’optimisation

… Optimisation : minimisation ou maximisation d’une fonction de performance (fonction coût ou fonction objectif) à l’aide d’algorithmes itératifs :

- Méthodes de type Gauss-Newton (Matlab, Excel…)- Algorithme génétique (intéressant si grand nombre de paramètres à ajuster)

… Exemple de fonction de performance : Erreur quadratique moyenne

Problème de moindres carrés non linéaire

( ) ( ) ( ) ( )n

yy......yyyyyyn

m −++−+−+−=−

Méthodes de type Gauss-Newton : principe simplifié 1D

F(x) : fonction de performancef(x) : dérivée de F(x)

ααααx4x0

(x0, f(x 0))

(x1, f(x 1))

(x2, f(x 2))

(x3, f(x 4))

Algorithmes d’optimisation

Minimisation de F(x) :recherche des racines de sa

dérivée

-Applicable aux problèmes en dimensions n

- Sensible à l’existence d’extrema locaux, et donc au choix du x0

Algorithmes d’optimisation

Algorithmes génétiques

Optimisation basée sur le concept de la sélection naturelle

Définition aléatoire d’une population initiale de solutions potentielles du problème d’optimisation.

Sélection des solutions les plus adaptées au problème.

Croisements et mutations opérés sur les solutions sélectionnées afin de constituer la génération suivante.

Itération jusqu’à obtenir une génération de solutions homogènes correspondant à la solution du problème.

Exemple : ajustement des paramètres d’un modèle de diffusion

−−=

t.D.4xerf).CC(C)t,x(C

Solution analytique de la seconde loi de Fick

Données : Ci et t

Paramètres à ajuster : De et Cs

du)uexp(π

2)z(erf

2∫ −=

0 , 0 0 0 99 ,3 6 5

0 , 0 0 1 37 ,4 2

0 , 0 0 6 96 ,1 7

0 , 0 1 0 45 ,1 8 5

0 , 0 2 0 44 ,3 9 5

0 , 0 3 43 ,3 8 5

0 , 0 7 2 12 ,3 3 5

0 , 0 8 5 71 ,7 4

0 , 0 9 6 91 ,2 4

0 , 1 3 1 10 ,8 6 5

0 , 1 5 2 10 ,3 2 5

C C l(% m a s s iq u e )

x i( m m )

0 , 0 0 0 99 ,3 6 5

0 , 0 0 1 37 ,4 2

0 , 0 0 6 96 ,1 7

0 , 0 1 0 45 ,1 8 5

0 , 0 2 0 44 ,3 9 5

0 , 0 3 43 ,3 8 5

0 , 0 7 2 12 ,3 3 5

0 , 0 8 5 71 ,7 4

0 , 0 9 6 91 ,2 4

0 , 1 3 1 10 ,8 6 5

0 , 1 5 2 10 ,3 2 5

C C l(% m a s s iq u e )

x i( m m )

Données expérimentales

Exemple : ajustement des paramètres d’un modèle de diffusion

Solveur Excel

Profil de concentration en ions chlorures

0 2 4 6 8 10

Pro fonde ur (mm)

Réseaux de neurones artificiels

Méthode de modélisation statistique non paramétrique

… les paramètres du modèle n’ont aucun sens physique (boîte noire).

Apprentissage des relations complexes existant entre différentes parties d’une banque de données expérimentales

Principe : reproduire les capacités d’apprentissage et de reconnaissance du cerveau

Applications : modélisation non paramétrique, aide à la décision, reconnaissance de formes, reconnaissance de la parole, diagnostic, prévision économétrique…

Qualités : parcimonie, boîte noire - Défauts : boîte noire

Régression non linéaire

Historique – Travaux de 2 neurobiologistes (1940)

Neurone biologique

Dendrites

Sortie(axone)

Neurone artificiel (fonction mathématique)

Entrées(dendrites)

Unité de traitement des informations

d’entrée

Poids synaptiques

Synapses

Neurone formel (ou artificiel) : fonction non linéaire paramétrée à valeurs bornées

Entrées

Sortie

Réseau de neurones artificiels

Fonction d’activation

(ou de transfert) :

a=f(n)

Fonction d’activation

(ou de transfert) :

a=f(n)

Structuration des données expérimentales

La base de données expérimentales est décomposée en 3 parties :

- base d’apprentissage (au moins 2/3 des exemples)

- base de test

- base de validation

La base d’apprentissage doit contenir les exemples contenant les valeurs extrêmes des variables d’entrée.

Structuration des données expérimentales

Données d’apprentissageDonnées de test

Données de validation

Plage de variation de x

Plage de variation de x décrite par les données d’apprentissage

Apprentissage

Optimisation des poids et des biais visant à minimiser l’erreur quadratique moyenne En calculée entre les prédictions et les valeurs cibles

Algorithme d’apprentissage usuel (Newton) : rétropropagation du gradient de l’erreur En

Critère d’arrêt : validation croisée

L’apprentissage optimal est conditionné par l’erreur commise sur la base de test.

nn1n W

∂∂−=+

Apprentissage : critère d’arrêt

Apprentissage : notion de sur-apprentissage

f(x 0)

f(x 1)

f(x 2)

f(x 3)

f(x 4)

x2 x3 x4

Modèle optimal

Modèle surentrainé(sur-apprentissage)

Le modèle surentrainé est très bon sur les données de la base d’apprentissage, mais perd sa capacité de généralisation (il s’éloigne des données de test).

Données d’apprentissageDonnées de test

Définition de l’architecture du RNA : approche ‘test-et-erreur’

1 – Architectures à 1 couche cachée (nb neurones variables ) : tests

2 – Architectures à 2 couches cachées et nb neurones variables

3 – Choix raisonné… apport des couches cachées / performance ???

Définition de l’architecture du RNA : approche ‘test-et-erreur’

Choix : Nombre de Neurones Choix : 1couche / 2 couches

Evaluation de la performance du RNA

Valeur cible

édite

Applications dans le champ du génie civil

- Outil de prédiction des propriétés d’un béton sur la base des proportions de ses constituants

- Contrôles non destructifs : reconnaissance automatique de signatures physique et/ou géométriques

… techniques encore au stade de la recherche

Réseaux de neurones artificiels – Application

Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton

72 concrete slabs (25 x 25 x 8 cm3)

Physical condition variability:

Porosity (14.3 % …… 16.7 %) - 4 levels

Water content (partially dry…..saturated)

Total chloride content (0 …. 6 kg/m3 of concrete)

Systematic resistivity measurement

Concrete

Equipotential lines Current lines

Wenner probe

Concrete surface Database of 113 patterns:

Electrical resistivity values

Physical condition of concrete

Modélisation de l’effet de l’eau, de

la porosité et des chlorures sur la

résistivité électrique d’un béton

Banque de données

16,002 ,1014,8615,00

18,002 ,0214,8615,00

72,260 ,0014,7315,00

72,260 ,0014,6615,00

37,001 ,1314,6015,00

75,360 ,0011,6215,00

125,660 ,0010,5015,00

48,042 ,108 ,0215,00

753,980 ,005 ,8615,00

7 ,855 ,1714,1414,30

21,002 ,1214,0414,30

94,000 ,0013,9214,30

39,001 ,0413,8414,30

94,000 ,0013,7614,30

77,000 ,0013,7414,30

13,503 ,5013,6214,30

75,360 ,0011,6214,30

120,000 ,009 ,7014,30

26,695 ,179 ,6414,30

38,313 ,509 ,1814,30

920,000 ,004 ,6014,30

970,000 ,004 ,0414,30

Résistivitéé lec tr ique m esurée

(kohm .cm )

T eneur en clo ru res to taux (kg /m 3)

T eneur en eau (%)

Porosité(% )

16 ,002 ,1014,8615,00

18,002 ,0214,8615,00

72,260 ,0014,7315,00

72,260 ,0014,6615,00

37,001 ,1314,6015,00

75,360 ,0011,6215,00

125,660 ,0010,5015,00

48,042 ,108 ,0215,00

753,980 ,005 ,8615,00

7 ,855 ,1714,1414,30

21,002 ,1214,0414,30

94,000 ,0013,9214,30

39,001 ,0413,8414,30

94,000 ,0013,7614,30

77,000 ,0013,7414,30

13,503 ,5013,6214,30

75,360 ,0011,6214,30

120,000 ,009 ,7014,30

26,695 ,179 ,6414,30

38,313 ,509 ,1814,30

920,000 ,004 ,6014,30

970,000 ,004 ,0414,30

Résistivitéé lec tr ique m esurée

(kohm .cm )

T eneur en clo ru res to taux (kg /m 3)

T eneur en eau (%)

Porosité(% )

Réseaux de neurones artificiels – Application – Résistivité électrique Lien

Concreteporosity

Water content

Chloridecontent

No1Electrical resistivityof concrete

1 hidden layer with 10 nodes

1 output node

Total: 11 nodes

Weight matrix(dim. 3x10)

Weight vector(dim. 10)

Bias vector(dim. 10)

Bias Statistical model:

51 parameters

1)( −+

0 100 200 300 400 500 600 700 800 900 1000

ANN-Predicted resistivity (ohm.m)

tivity

Training dataTesting data

Absolute error: + 50 ohm.m

Absolute error: - 50 ohm.m

0 20 40 60 80 100 120 140 160 180 200

ANN-Predicted resistivity (ohm.m)

tivity

Training dataTesting data

Absolute error: + 40 ohm.m

Absolute error: - 40 ohm.m

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38

Testing pattern

al res

Actual testing values

ANN-predicted values

4 5 6 7 8 9 10 11 12 13 14 15 16 17

Volumetric water content (%)

Chloride content = 0 kg/m3

Simulation neuronale

0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Degree of water saturation

Porosity = 14.5 %

Porosity = 15.5 %

Porosity = 16.5 %

Lissage

4 5 6 7 8 9 10 11 12 13 14 15 16 17

.m) Neural simulation

Experimental Values

Extrapolationhasardeuse…

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

.m) Neural simulation

Experimental Values

Extrapolation

Rappels :

théorie des probabilités

Rappels théoriques

Introduction

Rappels théoriques

Espace probabilisé : définitions

Expérience aléatoire E : impossible de prévoir son résultat

Univers associé à E : ensemble ΩΩΩΩ des résultats possibles de E

L’ensemble ΩΩΩΩ peut être fini ou dénombrable : univers discret.

L’ensemble ΩΩΩΩ peut être non dénombrable : univers continu.

Événement aléatoire : - partie de l’ensemble des résultats possibles de E

- sous-ensemble A de ΩΩΩΩOn dit que A est réalisé si le résultat ω de l’expérience appartient à A

Événement impossible : Ø - Événement certain : ΩΩΩΩ

Introduction

Rappels théoriques

Espace probabilisé : définitions

Événement contraire de A noté Ac : complémentaire de A dans ΩΩΩΩ

Événement « A et B » : ensemble A ∩ B dans ΩΩΩΩ

Événement « A ou B » : ensemble A U B dans ΩΩΩΩ

Événements incompatibles A et B → A ∩ B = Ø (Exemple : A et Ac)

Si , la réalisation de A implique la réalisation de B.BA ⊂

Introduction

Rappels théoriques

Espace probabilisé : concept de probabilité

Probabilité : application p de l’ensemble P(ΩΩΩΩ) des parties de ΩΩΩΩ dans Rsatisfaisant les axiomes de Kolmogorov :

- La probabilité d’un événement est un nombre positif ou nul :

- La probabilité de l’événement impossible est nulle, celle de l’événement certain est égale à 1.

- La probabilité de l’union de 2 événements incompatibles est égale à la somme des probabilités de chaque événement.

,A Ω∈∀ 0)A(p ≥

)B(p)A(p)BA(pBA +=∪⇒∅=∩

Introduction

Rappels théoriques

Conséquences

La probabilité d’un événement A est égale à la somme des probabilités des événements élémentaires ωi de A.

Cas particulier : événements élémentaires équiprobables

Définition

Le triplet (ΩΩΩΩ, P(ΩΩΩΩ), p) constitue un espace probabilisé.

∑∈ω

)(p)A(p

)(card)A(card

)A(p)(p...)(p)(p n21 Ω=⇒ω==ω=ω

Espace probabilisé : concept de probabilité

Probabilités conditionnelles & Indépendance

Rappels théoriques

Parfois, la réalisation d’un événement entraîne la modification de l’univers des possibilités…

La réalisation d’un événement A modifie les possibilités de réalisation d’un autre événement B qui se réduit à B ∩ A. Les probabilités sont également modifiées…

Probabilité conditionnelle de B sachant que A est réalisé :

Théorème des probabilités composés :

)A(p)AB(p

)A/B(p∩=

)B/A(p)B(p)A/B(p)A(p)BA(p ×=×=∩

Événements indépendants

Deux événements A et B sont indépendants si la réalisation de B ne modifie pas la probabilité A, et réciproquement, d’où :

Il en résulte que :

)A(p)B/A(p =

)B(p)A(p)BA(p ×=∩

Probabilités conditionnelles & Indépendance

Rappels théoriques

Théorème de Bayes (théorème de la probabilité des causes)

Soit un événement B dont la réalisation dépend de l’intervention de l’une des causes : A1 , A2 , … Ai , …, An .

Soit p(B/Ai) , la probabilité conditionnelle de B sachant que c’est la cause Ai qui intervient.

Soit p(Ai) , la probabilité d’intervention de Ai, appelée probabilité a priori de Ai.

)B/A(p)B(p)A/B(p)A(p)BA(p iiii ×=×=∩

1iii )A/B(p)A(p)B(p

)A/B(p)A(p

)A/B(p)A(p)B/A(p

Variables aléatoires réelles

Rappels théoriques

Définition

Soit E une expérience aléatoire associée à l’univers ΩΩΩΩ. Une variable aléatoire (VA) réelle X est une application de ΩΩΩΩ dans R :

A un ensemble ΩΩΩΩ d’événements élémentaires ω1, ω2 ,..., ωi ,…, ωn, on fait correspondre un nombre X (variable aléatoire) prenant l’une des valeurs x1, x2 ,..., x i ,…, xn lorsque l’événement correspondant se réalise.

Une variable aléatoire est définie lorsqu’on connait les probabilités associées aux différentes valeurs possibles de X : p(x 1), p(x2), …, p(xn).

La relation x i, p(x i) est définie comme la loi de probabilité de la variable aléatoire X.

Si les valeurs possibles de X sont discrètes, en nombre fini ou infini : VA discrète.

Si les valeurs possibles de X sont continues : VA continue.

R)(X:X ∈ω→Ω∈ω

Rappels théoriques

Fonction de répartition

La fonction de répartition FX de la variable aléatoire X est définie pour tout nombre réel x par :

Remarques

1. 0 ≤ FX ≤ 1

2. FX tend vers 0 en -∞ et FX tend vers 1 en +∞.

)xX(p)x(F ≤=XXXX

,ba <∀ )a(F)b(F)bXa(p XX −=<<

Rappels théoriques

Variables aléatoires discrètes

Une variable aléatoire qui prend un nombre fini ou dénombrable de valeurs est une VA discrète.

Soit X une VA discrète à valeurs dans un ensemble ξ fini ou dénombrable. La fonction de probabilité pX de X est déterminée par l’ensemble des probabilités de ses valeurs x :

Pour toute partie A de ξ, on a :

Pour une VA discrète, FX est une fonction en escalier.

)xX(p)x(p ==XXXX

∑∈

)xX(p)A(p XXXX

Rappels théoriques

VA discrètes : exemple

Urne contenant des boules noires en proportion η et des boules blanches en proportion (1- η) .

Expérience aléatoire : tirage d’une boule au hasard

Résultat : 2 événements possibles…

… ω1 : la boule est noire et ω2 : la boule est blanche

On peut associer un nombre X au résultat du tirage au hasard. X = 0 si ω1 est réalisé et X = 1 si ω2 est réalisé.

X est une variable aléatoire discrète (en l’occurrence Variable de Bernouilli) dont la loi de probabilité est donnée par : etη== )0X(p η−== 1)1X(p

Rappels théoriques

Variables aléatoires continues

Une variable aléatoire qui prend un nombre infini non dénombrable de valeurs est une VA continue si FX est une fonction continue..

Généralement, la fonction de répartition d’une VA continue s’écrit sous la forme :

où pX est une fonction de R dans R, alors on dit que pX est la densité de probabilité de la variable X.

Remarques

Soit A un sous-ensemble de R : Pour tout a < b :

∫∞−

XX dx)x(p)t(F

∫=∈A

X dx)x(p)AX(p ∫=−=<<b

aXXX dx)x(p)a(F)b(F)bXa(p

1dx)x(pX =∫+∞

∞−

Rappels théoriques

Exemples fondamentaux : VA discrètes

Loi de Bernoulli

On dit que X suit une loi de Bernoulli de paramètre , notée B(ω) si :

Loi binomialeOn dit que X suit une loi binomiale de paramètres , notée B(n,ω) si :

(Tirage au hasard non exhaustif de n boules dans une urne contenant des boules noires en proportion ω et des boules blanches en proportion (1- ω) . X est une VA égale au nombre de boules noires parmi les n boules tirées – Quelle est la probabilité pour que X = k avec 0 ≤ k ≤ n)

Remarque Tirage non exhaustif : chaque boule tirée est remise dans l’urne avant le tirage de la suivante

Cas du tirage exhaustif : loi hypergéométrique

[1,0]ω ∈

ω)1X(p == ω1)0X(p −==

),n( ωnk0 ≤≤∀ knkk

n )ω1.(ω.C)kX(p −−==

Rappels théoriques

Exemples fondamentaux : VA discrètes

Loi géométriqueOn dit que X suit une loi géométrique de paramètre , notée G(ω) si :

(Modéliser le nombre de réalisation indépendantes d’une expérience à 2 issues (succès/échec) jusqu’à l’obtention du premier succès, si à chaque réalisation la probabilité de succès est ω )

Loi de PoissonOn dit que X suit une loi de Poisson de paramètre , notée P(λ) si :

Comportement limite de la loi binomiale lorsque : , ω faible et

Approximation de la loi binomiale à 2 paramètres par une loi à 1 paramètre : simplification…

nk0 ≤≤∀

[1,0]ω ∈1k)ω1.(ω)kX(p −−==

+∈ Rλ

e)kX(pk

λ−==

∞→n λω.n →

Rappels théoriques

Exemples fondamentaux : VA continues

Loi exponentielleOn dit que X suit une loi exponentielle de paramètre , notée ε(λ) si la

loi de X a pour densité :

si et siLoi utilisée en Fiabilité où λ est défini comme le taux ‘moyen de défaillance’ et 1/λ est le ‘temps

moyen de bon fonctionnement’

Loi GammaOn dit que X suit une loi Gamma de paramètres , notée γ(a,λ) si

la loi de X a pour densité :

si et si

)xλ(X eλ)x(p −= 0x ≥ 0)x(p X = 0x <

)0λ,0a( >>

)xλ(1aa

X ex)a(Γ

λ)x(p −−= 0x ≥ 0)x(p X = 0x <

dxex)a(Γ x

1a −+∞

−∫= Loi exponentielle = cas particulier de la loi Gamma

Loi Gamma également utilisée en Fiabilité

Rappels théoriques

Loi exponentielle

0 2 4 6 8 10

Lambda = 1

Lambda = 2

Rappels théoriques

Loi normale, Loi de Gauss, Loi de Laplace-GaussOn dit que X suit une loi normale de paramètres , notée N(m,σ2) si la loi

de X a pour densité :)σ,m( 2

−−

X eπ2σ

‘Courbe en cloche’

m = valeur moyenne de Xσ² = précision

,Rx ∈∀

%68)σmX(p =<− 0

-10 -8 -6 -4 -2 0 2 4 6 8 10

m=0,Sigma=1

m=0,Sigma=5

m=6,Sigma=0,5

Rappels théoriques

Caractéristiques des variables aléatoires

Espérance

Soit X une VA réelle et h une application de R dans R : h(X) est donc une VA.

Si X est une VA discrète à valeurs dans ξ, on appelle espérance de h(X) la quantité :

Si X est une VA continue de densité pX, on appelle espérance de h(X) la quantité :

Si h(x)=x (application identité), on obtient E(X) appelée espérance ou moyenne de X

∑∈

)xX(p)x(h))X(h(Ε

X dx)x(p)x(h))X(h(Ε

Rappels théoriques

Propriétés de l’espérance

Linéarité :

Si X est une VA constante égale à : , alors : et

Si X ≥ Y, alors E(X-Y) ≥ 0, et donc E(X) ≥ E(Y)

L’espérance est un indicateur de la localisation de la distribution de X.

L’espérance est aussi appelée ‘moment d’ordre 1 ’ de la distribution de X.

L’espérance ne donne pas d’infos sur l’étalement de la distribution.

)Y(Eβ)X(Eα)YβXα(Ε +=+

Ra ∈ 1)aX(p == a)X(E =

Rappels théoriques

Variance

Soit p >0, on appelle moment d’ordre p de la variable aléatoire X la quantité :

On utilise essentiellement : - les moments autour de E(x), dits moments centrés

- le moment centré d’ordre 2 ou variance

On appelle variance de la variable aléatoire X la quantité :

]))X(EX[(E)X(Var 2−=

Rappels théoriques

Propriétés de la variance

Pout tout :

La racine carrée de Var(X), notée σX, est appelée ‘écart-type’ de X.

Si X est une VA telle que E(X) = m et Var(X)=σ2 …

…Alors Y = (X – m) / σ est une VA telle que : E(Y) = 0 et Var(Y) = 1.

On dit que Y est une variable centrée et réduite.

22 )X(E)X(E)X(Var −=

)X(Vara)baX(Var 2=+2R)b,a( ∈

Rappels théoriques

Notion de fractile (ou quantile)

Soit X une VA réelle de fonction de répartition FX à valeurs dans ]0,1[.

Soit 0 < α < 1, on appelle quantile d’ordre α de X le nombre xα tel que :

ou encore

Remarque : x1/2 est appelé médiane de X

α)x(F αX = α)xX(p α =≤

Rappels théoriques

Couple de variables aléatoires

Etude des relations entre deux ou plusieurs VA

Exemples : X : consommation d’électricité

Y : Température extérieure

Fonction de répartition du couple (X,Y) :

2R)y,x( ∈∀ )yY,xX(p)y,x(F )Y,X( ≤≤=

Rappels théoriques

Etude des relations entre deux ou plusieurs VA

Indépendance de VA

Deux VA sont indépendantes si et seulement si :

Si deux VA sont indépendantes, l’espérance de leur produit est égale au produit de leurs espérances : E(XY) = E(X)E(Y)

Covariance de X et Y :

La covariance de 2 VA indépendantes est nulle.

,R)b,a( 2∈∀ )bY(p)aX(p)bY,aX(p ≤×≤=≤≤

)Y(E)X(E)XY(E)Y,X(σ −=

Rappels théoriques

Variance d’une somme de VA :

d’où

222 )YX(E])YX[(E)YX(σ ±−±=±

222 )Y(E)XY(E2)X(E])YX[(E +±=±

222 )Y(E)Y(E)X(E2)X(E)YX(E +±=±

])Y(E)Y(E[)]Y(E)X(E)XY(E[2])X(E)X(E[

)YX(σ2222

−+−±−=±

)Y(σ)Y,X(σ2)X(σ)YX(σ 222 +±=±

)Y(σ)X(σ 22 += si les VA sont indépendantes

Théorèmes limites

Rappels théoriques

Théorème de Bienaymé-Tchebitchev

Soit ε >0 et soit X une VA d’espérance E(X) et de variance Var(X) :

Ou encore :

Signification de l’écart-type (ou de la variance ) :

L’écart-type caractérise la dispersion de la distribution autour de l’espérance mathématique.

)X(Var]ε))X(EX[(p ≤≥−

)X(Var]ε)X(EX[p ≤≥−

Théorèmes limites

Rappels théoriques

Loi faible des grands nombres

Soient X1, X2, …, Xn, une suite de n VA indépendantes, de même loi qu’une variable X d’espérance E(X) et variance σ2. Alors, pour tout ε >0 :

Si on mesure une même quantité aléatoire au cours d'une suite d'expériences indépendantes, alors la moyenne arithmétique des valeurs observées va se stabiliser sur l'espérance.

On dit que (X1+ X2+ …+Xn)/n converge en probabilité vers E(X) lorsque n tend vers l’infini.

0ε)X(En

X...XXp n21 →

>−+++ quand ∞→n

Analyses de données :

quelques grands concepts

Analyses de données

1 - Analyse en composantes principales (ACP)

Objet : - méthode d’analyse factorielle

- rechercher les directions de l’espace qui représentent le mieux les corrélations entre N variables aléatoires...

- compresser des données, réduire leur dimension…

- classifier des données (clustering)…

Les données…

Soit un vecteur de N variables aléatoires :

On observe K réalisations conjointes

de ce vecteur de n VA et on range les

données dans une matrice M :

( )N21 X,,X,X L

Les données… transformations

Chaque variable aléatoire possède une moyenne et un écart-type :

M peut être centrée :

M peut être réduite :

−−

−−=

1nn X,,X,XX L= nX

−−

Notons que chaque vecteur définit 1 point dans un espace à N dimensions.

L’ensemble des vecteurs avec 1 ≤ k ≤ K définit un nuage de points.

Le vecteur est le centre de gravité du nuage de points.

Le choix de centrer et/ou de réduire M n’est pas systématique.

Si on ne réduit pas M, une variable avec une forte variance va masquer l’effet des autres variables…

Si on réduit M, un bruit se retrouve avec la même variance qu’une variable informative…

= N21 X,,X,XX L

k X,,X,XX L=

Matrice de variance-covariance :

Matrice de corrélations :

]Cov[t⋅⋅=

]Cor[ ⋅⋅=

Ces 2 matrices sont diagonalisables.

A la recherche des composantes principales…

On recherche les directions orthogonales autour desquelles la variance du nuage de points projeté est maximale. Les valeurs propres correspondent aux variances associées aux directions propres.

Recherche des valeurs propres et vecteurs propres de la matrice de corrélation (ou de variance-covariance si les données ne sont pas réduites).

Les directions sont classées par ordre de variance décroissante. Le premier axe factoriel est celui pour lequel la variance (valeur propre) est la plus forte. Le deuxième axe factoriel correspond à la variance immédiatement inférieure, etc, etc …

A la recherche des composantes principales…

On considère habituellement que les axes traduisant au moins 80 % de la variance totale sont suffisants pour décrire les données.

Considérons par exemple des vecteurs aléatoires à 10 composantes. Si les 3 premiers axes traduisent plus de 80 % de la variance totale, chaque veteurpeut-être résumé par sa projection sur les 3 premiers axes principaux du nuages de points…

Applications : Compression de données…

Réduction de la dimension des données (intéressant pour réseaux de neurones car nombre d’entrées réduits tout en conservant la même qualité d’information)

Classification des vecteurs aléatoires

Exemple : typologie de véhicules

Modèle

Cylindrée

Puissance

Vitesse (km/h)

Poids (kg)

Longueur

Largeur

Honda Civic 1396 90 174 850 369 166 Renault 19 1721 92 180 965 415 169 Fiat Tipo 1580 83 170 970 395 170 Peugeot 405 1769 90 180 1080 440 169 Renault 21 2068 88 180 1135 446 170 Citroën BX 1769 90 182 1060 424 168 Bmw 530i 2986 188 226 1510 472 175 Rover 827i 2675 177 222 1365 469 175 Renault 25 2548 182 226 1350 471 180 Opel Omega 1998 122 190 1255 473 177 Peugeot 405 Break 1905 125 194 1120 439 171 Ford Sierra 1993 115 185 1190 451 172 Bmw 325iX 2494 171 208 1300 432 164 Audi 90 Quattro 1994 160 214 1220 439 169 Ford Scorpio 2933 150 200 1345 466 176 Renault espace 1995 120 177 1265 436 177 Nissan Vanette 1952 87 144 1430 436 169 VW Caravelle 2109 112 149 1320 457 184 Ford Fiesta 1117 50 135 810 371 162 Fiat Uno 1116 58 145 780 364 155 Peugeot 205 1580 80 159 880 370 156 Peugeot 205 Rallye 1294 103 189 805 370 157 Seat Ibiza SX I 1461 100 181 925 363 161 Citroën AX Sport 1294 95 184 730 350 160

1 2 3 4 5 6

Axes principaux

le) Le premier plan factoriel suffit à décrire la structure

de corrélation des données.

honda civic

fiat tipo P405R21

Bmw530Rover827R25

Opel omega

Ford sierra

Bmw325

Audi90

Ford scorpio

R espace

Nissan vanette

fiat uno

P205RCAX

ford fiesta

Seat ibiza

-3,000

-2,500

-2,000

-1,500

-1,000

-0,500

-5,000 -4,000 -3,000 -2,000 -1,000 0,000 1,000 2,000 3,000 4,000 5,000

Facteur 1 (78%)

Vitesse

Cylindrée

Puissance

PoidsLongueur

Largeur

-1,00 -0,80 -0,60 -0,40 -0,20 0,00 0,20 0,40 0,60 0,80 1,00

2Cercle de corrélation

Vitesse

Cylindrée

Puissance

PoidsLongueur

Largeur

-1,00 -0,80 -0,60 -0,40 -0,20 0,00 0,20 0,40 0,60 0,80 1,00

Cercle de corrélation

L’axe 1 est très corrélé avec tous les paramètres (positivement), il est max pour les voitures rapides, puissantes, grosses, grandes…[et min pour l’inverse].

L’axe 2 est max pour les voitures rapides et puissantes (corrélation positive avec la vitesse et la puissance) mais de petit gabarit (corrélation négative avec la taille et le poids) [et min pour l’inverse].

Exemple : Reconnaissance de formes

Sources acoustiques :

5 paramètres caractéristiques

(Amplitude, fréquence, durée, temps de montée, dimension de corrélation)

Sources acoustiques :

5 paramètres caractéristiques

(Amplitude, fréquence, durée, temps de montée, dimension de corrélation)

DC7RT7D7F7A7

DC6RT6D6F6A6

DC5RT5D5F5A5

DC4RT4D4F4A4

DC3RT3D3F3A3

DC2RT2D2F2A2

DC1RT1D1F1A1

Dimension de corrélation (DC)

Temps de montée (RT)

Durée (D)

Fréquence (F)

Amplitude (A)

DC7RT7D7F7A7

DC6RT6D6F6A6

DC5RT5D5F5A5

DC4RT4D4F4A4

DC3RT3D3F3A3

DC2RT2D2F2A2

DC1RT1D1F1A1

Dimension de corrélation (DC)

Temps de montée (RT)

Durée (D)

Fréquence (F)

Amplitude (A)

5 variables aléatoires

K réalisations conjointes des 5 VA

Question : DC est-il un paramètre discriminant des signaux ?

Sources acoustiques : 4 sources

50 60 70 80 90 10020

90Concrete slab

Amplitude (dB)

cy (kH

S1 S2 S3 S4Acoustic sources:

Représentation des données dans le plan Amplitude-Fréquence

Exemple : Reconnaissance de formes Sources acoustiques

S1 S2 S3 S4Acoustic sources:

-4 -3 -2 -1 0 1 2 3 4-3

3Concrete slab

PCA 1(58.60%)-3 -2 -1 0 1 2 3

3Concrete slab

PCA 1(53.77%)

Représentation des données dans le premier plan factoriel ACP

Avec DCSans DC

2 – Classification (ou clustering)

Principe général de la classification

Chercher à regrouper des ensembles de données en classes de caractéristiques homogènes… Identifier différentes familles de données au sein d’une population

Méthodes supervisées ou non supervisées

Principe de la Classification Ascendante Hiérarchiq ue (CAH)

Construire des partitions emboîtées à N, N-1, N-2, … , 1 classes par regroupements successifs.

La partition en n-1 classes est obtenue en agrégeant, parmi les n classes, les deux classes les plus proches au sens d’une distance qualifiée d’indice d’agrégation D .

Principe de la CAH

Il peut être judicieux de classifier après projection des données sur les premiers axes ACP

Axe 1 (ACP)

Axe 2 (ACP)

12 points =

12 classes initiales

11 classes

10 classes

1 classe

Principe de la CAH

Il peut être judicieux de classifier après projection des données sur les premiers axes ACP

Axe 1 (ACP)

Axe 2 (ACP)

12 points =

12 classes initiales

11 classes

10 classes

1 classe

Principe de la CAH : Dendogramme

Recherche du saut d’indice d’agrégation le plus important – Définition du nombre de classes et affectation de chaque vecteur à une classe.

Saut le plus important

3 classes

Exemple : classification des sources d’émission acoustique dans un câble lors d’un essai de corrosion accélérée sous contrainte

Salve d’émission acoustique(onde élastique transitoire)

Information d’apparence stochastique : comment caractériser ce type de signal ?

Salve d’émission acoustique(onde élastique transitoire)

Plusieurs sources possibles : combien ?

ACP sur les paramètres d’acquisition

Plusieurs centaines de salves collectées

Informations corréléesInformations redondantes

42.66%42.66%

22.60%22.60%

13.90%13.90%

8.63%8.63%

8.04%8.04%

3.50%3.50%

0.68%0.68%

42.66%42.66%

22.60%22.60%

13.90%13.90%

8.63%8.63%

8.04%8.04%

3.50%3.50%

0.68%0.68%

Variance

Saut important de l’indice d’agrégation

Classe 3 Classe 2 Classe 1

Indice d’agrégation-Classes de signaux (Câble 3)

3 – Inférence : estimation statistique

Introduction

En statistique classique, inférer consiste à induire les caractéristiques d’une population à partir d’un échantillon issu de cette population.

Interprétation de données statistiques

L’inférence statistique est souvent basée sur des caractéristiques statistiques connues à priori : nature de la loi de probabilité…

L’induction consiste à chercher des lois générales à partir de l’observation de faits particuliers.

Par la suite…

Forme analytique de la loi de probabilité supposée connue

Estimation des paramètres θ1, θ2 … de la loi p(X; θ1, θ2 …) à partir de l’échantillon observé x1, x2…xn

Evaluation de la qualité de l’estimation

Rappel : Loi faible des grands nombres

Si on mesure une même quantité aléatoire au cours d'une suite d'expériences indépendantes, alors la moyenne arithmétique des valeurs observées va se stabiliser sur l'espérance.

On dit que Mn = (X1+ X2+ …+Xn) / n converge en probabilité vers E(X) lorsque n tend vers l’infini.

Etant donné ε arbitrairement faible, on peut toujours déterminer n tel que :

|Mn – E(X)| < ε

Estimation

Supposons une loi à 1 paramètre : θ. On recherche une fonction θ*(x1, x2…xn) qui s’approche au maximum de θ.

Estimateur

La variable aléatoire Tn(X1, X2,…Xn ) est un estimateur de θ si :

- E(Tn )→ θ quand n →∞

- E[Tn-E(Tn )]² → 0 quand n →∞

Si E(Tn)= θ quelque soit n, alors Tn est un estimateur sans biais.

Tn converge en probabilité vers θ.

Un estimateur est d’autant plus efficace que sa variance est faible.

Intervalle de confiance d’une estimation

Précision d’une estimation ?

Soit la distribution de Tn.

Soit un seuil de probabilité α,

considéré comme négligeable.

On peut définir un intervalle [θ-ε1, θ+ε2 ] de probabilité (1-α).

La probabilité d’observer l’événement θ-ε1 ≤ Tn ≤ θ+ε2 est (1-α).

Par conséquent, la probabilité de l’événement Tn-ε2 ≤ θ ≤ Tn+ε1 est (1-α).

θ+ε2θθ-ε1

Intervalle de confiance d’une estimation

L’intervalle [Tn-ε2,Tn+ε1] est un intervalle aléatoire dont la probabilité de contenir θ est (1-α).

Concernant l’échantillon observé x1, x2…xn et la valeur θ* de Tncorrespondante…

… l’intervalle [θ*-ε2, θ*+ε1] est l’intervalle de confiance de l’estimation de θau seuil de probabilité (1-α).

Remarque : infinité de possibilités de répartir

la probabilité α, dont une correspond à un

intervalle minimal. En pratique :

θ+ε2θθ-ε1

α/2 α/21-α

Application : Estimation d’une moyenne

Soit une population de moyenne µ inconnue et de variance σ² connue.

Soit Mn, la VA « moyenne d’un échantillon de taille n », on montre :

E(Mn) = µ

σ²(Mn) = σ² / n → 0 quand n →∞

Mn est donc un estimateur sans biais et convergent de µ.

Résultat général indépendant de la loi de probabilité.

Cependant, la détermination de l’intervalle de confiance nécessite la connaissance de la loi.

Application : Estimation d’une moyenne et Intervalle de confiance

Cas d’une loi normale de variance σ² connue

Mn suit également une loi normale de moyenne µ et d’écart-type .

Soit un seuil de probabilité α, on peut écrire :

Où uα/2 est lu dans la table de la loi normale réduite de façon que :

L’intervalle de confiance de µ est donc :

uµMnσ

uµobPr αnα −=

+<<− 122

αuUobPr α => 2

umµnσ

um α*

22 +<<−

Remarque :

La construction d’un intervalle de confiance repose sur 3 éléments :

- Taille de l’échantillon

- Fiabilité du résultat (donnée par le coefficient de confiance)

- Précision (amplitude de l’intervalle)

Pour n fixé :

- Plus la fiabilité est bonne, plus la précision est faible ;

- Plus la fiabilité est faible, plus la précision est forte

Exemples de démarches d’estimation

Remarques préliminaires

Population de taille N, de moyenne µ et de variance σ²

Echantillon de taille n :

- moyenne d’échantillon :

- variance d’échantillon (quasi-variance ou variance corrigée ):

Lois type : Student, Fisher,

X...XXX n21 +++=

( )∑

−−=

Exemples de démarches d’estimation

à (n-1) ddlµ inconnu

à n ddlµ connu

NormaleVariance σ²

~ N (0;1)σ² inconnu

~ N (0;1)σ² connuQuelconque

Student (n-1)σ² inconnu

N (0;1)σ² connu

Normale

Moyenne µ

LoiStatistique

(estimateur)Loi de la population

Paramètre àestimer

( )∑

µX 2χ

S)1n( − 2χ

3 – Inférence ou estimation statistique

Concept du maximum de vraisemblance

La vraisemblance du paramètre θ associé aux données s’écrit :

La vraisemblance contient toute l’information apportée par (x1, . . . , xn)sur le paramètre θ.

La méthode du maximum de vraisemblance consiste à estimer θ par

Cet estimateur jouit de bonnes propriétés lorsque n est grand devantla dimension de θ.

( ) ( )θ;xfθL i

i 1=∏=

( )( )

= θLmaxargθθ

4 – Inférence bayésienne

Principe

Démarche logique permettant d’évaluer ou de réviser la probabilité d’une hypothèse.

Utilisation des théorèmes de combinaison des probabilités (qui conduisent au théorème de Bayes)

La statistique bayésienne est préférable lorsque les informations sont rares (statistique des petits échantillons). Elle est cependant plus coûteuse en temps de calcul.

Les approches classique et bayésienne sont asymptotiquement équivalentes.

Plus précisément…

Le paramètre θ associé au modèle statistique f(x;θ) est considéré aléatoire de loi a priori .

Sachant les données x, θ suit une loi a posteriori :

L’inférence statistique se conduit sur la base de cette loi a posteriori.

)θ(Π

)x/θ(Π

( ) ( )( ) ( )∫

=θdθΠx/θL

θΠx/θL)x/θ(Π

La loi a priori résume l’information préalable à l’obtention des données que l’on possède sur le paramètre θ.

Elle résume également l’incertitude sur la valeur de cette information.

Elle fournit un cadre cohérent et contrôlable pour quantifier les connaissances et les opinions d’expert.

Grâce au théorème de Bayes, elle donne naissance à la loi a posteriori qui tire toute l’information des données et de la loi a priori.

)θ(Π

)x/θ(Π

Une fois la loi a posteriori établie ou approché, on en déduit un estimateur ponctuel de θ qui peut être :- la moyenne a posteriori- le mode a posteriori- la médiane a posteriori.

Potentiellement, la loi a posteriori contient les éléments pour évaluer l’incertitude de cet estimateur ponctuel.

6 – Inférence : test d’hypothèses

Principe

Démarche consistant à accepter ou rejeter une hypothèse statistique sur la base d’un jeu de données disponible

Le test d’hypothèse n’est pas sans risque. On note 2 types d’erreurs :

- rejeter une hypothèse vraie (risque de première espèce de probabilité α) ;

- accepter une hypothèse fausse (risque de deuxième espèce de probabilité β).

Tests classiques : on impose par exemple que le risque de deuxième espèce βtende vers 0 quand le nombre d'observations tend vers l'infini et on fixe le risque de première espèce à un niveau α

Test de Student, Test de Fisher, Test de Χ²…

Tests bayésiens : pondérations des risques de première et de deuxième espèces grâce à la connaissance de probabilités a priori…

Psi-test…

Test sur un paramètre

La valeur d’un paramètre θ trouvée sur un échantillon peut-être mise en relation avec une valeur à priori θ0.

Hypothèse nulle H0 : θ = θ0

Hypothèse alternative H1 : θ ≠ θ0

- Test unilatéral H1 : θ < θ0 ou θ > θ0

- Test bilatéral H1 : θ ≠ θ0

Construction du test :

- Détermination des hypothèses

- Choix d’une statistique (estimateur T du paramètre θ)

- Règle de décision : notion de seuil critique l

Si t < l , on rejette l’hypothèse H0.

Si t > l, on accepte l’hypothèse H0

Exemple : test sur la moyenne d’une population de variance connue

H0 : µ = µ0

Estimateur :

On sait que : ou

Règle de décision : on rejette H0

on accepte H0

X...XXX n21 +++=

σ,µ(ΝX → )1;0(Ν)

µX(n →−

Détermination du seuil critique :

Soit α = P(rejeter H0 quand H0 est vraie)

= P( quand H0 est vraie)

µXn(P 00 −<−

µln)1;0(N(P 0−<

Détermination du seuil critique :

α étant fixé, on en déduit la valeur de et donc de l.

µln 0−

Analyse Donnees

Documents

ANALYSE DES DONNEES DU RGPH3...RECENSEMENT GENERAL DE LA POPULATION ET DE L’HABITATION (RGPH3) ANALYSE DES DONNEES DU RGPH3 Thème : PERSPECTIVES DEMOGRAPHIQUES REDIGE PAR SIDIBE

ANALYSE DES DONNEES SCIENTIFIQUES ETABLIES EN …

Bases de Donnees

Base Donnees - Important

Analyse des donnees de microblogs´rali.iro.umontreal.ca/rali/sites/default/files/publis/D... · 2012-07-18 · Analyse des donnees de microblogs ... l’analyse des opinions et de

Analyse de Donnees Avec SPSS

Donnees Alimentation Photovoltaique

Base Donnees

IV. ANALYSE des DONNEES AVEC le MO DULE ANALYSE Pour ... · IV. ANALYSE des DONNEES AVEC le MO DULE ANALYSE Le module ANALYSE Des Donn es permet de visualiser les donn es, de calculer

Cahier 28 - GOUVERNANCE DES DONNEES PERSONNELLES ET ANALYSE D'IMPACT

UNIVERSITÉ DU QUÉBEC À RIMOUSKI ANALYSE DE DONNÉES … faculteit/Afdelingen... · INTRODUCTION 1 CHAPITRE 1 7 ANALYSE DES DONNEES REELLES DE VENT 7 1.1. Problématique 7 1.1.1

ANALYSE DES DONNEES FISCALES AU …paperjam.lu/sites/default/files/avisces_fiscalite.pdf · 2015-12-01 · 382 Analyse du secteur des activités financières et dassurance 107

Traitement Analyse Donnees

ANALYSE DES DONNEES TEXTUELLES Analyse des données textuelles. De lanalyse de contenu à lanalyse lexicale

Base de Donnees

Assimilation opérationnelle et analyse de données glider 2) gliders et etudes de processus 1) donnees in-situ gliders ???

MEMOIRE DE STAGE NALYSE DES DONNEES ET … · 1 en memoire de stage: analyse des donnees des etudes ifra et ctxscc stage realise d ’avril a septembre 2009, sous l ’encadrement

DONNEES TECHNIQUES - NEWLOC

Partie 1 - Évaluation Financière de Projets jeux.pdf · Partie 3 : ANALYSE DE DONNEES. 33 INTRODUCTION. 34 I) Analyse des individus. 35 II) Analyse des Services. 35 III) Analyse

ANALYSE PAR LA METHODE ES DONNEES DE PANEL …