View
67
Download
0
Category
Preview:
DESCRIPTION
INSA Toulouse
Citation preview
Université de Toulouse – Pôle de Recherche et d’Enseignement Supérieur
Institut National des Sciences Appliquées de Toulouse
Université Paul Sabatier – Toulouse III
Laboratoire Matériaux et Durabilité des Construction s
Stéphane LAURENS – 2008/2009
ANALYSE ET EXPLOITATION DE DONNEES EXPERIMENTALES –
Notions sur la MODELISATION …
Master 2 Recherche « Génie Civil – Matériaux – Structu res »
Préambule
Ce cours présente certains concepts dédiés à l’analyse et à l’exploitation de données expérimentales. Il aborde aussi dans ce cadre la problématique générale de la modélisation qui constitue souvent une finalité scientifique pour le chercheur.
Il est volontairement dépouillé des « détails mathématiques » qui sont accessibles très facilement dans un grand nombre d’ouvrages ou sur l’Internet. Il vise, en un temps limité, à donner aux futurs chercheurs en génie civil un aperçu de certains outils conceptuels ayant vocation àrépondre à certaines leurs futures préoccupations.
Il appartiendra ensuite à ces chercheurs d’approfondir les concepts qu’ils jugent pertinents vis-à-vis de leurs projets de recherche.
Remarques préliminaires
Préambule
Dans ce séminaire, les parties « Rappels théoriques » et « Grands concepts d’analyse statistique » s’appuient en grande partie s ur les références suivantes :
Data Mining 1. Exploration statistique , Alain Baccini & Philipe Besse, Publications du LSP, Université Paul Sabatier, 2003
Décision et prévision statistiques , Thierry Verdel, Ecole des Mines de Nancy, 2001
Cours de Probabilités et Statistiques , Hélène Milhem et Benoit Truong-Van, INSA Toulouse, 2006-2007
Statistique avec de petits échantillons , Gilles Celeux, Conférence présentée aux Journées Fiabilité des Matériaux et des Structures, Nantes, 2008
Internet et Wikipedia
…
Références bibliographiques
1 – Introduction : modélisation
2 – Modélisation statistique
3 – Rappels : théorie des probabilités
4 – Analyses de données : grands concepts
Analyse en composantes principales
Classification
Inférence statistique
Inférence bayésienne
Test d’hypothèse
PLAN
DU
COURS
Au sommaire…
Introduction :
Généralités
Discussion sur la modélisation en GC
Introduction
Introduction
Expérimentation, acquisition de données …
Analyse de données …
Modélisation…
Remarques préliminaires…
Variabilité de la mesure… Variabilité du matériau…Incertitudes / aléas
Recherche de corrélations simples ou complexes, de liens de causalité…Caractériser l’aléa observable sur des données mesurées et l’intégrer dans la démarche de modélisation…
Décrire, expliquer…Prédire … Recherche de liens mathématiques entre des données…
Introduction
Qu’est-ce que la modélisation ?
Actions, sollicitations, excitations… variables… physiques, mécaniques, chimiques, couplées
Réactions, réponses, conséquences…… physiques, mécaniques, chimiques, couplées
Modèle ou loi de comportement… physiques, mécaniques, chimiques, couplées
Propriétés(paramètres du modèle)
Modélisation directe
Introduction
Actions, sollicitations, excitations… variables… physiques, mécaniques, chimiques, couplées
Réactions, réponses, conséquences…… physiques, mécaniques, chimiques, couplées
Modèle ou loi de comportement… physiques, mécaniques, chimiques, couplées
Propriétés(paramètres du modèle)
Qu’est-ce que la modélisation ?
Modélisation inverse
Introduction
Actions, sollicitations, excitations… variables… physiques, mécaniques, chimiques, couplées
Réactions, réponses, conséquences…… physiques, mécaniques, chimiques, couplées
Modèle ou loi de comportement… physiques, mécaniques, chimiques, couplées
Propriétés(paramètres du modèle)
Problème d’identification !
Qu’est-ce que la modélisation ?
Modélisation inverse
Introduction
Modélisation statique
Modélisation dynamique
Invariance par rapport au temps
Ex. Modèle de calcul des sollicitations internes dans une structure sous sollicitations statiques
Dépendance à la variable temps
Ex. Modèle de calcul des sollicitations internes dans une structure sous sollicitations dynamiquesEx. Prédiction de la concentration en chlorures dans le béton à une échéance donnée
Qu’est-ce que la modélisation ?
Introduction
Difficultés liées à la modélisation en génie civil
Variabilité / Stochasticité spatiale à l’échelle du matériau
Degré d’hétérogénéité variable avec l’échelle d’observation
Milieux poreux – phénomènes de transport souvent réactifs
Interactions chemo-physico-mécaniques « complexes / compliquées »
Interactions spatio-temporelles
Non-linéarités omniprésentes
Phénomènes irréversibles : « vieillissement »
Endommagements mécaniques : isotrope et anisotrope …
La modélisation physique statique et dynamique des matériaux de construction et des structures confronte le chercheur à des problème s d’une complexité rare…
Introduction
Problématiques de recherche à différentes échelles :
Matériaux (nano, micro, méso, macro)
Structures
Villes
Etats
Planète
Difficultés liées à la modélisation en génie civil
Introduction
Approches de modélisation classiques en GC:
- approche déterministe classique… modèle physique
- approche probabiliste, semi-probabiliste
- approche statistique… modèle empirique
Unicité du lien entre les variables d’entrée du modèle et la sortie…
Comment tenir compte de la variabilité éventuelle des sollicitations, des propriétés des matériaux… ?
Les entrées et/ou les propriétés d’un modèle déterministe sont définies comme des variables aléatoires… La réponse du modèle est donc une variable aléatoire.
Relations trop complexes pour être approchées de façon classique …Apprentissage par des méthodes appropriées des relations observées expérimentalement entre des données (exemple : réseaux de neurones artificiels)
Introduction
- approche systémique
- approche probabiliste
- physique de non-équilibre
- Systèmes dynamiques… chaos
- Systèmes complexes
-Processus stochastiques(Paradigme purement probabiliste)
Paradigmes en voie de développement dans le champ d u génie civil :
Comportement DETERMINISTE…
Comportement STOCHASTIQUE…
CHAOS…
… comportement d’apparence stochastique généré par un syst. déterministe… hypersensibilité aux conditions initiales du système
Introduction
Modélisation dynamique… ou comment prévoir l’avenir…
Paradigmes classiquesEx. Dynamique newtonienne
Paradigmes probabilistesEx. Processus stochastiques
Paradigmes mixtes (recours nécessaire aux probabilités)
… parfaitement prévisible
… totalement imprévisible
Introduction
Approche systémique
Entité physique dont l’état est défini par n variables indépendantes : v i avec i = 1…n
Les variables d’état sont les degrés de liberté du système.
Système dynamique
Les variables d’état sont des fonctions du temps : v i(t)
Dans certains cas, la loi d’évolution est connue ou supposée connue. Le système dynamique est alors décrit par le système différentiel :
où p j sont les paramètres de la loi d’évolution.)p,,p;t,v,,v(Ft
vmni
i KK 11=∂
∂
Système …
Introduction
Approche systémique
Système dynamique non linéaire …
Nombre de variables ≥ 3
+ non-linéarité (la fonction Fi est non linéaire)
= possibilité de chaos
Chaos : hypersensibilité aux conditions initiales
… imprévisibilité du comportement du système au-delà d’un temps caractéristique (temps de Lyapunov)
Espace des phases
Le comportement du système est étudié dans l’espace des phases, espace abstrait de dimension n dont les axes traduisent les variables d’état. Un point dans l’espace des phases décrit l’état du système à un instant donné. Une trajectoire (ensemble de points) décrit l’évolution de l’état du système.
Introduction
Approche systémique
Exemple du système de Lorenz
Système dynamique non linéaire… théorie du chaos
zxyz
)z(xy
)xy(x
.
.
.
ββββ−−−−====
−−−−ρρρρ====
−−−−σσσσ====
Modélisation de la convection atmosphérique
Série temporelle x(t)… apparence stochastiqueTrajectoire dans l’espace des phases…
Attracteur de Lorenz
Introduction
Approche systémique
Système constitué d’un grand nombre d’entités en interaction.
Nombre très important de degrés de liberté.
Le comportement des systèmes complexes ne peut être appréhendé selon une approche réductionniste.
La connaissance de lois de comportement définies à l’échelle des « composants élémentaires »du système ne permet pas d’inférer le comportement global du système.
Concept d’émergence : le comportement du système complexe émerge des interactions locale àgrande échelle entre les composants élémentaires.
Les propriétés émergentes ne peuvent être décrites au moyen d’un formalisme mathématique défini à l’échelle globale du système. Elles ne sont observables qu’au travers de l’expérience ou de la simulation basée sur l’itération suffisamment poussée de lois locales (automates cellulaires, dynamique sur réseaux, essaim particulaires…).
Système complexe
Introduction
Un système en interaction avec son environnement est par définition en état « hors-équilibre ».
L’état « hors-équilibre » est instable.
Béton, béton armé ???
Quel point de vue adopter pour décrire l’évolution de ces systèmes ?
Equilibre ?Non-équilibre ?
Physique/thermodynamique de non-équilibre
Introduction
Théorie des probabilités / Statistique
Statistique = Application utilitaire de la théorie des probabilités… Autre exemple d’application : les assurances
Statistique descriptive … méthode de résumé (forme la plus ancienne)…condenser, analyser et présenter des informations numériques trop nombreuses pour être utilisables exhaustivement… produire un nombre réduit d’infos utilisables qualifiées de statistiques
Objet de la statistique = définitions diverses…
Statistique mathématique … introduction du concept de probabilité… connaissance plus économe d’une population, influence des divers facteurs de variations, recherche d’ordre dans le désordre
Statistique prédictive …… tirer des hypothèses sur le futur à partir de la connaissance des statistiques du passé (notion de conjoncture en économie)
Intérêt de l’analyse statistique pour la recherche en génie civil
Introduction
Définition de la statistique
Ensemble des méthodes permettant de prendre des décisions raisonnables en présence d’incertitude !
Liens multiples avec la recherche en génie civil…
Variabilité des matériaux (résistance caractéristique…)…
Sollicitations stochastiques (vent, trafic routier, séismes...)…
Diffusion… physique statistique ???
Systèmes complexes…
…
Intérêt de l’analyse statistique pour la recherche en génie civil
Modélisation
statistique
Modélisation statistique
Régression linéaire ou non linéaire
Problème typique
Modélisation statistique
f(x)
xx0x1
f(x 0)
f(x 1)
f(x 2)
f(x 3)
f(x 4)
x2 x3 x4
Soit un jeu de données « expérimentales » (x i, f(x i)) représenté sur la figure ci-dessous.
La régression linéaire ou non linéaire consiste à définir les paramètres d’un modèle connu ou inconnu de façon à ce que celui-ci s’ajuste « au mieux » sur des données expérimentales.
Exemple : le comportement expérimental peut être modélisé par une fonction affine y = a.x + b
Comment trouver un couple (a,b) permettant de minimiser l’erreur
entre le modèle et l’expérience ?
Régression linéaire ou non linéaire
Problème typique
Modélisation statistique
f(x)
xx0x1
f(x 0)
f(x 1)
f(x 2)
f(x 3)
f(x 4)
x2 x3 x4
Comment juger de leurs pertinences respectives ?
Modèle 1
Modèle 2
Modèle 3
- sens physique- erreur modèle / expérience « au sens des moindres carrés »...
Le modèle 3 produit l’erreur modèle/expérience la plus faible, mais cela ne signifie pas qu’il est physiquement pertinent.
Attention : sur un même jeu de données, on peut ajuster différents modèles.
Régression linéaire ou non linéaire
Problème typique
Modélisation statistique
f(x)
x
Droite ajustée
Polynôme d’interpolation
Attention : Ajustement (approximation) ≠≠≠≠ Interpolation !!!
Régression linéaire ou non linéaire
Modélisation statistique
y
xx0x1
y0
y1
y2
y3
y4
x2 x3 x4
Exemple : ajustement d’une droite d’équation ym = a.x+b sur les données ( x i,y i )
ym0
ym1
ym2
ym3
ym4
y i = valeur expérimentale associée à x i
ymi = a.x i+b = valeur théorique associée à x i
Problème de moindres carrés
Régression linéaire ou non linéaire
Modélisation statistique
Approche algébrique : soit un couple (a,b) quelconque...
4
3
2
1
0
x
x
x
x
x
xr
4
3
2
1
0
y
y
y
y
y
yr
bx.ay
bx.ay
bx.ay
bx.ay
bx.ay
y
44m
33m
22m
11m
00m
m
+=+=+=+=+=
r
4m4
3m3
2m2
1m1
0m0
m
yy
yy
yy
yy
yy
yy
−−−−−
−rr
Expérience Modèle Différence Expérience/Modèle
L’erreur produite par le modèle y = a.x + b peut êt re évaluée au moyen de la norme du vecteur « Différence ».
Problème de moindres carrés
Régression linéaire ou non linéaire
Modélisation statistique
( ) ( ) ( ) ( ) ( )24m4
23m3
22m2
21m1
20m0m yyyyyyyyyyyy −+−+−+−+−=−
rr
La norme du vecteur est donc une mesure de l’écart entre l’expérience et le modèle.
myyrr
−
L’approximation au sens des moindres carrés consiste à trouver un couple (a,b) tel que la norme de soit minimale.
Plus généralement, l’approximation consiste à ajuster les paramètres d’un modèle de sorte que la norme de élevée au carré soit minimale.
myyrr
−
myyrr
−
( ) ( ) ( ) ( )2mnn
22m2
21m1
20m0
2
m yy......yyyyyyyy −++−+−+−=−rr
Généralisation au cas d’un jeu de n données
Problème des moindres carrés
Problème de moindres carrés
Modélisation statistique
bx.ay
bx.ay
bx.ay
bx.ay
bx.ay
44
33
22
11
00
+=+=+=+=+=
Formulation matricielle
=
b
a
1x
1x
1x
1x
1x
y
y
y
y
y
4
3
2
1
0
4
3
2
1
0
s.Ayrr
=
Formulation générale
Théorème
La solution du problème de moindres carrés linéaire vérifie le système des équations normales :
mcsr
5 équations et 2 inconnues : Système sur-déterminé > n’existe passr
( ) y.A.A.AsyAs.A.A T1Tmc
Tmc
T rrrr −=⇒=
Problème de moindres carrés linéaire
Régression linéaire ou non linéaire
Modélisation statistique
cx.bx.ay
cx.bx.ay
cx.bx.ay
cx.bx.ay
cx.bx.ay
4244
3233
2222
1211
0200
++=
++=
++=
++=
++=Ajustement des paramètres d’un polynôme de degré 2 ? Pb de moindres carrés linéaire !
=
c
b
a
1xx
1xx
1xx
1xx
1xx
y
y
y
y
y
424
323
222
121
020
4
3
2
1
0
s.Ayrr
=
Formulation générale
Théorème
La solution du problème des moindres carrés linéaire vérifie le système des équations normales :
mcsr
5 équations et 2 inconnues : Système sur-déterminé > n’existe passr
( ) y.A.A.AsyAs.A.A T1Tmc
Tmc
T rrrr −=⇒=
Problème de moindres carrés linéaire
Régression linéaire ou non linéaire
Modélisation statistique
Pas de formulation matricielle possible…
… ajustement des paramètres du modèle non linéaire à l’aide d’outils d’optimisation
… Optimisation : minimisation ou maximisation d’une fonction de performance (fonction coût ou fonction objectif) à l’aide d’algorithmes itératifs :
- Méthodes de type Gauss-Newton (Matlab, Excel…)- Algorithme génétique (intéressant si grand nombre de paramètres à ajuster)
… Exemple de fonction de performance : Erreur quadratique moyenne
Problème de moindres carrés non linéaire
Régression linéaire ou non linéaire
( ) ( ) ( ) ( )n
yy......yyyyyyn
yyEQM
2mnn
22m2
21m1
20m0
2
m −++−+−+−=−
=rr
Modélisation statistique
Méthodes de type Gauss-Newton : principe simplifié 1D
F(x) : fonction de performancef(x) : dérivée de F(x)
Problème de moindres carrés non linéaire
Régression linéaire ou non linéaire
f(x)
x
ααααx4x0
(x0, f(x 0))
x1
(x1, f(x 1))
x2
(x2, f(x 2))
x3
(x3, f(x 4))
Algorithmes d’optimisation
Minimisation de F(x) :recherche des racines de sa
dérivée
-Applicable aux problèmes en dimensions n
- Sensible à l’existence d’extrema locaux, et donc au choix du x0
Modélisation statistique
Problème de moindres carrés non linéaire
Régression linéaire ou non linéaire
Algorithmes d’optimisation
Algorithmes génétiques
Optimisation basée sur le concept de la sélection naturelle
Définition aléatoire d’une population initiale de solutions potentielles du problème d’optimisation.
Sélection des solutions les plus adaptées au problème.
Croisements et mutations opérés sur les solutions sélectionnées afin de constituer la génération suivante.
Itération jusqu’à obtenir une génération de solutions homogènes correspondant à la solution du problème.
Modélisation statistique
Problème de moindres carrés non linéaire
Régression linéaire ou non linéaire
Exemple : ajustement des paramètres d’un modèle de diffusion
−−=
t.D.4xerf).CC(C)t,x(C
eiss
Solution analytique de la seconde loi de Fick
Données : Ci et t
Paramètres à ajuster : De et Cs
du)uexp(π
2)z(erf
z
0
2∫ −=
0 , 0 0 0 99 ,3 6 5
0 , 0 0 1 37 ,4 2
0 , 0 0 6 96 ,1 7
0 , 0 1 0 45 ,1 8 5
0 , 0 2 0 44 ,3 9 5
0 , 0 3 43 ,3 8 5
0 , 0 7 2 12 ,3 3 5
0 , 0 8 5 71 ,7 4
0 , 0 9 6 91 ,2 4
0 , 1 3 1 10 ,8 6 5
0 , 1 5 2 10 ,3 2 5
C C l(% m a s s iq u e )
x i( m m )
0 , 0 0 0 99 ,3 6 5
0 , 0 0 1 37 ,4 2
0 , 0 0 6 96 ,1 7
0 , 0 1 0 45 ,1 8 5
0 , 0 2 0 44 ,3 9 5
0 , 0 3 43 ,3 8 5
0 , 0 7 2 12 ,3 3 5
0 , 0 8 5 71 ,7 4
0 , 0 9 6 91 ,2 4
0 , 1 3 1 10 ,8 6 5
0 , 1 5 2 10 ,3 2 5
C C l(% m a s s iq u e )
x i( m m )
Données expérimentales
Modélisation statistique
Problème de moindres carrés non linéaire
Régression linéaire ou non linéaire
Exemple : ajustement des paramètres d’un modèle de diffusion
Solveur Excel
Profil de concentration en ions chlorures
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0 2 4 6 8 10
Pro fonde ur (mm)
Con
cent
ratio
n m
assi
que
(%)
Modélisation statistique
Réseaux de neurones artificiels
Méthode de modélisation statistique non paramétrique
… les paramètres du modèle n’ont aucun sens physique (boîte noire).
Apprentissage des relations complexes existant entre différentes parties d’une banque de données expérimentales
Principe : reproduire les capacités d’apprentissage et de reconnaissance du cerveau
Applications : modélisation non paramétrique, aide à la décision, reconnaissance de formes, reconnaissance de la parole, diagnostic, prévision économétrique…
Qualités : parcimonie, boîte noire - Défauts : boîte noire
Régression non linéaire
Modélisation statistique
Réseaux de neurones artificiels
Historique – Travaux de 2 neurobiologistes (1940)
Régression non linéaire
Neurone biologique
Dendrites
Axone
Sortie(axone)
Neurone artificiel (fonction mathématique)
w1
w2
w3
e1
e2
e3
Entrées(dendrites)
Unité de traitement des informations
d’entrée
Poids synaptiques
Synapses
Modélisation statistique
Réseaux de neurones artificiels
Neurone formel (ou artificiel) : fonction non linéaire paramétrée à valeurs bornées
Régression non linéaire
Biais
Poids
Entrées
Sortie
Modélisation statistique
Réseaux de neurones artificiels
Réseau de neurones artificiels
Régression non linéaire
Modélisation statistique
Réseaux de neurones artificiels
Fonction d’activation
(ou de transfert) :
a=f(n)
Régression non linéaire
Modélisation statistique
Réseaux de neurones artificiels
Fonction d’activation
(ou de transfert) :
a=f(n)
Régression non linéaire
Modélisation statistique
Réseaux de neurones artificiels
Structuration des données expérimentales
La base de données expérimentales est décomposée en 3 parties :
- base d’apprentissage (au moins 2/3 des exemples)
- base de test
- base de validation
La base d’apprentissage doit contenir les exemples contenant les valeurs extrêmes des variables d’entrée.
Régression non linéaire
Modélisation statistique
Réseaux de neurones artificiels
Structuration des données expérimentales
Régression non linéaire
f(x)
x
Données d’apprentissageDonnées de test
Données de validation
Plage de variation de x
Plage de variation de x décrite par les données d’apprentissage
Modélisation statistique
Réseaux de neurones artificiels
Apprentissage
Optimisation des poids et des biais visant à minimiser l’erreur quadratique moyenne En calculée entre les prédictions et les valeurs cibles
Algorithme d’apprentissage usuel (Newton) : rétropropagation du gradient de l’erreur En
Critère d’arrêt : validation croisée
L’apprentissage optimal est conditionné par l’erreur commise sur la base de test.
Régression non linéaire
n
nn1n W
EηWW
∂∂−=+
Modélisation statistique
Réseaux de neurones artificiels
Apprentissage : critère d’arrêt
Régression non linéaire
Modélisation statistique
Réseaux de neurones artificiels
Apprentissage : notion de sur-apprentissage
Régression non linéaire
f(x)
xx0x1
f(x 0)
f(x 1)
f(x 2)
f(x 3)
f(x 4)
x2 x3 x4
Modèle optimal
Modèle surentrainé(sur-apprentissage)
Le modèle surentrainé est très bon sur les données de la base d’apprentissage, mais perd sa capacité de généralisation (il s’éloigne des données de test).
Données d’apprentissageDonnées de test
Modélisation statistique
Réseaux de neurones artificiels
Définition de l’architecture du RNA : approche ‘test-et-erreur’
1 – Architectures à 1 couche cachée (nb neurones variables ) : tests
2 – Architectures à 2 couches cachées et nb neurones variables
3 – Choix raisonné… apport des couches cachées / performance ???
Régression non linéaire
Modélisation statistique
Réseaux de neurones artificiels
Définition de l’architecture du RNA : approche ‘test-et-erreur’
Régression non linéaire
Choix : Nombre de Neurones Choix : 1couche / 2 couches
Modélisation statistique
Réseaux de neurones artificiels
Evaluation de la performance du RNA
Régression non linéaire
Valeur cible
Valeur cible
Valeur cible
Val
eur
préd
ite
Val
eur
préd
iteV
aleu
r pr
édite
Modélisation statistique
Réseaux de neurones artificiels
Applications dans le champ du génie civil
- Outil de prédiction des propriétés d’un béton sur la base des proportions de ses constituants
- Contrôles non destructifs : reconnaissance automatique de signatures physique et/ou géométriques
… techniques encore au stade de la recherche
Régression non linéaire
Modélisation statistique
Réseaux de neurones artificiels – Application
Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton
Régression non linéaire
72 concrete slabs (25 x 25 x 8 cm3)
B4
B3
B2
B1
Physical condition variability:
Porosity (14.3 % …… 16.7 %) - 4 levels
Water content (partially dry…..saturated)
Total chloride content (0 …. 6 kg/m3 of concrete)
Systematic resistivity measurement
V
I
a
Concrete
Equipotential lines Current lines
Wenner probe
Concrete surface Database of 113 patterns:
Electrical resistivity values
vs
Physical condition of concrete
Modélisation statistique
Réseaux de neurones artificiels – Application
Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton
Régression non linéaire
Modélisation statistique
Réseaux de neurones artificiels – Application
Modélisation de l’effet de l’eau, de
la porosité et des chlorures sur la
résistivité électrique d’un béton
Banque de données
Régression non linéaire
16,002 ,1014,8615,00
18,002 ,0214,8615,00
72,260 ,0014,7315,00
72,260 ,0014,6615,00
37,001 ,1314,6015,00
75,360 ,0011,6215,00
125,660 ,0010,5015,00
48,042 ,108 ,0215,00
753,980 ,005 ,8615,00
7 ,855 ,1714,1414,30
21,002 ,1214,0414,30
94,000 ,0013,9214,30
39,001 ,0413,8414,30
94,000 ,0013,7614,30
77,000 ,0013,7414,30
13,503 ,5013,6214,30
75,360 ,0011,6214,30
120,000 ,009 ,7014,30
26,695 ,179 ,6414,30
38,313 ,509 ,1814,30
920,000 ,004 ,6014,30
970,000 ,004 ,0414,30
Résistivitéé lec tr ique m esurée
(kohm .cm )
T eneur en clo ru res to taux (kg /m 3)
T eneur en eau (%)
Porosité(% )
16 ,002 ,1014,8615,00
18,002 ,0214,8615,00
72,260 ,0014,7315,00
72,260 ,0014,6615,00
37,001 ,1314,6015,00
75,360 ,0011,6215,00
125,660 ,0010,5015,00
48,042 ,108 ,0215,00
753,980 ,005 ,8615,00
7 ,855 ,1714,1414,30
21,002 ,1214,0414,30
94,000 ,0013,9214,30
39,001 ,0413,8414,30
94,000 ,0013,7614,30
77,000 ,0013,7414,30
13,503 ,5013,6214,30
75,360 ,0011,6214,30
120,000 ,009 ,7014,30
26,695 ,179 ,6414,30
38,313 ,509 ,1814,30
920,000 ,004 ,6014,30
970,000 ,004 ,0414,30
Résistivitéé lec tr ique m esurée
(kohm .cm )
T eneur en clo ru res to taux (kg /m 3)
T eneur en eau (%)
Porosité(% )
Modélisation statistique
Réseaux de neurones artificiels – Application – Résistivité électrique Lien
Régression non linéaire
Concreteporosity
Water content
Chloridecontent
Nh1
No1Electrical resistivityof concrete
Nh2
Nh3
Nh4
Nh5
Nh6
Nh7
Nh8
Nh9
Nh10
1 hidden layer with 10 nodes
1 output node
Total: 11 nodes
Weight matrix(dim. 3x10)
Weight vector(dim. 10)
Bias vector(dim. 10)
Bias Statistical model:
51 parameters
xexy
31
1)( −+
=
0
1
Modélisation statistique
Réseaux de neurones artificiels – Application
Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton
Régression non linéaire
0
100
200
300
400
500
600
700
800
900
1000
0 100 200 300 400 500 600 700 800 900 1000
ANN-Predicted resistivity (ohm.m)
Act
ual r
esis
tivity
(oh
m.m
)
Training dataTesting data
Absolute error: + 50 ohm.m
Absolute error: - 50 ohm.m
Modélisation statistique
Réseaux de neurones artificiels – Application
Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton
Régression non linéaire
0
20
40
60
80
100
120
140
160
180
200
0 20 40 60 80 100 120 140 160 180 200
ANN-Predicted resistivity (ohm.m)
Act
ual r
esis
tivity
(oh
m.m
)
Training dataTesting data
Absolute error: + 40 ohm.m
Absolute error: - 40 ohm.m
Modélisation statistique
Réseaux de neurones artificiels – Application
Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton
Régression non linéaire
0
100
200
300
400
500
600
700
800
900
1000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
Testing pattern
Ele
ctric
al res
istiv
ity (
ohm
.m)
Actual testing values
ANN-predicted values
Modélisation statistique
Réseaux de neurones artificiels – Application
Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton
Régression non linéaire
0
100
200
300
400
500
600
700
800
4 5 6 7 8 9 10 11 12 13 14 15 16 17
Volumetric water content (%)
AN
N-p
redi
cted
res
istiv
ity (
ohm
.m)
Chloride content = 0 kg/m3
Chloride content = 1 kg/m3
Chloride content = 2 kg/m3
Chloride content = 3 kg/m3
Chloride content = 4 kg/m3
Chloride content = 5 kg/m3
Chloride content = 6 kg/m3
Simulation neuronale
Modélisation statistique
Réseaux de neurones artificiels – Application
Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton
Régression non linéaire
Simulation neuronale
0
100
200
300
400
500
600
700
800
900
1000
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Degree of water saturation
AN
N-p
redi
cted
res
istiv
ity (
ohm
.m)
Porosity = 14.5 %
Porosity = 15.5 %
Porosity = 16.5 %
Modélisation statistique
Réseaux de neurones artificiels – Application
Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton
Régression non linéaire
Simulation neuronale
Lissage
0
100
200
300
400
500
600
700
800
4 5 6 7 8 9 10 11 12 13 14 15 16 17
Volumetric water content (%)
AN
N-p
redi
cted
res
istiv
ity (
ohm
.m) Neural simulation
Experimental Values
Modélisation statistique
Réseaux de neurones artificiels – Application
Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton
Régression non linéaire
Simulation neuronale
Extrapolationhasardeuse…
0
100
200
300
400
500
600
700
800
900
1000
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Volumetric water content (%)
AN
N-p
redi
cted
res
istiv
ity (
ohm
.m) Neural simulation
Experimental Values
Extrapolation
Rappels :
théorie des probabilités
Rappels théoriques
Introduction
Rappels théoriques
Espace probabilisé : définitions
Expérience aléatoire E : impossible de prévoir son résultat
Univers associé à E : ensemble ΩΩΩΩ des résultats possibles de E
L’ensemble ΩΩΩΩ peut être fini ou dénombrable : univers discret.
L’ensemble ΩΩΩΩ peut être non dénombrable : univers continu.
Événement aléatoire : - partie de l’ensemble des résultats possibles de E
- sous-ensemble A de ΩΩΩΩOn dit que A est réalisé si le résultat ω de l’expérience appartient à A
Événement impossible : Ø - Événement certain : ΩΩΩΩ
Introduction
Rappels théoriques
Espace probabilisé : définitions
Événement contraire de A noté Ac : complémentaire de A dans ΩΩΩΩ
Événement « A et B » : ensemble A ∩ B dans ΩΩΩΩ
Événement « A ou B » : ensemble A U B dans ΩΩΩΩ
Événements incompatibles A et B → A ∩ B = Ø (Exemple : A et Ac)
Si , la réalisation de A implique la réalisation de B.BA ⊂
Introduction
Rappels théoriques
Espace probabilisé : concept de probabilité
Probabilité : application p de l’ensemble P(ΩΩΩΩ) des parties de ΩΩΩΩ dans Rsatisfaisant les axiomes de Kolmogorov :
- La probabilité d’un événement est un nombre positif ou nul :
- La probabilité de l’événement impossible est nulle, celle de l’événement certain est égale à 1.
- La probabilité de l’union de 2 événements incompatibles est égale à la somme des probabilités de chaque événement.
,A Ω∈∀ 0)A(p ≥
)B(p)A(p)BA(pBA +=∪⇒∅=∩
Introduction
Rappels théoriques
Conséquences
La probabilité d’un événement A est égale à la somme des probabilités des événements élémentaires ωi de A.
Cas particulier : événements élémentaires équiprobables
Définition
Le triplet (ΩΩΩΩ, P(ΩΩΩΩ), p) constitue un espace probabilisé.
∑∈ω
ω=A
i
i
)(p)A(p
)(card)A(card
)A(p)(p...)(p)(p n21 Ω=⇒ω==ω=ω
Espace probabilisé : concept de probabilité
Probabilités conditionnelles & Indépendance
Rappels théoriques
Parfois, la réalisation d’un événement entraîne la modification de l’univers des possibilités…
La réalisation d’un événement A modifie les possibilités de réalisation d’un autre événement B qui se réduit à B ∩ A. Les probabilités sont également modifiées…
Probabilité conditionnelle de B sachant que A est réalisé :
Théorème des probabilités composés :
)A(p)AB(p
)A/B(p∩=
)B/A(p)B(p)A/B(p)A(p)BA(p ×=×=∩
Événements indépendants
Deux événements A et B sont indépendants si la réalisation de B ne modifie pas la probabilité A, et réciproquement, d’où :
Il en résulte que :
)A(p)B/A(p =
)B(p)A(p)BA(p ×=∩
Probabilités conditionnelles & Indépendance
Rappels théoriques
Théorème de Bayes (théorème de la probabilité des causes)
Soit un événement B dont la réalisation dépend de l’intervention de l’une des causes : A1 , A2 , … Ai , …, An .
Soit p(B/Ai) , la probabilité conditionnelle de B sachant que c’est la cause Ai qui intervient.
Soit p(Ai) , la probabilité d’intervention de Ai, appelée probabilité a priori de Ai.
et
)B/A(p)B(p)A/B(p)A(p)BA(p iiii ×=×=∩
∑=
×=n
1iii )A/B(p)A(p)B(p
∑=
×
×=n
1jjj
iii
)A/B(p)A(p
)A/B(p)A(p)B/A(p
Variables aléatoires réelles
Rappels théoriques
Définition
Soit E une expérience aléatoire associée à l’univers ΩΩΩΩ. Une variable aléatoire (VA) réelle X est une application de ΩΩΩΩ dans R :
A un ensemble ΩΩΩΩ d’événements élémentaires ω1, ω2 ,..., ωi ,…, ωn, on fait correspondre un nombre X (variable aléatoire) prenant l’une des valeurs x1, x2 ,..., x i ,…, xn lorsque l’événement correspondant se réalise.
Une variable aléatoire est définie lorsqu’on connait les probabilités associées aux différentes valeurs possibles de X : p(x 1), p(x2), …, p(xn).
La relation x i, p(x i) est définie comme la loi de probabilité de la variable aléatoire X.
Si les valeurs possibles de X sont discrètes, en nombre fini ou infini : VA discrète.
Si les valeurs possibles de X sont continues : VA continue.
R)(X:X ∈ω→Ω∈ω
Variables aléatoires réelles
Rappels théoriques
Fonction de répartition
La fonction de répartition FX de la variable aléatoire X est définie pour tout nombre réel x par :
Remarques
1. 0 ≤ FX ≤ 1
2. FX tend vers 0 en -∞ et FX tend vers 1 en +∞.
3.
)xX(p)x(F ≤=XXXX
,ba <∀ )a(F)b(F)bXa(p XX −=<<
Variables aléatoires réelles
Rappels théoriques
Variables aléatoires discrètes
Une variable aléatoire qui prend un nombre fini ou dénombrable de valeurs est une VA discrète.
Soit X une VA discrète à valeurs dans un ensemble ξ fini ou dénombrable. La fonction de probabilité pX de X est déterminée par l’ensemble des probabilités de ses valeurs x :
Pour toute partie A de ξ, on a :
Pour une VA discrète, FX est une fonction en escalier.
)xX(p)x(p ==XXXX
∑∈
==Ax
)xX(p)A(p XXXX
Variables aléatoires réelles
Rappels théoriques
VA discrètes : exemple
Urne contenant des boules noires en proportion η et des boules blanches en proportion (1- η) .
Expérience aléatoire : tirage d’une boule au hasard
Résultat : 2 événements possibles…
… ω1 : la boule est noire et ω2 : la boule est blanche
On peut associer un nombre X au résultat du tirage au hasard. X = 0 si ω1 est réalisé et X = 1 si ω2 est réalisé.
X est une variable aléatoire discrète (en l’occurrence Variable de Bernouilli) dont la loi de probabilité est donnée par : etη== )0X(p η−== 1)1X(p
Variables aléatoires réelles
Rappels théoriques
Variables aléatoires continues
Une variable aléatoire qui prend un nombre infini non dénombrable de valeurs est une VA continue si FX est une fonction continue..
Généralement, la fonction de répartition d’une VA continue s’écrit sous la forme :
où pX est une fonction de R dans R, alors on dit que pX est la densité de probabilité de la variable X.
Remarques
Soit A un sous-ensemble de R : Pour tout a < b :
∫∞−
=t
XX dx)x(p)t(F
∫=∈A
X dx)x(p)AX(p ∫=−=<<b
aXXX dx)x(p)a(F)b(F)bXa(p
1dx)x(pX =∫+∞
∞−
Variables aléatoires réelles
Rappels théoriques
Exemples fondamentaux : VA discrètes
Loi de Bernoulli
On dit que X suit une loi de Bernoulli de paramètre , notée B(ω) si :
et
Loi binomialeOn dit que X suit une loi binomiale de paramètres , notée B(n,ω) si :
(Tirage au hasard non exhaustif de n boules dans une urne contenant des boules noires en proportion ω et des boules blanches en proportion (1- ω) . X est une VA égale au nombre de boules noires parmi les n boules tirées – Quelle est la probabilité pour que X = k avec 0 ≤ k ≤ n)
Remarque Tirage non exhaustif : chaque boule tirée est remise dans l’urne avant le tirage de la suivante
Cas du tirage exhaustif : loi hypergéométrique
[1,0]ω ∈
ω)1X(p == ω1)0X(p −==
),n( ωnk0 ≤≤∀ knkk
n )ω1.(ω.C)kX(p −−==
Variables aléatoires réelles
Rappels théoriques
Exemples fondamentaux : VA discrètes
Loi géométriqueOn dit que X suit une loi géométrique de paramètre , notée G(ω) si :
(Modéliser le nombre de réalisation indépendantes d’une expérience à 2 issues (succès/échec) jusqu’à l’obtention du premier succès, si à chaque réalisation la probabilité de succès est ω )
Loi de PoissonOn dit que X suit une loi de Poisson de paramètre , notée P(λ) si :
Comportement limite de la loi binomiale lorsque : , ω faible et
Approximation de la loi binomiale à 2 paramètres par une loi à 1 paramètre : simplification…
nk0 ≤≤∀
[1,0]ω ∈1k)ω1.(ω)kX(p −−==
+∈ Rλ
!kλ
e)kX(pk
λ−==
∞→n λω.n →
Variables aléatoires réelles
Rappels théoriques
Exemples fondamentaux : VA continues
Loi exponentielleOn dit que X suit une loi exponentielle de paramètre , notée ε(λ) si la
loi de X a pour densité :
si et siLoi utilisée en Fiabilité où λ est défini comme le taux ‘moyen de défaillance’ et 1/λ est le ‘temps
moyen de bon fonctionnement’
Loi GammaOn dit que X suit une loi Gamma de paramètres , notée γ(a,λ) si
la loi de X a pour densité :
si et si
Où :
0λ >
)xλ(X eλ)x(p −= 0x ≥ 0)x(p X = 0x <
)0λ,0a( >>
)xλ(1aa
X ex)a(Γ
λ)x(p −−= 0x ≥ 0)x(p X = 0x <
dxex)a(Γ x
0
1a −+∞
−∫= Loi exponentielle = cas particulier de la loi Gamma
Loi Gamma également utilisée en Fiabilité
Variables aléatoires réelles
Rappels théoriques
Exemples fondamentaux : VA continues
Loi exponentielle
0
0,2
0,4
0,6
0,8
1
1,2
1,4
1,6
1,8
0 2 4 6 8 10
x
px(x
)
Lambda = 1
Lambda = 2
Variables aléatoires réelles
Rappels théoriques
Exemples fondamentaux : VA continues
Loi normale, Loi de Gauss, Loi de Laplace-GaussOn dit que X suit une loi normale de paramètres , notée N(m,σ2) si la loi
de X a pour densité :)σ,m( 2
−−
=2
2
σ2
)mx(
X eπ2σ
1)x(p
‘Courbe en cloche’
m = valeur moyenne de Xσ² = précision
,Rx ∈∀
%68)σmX(p =<− 0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
-10 -8 -6 -4 -2 0 2 4 6 8 10
x
px(x
)
m=0,Sigma=1
m=0,Sigma=5
m=6,Sigma=0,5
Variables aléatoires réelles
Rappels théoriques
Caractéristiques des variables aléatoires
Espérance
Soit X une VA réelle et h une application de R dans R : h(X) est donc une VA.
Si X est une VA discrète à valeurs dans ξ, on appelle espérance de h(X) la quantité :
Si X est une VA continue de densité pX, on appelle espérance de h(X) la quantité :
Si h(x)=x (application identité), on obtient E(X) appelée espérance ou moyenne de X
∑∈
==ξx
)xX(p)x(h))X(h(Ε
∫=R
X dx)x(p)x(h))X(h(Ε
Variables aléatoires réelles
Rappels théoriques
Caractéristiques des variables aléatoires
Propriétés de l’espérance
Linéarité :
Si X est une VA constante égale à : , alors : et
Si X ≥ Y, alors E(X-Y) ≥ 0, et donc E(X) ≥ E(Y)
L’espérance est un indicateur de la localisation de la distribution de X.
L’espérance est aussi appelée ‘moment d’ordre 1 ’ de la distribution de X.
L’espérance ne donne pas d’infos sur l’étalement de la distribution.
)Y(Eβ)X(Eα)YβXα(Ε +=+
Ra ∈ 1)aX(p == a)X(E =
Variables aléatoires réelles
Rappels théoriques
Caractéristiques des variables aléatoires
Variance
Soit p >0, on appelle moment d’ordre p de la variable aléatoire X la quantité :
On utilise essentiellement : - les moments autour de E(x), dits moments centrés
- le moment centré d’ordre 2 ou variance
On appelle variance de la variable aléatoire X la quantité :
)X(Ep
]))X(EX[(E)X(Var 2−=
Variables aléatoires réelles
Rappels théoriques
Caractéristiques des variables aléatoires
Propriétés de la variance
Pout tout :
La racine carrée de Var(X), notée σX, est appelée ‘écart-type’ de X.
Si X est une VA telle que E(X) = m et Var(X)=σ2 …
…Alors Y = (X – m) / σ est une VA telle que : E(Y) = 0 et Var(Y) = 1.
On dit que Y est une variable centrée et réduite.
22 )X(E)X(E)X(Var −=
)X(Vara)baX(Var 2=+2R)b,a( ∈
Variables aléatoires réelles
Rappels théoriques
Notion de fractile (ou quantile)
Soit X une VA réelle de fonction de répartition FX à valeurs dans ]0,1[.
Soit 0 < α < 1, on appelle quantile d’ordre α de X le nombre xα tel que :
ou encore
Remarque : x1/2 est appelé médiane de X
α)x(F αX = α)xX(p α =≤
Variables aléatoires réelles
Rappels théoriques
Couple de variables aléatoires
Etude des relations entre deux ou plusieurs VA
Exemples : X : consommation d’électricité
Y : Température extérieure
Fonction de répartition du couple (X,Y) :
2R)y,x( ∈∀ )yY,xX(p)y,x(F )Y,X( ≤≤=
Variables aléatoires réelles
Rappels théoriques
Couple de variables aléatoires
Etude des relations entre deux ou plusieurs VA
Indépendance de VA
Deux VA sont indépendantes si et seulement si :
Si deux VA sont indépendantes, l’espérance de leur produit est égale au produit de leurs espérances : E(XY) = E(X)E(Y)
Covariance de X et Y :
La covariance de 2 VA indépendantes est nulle.
,R)b,a( 2∈∀ )bY(p)aX(p)bY,aX(p ≤×≤=≤≤
)Y(E)X(E)XY(E)Y,X(σ −=
Variables aléatoires réelles
Rappels théoriques
Couple de variables aléatoires
Variance d’une somme de VA :
or
et
d’où
d’où
222 )YX(E])YX[(E)YX(σ ±−±=±
222 )Y(E)XY(E2)X(E])YX[(E +±=±
222 )Y(E)Y(E)X(E2)X(E)YX(E +±=±
])Y(E)Y(E[)]Y(E)X(E)XY(E[2])X(E)X(E[
)YX(σ2222
2
−+−±−=±
)Y(σ)Y,X(σ2)X(σ)YX(σ 222 +±=±
)Y(σ)X(σ 22 += si les VA sont indépendantes
Théorèmes limites
Rappels théoriques
Théorème de Bienaymé-Tchebitchev
Soit ε >0 et soit X une VA d’espérance E(X) et de variance Var(X) :
Ou encore :
Signification de l’écart-type (ou de la variance ) :
L’écart-type caractérise la dispersion de la distribution autour de l’espérance mathématique.
222
ε
)X(Var]ε))X(EX[(p ≤≥−
2ε
)X(Var]ε)X(EX[p ≤≥−
Théorèmes limites
Rappels théoriques
Loi faible des grands nombres
Soient X1, X2, …, Xn, une suite de n VA indépendantes, de même loi qu’une variable X d’espérance E(X) et variance σ2. Alors, pour tout ε >0 :
Si on mesure une même quantité aléatoire au cours d'une suite d'expériences indépendantes, alors la moyenne arithmétique des valeurs observées va se stabiliser sur l'espérance.
On dit que (X1+ X2+ …+Xn)/n converge en probabilité vers E(X) lorsque n tend vers l’infini.
0ε)X(En
X...XXp n21 →
>−+++ quand ∞→n
Analyses de données :
quelques grands concepts
Analyses de données
1 - Analyse en composantes principales (ACP)
Objet : - méthode d’analyse factorielle
- rechercher les directions de l’espace qui représentent le mieux les corrélations entre N variables aléatoires...
- compresser des données, réduire leur dimension…
- classifier des données (clustering)…
Les données…
Soit un vecteur de N variables aléatoires :
On observe K réalisations conjointes
de ce vecteur de n VA et on range les
données dans une matrice M :
Analyses de données
=KN
K1
1N
11
XX
XX
M
L
MOM
L
( )N21 X,,X,X L
1 - Analyse en composantes principales (ACP)
Les données… transformations
Chaque variable aléatoire possède une moyenne et un écart-type :
M peut être centrée :
M peut être réduite :
Analyses de données
−−
−−=
NKN1
K1
N1N1
11
XXXX
XXXX
M
L
MOM
L
( )Kn
2n
1nn X,,X,XX L= nX
nσ
−−
−−
=
N
NKN
1
1K1
N
N1N
1
111
~
σ
XXσ
XX
σ
XXσ
XX
M
L
MOM
L
1 - Analyse en composantes principales (ACP)
Les données… transformations
Notons que chaque vecteur définit 1 point dans un espace à N dimensions.
L’ensemble des vecteurs avec 1 ≤ k ≤ K définit un nuage de points.
Le vecteur est le centre de gravité du nuage de points.
Le choix de centrer et/ou de réduire M n’est pas systématique.
Si on ne réduit pas M, une variable avec une forte variance va masquer l’effet des autres variables…
Si on réduit M, un bruit se retrouve avec la même variance qu’une variable informative…
Analyses de données
= N21 X,,X,XX L
( )kN
k2
k1
k X,,X,XX L=
kX
1 - Analyse en composantes principales (ACP)
Les données… transformations
Matrice de variance-covariance :
Matrice de corrélations :
Analyses de données
MMK1
]Cov[t⋅⋅=
~t~
MMK1
]Cor[ ⋅⋅=
Ces 2 matrices sont diagonalisables.
1 - Analyse en composantes principales (ACP)
A la recherche des composantes principales…
On recherche les directions orthogonales autour desquelles la variance du nuage de points projeté est maximale. Les valeurs propres correspondent aux variances associées aux directions propres.
Recherche des valeurs propres et vecteurs propres de la matrice de corrélation (ou de variance-covariance si les données ne sont pas réduites).
Les directions sont classées par ordre de variance décroissante. Le premier axe factoriel est celui pour lequel la variance (valeur propre) est la plus forte. Le deuxième axe factoriel correspond à la variance immédiatement inférieure, etc, etc …
Analyses de données
1 - Analyse en composantes principales (ACP)
A la recherche des composantes principales…
On considère habituellement que les axes traduisant au moins 80 % de la variance totale sont suffisants pour décrire les données.
Considérons par exemple des vecteurs aléatoires à 10 composantes. Si les 3 premiers axes traduisent plus de 80 % de la variance totale, chaque veteurpeut-être résumé par sa projection sur les 3 premiers axes principaux du nuages de points…
Applications : Compression de données…
Réduction de la dimension des données (intéressant pour réseaux de neurones car nombre d’entrées réduits tout en conservant la même qualité d’information)
Classification des vecteurs aléatoires
Analyses de données
1 - Analyse en composantes principales (ACP)
Exemple : typologie de véhicules
Analyses de données
Modèle
Cylindrée
(cm3)
Puissance
(ch)
Vitesse (km/h)
Poids (kg)
Longueur
(cm)
Largeur
(cm)
Honda Civic 1396 90 174 850 369 166 Renault 19 1721 92 180 965 415 169 Fiat Tipo 1580 83 170 970 395 170 Peugeot 405 1769 90 180 1080 440 169 Renault 21 2068 88 180 1135 446 170 Citroën BX 1769 90 182 1060 424 168 Bmw 530i 2986 188 226 1510 472 175 Rover 827i 2675 177 222 1365 469 175 Renault 25 2548 182 226 1350 471 180 Opel Omega 1998 122 190 1255 473 177 Peugeot 405 Break 1905 125 194 1120 439 171 Ford Sierra 1993 115 185 1190 451 172 Bmw 325iX 2494 171 208 1300 432 164 Audi 90 Quattro 1994 160 214 1220 439 169 Ford Scorpio 2933 150 200 1345 466 176 Renault espace 1995 120 177 1265 436 177 Nissan Vanette 1952 87 144 1430 436 169 VW Caravelle 2109 112 149 1320 457 184 Ford Fiesta 1117 50 135 810 371 162 Fiat Uno 1116 58 145 780 364 155 Peugeot 205 1580 80 159 880 370 156 Peugeot 205 Rallye 1294 103 189 805 370 157 Seat Ibiza SX I 1461 100 181 925 363 161 Citroën AX Sport 1294 95 184 730 350 160
1 - Analyse en composantes principales (ACP)
Exemple : typologie de véhicules
Analyses de données
0
10
20
30
40
50
60
70
80
90
1 2 3 4 5 6
Axes principaux
Var
ianc
e (%
de
la v
aria
nce
tota
le) Le premier plan factoriel suffit à décrire la structure
de corrélation des données.
1 - Analyse en composantes principales (ACP)
Exemple : typologie de véhicules
Analyses de données
honda civic
fiat tipo P405R21
CBX
Bmw530Rover827R25
Opel omega
P405B
Ford sierra
Bmw325
Audi90
Ford scorpio
R espace
Nissan vanette
fiat uno
P205RCAX
ford fiesta
R19
VW
P205
Seat ibiza
-3,000
-2,500
-2,000
-1,500
-1,000
-0,500
0,000
0,500
1,000
1,500
2,000
-5,000 -4,000 -3,000 -2,000 -1,000 0,000 1,000 2,000 3,000 4,000 5,000
Facteur 1 (78%)
Fac
teur
2 (1
5%)
1 - Analyse en composantes principales (ACP)
Exemple : typologie de véhicules
Analyses de données
Vitesse
Cylindrée
Puissance
PoidsLongueur
Largeur
-1,00
-0,80
-0,60
-0,40
-0,20
0,00
0,20
0,40
0,60
0,80
1,00
-1,00 -0,80 -0,60 -0,40 -0,20 0,00 0,20 0,40 0,60 0,80 1,00
Axe 1
Axe
2Cercle de corrélation
1 - Analyse en composantes principales (ACP)
Exemple : typologie de véhicules
Analyses de données
Vitesse
Cylindrée
Puissance
PoidsLongueur
Largeur
-1,00
-0,80
-0,60
-0,40
-0,20
0,00
0,20
0,40
0,60
0,80
1,00
-1,00 -0,80 -0,60 -0,40 -0,20 0,00 0,20 0,40 0,60 0,80 1,00
Axe 1
Axe
2
Cercle de corrélation
L’axe 1 est très corrélé avec tous les paramètres (positivement), il est max pour les voitures rapides, puissantes, grosses, grandes…[et min pour l’inverse].
L’axe 2 est max pour les voitures rapides et puissantes (corrélation positive avec la vitesse et la puissance) mais de petit gabarit (corrélation négative avec la taille et le poids) [et min pour l’inverse].
1 - Analyse en composantes principales (ACP)
Exemple : Reconnaissance de formes
Sources acoustiques :
5 paramètres caractéristiques
(Amplitude, fréquence, durée, temps de montée, dimension de corrélation)
Analyses de données
1 - Analyse en composantes principales (ACP)
Exemple : Reconnaissance de formes
Sources acoustiques :
5 paramètres caractéristiques
(Amplitude, fréquence, durée, temps de montée, dimension de corrélation)
Analyses de données
DC7RT7D7F7A7
DC6RT6D6F6A6
DC5RT5D5F5A5
DC4RT4D4F4A4
DC3RT3D3F3A3
DC2RT2D2F2A2
DC1RT1D1F1A1
Dimension de corrélation (DC)
Temps de montée (RT)
Durée (D)
Fréquence (F)
Amplitude (A)
DC7RT7D7F7A7
DC6RT6D6F6A6
DC5RT5D5F5A5
DC4RT4D4F4A4
DC3RT3D3F3A3
DC2RT2D2F2A2
DC1RT1D1F1A1
Dimension de corrélation (DC)
Temps de montée (RT)
Durée (D)
Fréquence (F)
Amplitude (A)
5 variables aléatoires
K réalisations conjointes des 5 VA
Question : DC est-il un paramètre discriminant des signaux ?
1 - Analyse en composantes principales (ACP)
Exemple : Reconnaissance de formes
Sources acoustiques : 4 sources
Analyses de données
50 60 70 80 90 10020
30
40
50
60
70
80
90Concrete slab
Amplitude (dB)
Fre
quen
cy (kH
z)
S1 S2 S3 S4Acoustic sources:
Représentation des données dans le plan Amplitude-Fréquence
1 - Analyse en composantes principales (ACP)
Exemple : Reconnaissance de formes Sources acoustiques
Analyses de données
S1 S2 S3 S4Acoustic sources:
-4 -3 -2 -1 0 1 2 3 4-3
-2
-1
0
1
2
3Concrete slab
PC
A 2
(18.
98%
)
PCA 1(58.60%)-3 -2 -1 0 1 2 3
-3
-2
-1
0
1
2
3Concrete slab
PC
A 2
(23
.70%
)
PCA 1(53.77%)
Représentation des données dans le premier plan factoriel ACP
Avec DCSans DC
2 – Classification (ou clustering)
Principe général de la classification
Chercher à regrouper des ensembles de données en classes de caractéristiques homogènes… Identifier différentes familles de données au sein d’une population
Méthodes supervisées ou non supervisées
Principe de la Classification Ascendante Hiérarchiq ue (CAH)
Construire des partitions emboîtées à N, N-1, N-2, … , 1 classes par regroupements successifs.
La partition en n-1 classes est obtenue en agrégeant, parmi les n classes, les deux classes les plus proches au sens d’une distance qualifiée d’indice d’agrégation D .
Analyses de données
Principe de la CAH
Il peut être judicieux de classifier après projection des données sur les premiers axes ACP
Analyses de données
2 – Classification (ou clustering)
Axe 1 (ACP)
Axe 2 (ACP)
12 points =
12 classes initiales
11 classes
10 classes
1 classe
Principe de la CAH
Il peut être judicieux de classifier après projection des données sur les premiers axes ACP
Analyses de données
2 – Classification (ou clustering)
Axe 1 (ACP)
Axe 2 (ACP)
12 points =
12 classes initiales
11 classes
10 classes
1 classe
Principe de la CAH : Dendogramme
Analyses de données
2 – Classification (ou clustering)
Recherche du saut d’indice d’agrégation le plus important – Définition du nombre de classes et affectation de chaque vecteur à une classe.
Saut le plus important
3 classes
Exemple : classification des sources d’émission acoustique dans un câble lors d’un essai de corrosion accélérée sous contrainte
Analyses de données
2 – Classification (ou clustering)
Exemple : classification des sources d’émission acoustique dans un câble lors d’un essai de corrosion accélérée sous contrainte
Analyses de données
2 – Classification (ou clustering)
Salve d’émission acoustique(onde élastique transitoire)
Information d’apparence stochastique : comment caractériser ce type de signal ?
Exemple : classification des sources d’émission acoustique dans un câble lors d’un essai de corrosion accélérée sous contrainte
Analyses de données
2 – Classification (ou clustering)
Salve d’émission acoustique(onde élastique transitoire)
Plusieurs sources possibles : combien ?
Exemple : classification des sources d’émission acoustique dans un câble lors d’un essai de corrosion accélérée sous contrainte
Analyses de données
2 – Classification (ou clustering)
ACP sur les paramètres d’acquisition
Plusieurs centaines de salves collectées
Informations corréléesInformations redondantes
42.66%42.66%
22.60%22.60%
13.90%13.90%
8.63%8.63%
8.04%8.04%
3.50%3.50%
0.68%0.68%
42.66%42.66%
22.60%22.60%
13.90%13.90%
8.63%8.63%
8.04%8.04%
3.50%3.50%
0.68%0.68%
Variance
Exemple : classification des sources d’émission acoustique dans un câble lors d’un essai de corrosion accélérée sous contrainte
Analyses de données
2 – Classification (ou clustering)
CAH
Saut important de l’indice d’agrégation
Classe 3 Classe 2 Classe 1
Indice d’agrégation-Classes de signaux (Câble 3)
Exemple : classification des sources d’émission acoustique dans un câble lors d’un essai de corrosion accélérée sous contrainte
Analyses de données
2 – Classification (ou clustering)
3 – Inférence : estimation statistique
Introduction
En statistique classique, inférer consiste à induire les caractéristiques d’une population à partir d’un échantillon issu de cette population.
Interprétation de données statistiques
L’inférence statistique est souvent basée sur des caractéristiques statistiques connues à priori : nature de la loi de probabilité…
Analyses de données
L’induction consiste à chercher des lois générales à partir de l’observation de faits particuliers.
Par la suite…
Forme analytique de la loi de probabilité supposée connue
Estimation des paramètres θ1, θ2 … de la loi p(X; θ1, θ2 …) à partir de l’échantillon observé x1, x2…xn
Evaluation de la qualité de l’estimation
3 – Inférence : estimation statistique
Analyses de données
Rappel : Loi faible des grands nombres
Si on mesure une même quantité aléatoire au cours d'une suite d'expériences indépendantes, alors la moyenne arithmétique des valeurs observées va se stabiliser sur l'espérance.
On dit que Mn = (X1+ X2+ …+Xn) / n converge en probabilité vers E(X) lorsque n tend vers l’infini.
Etant donné ε arbitrairement faible, on peut toujours déterminer n tel que :
|Mn – E(X)| < ε
3 – Inférence : estimation statistique
Analyses de données
Estimation
Supposons une loi à 1 paramètre : θ. On recherche une fonction θ*(x1, x2…xn) qui s’approche au maximum de θ.
Estimateur
La variable aléatoire Tn(X1, X2,…Xn ) est un estimateur de θ si :
- E(Tn )→ θ quand n →∞
- E[Tn-E(Tn )]² → 0 quand n →∞
Si E(Tn)= θ quelque soit n, alors Tn est un estimateur sans biais.
Tn converge en probabilité vers θ.
Un estimateur est d’autant plus efficace que sa variance est faible.
3 – Inférence : estimation statistique
Analyses de données
Intervalle de confiance d’une estimation
Précision d’une estimation ?
Soit la distribution de Tn.
Soit un seuil de probabilité α,
considéré comme négligeable.
On peut définir un intervalle [θ-ε1, θ+ε2 ] de probabilité (1-α).
La probabilité d’observer l’événement θ-ε1 ≤ Tn ≤ θ+ε2 est (1-α).
Par conséquent, la probabilité de l’événement Tn-ε2 ≤ θ ≤ Tn+ε1 est (1-α).
t
p(t)
θ+ε2θθ-ε1
3 – Inférence : estimation statistique
Analyses de données
Intervalle de confiance d’une estimation
L’intervalle [Tn-ε2,Tn+ε1] est un intervalle aléatoire dont la probabilité de contenir θ est (1-α).
Concernant l’échantillon observé x1, x2…xn et la valeur θ* de Tncorrespondante…
… l’intervalle [θ*-ε2, θ*+ε1] est l’intervalle de confiance de l’estimation de θau seuil de probabilité (1-α).
Remarque : infinité de possibilités de répartir
la probabilité α, dont une correspond à un
intervalle minimal. En pratique :
t
p(t)
θ+ε2θθ-ε1
α/2 α/21-α
3 – Inférence : estimation statistique
Analyses de données
Application : Estimation d’une moyenne
Soit une population de moyenne µ inconnue et de variance σ² connue.
Soit Mn, la VA « moyenne d’un échantillon de taille n », on montre :
E(Mn) = µ
σ²(Mn) = σ² / n → 0 quand n →∞
Mn est donc un estimateur sans biais et convergent de µ.
Résultat général indépendant de la loi de probabilité.
Cependant, la détermination de l’intervalle de confiance nécessite la connaissance de la loi.
3 – Inférence : estimation statistique
Analyses de données
Application : Estimation d’une moyenne et Intervalle de confiance
Cas d’une loi normale de variance σ² connue
Mn suit également une loi normale de moyenne µ et d’écart-type .
Soit un seuil de probabilité α, on peut écrire :
Où uα/2 est lu dans la table de la loi normale réduite de façon que :
L’intervalle de confiance de µ est donc :
nσ
αnσ
uµMnσ
uµobPr αnα −=
+<<− 122
αuUobPr α => 2
nσ
umµnσ
um α*
α*
22 +<<−
3 – Inférence : estimation statistique
Analyses de données
Remarque :
La construction d’un intervalle de confiance repose sur 3 éléments :
- Taille de l’échantillon
- Fiabilité du résultat (donnée par le coefficient de confiance)
- Précision (amplitude de l’intervalle)
Pour n fixé :
- Plus la fiabilité est bonne, plus la précision est faible ;
- Plus la fiabilité est faible, plus la précision est forte
3 – Inférence : estimation statistique
Analyses de données
Exemples de démarches d’estimation
Remarques préliminaires
Population de taille N, de moyenne µ et de variance σ²
Echantillon de taille n :
- moyenne d’échantillon :
- variance d’échantillon (quasi-variance ou variance corrigée ):
Lois type : Student, Fisher,
n
X...XXX n21 +++=
( )∑
−−=
n
1
i2
1n
XXS
2χ
3 – Inférence : estimation statistique
Analyses de données
Exemples de démarches d’estimation
à (n-1) ddlµ inconnu
à n ddlµ connu
NormaleVariance σ²
~ N (0;1)σ² inconnu
~ N (0;1)σ² connuQuelconque
n>30
Student (n-1)σ² inconnu
N (0;1)σ² connu
Normale
Moyenne µ
LoiStatistique
(estimateur)Loi de la population
Paramètre àestimer
)σ
µX(n
−
)S
µX(n
−
)σ
µX(n
−
)S
µX(n
−
( )∑
−2
2i
σ
µX 2χ
2
2
σ
S)1n( − 2χ
3 – Inférence ou estimation statistique
Analyses de données
Concept du maximum de vraisemblance
La vraisemblance du paramètre θ associé aux données s’écrit :
La vraisemblance contient toute l’information apportée par (x1, . . . , xn)sur le paramètre θ.
La méthode du maximum de vraisemblance consiste à estimer θ par
Cet estimateur jouit de bonnes propriétés lorsque n est grand devantla dimension de θ.
( ) ( )θ;xfθL i
n
i 1=∏=
( )( )
= θLmaxargθθ
*
4 – Inférence bayésienne
Principe
Démarche logique permettant d’évaluer ou de réviser la probabilité d’une hypothèse.
Utilisation des théorèmes de combinaison des probabilités (qui conduisent au théorème de Bayes)
La statistique bayésienne est préférable lorsque les informations sont rares (statistique des petits échantillons). Elle est cependant plus coûteuse en temps de calcul.
Les approches classique et bayésienne sont asymptotiquement équivalentes.
Analyses de données
4 – Inférence bayésienne
Plus précisément…
Le paramètre θ associé au modèle statistique f(x;θ) est considéré aléatoire de loi a priori .
Sachant les données x, θ suit une loi a posteriori :
L’inférence statistique se conduit sur la base de cette loi a posteriori.
Analyses de données
)θ(Π
)x/θ(Π
( ) ( )( ) ( )∫
=θdθΠx/θL
θΠx/θL)x/θ(Π
4 – Inférence bayésienne
Plus précisément…
La loi a priori résume l’information préalable à l’obtention des données que l’on possède sur le paramètre θ.
Elle résume également l’incertitude sur la valeur de cette information.
Elle fournit un cadre cohérent et contrôlable pour quantifier les connaissances et les opinions d’expert.
Grâce au théorème de Bayes, elle donne naissance à la loi a posteriori qui tire toute l’information des données et de la loi a priori.
Analyses de données
)θ(Π
)x/θ(Π
4 – Inférence bayésienne
Plus précisément…
Analyses de données
Une fois la loi a posteriori établie ou approché, on en déduit un estimateur ponctuel de θ qui peut être :- la moyenne a posteriori- le mode a posteriori- la médiane a posteriori.
Potentiellement, la loi a posteriori contient les éléments pour évaluer l’incertitude de cet estimateur ponctuel.
6 – Inférence : test d’hypothèses
Principe
Démarche consistant à accepter ou rejeter une hypothèse statistique sur la base d’un jeu de données disponible
Le test d’hypothèse n’est pas sans risque. On note 2 types d’erreurs :
- rejeter une hypothèse vraie (risque de première espèce de probabilité α) ;
- accepter une hypothèse fausse (risque de deuxième espèce de probabilité β).
Tests classiques : on impose par exemple que le risque de deuxième espèce βtende vers 0 quand le nombre d'observations tend vers l'infini et on fixe le risque de première espèce à un niveau α
Test de Student, Test de Fisher, Test de Χ²…
Tests bayésiens : pondérations des risques de première et de deuxième espèces grâce à la connaissance de probabilités a priori…
Psi-test…
Analyses de données
6 – Inférence : test d’hypothèses
Test sur un paramètre
La valeur d’un paramètre θ trouvée sur un échantillon peut-être mise en relation avec une valeur à priori θ0.
Hypothèse nulle H0 : θ = θ0
Hypothèse alternative H1 : θ ≠ θ0
- Test unilatéral H1 : θ < θ0 ou θ > θ0
- Test bilatéral H1 : θ ≠ θ0
Analyses de données
6 – Inférence : test d’hypothèses
Test sur un paramètre
Construction du test :
- Détermination des hypothèses
- Choix d’une statistique (estimateur T du paramètre θ)
- Règle de décision : notion de seuil critique l
Si t < l , on rejette l’hypothèse H0.
Si t > l, on accepte l’hypothèse H0
Analyses de données
6 – Inférence : test d’hypothèses
Test sur un paramètre
Exemple : test sur la moyenne d’une population de variance connue
H0 : µ = µ0
Estimateur :
On sait que : ou
Règle de décision : on rejette H0
on accepte H0
Analyses de données
n
X...XXX n21 +++=
)n
σ,µ(ΝX → )1;0(Ν)
σ
µX(n →−
lX <
lX >
6 – Inférence : test d’hypothèses
Test sur un paramètre
Exemple : test sur la moyenne d’une population de variance connue
Détermination du seuil critique :
Soit α = P(rejeter H0 quand H0 est vraie)
= P( quand H0 est vraie)
=
=
Analyses de données
lX <
)σ
µln
σ
µXn(P 00 −<−
)σ
µln)1;0(N(P 0−<
6 – Inférence : test d’hypothèses
Test sur un paramètre
Exemple : test sur la moyenne d’une population de variance connue
Détermination du seuil critique :
α étant fixé, on en déduit la valeur de et donc de l.
Analyses de données
σ
µln 0−
Recommended