42
Identification du nombre de composants d’un mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié maximum de vraisemblance dans le cas univarié 1/42

Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Embed Size (px)

Citation preview

Page 1: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Identification du nombre de composantsd’un mélange gaussien

Sous la direction de Bernard Garel

par chaînes de Markov à sauts réversibles dans le cas multivarié

par maximum de vraisemblance dans le cas univarié

1/42

Page 2: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Les mélanges gaussiens par l’exemple

Etudes cliniques :Dosage de globules blancs dans le sang des patients

Pour des individus sains, la distribution est gaussiennede moyenne 0 connue

Pour certaines maladies, le nombre de globules blancs augmente

La variance des observations est commune et connue

Deux hypothèses :

H1H0

Les individus analysés sont sains Certains individus sont malades

Le nombre de globule blancsuit une loi normale

Le nombre de globules blancssuit une loi de mélange

2/42

Page 3: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Problématique

Ayant observé un échantillon

Comment faire un choix entre les deux hypothèses ?Quelle confiance dans le résultat ?

Comment repérer les individus malades ?

Théorie des tests statistiques

Approche classificatrice

Pour d’autres maladies, le taux de globules diminuePeut on caractériser les maladies ?Les repérer, les compter ?

Détection du nombre de composants

3/42

Page 4: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Et en multivarié ?

Images d’étoile double prises au pic du midiQuelle est la probabilité d’avoir observé une étoile double ?

4/42

Page 5: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

On souhaite analyser des données supposées Indépendantes, provenant d’un mélange gaussien à k composants de

densité :

Nombre de composants

Estimation des paramètresObjectifs de l’inférence :

Première utilisation d’un modèle de mélange : Karl Pearson (1894)

Utilisation de plus en plus large : 50% des publications postérieures à 1995

Très nombreuses applications pratiques, en univarié comme en multivarié

Thème général : Les mélanges gaussiens5/42

Page 6: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Notion d’identifiabilité

Le mélange est invariant sous les k! permutations des paramètres

La vraisemblance possède donc k! modes

Solution classique :

imposer une condition d’ordre comme

ou

Conditions non utilisées dans cette thèse

6/42

Page 7: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

PLAN

PARTIE 1 : Test d’homogéneité contre mélange simple dans le cas général

PARTIE 2 : Méthodes de Monte Carlo par chaînes de Markov

• Test du rapport des maximums de vraisemblance• Log-vraisemblance modifiée• Application aux mélanges sur les variances• Tabulations

• Méthodes de Monte Carlo par chaînes de Markov• Illustrations• Le problème du « label switching » 

• Modélisation bayésienne des modèles à dimension variable• Choix des lois a priori• La méthode MCMC à sauts réversibles• L’algorithme• Le mouvement de séparation• Simulations

PARTIE 3 : RJMCMC appliqué au mélanges gaussiens multivariés

7/42

Page 8: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

PARTIE 1

Test d’homogéneité contre mélange simpledans le cas général

8/42

Page 9: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Ce type de problème a été étudié par de nombreux auteurs :

Approche adoptée :Résoudre ce problème dans le cas général de manière simpleen recherchant des hypothèses minimales sur la densité g

Chen & Chen (2001) Garel (2001) Lemdani & Pons (1999) Dacunha- Castelle & Gassiat (1997)

Retour à l’exemple introductif

Homogéneité : Mélange simple :

H1H0

9/42

Page 10: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

La statistique de test est :

Avec :

Test du rapport des maximums de vraisemblance

on peut écrire la Log-vraisemblance de la façon suivante

Avec : et

10/42

Page 11: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

On utilise une Log vraisemblance modifiée

Le sup de :

est atteint pour

c’est-à-dire sur des ensemblesde la forme :

: Zone où la vraisemblance est maximale

11/42

p1

0

+

-

-a

a

Page 12: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Retour à la Log-vraisemblance originale

Selon Redner(1981), la vraisemblance atteint son maximum sur un voisinage de l’hypothèse nulle, c’est-à-dire :

On se ramène à des ensembles de la forme

sur lesquels on montre que :

On peut donc utiliser le maximum de la vraisemblance modifiée

qui s’écrit :

12/42

Page 13: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

En faisant certaines hypothèses simples sur la loi g (régularité, intégrabilité)on obtient le résultat suivant :

13/42

Page 14: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Application aux mélanges gaussiens sur les variances

Le théorème précédents’applique avec :

et :

Poursuite d’un travail initié par Goussanou (2001)On montre que les hypothèses nécessaires sont vérifiées

H1

H0

14/42

Page 15: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

converge vers De plus,

où est un processus gaussien centré de variance 1 et de même fonctiond’autocovariance que

avec

et

On est donc en mesure d’effectuer les tabulations de ce testdans ce cas particulier

15/42

Page 16: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Davies (1977) :

Tabulations

Connaissant , on souhaite calculer u tel que :

On ne dispose que de

avecoù est la fonction d’autocovariancedu processus.

Delmas (2001) :

16/42

Page 17: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Les valeurs critiques pour un niveau fixé seront solutions de

Le terme est très complexe (Delmas (2001))et conduit à de nombreuses instabilités numériques

DL de

17/42

Page 18: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

PARTIE 2

Méthodes de Monte Carlo par Chaînes de Markovet « label switching »

18/42

Page 19: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

De plus, les méthodes classiques de maximisation ne réussissent

généralement pas à trouver le maximum global de la vraisemblance à cause de la multimodalité (identifiabilité).

Même des modèles simples peuvent mener à des calculs très complexes

La vraisemblance d’un mélange gaussien à k composants

possède kn termes, ce qui rend son calcul prohibitifpour de grands échantillons

Permettent de résoudre des problèmes d’optimisation (liés à la vraisemblance)comme des problèmes d’intégration (fréquents en statistique bayesienne)

Méthodes de Monte Carlo par chaînes de Markov

19/42

Page 20: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Méthodes de Monte Carlo par Chaînes de Markov

Objectif de l’intégration par MCMC :générer un échantillon distribué selon , la loi de Y

et approximer

par : On a

Un exemple, l’algorithme de Metropolis Hastings

20/42

Page 21: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

MCMC et méthodes bayesiennes

Dans un cadre bayésien, l’information apportée par les données y1,…,yn

réalisations d’une v.a. , combinée avec une informationa priori sur le paramètre (donnée par la densité )est résumée par la loi a posteriori

avec

Les méthodes MCMC sont ici utilisées pour simuler des lois a posteriori

21/42

Page 22: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Le problème du « label switching »

0 1

0 1

0 0.5

0 0.5

0 1

0

1

0 0.5

0

0.5

22/42

Page 23: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Un exemple

On génère un échantillon de densité :

4000 itérations de l’algorithme de Gibbs nous donnent le résultat suivant :

23/42

Page 24: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Des solutions existentStephens (2000) : Un algorithme de type k-means avec k! classescorrespondant aux k! façons d’ordonner les composants du mélange

Celeux (1998) : Comparable à une version séquentielle de l’algorithme des k-means dont les centres sont déterminés par les m premières itérations.

24/42

Page 25: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

PARTIE 3

Méthode de Monte Carlo par chaînes de Markovà sauts réversibles

appliquée aux mélanges gaussiens multivariés

Généralisation multidimensionnelle de Richardson & Green (1997)

25/42

Page 26: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Choix de modèles

Le nombre de composants k représente la dimension du modèle

associés

La densité d’un mélange gaussien multivarié s’écrit

avec :

choisir parmi

Objectif :

26/42

Page 27: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Modélisation bayésiennedes modèles à dimension variable

On s’intéresse à la loi a posteriori de

« One of the things we do not know is the number of things we do not know »Peter Green

27/42

Loi a priori sur

Loi a priori sur

Vraisemblance

Page 28: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Second problème :K! modes dans la vraisemblanceET DONC dans

Phénomène de « label switching » dans les simulations

Premier problème : ne peut être obtenue analytiquement

Utilisation de méthodes de type MCMC

Modèle hiérarchique

On introduit le modèle à données manquantes

Chaque donnée yi provient d’un des composants du mélange

yi est associée à une variable indicatrice telle que

28/42

Page 29: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Choix des lois a priori

Inspirés par Richardson & Green (1997) et Stephens (2000)

A priori sur le nombre de composants :

A priori sur les moyennes et les variances :

Attention ! Les lois a priori impropres sont prohibées

Risque de composants vides Loi a posteriori impropre

indépendants et faiblement informatifs{

loi de Poisson tronquée à

29/42

Page 30: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Richardson & Green (1997) Stephens (2000)

R = amplitude de variation des données

30/42

Page 31: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Graphe acyclique ordonné

y

k

hg

31/42

Page 32: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

La méthode MCMC à sauts réversibles

Soit la variable aléatoire de réalisation

Sauts réversibles entre espaces différents

32/42

On génère une chaîne de Markov sur

se déplaçant de vers

Si : mouvement de Gibbs classique

Si : changement de dimension !

Page 33: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

On définit un difféomorphisme avec (réversibilité)

Transition de vers Transition de vers

Pour se déplacer de vers , nous devons compléter ces espacespour se ramener à une dimension commune

nnnn kkkkkk '''

33/42

Page 34: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Applications permettant de changer de dimension

est généré selon la densité est généré selon la densité

R kn

R 'kn k R k' n k

R ' n k

k ' k

u 'u

gkk'

gkk'2

gkk'1

gkk'1

gkk'2

gkk'

34/42

Page 35: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Le nouvel état proposé est

Il est alors accepté avec la probabilité :

c’est-à-dire

: la probabilité de tenter un déplacement de vers

: la probabilité de tenter un déplacement de vers

Rapport des lois a prioridu nombre de composants

Rapport des lois a priorisur les paramètres

Rapportdes vraisemblances

: jacobien de la transformation

35/42

Page 36: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

L’algorithme

1.

2. Mise à jour de

3. Mise à jour des

4. Mise à jour des allocations

5. Mise à jour de l’hyperparamètre

6.

Avec probabilité ½ essayer de séparer un composantAvec probabilité ½ essayer de combiner deux composants

Avec probabilité ½ essayer de faire naître un composantAvec probabilité ½ essayer de tuer un composant

{

{

36/42

Page 37: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Le mouvement de Séparation

Proposer un nouveau jeu de paramètres aussi bien supporté par les donnéesque le précédent

Garantir la définie positivité des nouvelles matrices de variance

Conserver les moments jusqu’à l’ordre 2

Utiliser la décomposition de Cholesky

37/42

Page 38: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Le changement de variable proposé est le suivant :

de jacobien : J =

Pour r = 1

J =à comparer avec celui

de Richardson & Green (1997)

38/42

Page 39: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Simulations

Nous avons généré l’échantillon bivarié suivant :

Estimation à noyau de la densité

Données générées

39/42

Page 40: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

=1 =2

=3 =4

Evolution du nombre de composants au cours des itérations

Loi a posteriori associée

Nombre de composants a posteriori

Paramètre a priori pour le nombre de composants :

40/42

Page 41: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

=1 =2

=3 =4

Evolution du nombre de composants au cours des itérations

Loi a posteriori associée

Nombre de composants a posterioripour les données réelles « geyser »

41/42

Page 42: Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Conclusion

Algorithme complexe Nécessitant un très grand nombre d’itérations Estimation du nombre de composants prometteuse

Nécessité d’une étude plus approfondie (convergence, « label switching » …)

Programmer avec un langage compilé et effectuer un très grand nombre d’itérations

Envisager d’autres solutions au « label switching » (fonctions de coûts « label free »)

Envisager d’autres types de mouvements (condition sur les moments non nécessaire)

Utiliser une paramétrisation des matrices de variance