Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par...

Preview:

Citation preview

Identification du nombre de composantsd’un mélange gaussien

Sous la direction de Bernard Garel

par chaînes de Markov à sauts réversibles dans le cas multivarié

par maximum de vraisemblance dans le cas univarié

1/42

Les mélanges gaussiens par l’exemple

Etudes cliniques :Dosage de globules blancs dans le sang des patients

Pour des individus sains, la distribution est gaussiennede moyenne 0 connue

Pour certaines maladies, le nombre de globules blancs augmente

La variance des observations est commune et connue

Deux hypothèses :

H1H0

Les individus analysés sont sains Certains individus sont malades

Le nombre de globule blancsuit une loi normale

Le nombre de globules blancssuit une loi de mélange

2/42

Problématique

Ayant observé un échantillon

Comment faire un choix entre les deux hypothèses ?Quelle confiance dans le résultat ?

Comment repérer les individus malades ?

Théorie des tests statistiques

Approche classificatrice

Pour d’autres maladies, le taux de globules diminuePeut on caractériser les maladies ?Les repérer, les compter ?

Détection du nombre de composants

3/42

Et en multivarié ?

Images d’étoile double prises au pic du midiQuelle est la probabilité d’avoir observé une étoile double ?

4/42

On souhaite analyser des données supposées Indépendantes, provenant d’un mélange gaussien à k composants de

densité :

Nombre de composants

Estimation des paramètresObjectifs de l’inférence :

Première utilisation d’un modèle de mélange : Karl Pearson (1894)

Utilisation de plus en plus large : 50% des publications postérieures à 1995

Très nombreuses applications pratiques, en univarié comme en multivarié

Thème général : Les mélanges gaussiens5/42

Notion d’identifiabilité

Le mélange est invariant sous les k! permutations des paramètres

La vraisemblance possède donc k! modes

Solution classique :

imposer une condition d’ordre comme

ou

Conditions non utilisées dans cette thèse

6/42

PLAN

PARTIE 1 : Test d’homogéneité contre mélange simple dans le cas général

PARTIE 2 : Méthodes de Monte Carlo par chaînes de Markov

• Test du rapport des maximums de vraisemblance• Log-vraisemblance modifiée• Application aux mélanges sur les variances• Tabulations

• Méthodes de Monte Carlo par chaînes de Markov• Illustrations• Le problème du « label switching » 

• Modélisation bayésienne des modèles à dimension variable• Choix des lois a priori• La méthode MCMC à sauts réversibles• L’algorithme• Le mouvement de séparation• Simulations

PARTIE 3 : RJMCMC appliqué au mélanges gaussiens multivariés

7/42

PARTIE 1

Test d’homogéneité contre mélange simpledans le cas général

8/42

Ce type de problème a été étudié par de nombreux auteurs :

Approche adoptée :Résoudre ce problème dans le cas général de manière simpleen recherchant des hypothèses minimales sur la densité g

Chen & Chen (2001) Garel (2001) Lemdani & Pons (1999) Dacunha- Castelle & Gassiat (1997)

Retour à l’exemple introductif

Homogéneité : Mélange simple :

H1H0

9/42

La statistique de test est :

Avec :

Test du rapport des maximums de vraisemblance

on peut écrire la Log-vraisemblance de la façon suivante

Avec : et

10/42

On utilise une Log vraisemblance modifiée

Le sup de :

est atteint pour

c’est-à-dire sur des ensemblesde la forme :

: Zone où la vraisemblance est maximale

11/42

p1

0

+

-

-a

a

Retour à la Log-vraisemblance originale

Selon Redner(1981), la vraisemblance atteint son maximum sur un voisinage de l’hypothèse nulle, c’est-à-dire :

On se ramène à des ensembles de la forme

sur lesquels on montre que :

On peut donc utiliser le maximum de la vraisemblance modifiée

qui s’écrit :

12/42

En faisant certaines hypothèses simples sur la loi g (régularité, intégrabilité)on obtient le résultat suivant :

13/42

Application aux mélanges gaussiens sur les variances

Le théorème précédents’applique avec :

et :

Poursuite d’un travail initié par Goussanou (2001)On montre que les hypothèses nécessaires sont vérifiées

H1

H0

14/42

converge vers De plus,

où est un processus gaussien centré de variance 1 et de même fonctiond’autocovariance que

avec

et

On est donc en mesure d’effectuer les tabulations de ce testdans ce cas particulier

15/42

Davies (1977) :

Tabulations

Connaissant , on souhaite calculer u tel que :

On ne dispose que de

avecoù est la fonction d’autocovariancedu processus.

Delmas (2001) :

16/42

Les valeurs critiques pour un niveau fixé seront solutions de

Le terme est très complexe (Delmas (2001))et conduit à de nombreuses instabilités numériques

DL de

17/42

PARTIE 2

Méthodes de Monte Carlo par Chaînes de Markovet « label switching »

18/42

De plus, les méthodes classiques de maximisation ne réussissent

généralement pas à trouver le maximum global de la vraisemblance à cause de la multimodalité (identifiabilité).

Même des modèles simples peuvent mener à des calculs très complexes

La vraisemblance d’un mélange gaussien à k composants

possède kn termes, ce qui rend son calcul prohibitifpour de grands échantillons

Permettent de résoudre des problèmes d’optimisation (liés à la vraisemblance)comme des problèmes d’intégration (fréquents en statistique bayesienne)

Méthodes de Monte Carlo par chaînes de Markov

19/42

Méthodes de Monte Carlo par Chaînes de Markov

Objectif de l’intégration par MCMC :générer un échantillon distribué selon , la loi de Y

et approximer

par : On a

Un exemple, l’algorithme de Metropolis Hastings

20/42

MCMC et méthodes bayesiennes

Dans un cadre bayésien, l’information apportée par les données y1,…,yn

réalisations d’une v.a. , combinée avec une informationa priori sur le paramètre (donnée par la densité )est résumée par la loi a posteriori

avec

Les méthodes MCMC sont ici utilisées pour simuler des lois a posteriori

21/42

Le problème du « label switching »

0 1

0 1

0 0.5

0 0.5

0 1

0

1

0 0.5

0

0.5

22/42

Un exemple

On génère un échantillon de densité :

4000 itérations de l’algorithme de Gibbs nous donnent le résultat suivant :

23/42

Des solutions existentStephens (2000) : Un algorithme de type k-means avec k! classescorrespondant aux k! façons d’ordonner les composants du mélange

Celeux (1998) : Comparable à une version séquentielle de l’algorithme des k-means dont les centres sont déterminés par les m premières itérations.

24/42

PARTIE 3

Méthode de Monte Carlo par chaînes de Markovà sauts réversibles

appliquée aux mélanges gaussiens multivariés

Généralisation multidimensionnelle de Richardson & Green (1997)

25/42

Choix de modèles

Le nombre de composants k représente la dimension du modèle

associés

La densité d’un mélange gaussien multivarié s’écrit

avec :

choisir parmi

Objectif :

26/42

Modélisation bayésiennedes modèles à dimension variable

On s’intéresse à la loi a posteriori de

« One of the things we do not know is the number of things we do not know »Peter Green

27/42

Loi a priori sur

Loi a priori sur

Vraisemblance

Second problème :K! modes dans la vraisemblanceET DONC dans

Phénomène de « label switching » dans les simulations

Premier problème : ne peut être obtenue analytiquement

Utilisation de méthodes de type MCMC

Modèle hiérarchique

On introduit le modèle à données manquantes

Chaque donnée yi provient d’un des composants du mélange

yi est associée à une variable indicatrice telle que

28/42

Choix des lois a priori

Inspirés par Richardson & Green (1997) et Stephens (2000)

A priori sur le nombre de composants :

A priori sur les moyennes et les variances :

Attention ! Les lois a priori impropres sont prohibées

Risque de composants vides Loi a posteriori impropre

indépendants et faiblement informatifs{

loi de Poisson tronquée à

29/42

Richardson & Green (1997) Stephens (2000)

R = amplitude de variation des données

30/42

Graphe acyclique ordonné

y

k

hg

31/42

La méthode MCMC à sauts réversibles

Soit la variable aléatoire de réalisation

Sauts réversibles entre espaces différents

32/42

On génère une chaîne de Markov sur

se déplaçant de vers

Si : mouvement de Gibbs classique

Si : changement de dimension !

On définit un difféomorphisme avec (réversibilité)

Transition de vers Transition de vers

Pour se déplacer de vers , nous devons compléter ces espacespour se ramener à une dimension commune

nnnn kkkkkk '''

33/42

Applications permettant de changer de dimension

est généré selon la densité est généré selon la densité

R kn

R 'kn k R k' n k

R ' n k

k ' k

u 'u

gkk'

gkk'2

gkk'1

gkk'1

gkk'2

gkk'

34/42

Le nouvel état proposé est

Il est alors accepté avec la probabilité :

c’est-à-dire

: la probabilité de tenter un déplacement de vers

: la probabilité de tenter un déplacement de vers

Rapport des lois a prioridu nombre de composants

Rapport des lois a priorisur les paramètres

Rapportdes vraisemblances

: jacobien de la transformation

35/42

L’algorithme

1.

2. Mise à jour de

3. Mise à jour des

4. Mise à jour des allocations

5. Mise à jour de l’hyperparamètre

6.

Avec probabilité ½ essayer de séparer un composantAvec probabilité ½ essayer de combiner deux composants

Avec probabilité ½ essayer de faire naître un composantAvec probabilité ½ essayer de tuer un composant

{

{

36/42

Le mouvement de Séparation

Proposer un nouveau jeu de paramètres aussi bien supporté par les donnéesque le précédent

Garantir la définie positivité des nouvelles matrices de variance

Conserver les moments jusqu’à l’ordre 2

Utiliser la décomposition de Cholesky

37/42

Le changement de variable proposé est le suivant :

de jacobien : J =

Pour r = 1

J =à comparer avec celui

de Richardson & Green (1997)

38/42

Simulations

Nous avons généré l’échantillon bivarié suivant :

Estimation à noyau de la densité

Données générées

39/42

=1 =2

=3 =4

Evolution du nombre de composants au cours des itérations

Loi a posteriori associée

Nombre de composants a posteriori

Paramètre a priori pour le nombre de composants :

40/42

=1 =2

=3 =4

Evolution du nombre de composants au cours des itérations

Loi a posteriori associée

Nombre de composants a posterioripour les données réelles « geyser »

41/42

Conclusion

Algorithme complexe Nécessitant un très grand nombre d’itérations Estimation du nombre de composants prometteuse

Nécessité d’une étude plus approfondie (convergence, « label switching » …)

Programmer avec un langage compilé et effectuer un très grand nombre d’itérations

Envisager d’autres solutions au « label switching » (fonctions de coûts « label free »)

Envisager d’autres types de mouvements (condition sur les moments non nécessaire)

Utiliser une paramétrisation des matrices de variance

Recommended