View
219
Download
0
Category
Preview:
Citation preview
Description de scènes naturelles par composantes indépendantes
Hervé Le Borgnehttp://elm.eeng.dcu.ie/~hlborgne/
Septembre 2010
ERMITES 2010
2
Dans les 120 minutes à venir…
● Scènes naturelles� Caractéristiques et propriétés� Rapport à la vision� De la perception au modèle de discrimination
● Descripteurs propres aux scènes naturelles� Rappel sur les « visages propres »� Extraction par ACI� Propriétés (pour la discrimination)
● Classification de scènes naturelles� Calcul de signatures� Validation expérimentale
● Conclusion
Rendre à César…
● Travaux réalisés au LIS de Grenoble (� GIPSA) en 1999-2004
● Sous la direction de Anne Guérin Dugué
● En collaboration avec Anestis Antoniadis
� ADCI: analyse discriminante en composantes indépendante (fin exposé)
● Dans l’équipe de Jeanny Hérault
� Approche: vision par ordinateur ↔ perception ↔ physiologie syst. visuel
● En collaboration fréquente avec Nathalie Guyader
� Aspects perception (Alan Chauvin, Christian Marendaz…)
Enjeux scientifiques
Décrire lesScènes naturelles
Psychologiecognitive
PhysiologieSyst. visuel
• Modélisation système visuel
Vision parordinateur
• Extraction « sémantique »
• Recherche d’images par le contenu
Enjeux scientifiques
Décrire lesScènes naturelles
Psychologiecognitive
PhysiologieSyst. visuel
Vision parordinateur
• Modélisation système visuel
1 – Catégorisation perceptive 2 – Extraction de caractéristiques3 – Analyse de scènes naturelles
• Extraction « sémantique »
• Recherche d’images par le contenu
v. présentation J. Hérault
v. présentation H. Jégou
Statistiques des scènes naturelles
● Monde réel ���� évolution ���� syst. visuels des êtres vivants
� Importance des premiers stimuli[Blackmore & Cooper, 71] [Movshon & van Sluyters 81]
� Comment?
� Propriétés du monde réel?
● Intérêt pratique
� Compression [Kretzmer, 1952]
� Restauration d’image
� Indexation, classification
● Statistiques du premier ordre
� Très variables d’une image à l’autre
� Peu informatives sur leur structure
[Gousseau, 2008]
Statistiques des scènes naturelles
● Statistiques du second ordre
� Corrélation
� Spectre de puissance
● Invariance à l’échelle
� Spectre de puissance: loi en 1/fa (a~2)
� Anisotropie; liens aux catégories perceptives[Oliva et al., 1999]
[Field, 1987]
[Oliva Torralba 2001]
Redondance dans les scènes naturelles
● Corrélations spatiales���� redondance [Ruderman, 1994]
� Moyenne sur Log(niveau de gris) par intégration
L(x,y)=ln(l(x,y)/l0)« Log_Contrast » Histogramme (log-contrast) à
différentes échelles 1, 2, 4, 8, 16, 32
● Queues droites de l’histogramme
� � Invariance à l’échelle
Statistiques locales
Stationaire Non-stationaire
1 m 10,000 m
[Torralba & Oliva, 2003]
Artificielles
Naturelles
Vers un modèle de discrimination
● De la rétine à V1
● Principes d’un modèle de discimination
● Codage
● Classification supervisée
Chemin visuels
De la rétine au cortex visuel
CouleurLuminance
- Blanchiment spectral
Cortex V1
Banque de filtres passe bande orientés
[Hubel & Wiesel, 1968]
Processus de haut niveau (dont
catégorisation)
[J.Hérault, rapport interne SCOPIE, 2002]
Oeil
LGN
v. présentation J. Hérault
De la perception au modèle
● Système sensoriel = tâche de traitement de l’information [Marr, 1982]
� Niveau conceptuel: qu’est-ce qui est calculé? Pourquoi?
� Niveau algorithmique: comment est-ce calculé?
� Niveau implémentation: plausibilité neurophysiologique?
De la perception au modèle
● Codage sensoriel: exploiter la structure des images du monde réel
� Réduction de la redondance� [Barlow, 1961, 1989]
● Mise en œuvre algorithmique
� Décomposition parcimonieuse� [Olshausen & Fiedls, 1996]
� Analyse en composantes indépendantes� [Hérault, Jutten, Ans, 1985; Common, 1994]
Niveauconceptuel
Niveaualgorithmique
Classification supervisée et CBIR
● Schéma global d’indexation par le contenu
Segmentation Description
Segmentation Description Comparaison
Apprentissage / indexation----------------------------------------------------------------------
Test / recherche
v. présentation H. Jégou
Modèle(s)
Extraction de composantes indépendantes
● « visages propres » et GIST
● Indépendance statistique
● Analyse en composantes indépendantes
● Modèle génératif
● Méthodes d’extraction
● Propriétés des descripteurs
Visages propres
● Analyse en composante principale
� Décorrelation (stat ordre 2)
� Projections successives sur les axes de variance maximale
● Algorithmiquement
� Matrice de variance/covariance
� Diagonalisation
� Vecteur propres
● Propriétés:
� Encodage dégressif de variance
� � ordre des valeurs propres!
● Application à la reconnaissance de visages:
� [Sirovich & Kirby, 1987]
� [Turk & Pentland, 1991]
Signature globale de scènes (GIST)
● Discriminant Spectral Template
� Basé sur une décomposition type ACP
� Analyse des stat. d’ordre 2 (spectre de puissance)
● En pratique, approximation par filtres de Gabor
� Meilleur compromis temps/espace-fréquence (au sens d’Heisenberg) [Gabor,1946]
� Implémentation� 5 fréquences (.02 � 0.32 c/p)
� 12 orientations
� 8x8 localisation spatiales
� ACP � décorrélation
[Oliva et al., 1999][Oliva, Torralba, 2001]
Analyse en composantes indépendantes
● Provient de recherche en neuroscience [Hérault, Jutten Ans, 1984]
● Illustration: cocktail party problem
● Problème de la séparation de source [Jutten, Hérault, 1991]
� N sources indépendantes
� P observations via P « micros »
� But = retrouver les sources indépendantes
● Indépendance…
� Non accoustique (discours « cohérent »…)
� Non acoustique (même langue…)
� � Statistique!
ACI: indépendance statistique
● Définition: X1 et X2 sont indépendantes ssi p(X1,X2)=p(X1)p(X2)
� Densité jointe = produit densités marginales
● Fonctions caractéristiques:
� Première espèce: Φ(t)=E[eitx]
� Deuxième espèce: Ψ(t)=log(Φ(t))
● Moments et cumulant (développement en série de Mc Laurin)
� µn(X)=(-i)nΦ(n)(0)
� γn(« X »n)=(-i)n Ψ(n)(0)
� Lien avec µn(X)=E[Xn]
� Définition avec des “fonctions génératrices de moments/cumulants”� MX(t)=E[etX] et CX(t)=log(E[etX]) � µn(X)=MX
(n)(0) et γn(X)= CX(n)(0)
● Cas vectoriel: idem (en dimension p)!
� Moment croisé d’ordre n: E[X1k1X2
k2…Xpkp] avec k1+…+kp=n
� Ex (p=2, n=4): E[X4], E[X3Y] ,E[X2Y2], E[XY3], E[Y4]
� Les cumulants croisés s’expriment en fonction des moments croisés:� Cum(X,X,X,X) = µ1111-3µ11µ11 =E[X4] - 3E[X2]2
� Cum(X,X,X,Y) = µ1112-3µ11µ12 =E[X3Y] - 3E[X2]E[XY]
� Cum(X,X,Y,Y) = µ1122-µ11µ22-2µ12µ12=E[X2Y2] –E[X2]E[Y2]-2E[XY]2
[P. Common, HDR, 1995]
ACI: indépendance statistique
● Moment centrés: mn=E[(X-µ1)n]
● Quelques moments et cumulants connus
� Moyenne: µ1 (donc m1=0)
� Variance: m2=E[(X-µ1)2]=σ2
� Asymétrie (skewness): m3/ σ3
� Aplatissement (kurtosis): γ4 /γ22=m4/ σ
4 -3� Fonction sur-gausienne = queues de distribution « lourdes »
S Kurtosis positifS Leptokurtic (« lepto- » = mince)
� Fonction sous-gaussiennes = queues « sous » la normale
S Kurtosis négatifS Platykurtic (« platy- » = large)
� Fonction gaussienne
S Kurtosis nulS Mesokurtic
● Si X a une distribution gaussienne, γn=0 pour n>2
� Statistiques d’ordre supérieur = supérieure à 2
� Des gaussiennes décorrélées sont indépendantes
ACI: indépendance statistique
● X et Y indépendantes ���� tous les cumulants (et moments) croisés sont nuls
● Si X a une distribution gaussienne, γn=0 pour n>2
� Statistiques d’ordre supérieur = supérieure à 2
� Des gaussiennes décorrélées sont indépendantes
● Fonction de contraste (ou contraste):
� Soit H les transformation de ℜN et T celles qui laissent invariant le sous-ensemble (S) des vecteurs aléatoires à composantes mutuellement indépendantes. Hs=image de S par H.
� Contraste = application H x Hs � R� Domination: ∀ H∈ H et ∀ s ∈ S, ξ(H,s) ≤ ξ(Id,s)
� Invariance: ∀ H∈ T , ξ(H,s) = ξ(Id,s)
� Discrimination: ∀ s ∈ S , ξ(H,s) = ξ(Id,s) => H∈ T
� Exemple: information mutuelle = KL( Proba conjointe, produit marginales )
� Autres fonctions en pratique…
Analyse en composantes indépendantes
● Provient de recherche en neuroscience [Hérault, Jutten Ans, 1984]
● Problème de séparation de source:
● Problème mal posé: A et s sont inconnues
� Ajout de l’hypothèse d’indépendance statistique
● Cas du mélange linéaire (instantané non bruité) [Common 1994]
� Possible si:� Au moins autant d’observation que de sources (micros >= discours)
� Au plus une source est gaussienne
� Restent deux indéterminations:� Ordre des sources
� Amplitude des sources
X=As(observations)
s(sources statistiquement
indépendantes)
Y=WX(estimations)
A(mélange) W
(séparation)
ACI: algorithmes
● Algorithmes
� Mesure d’indépendance (contraste)
� Principe algorithmique
● Algorithme HJ
� Inspiration neuromimétique
� Y=(W+I)-1x avec ∆wij=f(yi)g(yi) et Wii=0� f, g non linéaires impaires. Choix par MV [Pham, 92]
� Mesure (sous jacente): annulation cumulants
● Infomax
� Implémentation d’un modèle de capacité cognitive par RNA doit maximiser la taux d’information transféré d’une couche à la suivante [Linsker, 1988]
� Equivalent à la réduction de redondance [Nadal et Parga, 1994]� Codage efficace = codage factoriel
� Règle de type gradient relatif [Bell & Sejnowski, 1998]� Gradient: ∆W = [I − K tanh(y)yT − yyT]W
� Equivalent à une approche par MV
ACI: fast ICA [Hyvärinen&Oja, 1997]
● Mesure d’indépendance par non-gaussianité
� Th. Central limite: somme de variable � gaussienne� y = Wx = WAs
� But = maximiser la non-gaussianité de Y� Chaque yi � source indépendante
� Mesures:� Kurtosis: kurt(y) = E{y4}-2(E{y2})2
� Néguentropie: J(y)=H(ygauss)-H(y)
� Approx: J(y) ≈ [E{G(y)}-E{G(ugauss)}]2
Ex: G(y) = -exp(-u2/2)
● Algorithme
� Point fixe � convergence rapide� Dépend des données
� Package matlab� http://www.cis.hut.fi/projects/ica/fastica/
● Lien avec Poursuite de projection
� Recherche d’axes non gaussiens
Application de l’ACI
● Séparation de signaux
� Parole� Nécessite des modèles convolutifs
� Biomédical: signaux EEG, IRMf et MEG� [Beckman Smith, 2003]
● Données financières
� La prédiction financière est un travail de longue haleine…
● Extraction de caractéristiques d’images naturelles
� Cf après…
● Classification d’images
� Cf après…
� « Visages indépendants » [Barlett et al, 1998]
● Compression d’images
� Comparable à JPEG mais moins bien que JPEG2000
● Débruitage d’image [Hyvarinen et al. 2001]
● Estimation de transparence
� Modèle additif [Farid & &Adelson, 1999]
Modèle de génération
Décomposition linéaire dans la base de fonctions : ∑=
≈N
iii yxyyxI
1
),(.),( φ
y1 * + y2 * + ... + yn*
Modèleinterne
yn
y2
y1
I(x,y) Φi(x,y) yi
[Olshausen & Field, 1996]
ACI appliquée aux images
Fast-ICA
X1
X2
XN
Nouvelle base dereprésentation
(Extraction filtres)
Indépendance « maximale »
entre Xi
Données = imagettes 32x32.
Indépendance stat � diminution de la redondance
Prétraitements possibles des données
Apodisation : Focalisation
• Évite les effets de bord
• Dimension significative < 750
1
10.000
ACP ACI
entre 75 et 90 % de la variance totale
dim.
1 1024
10.000 observations / 1024 dim.
Imagettes
• Limite la dynamique
fréquentielle maximale
Méthode d’extraction
Prétraitements
Prétraitements
Prétraitements
Prétraitements
ACI
ACI
ACI
ACI
ACI• Filtres « par catégorie »• Filtres « toutes catégories »
[Bosh & Labbi, 1999,2001]
Filtres ACI et physiologie
● Filtres et module de leur TF
� Passe-bande
� Orientés
� Localisés
● Ressemble à:
� Gabor
� Cellules simples V1
● Comparaison physiologique
� Donnée du cortex de macaque
� Congruences� Largeur de bande
� Taille relative / ratio
� Différences� Pic fréquence centrale
� ±Orientation
[Van Hateren & Van der Schaaf, 1998]
[DeValois et al., 1982]
Adaptation aux spectres: ACP versus ACI
� Importance des statistiques d’ordre supérieur
ACI ACPSpectreCatégorie
Adaptation aux spectres
U0
V0
v
uθ
F0
V: 34%H: 24%
�58%
V: 26%H: 26%
�52%
V: 28%H: 10%
V: 10%H: 10%
�Émergence de descripteurs adaptés à la discrimination sans supervision
Cellules V1⇔ Gabor 2D
Sélectivité en orientation
Φ : facteur de forme
θ0 20 40 60 80
0
0.5
1
1.5
2
2.5
Φ
0 20 40 60 800
0.5
1
1.5
2
2.5
θ
Φ
0 20 40 60 800
0.5
1
1.5
2
2.5
θ
Φ
0 20 40 60 800
0.5
1
1.5
2
2.5
θ
Φ
Φ<1Φ=1
Φ>1
u
v
θ
Sélection de filtres
● Nécessité pour réduire la dimension de description
● Recherche exhaustive impossible ���� critère de sélection (“sous optimal”)
● Proposition: dispersal factor
� ���� Les filtres les plus utiles sont ceux dont la réponse est la plus variée (sur base d’apprentissage)
(σi – µi)
(σ1 – µ1)
(σ2 – µ2)
(σN – µN)
ζ(Fd)=Avg(σi)×Std(µi)I i
Fd
Classification de scènes
● Définition de signatures d’image
� Modélisation de la densité
� ActivMax
● Evaluation
Implémentation densité (1/3)
…
Sélection Filtres ACI
Filtered Image
.^2
Carte d’énergie
• Estimation de la densité
• Plusieurs modèles
• � vue unifiée
Activité
|.|
Implémentation densité (2/3)
● Estimation de la densité de probabilité
HistogrammeEstimation Logspline
MoyenneFonction GaussienneFonction « Half gaussian »
Logspline : [Kooperberg, Stone, 1992]
Histogramme
Fré
quen
ces
Valeurs
Implémentation densité (2/3)
Valeurs
Histogramme logarithmique
Fré
quen
ces
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
10-15 10-10 10-5 0
● Estimation de la densité de probabilité
Implémentation densité (3/3)
Image Ik Image Il
Eloignement Ik et Il
Propriétéd ’indépendance
statistique
N ddpN ddp
N divergences entre d.d.p
. . .
1 2 3 4 ………..… N
…
…
ADCI, [Amatoet al., 2002]
Implémentation par activité maximale
SignatureGlobale
SignatureLocalisée
NUMERO de filtre le plus actif en chaque pixel
1 2 3 4. ………N 1 2 3 4 ………N
1
N
Histogramme(bag-of-activity) Adaptation des filtres
aux statistiques des catégories
Fenêtre glissante : reflète la structure des
images localement
Evaluation: comparaison des signatures
KLMCp – Logspline,
Échantillonnage «Monte-Carlo»
Klint – Logspline, formulation
« intégrale »
HlogN – histogramme
logarithmique
HlinN – histogramme linéaire
KLG – moyenne et écart-type
Eucl – moyenne
KLMCp – Logspline,
Échantillonnage «Monte-Carlo»
Klint – Logspline, formulation
« intégrale »
HlogN – histogramme
logarithmique
HlinN – histogramme linéaire
KLG – moyenne et écart-type
Eucl – moyenne
KLMCp – Logspline,
Échantillonnage «Monte-Carlo»
Klint – Logspline, formulation
« intégrale »
HlogN – histogramme
logarithmique
HlinN – histogramme linéaire
KLG – moyenne et écart-type
Eucl – moyenne
KLMCp – Logspline,
Échantillonnage «Monte-Carlo»
Klint – Logspline, formulation
« intégrale »
HlogN – histogramme
logarithmique
HlinN – histogramme linéaire
KLG – moyenne et écart-type
Eucl – moyenne
KLMCp – Logspline,
Échantillonnage «Monte-Carlo»
Klint – Logspline, formulation
« intégrale »
HlogN – histogramme
logarithmique
HlinN – histogramme linéaire
KLG – moyenne et écart-type
Eucl – moyenne
Ta u
x de
rec
o nna
issa
nce
Nombre de filtres
Influence de la taille de signature
● Sélection aléatoire
● 20 répétions
● Comparaison
� ICA
� EH+SC
Evaluation
● Onze catégories COREL (sans recouvrement)
� 220 images d’apprentissage
� 1817 images de test (76 à 521 par catégorie)
● Description ACI
� 50 filtres par catégorie � D=750
� Ajout couleur (µ et σ de Cb-Cr) � D=754
● Comparaison
� Texture et couleur MPEG-7 (EH, HT, SC, CL)
� BoSIFT (codebook de taill 50, 100, 200, 1000)
● Classifieur SVM
� libSVM
� Noyau polynomial d’ordre 3
� Multiclass: one-versus-one
Conclusion
● Les scènes naturelles ont une structure très contrainte
● Un codage efficace des scènes naturelles peut être obtenu par un principe de réduction de redondance
● L’ACI permet de mettre en œuvre un tel principe
● Les unités codantes résultantes d’adaptent aux statistiques des (catégories des) images
● Plusieurs modèles de signatures possibles
Références: statistiques des scènes naturelles
● Kretzmer, E.R., Statistics of Television Signals, Bell System Tech.(31), No. 4, July 1952, pp. 7551-763
● De Valois, R.L. and De Valois, K.K., 1988. Spatial vision. , Oxford UniversityPress, New York pp. 1–381 .
● A. Oliva, A. Torralba « Modeling the shape of the scene: a holistic representationof the spatial envelope » International Journal of Computer Vision, Vol. 42(3): 145-175, 2001.
● Olshausen BA, Field DJ (1996). « Emergence of Simple-Cell Receptive Field Properties by Learning a Sparse Code for Natural Images » Nature, 381: 607-609
● D. L. Ruderman, “The statistics of natural images,” Network 5, 517–548 (1994)
● E. P. Simoncelli and B. A. Olshausen, “Natural image statistics and neural representation,” Annu. Rev. Neurosci. 24, 1193–1216 (2001)
● A. Torralba, A. Oliva « Semantic organization of scenes using discriminant structural templates » ICCV, pp 1253-1258, Korfu, Grece, 1999.
● A. Torralba, A.Oliva, Statistics of Natural Image Categories. Network: Computation in Neural Systems 14 (2003) 391-412
Références: eigenfaces
● M. Kirby and L. Sirovich (1990). "Application of the Karhunen-Loeveprocedure for the characterization of human faces". IEEE Transactions on Pattern analysis and Machine Intelligence 12 (1): 103–108.
● L. Sirovich and M. Kirby (1987). "Low-dimensional procedure for the characterization of human faces". Journal of the Optical Society of AmericaA 4: 519–524. doi:10.1364/JOSAA.4.000519.
● M. Turk and A. Pentland (1991). "Face recognition using eigenfaces". Proc. IEEE Conference on Computer Vision and Pattern Recognition. pp. 586–591. http://www.cs.ucsb.edu/~mturk/Papers/mturk-CVPR91.pdf.
● M. Turk and A. Pentland (1991). "Eigenfaces for recognition". Journal of Cognitive Neuroscience 3 (1): 71–86.
Références… De référence!
● J. Hérault. « Vision: images, signals and Neural networks. Models of neural processing in neural networks ». World scientific, 2010
● P. Comon, ``Quelques Développements Récents en Traitement du Signal,'' Habilitation a Diriger les Recherches, Université de Nice, UFR Sciences, 18 sept 1995
Références: ACI
● Hérault, C. Jutten, and B. Ans, “Détection de grandeurs primitives dans un message composite par une architecture de calcul neuromimétique en apprentissage non supervisé,” in Actes du Xième colloque GRETSI, vol. 2, Nice, France, Mai 1985, pp. 1017–1022.
● C. Jutten and H. Hérault, “Blind separation of sources, part i: an adaptative algorithmbased on neuromimetic architecture,” Signal Processing, vol. 24, pp. 1–10, 1991
● Jutten, Ch. and Taleb, A. “Source separation: From dusk till dawn ICA 2000, pages 15-26 (invited paper), Helsinki, Finland, June 2000.
● P. Comon, “Indépendant component analysais - a new concept?” Signal Processing, vol. 36, no. 3, pp. 287–314, 1994.
● A. Hyvärinen, J. Karhunen, and E. Oja, “Independent Component Analysis”. John Wiley and Son, 2001
● P.Comon, C. Jutten and H. Hérault, “Blind separation of sources, part II: problemstatement,” Signal Processing, vol. 24, pp. 11-20, 1991
● D.T. Pham, P. Garat. IEEE T Signal Processing, 45(7):1712-1725, 1997
● Cardoso J.-F, Souloumiac A., Blind beamforming for non-gaussian signals, IEE proceedings-F, 140(6):362-370, 1993
● Linsker R., "Self-organisation in a perceptual network", IEEE Computer, 21:105-117, 1988
● Nadal J;-P., Parga N., Network: computation in neural systems, 5:565-581, 1994
● Barlow H.B., Sensory Communication, ed. WA Rosenblith, pp 217-34. Cambridge, MA:MIT press, 1961
● Bell T, Sejnowsky T.J., Neural Computation, 7:1129-1159, 1995
Références: ACI & physiologie
● DeValois, R. L.,Yund, E.W & Hepler, N. The orientation and direction selectivity of cells in macaque visual cortex. Vision Research. 22, 531-544, 1982.
● DeValois, R. L., Albrecht, D. G. & Thorell, L. G. Spatial frequency selectivityof cells in macaque visual cortex. Vision Research. 22, 545-559, 1982.
● J. H. van Hateren* and A. van der Schaaf, Independent component filtersof natural images compared with simple cells in primary visual cortex. Proc. R. Soc. Lond. B 7, vol. 265, no. 1394, pp 359-366, March 1998
Références: ACI appliquée à la discrimination de scènes
● Le Borgne H., Guérin-Dugué A. Sparse-Dispersed Coding and Images Discrimination with Independent Component Analysis. Third International Conference on Independent Component Analysis and Signal Separation, San Diego, California, December 9-13, 2001
● U. Amato, A. Antoniadis, and Grefoire G. Independent component discriminant analysis. International Mathematical Journal, pages 735–753, 2002.
● H. Le Borgne, A. Guérin-Dugué, N.E. O'Connor Learning Mid-level Image Features for Natural Scene and Texture Classification IEEE transaction on Circuits and Systems for Video Technology, 17(3):286-297, march 2007
● Le Borgne H., Guérin-Dugué A., Antoniadis A. Representation of images for classification with independent features Pattern Recognition Letters, vol 25, N° 2, pp 141-154, january 2004.
Recommended