Upload
henri-renou
View
106
Download
0
Embed Size (px)
Citation preview
Mbarek CharhadMRIM CLIPS-IMAG
28 Novembre 2005
CLIPS-IMAG
Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour l’Indexation et la Recherche par le
Contenu Sémantique
Membres du jury
Président : M. Jean Caelen
Rapporteurs : M. Bernard MérialdoMme. Sylvie Calabretto
Examinateurs : Mme. Catherine Berrut M. Georges Quénot
2
Développement de bases de documents vidéo Technologies numériques Croissance de la taille des archives Différents genres de documents
Besoins: organiser, accéder à, retrouver des documents (ou des morceaux de documents) vidéo
Journal télévisé Émission sportive Vidéosurveillance
Problématique
3
Introduction (1/4)
Objectif : satisfaire le besoin en information d’un utilisateur
Correspondance
InterrogationIndexation
Recherche d’information
Collection de documents
(corpus)
4
Aspects spécifiques à la vidéo Contenu multimodal (image, audio, texte) Temps Événements Interprétations multiples
Besoin pour la RI Intégrer et modéliser ces aspects
Introduction (2/4)
5
Correspondance
Recherche d’information dans des documents vidéo
InterrogationIndexation
Spécifique dépendant du type du médiaExemple 1 : « les segments vidéo montrant Bill Clinton »
Exemple 2 : « les segments vidéo dans lesquels Bill Clinton parle »
Générique indépendant du type de média
Exemple 3 : « les segments vidéo décrivant une manifestation »
Représentation
Introduction (3/4)
Représentation
Annotations
Descripteurs
Segmentation
Analyse
6
Signal
Descripteurs numériques
Bill Clinton, microphone
Baghdad, Kofi Anan, U.N.
Concepts
Bill Clinton devant un microphone Personne parle de Kofi Anan
Concepts + relations
Interprétations multiples
Précision
Introduction (4/4)
“….U.N. secretary general Kofi Anan smash into Baghdad is a critical opportunity to achieve the outcome that all of us would …”
7
Objectifs
Représentation du contenu la multimodalité (visuel, audio et texte)
Représenter les caractéristiques temporelles et
les événements
les interprétations multiples
Intégration dans un système de recherche de vidéos Répondre à des requêtes variées
Évaluer l’apport en terme de précision
Modélisation
8
Plan Problématique et contexte
État de l’art Modélisation par média Modélisation multimodale Standards
Proposition Modélisation vidéo Modèle opérationnel Instanciation des facettes
Expérimentations
Conclusion et perspectives
9
Modélisation du contenu visuel
Vidéo
« Suite de plans où l’unité de lieu est conservée »
Changement de scène [Chen & al, 01] [Lee & al, 00]
Scène
« Suite de scènes et plans où l’unité de sujet est conservée »
Séquence
« Suite d’images successives filmées sans coupure de la caméra »
Mouvement de caméra [Quénot & al, 01] [Fablet & al., 00]
Plan
État de l’art Proposition Expérimentations Conclusion Perspectives
« une image représentative du plan »
Analyse : couleur, texture, formes [Celentano & al, 02], [Etievent & al, 99 ],
Extraction des concepts : (les travaux dans TRECVID)
Contenu sémantique peu représenté
Image-clé
10
Modélisation du contenu audio
Vidéo
État de l’art Proposition Expérimentations Conclusion Perspectives
Description bas niveau
Information contenue dans la parole non traitée
L2L1 L3
Séparation des caractéristiques audio [Kemp & al. 00], [Pinquier & al. 01]
Segmentation en histoires [Besacier & al. 04], (les travaux dans TRECVID)
Détection de changement de locuteur [Gauvain & al. 02]
Transcription automatique de la parole
11
Modélisation du contenu texte
État de l’art Proposition Expérimentations Conclusion Perspectives
(U3W) U3 48.03 HEADLINE
(WCOM) WORLDCOM 38.30 CNN NEWS
Reconnaissance du texte dans la vidéo [Sato & al. 99]
Document : description par des métadonnées (titre, taille, auteur, …) [Hunter & al. 99]
Données texte dans la vidéo : sous-titre, télétexte, ...
Descriptions génériques
12
Modélisation en strates[Chua & al. 02]
Annotation en Strates Interconnectées (IA-Strata [Prié 1999], E-SIA [Egyed-Zsigmond 03])
Modélisation du contenu multimodal
image
texte
audio
« … Bill Clinton ...»
Bill Clinton
politique
discours apparition
Politicien
État de l’art Proposition Expérimentations Conclusion Perspectives
Choix des éléments d’information Représentation avec des graphes :
relations peu représentatives
13
Représentation du contenu Multimédia Archivage des documents Indexation automatique
Initiatives de normalisation Dublin Core MPEG-7
Standards
État de l’art Proposition Expérimentations Conclusion Perspectives
14
Dublin Core : ensemble des 15 élémentsEnsemble d’éléments destiné à présenter des ressources du
WEB.Extension en sous-éléments permettant de créer un schéma
de description vidéo
Description par métadonnées
Dublin Core
9. Format10. Identifiant de la ressource11. Source12. Langage13. Relation14. Couverture15. Gestion des droits
État de l’art Proposition Expérimentations Conclusion Perspectives
1. Titre2. Auteur ou Créateur3. Sujet et mots-clef4. Description5. Éditeur6. Autre contributeur7. Date8. Type de ressource
15
Standard pour la description du contenu d'information audiovisuelle
S’adresse à différentes applications.Fournit un cadre de description de données
audiovisuelles flexible et extensible.Définit un ensemble de méthodes et d’outils pour les
différentes phases de la description des documents multimédia.
MPEG-7
Extraction des caractéristiques Description Application
État de l’art Proposition Expérimentations Conclusion Perspectives
MPEG-7
16
MPEG-7
État de l’art Proposition Expérimentations Conclusion Perspectives
Les Descripteurs (D)Syntaxe et sémantique de la représentation d’une
caractéristique
Les Schémas de Description (SD)Structure et la sémantique des relations entre ses
composants
Un Langage de définition des descripteurs (DDL)Création de nouveaux SDs et Ds
Syntaxe basée sur les Schémas XML.
17
Modélisation
Standard Description générique Pas d’uniformité de description
Bilan
Signal ConceptConcept +relation
visuel -audio -texte -
Visuel+audio+texte Peu de relations
État de l’art Proposition Expérimentations Conclusion Perspectives
Description limitée (choix des concepts et peu de relations)
Peu de sémantique par rapport au contenu de la vidéo
Ne représente pas du contenu sémantique de la vidéo Signal
Concepts
Concepts + relations
18
Plan Problématique et contexte
État de l’art Modélisation par média Modélisation multimodale Standards
Proposition Modélisation vidéo Modèle opérationnel Instanciation des facettes
Expérimentations
Conclusion et perspectives
19
Modéliser le contenu vidéo en se basant sur une description par concepts et relations
Prendre en compte l’aspect multimodalité Une représentation selon plusieurs points de
vue (facettes) du document vidéo
État de l’art Proposition Expérimentations Conclusion Perspectives
Modélisation etInstanciation
Modèle de base
Modèle opérationnel
Instanciation des facettes
Proposition
Modélisation vidéo
20
EMIR² [Mechkour 95] Image représentation multi-facettes Facette : un point de vue sur une image
Facettes Structurelle Spatiale Perceptive Symbolique
Modèle de baseModélisation etInstanciation
Modèle de base
Modèle opérationnel
Instanciation des facettes
État de l’art Proposition Expérimentations Conclusion Perspectives
Facette symbolique
Facette spatiale
Facette structurelle
image # i objet # 1
microphone
est un
homme
devant
composé de
est un
objet #2composé de
Proposition
21
Définition Graphes bipartis et orientés Deux types de nœuds : concepts et relations Notation graphique
Concepts et relations organisés en treillis
Modèle opérationnel: les Graphes Conceptuels
Bill Clinton parle de Irak
État de l’art Proposition Expérimentations Conclusion Perspectives
Modélisation etInstanciation
Modèle de base
Modèle opérationnel
Instanciation des facettes
Proposition
Parle de Parle
R
Homme politique
Bill Clinton
pays
Irak Saddam Hussein
C
Treillis de concepts Treillis de relations
22
Avantages pour la RI Uniformité par rapport aux
composants d’un système de RI [Mechkour 95] [Ounis & Pasca 98]
Uniformité par rapport aux modalités
Précision des descriptions Fonction de correspondance :
opérateur de projection
Modèle opérationnel: les Graphes Conceptuels
Parle_de
Pays
Homme politique
g1 (requête)
Parle_de
Irak
Bill Clinton
Parle_de
Saddam Hussein
État de l’art Proposition Expérimentations Conclusion Perspectives
Modélisation etInstanciation
Modèle de base
Modèle opérationnel
Instanciation des facettes
Proposition
g2’
Parle de Parle
R
Homme politique
Bill Clinton
pays
Irak Saddam Hussein
C
g2 (document)
23
État de l’art Proposition Expérimentations Conclusion PerspectivesProposition : Modélisation
multifacettes
Facette temporelle
Facette événementielle
Forme de représentation génériqueDécrire les caractéristiques communes dans le document vidéo indépendamment du type de média
Modélisation etInstanciation
Modèle de base
Modèle opérationnel
Instanciation des facettes
Proposition
Forme de représentation SpécifiqueDécrire les caractéristiques spécifiques à chaque type de média
Sous-Facette visuelle
Sous-Facette audio
Sous-Facette texte
Sous-Facette couleur
Sous-Facette texture
Sous-Facette spatiale
Sous-Facette mouvement
Facette sémantique
Facette signal
24
État de l’art Proposition Expérimentations Conclusion Perspectives
Instanciation des facettes
Facette temporelle
Facette évènementielle
Modélisation etInstanciation
Modèle de base
Modèle opérationnel
Instanciation des facettes
PropositionSous-Facette visuelle
Sous-Facette audio
Sous-Facette texte
Sous-Facette couleur
Sous-Facette texture
Sous-Facette spatiale
Sous-Facette mouvement
Facette sémantique
Facette signal
25
La facette temporelle : Définition
Ensemble des relations temporelles qui relient les éléments d’information dans le document vidéo.
Un concept Un événement Une unité audiovisuelle (UAV)
État de l’art Proposition Expérimentations Conclusion Perspectives
Modélisation etInstanciation
Modèle de base
Modèle opérationnel
Instanciation des facettes
Proposition
UAV1 égale UAV2
UAV2 chevauche UAV1
UAV1
UAV2
UAV1
UAV2
…
26
Les concepts : les évènements (Ev)
Les relations temporelles (RT)Les 13 relations d’Allen [Allen 83]
Graphe de base
La facette temporelle : Instanciation(1/2)
segment vidéo TEVCont.
TEV
TRT Cont.
après
TRT
avant touche pendant
personne act.
TEV
Groupe act. transport
discours manifestation rencontre accident
État de l’art Proposition Expérimentations Conclusion Perspectives
Modélisation etInstanciation
Modèle de base
Modèle opérationnel
Instanciation des facettes
Proposition
27
Exemple : « segment vidéo montrant une manifestation avant une explosion »
La facette temporelle : Instanciation(2/2)
État de l’art Proposition Expérimentations Conclusion Perspectives
segment vidéo manifestationCont.
explosion
avant Cont.
Modélisation etInstanciation
Modèle de base
Modèle opérationnel
Instanciation des facettes
Proposition
28
La sous-facette audio : Définition
Unité de repérage : segment audioTranscription de la parole
Un objet audio (AO) : toute information symbolique issue du contenu audio.
Extraction des concepts audio : personnes, lieux, organisations
Identification du locuteur
Man
del
a ad
mit
s
the
may
have
di
ffer
ence
s
of opin
ion
wit
h
Mr.
Cli
nto
n
but
says
the
pre
sid
ent
and
firs
t
lady
have
the
righ
t
inst
inct
s
in deal
ing
wit
h
maj
or
État de l’art Proposition Expérimentations Conclusion Perspectives
Modélisation etInstanciation
Modèle de base
Modèle opérationnel
Instanciation des facettes
Proposition
29
La sous-facette audio : Instanciation(1/2)
État de l’art Proposition Expérimentations Conclusion Perspectives
Les concepts audio (ASC)
Les relations audio Ra
Graphes de base
Parle de Parle
Ra
Segment vidéo ASC1Cont.
ASC2
TRa Cont.
(parle de)
Segment vidéo ASC1Cont. TRa (parle)
personne
lieu
espace Géographique
terre eau
continent
Pays île cité capitale
mer océan lac rivière
sexe
objet
organisation
religion économique politique
femellemâle
agent
occupation
politicien sportive acteur
people
ASC
Modélisation etInstanciation
Modèle de base
Modèle opérationnel
Instanciation des facettes
Proposition
30
Exemples 1. « segment vidéo dans lequel Bill Clinton parle »
2. « segment vidéo dans lequel Bill Clinton parle de l’Irak »
La sous-facette audio : Instanciation(2/2)
État de l’art Proposition Expérimentations Conclusion Perspectives
Parle de
Segment vidéo Bill ClintonCont.
IrakCont.
Segment vidéo Bill ClintonCont. parle
Modélisation etInstanciation
Modèle de base
Modèle opérationnel
Instanciation des facettes
Proposition
31
Unité de repérage : plan vidéo
Un objet image (IO) : toute information symbolique issue du contenu visuel.
La sous-facette visuelle : Définition
État de l’art Proposition Expérimentations Conclusion Perspectives
Modélisation etInstanciation
Modèle de base
Modèle opérationnel
Instanciation des facettes
Proposition
arbreverdureBill Clintontextemicrophone
32
Les concepts Visuels (VSC)
Les relations visuelles Rv
Graphe de base
Exemple : « segment vidéo dans lequel Bill Clinton apparaît »
La sous-facette visuelle : Instanciation
État de l’art Proposition Expérimentations Conclusion Perspectives
Apparaît …..
Rv
Segment vidéo VSC1Cont. TRv
Segment vidéo Bill ClintonCont. apparaît
Modélisation etInstanciation
Modèle de base
Modèle opérationnel
Instanciation des facettes
Proposition
VSC
objets
animal
chien chevaux …
personne
foule people ….Combustion
feu fumée
objet fabriqué
chaise téléphone drapeau microphone Bill Clinton
scène
33
Résumé
État de l’art Proposition Expérimentations Conclusion Perspectives
Modélisation multifacette Forme de représentation générique
Facette temporelle
Facette évènementielle
Forme de représentation spécifique
Facette sémantique
Facette signal
Modèle opérationnel : formalisme des graphes conceptuels
Modélisation etInstanciation
Modèle de base
Modèle opérationnel
Instanciation des facettes
Proposition
Facette temporelle
Facette évènementielle
Forme de représentation génériqueDécrire les caractéristiques communes dans le document vidéo indépendamment du type de média
Forme de représentation SpécifiqueDécrire les caractéristiques spécifiques à chaque type de média
Sous-Facette visuelle
Sous-Facette audio
Sous-Facette
texte
Sous-Facette couleur
Sous-Facette texture
Sous-Facette spatiale
Sous-Facette mouvement
Facette sémantique
Facette signal
34
Intégration
Sous-Facette audio
Parle_de
Contenu Audio
SBD
Extraction d’image-clé
Vidéo
Plan i+1
Parole dans le plan
capabe visual semantic as the visual semanticas the visual semanticas the visual semantic
Ao1 Ao2
Clinton Irak
Parle
ASR
derriereSous-factte spatiale
Io1 Io2
Clinton Drapeau USSous-Facette visuelle
Cyan, blanc, rouge
Sous-facette couleur
Sous-facette texture
rayé Uniforme
Facette signal
État de l’art Proposition Expérimentations Conclusion Perspectives
Contenu Visuel
Modélisation etInstanciation
Modèle de base
Modèle opérationnel
Instanciation des facettes
Proposition
35
Problématique et contexte
État de l’art Modélisation par média Modélisation multimodale Standards
Proposition modélisation vidéo Modèle opérationnel Instanciation des facettes
Expérimentations
Conclusion et perspectives
Plan
36
Mise en œuvre
Mise en œuvre partielle Expérimentations sur le corpus TREC Utilisation de la transcription de l’audio
(automatique) Utilisation de l’annotation collaborative
(automatique + manuelle) Relations implémentées :
Qui parle ? De quoi parle-t-on ? Qui apparaît ?
État de l’art Proposition Expérimentations Conclusion Perspectives
37
Mise en œuvre du Modèle
Facette temporelle
Facette évènementielle
Sous-Facette visuelle
Sous-Facette audio
Sous-Facette texte
Sous-Facette couleur
Sous-Facette texture
Sous-Facette spatiale
Sous-Facette mouvement
Facette sémantique
Facette signal
(1) Qui parle(2) De quoi on parle
État de l’art Proposition Expérimentations Conclusion Perspectives Mise en oeuvre
Corpus
Application (1)
Application (2)
38
Corpus
Collection TRECVID 2003 120 heures de vidéo (journaux télévisés ABC et CNN),
60 heures pour l’entraînement + 60 heures pour le test. Audio : transcription fournie par le LIMSI, Visuel : annotation collaborative en utilisant l’outil
Video-Annex [Lin & al. 03] Texte : quelques résultats de ATR qui sont difficilement
exploitables
Collection TRECVID 2004 70 heures de vidéo (journaux télévisés ABC et CNN)
pour le test + la collection TRECVID 2003 pour l’entraînement
État de l’art Proposition Expérimentations Conclusion Perspectives Mise en oeuvre
Corpus
Application (1)
Application (2)
39
Segment audio
Seg. 1 Seg 2 Seg. 3 Seg. 4
transcription automatique de la parole
Seg.1Le locuteur courant est Bill Jones
Hello i’m Bill Jones … ……as ABC’s Carole Bob. - - - Thanks very much Carole Bob
Seg. 2Le locuteur suivant est Carole Bob
Seg. 4Le locuteur précédent est Carole Bob
- - -
Détection directe : Utilisation des patrons linguistiques
Détection par propagation : Utilisation de la similarité acoustique entre les segments de parole
audio pour compléter la détection
État de l’art Proposition Expérimentations Conclusion PerspectivesDétection d’identité du locuteur
Application 1 : « Savoir qui parle » [Charhad & al. 05] Principe : Analyse des Transcriptions de la Parole
Mise en oeuvre
Corpus
Application (1)
Application (2)
40
Exemples de patrons linguistiques
Locuteur segment précédent
Locuteur segment courant
Locuteur segment suivant
État de l’art Proposition Expérimentations Conclusion Perspectives Mise en oeuvre
Corpus
Application (1)
Application (2)
thank you … [name]thanks … [name][name] reportinggood morning [name] (*)
(*) at the beginning of the speech segment
[name] for ABC news[name] [place] for [ABC news | CNN]I’m [name][name] [CNN | ABC]
tonight with [name]ABC’s [name][name] reports [name] has the [latest | story] good morning [name] (*)
(*) at the end of the speech segment
41
Résultats
Durée totale de vidéo 7009.0 s
Parole de « news » annotée 3677.5 s
Évaluation sur une partie de la collection TRECVID 2003
Vérité terrain : annotation manuelle de 2 heures
État de l’art Proposition Expérimentations Conclusion Perspectives Mise en oeuvre
Corpus
Application (1)
Application (2)
Prédiction Durée prédite Durée correcte
Directe 545.8 s 14.8 % 454.6 s 83.3 %
Propagation 1936.8 s 52.7 % 1595.9 s 82.4 %
42
“….u.n. secretary general kofi anan smash into baghdad is a critical opportunity to achieve the outcome that all of us would prefer a peaceful and principled end to this crisis the secretary general is backed by the unambiguous position of the security council saddam hussein must give the weapons inspectors full free unfettered access to all suspected sites anywhere in irak…”
ASR
État de l’art Proposition Expérimentations Conclusion Perspectives
Extraction des concepts Principe
Analyse du contenu audio : Transcription Automatique de la Parole (ASR)
Données externes : ontologies spécifiques Patrons linguistiques
Mise en oeuvre
Corpus
Application (1)
Application (2)
Signal
“….u.n. secretary general kofi anan smash into baghdad is a critical opportunity to achieve the outcome that all of us would prefer a peaceful and principled end to this crisis the secretary general is backed by the unambiguous position of the security council saddam hussein must give the weapons inspectors full free unfettered access to all suspected sites anywhere in irak…”
Concepts
Personne
Lieu
Organisation
43http://mrim.imag.fr/mdv/CLOVIS.html
CLOVIS : Présentation de l’interfaceÉtat de l’art Proposition Expérimentations Conclusion Perspectives
44
Application à la recherche par concepts
État de l’art Proposition Expérimentations Conclusion Perspectives
Application sur les « topics » TRECVID 2004
Topic TRECVID 2004 Transcription CLOVIS
128. US Congressman Henry Hyde's face, whole or part, from any angle
[Henry Hyde] (parle) ou[Personne] (parle de ) [Henry Hyde]
133. Saddam Hussein[Saddam Hussein] (parle) ou
[Personne] (parle de ) [Saddam Hussein]
134. Boris Yeltsin[Boris Yeltsin] (parle) ou
[Personne] (parle de ) [Boris Yeltsin]
135. Sam Donaldson's face. No other people visible with him
[Sam Donaldson] (parle) ou[Personne] (parle de ) [Sam Donaldson]
136. Person hitting a golf ball [Personne] (parle de ) [P.G.A.]
137. Benjamin Netanyahu[Benjamin Netanyahu] (parle) ou
[Personne] (parle de ) [Benjamin Netanyahu]
45
Application à la recherche par concepts
Application sur les « topics » TRECVID 2004
État de l’art Proposition Expérimentations Conclusion Perspectives
0
0,05
0,1
0,15
0,2
128 133 134 135 136 137 Moy.
IU
NTU
CLOVIS
46
Plan Problématique et contexte
État de l’art Modélisation par média Modélisation multimodale Standards
Proposition modélisation vidéo Modèle opérationnel Instanciation des facettes
Expérimentations
Conclusion et perspectives
47
Conclusion
État de l’art Proposition Expérimentations Conclusion Perspectives
Objectifs Conception d’un modèle de représentation du contenu vidéo Intégration : application à la recherche par le contenu
ContributionThéorique : modèle de représentation multifacette
Deux formes de représentation intégrées Modèle opérationnel : les Graphes Conceptuels (GC) Extension du modèle par des ontologies
Pratique: Implémentation (en partie) du schéma de modélisation Extraction des concepts Identification et reconnaissance des locuteurs Contenu visuel : exploitation des annotations Application à la recherche par le contenu
48
Perspectives
État de l’art Proposition Expérimentations Conclusion Perspectives
Court terme Modélisation
Exploiter les résultats d’analyse visuelle (signal) Intégrer les différentes représentations
Application (Indexation et Recherche Vidéo) Compléter l’intégration du modèle dans un système de recherche
vidéo Évaluer l’apport du modèle proposé
Long terme
Utiliser des connaissances externes pour enrichir les descriptions dans le schéma de modélisation
49
Merci de votre attention