Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation

Mbarek CharhadMRIM CLIPS-IMAG

28 Novembre 2005

CLIPS-IMAG

Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour l’Indexation et la Recherche par le

Contenu Sémantique

Membres du jury

Président : M. Jean Caelen

Rapporteurs : M. Bernard MérialdoMme. Sylvie Calabretto

Examinateurs : Mme. Catherine Berrut M. Georges Quénot

2

Développement de bases de documents vidéo Technologies numériques Croissance de la taille des archives Différents genres de documents

Besoins: organiser, accéder à, retrouver des documents (ou des morceaux de documents) vidéo

Journal télévisé Émission sportive Vidéosurveillance

Problématique

3

Introduction (1/4)

Objectif : satisfaire le besoin en information d’un utilisateur

Correspondance

InterrogationIndexation

Recherche d’information

Collection de documents

(corpus)

4

Aspects spécifiques à la vidéo Contenu multimodal (image, audio, texte) Temps Événements Interprétations multiples

Besoin pour la RI Intégrer et modéliser ces aspects

Introduction (2/4)

5

Correspondance

Recherche d’information dans des documents vidéo

InterrogationIndexation

Spécifique dépendant du type du médiaExemple 1 : « les segments vidéo montrant Bill Clinton »

Exemple 2 : « les segments vidéo dans lesquels Bill Clinton parle »

Générique indépendant du type de média

Exemple 3 : « les segments vidéo décrivant une manifestation »

Représentation

Introduction (3/4)

Représentation

Annotations

Descripteurs

Segmentation

Analyse

6

Signal

Descripteurs numériques

Bill Clinton, microphone

Baghdad, Kofi Anan, U.N.

Concepts

Bill Clinton devant un microphone Personne parle de Kofi Anan

Concepts + relations

Interprétations multiples

Précision

Introduction (4/4)

“….U.N. secretary general Kofi Anan smash into Baghdad is a critical opportunity to achieve the outcome that all of us would …”

7

Objectifs

Représentation du contenu la multimodalité (visuel, audio et texte)

Représenter les caractéristiques temporelles et

les événements

les interprétations multiples

Intégration dans un système de recherche de vidéos Répondre à des requêtes variées

Évaluer l’apport en terme de précision

Modélisation

8

Plan Problématique et contexte

État de l’art Modélisation par média Modélisation multimodale Standards

Proposition Modélisation vidéo Modèle opérationnel Instanciation des facettes

Expérimentations

Conclusion et perspectives

9

Modélisation du contenu visuel

Vidéo

« Suite de plans où l’unité de lieu est conservée »

Changement de scène [Chen & al, 01] [Lee & al, 00]

Scène

« Suite de scènes et plans où l’unité de sujet est conservée »

Séquence

« Suite d’images successives filmées sans coupure de la caméra »

Mouvement de caméra [Quénot & al, 01] [Fablet & al., 00]

Plan

État de l’art Proposition Expérimentations Conclusion Perspectives

« une image représentative du plan »

Analyse : couleur, texture, formes [Celentano & al, 02], [Etievent & al, 99 ],

Extraction des concepts : (les travaux dans TRECVID)

Contenu sémantique peu représenté

Image-clé

10

Modélisation du contenu audio

Vidéo


Description bas niveau

Information contenue dans la parole non traitée

L2L1 L3

Séparation des caractéristiques audio [Kemp & al. 00], [Pinquier & al. 01]

Segmentation en histoires [Besacier & al. 04], (les travaux dans TRECVID)

Détection de changement de locuteur [Gauvain & al. 02]

Transcription automatique de la parole

11

Modélisation du contenu texte


(U3W) U3 48.03 HEADLINE

(WCOM) WORLDCOM 38.30 CNN NEWS

Reconnaissance du texte dans la vidéo [Sato & al. 99]

Document : description par des métadonnées (titre, taille, auteur, …) [Hunter & al. 99]

Données texte dans la vidéo : sous-titre, télétexte, ...

Descriptions génériques

12

Modélisation en strates[Chua & al. 02]

Annotation en Strates Interconnectées (IA-Strata [Prié 1999], E-SIA [Egyed-Zsigmond 03])

Modélisation du contenu multimodal

image

texte

audio

« … Bill Clinton ...»

Bill Clinton

politique

discours apparition

Politicien


Choix des éléments d’information Représentation avec des graphes :

relations peu représentatives

13

Représentation du contenu Multimédia Archivage des documents Indexation automatique

Initiatives de normalisation Dublin Core MPEG-7

Standards


14

Dublin Core : ensemble des 15 élémentsEnsemble d’éléments destiné à présenter des ressources du

WEB.Extension en sous-éléments permettant de créer un schéma

de description vidéo

Description par métadonnées

Dublin Core

9. Format10. Identifiant de la ressource11. Source12. Langage13. Relation14. Couverture15. Gestion des droits


1. Titre2. Auteur ou Créateur3. Sujet et mots-clef4. Description5. Éditeur6. Autre contributeur7. Date8. Type de ressource

15

Standard pour la description du contenu d'information audiovisuelle

S’adresse à différentes applications.Fournit un cadre de description de données

audiovisuelles flexible et extensible.Définit un ensemble de méthodes et d’outils pour les

différentes phases de la description des documents multimédia.

MPEG-7

Extraction des caractéristiques Description Application


MPEG-7

16

MPEG-7


Les Descripteurs (D)Syntaxe et sémantique de la représentation d’une

caractéristique

Les Schémas de Description (SD)Structure et la sémantique des relations entre ses

composants

Un Langage de définition des descripteurs (DDL)Création de nouveaux SDs et Ds

Syntaxe basée sur les Schémas XML.

17

Modélisation

Standard Description générique Pas d’uniformité de description

Bilan

Signal ConceptConcept +relation

visuel -audio -texte -

Visuel+audio+texte Peu de relations


Description limitée (choix des concepts et peu de relations)

Peu de sémantique par rapport au contenu de la vidéo

Ne représente pas du contenu sémantique de la vidéo Signal

Concepts

Concepts + relations

18



Proposition Modélisation vidéo Modèle opérationnel Instanciation des facettes

Expérimentations


19

Modéliser le contenu vidéo en se basant sur une description par concepts et relations

Prendre en compte l’aspect multimodalité Une représentation selon plusieurs points de

vue (facettes) du document vidéo


Modélisation etInstanciation

Modèle de base

Modèle opérationnel

Instanciation des facettes

Proposition

Modélisation vidéo

20

EMIR² [Mechkour 95] Image représentation multi-facettes Facette : un point de vue sur une image

Facettes Structurelle Spatiale Perceptive Symbolique

Modèle de baseModélisation etInstanciation

Modèle de base




Facette symbolique

Facette spatiale

Facette structurelle

image # i objet # 1

microphone

est un

homme

devant

composé de

est un

objet #2composé de

Proposition

21

Définition Graphes bipartis et orientés Deux types de nœuds : concepts et relations Notation graphique

Concepts et relations organisés en treillis

Modèle opérationnel: les Graphes Conceptuels

Bill Clinton parle de Irak



Modèle de base



Proposition

Parle de Parle

R

Homme politique

Bill Clinton

pays

Irak Saddam Hussein

C

Treillis de concepts Treillis de relations

22

Avantages pour la RI Uniformité par rapport aux

composants d’un système de RI [Mechkour 95] [Ounis & Pasca 98]

Uniformité par rapport aux modalités

Précision des descriptions Fonction de correspondance :

opérateur de projection

Modèle opérationnel: les Graphes Conceptuels

Parle_de

Pays

Homme politique

g1 (requête)

Parle_de

Irak

Bill Clinton

Parle_de

Saddam Hussein



Modèle de base



Proposition

g2’

Parle de Parle

R

Homme politique

Bill Clinton

pays

Irak Saddam Hussein

C

g2 (document)

23

État de l’art Proposition Expérimentations Conclusion PerspectivesProposition : Modélisation

multifacettes

Facette temporelle

Facette événementielle

Forme de représentation génériqueDécrire les caractéristiques communes dans le document vidéo indépendamment du type de média


Modèle de base



Proposition

Forme de représentation SpécifiqueDécrire les caractéristiques spécifiques à chaque type de média

Sous-Facette visuelle

Sous-Facette audio

Sous-Facette texte

Sous-Facette couleur

Sous-Facette texture

Sous-Facette spatiale

Sous-Facette mouvement

Facette sémantique

Facette signal

24



Facette temporelle

Facette évènementielle


Modèle de base



PropositionSous-Facette visuelle

Sous-Facette audio

Sous-Facette texte





Facette sémantique

Facette signal

25

La facette temporelle : Définition

Ensemble des relations temporelles qui relient les éléments d’information dans le document vidéo.

Un concept Un événement Une unité audiovisuelle (UAV)



Modèle de base



Proposition

UAV1 égale UAV2

UAV2 chevauche UAV1

UAV1

UAV2

UAV1

UAV2

…

26

Les concepts : les évènements (Ev)

Les relations temporelles (RT)Les 13 relations d’Allen [Allen 83]

Graphe de base

La facette temporelle : Instanciation(1/2)

segment vidéo TEVCont.

TEV

TRT Cont.

après

TRT

avant touche pendant

personne act.

TEV

Groupe act. transport

discours manifestation rencontre accident



Modèle de base



Proposition

27

Exemple : « segment vidéo montrant une manifestation avant une explosion »

La facette temporelle : Instanciation(2/2)


segment vidéo manifestationCont.

explosion

avant Cont.


Modèle de base



Proposition

28

La sous-facette audio : Définition

Unité de repérage : segment audioTranscription de la parole

Un objet audio (AO) : toute information symbolique issue du contenu audio.

Extraction des concepts audio : personnes, lieux, organisations

Identification du locuteur

Man

del

a ad

mit

s

the

may

have

di

ffer

ence

s

of opin

ion

wit

h

Mr.

Cli

nto

n

but

says

the

pre

sid

ent

and

firs

t

lady

have

the

righ

t

inst

inct

s

in deal

ing

wit

h

maj

or



Modèle de base



Proposition

29

La sous-facette audio : Instanciation(1/2)


Les concepts audio (ASC)

Les relations audio Ra

Graphes de base

Parle de Parle

Ra

Segment vidéo ASC1Cont.

ASC2

TRa Cont.

(parle de)

Segment vidéo ASC1Cont. TRa (parle)

personne

lieu

espace Géographique

terre eau

continent

Pays île cité capitale

mer océan lac rivière

sexe

objet

organisation

religion économique politique

femellemâle

agent

occupation

politicien sportive acteur

people

ASC


Modèle de base



Proposition

30

Exemples 1. « segment vidéo dans lequel Bill Clinton parle »

2. « segment vidéo dans lequel Bill Clinton parle de l’Irak »

La sous-facette audio : Instanciation(2/2)


Parle de

Segment vidéo Bill ClintonCont.

IrakCont.

Segment vidéo Bill ClintonCont. parle


Modèle de base



Proposition

31

Unité de repérage : plan vidéo

Un objet image (IO) : toute information symbolique issue du contenu visuel.

La sous-facette visuelle : Définition



Modèle de base



Proposition

arbreverdureBill Clintontextemicrophone

32

Les concepts Visuels (VSC)

Les relations visuelles Rv

Graphe de base

Exemple : « segment vidéo dans lequel Bill Clinton apparaît »

La sous-facette visuelle : Instanciation


Apparaît …..

Rv

Segment vidéo VSC1Cont. TRv

Segment vidéo Bill ClintonCont. apparaît


Modèle de base



Proposition

VSC

objets

animal

chien chevaux …

personne

foule people ….Combustion

feu fumée

objet fabriqué

chaise téléphone drapeau microphone Bill Clinton

scène

33

Résumé


Modélisation multifacette Forme de représentation générique

Facette temporelle


Forme de représentation spécifique

Facette sémantique

Facette signal

Modèle opérationnel : formalisme des graphes conceptuels


Modèle de base



Proposition

Facette temporelle


Forme de représentation génériqueDécrire les caractéristiques communes dans le document vidéo indépendamment du type de média

Forme de représentation SpécifiqueDécrire les caractéristiques spécifiques à chaque type de média


Sous-Facette audio

Sous-Facette

texte





Facette sémantique

Facette signal

34

Intégration

Sous-Facette audio

Parle_de

Contenu Audio

SBD

Extraction d’image-clé

Vidéo

Plan i+1

Parole dans le plan

capabe visual semantic as the visual semanticas the visual semanticas the visual semantic

Ao1 Ao2

Clinton Irak

Parle

ASR

derriereSous-factte spatiale

Io1 Io2

Clinton Drapeau USSous-Facette visuelle

Cyan, blanc, rouge

Sous-facette couleur

Sous-facette texture

rayé Uniforme

Facette signal


Contenu Visuel


Modèle de base



Proposition

35

Problématique et contexte


Proposition modélisation vidéo Modèle opérationnel Instanciation des facettes

Expérimentations


Plan

36

Mise en œuvre

Mise en œuvre partielle Expérimentations sur le corpus TREC Utilisation de la transcription de l’audio

(automatique) Utilisation de l’annotation collaborative

(automatique + manuelle) Relations implémentées :

Qui parle ? De quoi parle-t-on ? Qui apparaît ?


37

Mise en œuvre du Modèle

Facette temporelle



Sous-Facette audio

Sous-Facette texte





Facette sémantique

Facette signal

(1) Qui parle(2) De quoi on parle

État de l’art Proposition Expérimentations Conclusion Perspectives Mise en oeuvre

Corpus

Application (1)

Application (2)

38

Corpus

Collection TRECVID 2003 120 heures de vidéo (journaux télévisés ABC et CNN),

60 heures pour l’entraînement + 60 heures pour le test. Audio : transcription fournie par le LIMSI, Visuel : annotation collaborative en utilisant l’outil

Video-Annex [Lin & al. 03] Texte : quelques résultats de ATR qui sont difficilement

exploitables

Collection TRECVID 2004 70 heures de vidéo (journaux télévisés ABC et CNN)

pour le test + la collection TRECVID 2003 pour l’entraînement


Corpus

Application (1)

Application (2)

39

Segment audio

Seg. 1 Seg 2 Seg. 3 Seg. 4

transcription automatique de la parole

Seg.1Le locuteur courant est Bill Jones

Hello i’m Bill Jones … ……as ABC’s Carole Bob. - - - Thanks very much Carole Bob

Seg. 2Le locuteur suivant est Carole Bob

Seg. 4Le locuteur précédent est Carole Bob

- - -

Détection directe : Utilisation des patrons linguistiques

Détection par propagation : Utilisation de la similarité acoustique entre les segments de parole

audio pour compléter la détection

État de l’art Proposition Expérimentations Conclusion PerspectivesDétection d’identité du locuteur

Application 1 : « Savoir qui parle » [Charhad & al. 05] Principe : Analyse des Transcriptions de la Parole

Mise en oeuvre

Corpus

Application (1)

Application (2)

40

Exemples de patrons linguistiques

Locuteur segment précédent

Locuteur segment courant

Locuteur segment suivant


Corpus

Application (1)

Application (2)

thank you … [name]thanks … [name][name] reportinggood morning [name] (*)

(*) at the beginning of the speech segment

[name] for ABC news[name] [place] for [ABC news | CNN]I’m [name][name] [CNN | ABC]

tonight with [name]ABC’s [name][name] reports [name] has the [latest | story] good morning [name] (*)

(*) at the end of the speech segment

41

Résultats

Durée totale de vidéo 7009.0 s

Parole de « news » annotée 3677.5 s

Évaluation sur une partie de la collection TRECVID 2003

Vérité terrain : annotation manuelle de 2 heures


Corpus

Application (1)

Application (2)

Prédiction Durée prédite Durée correcte

Directe 545.8 s 14.8 % 454.6 s 83.3 %

Propagation 1936.8 s 52.7 % 1595.9 s 82.4 %

42

“….u.n. secretary general kofi anan smash into baghdad is a critical opportunity to achieve the outcome that all of us would prefer a peaceful and principled end to this crisis the secretary general is backed by the unambiguous position of the security council saddam hussein must give the weapons inspectors full free unfettered access to all suspected sites anywhere in irak…”

ASR


Extraction des concepts Principe

Analyse du contenu audio : Transcription Automatique de la Parole (ASR)

Données externes : ontologies spécifiques Patrons linguistiques

Mise en oeuvre

Corpus

Application (1)

Application (2)

Signal

“….u.n. secretary general kofi anan smash into baghdad is a critical opportunity to achieve the outcome that all of us would prefer a peaceful and principled end to this crisis the secretary general is backed by the unambiguous position of the security council saddam hussein must give the weapons inspectors full free unfettered access to all suspected sites anywhere in irak…”

Concepts

Personne

Lieu

Organisation

43http://mrim.imag.fr/mdv/CLOVIS.html

CLOVIS : Présentation de l’interfaceÉtat de l’art Proposition Expérimentations Conclusion Perspectives

44

Application à la recherche par concepts


Application sur les « topics » TRECVID 2004

Topic TRECVID 2004 Transcription CLOVIS

128. US Congressman Henry Hyde's face, whole or part, from any angle

[Henry Hyde] (parle) ou[Personne] (parle de ) [Henry Hyde]

133. Saddam Hussein[Saddam Hussein] (parle) ou

[Personne] (parle de ) [Saddam Hussein]

134. Boris Yeltsin[Boris Yeltsin] (parle) ou

[Personne] (parle de ) [Boris Yeltsin]

135. Sam Donaldson's face. No other people visible with him

[Sam Donaldson] (parle) ou[Personne] (parle de ) [Sam Donaldson]

136. Person hitting a golf ball [Personne] (parle de ) [P.G.A.]

137. Benjamin Netanyahu[Benjamin Netanyahu] (parle) ou

[Personne] (parle de ) [Benjamin Netanyahu]

45

Application à la recherche par concepts

Application sur les « topics » TRECVID 2004


0

0,05

0,1

0,15

0,2

128 133 134 135 136 137 Moy.

IU

NTU

CLOVIS

46



Proposition modélisation vidéo Modèle opérationnel Instanciation des facettes

Expérimentations


47

Conclusion


Objectifs Conception d’un modèle de représentation du contenu vidéo Intégration : application à la recherche par le contenu

ContributionThéorique : modèle de représentation multifacette

Deux formes de représentation intégrées Modèle opérationnel : les Graphes Conceptuels (GC) Extension du modèle par des ontologies

Pratique: Implémentation (en partie) du schéma de modélisation Extraction des concepts Identification et reconnaissance des locuteurs Contenu visuel : exploitation des annotations Application à la recherche par le contenu

48

Perspectives


Court terme Modélisation

Exploiter les résultats d’analyse visuelle (signal) Intégrer les différentes représentations

Application (Indexation et Recherche Vidéo) Compléter l’intégration du modèle dans un système de recherche

vidéo Évaluer l’apport du modèle proposé

Long terme

Utiliser des connaissances externes pour enrichir les descriptions dans le schéma de modélisation

49

Merci de votre attention