Upload
sapphire-ilithya
View
18
Download
0
Embed Size (px)
DESCRIPTION
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle. É quipe SAMoVA ( S tructuration A nalyse et Mo délisation de la V idéo et de l’ A udio) Julien Pinquier Directeur de recherche : Régine André-Obrecht. Objectifs. - PowerPoint PPT Presentation
Citation preview
SAM V Ao
Indexation sonore : recherche de composantes primaires pour
une structuration audiovisuelle
Équipe SAMoVA
(Structuration Analyse et Modélisation de la Vidéo et de l’Audio)
Julien Pinquier
Directeur de recherche : Régine André-Obrecht
2Présentation de thèse Lundi 20 décembre 2004
Objectifs
Contribution à l’analyse automatique Recherche de composantes primaires
Apport d’outils utiles Pour la structuration automatique
Contexte : indexation
3Présentation de thèse Lundi 20 décembre 2004
Indexation sonore : que faire ?
locuteur 1 (homme) locuteur 2 (femme)
silencemusique paroleparole
français anglais
jingle 1 leçon lesson
4Présentation de thèse Lundi 20 décembre 2004
Plan
Détection PMB Etat de l’art Système de base Système hybride (fusion)
Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés
Structuration
1
2
3
5Présentation de thèse Lundi 20 décembre 2004
Plan
Détection PMB Etat de l’art Système de base Système hybride (fusion)
Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés
Structuration
1 2 3
6Présentation de thèse Lundi 20 décembre 2004
Etat de l’art
Parole Structure formantique [Calliope89]
Formants = Fréquences de résonance du conduit vocal
Formants
1 2 3
7Présentation de thèse Lundi 20 décembre 2004
Etat de l’art
Musique Instrumentale traditionnelle Structure harmonique
Harmoniques
1 2 3
8Présentation de thèse Lundi 20 décembre 2004
Etat de l’art : paramétrisation
Paramétrisation Temporelle : ZCR et énergie [Saunders96], [Scheirer97] et [Zhang98]
Fréquentielle : DSP [Saunders96] et [Scheirer97] Mixte [Scheirer97] MFCC [Gauvain99]
Classification Approche statistique :
méthodes paramétriques
méthodes non paramétriques
Réseaux de neurones SVM
1 2 3
9Présentation de thèse Lundi 20 décembre 2004
Spectral rolloff point
ZCR
Énergie
Signal
Etat de l’art : paramétrisation
Flux spectral
Parole Musique
1 2 3
10Présentation de thèse Lundi 20 décembre 2004
Etat de l’art : classification
Paramétrisation Temporelle : ZCR et énergie Fréquentielle : DSP Mixte MFCC
Classification Approche statistique :
méthodes paramétriques [Saunders96], [Scheirer97] et [Wold99]
méthodes non paramétriques [Foote97] et [Rossignol2000]
Réseaux de neurones [Rossignol2000]
SVM [Chapelle2002]
1 2 3
11Présentation de thèse Lundi 20 décembre 2004
Etat de l’art : quelques systèmes
Détection de musique : système IRCAM Paramétrisation : ZCR, CS, FS, FS modifié (lissage spectre) Décision : RN, kppv ≈ 10% d’erreurs
Détection de parole : système LIMSI Paramétrisation : MFCC (38 coefficients) Décision : MMG 3 à 8 % d’erreurs
Détection binaire : autres systèmes [Saunders96], [Scheirer97] et [Zhang98]
< 10% d’erreurs Identification
1 2 3
12Présentation de thèse Lundi 20 décembre 2004
Notre système PMB de base
SignalClassification
ModèlesApprentissage
Analyse cepstraleSignal
ClassificationParole
NonParole
Analyse spectraleMusique
NonMusique
1 2 3
Modélisation
différenciée
13Présentation de thèse Lundi 20 décembre 2004
Notre système PMB de base
Pré-traitement
acoustique
SIGNAL
Étiquetage manuel (parole)
Affectation
Paramètres indicés
(Parole)Paramètres
indicés
(NonParole)
VQ EM
VQ EM
Modèle Parole
Affectation
Paramètres indicés
(Musique)Paramètres
indicés
(NonMusique)
VQ EM
VQ EM
29
Coeff. Spectraux
128 lois gaussiennes
128 lois gaussiennes
Étiquetage manuel (musique)
Coeff. Cepstraux
18
Modèle NonParole
Modèle Musique
Modèle NonMusique
Apprentissage des MMG
1 2 3
14Présentation de thèse Lundi 20 décembre 2004
Notre système PMB de base
Problème : apprentissage
1 2 3
15Présentation de thèse Lundi 20 décembre 2004
Notre système hybride
Signal
Détection de parole Détection de musique
Modulation de l’entropie
Modulation de l’énergie
à 4 Hz
Nombre de segments
Durée des segments
ClassificationParole / NonParole
ClassificationMusique / NonMusique
Segmentation
1 2 3
Fusion (scores) Fusion (scores)
16Présentation de thèse Lundi 20 décembre 2004
Notre système hybride
Modulation de l’énergie à 4 Hz Fenêtrage (16 ms) 40 coefficients spectraux (Mel) Filtrage (RIF passe-bande 4 Hz) Somme et normalisation Modulation (variance sur 1 s)
Modulation de l’entropie Fenêtrage (16 ms) Histogramme (amplitude du signal) Entropie (estimateur non biaisé) Modulation (variance sur 1 s)
1 2 3
Parole
Musique
17Présentation de thèse Lundi 20 décembre 2004
Notre système hybride
Segmentation (DFB) [André-Obrecht88]
Nombre de segments Durée des segments
Signal Signal
Parole Musique
1 2 3
18Présentation de thèse Lundi 20 décembre 2004
Notre système hybride
Les seuils Parole : corpus MULTEXT [Campione98]
Musique : base personnelle
Seuil
1 2 3
Exemple :
Modulation de l’énergie à 4 Hertz
19Présentation de thèse Lundi 20 décembre 2004
Résultats
Paramètres Score
Coef. Spectraux + MMG 79,7 %
Coef. Spectraux + MMG (adaptation) 87 %
Modulation de l’énergie à 4 Hertz Modulation de l’entropie
87,3 %87,5 %
Nombre de segmentsDurée des segments
86,4 %78,1 %
Fusion (max) 90,5 %
Fusion (max) 89 %
MFCC + MMG (adaptation) 90,9 %
MFCC + MMG 86,1 %
PAROLE
MUSIQUE
Fusion (théorie des probabilités)Fusion (théorie de l’évidence)
90,7 %90,9 %
Fusion (théorie des probabilités)Fusion (théorie de l’évidence)
84,8 %86,9 %
max 93,9 %
max 89,8 %
CORPUS RFI (6 heures)
Etiquetage manuel
Système de base
Système hybride
2 heures d’étiquetage
1 2 3
Décalage parole : 500 ms
Décalage musique : 1 s
20Présentation de thèse Lundi 20 décembre 2004
Plan
Détection PMB Etat de l’art Système de base Système hybride (fusion)
Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés
Structuration
1 2 3
21Présentation de thèse Lundi 20 décembre 2004
Détection de sons clés
Jingles (reproduction) → Référence (signature)
Applaudissements, rires
et locuteur cible
Mots clés
MMG
MMC
Modèles
1 2 3
Applaudissements RiresJingle
22Présentation de thèse Lundi 20 décembre 2004
Détection de jingles
Extrait sonore
Système classique Analyse spectrale (29 coefficients) Comparaison (distance Euclidienne) Analyse des « pics »
1 2 3
Hamming | FFT | FiltrageSignal Coefficients
spectraux
23Présentation de thèse Lundi 20 décembre 2004
Détection de jingles
Méthode d’analyse des pics
1 2 3
h
24Présentation de thèse Lundi 20 décembre 2004
Résultats 2 erreurs Précision : ~ 0,5 s
Détection de jingles
Corpus Durée JinglesDétection
manuelle
Détection
automatique
France 3 15 min 1 4 4
M6 15 min 1 16 16
Canal + 30 min 1 6 6
France Info 60 min 1 12 11
RFI 360 min 3 60 60
Publicités 90 min 25 34 33
Total 570 min 32 132 130
1 2 3
France Info
25Présentation de thèse Lundi 20 décembre 2004
Détection des applaudissements, des rires et d’un locuteur cible
Pourquoi ?
1 2 3
26Présentation de thèse Lundi 20 décembre 2004
Détection des applaudissements, des rires et d’un locuteur cible
Apprentissage des applaudissements et des rires Classe={Applaudissements,Rires}
Apprentissage du locuteur cible
1 2 3
Pré traitement
acoustique
SIGNAL
Affectation
Paramètres indicés
(Classe)
Paramètres indicés
(Non-classe)
VQ EM
VQ EM
Étiquetage manuel
(Classe/Non-classe)
Modèle
Non-classe
Modèle
Classe
27Présentation de thèse Lundi 20 décembre 2004
Détection des applaudissements, des rires et d’un locuteur cible
Corpus : « Le Grand Échiquier », projet FERIA Apprentissage : 1 émission Reconnaissance : 1 émission
Résultats Locuteur cible = présentateur « Jacques Chancel » :
92,9 % (P/NP manuel)
89,7 % (P/NP auto à 94,6 %)
Applaudissements et rires : problème du critère évaluationTaux > 98 % : segments significatifs
Applaudissements : excellents
Rires : problèmes
1 2 3
28Présentation de thèse Lundi 20 décembre 2004
Détection de mots clés
Buts : Notion de thème (cf. texte) Structuration
Rapidité d’exécution, robustesse → légèreté de mise en œuvre
Etat de l’art Modèle poubelle Anti-modèles Mesures de confiance
Système
1 2 3
29Présentation de thèse Lundi 20 décembre 2004
Détection de mots clés
Pré-traitement acoustique MFCC
Modélisation : MMC Unité : phonème
1 2 3
30Présentation de thèse Lundi 20 décembre 2004
Détection de mots clés
Modèles : mots clés, poubelle et silence Poubelle : φ Mot clé : concaténation des modèles de φ → intéressant
Grammaire
1 2 3
φ1
φp
Deb Fin
« b » « a » « l »
→ pénaliser
31Présentation de thèse Lundi 20 décembre 2004
Détection de mots clés
Corpus Apprentissage : 30h ESTER (Technolangue)
France Inter (20h) et RFI (10h) Reconnaissance : RFI (6 h, cf. PMB)
Mise en œuvre Phonème → victoire : v i k t w a Rv i k t w a R @ v i k t w a R sil v i k t w a R @ sil
Faisabilité : 20 mots clés, 5 thèmesPolitique : politique, président, ministre, Europe,
gouvernementÉconomie : technologie, industrie, travail, entrepriseCatastrophe : génocide, attentat, victime, sécurité,
militaireSport : championnat, victoire, footballMétéo : dépression, précipitations, température
1 2 3
32Présentation de thèse Lundi 20 décembre 2004
Détection de mots clés
Résultats
ThèmesNombre de sujets
(manuel)Nombre de sujets
retrouvés
Politique 34 33
Économie 14 10
Catastrophe 9 8
Sports 18 17
Météo 6 6
Total 81 74
Erreurs
Système 12 MFCC, Δ, ΔΔ, ΔE MMC, 32G / état Accuracy : 56,62 %
Amélioration (en cours) Passage aux triphones
1 2 3
33Présentation de thèse Lundi 20 décembre 2004
Plan
Détection PMB Etat de l’art Système de base Système hybride (fusion)
Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés
Structuration
1 2 3
34Présentation de thèse Lundi 20 décembre 2004
Structuration sonore
Détection de motif dans une collection d’émissions « Le grand Échiquier » 54 émissions de 3h
Motif : présentateur / [APP] / spectacle / [APP/spectacle] / APP / présentateur
Détections automatiques, indépendantes :Détection de musique (chansons, spectacle)
Détection de parole, puis du présentateur
Détection des applaudissements
Résultats : 1 émission → détection de 10 motifs
Besoins ? → autres émissions de la collection
1 2 3
35Présentation de thèse Lundi 20 décembre 2004
Structuration sonore
Structuration d’un journal télévisé (« 6 minutes » de M6) Détection de jingles (J et JG) Détections de parole et de musique Détection de mots clés 1 erreur Besoins ?
1 2 3
J
36Présentation de thèse Lundi 20 décembre 2004
Structuration : perspectives
Apport de la vidéo Détection de logos
Extraction de texte
Reconnaissance de l’intervenant
1 2 3
Chanteur ?
37Présentation de thèse Lundi 20 décembre 2004
Structuration : perspectives
Macrosegmentation automatique
(exemple du motif)
Annotations automatiques
Recherche de suites récurrentes [Haidar04]
Inférence d’un motif
Structuration
Important : difficile manuellement
1 2 3
38Présentation de thèse Lundi 20 décembre 2004
Détection PMB Etat de l’art Système de base Système hybride (fusion)
Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés
Structuration
Plan 1 2 3
CONCLUSIO
N
39Présentation de thèse Lundi 20 décembre 2004
Conclusion
Indexation sonore : étude de composantes primaires
« Unités communes » Parole et musique : → robustesse (plus d’apprentissage) Mots clés : faisabilité → mise en œuvre intéressante
Thèmes : validation
Locuteur cible : résultats encourageants
« Unités caractéristiques » Jingles : résultats excellents → 1 occurrence Applaudissements : résultats très bons → universel Rires : problèmes → rires de foule
40Présentation de thèse Lundi 20 décembre 2004
Perspectives
2 études de structuration sonore → très intéressantes Structuration d’un JT Détection d’un motif
Ne pas se limiter à un seul média Quelques pistes (analyse vidéo) Difficulté du couplage audio/vidéo Problèmes du traitement audiovisuel
Information audiovisuelle ou une indexation audiovisuelle ?
Analyse audiovisuelle ?