View
242
Download
3
Category
Preview:
Citation preview
LLLDL 487 Linguistique informatique et linguistique de corpus
Partie 3 : corpus oraux
Anne Lacheret
Rappel objectifs cours
• La numérisation des données langagières écrites et sonores : bouleversement de la linguistique
• Nouvelles méthodes d’observation des faits langagiers
linguistique de corpus. • Ressources : données et outils pour les traiter. • Objectifs du cours
Planning
• Introduction aux corpus de la langue parlée : pourquoi ? Comment ? Où ?
• Transcrire phonétiquement des corpus oraux • TP : segmentation + transcription
Organisation des séances
• 8 avril
• 15 avril
• 22 avril
• 3 juin: partiel
Bibliographie et matériel de travail (1/2)
• Web
– Utilitaire PRAAT
– Site projet-rhapsodie.fr http://www.projet-rhapsodie.fr/
• Documents pdf sur site http://www.lacheret.com/, onglet enseignement, §. Licence 2, Linguistique de corpus
– Transparents cours avant chaque séance
– Alphabet Sampa
– Lecture de spectrogramme :
• Indices spectro
• Indices spectro-voyelles
• Indices spectro-consonnes
Bibliographie & matériel de travail (2/2)
• Ouvrages
– Blanche-Benveniste (1997), Approches de la langue parlée en français, Paris, Ophrys.
– Fuchs C., Danlos L., Lacheret A., Luzzati D., Victorri B. (1993),
Linguistique et traitements automatiques des langues, Paris, Hachette. • Première partie : les niveaux de traitement de la langue, section 1.
Phonétique et phonologie, pp40-64.
Séance du 8 avril 2013
• Pourquoi des corpus transcrits et annotés phonétiquement ?
• Présentation rapide des sites mentionnés dans la bibliographie
• Introduction à la lecture de spectrogramme
• Problèmes de transcription
– Mots orthographiques vs mots phonologiques
• Principes de la segmentation en phonèmes
Objectifs séances corpus oraux : pourquoi des corpus annotés phonétiquement ?
• Transcription vs annotation
• Développer savoir-faire dans l’annotation phonétique de corpus (uniquement le niveau segmental)
• Pourquoi des corpus annotés phonétiquement ?
– Linguistique théorique
– Traitement automatique des langues
– Linguistique cognitive et linguistique clinique
Les pré-requis : savoir lire un spectrogramme
• Support d’annotation : entrée pour l’annotation
Les pré-requis : savoir lire un spectrogramme (2/2)
• Sortie fournie par l’annotateur
Résumé chaîne de traitement
Son de parole continue
Transcription orthographique
Transcription phonétique
Segmentation en syllabes
Ordinateur Logiciel Praat + outil pour la segmentation et la transcription semi-automatique (easy-align sur le web)
Son (casque) + acoustique : spectre de parole
Caractéristiques du signal : observations générales (1/2)
+- présence du signal, +- zones de silence (arrêt de la phononation), +- zones voisées, etc
Caractéristiques du signal : observations générales (2/2)
Introduction à la lecture de spectrogramme (voir aussi Fuch& al.40-64)
• Complexité du signal acoustique
– 3 types de source
• Source d’impulsion périodique
• Source de bruit
• Source impulsionnelle
– Cavités de résonance et formants
• Conséquences
– Un signal régulier caractéristique des voyelles
– Un signal aléatoire bruité caractéristique des sons /s/ et //
– Variations brutales associées à bruits d’explosion correspondant et à silence à ouverture/aperture du conduit buccal lors de la production des occlusives
Signal régulier Signal aléatoire Silence
Les indices (cf site doc pdf)
• De façon générale
• Voyelles
• Consonnes
Exercice : segmenter et annoter les segments voy (dont semi-voyelles)/cons, silence (_)
Correction exercice
Recommended