Upload
marine-lopez
View
103
Download
0
Embed Size (px)
Citation preview
HauteurHauteuretet
indexationindexation(contribution digestive)(contribution digestive)
Alain de CheveignéAlain de Cheveigné
CNRS - Ecole Normale SupCNRS - Ecole Normale Supérieureérieure
IntroIntro
Hauteur, hauteur multiplesHauteur, hauteur multiples
ModModèles de perceptionèles de perception
MMéthodes d'estimationéthodes d'estimation
IndexationIndexation
Plan
Intro
sonson perceptspercepts
Intro
sonson
espace desespace dessignaux:signaux:
dimensionalitédimensionalitéinfinieinfinie
Intro
sonson perceptpercept
espace desespace dessignaux:signaux:
dimensionalitédimensionalitéinfinieinfinie
espace (?) desespace (?) desétats mentaux:états mentaux:dimensionalitédimensionalité
infinieinfinie
sonsonsoniesonie
hauteurhauteur
timbretimbre
durdurée perçueée perçue
Fechner (1880): quantification des Fechner (1880): quantification des états mentauxétats mentaux
"dimensions"dimensionsperceptives"perceptives"
durdurée physiqueée physique
soniesonie
"dimensions"dimensionsphysiques"physiques"
"dimensions"dimensionsperceptives"perceptives"
hauteurhauteur
timbretimbre
durdurée perçueée perçue
--> psychophysique--> psychophysique
ppériodeériode
intensitintensitéé
centroide spectral,centroide spectral,temps d'attaque, etc.temps d'attaque, etc.
Fechner (1880): quantification des Fechner (1880): quantification des états mentauxétats mentaux
vision rvision réductrice:éductrice: ""états mentaux" ≠ espaceétats mentaux" ≠ espace vectoriel vectoriel
sonie, hauteur, etc.: description incomplsonie, hauteur, etc.: description incomplèteète
produit de la méthodologie? (e.g. MDS)produit de la méthodologie? (e.g. MDS)
néglige: contexte, dynamique, particularités individuelles, néglige: contexte, dynamique, particularités individuelles,
etc.etc.
vision rvision réductrice:éductrice: ""états mentaux" ≠ espaceétats mentaux" ≠ espace vectoriel vectoriel
sonie, hauteur, etc.: description incomplsonie, hauteur, etc.: description incomplèteète
produit de la méthodologie? (e.g. MDS)produit de la méthodologie? (e.g. MDS)
néglige: contexte, dynamique, particularités individuelles, néglige: contexte, dynamique, particularités individuelles,
etc.etc.
nnéanmoins:éanmoins: utile comme utile comme approximationapproximation du rapport entre son et percept du rapport entre son et percept
--> pouvoir pr--> pouvoir prédictifédictif
--> descripteurs psychoacoustiques utiles pour --> descripteurs psychoacoustiques utiles pour l'indexationl'indexation
Intro
durdurée physiqueée physique
soniesonie
"dimensions"dimensionsphysiques"physiques"
"dimensions"dimensionsperceptives"perceptives"
timbretimbre
durdurée perçueée perçue
psychophysiquepsychophysique
intensitintensitéé
centroide spectral,centroide spectral,temps d'attaque, etc.temps d'attaque, etc.
hauteurhauteurppériodeériode
AFNOR (1977): AFNOR (1977):
"le caract"le caractère de la sensation auditive lié à la ère de la sensation auditive lié à la
fréquence d'un son périodique, qui fait dire que le fréquence d'un son périodique, qui fait dire que le
son est aigu ou grave selon que cette fréquence son est aigu ou grave selon que cette fréquence
est plus ou moins élevée"est plus ou moins élevée"
Hauteur
AFNOR (1977): AFNOR (1977):
"le caract"le caractère de la sensation auditive lié à la ère de la sensation auditive lié à la
fréquence d'un fréquence d'un son périodiqueson périodique, qui fait dire que le , qui fait dire que le
son est aigu ou grave selon que cette fréquence son est aigu ou grave selon que cette fréquence
est plus ou moins élevée"est plus ou moins élevée"
Hauteur
--> sp--> spécifique d'une classe particulière deécifique d'une classe particulière designauxsignaux
son: multidimensionnelson: multidimensionnel hauteur: unidimensionnelhauteur: unidimensionnel
hauteur = classe d'hauteur = classe d'équivalence (abstraction)équivalence (abstraction)
T
ppériodeériode
hauteur = classe d'hauteur = classe d'équivalence (abstraction)équivalence (abstraction)
~= classe des sons de m~= classe des sons de même périodeême période
son: multidimensionnelson: multidimensionnel hauteur: unidimensionnelhauteur: unidimensionnel
son pson périodique mais ériodique mais pas de hauteur musicale si:pas de hauteur musicale si: F0 < ~30 Hz (Pressnitzer et al. 2001)F0 < ~30 Hz (Pressnitzer et al. 2001)
F0 > ~F0 > ~4000 Hz (Semal & Demany 1990)4000 Hz (Semal & Demany 1990)
partiels tous de rang > ~15partiels tous de rang > ~15
partiels tous de fréquence > ~5000 Hzpartiels tous de fréquence > ~5000 Hz
exceptions:exceptions:
son pson périodique mais ériodique mais pas de hauteur musicale si:pas de hauteur musicale si: F0 < ~30 Hz (Pressnitzer et al. 2001)F0 < ~30 Hz (Pressnitzer et al. 2001)
F0 > ~F0 > ~4000 Hz (Semal & Demany 1990)4000 Hz (Semal & Demany 1990)
partiels tous de rang > ~15partiels tous de rang > ~15
partiels tous de fréquence > ~5000 Hzpartiels tous de fréquence > ~5000 Hz
son non pson non périodique mais évoque une hauteur:ériodique mais évoque une hauteur: certains sons inharmoniquescertains sons inharmoniques
bruits modulbruits modulés en amplitudeés en amplitude
Huggins pitch (binaural)Huggins pitch (binaural)
exceptions:exceptions:
1
2
3
456
10
2
3
456
100
2
3
4
du
ratio
n (
CP
)
102
2 3 4 5 6 7 8 9
103
2 3 4 5 6 7 8 9
104
CF (Hz)
Bernstein & Bernstein & Oxenham (2003)Oxenham (2003)
high thresholdshigh thresholds
low thresholdslow thresholds
ddépend du épend du mode d'mode d'écoute:écoute: analytique (Helmholtz): hauteurs de partielsanalytique (Helmholtz): hauteurs de partiels
synthétique: synthétique: hauteur liée à la périodehauteur liée à la période
hauteur liée au centre de gravité spectralehauteur liée au centre de gravité spectrale
différences inter-individuelles!différences inter-individuelles!
aspects complexes:aspects complexes: dynamique (--> mélodie)dynamique (--> mélodie)
harmonie, tonalité, etc.harmonie, tonalité, etc.
relative vs absoluerelative vs absolue
autres complications:autres complications:
spectral locus pitchspectral locus pitch
peri
odic
iy p
itch
peri
odic
iy p
itch
FF00 FFlocuslocus
--> fortes diff--> fortes différenceérencess interindividuelles interindividuelles
Hauteur fondamentale vs spectraleHauteur fondamentale vs spectrale
spectral locus pitchspectral locus pitch
peri
odic
iy p
itch
peri
odic
iy p
itch
FF00 FFlocuslocus
--> nature pluridimensionnelle--> nature pluridimensionnelle
chromachroma
tone h
eig
ht
tone h
eig
ht
Modèles de perception de hauteur
controverse depuis Hemholtz...controverse depuis Hemholtz...
version classique:version classique: spectral vs spectral vs
temporeltemporel
version moderne:version moderne: pattern-matching vs pattern-matching vs
autocorrélationautocorrélation
version post moderne:version post moderne: unitaire vs 2 mécanismes...unitaire vs 2 mécanismes...
http://cognition.ens.fr/Audition/ps/2005_pitch_SHAR.pdf
Licklider (˜1951)
Licklider
from cochleafrom cochlea
Licklider
02.5
57.5
0.1
0.34
0.77
1.5
2.8
0.5
kHz
lag (ms)
02.5
57.5
0.1
0.34
0.77
1.5
2.8
0.5
kHz
lag (ms)
période --> hauteurpériode --> hauteur
delayed s(t-T)
direct s(t)
fast synapsesEE
EE soma: integrationsoma: integration
Licklider: interaction excitatriceLicklider: interaction excitatrice
delayed s(t-T)
direct s(t)
I
E
Annulation harmonique: interaction inhibitriceAnnulation harmonique: interaction inhibitrice
soma: integrationsoma: integration
02.5
57.5
0.1
0.34
0.77
1.5
2.8
0.5
kHz
lag (ms)
période --> hauteurpériode --> hauteur
modmodèle "annulation" de perception de hauteurèle "annulation" de perception de hauteur(de Cheveigné 1998)(de Cheveigné 1998)
Hauteurs multiples
hauteur 2hauteur 2
Hauteurs multiples
hauteur 1hauteur 1
hauteur 3hauteur 3
holistique: holistique: timbre de l'accordtimbre de l'accord
analytique:analytique: perception des perception des hauteurs élémentaireshauteurs élémentaires
2 modes de perception:2 modes de perception:
...difficiles ...difficiles à départagerà départager
nombre de notes:nombre de notes: plus facile si peu de notesplus facile si peu de notes
enveloppes spectrales:enveloppes spectrales: plus facile si différentesplus facile si différentes
enveloppes temporelles:enveloppes temporelles: plus facile si diffplus facile si différentesérentes
familiaritfamiliarité avec l'instrumenté avec l'instrument
diffdifférences interindividuelles!érences interindividuelles!
facteurs de l'facteurs de l'écoute analytique:écoute analytique:
peu d'peu d'études contrôlées...études contrôlées...
domaine frdomaine fréquence:équence: calcul d'un spectre d'excitation cochlcalcul d'un spectre d'excitation cochléaire, peigne harmoniqueéaire, peigne harmonique
résolution souvent insuffisante...résolution souvent insuffisante...
domaine spectrotemporel:domaine spectrotemporel: ssélection de canaux, autocorrélationélection de canaux, autocorrélation
fonctionne si enveloppes spectrales ≠fonctionne si enveloppes spectrales ≠
domaine temporel:domaine temporel: annulation harmonique par filtre neuronalannulation harmonique par filtre neuronal
fonctionne dans tous les cas, mais...fonctionne dans tous les cas, mais...
...pr...prédit performance supérieure à celle observéeédit performance supérieure à celle observée
ModModèles de hauteurs multiplesèles de hauteurs multiples
autocorrelation arrayautocorrelation array
channel selection:
A
B
TA
TB
0
0
(b)
E
I
E
I
stochastic spike train
multiple pitch perceptionmultiple pitch perception
--> voir expos--> voir exposé de é de KlapuriKlapuri
plusieurs mplusieurs méthodes issues de modèles perceptifséthodes issues de modèles perceptifs
exemple: algorithmes YIN et MMMexemple: algorithmes YIN et MMM
Estimation de F0
YIN
T=periodT=period
signal model:signal model:
si siT , i
(si j si jT )2
j1
W
0
true if T=periodtrue if T=period
property:property:
di( ) (si j si j )2
j1
W
0 100 200 300 400 500 6000
2
4
6
8
10
12
14
16
18x 108
...search for...search forminimum of minimum of d(d())
to find T...to find T...
d' ( ) d( ) 1/ d( j)j1
0 50 100 1500
0.5
1
1.5
2
2.5
MMM:
signal model:signal model:
st x t yt
xt xtT
yt ytU
sum of two periodic signalssum of two periodic signals
MMM:
property:property:
(st st T st U st T U )2
t 0
true if s is sum of two periodictrue if s is sum of two periodicsignals with periods T, Usignals with periods T, U
MMM:
if T,U unknown, form:if T,U unknown, form:
d(,) (st st st st )2
t
search for minimum of d(search for minimum of d(,,))
MMM:
50 100 150 200
20
40
60
80
100
120
140
160
180
200
220
MMM:
50 100 150 200
20
40
60
80
100
120
140
160
180
200
220
UU
TT
MMM:
0.02 0.04 0.06 0.08 0.1 0.12 0.14-1
-0.5
0
0.5
1
Oct
. re
: 4
40
Hz
TextEnd
s
10 20 30 40 500
0.5
1
sqrt
pw
r ra
tio
TextEnd
1000 2000 3000 4000 5000 6000 7000 8000-0.5
0
0.5
wa
vefo
rm
TextEnd
samples
Indexation de la hauteur
objectif: objectif: description de documents sonoresdescription de documents sonores
applications: recherche documents, navigationapplications: recherche documents, navigation
pertinence perceptivepertinence perceptive tout son peut avoir une hauteurtout son peut avoir une hauteur
pertinence musicalepertinence musicale liens avec indexation symbolique (partition)liens avec indexation symbolique (partition)
problproblèmes spécifiques:èmes spécifiques: gestion du tempsgestion du temps
quantification, structure chroma / hauteur quantification, structure chroma / hauteur
polyphoniepolyphonie
scalabilitscalabilité des descripteursé des descripteurs
traduction représentations symboliquestraduction représentations symboliques
Indexation de la hauteur
gestion du temps:gestion du temps: hauteur (F0) varie en fonction du tempshauteur (F0) varie en fonction du temps
quantification (notes)quantification (notes)
intervalles sans hauteur (mesure de confiance)intervalles sans hauteur (mesure de confiance)
d' ( ) d( ) 1/ d( j)j1
0 50 100 1500
0.5
1
1.5
2
2.5
reliabilityreliability
scalabilitscalabilité:é: croissance rapide des données (loi de Moore)croissance rapide des données (loi de Moore)
diversité des besoins des applicationsdiversité des besoins des applications
nécessité de réutiliser les métadonnéesnécessité de réutiliser les métadonnées
2211 oooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooo
2222 o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o
2233 o o o o o o o o o o o o o o o o
2244 o o o o o o o o
225 5 o o o o
scaled seriesscaled series
original seriesoriginal series
scalingscalingfactorfactor
meanmean
extrema (min, max)extrema (min, max)
variance/covariancevariance/covariance
histogramhistogram
etc.etc.
Scalable operations
Mean:
m (1/K) x jj1
K
Histogram:
hk Sk (x jj1
K
)
Weighted histogram:
hk Sk (x jj1
K
)w j
d' ( ) d( ) 1/ d( j)j1
0 50 100 1500
0.5
1
1.5
2
2.5
reliabilityreliability
Conclusion
"dimension" importante du son"dimension" importante du son premipremière approximation: ère approximation: qualitqualité é
unidimensionnelle en bijection avec la périodeunidimensionnelle en bijection avec la période
deuxideuxième approximation: ème approximation: structure structure
multidimensionnelle, effets de contexte, effets multidimensionnelle, effets de contexte, effets
individuels, fonctions musicales complexes, etc.individuels, fonctions musicales complexes, etc.
estimation: difficile mais progrestimation: difficile mais progrès rapidesès rapides
indexation: problindexation: problèmes spécifiquesèmes spécifiques