37
Sonidos Sonoros Herramientas de análisis de sonidos sonoros seminario de audio 2009 iie, eme

Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Herramientas de análisis de sonidossonoros

seminario de audio 2009

iie, eme

Page 2: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Sonidos Sonoros

Casi estacionarios.Casi periódicos.Ej: Vocales, m, n, l, instrumentos de viento, cuerdas, etc.

Page 3: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Representación de Sonidos Sonoros

Localmente periódicos y casi representables con una serie deFourier (pocos coeficientes representan la señal)

f

t

Page 4: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

¿Cómo representar un sonido sonoro?

Lenguaje que permita representar bien a los sonidos sonoros...Entonces hay que construir un diccionario para el lenguaje queconcentre la energía en pocos elementos.

A es el diccionariob es el audio (PCM es como usualmente se tiene)x es una frase que describe a b usando el diccionario A.

Ax = b

Page 5: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

¿Cómo representar un sonido?

Ax = b

Si A es ortogonal, sol única.Si A no es ortogonal, criterios:

norma 2 - min cuadrados,norma 1norma 0 (sol esparsa, conceptual).

Page 6: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Sonidos Sonoros

Buena representación:Sonidos sonoros con una descripción corta.Y que el lenguaje sea simple (definido con pocosparámetros).

¿Qué tiene que permitir describir el lenguaje?Suena razonable empezar por: tiempo, frecuencia.

Page 7: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Tiempo

Tiempo - Audio PCM

Base: deltas en tiempo discreto

Page 8: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Tiempo

Tiempo - Audio PCM

Perfecto para representar señales de banda limitadaIneficiente para sonidos sonoros.Excelente localización temporal, malísima localizaciónfrecuencial¡nada esparso! el diccionario no sirve para describirsonidos sonoros conceptualmente.

Page 9: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Frecuencia

Frecuencias Fourier

Más concentradas pero ¡pero no concentra la energía en pocostérminos!

A x = b

=

F-1{I}x=b

tiempo

frecuencia

...

Page 10: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Ppio Incertidumbre

Principio de Incertidumbre

No es posible conocer posición y cantidad de movimiento deuna partícula con precisión arbitraria.

∆x∆p ≥ h2

No se puede tener bien definido tiempo y frecuencia de una“partícula sonora”...

Page 11: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Tiempo-Frecuencia

Short Time Fourier

Bases: sin, cos enventanadosBuena localización frecuencial y/o espacial

A x = b

=

F-1x=b

tiempo

tiempo

...

tiempo

tiempofrecuencia

x dim de un espectrograma

Page 12: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Tiempo-Frecuencia

Transformada de Fourier de Tiempo Discreto.

Dimensiones del espacio 2: t,fDiseño: elección de la ventana.

Page 13: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Tiempo-Frecuencia

Y se puede mejorar la representación usando una resoluciónrelativa constante...

Page 14: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Tiempo-Frecuencia

STFT Multi Resolución

Base: sin, cos, ventana variable.Muy buena localización espacial y temporal.

A x = b

=

tiempo

tiempo

...

tiempo

tiempofrecuencia

Page 15: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Tiempo-Frecuencia

STFT Multi Resolución: Transformada Q (CQT,MRFFT,IIR-CQT)

Dimensión del espacio 2: t, f.Diseño: ventana y el factor de calidad Q.Mejor compromiso resolución tiempo-frecuencia.

Page 16: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Principio de Incertidumbre.

Pero los sonidos sonoros no son partículas.

Se puede sacrificar resolución en una dimensión y ganarla enla otra.

Page 17: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Chirps , chirplets Curvelets

Base: sin, cos de frecuencia variable enventanados¡Excelente localización temporal y/o frecuencial!

A x = b

=

F-1x=b

tiempo

tiempo

...

tiempo

tiempofrecuencia

Page 18: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Transformada Fan chirp lineal

Fase: φα(t) = (1 + 12αt)t .

Frecuencia instantánea: fi(t) = (1 + αt)f .Dimensión 3: t, f, α. El diseño: elección de la ventana.

Page 19: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Chirplets, dimensión

tiempo

frecuencia

pendiente

Page 20: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Chirplets, implementación

Implementación:

Generando cada chirplet y proyectando (muy costoso)Time Warping + FFT

Page 21: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Chirplets, time warping

Fan chirp transform: Time warping + FFT:

Page 22: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Chirplets, time warping

Fan chirp transform: Time warping + FFT:

f

t

f

t

f

t

Page 23: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Vecindad en Frecuencia/Pendiente

Campo generado por una sinusoide, sinuoides y chirpsarmónicos.

sinusiode sinusoidesarmónicas

chirpsarmónicos

frecuencia

pendiente

Page 24: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Geometría

En módulo muy similar al Núcleo de Tensor Voting.

Nucleo de tensor voting

tangente normal

Page 25: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Geometría - Propiedades

Las tres dimensiones del espacio son dependientes entre sí...

frecuencia

pendiente0

tiempo

Espacio 3D pero la dimensión en que viven los parciales desonidos sonoros es 2D.

Page 26: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Fan chirp lineal + Q

Para cada parcial:

φα(t) = kf0(1 +12αt +

13βt2)t

Entonces: fi(t) = kf0(1 + αt) es una aproximación localSi β no es nulo, el error de aproximación es: kf0βt2

El rango de tiempo de validez de la aproximación disminuyecon k .

Page 27: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Combinando la Fan-Chirp lineal con la transformada Q

Lo problemas se atenúan combinando la Transformada Q conla Transformada Fan Chirp.Tiempos de análisis más chicos para frecuencias altas hacenun análisis más local sólo donde la aproximación lineal esbuena.

Page 28: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Combinando la Fan-Chirp lineal con la transformada Q

Page 29: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Chirplets Q, implementación

Implementación:

Generando cada chirplet enventado y proyectando (muycostoso)Time Warping + FFT + IIR-CQTOrden: N log N = O(FFT)

Page 30: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Generalizando un poco más la Fan Chirp Lineal

Fan-Chirp: LinealChirps armónicos donde la fase varía cuadráticamente:

φα(t) = f (1 +12αt)t

fi(t) = (1 + αt)f

Posibles mejoras:Aproximación de orden 3 o 4.

φα(t) = f (1 +12αt +

13βt2 +

14γt3)t

Aprendido a partir datos reales.

Page 31: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Aprendido a partir datos reales

Haciendo estadísticas de la base Ground truth Mirex 2004tomando segmentos de frecuencia fundamental de 100ms ynormalizando respecto a la frecuencia central

fi(t) =f0GT (t + kT )

f0GT (kT )cont ∈ [−Tw/2,Tw/2]

Haciendo PCA de todos los fi se obtiene una aproximación conlos vectores propios con mayores valores propios:

φα(t) = (1 +

j=l∑j=1

αjvj(t))t

Page 32: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Aprendido a partir datos reales

Con 3 vectores propios se captura casi toda las variaciones

Distribución de las componentes principales 2 y 3

2da componente principal

3ra

com

pone

nte

prin

cipal

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1

−0.25

−0.2

−0.15

−0.1

−0.05

0

0.05

0.1

0.15

0.2

0.25

Distribución en las componentes principales 2 y 4

2da componente principal

4ta

com

pone

nte

prin

cipal

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1

−0.25

−0.2

−0.15

−0.1

−0.05

0

0.05

0.1

0.15

0.2

0.25

Page 33: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Aprendido a partir datos reales

Con 3 vectores propios se captura casi toda las variaciones

−1.5 −1 −0.5 0 0.5 1 1.5−0.2

−0.15

−0.1

−0.05

0

0.05

0.1

0.15

0.2Muestreo en las dimensiones de las componentes principales

Muestreo 2da componente principal

Muest

reo 3ra

comp

onente

princi

pal

Page 34: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Aprendido a partir datos reales

Con 3 vectores propios se captura casi toda las variaciones

2 2.2 2.4 2.6 2.8 3 3.2 3.4 3.6 3.8 40

5

10

15

20

25Valores propios 2,3 y 4

Page 35: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Aprendido a partir datos reales

Con 3 vectores propios se captura casi toda las variaciones

2 4 6 8 10 12 14 16

−0.3

−0.2

−0.1

0

0.1

0.2

0.3

0.4

Vectores propios

f/f c

Tiempo

Page 36: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Comparación chirplet lineal: ventana constante y Q.

Espectrograma usando Chirplet lineal, ventana constante

Frame

Frec

uenc

ia

20 40 60 80 100 120 140 160 180 200

100

200

300

400

500

600

700

800

900

1000

Espectrograma usando Chirplet lineal, Q constante

Frame

Frec

uenc

ia

20 40 60 80 100 120 140 160 180 200

100

200

300

400

500

600

700

800

900

1000

Page 37: Herramientas de análisis de sonidos sonorosiie.fing.edu.uy/investigacion/grupos/gmm/audio/... · Distribución en las componentes principales 2 y 4 2da componente principal 4ta componente

Sonidos Sonoros

Chirplets

Preguntas y ¿ejemplos?

Preguntas