Download pdf - (2014-05-22) [EITCCC] Modelos cognitivos e biológicos da audição com a AudioLazy

2014-05-22 – UMESP – Modelos cognitivos e biológicos da audição com a AudioLazy

Danilo J. S. Bellini – @danilobellini – São Bernardo do Campo – SP

Modelos cognitivos e Modelos cognitivos e biológicos da audição com biológicos da audição com

a AudioLazya AudioLazy

https://github.com/danilobellini/audiolazyhttps://github.com/danilobellini/audiolazy

https://github.com/danilobellini/audiolazy



IntroduçãoIntrodução

● PsicologiaPsicologia● BiologiaBiologia● Física (acústica)Física (acústica)● MúsicaMúsica● Processamento de sinais Processamento de sinais

(engenharia)(engenharia)● Reconhecimento de Reconhecimento de

padrões (computação)padrões (computação)● ......

● Percepção auditivaPercepção auditiva– IntensidadeIntensidade

– AlturaAltura

– TimbreTimbre

– Ritmo/contextoRitmo/contexto

– HarmoniaHarmonia



LoudnessLoudnessFletcher-Munson (1933)Fletcher-Munson (1933)

Imagem extraída de

Moore, Elements of Computer

Music, 1990



LoudnessLoudnessISO/FDIS 226:2003ISO/FDIS 226:2003

● Diferente do modelo de Fletcher-MunsonDiferente do modelo de Fletcher-Munson● Fletcher-Munson foi utilizado no modelo de Fletcher-Munson foi utilizado no modelo de

compansão “A”, usado em telefoniacompansão “A”, usado em telefonia– A faixa dos 40 phons (usada no padrão A) é bastante A faixa dos 40 phons (usada no padrão A) é bastante

similar nos dois modelossimilar nos dois modelos

● Não são os únicos dois modelosNão são os únicos dois modelos● Maneiras diferentes de coletar a informaçãoManeiras diferentes de coletar a informação

– Fones de ouvidoFones de ouvido

– Altofalantes em uma câmara anecóicaAltofalantes em uma câmara anecóica

Exemplo iso226_plot.pyExemplo iso226_plot.py



Tabela extraída de, Precise and Full-range

Determination of Two-

dimensional Equal

Loudness Contours,

2000-2003, relatório do grupo de pesquisa

coordenado por Suzuki



Altura (pitch)!Altura (pitch)!ShepardShepard

● 2 dimensões:2 dimensões:– Altura (Altura (pitch heightpitch height))

● Dimensão “linear”Dimensão “linear”

– Croma (Croma (pitch chromapitch chroma))● Dimensão “circular”Dimensão “circular”● Lembra Escher →Lembra Escher →

Exemplo shepard.pyExemplo shepard.py

““Hélice”Hélice”



Escala melEscala mel

Frequência (Hz)

Altura (mel)

Frequência (Hz)

In [1]: import pylabIn [2]: f = pylab.linspace(20, 20000, 2048)In [3]: pylab.plot(f, 2595 * pylab.log10(1 + f / 700))



Série harmônicaSérie harmônica

Exemplos animated_plot.py, dft_pitch.py, play_bach_choral.pyExemplos animated_plot.py, dft_pitch.py, play_bach_choral.py

Filtro combFiltro comb comb(25, .95).plot().show()



Envoltória espectralEnvoltória espectral

FormantesFormantes

Modelo fonte-filtro Modelo fonte-filtro para a vozpara a voz

LPC (Linear LPC (Linear Predictive Coding)Predictive Coding)

Classificação de Classificação de vogaisvogais

(análise e síntese)(análise e síntese)

Exemplos lpc_plot.py e formants.pyExemplos lpc_plot.py e formants.py



Auditory Scene AnalysisAuditory Scene AnalysisA. BregmanA. Bregman

● GestaltGestalt● Alocação Alocação

exclusivaexclusiva– SegregaçãoSegregação

– IntegraçãoIntegração

““O trabalho da percepção é o O trabalho da percepção é o de obter uma representação de obter uma representação

da realidade que seja da realidade que seja significativa, a partir de significativa, a partir de entradas sensoriais.”entradas sensoriais.”



Demonstrations to ASA (Bregman)Demonstrations to ASA (Bregman)Ruído (experimento 33)Ruído (experimento 33)



Demonstrations to ASA (Bregman)Demonstrations to ASA (Bregman)Ruído (experimento 34)Ruído (experimento 34)

Exemplo butterworth_with_noise.pyExemplo butterworth_with_noise.py


Danilo J. S. Bellini – @danilobellini – São Bernardo do Campo – SPAnatomia



Anatomia e fisiologia da audiçãoAnatomia e fisiologia da audição





Banco de filtros de Patterson-Banco de filtros de Patterson-HoldsworthHoldsworth

Exemplo gammatone_plots.pyExemplo gammatone_plots.py

““Prompted by de Boer and Kuyper (1968), the Prompted by de Boer and Kuyper (1968), the GammaTone filter was introduced by Johannsma GammaTone filter was introduced by Johannsma (1972) to (1972) to describe the shape of the impulse describe the shape of the impulse response function of the auditory systemresponse function of the auditory system as as estimated by the reverse correlation function of estimated by the reverse correlation function of neural firing times.”neural firing times.”

J. Holdsworth, R. Patterson, I. Nimmo-Smith, P. Rice.Implementing a GammaTone Filter Bank, 1988

Annex C of the SVOS Final Report (Part A: The Auditory Filter Bank)



Decomposição cromáticaDecomposição cromática

from audiolazy import *

rate = 44100s, Hz = sHz(rate)note = "A4"

freqs = octaves(str2freq(note))bw = lambda f: erb(f) * gammatone_erb_constants(4)[0]filt = ParallelFilter(gammatone(f*Hz, bw(f)*Hz) for f in freqs)filt.plot(samples=8192, rate=rate, freq_scale="log").show()

Filtros gammatone

+ “equivalência

de oitava”

Equivalente?



Harmonia, croma, ritmo harmônicoHarmonia, croma, ritmo harmônico



ObrigadoObrigado

Perguntas?Perguntas?

https://github.com/danilobellini/audiolazyhttps://github.com/danilobellini/audiolazy

Imagens sem referência nos slides foram retiradas da Wikipedia

https://github.com/danilobellini/audiolazy