86
FLÁVIO GIRALDELI BIANCA AVALIAÇÃO DE TÉCNICAS ESPECTRAIS APLICADAS À REMOÇÃO DE RUÍDO EM SINAIS DE ÁUDIO MUSICAL Dissertação apresentada ao Programa de Pós- Graduação em Engenharia Elétrica do Centro Tecnológico da Universidade Federal do Espírito Santo, como requisito parcial para obtenção do Grau de Mestre em Engenharia Elétrica. Orientador: Prof. Dr. Evandro Ottoni Teatini Salles. Co-orientador: Prof. Dr. Klaus Fabian Côco. VITÓRIA 2009

Remoção de Ruídos em Audio Versão Final Revisadarepositorio.ufes.br/bitstream/10/4076/1/tese_2765...Thresholding, ambas baseadas na teoria de multiresolução, além da clássica

Embed Size (px)

Citation preview

FLVIO GIRALDELI BIANCA

AVALIAO DE TCNICAS ESPECTRAIS APLICADAS REMOODE RUDO EM SINAIS DE UDIO MUSICAL

Dissertao apresentada ao Programa de Ps-Graduao em Engenharia Eltrica do CentroTecnolgico da Universidade Federal do EspritoSanto, como requisito parcial para obteno doGrau de Mestre em Engenharia Eltrica.Orientador: Prof. Dr. Evandro Ottoni TeatiniSalles.Co-orientador: Prof. Dr. Klaus Fabian Cco.

VITRIA2009

Dados Internacionais de Catalogao-na-publicao (CIP)(Biblioteca Central da Universidade Federal do Esprito Santo, ES, Brasil)

Bianca, Flvio Giraldeli, 1983-B577a Avaliao de tcnicas espectrais aplicadas remoo de rudo em sinais

de udio musical / Flvio Giraldeli Bianca. 2009.87 f. : il.

Orientador: Evandro Ottoni Teatini Salles.Co-Orientador: Klaus Fabian Cco.Dissertao (mestrado) Universidade Federal do Esprito Santo, Centro

Tecnolgico.

1. Anlise espectral. 2. Wavelets (Matemtica). 3. Processamento desinais - Tcnicas digitais. 4. Som - Registro e reproduo - Tcnicas digitais.5. Controle de rudo. 6. Rudo musical. 7. Subtrao Espectral. I. Salles,Evandro Ottoni Teatini. II. Cco, Klaus Fabian. III. Universidade Federal doEsprito Santo. Centro Tecnolgico. IV. Ttulo.

CDU: 621.3

FLVIO GIRALDELI BIANCA

AVALIAO DE TCNICAS ESPECTRAIS APLICADAS REMOODE RUDO EM SINAIS DE UDIO MUSICAL

Dissertao submetida ao programa de Ps-Graduao em Engenharia Eltrica do CentroTecnolgico da Universidade Federal do Esprito Santo, como requisito parcial para aobteno do Grau de Mestre em Engenharia Eltrica.

COMISSO EXAMINADORA

Prof. Dr. Evandro Ottoni Teatini Salles - OrientadorUniversidade Federal do Esprito Santo

Prof. Dr. Klaus Fabian Cco - Co-orientadorUniversidade Federal do Esprito Santo

Prof. Dr. Mrio Sarcinelli FilhoUniversidade Federal do Esprito Santo

Prof. Dr. Vicente Idalberto Becerra SablnUniversidade Salesiana

Seja voc quem for, seja qual for a posio social que voc tenha na vida, a mais alta ou amais baixa, tenha sempre como meta muita fora, muita determinao e sempre faa tudo

com muito amor e com muita f em Deus, que um dia voc chega l. De alguma maneira vocchega l.

(Ayrton Senna da Silva)

Ao meu grande amigo Bruno Pandolfi (1985-2009).

Asseguro-te que enquanto existir cu e terra, voc ser lembrado.

Agradecimentos

Antes de tudo, agradeo a todos aqueles que sempre acreditaram na minha capacidade, o que

inclui alguns professores, os meus amigos e minha famlia.

No que diz respeito s instituies, fica aqui registrado meu muito obrigado UFES, atravs

do PPGEE e toda a sua equipe de profissionais que, tenho certeza, mantm este programa de

ps-graduao com muito trabalho e esforo. CAPES pelo apoio financeiro concedido,

sem o qual esta pesquisa teria sido muito mais difcil.

Ao meu orientador, professor Evandro, pelo apoio ao longo desses anos. E tambm ao meu

co-orientador, professor Klaus.

Esta pesquisa contou com a participao de vrias pessoas nos testes subjetivos. Fica aqui

meu muito obrigado a todas elas.

Agradeo aos professores Bene e Jos Geraldo pelo voto de confiana que permitiu que eu

mostrasse o meu trabalho como professor de uma instituio renomada como o IFES, sem

falar nos conselhos indispensveis para que um jovem como eu assumisse uma turma de

ensino superior. E essa gratido estende-se a toda a equipe pedaggica.

Resumo

Neste trabalho avaliou-se o problema remoo de rudo em sinais unidimensionais,

notadamente sinais de udio musical. Para isto, selecionou-se trs tcnicas com bons

resultados relatados na literatura: Wavelet Thresholding, Time-Frequency Block

Thresholding, ambas baseadas na teoria de multiresoluo, alm da clssica tcnica Spectral

Subtraction, muito utilizada em sinais de voz, sendo entretanto aqui modificada para sinais de

udio musical. Alm da propriedade de remoo de rudo, cada tcnica foi avaliada segundo

sua capacidade de no introduzir artefatos no sinal filtrado, como o rudo musical, que

caracterizado por notas musicais inexistentes no udio original. A fim de avaliar os

resultados, um conjunto de sinais foi selecionado para compor a etapa de testes.

Primeiramente, cada tcnica foi testada em sinais sintticos que no caracterizam udio

musical. Em seguida, as tcnicas foram avaliadas para udio de msica clssico-erudita e

msica popular. Para cada caso, os resultados foram extensamente comentados. Mediu-se

tambm a relao Sinal/Rudo (SNR) a fim de comparar o desempenho das tcnicas.

Finalmente, testes subjetivos foram implementados, realizando-se entrevistas com 10

voluntrios, no intuito de se avaliar a qualidade subjetiva dos resultados de cada tcnica. Os

resultados mostraram que tcnicas que deram bons resultados para sinais sintticos no

necessariamente se adequam qualidade musical exigida pelos ouvintes. A modificao

proposta na Spectral Subtraction foi suficiente para posicion-la, em ternos de qualidade

subjetiva, entre a Time-Frequency Block Thresholding (melhores resultados) e a Wavelet

Thresholding (piores resultados).

Abstract

This work evaluated the problem of noise removal in one-dimensional signals, especially

music signals. Three techniques with good results reported in the literature were selected:

Wavelet Thresholding, Time-Frequency Block Thresholding, both based on the

multiresolution theory, in addition to the classical Spectral Subtraction technique, widely

used in speech signals, which was here modified to take into account musical audio signals.

In addition to the capability to remove noise, each technique was also evaluated by their

capability to not introduce artifacts in the filtered signal like the musical noise, which is

characterized by musical notes that does not exist in the original audio. In order to evaluate

the results, a set of signals was selected for the tests. First, each technique was tested with

synthetic signals that do not characterize musical audio. Then, the techniques were evaluated

for classical and popular music. For each case, the results are extensively discussed. In each

case, it was measured the Signal to Noise Ratio (SNR) in order to compare the performance

of the techniques. Finally, subjective tests were implemented, by interviews with 10

volunteers, in order to evaluate the subjective quality of the results of each technique. The

results showed that techniques that have yielded good results for synthetic signals, not

necessarily are suitable to the musical quality demanded by listeners. Also, the modification

proposed in the Spectral Subtraction technique was enough to place it, in a subjective quality

rank, between Time-Frequency Block Thresholding (best results) and Wavelet Thresholding

(worst results).

Sumrio

Lista de Figuras .................................................................................................. xii

Lista de Tabelas................................................................................................. xiv

Nomenclatura ..................................................................................................... xv

Captulo 1: Introduo....................................................................................... 16

1.1 Motivao .....................................................................................................................16

1.2 Objetivos.......................................................................................................................17

1.3 Estrutura da Dissertao ...............................................................................................17

Captulo 2: Conceitos Bsicos .......................................................................... 19

2.1 Som...............................................................................................................................19

2.2 udio Digital ................................................................................................................19

2.3 Sinais Sintticos Unidimensionais................................................................................20

2.4 Sinais Sintticos Unidimensionais x udio Digital .....................................................21

2.5 Uma Distino Entre Voz e Msica .............................................................................21

2.6 Rudo ............................................................................................................................22

2.6.1 Rudo Branco.........................................................................................................25

2.6.2 Modelando o Rudo ...............................................................................................25

2.6.3 Removendo o Rudo ..............................................................................................26

2.6.3.1 Filtragem de Wiener .......................................................................................26

2.6.4 Rudo Musical .......................................................................................................28

Captulo 3: Removendo Rudo: Abordagens .................................................... 30

3.1 Spectral Subtraction .....................................................................................................30

3.1.1 Uma Adaptao da Tcnica...................................................................................32

3.2 Time-Frequency Block Thresholding ...........................................................................34

3.2.1 Bases Tericas da Tcnica.....................................................................................34

3.2.1.1 Remoo de Rudos em udio em Tempo-Frequncia..................................34

3.2.1.2 Estimao Diagonal........................................................................................36

3.2.1.2 Estimao No Diagonal ................................................................................37

3.2.2 Time-Frequency Block Thresholding ....................................................................37

3.3 Wavelet Thresholding ...................................................................................................40

3.3.1 O Procedimento .....................................................................................................40

3.3.2 Mtricas de Escolha do Valor do Threshold .........................................................43

3.3.2.1 Threshold Universal .......................................................................................43

3.3.2.2 SURE (Steins Unbiased Risk Estimate) ........................................................43

3.3.3 O Procedimento: Mais Detalhes ............................................................................43

Captulo 4: Testes Experimentais e Resultados ................................................ 45

4.1 Denoising de Sinais Sintticos .....................................................................................47

4.1.1 Testes com Sinais Sintticos .................................................................................48

4.1.1.1 Blocks .............................................................................................................48

4.1.1.2 Bumps .............................................................................................................49

4.1.1.3 Heavy Sine ......................................................................................................51

4.1.1.4 Doppler ...........................................................................................................52

4.1.1.5 Quadchirp .......................................................................................................54

4.1.1.6 Mishmash........................................................................................................55

4.1.2 Comentrios Gerais dos Testes com Sinais Sintticos ..........................................57

4.2 Denoising de Sinais Reais (Msicas) ...........................................................................57

4.2.1 Algumas Definies De Termos Metafricos Usados Em AnlisesSubjetivas De udio........................................................................................................57

4.2.2 Caracterizando as Amostras Originais ..................................................................61

4.2.3 Adicionando o Rudo.............................................................................................66

4.2.3.1 A Audio Humana em Meio ao Rudo .........................................................67

4.2.4 Removendo o Rudo ..............................................................................................67

4.2.4.2 Configurao dos Parmetros de Cada Tcnica .............................................67

4.2.4.3 Amostras Tratadas: Comentrios Subjetivos..................................................68

4.2.5 Avaliaes .............................................................................................................74

4.2.5.1 Objetivas.........................................................................................................74

4.2.5.2 Subjetivas .......................................................................................................75

4.2.5.2.1 Do Procedimento de Testes .....................................................................75

4.2.5.2.1 Resultados e Comentrios .......................................................................77

4.2.5.3 Computacionais ..............................................................................................79

4.2.5.3.1 Desempenho Computacional...................................................................79

4.2.5.3.2 Outros Comentrios.................................................................................80

Captulo 5: Concluso ....................................................................................... 81

5.1 Concluses Gerais a Respeito das Tcnicas .................................................................81

5.1.1 Spectral Subtraction ..............................................................................................81

5.1.2 Time-Frequency Block Thresholding ....................................................................82

5.1.3 Wavelet Thresholding ............................................................................................83

5.2 Projetos Futuros............................................................................................................83

Referncias Bibliogrficas ................................................................................. 85

Lista de Figuras

Figura 2.1 Sinal de teste original (seno de 200 Hz) (esquerda) e o mesmo contaminado comrudo gaussiano (direita) ....................................................................................................20

Figura 2.2 Sinais de Voz (a) e No Voz (b) [1].......................................................................22

Figura 2.3 (a) Rudo Rosa (Pink Noise) e (b) seu espectro de frequncia [4].........................24

Figura 2.4 (a) Rudo Marrom (Brown Noise) e (b) seu espectro de frequncia [4] ................24

Figura 2.5 Pulsos de Rudo Transientes [4].............................................................................24

Figura 2.6 (a) Ilustrao de um rudo branco. (b) Sua funo de correlao uma funodelta. (c) Seu espectro de potncia constante. [4] ...........................................................25

Figura 2.7 Diagrama de blocos de um filtro de Wiener do tipo FIR [6] .................................27

Figura 2.8 Espectrograma do sinal ruidoso (a), fatores de atenuao do rudo noregularizados (b) e o sinal filtrado exibindo os coeficientes frequenciais isolados quecorrespondem ao rudo musical (c) [8] ..............................................................................29

Figura 2.9 Espectrograma do sinal ruidoso (a), fatores de atenuao do rudo regularizados(b) e o sinal filtrado sem a presena do rudo musical (c) [8]............................................29

Figura 3.10 Partio de macroblocos em blocos de diferentes tamanhos [7]..........................39

Figura 3.11 Regras (a) hard e (b) soft thresholding para =1 [19] .......................................... 42

Figura 4.12 (a), (b): Blocks original e ruidosa. (c), (d), (e): Blocks tratada com cada uma dastcnicas indicadas. O eixo vertical representa a magnitude e o horizontal o nmero deamostras pontuais...............................................................................................................49

Figura 4.13 (a), (b): Bumps original e ruidosa. (c), (d), (e): Bumps tratada com cada uma dastcnicas indicadas. O eixo vertical representa a magnitude e o horizontal o nmero deamostras pontuais...............................................................................................................50

Figura 4.14 (a), (b): Heavy Sine original e ruidosa. (c), (d), (e): Heavy Sine tratada com cadauma das tcnicas indicadas. O eixo vertical representa a magnitude e o horizontal onmero de amostras pontuais.............................................................................................52

Figura 4.15 (a), (b): Doppler original e ruidosa. (c), (d), (e): Doppler tratada com cada umadas tcnicas indicadas. O eixo vertical representa a magnitude e o horizontal o nmero deamostras pontuais...............................................................................................................53

Figura 4.16 (a), (b): Quadchirp original e ruidosa. (c), (d), (e): Quadchirp tratada com cadauma das tcnicas indicadas. O eixo vertical representa a magnitude e o horizontal onmero de amostras pontuais.............................................................................................55

Figura 4.17 (a), (b): Mishmash original e ruidosa. (c), (d), (e): Mishmash tratada com cadauma das tcnicas indicadas. O eixo vertical representa a magnitude e o horizontal onmero de amostras pontuais.............................................................................................56

Figura 4.18 Amostra: The Verve - The Drugs Don't Work. Espectrogramas: original (acima) eps remoo do rudo (abaixo) ..........................................................................................58

Figura 4.19 Imagem Original (Topo), Ruidosa (Meio) e Filtrada (Inferior)...........................60

Figura 4.20 Espectrogramas da amostra "Coldplay - Square One" tratados com TFBT(superior) e SS (inferior). ntida a presena de rudo musical (denotado em tonsamarelos sobre fundo verde) na imagem inferior, em contraste com a aparencia regular daimagem superior.................................................................................................................70

Figura 4.21 Ficha de Avaliao Subjetiva, entregue a cada ouvinte.......................................76

Lista de Tabelas

Tabela 4.1 Bitrate mdio (25 faixas) para msicas clssicas e outros gneros [24] ...............46

Tabela 4.2 SNR antes/depois da filtragem da funo blocks ..................................................48

Tabela 4.3 SNR antes/depois da filtragem da funo bumps ..................................................50

Tabela 4.4 SNR antes/depois da filtragem da funo heavy sine ............................................51

Tabela 4.5 SNR antes/depois da filtragem da funo doppler ................................................53

Tabela 4.6 SNR antes/depois da filtragem da funo quadchirp ............................................54

Tabela 4.7 SNR antes/depois da filtragem da funo mishmash.............................................56

Tabela 4.8 Amostras usadas nos testes....................................................................................61

Tabela 4.9 SNR antes e depois da aplicao de cada tcnica sobre cada amostra ..................74

Tabela 4.10 Valores mdios das avaliaes subjetivas ...........................................................77

Tabela 4.11 Varincia das notas atribudas a cada amostra nas avaliaes subjetivas ...........77

Tabela 4.12 Estatsticas de tempo de processamento das amostras ........................................79

NomenclaturaSiglas

Smbolo Descrio

1D

CD

FFT

IDFT

LTI

MAD

MDCT

MLN

MMSE

MP3

PC

VAD

SNL

SNR

SS

STFT

SURE

TFBT

WT

Unidimensional

Compact Disc (Disco Compacto)

Fast Fourier Transform (Transformada Rpida de Fourier)

Inverse Discrete Fourier Transform (Transformada de Fourier

Discreta Inversa)

Linear Time-Invariant (Linear e Invariante no Tempo)

Median Absolute Deviation

Modified Discrete Cosine Transform (Transformada Discreta do

Cosseno Modificada)

Multi Level Noise

Minimum Mean-Square Error (Erro Quadrtico Mdio Mnimo)

MPEG Audio Layer-3

Personal Computer

Voice Active Detection

Single Level Noise

Signal to Noise Ratio (Relao Sinal/Rudo)

Spectral Subtraction (Subtrao Espectral)

Short-Time Fourier Transform

Stein Unbiased Risk Estimate

Time-Frequency Block Thresholding

Wavelet Thresholding

Captulo 1: Introduo

Sinais de udio podem ser contaminados com rudos dos mais diversos tipos, desde os

inerentes ao ambiente onde esto sendo gravados at os introduzidos artificialmente pelos

meios de gravao/processamento do sinal. Em alguns casos, possvel evitar ao mximo a

insero de rudo no sinal. No primeiro caso, com um ambiente de gravao isolado

acusticamente. possvel tambm fazer uso de equipamentos com altas relaes sinal/rudo,

no segundo caso.

No entanto, no mundo real muito mais frequente o caso dos ambientes de gravao

no controlados e o uso de equipamentos nem sempre de boa qualidade. Somam-se a isso a

deteriorao natural de algumas mdias de armazenamento analgico, como as fitas cassete.

Rudos podem afetar no apenas a qualidade do udio, mas tambm a sua

inteligibilidade (no caso da presena de voz). muito comum a existncia de rudo

especialmente em gravaes antigas, sejam elas domsticas ou de gravadoras profissionais.

Num contexto mais restrito, encontram-se as gravaes de udio musical onde no h a

presena de voz.

Esse problema, ao longo de vrios anos, tem motivado diversas pesquisas no sentido

de atenuar a presena do rudo. Devido a diversos fatores, dentre eles a natureza do rudo e as

caractersticas originais do udio afetado, nenhuma tcnica perfeitamente eficaz em todos os

casos. Alm disso, cada tcnica, alm de remover o rudo, frequentemente afeta o sinal e pode

inserir outros artefatos que no existiam originalmente.

1.1 Motivao

Atualmente predominam os sistemas de gravao de udio digital. Nestes, uma vasta

gama de rudos so evitados, principalmente os inerentes mdia de gravao, que so

inexistentes. No entanto, h um acervo musical muito extenso, da poca em que existiam

apenas os sistemas de gravao e armazenamento analgicos. Busca-se, hoje, a digitalizao

desses materiais, a fim de preserv-los. O processo de digitalizao, em si, algo

relativamente simples. Contudo, boa parte desses dados est contaminada com rudos dos

mais diversos tipos, como os rudos tradicionalmente encontrados nas mdias analgicas de

gravao magntica.

Captulo 1: Introduo 17

Assim sendo, o tratamento/restaurao desses sinais uma etapa importante, porm,

complexa. Essa complexidade advm do fato de se estar tentando restaurar um sinal cuja

forma original desconhecida. As tcnicas empregadas, pela prpria natureza do rudo, so

estocsticas ou exigem algum conhecimento estatstico do sinal. Nos ltimos anos, tm

aparecido propostas de tcnicas baseadas na transformada wavelet, aproveitando-se sua

capacidade de tratar mais adequadamente sinais com caractersticas multiescalares intrnsecas.

A grande variedade de tcnicas de remoo de rudos atualmente conhecidas nem

sempre trazem bons resultados quando aplicados sobre sinais que estejam sujeitos a

apreciao humana, como udio, vdeo e imagens. Isto o que costuma-se chamar de

percepo subjetiva de qualidade. Muitas das abordagens atuais tem excelentes resultados

sobre sinais gerais, porm quando aplicadas a sinais de udio, podem se mostrar inadequadas,

inserindo, por exemplo, distores desagradveis, perceptveis a audio humana. Isto sugere

que uma avaliao criteriosa dos mtodos aplicveis necessria.

1.2 Objetivos

O objetivo geral desse trabalho examinar algumas das tcnicas de remoo de rudos

em udio atualmente conhecidas, ressaltando algumas caractersticas de cada uma delas.

Dentre essas tcnicas tm-se as abordagens promissoras denominadas Wavelet Thresholding e

Time-Frequency Block Thresholding, alm da Spectral Subtraction, que uma abordagem

simples, porm robusta, sendo ainda muito usada.

Como objetivo especfico, busca-se avaliar o quanto uma tcnica que adequada a

sinais sintticos apropriada para ser usada em sinais reais de udio, como uma msica.

1.3 Estrutura da Dissertao

Este trabalho encontra-se dividido em 5 captulos.

O Captulo 1 introduz o contexto da remoo de rudos em udio, bem como a

motivao e objetivos envolvidos nesta pesquisa.

No Captulo 2 aborda diversos assuntos relacionados ao tema, e que sero recorrentes

ao longo do texto, o que inclui definies conceituais a respeito de udio, tipos de rudos e a

abordagem clssica de remoo de rudos por filtragem de Wiener.

Captulo 1: Introduo 18

J no Captulo 3, cada uma das tcnicas que este trabalho se prope avaliar

apresentada. Aspectos tericos (principalmente) e alguns de carter prtico (algoritmo) so

descritos.

Cabe ao Captulo 4 apresentar os mais diversos testes envolvidos na avaliao de cada

uma das tcnicas: Objetivos, Subjetivos e Computacionais. Este captulo, o mais extenso

dessa dissertao, comea com breves testes de cada abordagem aplicados a sinais 1D

sintticos (no musicais). Na sequncia, aps algumas consideraes a respeito, passa aos

testes e resultados com sinais reais, de udio musical instrumental, que o foco deste

trabalho.

Ao Captulo 5, final, cabem as discusses gerais a respeito do desempenho das

tcnicas, com seus pontos positivos e negativos que puderam ser evidenciados ao longo de

toda a pesquisa.

Captulo 2: Conceitos Bsicos

Neste captulo sero descritos alguns conceitos que serviro de base ao entendimento

deste trabalho, como aspectos relativos a udio digital, sinais sintticos e os mais diversos

tipos de rudo.

2.1 Som

Para muitos de ns, o som um fenmeno muito familiar, uma vez que ouvimos todo

o tempo. De forma intuitiva, podemos definir som como uma sensao detectada pelos nossos

ouvidos e interpretada pelo crebro de alguma maneira. Do ponto de vista cientfico, som

uma perturbao fsica num meio (normalmente o ar). Ele se propaga neste meio como uma

onda de presso (longitudinal) atravs do movimento dos tomos ou molculas.

Como qualquer outra onda, amplitude e frequncia so dois importantes atributos do

som. Define-se frequncia como o nmero de perodos que ocorre em uma unidade de tempo

(um segundo). A unidade de frequncia o Hertz (Hz). Um fato muito importante a ser

observado que o ouvido humano sensvel apenas faixa de frequncia em torno de 20 a

22.000 Hz, a depender da idade e sade do indivduo. Chama-se essa faixa de frequncias

audveis. Quanto amplitude, os humanos a percebem como o volume do som. Como o

ouvido humano sensvel a uma faixa muito ampla de nveis sonoros (amplitudes), usa-se

uma escala logartmica por ser mais conveniente. A unidade resultante o dB (decibel) [1].

2.2 udio Digital

Assim como uma imagem pode ser digitalizada e separada em unidades atmicas

chamadas pixels, onde cada pixel um nmero, o som tambm pode ser digitalizado e

transformado em nmeros. Quando o som capturado por um microfone, ele convertido em

tenso eltrica que varia continuamente com o tempo. Tal tenso uma representao

analgica do som. A fim de poder ser facilmente manipulada por um computador digital, esta

Captulo 2: Conceitos Bsicos 20

representao precisa ser convertida para o domnio digital. A digitalizao do som (tambm

conhecida como converso A/D Analog to Digital) feita atravs da medio da tenso

eltrica em vrios pontos no tempo, traduzindo-se cada medida num nmero, e esse conjunto

de pontos ento escrito num arquivo. A esse processo d-se o nome de amostragem

(sampling).

Ao nmero de pontos, amostras (samples), tomados por unidade de tempo, damos o

nome de taxa de amostragem. Segundo o Teorema de Nyquist, a taxa de amostragem deve ser

no mnimo duas vezes maior que a mxima frequncia presente no sinal analgico. Esse o

motivo pelo qual o udio padro do CD (Compact Disc) amostrado a 44.100 Hz e

quantizado a 16 bits, o que cobre uma faixa de frequncia que se estende at pouco mais de

20.000 Hz, compatvel com a faixa audvel aos seres humanos [1].

2.3 Sinais Sintticos Unidimensionais

comum, quando se tratam de algoritmos de supresso de rudos, o teste da tcnica

sobre sinais unidimensionais ditos sintticos [2]. O termo sinttico advm do fato de que

tais sinais no so capturados do mundo real, mas gerados artificialmente por computador.

Aps serem gerados, so contaminados por algum tipo de rudo (geralmente aleatrio com

distribuio normal) (Figura 2.1). So, em seguida, processados pelo algoritmo que tentar

remover o rudo do sinal. Uma vez que o pesquisador possui o sinal original em mos, a

eficcia da tcnica pode ser bem avaliada, confrontando-se o sinal limpo com o original.

Figura 2.1 Sinal de teste original (seno de 200 Hz) (esquerda) e o mesmo contaminado com rudo gaussiano(direita).

Estes sinais so, geralmente, gerados com caractersticas importantes avaliao da

tcnica, tais como continuidade, transies abruptas e/ou suaves, mltiplas frequncias, etc.

Dessa forma, podem-se exibir as vantagens/deficincias da tcnica proposta frente s outras.

Captulo 2: Conceitos Bsicos 21

2.4 Sinais Sintticos Unidimensionais x udio Digital

Apesar de se mostrarem ferramentas muito teis na avaliao de tcnicas de remoo

de rudos, uma tcnica com bons resultados sobre sinais sintticos (que no caracterizam

udio) no garantidamente ter resultados equivalentes com sinais sonoros reais, como uma

msica (fato este que ser demonstrado neste trabalho). No uma tarefa fcil explicar o

porqu disso, visto que tal fato est relacionado com fenmenos neurolgicos e psicolgicos

complexos, ligados percepo humana do som.

Em sinais de udio, as caractersticas mais importantes consistem de oscilaes [3].

Alis, a prpria essncia dos sons advm da forma como as mais diversas oscilaes

ocorrem. Rudos so tambm oscilaes. O difcil decidir que tipos de oscilaes so rudos

e quais no. Em determinados cenrios, o que matematicamente poderia ser considerado rudo

na verdade um sinal legtimo inserido propositalmente pelo artista. Um bom exemplo

disso so as distores presentes em guitarras em determinados estilos musicais (como o

heavy metal). Por analogia, tm-se exemplos parecidos no campo das imagens. Um

determinado fotgrafo ou cineasta pode, artificialmente ou no, contaminar suas imagens

com tipos bem particulares de rudo como parte de sua expresso artstica.

2.5 Uma Distino Entre Voz e Msica

O campo da remoo de rudos em sinais de voz conta atualmente com uma vasta

gama de tcnicas eficazes na remoo dos mais diversos tipos de rudo. Pode-se dizer que boa

parte do aprimoramento das tcnicas foi impulsionado pelo avano tecnolgico nas

comunicaes, em especial da telefonia mvel. O uso de algoritmos de remoo de rudo faz-

se necessrio uma vez que os ambientes em que um telefone celular usado so

frequentemente ruidosos, como no trnsito.

As mesmas tcnicas que so eficazes na remoo de rudo em sinais de voz podem no

demonstrar a mesma eficcia quando aplicados sobre uma msica. As principais razes

advm do fato desses algoritmos tirarem proveito de diversas caractersticas encontradas nos

sinais de voz. Por exemplo, pelo fato do trato vocal operar de maneira relativamente lenta

(comparado aos computadores), as amostras pontuais (tambm chamadas de samples)

adjacentes num sinal de voz tendem a ser altamente correlacionadas [1]. E, uma vez que o

rudo muitas vezes pode ser modelado como uma sequencia no correlacionada, a remoo do

Captulo 2: Conceitos Bsicos 22

rudo facilitada. Em outras palavras, a fala acaba por gerar uma sequncia bem

comportada ou regular (Figura 2.2).

Conforme j mencionado, o ouvido humano sensvel a uma faixa de frequncias que

se estende, em mdia, at os 22 kHz. Contudo, a faixa de frequncias da voz humana muito

mais restrita, geralmente estando na faixa de 500 a 2.000 Hz [1]. Isso tem pelo menos duas

implicaes: sinais de voz possuem perodos longos (e tendncia periodicidade) e uma

simples filtragem passabaixas pode remover totalmente o rudo que est presente em

frequncias mais altas (supondo uma largura de banda maior que 3 kHz), uma vez que se

supe no haver nenhuma informao til.

Figura 2.2 Sinais de Voz (a) e No Voz (b) [1]

2.6 Rudo

Rudo pode ser definido como qualquer sinal indesejado que interfere na

comunicao, medida, percepo ou processamento de um sinal. Rudo est presente em

vrios graus em quase todos os ambientes. Por exemplo, em um sistema de telefonia celular

digital pode haver uma variedade de rudo que poderiam degradar a qualidade da

comunicao, tais como o rudo acstico do ambiente (pessoas conversando, trnsito de

veculos, etc.), rudo trmico, rudo balstico (shot noise), rudo eletromagntico, distores do

canal, ecos acsticos e de linha, reflexes por mltiplos caminhos e rudos de processamento

de sinal [4].

Dependendo da sua fonte, um rudo pode ser classificado em diversas categorias,

indicando a ampla natureza fsica dos rudos, a saber [4]:

Rudo Acstico proveniente do movimento, vibrao ou coliso de fontes e o mais

familiar dentre os tipos de rudo encontrados nos ambientes do dia-a-dia. gerado por

Captulo 2: Conceitos Bsicos 23

fontes tais como carros em movimento, ar-condicionado, trfego, pessoas conversando

ao fundo, vento e chuva;

Rudo Trmico e Rudo Balstico (Shot Noise) rudo trmico gerado pelo

movimento aleatrio de partculas termicamente energizadas em um condutor eltrico.

Este intrnseco a todos os condutores e est presente mesmo sem qualquer tenso

aplicada. Rudo balstico (shot noise) consiste de flutuaes aleatrias da corrente

eltrica em um condutor e intrnseco ao fluxo de corrente. Ele causado pelo fato da

corrente ser transmitida por cargas discretas (isto , os eltrons) com flutuaes e

tempos de chegada aleatrios;

Rudo Eletromagntico presente em todas as frequncias e em particular na faixa

de radiofrequncia (kHz a GHz) onde as comunies ocorrem. Todo dispositivo

eltrico, como transmissores e receptores de rdio e televiso, geram este tipo de

rudo;

Rudo Eletrosttico gerado pela interferncia eletrosttica. Lmpadas fluorescentes

so uma das fontes mais comuns de rudos eletrostticos;

Distores de Canal, Eco e Enfraquecimento todos derivam das caractersticas

no ideais dos canais de comunicao. Canais de rdio, tais como as frequncias em

GHz usadas pelas operadoras de telefonia mvel celular, so particularmente sensveis

s caractersticas de propagao do meio de transmisso;

Rudo de Processamento este o rudo que resulta do processamento digital do

sinal. Por exemplo, o rudo de quantizao na codificao digital de som ou imagem,

ou da perda de pacotes em sistemas de comunicao de dados, so assim classificados.

Dependendo do seu espectro de frequncias ou caractersticas temporais, rudos podem

ser adicionalmente classificados em uma das seguintes categorias:

Rudo Branco (White Noise) rudo puramente aleatrio que tem espectro de

potncia plano. Rudo branco contm todas as frequncias em igual intensidade;

Rudo Branco com Largura de Banda Limitada (Band-Limited White Noise)

semelhante ao rudo branco descrito acima, porm restrito a uma faixa de frequncias;

Rudo de Banda Estreita (Narrowband Noise) um rudo com faixa de frequncias

estreita e limitada, tais como o hum (zunido) de 50-60 Hz da rede eltrica;

Captulo 2: Conceitos Bsicos 24

Rudo Colorido (Coloured noise) rudo no branco ou qualquer outro rudo com

banda larga em frequncia mas espectro no plano; exemplos so o rudo rosa (Figura

2.3), marrom (Figura 2.4), e o autorregressivo;

Rudo Impulsivo (Impulsive Noise) consiste de pulsos de curta durao de

amplitude e durao aleatria;

Pulsos de Rudo Transientes (Transient Noise Pulses) consistem de pulsos de

rudo de durao relativamente longa. Em geral, caracterizado por um pulso inicial

curto e estreito, seguido por oscilaes de mais baixa frequncia (Figura 2.5).

Figura 2.3 (a) Rudo Rosa (Pink Noise) e (b) seu espectro de frequncias [4].

Figura 2.4 (a) Rudo Marrom (Brown Noise) e (b) seu espectro de frequncias [4].

Figura 2.5 Pulsos de Rudo Transientes [4].

Captulo 2: Conceitos Bsicos 25

2.6.1 Rudo Branco

Rudo branco definido como um processo ruidoso aleatrio descorrelacionado, com

potncia igualmente distribuda ao longo de todas as frequncias. formado por amostras

independentes e identicamente distribudas (i.i.d.). Um rudo aleatrio que tem a mesma

potncia em todas as frequncias na faixa precisaria necessariamente ter potncia infinita;

assim este apenas um conceito terico. Entretanto, um processo ruidoso de banda limitada,

com espectro plano cobrindo a faixa de frequncias de um sistema de comunicao de banda

limitada, , para todos os efeitos, do ponto de vista do sistema, um processo ruidoso branco.

Por exemplo, para um sistema de udio com largura de banda de 10 kHz, qualquer rudo

sonoro de espectro plano com largura de banda igual ou superior a 10 kHz se comportar

como um rudo branco [4].

A funo de autocorrelao de um processo ruidoso branco de mdia zero e no

domnio do tempo contnuo com varincia de 2 uma funo delta ) ), data por

( ) ] () ) )] ( ) (2.1)

O espectro de potncia de um rudo branco, obtido tomando a transformada de Fourier

de (2.1), dado por

( ) = ()

. (2.2)

A Equao 2.1 e a Figura 2.6(c) mostram que o rudo branco tem espectro de potncia

constante.

Figura 2.6 (a) Ilustrao de um rudo branco. (b) Sua funo de correlao uma funo delta. (c) Seu espectrode potncia constante. [4]

2.6.2 Modelando o Rudo

O objetivo da modelagem caracterizar as estruturas e os padres em um sinal ou

rudo. E quando se tratam de rudos em sinais de udio, comum assumir que o rudo

aditivo, estacionrio, branco e com distribuio gaussiana [4].

Captulo 2: Conceitos Bsicos 26

Portanto, do ponto de vista matemtico, podemos supor um sinal de udio que est

contaminado por um rudo branco que modelado por um processo estacionrio gaussiano

de mdia zero, isto , independente e identicamente distribudo (i.i.d) como (), e

independente de :

] ] [ ] [ ] . (2.3)

Mesmo existindo uma vasta gama de problemas envolvendo rudos no estacionrios

e/ou no brancos, a hiptese acima razovel e vlida na soluo de muitos problemas reais.

O suporte principal da validade dessa hiptese recai sobre o Teorema Central do Limite.

Em teoria de probabilidade, o Teorema Central do Limite estabelece condies nas

quais a mdia de um nmero suficientemente grande de amostras de variveis aleatrias

independentes, cada uma com mdia e varincia finitas, ser aproximadamente normalmente

distribuda. Uma vez que quantidades do mundo real so frequentemente uma soma

balanceada de muitos eventos aleatrios no observados, este teorema prov uma explicao

parcial para a prevalncia da distribuio normal de probabilidade [5].

2.6.3 Removendo o Rudo

Independentemente do tipo de informao que est contaminada por rudo (como

udio, sinais ssmicos e sinais de monitoramento de processos), o campo das pesquisas

envolvendo a remoo de rudo amplo, possuindo diversas abordagens distintas, e no

exclusividade dos dias atuais. Enquanto mtodos clssicos ou seus aprimoramentos ainda se

mostram eficazes numa vasta gama de situaes, noutras so exigidas abordagens diferentes.

2.6.3.1 Filtragem de Wiener

Quando se fala em mtodos clssicos de remoo de rudos, provavelmente o mais

conhecido deles seja o proposto na dcada de 40 pelo renomado matemtico americano

Norbert Wiener. Partindo da indagao: Supondo que se tenha acesso ao sinal original (ou

uma estimativa deste) e do rudo, qual seria o melhor filtro, capaz de separar sinal de rudo?

Com uma abordagem estatstica, Wiener desenvolveu o que veio a ser conhecido como Filtro

de Wiener. Seu propsito reduzir a quantidade de rudo presente em um sinal pela

comparao com uma estimativa do sinal limpo (ou seja, o desejado). Pouco tempo depois

do trabalho de Wiener, Kolmogorov publicou independentemente a verso discreta do

mtodo. Da o fato da teoria inteira ser frequentemente denominada Filtragem de Wiener-

Kolmogorov [6].

Filtros tpicos so desenvolvidos para uma resposta em frequncia desejada.

Entretanto, o projeto do filtro de Wiener usa uma abordagem diferente. Enquanto o primeiro

Captulo 2: Conceitos Bsicos 27

assume ter conhecimento das propriedades espectrais do sinal original e do rudo, o segundo

busca um filtro LTI (Linear Time-Invariant) no qual a sada seria to prxima do sinal

original quanto possvel. Os filtros de Wiener se caracterizam por:

1. Suposio: sinal e rudo (aditivo) so processos estocsticos estacionrios com

caractersticas espectrais ou autocorrelao e correlao cruzadas conhecidas.

2. Requisito: o filtro deve ser fisicamente realizvel, isto , causal (apesar de ser possvel

encontrar uma soluo no-causal).

3. Critrio de desempenho: minimizao do erro quadrtico mdio (MMSE Minimum

Mean-Square Error)

Filtro de Wiener do tipo FIR para sinais discretos

A fim de encontrar os coeficientes do filtro de Wiener, consideremos um sinal [ ]

como entrada de um filtro de Wiener de ordem e com coeficientes { } . A

sada do filtro denotada por ] ] a qual dada pela expresso:

] ] = (2.4)

O erro residual denotado por e definido como [ ] ] ] , como

mostra a Figura 2.7.

O filtro de Wiener projetado para minimizar o erro quad

pode ser estabelecido consistentemente como

} }

onde {} denota o operador de valor esperado. No caso geral, o

complexos e derivados para o caso onde ] ] e [ ] so

simplicidade, consideraremos apenas o caso onde essas qua

quadrtico mdio pode ser escrito como

]} ]} = ])} ] [ ])}

= ]} ]} ]} ]} ]} ] }

= )} )

} ]} ]} }

() =

[ ]

] ][ ]-

Figura 2.7 Diagrama de blocos de um filtro de Wiener

rt

s c

t

ntid

+

do

[ ]

ico mdio (MMSE) o que

(2.5)

oeficientes podem ser

ambm complexos. Por

ades so reais. O erro

[ ] } (2.6)

tipo FIR.

Captulo 2: Conceitos Bsicos 28

Para encontrar o vetor [ ] que minimiza a expresso acima, vamos agora

calcular sua derivada com respeito a , dada por

} } =

} [ [ }

= 2 ]} [ } ]} ] } (2.7)

Se ns supusermos que ] ] e [ ] so estacionrios e conjuntamente estacionrios,

podemos introduzir as sequncias e , conhecidas respectivamente como a

autocorrelao de ] ] e a correlao cruzada entre ] ] e [ ], definidas como

= ]} [ } e (2.8)

= ]} ] }, (2.9)

a derivada do MSE pode assim ser reescrita como (perceba que [ ] )

} } =2 [ ] [ ],

. (2.10)

Fazendo a derivada ser igual a zero, obtemos

[ ] [ ] , (2.11)

o que pode ser reescrito matricialmente como

[0] [1] []

[1] [0] [ ]

[] [ ] [0]

[0]

[1]

ou

. (2.11)

Essas equaes so conhecidas como equaes de Wiener-Hopf. A matriz T que

aparece na equao uma matriz simtrica Toeplitz. Essas matrizes so conhecidas por serem

positivas definidas e, assim, no-singular, levando a uma soluo nica para a determinao

do vetor A de coeficientes do filtro de Wiener, a saber, . Alm disso, existe um

algoritmo eficiente para resolver tais equaes de Wiener-Hopt conhecido como algoritmo de

Levinson-Durbin, para o qual a inverso explicita de T no requerida.

2.6.4 Rudo Musical

Segundo Guoshen Yu [7][8], rudo musical um artefato que frequentemente ouvido

aps a aplicao de algumas tcnicas de remoo de rudo, soando como notas musicais

aleatrias, e tem natureza diferente (ou seja, artificial) do sinal original, podendo assim ser

facilmente percebida.

Captulo 2: Conceitos Bsicos

Devido falta de regularidade te

no Captulo 3), algoritmos dito

isolados que reconstituem estruturas tempo

2.8). Em outras palavras, criam componentes frequenciais

devido excessiva quantidade de tomos tempo

usados fatores de atenuao (do rudo) no regularizados, ou seja, cada coeficiente atenuado

por um fator diferente.

Figura 2.8 Espectrograma do sinal ruidoso (filtrado exibindo os coeficientes frequenciais isolados que correspondem ao rudo musical

Neste sentido, diversas abordagen

coeficientes isolados. Isto possvel quando a tcnica faz uso de estimao

diagonal, que elimina a excessiva presena de tomos tempo

se estivesse regularizando-

como tambm suas dimenses.

Figura 2.9 Espectrograma do sinal ruidoso (

Captulo 2: Conceitos Bsicos

Devido falta de regularidade tempo-frequncia (conceito que ser melhor explicado

no Captulo 3), algoritmos ditos diagonais criam alguns coeficientes tempo

isolados que reconstituem estruturas tempo-frequncia percebidas como rudo musical (

). Em outras palavras, criam componentes frequenciais inexistentes no udio original

excessiva quantidade de tomos tempo-frequncia. Isso acontece uma vez que so

usados fatores de atenuao (do rudo) no regularizados, ou seja, cada coeficiente atenuado

Espectrograma do sinal ruidoso (a), fatores de atenuao do rudo no regularizados (b)os coeficientes frequenciais isolados que correspondem ao rudo musical

Neste sentido, diversas abordagens tentam eliminar o rudo musical

Isto possvel quando a tcnica faz uso de estimao

elimina a excessiva presena de tomos tempo-frequncia neste espao, como

-o. Assim sendo, ajustam-se tanto os coeficientes de cada tomo

como tambm suas dimenses. O efeito o espectro limpo exibido na

Espectrograma do sinal ruidoso (a), fatores de atenuao do rudo regularizados (b)sem a presena do rudo musical (c) [8].

29

frequncia (conceito que ser melhor explicado

criam alguns coeficientes tempo-frequncia

s como rudo musical (Figura

inexistentes no udio original

Isso acontece uma vez que so

usados fatores de atenuao (do rudo) no regularizados, ou seja, cada coeficiente atenuado

o regularizados (b) e o sinalos coeficientes frequenciais isolados que correspondem ao rudo musical (c) [8].

o rudo musical, no criando esses

Isto possvel quando a tcnica faz uso de estimao dita no-

frequncia neste espao, como

se tanto os coeficientes de cada tomo

O efeito o espectro limpo exibido na Figura 2.9(c).

fatores de atenuao do rudo regularizados (b) e o sinal filtrado

Captulo 3: Removendo Rudo: Abordagens

Sero descritas a seguir trs diferentes tcnicas de remoo de rudo em udio.

Buscou-se, com essa escolha, comparar tcnicas clssicas, como a Spectral Subtraction

(dcada de 70) com outras modernas, como a Wavelet Thresholding (dcada de 90), bem

como o teste de uma tcnica que permite regularizao tempo-frequncia, como a Time-

Frequency Block Thresholding.

3.1 Spectral Subtraction

A Spectral Subtraction (Subtrao Espectral) uma das mais conhecidas e populares

tcnicas de remoo de rudo. Artigos da dcada de 70 [9][10][11][12] j reportavam

resultados da aplicao da tcnica na remoo de rudo em sinais de voz. No entanto, a

tcnica original sofre de alguns problemas, que sero descritos adiante.

Em linhas gerais, suponha um sinal de udio digital [ ] corrompido por um rudo

aditivo [ ] [13]:

] ] [ ] [ ] (3.1)

Aplicando-se uma janela (janelamento1) e em seguida a transformada de Fourier de

ambos os lados, temos

, (3.2)

onde ,

e so as transformadas de Fourier de pores (janelas) do

sinal ruidoso, sinal original e do rudo, respectivamente. A fim de simplificar a notao, o

subscrito que indica o janelamento ser retirado, ficando implcita a operao.

Multiplicando-se ambos os lados por seu complexo conjugado, tem-se

, (3.3)

onde a diferena de fase entre o sinal original e o rudo, ou seja,

() . (3.4)

Tomando-se o valor esperado de ambos os lados, tem-se

{}. (3.5)

1 O termo janelamento comum na rea de processamento de sinais e a partir deste ponto poder ser usadosempre que necessrio.

Captulo 3: Removendo Rudos: Abordagens 31

Analisando essa ltima equao, podemos assumir que:

1. a magnitude do sinal original e do rudo so independentes (com base na suposio de

rudo aditivo);

2. as fases do sinal original e do rudo so tambm independentes uma da outra e de suas

magnitudes.

Baseado na equao 3.5 observa-se que existem trs fontes que contribuem como sinal

contaminado: devido potncia do rudo isolada, devido ao termo cruzado sinal-rudo dado

por e devido diferena das fases do sinal e do rudo (Eq. 3.4).

Especificamente, o modo como se trata o termo }} (se igual a 0 ou igual a 1) define

duas variaes da tcnica conhecidas como Subtrao Espectral de Potncias, onde

}} = 0, e Subtrao Espectral de Magnitudes, onde }} = 1.

Para o caso da Subtrao Espectral de Potncias, o fato de }} = 0

consequncia da hiptese de que a fase do rudo pouco perceptvel (em outras palavras, no

afeta a fase do sinal final) e que, portanto, a fase do rudo pode ser desconsiderada na

expresso 3.4. Ento, no processamento da tcnica, a fase do termo referente a ] ]

assumida como a fase do termo [ ], sendo desconsiderada inicialmente no processamento

uma vez que apenas o espectro de potncias dos sinais so manipulados. Ao final, a fase do

termo relativo a ] ] adicionada ao sinal tratado e procede-se a IDFT (Inverse Discrete

Fourier Transform) para a obteno da estimativa do sinal no tempo.

J na Subtrao Espectral de Magnitudes assumido que a fase do rudo pode

contribuir com as distores no sinal. Isto tem como consequncia o termo }}

tomado como 1 na expresso 3.5, mantendo, portanto, o termo cruzado

. Trabalhar com a Subtrao Espectral de Magnitudes implica no

conhecimento prvio (ou estimativa) da fase do rudo. Uma vez que nesta dissertao assume-

se rudo branco gaussiano, optou-se por fazer }} = 0. digno de nota que assumir

}} = 1 torna a tarefa de remoo de rudo significativamente mais difcil

[14][15][16].

Assim, como consequncia de 3.5 e da hiptese de que }} igual a 0, temos

que

. (3.6)

Captulo 3: Removendo Rudos: Abordagens 32

Devido s flutuaes presentes no espectro do rudo em torno do seu valor esperado,

existir sempre uma diferena entre o rudo real e a sua mdia. Alm disso, poder haver

casos em que a estimativa do rudo maior que o rudo atualmente presente no sinal. Este

cenrio pode levar a uma situao de picos de valores negativos no espectro resultante. O

resultado desse efeito colateral, no tempo, a percepo de um sinal artificial de mltiplas

frequncias, embutido no sinal filtrado. Esse rudo residual chamado de musical noise

(rudo musical) na literatura [17].

Em [17] o autor prope uma soluo que minimiza esse efeito colateral. A fim de

evitar possveis valores negativos no espectro do sinal filtrado devido a uma possvel super

estimativa do espectro do rudo, o autor prope modificaes na tcnica: superestimar o

espectro do valor esperado do rudo antes da subtrao, o que torna possvel acomodar as

flutuaes existentes entre a estimativa e seu valor real. Ao mesmo tempo, fixar um piso

(valor mnimo) para o espectro do sinal resultante da subtrao. Esse valor chamado de

spectral floor (piso espectral). E, por ser expresso como uma frao do espectro do rudo,

seus componentes frequenciais (coeficientes) so sempre positivos.

A fim de acomodar as variaes do rudo real presente no sinal contaminado, o valor

esperado do rudo (sua mdia), , ajustado de tempos em tempos, de acordo

com a estimativa da relao sinal/rudo.

Tomando e como o espectro em potncia do sinal ruidoso e o da

estimativa do rudo, e assumindo que () , podemos enunciar a seguinte

regra:

()

() ()

()

onde o fator de subtrao (e controla a quantidade de rudo que ser removida do sinal) e

o parmetro que define o piso espectral.

3.1.1 Uma Adaptao da Tcnica

importante frisar que o trabalho do autor no artigo [17] voltado para remoo de

rudos em sinais de voz, e ainda em situaes onde o rudo de fundo (background noise) pode

mudar com o tempo. As implementaes do algoritmo2 que serviu de base a este trabalho,

fazem uso de um VAD (Voice Active Detection) a fim de determinar em quais frames h a

2 No website [13] recomendado pelo autor do artigo [7] h diversas implementaes de algoritmos de SpectralSubtraction com algumas diferenas entre elas. Este trabalho baseou-se na implementao SSBerouti79.m.

Captulo 3: Removendo Rudos: Abordagens 33

presena de voz. O princpio de funcionamento desse algoritmo baseia-se na hiptese de que a

potncia do sinal de voz sempre maior que a do rudo. Nos frames (trechos do sinal, que no

caso da Spectral Subtraction contm 100 ms de udio) onde o algoritmo sugere que no h

sinal de voz, o sinal todo frequentemente suprimido (uma vez que assume-se que apenas

rudo). E um conjunto desses frames usado para atualizar a estimativa do espectro do rudo,

conforme anteriormente citado.

Pode-se dizer que no contexto de filtragem de sinal de voz, as abordagens acima de

fato produzem bons resultados. Contudo, na fase de pesquisa deste trabalho, diversos testes

foram feitos sobre amostras extradas de udio musical, sem a presena de voz. E os

resultados foram todos muito ruins. O sinal filtrado soava de maneira picotada, ou seja,

alternava regies onde o som parecia estar suprimido, de outras onde a presena do rudo

residual variava com o tempo. Uma anlise cuidadosa dos valores intermedirios calculadas

pelo algoritmo, frame a frame, indicaram o porqu deste fenmeno. O fato que no algoritmo

tal qual se encontrava, quando aplicado sobre uma msica onde no h presena de voz,

apenas instrumentos, o VAD falha, classificando alguns frames, erroneamente, como apenas

rudo. Esse fenmeno era especialmente perceptvel em trechos onde os instrumentos tocavam

de maneira sutil (baixa intensidade). Isso tinha como consequncia outro efeito colateral: a

estimativa do rudo tendia a divergir com o tempo (em funo da atualizao com os trechos

classificados como apenas rudo).

Pelos motivos acima citados, a fim de ter utilidade prtica no contexto desse trabalho

(remoo de rudo em udio instrumental), o algoritmo teve de ser adaptado. O primeiro passo

foi remover o VAD. Mas ainda restava outro fator, o , que controla a superestimao do

rudo, ou a magnitude dos coeficientes do espectro do rudo (extrado dos frames iniciais), a

ser analisado. No algoritmo original, esse parmetro era automaticamente ajustado, em funo

das atualizaes no espectro do rudo, que deixaram de existir com a desativao do VAD.

Por experimentao, chegou-se a valores de e considerados adequados, uma vez que

balanceavam o rudo residual (ou a quantidade de rudo removido) e as distores inseridas no

sinal. Alm disso, a estimativa inicial do espectro do rudo mantida ao longo de toda a

filtragem (o que coerente com o fato de que o rudo estacionrio).

Outro parmetro presente no algoritmo e que tpico em anlise de voz o tamanho

da janela usada na anlise do sinal. Esta deve ser curta o suficiente para que contenha dados

de apenas um nico fonema. Assim sendo, o valor comumente adotado de 20 ms [18].

Contudo, em testes prticos com udio musical instrumental, esse valor mostrou-se

Captulo 3: Removendo Rudos: Abordagens 34

inadequado. O fato que janelas maiores permitem uma resoluo frequencial maior3. J

transientes curtas precisam de janelas menores, a fim de evitar distores. Atravs de diversos

testes e anlises de espectrogramas, adotou-se o valor de 100 ms, mais adequado ao tipo de

sinal em questo.

Outra alterao feita, no campo computacional, foi um estudo das estruturadas de

dados usadas, e efetuadas algumas pr-alocaes que contriburam para melhorar de maneira

muito significativa (na ordem de 4x) o desempenho do algoritmo.

3.2 Time-Frequency Block Thresholding

Time-Frequency Block Thresholding (TFBT)4 uma tcnica de remoo de rudos

baseada em processamento por blocos que evita a produo dos artefatos denominados rudo

musical, efeito colateral comum a muitas outras abordagens. Nesta sesso, sero descritos os

aspectos principais dessa tcnica proposta em [7].

TFBT busca, principalmente, regularizar a estimativa do sinal original (desconhecido).

O processamento adaptativo uma vez que os parmetros de blocagem5 (que ditam o

tamanho dos blocos tempo-frequncia) so automaticamente ajustados a partir do estimador

do risco de Stein [19], calculado analiticamente a partir do sinal ruidoso.

A tcnica em questo dita ser no diagonal (conceito explicado adiante, na sesso

3.2.1.2). Esse um conceito importante, estando envolvido com a forma como os coeficientes

tempo-frequncia so tratados. preciso, portanto, estabelecer uma base para que tais

conceitos possam ser melhor compreendidos.

3.2.1 Bases Tericas da Tcnica

3.2.1.1 Remoo de Rudos em udio em Tempo-Frequncia

Procedimentos de remoo de rudos em udio ditos tempo-frequncia normalmente

computam uma Short-Time Fourier Transform (STFT) e processam os coeficientes

resultantes para atenuar o rudo. Esta transformao executada porque revela estruturas

tempo-frequncia do sinal que podem ser discriminadas do rudo.

3 J que, quanto mais amostras pontuais, menor a distncia entre as frequncias representadas peloscoeficientes da Transformada de Fourier. Em outras palavras, maior a resoluo frequencial.4 Deste ponto em diante, podendo ser referenciada apenas como Block Thresholding, para efeito desimplificao.5 Pelo termo blocagem entenda-se como uma denominao para o processo de agrupamento dos dados emblocos.

Captulo 3: Removendo Rudos: Abordagens 35

Suponha, para tanto, que um sinal de udio est contaminado com um rudo que,

conforme j dito, modelado como um processo gaussiano de mdia zero e independente de

, a saber

] ] [ ] [ ] (3.7)

Assuma que uma transformao tempo-frequncia decompe o sinal de udio sobre

uma famlia de tomos tempo-frequncia onde e so os ndices tempo e

frequncia, respectivamente. Os coeficientes resultantes podem ento serem escritos como

[ ] = = ] ] (3.8)

onde * denota o conjugado. Estas transformaes definem uma completa e frequentemente

redundante representao do sinal. Se supusermos que esses tomos tempo-frequncia

definem um frame estreito, isto significa que existe A > 0 tal que

=

. (3.9)

Isto implica numa frmula de reconstruo simples

[ ] [ ]. (3.10)

A constante A um fator de redundncia e se A = 1 ento o frame estreito uma base

ortogonal. Um frame estreito comporta-se como uma unio de A bases ortogonais.

Uma representao em frame prov um controle da energia. A redundncia implica

que o sinal no tem uma forma nica de ser reconstrudo a partir da representao em frame

estreito: [ ] [ ], mas todas as reconstrues satisfazem

| | (3.11)

com uma igualdade se ] ] = .

tomos de tempo-frequncia podem ser escritos como

[ ] [ [ ) ), onde [ ] uma janela de tempo de tamanho, a qual

deslocada com passo . e so, respectivamente, os ndices inteiros de tempo e

frequncia, com e , [ ] a raiz quadrada de uma janela de

Hanning e , podendo assim ser verificado que os tomos de Fourier resultantes

definem um frame estreito com A = 2.

Um algoritmo de remoo de rudo modifica os coeficientes tempo-frequncia por

multiplicar cada um deles por um fator de atenuao para atenuar a componente de

rudo. O estimador do sinal limpo

[ ] =

] ] [ ] =

[ ] [ ]. (3.12)

Captulo 3: Removendo Rudos: Abordagens 36

Outros algoritmos de remoo de rudos diferem quanto ao clculo dos fatores de

atenuao [ ]. O coeficiente de varincia do rudo, dado por

] ] (3.12)

supostamente conhecido, ou estimado com mtodos como os referenciados em [7]. Se o

rudo estacionrio, como frequentemente o caso, ento a varincia do rudo no depende

do tempo, ou seja, ] ] ] ].

3.2.1.2 Estimao Diagonal

Algoritmos simples de remoo de rudos em tempo-frequncia computam cada fator

de atenuao somente a partir dos componentes ruidosos [ ] e so por isso

denominados estimadores diagonais. Esses algoritmos tm um desempenho limitado e

produzem rudo musical. Para minimizar o limite superior do risco de estimao quadrtico

] ]

(3.13)

da equao (3.13) sendo uma consequncia de (3.11), pode ser demonstrado [20] que o fator

de atenuao timo

[ ] = 1

[](3.14)

onde ] ] ] ][ ] o SNR (Signal to Noise Ratio Relao Sinal Rudo) a

priori. O limite inferior do risco resultante, tambm chamado risco do orculo ,

(3.15)

onde

= |[]|[]

|[]|[]. (3.16)

Este limite inferior no pode ser atingido porque o fator de atenuao orculo, dado

em (3.14) depende do SNR a priori ] ] o qual desconhecido. Assim, necessrio estimar

este SNR.

Estimadores diagonais do SNR ] ] so computados a partir do SNR a posteriori

definido por ] ] = |[ ]|[ ]. Pode ser verificado que [7]

] ] ] ] 1 (3.17)

um estimador no polarizado. Inserir este estimador na frmula do orculo (3.14) define o

estimador de Wiener emprico [7]

[ ]

[]

(3.18)

com a notao () .

Captulo 3: Removendo Rudos: Abordagens 37

O fator de atenuao [ ] dos estimadores diagonais depende apenas de [ ] sem

qualquer regularizao tempo-frequncia. Os coeficientes resultantes atenuados [ ][ ],

assim, carecem de regularidade tempo-frequncia. Isto produz coeficientes tempo-frequncia

isolados os quais restauram estruturas tempo-frequncia isoladas que so percebidas como um

rudo musical. A Figura 2.8 e a Figura 2.9 ilustram esse fato.

3.2.1.2 Estimao No Diagonal

A fim de reduzir o rudo musical bem como o risco de estimao, vrios autores

propuseram estimar o SNR a priori ] ] com uma regularizao tempo-frequncia de um

SNR a posteriori ] ]. Os fatores de atenuao resultantes [ ] dependero, assim, dos

valores [ ] para ) em uma vizinhana inteira de , e o estimador resultante

[ ] = () [ ] [ ] dito ser no diagonal.

Estimadores no diagonais claramente superam em desempenho os estimadores

diagonais, mas dependem dos parmetros dos filtros de regularizao. Filtros de regularizao

muito grandes reduzem a energia do rudo, mas introduzem mais distoro no sinal. Assim,

desejvel que esses parmetros de filtragem sejam ajustados dependendo da natureza do sinal

de udio. Na prtica, no entanto, eles so selecionados empiricamente, com abordagem

Bayesiana ou modelando o sinal como um processo Gaussiano, Gamma ou Laplaciano.

Apesar de esses modelos serem frequentemente adequados para voz, eles no levam em conta

a complexidade de outros sinais de udio, como msicas, que incluem fortes ataques.

3.2.2 Time-Frequency Block Thresholding

Nesta sesso, a tcnica, propriamente dita, ser descrita. O objetivo obter um

estimador de block thresholding no diagonal adaptativo que automaticamente ajusta todos os

parmetros. Isto recai na habilidade de computar uma estimativa do risco, sem assumir

qualquer modelo estocstico para o sinal de udio, o que torna o algoritmo robusto.

Block Thresholding segmenta o plano tempo-frequncia em blocos retangulares

separados de comprimento no tempo, e largura na frequncia. A seguir, o tamanho do

bloco escolhido dentre uma coleo finita de possibilidades. O Block Thresholding

adaptativo escolhe os tamanhos por minimizar uma estimativa do risco.

O risco no pode ser calculado uma vez que (o sinal original)

desconhecido, mas pode ser estimado com uma estimativa de risco de Stein (a ser explicado

adiante). Os melhores tamanhos de blocos so computados por minimizar a estimativa do

risco. O risco block thresholding satisfaz

Captulo 3: Removendo Rudos: Abordagens 38

|} [ ] ] ]|

}() . (3.19)

Uma vez que [ ] ] ] e [ ] tem mdia zero, ] ] tem a mesma

mdia de [ ]. Para estimar o risco , Cai [21] usa o estimador de risco de Stein quando

calcula a mdia de um vetor aleatrio, ao qual dado pelo teorema de Stein [19] que

enunciado abaixo.

Teorema (SURE Stein Unbiased Risk Estimate): Seja um vetor

aleatrio normal com a identidade como matriz de covarincia e mdia . Seja

um estimador de , onde , , quase diferencivel (

. Defina . Se

, ento

() ()} { (3.20)

Assim,

() () (3.21)

um estimador no polarizado do risco de , chamado estimador de risco no

polarizado de Stein.

Ou seja, com este teorema possvel reescrever qualquer expresso onde o sinal

aparece, mas inacessvel, por outra com o mesmo valor esperado, mas agora em funo do

sinal contaminado por rudo (observvel). importante ressaltar, no entanto, que este

resultado s se aplica aos casos de contaminao por rudo branco gaussiano.

Segundo [7] possvel particularizar o estimador do risco de Stein para cada bloco #,

de modo que a equao final6 dada por

# +

#

#

#

(3.22)

O Block Thresholding adaptativo agrupa coeficientes em blocos retangulares # =

, onde 2 e 2 so, respectivamente, o comprimento do bloco no tempo e a

largura do bloco na frequncia, aos quais os tamanhos so ajustados para minimizar a

estimativa de risco de Stein.

A fim de regularizar a segmentao adaptativa em blocos, o plano tempo-frequncia

primeiro decomposto em macroblocos , , como ilustrado na Figura 3.10. Cada

macrobloco segmentado em blocos de mesmo tamanho, o que significa que #

constante sobre cada macrobloco . A estimao do risco de Stein sobre (1/

6 Nesta equao, o nmero 1 em negrito, acompanhado pela expresso condicional subscrita, indica que, caso acondio seja verdadeira, a expresso a esquerda multiplicada por um. Caso contrrio, multiplicada por zero.

Captulo 3: Removendo Rudos: Abordagens 39

, conforme Eq. 3.21. Vrias segmentaes so possveis, e ns queremos escolher

aquela que leve menor estimao do risco de Stein. O tamanho de bloco timo e, por

conseguinte, , calculado escolhendo a forma do bloco que minimiza . Uma vez

computados os tamanhos dos blocos, os coeficientes em cada so atenuados segundo a

equao (derivada a partir das equaes 3.14 e 3.18)

. (3.23)

Assim como exposto na Eq. 3.18, o clculo de depende da estimativa do SNR a

priori . Cada coeficiente de atenuao depende de dois parmetros, e . O primeiro

deles dado pela equao

=

1, (3.24)

onde

=

# |[ ]|

, (3.25)

=

#

[ ]. (3.26)

Quanto ao parmetro , este calculado dependendo de # ajustando a probabilidade do

rudo residual

{ { (3.27)

A probabilidade um parmetro perceptual, o qual foi escolhido como atravs de

experimentos psicoacsticos, valor segundo o qual o rudo musical dificilmente perceptvel

(maiores detalhes podem ser encontrados em [7]).

Figura 3.10 Partio de macroblocos em blocos de diferentes tamanhos [7]

Em experimentos numricos, cada macrobloco segmentado dentre 15 possveis

tamanhos de bloco , com uma combinao de e . O

Captulo 3: Removendo Rudos: Abordagens 40

tamanho dos macroblocos ajustado para ser igual ao tamanho de bloco mximo, ou seja,

8 16. A Figura 3.10 ilustra diferentes segmentaes desses macroblocos em blocos tempo-

frequncia de mesmo tamanho. Minimizar a estimativa do risco adapta os blocos para as

propriedades tempo-frequncia do sinal. Em particular, ela elimina artefatos de pre-echo em

sinais de ataque e resulta em menos distores em transientes do sinal.

3.3 Wavelet Thresholding

De maneira anloga s anlises baseadas na Transformada de Fourier, que projetam

um dado sinal no domnio da frequncia, os mtodos que fazem uso da Transformada Wavelet

projetam o sinal no domnio da transformada, cuja base dada pela wavelet usada. Em outras

palavras, no domnio da frequncia (dado pela Transformada de Fourier), o sinal

representado por um somatrio de funes senoidais, de diferentes fases/frequncias. J no

domnio da Transformada Wavelet, o sinal analogamente representado por coeficientes que

quantificam a sua correlao com a funo wavelet usada.

Donoho e Johnstone, de maneira pioneira, tm estudado a aplicabilidade das wavelets

no campo da remoo de rudo [22]. A motivao para a aplicao da tcnica advm da

observao de que um sinal no aleatrio, ao ser transformado, leva a um conjunto de valores

esparso. Tal observao torna razovel a suposio de que alguns poucos e grandes

coeficientes so capazes de representar bem o sinal (contm a maior parte da informao),

enquanto os demais pequenos coeficientes podem ser atribudos ao rudo, que

uniformemente contamina todos os coeficientes wavelet. Isso vlido para a classe de sinais

contaminados por rudos que podem ser aproximados por um conjunto de variveis aleatrias

com distribuio normal. Se pudermos decidir quais so os coeficientes wavelets

significativos (em outras palavras, definir uma magnitude a partir da qual um coeficiente

considerado grande), ento, os demais poderiam ser tornados iguais a zero, obtendo assim

uma representao aproximada do sinal no ruidoso [22].

3.3.1 O Procedimento

Posto de maneira simplificada, a tcnica bsica de remoo de rudo baseada em

wavelets composta por trs passos (cujos detalhes sero vistos posteriormente) [23]:

1. Decomposio: Uma vez escolhida a wavelet adequada anlise do sinal em

questo, a decomposio computada at um nvel N determinado.

Captulo 3: Removendo Rudos: Abordagens 41

2. Threshold dos coeficientes de detalhes: Para cada um dos nveis de detalhes (1 a

N), um threshold (fator de limiarizao) escolhido, e um procedimento de

limiarizao suave (soft thresholding) ou abrupta (hard thresholding) aplicado a

tais coeficientes.

3. Reconstruo: A transformao inversa executada, baseada nos coeficientes

modificados (ou no) do passo anterior.

Cada um desses passos guarda uma srie de detalhes, muitos deles cruciais ao

processo como um todo. O primeiro problema tem origem j na etapa de decomposio, e

diz respeito escolha da funo wavelet que ser usada para analisar o sinal. Um dos

principais resultados que caracterizam a escolha de uma determinada wavelet como melhor

que outra a capacidade de gerar uma representao mais compacta do sinal, ou seja, o sinal

pode ser bem aproximado com um nmero menor de coeficientes7. Isso o mesmo que dizer

que existe uma alta correlao entre a wavelet escolhida e o sinal a ser analisado. Visto que

cada tipo de sinal (udio instrumental, voz, ssmicos, etc.) guarda seu prprio conjunto de

caractersticas, haver wavelets mais ou menos apropriadas sua anlise. O problema da

escolha da melhor wavelet traduz-se num problema mais geral, o da escolha da melhor

base, que ainda encontra-se em aberto. Em outras palavras, no existe nenhuma formulao

matemtica quantitativa que indique a melhor base para determinado tipo de sinal [24], em

especial para udio musical, devido a sua variabilidade.

Para o caso de anlise de sinal de udio, h alguns princpios que norteiam a escolha

de uma famlia de wavelets mais apropriada. Visto que o requisito de fase linear desejvel

[25], isto nos leva as wavelets biortogonais. Alm disso, um alto grau de regularidade e

separao das bandas de frequncias preferido (outra caracterstica das wavelets

biortogonais). Estudos com transformadas wavelet para udio ou relacionadas ao tema,

concordam com isso [25].

Quanto ao nvel N de decomposio, deve ser escolhido de tal maneira que se consiga

um bom nvel de resoluo frequencial, traduzido por um maior nmero de bandas.

no passo 2 que a remoo de rudo acontece. Duas escolhas importantes precisam

ser decididas neste momento: o tipo de thresholding (soft ou hard) e o valor do threshold. O

hard thresholding uma regra do tipo mantm ou mata, enquanto soft thresholding uma

7 Isso especialmente vlido quando se usa anlise wavelet para compresso de sinais (udio, imagens e sinaisem geral), mas tambm importante no campo da remoo de rudos, pelos motivos j citados acima.

Captulo 3: Removendo Rudos: Abordagens 42

regra do tipo encolhe ou mata (Figura 3.11). Matematicamente, poderamos expressar

essas abordagens como

(3.28)

onde tem-se que:

: coeficientes wavelet ruidosos

: valor do threshold

1

(hard thresholding),

(soft thresholding) [22].

Figura 3.11 Regras (a) hard e (b) soft thresholding para =1 [22]

O valor do threshold define se um coeficiente zerado ou encolhido, nos casos

hard ou soft thresholding, respectivamente. Em ambos os casos, o procedimento acontece se o

valor do coeficiente est abaixo do valor decidido para o threshold. Podemos, assim, observar

que o thresholding permite que os prprios dados decidam quais coeficientes wavelet so

significativos. Tem sido mostrado tambm que hard thresholding resulta em uma maior

varincia na funo de estimao, enquanto soft thresholding numa maior polarizao [22].

Assim, a escolha do valor adequado para o threshold um fator importante a ser

decidido. Enquanto um valor mais alto tenderia a remover mais rudo, uma parte significativa

do sinal original tambm poderia ser removida, e/ou, ainda, ocorrer a introduo de artefatos

no sinal reconstrudo8. J um valor pequeno demais poderia no ter sucesso na remoo do

rudo. evidente que se est diante de um trade off muito presente em engenharia, onde um

8 Conforme ser comentado adiante (nas avaliaes prticas de cada tcnica sobre sinais de udio reais), o atode forar o valor do threshold para um valor relativamente alto resulta em deformaes no sinal reconstrudoque so audivelmente mais incmodas que o prprio rudo original, cuja a remoo est sendo proposta.

Captulo 3: Removendo Rudos: Abordagens 43

valor de meio termo satisfatrio precisa ser encontrado. H algumas tcnicas que visam

encontrar o threshold adequado atravs de algumas mtricas, descritas a seguir.

3.3.2 Mtricas de Escolha do Valor do Threshold

Dentre as vrias mtricas existentes para a seleo do valor do threshold, destacam-se

algumas delas a seguir. Cada uma pode ser considerada mais ou menos conservativa,

dependendo da magnitude do threshold sugerido.

3.3.2.1 Threshold Universal

Donoho e Johnstone [22] propuseram o que chamaram de threshold universal, dado

por

2 log( ) , (3.29)

onde o desvio padro (ou uma estimativa do mesmo, caso este seja desconhecido) da

massa de dados com amostras pontuais.

Apesar da simplicidade de tal mtrica, os referidos autores mostraram que tanto para

hard quanto soft thresholding o estimador wavelet no-linear resultante assintoticamente

prximo ao estimador minimax, em termos do erro quadrtico mdio do L-risk. Mais ainda,

para funes no homogneas ele supera qualquer estimador linear [22]. Mais informaes e

uma completa formulao matemtica acerca desse estimador podem ser encontradas em [26].

3.3.2.2 SURE (Steins Unbiased Risk Estimate)

Em [2] proposta uma regra de seleo para o valor do threshold empregando-se a

tcnica SureShrink, que se baseia na minimizao do estimador de risco no polarizado de

Stein (em ingls, Steins Unbiased Risk Estimate). Maiores informaes podem ser obtidas

em [2].

Dentre as mtricas baseadas no threshold universal, minimax e SURE, esta ltima

obteve os melhores resultados em testes preliminares de percepo subjetiva de qualidade.

3.3.3 O Procedimento: Mais Detalhes

Em implementaes da tcnica Wavelet Thresholding, o valor do threshold , de uma

maneira ou de outra, calculado a partir dos prprios dados. O tipo de informao colhida a

partir dos dados, e que serve de parmetro para o clculo deste valor, que varia entre uma

mtrica e outra.

Um detalhe ainda no mencionado a respeito do procedimento de thresholding dos

coeficientes que, uma vez calculado o valor do threshold, este pode ser aplicado diretamente

aos coeficientes ou sofrer um reescalamento.

Captulo 3: Removendo Rudos: Abordagens 44

No modelo bsico, nenhum reescalamento feito. O valor de threshold calculado em

cada nvel diretamente aplicado.

No modelo denominado SNL (Single Level Noise), o valor threshold sofre um

reescalamento baseado numa estimao do nvel do rudo, que calculado a partir dos

coeficientes de detalhe do primeiro nvel de decomposio. Este fator de reescalamento

usado para todos os demais nveis. Segundo [23], os coeficientes de detalhe do primeiro nvel

so essencialmente coeficientes ruidosos com desvio padro igual a . O MAD (Median

Absolute Deviation Desvio Absoluto Mediano) desses coeficientes uma estimativa robusta

de . O uso de uma estimativa robusta crucial por duas razes: a primeira que se os

coeficientes do nvel 1 contm f detalhes, ento estes detalhes esto concentrados em uns

poucos coeficientes se a funo suficientemente regular; a segunda razo para evitar

efeitos de bordas, que so puros artefatos devido s computaes nas bordas.

O ltimo dos modelos, MLN (Multi Level Noise), aplicvel em situaes de rudo

no branco, nas quais a estimativa do nvel de rudo feita em cada um dos nveis de

decomposio, independentemente. A estratgia a mesma j descrita no pargrafo anterior,

porm com a diferena da estimao ser refeita nvel a nvel.

Na etapa de pesquisa desse trabalho, muitos testes foram feitos a fim de investigar os

detalhes inerentes a essa tcnica, e como cada escolha (a famlia de wavelets, o tipo de

thresholding, de reescalamento) se reflete na qualidade do sinal processado. Uma vez

escolhida a mtrica de clculo do valor do threshold, o valor automaticamente obtido. No

entanto, visto que em muitos testes auditivos ainda havia uma considervel quantidade de

rudo residual, questionou-se o que aconteceria se o valor do threshold sofresse um ganho que

o forasse a ser maior. J era de conhecimento prvio o fato de que, um valor maior removeria

mais rudo, porm poderia inserir mais distores ao sinal. O que seria mais fcil de ser

tolerado: o rudo residual ou os artefatos inseridos? A resposta veio quando a tcnica foi

modificada a fim de forar um ganho multiplicativo (maior que 1.0) no valor do threshold

antes de sua aplicao aos coeficientes. E o fato que o nvel de distores (artefatos) que o

sinal sofre supera (e muito) a pouca remoo a mais de rudo proporcionada por um threshold

maior. Isso motivou a deciso de manter o valor do threshold aplicado igual ao calculado pela

mtrica usada.

Captulo 4: Testes Experimentais e Resultados

As influncias, positivas ou negativas, de cada tcnica de remoo de rudo sobre

amostras9 de teste so bastante distintas. Qualquer tcnica de remoo de rudo, por mais

avanada que seja, ir naturalmente inserir artefatos que no existiam no udio original. Um

aspecto interessante que as distores inseridas diferem no s pela tcnica, mas algumas

vezes pelo tipo de amostra. Em outras palavras, uma mesma tcnica pode dar melhores

resultados sobre um tipo de sinal que outros.

Neste captulo, antes de proceder s anlises com amostras de udio musical, sinais

sintticos contaminados com rudos da mesma natureza dos que sero usados nas msicas

adiante, sero submetidos s tcnicas de remoo de rudo. O objetivo demonstrar como

sinais reais diferem de sinais sintticos, conforme j afirmado no Captulo 2.

Aps isso, passaremos s amostras extradas de msicas. Inicialmente, ser feita uma

anlise que visa caracterizar cada uma das amostras de udio que foram, ao longo de toda a

pesquisa, selecionadas para avaliar as tcnicas. Tais caracterizaes se daro no apenas no

campo de processamento de sinais, mas envolvero alguns aspectos inerentes ao campo da

msica. Isso permitir uma anlise mais prxima da realidade (da percepo humana subjetiva

da msica).

Diferentemente de muitos textos (artigos, livros, teses, etc.) [7][17][27] envolvendo

pesquisas neste mesmo campo, nesta dissertao optou-se por usar amostras longas (mais de

10 segundos) e de trechos reais de msicas. Dessa forma, espera-se que numa mesma amostra,

cada tcnica mostre-se mais ou menos eficiente em cada trecho.

Pelos motivos j citados em captulos anteriores, nenhuma das amostras envolve sinal

de voz, apenas udio instrumental (porm de vrios estilos musicais). Inicialmente, ao definir

que a pesquisa se focaria em udio instrumental, buscou-se extrair amostras em lbuns de

msica clssico-erudita, por estas serem tipicamente instrumentais10. Contudo, esta escolha

mostrou-se no adequada, pois as estruturas que seriam cruciais na avaliao das tcnicas

(como transientes curtos, amplo espectro de frequncias e distores propositais) seriam

9 Neste trabalho, os termos amostra ou amostra de teste sero frequentemente usados e ambos referem-se atrechos de msicas usados para exemplificar e testar o comportamento/desempenho de cada tcnica. O termodifere, portanto, do usado no contexto de processamento de sinais, na qual usado para denominar um nicovalor numrico tomado em um processo de amostragem. Para este caso, o termo usado ser amostra pontual ousample. Uma amostra ou amostra de teste seria, portanto, um conjunto de valores numricos (amostras pontuais),e no um nico valor.10 Salvo algumas excees, como a conhecida 9 Sinfonia de Beethoven, que possui um coral de vozes em seultimo movimento.

Captulo 4: Testes Experimentais e Resultados 46

difceis de serem encontradas nesse gnero de msica to bem comportado (ou mais

previsvel).

Uma possvel prova que fundamenta essa afirmao pode ser encontrada no campo de

compresso de udio. O conhecido formato MP3, por exemplo, tende a gerar arquivos mais

compactos quando se trata de msicas clssicas, ao contrrio de outros gneros populares

(como pop, rock, eletrnico, etc.), supondo a configurao para o mesmo padro de qualidade.

O teste abaixo (Tabela 4.1) exibe essa diferena de maneira quantitativa [28]. O teste faz uso

do codec LAME que, quando configurado no modo de qualidade, usa uma escala que vai de

V0 (maior qualidade) a V10 (menor qualidade). Na tabela possvel observar que o bitrate

(taxa de bits) mdio de um arquivo de msica clssica comprimido sempre menor que o de

outros gneros. A explicao tcnica bsica e simplificada (uma vez que h diversos outros

fatores mais complexos envolvidos) que, como o princpio da compresso de udio do MP3

a quantizao dos coeficientes resultantes de uma transformao (no caso a MDCT

Modified Discrete Cosine Transform) [1], pode-se afirmar que, quanto mais complexo (mais

rico em componentes espectrais) o sinal, mais coeficientes significativos so gerados, e,

portanto, precisam ser mantidos no processo de quantizao a fim de que a qualidade seja

assegurada. Mais coeficientes diferentes de zero, mais dados para serem armazenados. Assim

sendo, possvel afirmar que, ao menos do ponto de vista de processamento digital de sinais,

udio musical do gnero clssico-erudito tende a ser composto por estruturas menos

complexas (se comparados aos demais gneros populares). Assim sendo, voltou-se para faixas

de bandas de msica popular contemporneas, que se adequariam aos objetivos desejados

(maior complexidade sonora).

Tabela 4.1 Bitrate mdio (25 faixas) para msicas clssicas e outros gneros [28]

Aps comentados os aspectos de cada amostra escolhida, ser feita uma anlise

subjetiva de cada amostra tratada, pontuando as diferenas entre os resultados de cada tcnica.

Isso se faz importante pois no h mtrica ou anlise objetiva que consiga, por exemplo,

dizer que a alguns harmnicos de um acorde se foram, e se o quanto isso influenciou a

apreciao da msica. Em outras palavras, no h mtrica capaz de julgar esses elementos

artsticos/subjetivos.

O prximo passo envolver testes mais estatsticos, tanto subjetivos como objetivos.

Quanto ao primeiro caso, algumas informaes sero extradas atravs da exposio de vrios

Captulo 4: Testes Experimentais e Resultados 47

ouvintes a cada uma das amostras tratadas. J nos objetivos, sero exibidas algumas mtricas

tradicionalmente usadas neste campo, como a relao sinal/rudo.

Para o clculo do SNR ser adotada a seguinte frmula, em conformidade com a

implementao do autor em [7]:

[]

(4.1)

onde tm-se que:

: sinal original (no contaminado por rudo)

: sinal ruidoso.

N: Nmero de amostras pontuais.

Alm disso, caso os somatrios

ou [ ]

resultem em

zero, define-se SNR = 0.

4.1 Denoising de Sinais Sintticos

Em [2], Donoho e Johnstone, propem seis funes de teste que mais tarde foram

inclusive incorporadas ao MATLAB, sendo referncia na gerao de sinais de testes para

algoritmos de remoo de rudo.

A seguir, cada uma da