View
1
Download
0
Category
Preview:
Citation preview
Pós-Graduação em Ciência da Computação
Everton Barbosa Lacerda
Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br
www.cin.ufpe.br/~posgraduacao
Recife
2018
DETECÇÃO DE FREQUÊNCIA FUNDAMENTAL BASEADA EM MECANISMOS LARÍNGEOS
EVERTON BARBOSA LACERDA
DETECÇÃO DE FREQUÊNCIA FUNDAMENTAL BASEADA EM MECANISMOS
LARÍNGEOS
Tese apresentada ao Programa de Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco como requisito parcial para obtenção do grau de Doutor em em Ciência da Computação. Área de concentração: Inteligência Computacional
Orientador: Carlos Alexandre Barros de Mello
Recife
2018
Catalogação na fonte
Bibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217
L131d Lacerda, Everton Barbosa
Detecção de frequência fundamental baseada em mecanismos laríngeos / Everton Barbosa Lacerda. – 2018.
118 f.: il., fig., tab. Orientador: Carlos Alexandre Barros de Mello. Tese (Doutorado) – Universidade Federal de Pernambuco. CIn, Ciência da
Computação, Recife, 2018. Inclui referências, apêndice e anexo.
1. Inteligência computacional. 2. Processamento de voz. I. Mello, Carlos Alexandre Barros de (orientador). II. Título. 006.3 CDD (23. ed.) UFPE- MEI 2019-029
Everton Barbosa Lacerda
“Detecção de frequência fundamental baseada em mecanismos
laríngeos”
Tese de Doutorado apresentada ao Programa
de Pós-Graduação em Ciências da
Computação da Universidade Federal de
Pernambuco, como requisito parcial para a
obtenção do título de Doutor em Ciências da
Computação.
Aprovado em: 13/09/2018.
_________________________________________________
Orientador: Prof. Dr. Carlos Alexandre Barros de Mello
BANCA EXAMINADORA
_________________________________________________
Prof. Dr. Geber Lisboa Ramalho
Centro de Informática/UFPE
_________________________________________________
Prof. Dr. Daniel Carvalho da Cunha
Centro de Informática/UFPE
_________________________________________________
Prof. Dr. Francisco Madeiro Bernardino Júnior
Escola Politécnica de Pernambuco/UPE
_________________________________________________
Profª. Drª. Adriana de Oliveira Camargo Gomes
Depertamento de Fonoaudiologia/UFPE
_________________________________________________
Prof. Dr. Alceu de Souza Britto Junior
Centro de Ciências Exatas e de Tecnologia/PUC-PR
Dedico este trabalho a vovó Iraci (in
memorian), que mesmo sem estudo formal,
sempre foi de uma sabedoria imensa, além de
ser um exemplo de caráter e dignidade.
AGRADECIMENTOS
Primeiramente, agradeço a Deus pela dádiva da vida e por fornecer o necessário para que se
chegasse até esse momento. Sem Ele, nada prosperaria.
Agradeço à minha família, base de tudo que sou e serei, que fiz e farei. Uma menção
especial aos meus pais (Ivaldo e Maria de Fátima) por todos os ensinamentos para a vida;
esses que me ajudaram a perseverar nessa carreira acadêmica; e ainda por sempre ter
incentivado e dado condições, em todos os âmbitos, para que eu pudesse estudar. Um
agradecimento mais que especial à minha mãe pela paciência de sempre, e por ter aguentado
todo o estresse gerado pela dupla jornada de doutourado e trabalho.
Agradeço à minha companheira Jéssica Andrade, que conheci durante o próprio
doutorado, e que certamente é parte deste trabalho: pelo incentivo e fé depositados sobre mim,
além de dividir comigo os momentos alegres e aqueles de dúvida e frustração. Isso, sem
contar o fato de ter tornado a jornada muito mais aprazível e feliz, a contribuição para meu
crescimento como pessoa no geral, e a dose adicional de paciência para suportar o ânimo nem
sempre bom devido à carga de trabalho.
Agradeço imensamente a meu orientador, Carlos Alexandre. Durante todo o tempo
de trabalho juntos (doze anos), foram inúmeros conselhos e ensinamentos (tanto acadêmicos e
técnicos como para a vida em geral), ajuda, e por sempre acreditar em mim e no meu trabalho.
Ademais, pelo modelo de inspiração de professor, pesquisador e pessoa correta que ele é.
Agradeço a todos os meus amigos que estiveram comigo durante esse tempo e
também àqueles que conheci durante o doutorado (na universidade ou nas conferências que
tive a oportunidade de ir). Suas presenças certamente aliviaram o fardo da caminhada. Um
obrigado destacado a Marcello Medeiros e Renato Albuquerque pela ajuda nos experimentos.
Também agradeço ao pessoal da Document Solutions, empresa onde trabalho, tanto
pelo desconto de carga horária para fazer o doutorado, como também pelos amigos que pude
fazer, e ainda pelo auxílio no meu crescimento profissional.
Mais um agradecimento à pesquisadora francesa Nathalie Henrich, por ter nos
fornecido a base de dados utilizada neste trabalho, além de ter respondido pacientemente
todas as minhas dúvidas.
RESUMO
A detecção de frequência fundamental é uma das áreas mais antigas, relatadas e
relevantes em processamento de sinais de voz. Isso ocorre porque ela é importante em várias
aplicações (processamento, síntese ou codificação da voz). Muitos métodos foram propostos,
porém, há possibilidades para melhorias, principalmente, no que diz respeito ao ajuste de seus
parâmetros. Para permitir seu amplo espectro de frequência, a produção vocal é caracterizada
por quatro configurações laríngeas distintas, chamadas de mecanismos laríngeos, sendo seus
rótulos M0, M1, M2 e M3, em ordem crescente de possibilidade de produção de frequências,
ou seja, do mais grave para o mais agudo. É conhecido que certas frequências que podem ser
emitidas em dois mecanismos “vizinhos”, porém, outras, que só se observam em determinado
mecanismo. Também se sabe que um parâmetro que afeta o desempenho dos algoritmos de
detecção de frequência fundamental é o intervalo de busca, que é definido como a menor e
maior frequência esperada para o sinal de entrada. Esses valores podem ser determinados por
conhecimento prévio sobre a voz sob análise ou se usam valores padrão definidos na
literatura. Devido à relação entre os mecanismos laríngeos e as frequências produzidas pela
voz, esta Tese propõe empregar a identificação do mecanismo para otimizar o intervalo de
busca na detecção de frequência. Isso é possível porque cada som é produzido em um
mecanismo específico e, portanto, não se torna necessário usar um intervalo de frequência
adequado para qualquer voz. A abordagem descrita na Tese apresenta a vantagem de utilizar
uma medida intrínseca à produção vocal. Na literatura, a caracterização desses mecanismos é
feita através do sinal eletroglotográfico (EGG) e sua derivada (DEGG), e não se conhece
nenhum método automático para tal. Assim, além de propor otimizar os intervalos de busca
apoiando-se nos mecanismos laríngeos, esta Tese apresenta um método para a classificação
automática de mecanismos laríngeos baseado na análise de uma representação visual do sinal.
Em mais detalhes, obtém-se o espectrograma, calculam-se as suas propriedades de textura, e
essas medidas são usadas como características para a classificação. Os experimentos mostram
que a informação de mecanismo laríngeo reduz os erros na detecção de frequência
fundamental. Além disso, mostra-se que a classificação automática é efetiva, no que tange à
classificação, chegando a uma taxa de 94,87%; e também para a detecção de frequência, pois
apesar dos erros de classificação, a acurácia da detecção aumentou significativamente.
Palavras-chave: Processamento de Voz. Detecção de Frequência Fundamental. Classificação
de Mecanismos Laríngeos. Mecanismos Laríngeos. Canto.
ABSTRACT
Pitch extraction is one of the oldest, most reported and most relevant areas in speech
processing. This assertion relies upon the fact that pitch extraction is a key component in
several voice-related applications (processing, coding or synthesis). Several methods were
proposed; however, there is room for further improvements, specially, when dealing with the
fine-tuning of its parameters. In order to produce its wide frequency range, voice production
is characterized by four distinct laryngeal displacements, called laryngeal mechanisms (their
labels are M0, M1, M2 and M3, in frequency ascending order, i.e., from bass to treble).
Certain frequencies can be emitted using two “neighboring” mechanisms; however, some
frequencies can only be produced in a determinate mechanism. It is known that the frequency
range (a common parameter that describes the minimum and maximum frequency that is
expected for the input signal) affects the performance of pitch extraction methods. Due to the
relation between laryngeal mechanisms and the frequencies produced by the voice, this Thesis
proposes to employ laryngeal mechanisms to optimize the frequency range in pitch extraction.
This is possible because each sound is produced using a specific mechanism and, therefore, it
is not necessary to adopt the frequency range used to be adequate to any voice. The approach
described herein is advantageous in the sense that it uses an intrinsic parameter of vocal
production. At the literature, the characterization of these mechanisms is made by the
electroglottographic signal (EGG) and its derivative (DEGG) and there is no automatic
method to perform their identification. Therefore, besides proposing the optimization of
frequency range based on laryngeal mechanisms, this Thesis also presents a method for the
automatic classification of laryngeal mechanisms based on the analysis of a visual
representation of the signal. Detailing, the spectrogram is obtained from the audio signal, its
textural properties are calculated, and these measures are used as features for classification.
In the experiments, we show that using laryngeal mechanism information decrease the errors
in pitch extraction. Furthermore, we also show that the automatic classification is effective:
when regarding the classification process itself, it reaches a hit rate equals to 94.87%; and
considering its use in pitch extraction, despite of classification errors, we could increase the
accuracy in pitch extraction significantly.
Keywords: Audio Processing. Pitch Extraction. Laryngeal Mechanisms Classification.
Laryngeal Mechanisms. Singing.
LISTA DE FIGURAS
Figura 1 – Representações do sinal de voz (amostra de canto), (a) forma de onda; (b)
espectrograma. ..................................................................................................... 19 Figura 2 – Princípio de funcionamento do eletroglotógrafo. ................................................ 23 Figura 3 – Visualização do fechamento glotal por cinematografia ultrarrápida e
eletroglotografia simultâneas (locutor em fonação normal, F0 = 110 Hz, no
mecanismo 1). ..................................................................................................... 27 Figura 4 – Visualização da abertura glotal por cinematografia ultrarrápida e
eletroglotografia simultâneas (locutor em fonação normal, F0 = 110 Hz, no
mecanismo 1). ..................................................................................................... 28 Figura 5 – Mecanismo de janelamento e estimação da autocorrelação. ............................... 35 Figura 6 – Espectrograma de um glissando ascendente com o uso sucessivo dos quatro
mecanismos laríngeos.......................................................................................... 50 Figura 7 – Correspondência entre o espectrograma, o EGG e o DEGG, (a) Espectrograma,
EGG e DEGG sincronizados com a indicação de cada mecanismo e suas
transições, (b) foco do EGG e DEGG na última transição entre mecanismos (M1
– M0). .................................................................................................................. 51 Figura 8 – Medida do quociente de abertura de uma vogal “a” cantada na mesma altura pelo
mesmo cantor nos mecanismos 1 e 2. ................................................................. 52 Figura 9 – Fluxograma do método de classificação proposto. ............................................. 53
Figura 10 – Exemplos de espectrogramas obtidos no trabalho (a) glissando, (b) mecanismo
1, (c) mecanismo 2. ............................................................................................. 56 Figura 11 – Superfícies de separação corretas, (a) menor margem, (b) margem ótima. ........ 60 Figura 12 – Classificação por meio de vetores de suporte com margens (a) dados linearmente
separáveis e margens rígidas, (b) dados não linearmente separáveis e margens
flexíveis. .............................................................................................................. 61 Figura 13 – Mapeamento para espaço da função núcleo, (a) espaço de entrada, (b) espaço da
função núcleo. ..................................................................................................... 61 Figura 14 – Princípio do k-NN. .............................................................................................. 63
Figura 15 – Perfil da extensão vocal média para vozes masculinas e femininas nos dois
mecanismos (M1 e M2). ...................................................................................... 68
Figura 16 – Representação do pentagrama. .......................................................................... 115 Figura 17 – Claves de sol e de fá. ......................................................................................... 116
Figura 18 – Notação científica de alturas. ............................................................................ 116 Figura 19 – Referência das notas. ......................................................................................... 118
LISTA DE TABELAS
Tabela 1 – Parametrização para geração dos espectrogramas. ............................................. 55 Tabela 2 – Intervalos de busca baseados no mecanismo laríngeo. ....................................... 69 Tabela 3 – Intervalos de busca baseados no mecanismo laríngeo e no gênero. .................... 70 Tabela 4 – Intervalos de busca baseados no mecanismo laríngeo e no gênero com adição de
margem. ............................................................................................................... 70 Tabela 5 – Características vocais dos cantores na base LYRICS. ........................................ 74 Tabela 6 – Distribuição dos exemplos do conjunto de emissões de notas isoladas por
mecanismo laríngeo. ............................................................................................ 75
Tabela 7 – Distribuição dos exemplos do conjunto de emissões com mecanismo único por
mecanismo laríngeo. ............................................................................................ 76 Tabela 8 – Parametrização para o k-NN. .............................................................................. 85 Tabela 9 – Parametrização inicial para a SVM. .................................................................... 85 Tabela 10 – Primeiro nível de exploração para a SVM (1). .................................................... 86 Tabela 11 – Primeiro nível de exploração para a SVM (2). .................................................... 86 Tabela 12 – Taxas da classificação para o melhor classificador dos experimentos. ............... 88 Tabela 13 – Taxas de erro para o RAPT com informação prévia de mecanismos laríngeos. . 89 Tabela 14 – Taxas de erro para a autocorrelação modificada com informação prévia de
mecanismos laríngeos.......................................................................................... 89 Tabela 15 – Taxas de erro para a correlação cruzada normalizada com informação prévia de
mecanismos laríngeos.......................................................................................... 90 Tabela 16 – Taxas de erro para a autocorrelação modificada com a classificação automática
de mecanismos laríngeos. .................................................................................... 92 Tabela 17 – Taxas de erro para a correlação cruzada normalizada com a classificação
automática de mecanismos laríngeos. ................................................................. 92
LISTA DE ABREVIAÇÕES
AM Amplitude Modulation (Modulação em amplitude)
DAT Digital Audio Tape (Fita de áudio digital)
dB Decibel
DEGG Derivada do sinal eletroglotográfico
DFT Discrete Fourier Transform (Transformada Discreta de Fourier)
EGG Eletroglotografia ou eletroglotográfico
ERB Equivalent Rectangular Bandwith (Largura de Banda
Retangular Equivalente)
F0 Frequência fundamental
FFE F0 frame error (erro de F0 por quadro)
FFT Fast Fourier Transform (Transformada Rápida de Fourier)
GPE Gross pitch error (erro de altura “grosseiro”)
HNR Harmonics-to-Noise Ratio (relação harmônicos-ruído)
Hz Hertz
IDE Integrated Development Environment (Ambiente Integrado de
Desenvolvimento)
kHz Quilohertz
k-NN k-Nearest Neighbors (k vizinhos mais próximos)
LPC Linear Predictive Coding (Codificação Preditiva Linear)
MFPE Mean of fine pitch errors (média dos erros relativos de altura)
MIDI Musical Instrument Digital Interface (Interface Digital para
Instrumentos Musicais)
ms Milissegundos
ROC Receiver Operating Characteristic (Característica de Operação
do Receptor)
RAPT Robust Algorithm for Pitch Tracking (Algoritmo Robusto para
Rastreamento de Alturas)
RBF Radial Basis Function (Função de Base Radial)
SFPE Standard deviation of fine pitch erros (desvio padrão dos erros
relativos de altura)
SPL Sound Pressure Level (Nível de Pressão Sonora)
STFT Short-Time Fourier Transform (Transformada de Fourier de
Tempo Curto)
SVM Support Vector Machine (Máquina de Vetor de Suporte)
VDE Voice decision error (erro na decisão de voz)
WAV Waveform Audio File Format
SUMÁRIO
1 INTRODUÇÃO .......................................................................15
1.1 MOTIVAÇÃO ............................................................................................. 17 1.2 OBJETIVOS ............................................................................................... 20
1.3 ESTRUTURA DA TESE ............................................................................... 21
2 MECANISMOS LARÍNGEOS ..............................................22
3 DETECÇÃO DE FREQUÊNCIA FUNDAMENTAL .........30
3.1 AUTOCORRELAÇÃO MODIFICADA ............................................................. 32
3.1.1 Algoritmo .................................................................................................................. 36
3.2 CORRELAÇÃO CRUZADA NORMALIZADA .................................................. 39
3.3 ROBUST ALGORITHM FOR PITCH TRACKING (RAPT) ............................... 40
3.3.1 Pré-processamento ................................................................................................... 41 3.3.2 Computação da correlação cruzada normalizada ................................................. 42 3.3.3 Pós-processamento ................................................................................................... 45
3.4 CONSIDERAÇÕES ...................................................................................... 47
4 CLASSIFICAÇÃO AUTOMÁTICA DE MECANISMOS
LARÍNGEOS ...........................................................................49
4.1 HIPÓTESE ................................................................................................. 50
4.2 MÉTODO PROPOSTO .................................................................................. 53
4.2.1 Representação visual do sinal de áudio .................................................................. 53 4.2.2 Caracterização da imagem por textura .................................................................. 57 4.2.3 Classificação .............................................................................................................. 59 4.2.3.1 Máquina de Vetores de Suporte ................................................................................. 59 4.2.3.2 k Vizinhos mais Próximos........................................................................................... 62
4.3 CONSIDERAÇÕES ...................................................................................... 64
5 DETECÇÃO DE FREQUÊNCIA FUNDAMENTAL
UTILIZANDO O CONHECIMENTO DOS
MECANISMOS LARÍNGEOS ..............................................66
5.1 DETERMINAÇÃO DOS INTERVALOS DE BUSCA OTIMIZADOS ...................... 69
5.2 UTILIZAÇÃO DA INFORMAÇÃO DE MECANISMOS LARÍNGEOS .................... 70
5.3 CONSIDERAÇÕES ...................................................................................... 72
6 EXPERIMENTOS ..................................................................73
6.1 BASE LYRICS ......................................................................................... 73
6.1.1 Conjunto de notas isoladas ...................................................................................... 75 6.1.2 Conjunto de mecanismo único ................................................................................ 75
6.2 METODOLOGIA ......................................................................................... 76
6.2.1 Classificação de mecanismos laríngeos................................................................... 77 6.2.1.1 Características ........................................................................................................... 77
6.2.1.2 Classificação .............................................................................................................. 77 6.2.1.3 Plano experimental..................................................................................................... 78 6.2.1.4 Critérios de avaliação ................................................................................................ 79
6.2.2 Detecção de frequência fundamental ...................................................................... 79 6.2.2.1 Plano experimental..................................................................................................... 79 6.2.2.2 Critérios de avaliação ................................................................................................ 80
6.3 IMPLEMENTAÇÕES .................................................................................... 81
6.4 CONSIDERAÇÕES ...................................................................................... 82
7 RESULTADOS E ANÁLISE .................................................83
7.1 CLASSIFICAÇÃO DE MECANISMOS LARÍNGEOS .......................................... 83
7.1.1 Imagens baseadas na magnitude da STFT ............................................................ 83 7.1.1.1 Viabilidade da proposta ............................................................................................. 83 7.1.1.2 Exploração dos parâmetros do classificador ............................................................. 84
7.1.2 Imagens baseadas na densidade espectral ............................................................. 87
7.2 DETECÇÃO DE FREQUÊNCIA FUNDAMENTAL ............................................. 88
7.2.1 Detecção com conhecimento de mecanismos laríngeos a priori ........................... 89 7.2.2 Detecção baseada na classificação automática de mecanismos laríngeos ........... 91
8 CONCLUSÕES .......................................................................95
8.1 CONTRIBUIÇÕES ....................................................................................... 96
8.2 TRABALHOS FUTUROS .............................................................................. 98
REFERÊNCIAS ................................................................... 101
APÊNDICE A – ELEMENTOS DE TEORIA MUSICAL115
ANEXO A – NOTAS MUSICAIS E SUAS
REPRESENTAÇÕES .......................................................... 118
15
1 INTRODUÇÃO
Um grande fluxo de dados está presente no cotidiano das pessoas diariamente. Esses dados
provêm de diversas fontes e formatos, sendo um deles muito importante na sociedade, que é o
áudio. Isso acontece seja através de noticiários, programas de televisão, programas de rádio,
podcasts, streaming de vídeo ou de música, sem contar a principal forma de comunicação
humana no dia-a-dia, que é a voz.
Nesse contexto, a comunicação falada é um elemento essencial. O fundamento
principal da fala é a comunicação, i.e., a transmissão de mensagens entre um emissor (locutor)
e um receptor (ouvinte) [2]. Há bastante tempo – desde a década de 1950 [3][4], junto com a
evolução dos dispositivos de computação e da pesquisa em processamento de sinais – o
domínio do processamento da voz possui posição de destaque [5]. Seu principal objetivo é
construir sistemas capazes de simular ou potencialmente ultrapassar as habilidades humanas
no entendimento, geração e codificação da voz em um conjunto de interações entre humanos
ou entre humanos e máquinas [5].
O processamento de voz é uma área em constante expansão: consegue-se transmitir
sinais de voz remotamente por diversos meios como telefone e através da Internet. Existem
sistemas que sintetizam a voz humana com alto grau de naturalidade (similaridade com a fala
humana) e inteligibilidade (facilidade com que a fala consegue ser entendida) [5], em
contraste com as vozes robotizadas que caracterizavam esse tipo de aplicação no passado. O
entendimento da nossa voz pela máquina se torna cada vez mais próximo com o avanço da
tecnologia do reconhecimento de voz.
De forma simples, a voz humana consiste dos sons produzidos por uma pessoa
utilizando o trato vocal, seja para falar, cantar, gritar, etc. O som da voz é uma onda de ar que
se origina de ações complexas do corpo humano, apoiadas por três unidades funcionais:
geração de pressão do ar, regulação da vibração e controle dos ressonadores [6]. O aparato
vocal é dividido em: órgãos da fonação (produção da voz) e da articulação (configurações dos
órgãos da fala). Os órgãos fonatórios (pulmões e laringe) criam fontes de som vocal pela
configuração de pressão de ar dos pulmões e parâmetros para a vibração das pregas vocais na
laringe. Esses dois órgãos juntos ajustam a altura, intensidade e qualidade da voz, e ainda
geram os padrões prosódicos da fala. Os órgãos articulatórios dão ressonâncias ou modulação
à fonte da voz e geram sons adicionais para algumas consoantes. Eles consistem da
mandíbula, língua, lábios, véu palatino e paredes da faringe. Os sistemas fonatório e
articulatório influenciam um ao outro mutuamente, enquanto mudam a forma do trato vocal
16
para produzir vogais e consoantes. Para maiores detalhes sobre todo o funcionamento do
aparato vocal por completo, detalhes da fisiologia, e até sobre o próprio processo de fonação,
sugere-se consultar [6].
O fato é que todo esse sistema é capaz de gerar sequências complexas de sons. O tom
da voz pode inclusive, sugerir emoções, como raiva, surpresa ou felicidade. Ainda mais, os
cantores fazem da voz um instrumento musical (sendo um dos mais versáteis), seja para criar
ou para reproduzir música. Inclusive, a análise de sons produzidos pela voz humana mostrou
que a distribuição de probabilidades de amplitude e frequência de emissões vocais faladas
pode predizer tanto a estrutura da escala cromática1 como a ordem de consonância entre os
diferentes intervalos musicais [7]. Em outras palavras, ao medirem quantitativamente as
amplitudes e frequências sobre uma grande quantidade de exemplos de sentenças faladas, os
autores encontraram que as concentrações máximas ou picos dessa distribuição correspondem
aos intervalos musicais (razões entre as frequências) considerados mais consonantes. Isso
pode implicar que o desenvolvimento da estrutura melódica musical tem como base as
relações entre os sons da voz, devido a esta ser a principal fonte de estímulos sonoros quase
periódicos2 no ambiente humano.
Além disso, a voz é um dos principais meios para a linguagem, que pode ser definida
como a capacidade de aquisição e utilização de sistemas complexos de comunicação ou como
uma instância específica de tal sistema [8]. Fundamentalmente, a linguagem é a principal
forma de comunicação e compartilhamento de informações entre os indivíduos. A linguagem
verbal acompanha o homem desde os seus primórdios, embora tenha se desenvolvido bastante
até chegar às formas atuais, representadas pelos diversos idiomas e dialetos usados pela
humanidade. Tudo isso, reforça a importância da voz na vida das pessoas.
Um aspecto dos sons, inclusive vocais, de grande relevância é a altura. Esse atributo
fornece informações importantes sobre a fonte do som. Na fala, por exemplo, a altura ajuda a
identificar o gênero da pessoa (mulheres tendem a ter vozes mais agudas que os homens), e dá
significados adicionais ao que é dito (uma sentença pode ser interpretada como afirmação ou
interrogação dependendo da entonação). Na música, a altura determina as notas musicais. A
altura pode ser definida como o atributo da sensação auditiva em termos dos quais os sons
podem ser ordenados em uma escala se estendendo do grave para o agudo, como uma escala
musical [9]. A altura é primariamente dependente da frequência da fonte sonora.
1 A escala cromática é uma sequência de doze semitons consecutivos (oitava dividida em doze semitons) [12]. 2 A onda vocal é uma onda quase periódica formada por várias sinusóides de diferentes frequências [13]. Ela é
considerada quase periódica porque seus ciclos vibratórios são semelhantes, porém não idênticos. Isso significa
que pequenas variações e aperiodicidades sempre estarão presentes em sujeitos com laringe e voz normais.
17
A capacidade vocal humana, no que se refere às frequências produzidas, relaciona-se
diretamente com as configurações do sistema fonatório, mais especificamente, da laringe.
Assim, dependendo da frequência emitida, a laringe pode estar disposta de forma distinta,
para permitir essa emissão sonora. Essas configurações laríngeas são denominadas
mecanismos laríngeos [10]. Os mecanismos laríngeos são um conceito mais formal e preciso
do que os registros (normalmente empregados na área do canto), podendo ser definidos como
regiões perceptualmente distintas de qualidade vocal, cada um com intervalos de frequência,
padrões de vibração das pregas vocais e timbre ou tons particulares [11]. Isso porque, ao
contrário dos registros, os quais podem depender de diversos parâmetros da fonação, os
mecanismos se relacionam apenas às condições fisiológicas da laringe. De certa forma, os
mecanismos laríngeos podem ser vistos, inclusive, como um componente do que se chama
registro vocal.
A identificação desses mecanismos é feita a partir da análise de um procedimento
clínico, a eletroglotografia (EGG) e da análise dos sons produzidos. Na eletroglotografia,
basicamente, mede-se a área de contato das pregas vocais através de um aparelho, o
eletroglotógrafo. Daí, um especialista analisa os valores obtidos no exame conjuntamente com
a percepção auditiva e, assim, pode determinar qual(is) mecanismo(s) foram empregados
naquela emissão sonora. Entre aplicações práticas do sinal EGG e de sua derivada (DEGG),
além do trabalho sobre mecanismos laríngeos, estão: a análise do funcionamento da dinâmica
da emissão vocal [14], o auxílio ao diagnóstico de patologias do trato vocal [15][16][17][18],
a modelagem e avaliação da voz por meio de parâmetros extraídos do EGG [19][20].
1.1 MOTIVAÇÃO
Devido à relação entre mecanismos laríngeos e as frequências emitidas pela voz humana, ao
passo que certas alturas só podem ser emitidas em determinados mecanismos, a identificação
do mecanismo laríngeo pode ser de grande valia para a detecção de frequência fundamental.
Pois, existe a chance de que informações adicionais sobre a entrada3 possam diminuir as
chances de errar do algoritmo na saída. No caso dessa aplicação, a entrada é exatamente o
sinal a ser processado, enquanto que a saída corresponde à frequência calculada.
3 Essa afirmação se aplica no contexto de informações que ajudem a discriminar entre os diferentes exemplos em
determinado problema. Por exemplo, ao se diferenciar um urso pardo de um urso polar, a cor da pele é uma
informação relevante; contudo, ao diferenciar entre diferentes tipos de cadeira, essa informação não ajuda e pode
até atrapalhar no processo.
18
Um parâmetro comum a vários algoritmos de detecção de altura é o intervalo de busca,
ou seja, a frequência mais baixa e a mais alta que se espera detectar. A fim de serem
genéricos, os métodos normalmente adotam um intervalo bem largo, que cobre as frequências
utilizadas usualmente na fala humana (com algumas variações a depender do estudo em
questão), embora isso tenda a diminuir sua precisão.
O conhecimento do mecanismo laríngeo pode diminuir esse problema, ao permitir que
o intervalo de busca seja reduzido, em função de se conhecer que há alturas que não podem
ser emitidas em certos mecanismos. Essa hipótese pode ser levantada apesar de se saber que
há uma variação nos valores de frequências para cada mecanismo em função anatomia
laríngea dos sujeitos. Pois, a literatura indica que mesmo com essas diferenças individuais,
existe uma faixa em que as transições entre mecanismos acontecem [21] e, logo, tem-se uma
relação entre os mecanismos que pode ser generalizada, independente do indivíduo. Posto
isso, não valeria a pena empregar esse intervalo genérico que considera todas as vozes, dado
que determinado som foi produzido em um mecanismo específico.
Atualmente, embora exista um método válido e bem sucedido para a estimação do
mecanismo laríngeo, ele é totalmente “manual”. Ainda mais, o processo atual sofre de duas
grandes deficiências: (i) a necessidade do eletroglotógrafo para a realização do procedimento
clínico e (ii) a presença de um especialista para interpretar os dados gerados pelo
procedimento.
O primeiro ponto limita bastante a aplicação ou utilização do conceito em um contexto
mais amplo. Em uma cotação de 20174, um eletroglotógrafo custava US$ 4.716, chegando a
US$ 5.036 com os custos de envio (cerca de R$ 20.000,00 no câmbio atual), fator que
certamente compromete sua utilização em diversos casos. Outra razão relacionada a esse
ponto, é que na maior parte do tempo, o aparelho não está disponível no momento da emissão
vocal, além do fato de não ser possível fazer uma avaliação em sons gravados previamente. É
preciso lembrar que parte das aplicações de processamento de voz (por processamento nesse
cenário, deixando de fora aqui as áreas de transmissão e codificação de voz) é executada
sobre sons gravados anteriormente, a exemplo da transcrição automática de música, perícias
sobre gravações telefônicas, a própria detecção de frequência fundamental, entre outras.
A segunda questão também se torna um empecilho visto que para uma utilização em
larga escala, tal como a avaliação de frequência fundamental ou o reconhecimento de locutor,
4 Cotação realizada para o aparelho EG2-PCX, da empresa Glottal Enterprises, localizada em Syracuse, Nova
Iorque, EUA.
19
não se espera, para qualquer área do conhecimento, ter um especialista sempre à disposição
para executar a tarefa em questão.
Logo, para permitir a utilização do mecanismo laríngeo como base para a detecção de
frequência fundamental (e possivelmente para outras aplicações que envolvam o sinal de voz),
torna-se necessário um método automatizado para saber o mecanismo laríngeo que foi usado
naquela emissão vocal. Com tal metodologia, passa a ser possível aplicar o conhecimento do
mecanismo laríngeo da forma conveniente para a aplicação em questão.
Dessa maneira, é possível sumarizar que existem dois grandes desafios a serem
enfrentados no trabalho: a estimação do mecanismo laríngeo e da frequência fundamental. A
Figura 1 ilustra as duas principais representações de um sinal de voz para um exemplo da base
de dados empregada no trabalho: a forma de onda, no item (a) e o espectrograma, no item (b).
Figura 1 – Representações do sinal de voz (amostra de canto), (a) forma de onda; (b) espectrograma.
(a)
(b)
Fonte: Autoria própria.
20
A forma de onda é uma representação digital, que é uma sequência de impulsos
amostrados no tempo. A partir da observação dessa imagem (item (a)) percebe-se que logo de
início, que as informações que se deseja extrair não parecem estar contidas ali de forma direta.
A outra forma de representação é o espectrograma (mais detalhes na Subseção 4.2.1), que
busca mostrar a distribuição dos componentes de frequência durante o tempo. Embora seja
possível visualizar essa variação do espectro de frequência (item (b)), devido às variações
existentes na geração da voz, também não se torna direta a extração correta de parâmetros do
sinal de voz a partir dessa representação.
1.2 OBJETIVOS
A partir do exposto, o principal objetivo desta pesquisa é o desenvolvimento de uma
metodologia para a detecção de frequência fundamental, baseada na classificação automática
de mecanismos laríngeos. A melhora na detecção de frequência fundamental, no âmbito de
diminuir o erro entre a frequência calculada e os valores de referência, dá-se em função da
restrição sobre os limites de frequência a serem estimados, a partir do mecanismo laríngeo
empregado na emissão sonora. Como exposto no Capítulo 2, não existe na literatura nenhuma
proposta que realize a identificação de mecanismos laríngeos automaticamente. Assim, o
desenvolvimento do método para a classificação automática de mecanismos laríngeos é o
outro grande objetivo deste trabalho.
Como objetivos específicos, é possível citar:
Criar um algoritmo automático para classificação de mecanismos laríngeos
independente de equipamentos como o EGG;
Melhorar o resultado de métodos de detecção de frequência fundamental, no sentido
de torna-los mais precisos e acurados, a partir da aplicação de limites de frequência
mais restritos nas suas entradas.
Corroborar a sensibilidade dos algoritmos de detecção de frequência fundamental em
relação ao intervalo de frequência, especialmente sobre o canto, dado que a literatura
se concentrou sobre sinais de fala.
Mostrar que é possível utilizar o aspecto visual do espectrograma para fazer a
discriminação entre os mecanismos laríngeos.
21
1.3 ESTRUTURA DA TESE
Este trabalho está estruturado em oito capítulos. Neste capítulo, mostra-se uma visão geral
sobre o processamento de voz, a utilização da voz na comunicação e na música, além dos
objetivos da pesquisa. No Capítulo 2, abordam-se os conceitos e metodologias atuais em
relação aos mecanismos laríngeos. O Capítulo 3 apresenta a área de detecção de frequência
fundamental, e ainda, os métodos da literatura que foram utilizados no estudo. O Capítulo 4
define a proposta para a classificação de mecanismos laríngeos, apresentando seu
embasamento, suas etapas e os métodos empregados em cada uma delas. No Capítulo 5,
mostra-se como o conhecimento de mecanismo laríngeo é usado na detecção de frequência
fundamental, no intuito de melhorar o desempenho nessa detecção. O Capítulo 6 relata todo o
plano experimental, tanto para a classificação de mecanismos laríngeos como para a detecção
de frequência fundamental. No Capítulo 7, apresentam-se os resultados obtidos e análises
sobre os mesmos e, por fim, o Capítulo 8 conclui o trabalho.
22
2 MECANISMOS LARÍNGEOS
A produção da voz humana sobre toda extensão de frequência possível envolve diferentes
ajustes do aparato vocal, englobando zonas chamadas de registros [22] (apud [21]). É possível
encontrar várias descrições ou caracterizações desses registros em diversas áreas do
conhecimento, tais como fisiologia, física, fonética e voz em geral, e ensino do canto,
conforme pode ser visto nas referências [23][24][25][26][27]. Devido a isso, várias
abordagens surgiram a depender dos interesses dos pesquisadores em questão. Em suma,
pode-se verificar que certas observações se relacionam mais diretamente com a forma que a
laringe funciona, enquanto certos trabalhos incluem a ação de cavidades ressonantes do trato
vocal ou das sensações características devido a estímulos proprioceptivos por causa de
contrações musculares ou vibrações laríngeas. Apesar dessa diversidade, os termos utilizados
são semelhantes, o que causa confusão nesse domínio, inclusive, sendo relatado pelos
próprios pesquisadores.
A noção de mecanismo laríngeo veio para formalizar, e de outra forma também,
padronizar ou balizar a noção de registro vocal. O conceito foi apresentado dessa maneira em
[10] e consiste na noção da existência de configurações distintas da laringe, as quais
proporcionam a capacidade da voz humana de produzir seu amplo espectro de frequência, em
consonância com os registros vocais, no sentido de que os registros são produzidos em
determinados mecanismos. O ponto é que no caso dos mecanismos, as diferenças na voz se
dão exclusivamente em função das configurações laríngeas, o que nem sempre é o caso nas
mudanças de registro, as quais podem se verificar em virtude de outros aspectos do trato
vocal. De outra forma, os registros podem ser definidos pela relação entre as ressonâncias do
trato vocal e dos mecanismos laríngeos. Para uma visão histórica dessa noção de registro, a
qual remonta a fins do século XIX, e ainda a ligação com o conceito de mecanismo laríngeo
de forma mais detalhada, sugere-se a leitura de [28].
A caracterização desses mecanismos, suas relações e transições, foram feitas
baseando-se no sinal EGG (eletroglotografia) e na DEGG (derivada do sinal
eletroglotográfico). A eletroglotografia é um procedimento não invasivo para a observação da
atividade da laringe, concebido em [29]. Mais especificamente, esse exame estima a variação
da área de contato entre as pregas vocais durante a fonação por meio da variação da
impedância elétrica devido ao espaço intraglótico durante a vibração da mucosa das pregas
vocais.
23
Resumidamente, o princípio de funcionamento do eletroglotógrafo é baseado na
medição da impedância entre dois eletrodos colocados no pescoço do locutor, através da
aplicação de uma pequena corrente elétrica (limitada a alguns miliampères para ser
imperceptível, evitando desconforto [30]). Quando as pregas vocais estão fechadas, a corrente
elétrica passa entre elas, ou seja, há baixa impedância. Já quando as pregas estão abertas
(separadas), a impedância da laringe é alta devido ao fluxo de ar que as atravessa. Logo,
existe uma correlação entre a variação da impedância da laringe e a da área de contato das
pregas vocais [31][10].
A Figura 2 ilustra o esquema de funcionamento do eletroglotógrafo. Ele se constitui de
um gerador de corrente alternada (na ordem de 1 MHz), de dois eletrodos que são colocados
sobre a pele, no nível da cartilagem tireoide, e de um circuito elétrico que age principalmente
como um demodulador de frequência. Um filtro passa-alta5, de banda de corte entre 5 e 40
Hz, permite a eliminação de componentes de ruído de baixa frequência devidos ao movimento
da laringe durante a fonação, ao fluxo sanguíneo das artérias e veias da garganta, bem como a
contração dos músculos extrínsecos da laringe [32]. O eletroglotógrafo mede a diferença de
potencial entre os dois eletrodos (cada um em um lado do pescoço). Esta se liga à impedância
elétrica da garganta, que é a resistência à passagem da corrente através da pele, cartilagem
tireoide, tecidos, músculos e glote.
Figura 2 – Princípio de funcionamento do eletroglotógrafo.
Fonte: Adaptada de [10].
5 Um filtro passa-alta é um seletor de frequências que tem como objetivo deixar passar as altas frequências
(aquelas com valor acima da banda de corte) e por atenuar as baixas frequências (aquelas que tem valor abaixo
da banda de corte) [33][34].
24
A relação entre a diferença de potencial e a impedância é dada pela lei de Ohm6, e a
proporcionalidade é garantida quando a corrente é mantida constante. Quando a glote está
fechada, a resistência é menor, enquanto que essa resistência aumenta com a abertura da glote,
pois o ar é pior condutor do que os tecidos humanos. O sinal elétrico entregue, portanto, é
modulado em frequência pelo movimento vibratório das pregas vocais. Consequentemente, o
período deste sinal corresponde à frequência fundamental do som emitido [10].
Dessa forma, o sinal eletroglotográfico descreve o grau de contato entre as pregas
vocais. De grande importância é o fato de a primeira derivada do sinal (DEGG) detectar o
instante de fechamento e de abertura da glote, além de prover uma estimação precisa da
frequência fundamental do sinal [10]. Além disso, de outra forma, a DEGG permite estudar as
mudanças de forma do sinal EGG. Inclusive, ao se analisar ambos os sinais, é possível
observar ou perceber o comportamento glotal a cada ciclo. Por meio de comparações entre
imagens de alta velocidade e o sinal EGG, percebeu-se que o fechamento glotal ocorre no
instante em que a DEGG possui seu pico de máximo.
As Figuras 3 e 4 ilustram essa relação entre os sinais mencionados e o comportamento
da glote, sendo a primeira em relação ao fechamento e a segunda, à abertura. Em cada quadro
das figuras, apresentam-se uma imagem da glote, o sinal EGG (em verde) e a DEGG (em
azul). A frequência fundamental que está sendo emitida nessa fonação é denotada por F0 nas
referidas figuras. A evolução no tempo é da esquerda para a direita, de cima para baixo. A
observação do sexto quadro da Figura 3 permite visualizar a relação entre o pico da DEGG e
o fechamento da glote. Contudo, há casos em que em vez de um pico pronunciado, como no
exemplo mostrado, pode haver picos duplos, imprecisos, ou até a ausência de picos. Essas
situações ocorrem devido às irregularidades da mucosa as quais perturbam o movimento da
onda.
Com todo esse aparato, os pesquisadores conseguiram descrever os mecanismos
laríngeos, que em uma definição, correspondem a diferentes configurações fisiológicas,
mecânicas e comportamentos vibratórios glotais [36]. Reporta-se ainda que essas
configurações particulares caracterizam-se pela anatomia das pregas vocais (comprimento e
espessura), assim como pela fisiologia presente [10]. Os sinais EGG e DEGG desempenham
papel fundamental para essa caracterização. Ainda mais, porque esses sinais permitem o
cálculo também do quociente de abertura, que é um descritor bastante importante que tem
6 A lei de Ohm afirma que a corrente entre dois pontos através de um condutor é diretamente proporcional à
diferença de potencial entre dois pontos (voltagem), introduzindo a constante de proporcionalidade, a resistência
[35]. No caso, a impedância é a extensão da lei de Ohm para circuitos de corrente alternada.
25
relação com os mecanismos laríngeos (definido como a razão entre o tempo de abertura da
glote e o período fundamental).
Assim, definem-se quatro mecanismos laríngeos, nomeados: mecanismo 0 (M0),
mecanismo 1 (M1), mecanismo 2 (M2) e mecanismo 3 (M3), sendo os números em ordem
ascendente de frequências, ou seja, do mais grave para o mais agudo [10][36]. É importante
lembrar que não se deve confundir o mecanismo com a noção de registro, embora
frequentemente se use a terminologia de registro para ter referência em relação à terminologia
empregada no canto. O entendimento ou caracterização dos mecanismos laríngeos pode ser
feito com uma analogia ao que se tem em uma orquestra: instrumentos com cordas mais
grossas ou cavidades maiores produzem frequências mais baixas, tais como um violoncelo ou
um fagote; enquanto que instrumentos com cordas mais finas ou menores produzem
frequências mais altas, tais como um violino ou uma flauta pícolo. Em outras palavras, para
os mecanismos, existe uma variação que se dá em função da estrutura (anatomia, que se
relaciona com o tamanho).
Assim, o mecanismo 0 (M0) é a forma de se produzir os tons mais graves. É bem
usado na voz masculina durante a fala, embora raramente seja empregado no canto. Também
costuma aparecer na voz falada de jovens e adolescentes norte-americanos (sejam homens ou
mulheres). Nesse mecanismo, as pregas vocais estão curtas e muito grossas [26]. O músculo
vocal se encontra bastante contraído e, portanto, tenso. Nesse cenário, a “cobertura” do
músculo vocal (mucosa) fica “frouxa”. O processo vibratório é caracterizado por uma fase
fechada muito longa em relação ao período fundamental.
Os mecanismos 1 e 2 são largamente utilizados tanto na fala quanto no canto. Para os
homens, o registro “normal” é o mecanismo 1, sendo o 2, correspondente ao falsete ou
falsetto7, enquanto que para as mulheres, o “comum” é o mecanismo 2. No M1, as pregas
estão grossas e vibram sobre todo seu comprimento com uma diferença de fase vertical. Já no
M2, a massa e o comprimento vibratório são reduzidos [37] (apud [36]), além de não haver
diferença de fase vertical. Outra distinção se mostra na forma do EGG que é mais assimétrica
no M1 do que no M2. Ainda mais, a DEGG apresenta um pico de fechamento glotal forte e
um pico de abertura glotal fraco no M1, enquanto que ambos os picos podem ter amplitudes
similares no M2.
O mecanismo 3 (M3) é usado para produzir as frequências mais altas e é dificilmente
usado tanto na fala quanto no canto. Nesse mecanismo, as pregas vocais estão finas, bastante
7 Tipo de fonação vocal que permite o indivíduo cantar notas além do alcance vocal normal da sua voz, sendo
normalmente mais utilizada essa nomenclatura para o registro mais agudo das vozes masculinas.
26
tensionadas e a amplitude vibratória é muito reduzida quando comparada ao mecanismo 2. A
abertura entre as pregas vocais é muito pequena, e pode não haver contato entre elas. Nesse
caso, não há sinal EGG, ou o EGG tem forma muito simétrica. É importante relatar que os
mecanismos 1 e 2 correspondem a 90% das produções vocais [10].
Os mecanismos laríngeos interferem na qualidade da voz, dado que são ajustes
fisiológicos do trato vocal. Portanto, o entendimento de tais ajustes torna-se importante tanto
para a reabilitação vocal quanto para o aprimoramento da voz. Na questão clínica, o
funcionamento neuromuscular em diferentes mecanismos pode auxiliar a indicar a presença
de patologias da voz, inclusive diferenciando entre paresia, paralisia ou falta de
condicionamento. Além disso, permite a avaliação da gravidade de um processo inflamatório
nos tecidos que cobrem as pregas vocais e outros distúrbios patológicos orgânicos das pregas
vocais [38]. Em laringes saudáveis de cantores treinados, uma disfunção na coordenação entre
as mudanças de registro ou mecanismo pode indicar precocemente uma doença neurológica
[38].
27
Figura 3 – Visualização do fechamento glotal por cinematografia ultrarrápida e eletroglotografia simultâneas
(locutor em fonação normal, F0 = 110 Hz, no mecanismo 1).
Fonte: Adaptada de [10].
28
Figura 4 – Visualização da abertura glotal por cinematografia ultrarrápida e eletroglotografia simultâneas
(locutor em fonação normal, F0 = 110 Hz, no mecanismo 1).
Fonte: Adaptada de [10].
29
Os mecanismos laríngeos interferem na qualidade da voz, dado que são ajustes
fisiológicos do trato vocal. Portanto, o entendimento de tais ajustes torna-se importante tanto
para a reabilitação vocal quanto para o aprimoramento da voz. Na questão clínica, o
funcionamento neuromuscular em diferentes mecanismos pode auxiliar a indicar a presença
de patologias da voz, inclusive diferenciando entre paresia, paralisia ou falta de
condicionamento. Além disso, permite a avaliação da gravidade de um processo inflamatório
nos tecidos que cobrem as pregas vocais e outros distúrbios patológicos orgânicos das pregas
vocais [38]. Em laringes saudáveis de cantores treinados, uma disfunção na coordenação entre
as mudanças de registro ou mecanismo pode indicar precocemente uma doença neurológica
[38].
De especial interesse para este trabalho é a relação existente entre mecanismos
laríngeos e as frequências emitidas pela voz humana, dado que certas alturas só podem ser
emitidas em determinados mecanismos, embora se saiba que há sobreposição entre as
frequências produzidas entre mecanismos “vizinhos” (considerando a numeração de seus
nomes). Por exemplo, não é possível produzir uma frequência conseguida com os
mecanismos 0 ou 1 (abaixo de 440 Hz), com a configuração laríngea do mecanismo 3. Esse
conhecimento pode ser explorado em aplicações que se relacionem com as frequências
emitidas pela voz humana, dado que a cada instante, realiza-se uma fonação em determinado
mecanismo e, portanto, nem todo o espectro de frequência da voz humana é possível nesse
momento (são possíveis apenas as frequências restritas pelo mecanismo em uso).
30
3 DETECÇÃO DE FREQUÊNCIA FUNDAMENTAL
A detecção de frequência fundamental (F0), muitas vezes também denominada de detecção de
altura na literatura, é uma parte muito importante dos sistemas de processamento de áudio no
geral. Isso porque tanto na fala quanto na música, a altura representa um fator de grande
interesse na percepção dos sons. Ademais, a detecção de F0 se apresenta como uma das
aplicações de processamento de sinais mais antigas e reportadas na literatura [39][40][41].
No processamento de voz, a sequência das alturas ou contorno das alturas, isto é, o
conjunto de frequências extraídas do sinal em ordem no tempo [42], é usada para o
reconhecimento do locutor, tarefas de identificação de atividade vocal, reconhecimento de
estado emotivo e treinamento de fala para pessoas com deficiências ou dificuldades auditivas,
e ainda é necessária para os sistemas de síntese de voz [40][43]. Além disso, a altura pode ser
usada no entendimento das mensagens transmitidas, como por exemplo, no caso da distinção
entre entonações prosódicas como uma interrogação e uma exclamação [44].
Na música, a altura é apontada por muitos como o atributo mais importante, ou no ao
menos, um dos mais relevantes em conjunto com a duração, intensidade e timbre [45]. Nesse
ponto, a detecção de altura é uma das bases para a transcrição musical, podendo ter nesse
contexto vários desafios adicionais, como: sons simultâneos (outras vozes ou instrumentos
musicais [46]) e ainda o caso de extração múltipla, necessária para a transcrição de polifonia,
podendo ser de vários instrumentos [47], vozes [48], ou ainda de um mesmo instrumento [49],
como um piano, por exemplo. Ainda mais, existem aplicações como query by humming [50],
que consiste em consultar uma base de dados tendo como entrada, o canto de um trecho
musical realizado pelo usuário. Nessa aplicação, a altura representa papel tão relevante que
motivou estudo considerando o desempenho da detecção de altura em especial, isto é,
avaliando diferentes métodos de detecção e sua influência sobre a acurácia das respostas às
consultas [51]. Outra aplicação é a identificação de diferentes versões da mesma música [52],
baseada na obtenção de “digitais” da música, que podem ser entendidas como representações
que objetivam descrevê-la de forma significativa.
Reporta-se que embora os termos altura e frequência fundamental sejam utilizados
muitas vezes como sinônimos, a relação entre esses conceitos não se dá dessa forma [53]. O
fenômeno psicoacústico da altura pode ser definido como a propriedade dos sons, ou de outra
forma, um atributo perceptual, que permite ordená-los em uma escala que vai do grave para o
agudo [9][54]. Outra forma comum de se entender a altura é como uma “qualidade” dos sons
que permitem julgá-los como agudos ou graves, tendo relação com uma ideia de melodia [55].
31
A altura também pode ser definida como a frequência de uma onda senoidal que corresponde
ao som alvo por ouvintes humanos [56]. Apesar de se definir a altura considerando uma
melodia, isso não significa que o conceito está restrito a sons musicais. A altura consegue ser
percebida quando o som tem uma frequência que é clara e estável o bastante para que seja
diferenciado de um ruído [57].
Logo, a altura deve se referir a um atributo perceptual de um tom (som) e, além disso,
normalmente a altura não é diretamente mensurável a partir do sinal de áudio, embora existam
propostas para a modelagem do sistema auditivo humano. Assim, um método que realmente
detectasse alturas deveria levar em conta modelos de percepção e produzir o resultado em
uma escala de alturas e não de frequências [58].
Usualmente, os detectores de altura, na verdade, estimam a frequência fundamental do
sinal que tende a se correlacionar bem com a altura. A frequência fundamental, por sua vez,
para o caso de sinais periódicos, é definida como o inverso do período fundamental [59]. Já
este corresponde ao menor valor positivo (T0 ≠ 0) que satisfaz a condição de periodicidade
exposta na Equação (1) [34][59]:
tTtxtx todopara ),()( 0 (1)
De outra forma, a frequência fundamental é, normalmente, o mais baixo componente
de frequência ou “parcial” (no espectro de frequências), e que se relaciona de forma
harmônica com a maioria dos outros parciais [58].
O objetivo dos detectores de frequência fundamental é apontar corretamente quais
trechos do áudio contêm ou não atividade vocal e, para os trechos com voz, estimar
corretamente sua frequência fundamental. Normalmente, a análise é feita quadro a quadro e,
assim, é preciso primeiramente decidir se aquele quadro é “vozeado” ou não e, depois, caso
seja “vozeado”, fornecer um valor para a sua frequência fundamental.
Como mencionado no início desta Seção, a pesquisa em detecção de frequência
fundamental é bastante ativa e vem de longa data. A bibliografia em [43], um marco na área
que é de 1983, já inclui cerca de duas mil entradas. Dessa data até hoje, muitas propostas
foram feitas, de forma que uma descrição completa de seu estado da arte se torna inviável
[60].
Assim, em vez de descrever todos os métodos, a seguir, abordam-se com detalhes as
três técnicas utilizadas nos experimentos que também são empregadas no experimento da
referência [61], a saber: a autocorrelação modificada, a correlação cruzada normalizada e o
RAPT (Robust Algorithm for Pitch Tracking – Algoritmo Robusto para Rastreamento de
32
Alturas), expostos respectivamente nas Seções 3.1, 3.2 e 3.3. Esses métodos são bastante
conhecidos na literatura, utilizados em vários estudos, e possuem implementações disponíveis
em software de processamento de áudio de livre acesso na Internet: o PRAAT8 [62] (para a
autocorrelação modificada e a correlação cruzada normalizada) e o Wavesurfer [63]9 (para o
RAPT). Ainda mais, os três métodos possuem como parâmetro de entrada, a ser definido pelo
usuário, o intervalo de busca (fato que permite a aplicação da proposição deste trabalho).
Mesmo com essa limitação, pelo estudo realizado, referenciam-se aqui os diversos
surveys ou avaliações e comparações realizadas
[39][40][41][42][43][44][58][60][64][65][66], além de vários métodos importantes, tanto
devido aos resultados encontrados como pelas estratégias propostas,
[67][68][69][70][71][72][73][74][75][76][77][78], além daqueles explicados neste trabalho.
3.1 AUTOCORRELAÇÃO MODIFICADA
Por definição, o melhor candidato para o período de um sinal, seu inverso sendo a frequência
fundamental, corresponde à posição do máximo da função de autocorrelação, dado que para o
sinal periódico, o sinal se repete a cada período (como mostrado na Equação (1)). Já o grau de
periodicidade ou a relação harmônicos-ruído10 pode ser determinada pela altura relativa desse
máximo. No entanto, a amostragem e o janelamento do sinal podem causar problemas na
definição da posição e altura do máximo da autocorrelação.
O método proposto por Boersma em [79] consiste do cálculo de uma função de
autocorrelação, e alguns artifícios a fim de evitar problemas conhecidos da autocorrelação
padrão, que são erros provocados por artefatos provenientes do processo de janelamento do
sinal e pela resolução de frequências causada pela taxa de amostragem. Resumidamente, as
modificações realizadas sobre a autocorrelação são: a divisão pela autocorrelação da janela,
para atenuar artefatos provocados pelo janelamento do sinal; e a interpolação pela função sinc
no domínio dos atrasos, que é aplicada próxima aos máximos locais, correspondentes às
alturas das frequências, para sobrepor a limitação devido à taxa de amostragem.
Um sinal estacionário pode ser definido como um sinal gerado por um processo
aleatório que possui média e autocorrelação que dependem apenas da diferença entre instantes
8 O PRAAT é um software destinado ao estudo de fonética principalmente, possuindo assim, várias
funcionalidades para a análise de sinais de voz. 9 O Wavesurfer é um aplicativo para processamento de sinais de voz. 10 A relação harmônicos-ruído (HNR – Harmonics-to-Noise Ratio) provê uma indicação da periodicidade geral
do sinal, pela medição da razão entre as partes periódica (harmônica) e aperiódica (ruído) do sinal [81].
Inclusive, a HNR é utilizada como parâmetro importante na análise acústica da voz [82][83].
33
de tempo [80]. Para esse tipo de sinal, x(t), a autocorrelação rx(, como uma função do atraso
() é definida como na Equação (2):
dttxtxrx )()()( (2)
Esta função tem seu máximo global para o atraso igual a zero. Isto é esperado visto
que, nesse caso, a função é igual ao sinal original. Quando há outros máximos globais além do
zero, o sinal pode ser visto como periódico e existe um atraso T0, chamado período, de forma
que esses máximos estão localizados nos atrasos nT0, para todo inteiro n, com rx(nT0) = rx(0).
A frequência fundamental desse sinal periódico será igual ao inverso do período (F0 = 1/ T0).
Mesmo que não haja máximos globais além do zero, ainda podem existir máximos locais. Se
o máximo destes está em um atraso max, e sua altura rx(max) é grande o bastante, o sinal tem
uma parte periódica, e sua força harmônica R0 é um número entre zero e um, igual ao máximo
local da autocorrelação normalizada r'(max), mostrado pela Equação (3):
)0(
)('
x
xx
r
rr
(3)
Para sinais não estacionários, ou seja, que não atendem às condições de
estacionariedade (descritas no parágrafo anterior à Equação (2)), a autocorrelação de curto
termo em um tempo t é estimada a partir de um pequeno segmento (também conhecido como
quadro – ou frame em inglês)11, janelado do sinal, centrado em t. Nesse contexto, janelas são
funções de ponderação aplicadas sobre o sinal a fim de reduzir o vazamento espectral
associado a intervalos de observação finita (trecho do sinal a ser analisado no momento) [85].
O vazamento espectral deve ser entendido como a criação de novos componentes de
frequência devido ao processamento do sinal pela DFT (Discrete Time Fourier Transform –
Transformada Discreta de Fourier), ou seja, frequências que não existem no sinal original
[85]. O janelamento do sinal também pode ser justificado no sentido de reduzir a ordem da
descontinuidade na borda da extensão periódica considerada, por meio de um decrescimento
gradual até zero ou próximo de zero, para assim, tornar essa extensão periódica contínua em
várias ordens de derivação.
Dessa forma, consegue-se fornecer estimativas para a frequência fundamental local
F0(t) e para a força harmônica local R0(t). Candidatos à frequência fundamental de um sinal
contínuo no tempo podem ser encontrados a partir dos máximos locais da autocorrelação dos
pequenos segmentos. Para isso, subtrai-se o trecho de áudio centralizado no tempo tmid de sua
11 Essa nomenclatura de quadro para denotar pequenos segmentos de sinal a serem processados é largamente
utilizada na literatura de processamento de sinais [84] e é usada com esse intuito no decorrer do texto.
34
média x, e se multiplica pela função da janela w(t), como mostrado na Equação (4). A janela
é simétrica ao redor de t = (1/2)T e igual a zero fora do intervalo [0,T].
)(2
1)( twtTtxta xmid
(4)
A autocorrelação normalizada do sinal janelado ra() é uma função simétrica do atraso
(Equação (5))
T
T
aa
dtta
dttata
rr
0
2
0
)(
)()(
)()(
(5)
Para estimar a autocorrelação do quadro do sinal original rx(), divide-se a
autocorrelação do sinal janelado (isto é, o sinal já multiplicado pela função de janela) ra()
pela autocorrelação da janela rw(), como se mostra na Equação (6):
)(
)()(
w
ax
r
rr (6)
Para sinais periódicos, o que este procedimento faz é levar os picos para próximo do
valor máximo (um). Esse corresponde ao primeiro artifício proposto. De acordo com Boersma
[79], essa correção passou despercebida pela literatura; como exemplo, no trabalho de
Rabiner [86], afirma-se que não importa qual a janela empregada, o seu efeito é diminuir ou
atenuar a função de autocorrelação suavemente até zero à medida que o atraso cresce. Pelo
que foi definido na Equação (6), essa afirmação não pode ser sustentada.
A Figura 5 mostra o mecanismo de janelamento, além do seu efeito sobre a função de
autocorrelação (em acordo com o definido pela Equação (6)). Considerando a ordem de
leitura da esquerda para a direita, de cima para baixo, no primeiro gráfico, apresenta-se o sinal
original que, multiplicado pela função de janela (segundo gráfico), resulta no sinal mostrado
no terceiro gráfico. Aplica-se a autocorrelação sobre esse sinal ponderado pela janela (quarto
gráfico) e, então, esse resultado é dividido pela autocorrelação da própria função de janela
(quinto gráfico), dando o resultado final, mostrado no último gráfico (mais abaixo e à direita).
Por essa análise, é possível verificar que o atraso que provoca valor máximo na função
de autocorrelação ra(), não é aquele que corresponde ao período fundamental neste exemplo,
igual a 7,14 ms (aproximadamente 140 Hz). Contudo, na função de autocorrelação modificada
rx() (definida na Equação (6)), o valor máximo é atingido no atraso “desejado”, ou seja,
aquele que corresponde ao período fundamental do sinal.
35
Figura 5 – Mecanismo de janelamento e estimação da autocorrelação.
Fonte: Adaptada de [79].
Argumenta-se que a interpolação utilizando a função sinc no domínio dos atrasos
aumenta a resolução do detector de frequência. Nesse caso, faz-se uma superamostragem no
domínio da frequência, tal que t / 2. Como não se pode fazer uma soma infinita, o que
seria necessário para ter a reconstrução perfeita do sinal, interpola-se sobre um número finito
de amostras para a esquerda e direita, com a janela selecionada, a fim de se atenuar a
interpolação para zero nas bordas.
De forma simplificada, representando a janela (que nesse contexto também tem o
intuito de decrescer as bordas da interpolação para zero) de forma genérica por w(φ,n,N), dado
que esta poderia ser um parâmetro do método, a autocorrelação pode ser calculada
diretamente como mostra a Equação (7) (na qual também se definem os parâmetros da função
de janela (φ,n,N)):
),,()1(
)1(sin),,(
)1(
)1(sin)(
11
Nnwn
nrNnw
n
nrr r
N
n r
rnnl
N
n l
lnn lr
(7)
na qual:
ln ; 1 lr nn ; ll n
; lr 1 .
Na implementação do método (descrita no artigo original [79]), N corresponde ao
menor valor entre 500 e o maior número para o qual a expressão [(nl+N)Δτ] é menor que a
metade do comprimento da janela. Isso se torna necessário porque a estimação por
autocorrelação não é confiável para atrasos maiores que a metade do comprimento da janela,
se houver poucos períodos por janela [79].
36
3.1.1 Algoritmo
Agora, é possível definir um passo a passo detalhado para a execução do método, indicando
detalhes do pré-processamento, aplicação da Transformada de Fourier para obtenção da
autocorrelação, e o cálculo dos picos da autocorrelação (como é mostrado em [79]), etc.
Primeiramente, como uma operação de pré-processamento a fim de remover o lóbulo
lateral da Transformada de Fourier da janela de Hanning (o tipo de janela usada no método)
para componentes próximos à frequência de Nyquist12, aplica-se uma superamostragem sobre
todo o sinal de entrada da seguinte maneira: executa-se a FFT sobre o sinal inteiro; filtra-se no
domínio da frequência (multiplicação) de forma linear para zero de 95% a 100% da
frequência de Nyquist; executa-se a FFT inversa com ordem um nível superior que a primeira
FFT. Na sequência, computa-se o pico global absoluto do sinal, que corresponde ao valor
máximo do módulo ou valor absoluto do sinal e é utilizado como valor de referência na
decisão de voz ou silêncio.
Os próximos passos são considerados sobre cada quadro, que são espaçados de acordo
com um parâmetro (passo no tempo), com valor padrão igual a 0,01s. Para cada quadro,
procura-se por um número máximo de candidatos – parâmetro com valor padrão igual a
quatro. Esses candidatos são constituídos de pares de atraso-amplitude (valores da função de
autocorrelação) considerando que seriam bons candidatos para a periodicidade do quadro.
Esse número de candidatos inclui a hipótese do “silêncio” (representando a falta de atividade
vocal) que está sempre presente, visto que a priori, qualquer quadro pode ou não conter voz.
O comprimento de cada segmento é definido pela frequência mínima esperada no sinal
(MinimumPitch). Esse tamanho precisa ser grande o suficiente para conter três períodos para a
detecção de frequência. Então, se MinimumPitch for igual a 75 Hz, o comprimento é igual a
40 ms. Nesse segmento, subtrai-se a média local e calculam-se os candidatos. O primeiro
candidato é o silêncio, que tem sua chance calculada através de dois parâmetros do método, o
limiar para voz, VoicingThreshold igual a 0,4 e o limiar para o silêncio, SilenceThreshold
igual a 0,05. Os valores desses parâmetros foram apresentados no trabalho original [79] e eles
são utilizados da seguinte maneira: o quadro tem uma alta chance de ser considerado como
sem voz se não há picos de correlação maiores que o parâmetro VoicingThreshold ou se o
12A frequência de Nyquist corresponde à metade da taxa de amostragem mínima e corresponde à mais alta
frequência que um sistema com dados amostrados pode reproduzir sem erros [87]. De outra forma, essa taxa
corresponde ao número de amostras necessárias para reconstruir um sinal “banda limitada”, i.e., aqueles que não
possuem componentes espectrais para frequências acima de uma dada frequência [88].
37
valor do pico local absoluto for menor que aproximadamente a porcentagem representada
pelo parâmetro SilenceThreshold em relação ao pico global absoluto.
Após esse cálculo para o quadro, faz-se a multiplicação pela função de janela,
conforme se mostra na Equação (4). Daí, adicionam-se zeros na quantidade correspondente à
metade do comprimento da janela, pois é necessário que os valores da autocorrelação sejam
de até meio comprimento da janela para permitir a interpolação. Ainda adicionam-se zeros
suficientes agora para que o número de amostras seja uma potência de dois, para o cálculo da
autocorrelação utilizando a Transformada de Fourier (Equações (8) e (9)). Em palavras, a
autocorrelação pode ser calculada computando primeiramente a transformada de Fourier do
sinal janelado no domínio do tempo (apresentado na Equação (4)), levando para o domínio da
frequência (Equação (8)); e computando-se a transformada inversa de Fourier da densidade
espectral, que leva para o domínio dos atrasos (Equação (9)).
dtetaa ti )()(~ (8)
dear i
a
2)(~
2
1)( (9)
Na prática, calcula-se a transformada de Fourier e sua inversa, empregando-se uma
versão discreta das Equações (8) e (9), respectivamente, sendo a segunda calculada sobre o
quadrado das amostras, gerando assim, uma versão amostrada da autocorrelação (ra()).
Então, divide-se a autocorrelação do sinal janelado pela autocorrelação da janela, tal como
mostrado na Equação (6), fornecendo a versão amostrada de rx().
Agora, encontram-se os locais e valores dos máximos da versão contínua de rx(), que
é dada pela Equação (7), utilizando o algoritmo brent, descrito em [89]. As posições
consideradas para os máximos são aquelas que produzem frequências entre MinimumPitch e
MaximumPitch. Nesse ponto, relata-se que o parâmetro MaximumPitch deve estar entre
MinimumPitch e a frequência de Nyquist. Os únicos candidatos registrados de fato, isto é,
considerados como candidatos para a frequência fundamental são o “silêncio” e aqueles “com
voz” (tendo quantidade igual ao máximo de candidatos menos um), que tem suas “forças”, ou
em outras palavras, o valor que determina qual candidato será escolhido, calculadas conforme
as Equações (10) e (11), respectivamente.
esholdVoicingThresholdSilenceThr
peakabsoluteglobalpeakabsolutelocalesholdVoicingThrR
1
____2,0max (
10)
38
)log(2)( maxmax chMinimumPitOctaveCostrR (11)
O parâmetro OctaveCost favorece valores de frequência fundamental mais altos, visto
que ao se considerar um sinal perfeitamente periódico, como aqueles definidos por uma
senóide, todos os picos têm a mesma altura, e se deve selecionar aquele com menor atraso.
Outra razão para a adição desse parâmetro é a existência de saltos locais de oitava
indesejáveis que aparecem por conta de ruídos aditivos. Por fim, argumenta-se que esse
parâmetro serve para equilibrar ou ponderar a saída da estimativa de frequência ao se
presumir a diferença entre a frequência fundamental acústica e a altura percebida.
Dependendo da profundidade da modulação ou índice de modulação do sinal13, pode-se
perceber a altura de um sinal como igual à frequência fundamental ou como seu dobro. O
valor padrão do OctaveCost é 0,01 o que indica um critério de 10% sobre a profundidade de
modulação para se adequar à frequência física ou à frequência percebida.
Após os cálculos realizados até agora, existe um número de pares frequência-força
(Fn,i, Rn,i), com n indo de um até o número de quadros do sinal (denotado por N), e i estando
entre um e o número de candidatos em cada quadro. Localmente, o melhor candidato é aquele
com o valor mais alto de R. Já que é possível se obter várias respostas igualmente ou
similarmente fortes (no sentido de serem bons candidatos devido às propriedades do sinal),
aplica-se um procedimento para encontrar o melhor caminho, de acordo com as melhores
respostas de cada quadro.
Nesse contexto, a ideia é que o resultado final pode conter candidatos que não são a
primeira opção em uma análise local, mas que, no entanto, contribuem para um custo global
mais baixo. Esse custo pode ser entendido ao se pensar que cada escolha tem um custo
associado que se associa também à chance de ocorrência de determinada transição (é mais
provável que não ocorram mudanças de frequência abruptas no sinal a todo tempo). Assim,
tenta-se evitar muitas transições entre voz e silêncio entre quadros, além de saltos de
frequência muito grandes, visto que são eventos menos prováveis.
Assim, tem-se que, para cada quadro n, pn é um número entre um e o número de
candidatos para cada quadro. Os valores {pn | 1 ≤ n ≤ N} definem um caminho sobre todos os
candidatos {(nnpF ,
nnpR ) | 1 ≤ n ≤ N}. E para cada caminho, atribui-se um custo definido na
Equação (12):
13 No cenário de modulação em amplitude, abreviada normalmente como AM (do inglês, Amplitude Modulation)
o índice de modulação é definido como a razão entre a amplitude mínima necessária para viabilizar a detecção
por envelope e a amplitude da onda portadora [59].
39
N
n
np
N
n
nppnn nnnRFFCosttransitionpCost
12
,1 ),()(1 (12)
na qual: transitionCost é uma função definida conforme se mostra na Equação (13):
0 e 0 se ,log2
0 xor 0 se ,
0 e 0 se ,0
),(
21
2
1
21
21
21
FFF
FCostOctaveJump
FFicedCostVoicedUnvo
FF
FFCosttransition
(13)
na qual: VoicedUnvoicedCost e OctaveJumpCost são iguais a 0,2.
Para determinar o melhor caminho, ou seja, aquele que apresenta o menor custo,
utiliza-se o algoritmo de Viterbi (baseado na estratégia de programação dinâmica14 [90]),
descrito para Modelos Escondidos de Markov, apresentado em [91].
3.2 CORRELAÇÃO CRUZADA NORMALIZADA
A correlação cruzada normalizada [92] é uma função de correlação que visa contornar dois
problemas principais da função original [53]: (i) a janela de tempo que deve ser relativamente
grande, para cobrir adequadamente os intervalos de frequência da voz humana; (ii) a
significância estatística da estimativa ou a robustez ao ruído das estimativas dos picos que
varia como uma função do atraso, visto que o intervalo da soma diminui quando o atraso
cresce. Dessa forma, para poder manter essa significância nos períodos mais longos (menores
frequências), a janela é excessivamente grande nos períodos mais curtos. Ainda mais, ela
também se previne de uma desvantagem da correlação cruzada “simples”, a qual não fornece
estimativas confiáveis ao se fazer uma normalização comum, que se refere à divisão pela
autocorrelação com atraso igual a zero.
Além disso, esse método também conta com dois passos importantes de pré-
processamento, os quais objetivam melhorar a precisão na determinação da frequência
fundamental pela função de correlação. Mais especificamente, realiza-se uma filtragem passa-
baixa com frequência de corte igual à 1 kHz e eleva-se o sinal à terceira potência, a fim de
enfatizar os trechos de alta amplitude do sinal de voz [93].
14A programação dinâmica consiste em resolver um problema combinando a solução de subproblemas.
Normalmente, é aplicada em problemas de otimização, no qual se pode ter várias soluções, mas o interesse é
obter uma solução ótima (valor mínimo ou máximo) [94].
40
Apenas posteriormente, nesse sinal processado, faz-se o cálculo da correlação.
Considerando o sinal processado sp, amostrado a um intervalo de tempo T = 1 / Fs, visto que a
taxa de amostragem Fs indica quantas amostras foram armazenadas por segundo, no processo
de amostragem. Ainda mais, tendo o intervalo de análise do quadro t (tamanho do quadro em
segundos), tamanho de janela w (dimensão da função de janela em segundos). Cada quadro
avança z = t / T amostras, ou seja, o passo em que se avança no sinal para a análise de cada
segmento, com n = w / T amostras na janela de correlação. Assim, tem-se uma correlação de
K amostras de comprimento, com K < n, e a correlação cruzada normalizada ϕi,k, no atraso k e
quadro i é definida pela Equação (14):
1 ,0 ; ;1 ,0 ,
1
,
MiizmKk
ee
ss
kmm
nm
mj
kjj
ki (14)
na qual:
1
2nj
jl
lj se , i é o índice do quadro, M é o número de quadros, e k é o atraso.
Assim, obtém-se uma estimativa de frequência fundamental a cada quadro, a partir da
função definida na Equação (14). A função da correlação cruzada tende a ter valores próximos
de um para atrasos correspondentes aos múltiplos do período verdadeiro, a salvo de mudanças
rápidas na amplitude do sinal. O tamanho da janela w (ou intervalo de análise da correlação)
pode ser escolhido independentemente do intervalo de busca de F0 em questão. E para valores
práticos de w, a função deve ter valores bem menores que um na presença de ruído. Essas
propriedades da correlação cruzada independem da amplitude do sinal.
3.3 ROBUST ALGORITHM FOR PITCH TRACKING (RAPT)
O RAPT [53] baseia-se na função de correlação cruzada normalizada [92] (explicada na seção
anterior), porém, com processamentos adicionais e algumas heurísticas a fim de suplantar as
dificuldades encontradas na aplicação dessa função (descritos mais adiante nesta seção). O
método foi projetado a fim de poder ser aplicado em qualquer taxa de amostragem e taxa de
quadros sobre um amplo intervalo de possíveis F0, para qualquer indivíduo e condições de
ruído. O ajuste dos seus parâmetros permite a particularização para aplicações ou vozes
específicas.
As características exploradas, tanto de sinais de fala típicos quanto da correlação
cruzada normalizada, foram: (i) o máximo local da função para o F0 é normalmente o maior e
próximo ao máximo da função (um); (ii) no caso de vários máximos, usualmente aquele
41
correspondente ao período mais curto é a melhor opção; (iii) os verdadeiros máximos em
quadros adjacentes são encontrados, geralmente, em atrasos comparáveis, já que F0 é uma
função que varia lentamente no tempo; (iv) o F0 real, ocasionalmente, muda de forma abrupta
pelo dobro ou pela metade; (v) a vocalização tende a mudar de estados com baixa frequência;
(vi) o máximo para trechos de silêncio é normalmente bem menor que um; (vii) os espectros
de termo curto de quadros de voz ou silêncio são usualmente bastante diferentes; e (viii) a
amplitude tende a crescer no início da fonação, e decrescer no final.
Levando em conta essas observações, o RAPT pode ser resumido nos seguintes
pontos:
Prover duas versões dos dados amostrados da fala; um na taxa de amostragem original,
e o outro, numa taxa significativamente menor.
Computar periodicamente a correlação do sinal de taxa de amostragem reduzida para
todos os atrasos no intervalo de frequência desejado. Registrar a posição dos máximos
locais neste primeiro passo.
Calcular a correlação do sinal com taxa de amostragem original apenas na vizinhança
dos picos promissores encontrados no primeiro passo. Buscar novamente por máximos
locais nesta busca refinada para obter localização dos picos e estimativa das
amplitudes melhoradas.
Cada pico gravado da correlação de alta resolução (taxa de amostragem original) gera
um candidato a F0 para aquele quadro. Para cada quadro, a hipótese de que o quadro é
de silêncio também é considerada.
Usa-se programação dinâmica [90], por meio do método descrito em [95][96], para
selecionar o conjunto de picos ou hipóteses de silêncio sobre todos os quadros que
apresentam melhor correspondência com as características mencionadas acima.
Dessa forma, o RAPT não utiliza simplesmente os valores da correlação, mas emprega
esse conjunto de medidas para tornar a detecção de frequência fundamental mais robusta a
ruídos e mais confiável. Nas seções seguintes, detalha-se cada parte do RAPT, dividindo-se
em pré-processamento, computação da função de correlação e pós-processamento nas
próximas Subseções.
3.3.1 Pré-processamento
Nenhuma operação de pré-processamento é obrigatória para a aplicação do RAPT [53], além
de que o método consegue operar em qualquer taxa da amostragem tipicamente usada em
42
aplicações de áudio (entre 6 e 44 kHz). No entanto, o custo computacional é diretamente
proporcional à taxa de amostragem e, portanto, pode-se reamostrar o sinal numa taxa reduzida
para diminuir o custo.
Outro ponto de atenção se refere à presença de ruído periódico, o qual pode afetar
bastante a determinação do estado da voz (silêncio ou não). Nesses casos, pode-se aplicar um
filtro inverso, treinado sobre ruídos periódicos, ou um filtro comb15 ajustado para cancelar o
espectro do ruído. Ainda em casos extremos de ruído de fundo, é possível aplicar a operação
de center clipping16, possivelmente combinada com a adição de ruído branco em um nível
suficiente para esconder a periodicidade do fundo, porém, vários níveis de intensidade (dB)
abaixo da amplitude usual para os trechos de fala do sinal.
3.3.2 Computação da correlação cruzada normalizada
A função de correlação cruzada normalizada (mostrada na Seção 3.2) é a geradora dos
candidatos à frequência em cada quadro e seu cálculo consiste do principal custo do método.
Como comentado no início da Seção 3.3, calcula-se a correlação sobre o sinal tanto na taxa da
amostragem original, como em uma taxa reduzida. O objetivo disso é diminuir o custo
computacional, ao usar o sinal com taxa de amostragem menor, dado que quanto maior a taxa
de amostragem, tem-se mais amostras e, consequentemente, o maior atraso da correlação
também se torna maior, aumentando assim o custo de forma quadrática; e não perder a
precisão, ao se buscar os valores da frequência na taxa de amostragem original na vizinhança
dos picos encontrados no primeiro passo.
Mais especificamente, no primeiro passo, executa-se a reamostragem conforme mostra
a Equação (15):
)04round( maxFF
FF
s
sds (15)
na qual: Fs é a taxa de amostragem original; F0max, a maior frequência a ser buscada no sinal
(definida como 500 Hz); e “round”, a função de arredondamento para o inteiro mais próximo.
O filtro passa baixa aplicado antes da decimação é um filtro FIR (Finite Impulse
Response – Resposta Finita ao Impulso) simétrico obtido pelo truncamento de uma resposta
15 O filtro comb é utilizado para a redução de ruídos no sinal (cancelando interferências periódicas e realçando a
parte periódica do sinal na presença de ruído) [97]. Ele opera adicionando uma versão atrasada do próprio sinal,
causando uma interferência construtiva e destrutiva. 16 Center clipping é uma operação não linear de processamento do sinal a qual objetiva a eliminação dos
formantes do sinal de voz, a fim de tornar a detecção de frequência mais precisa [98]. Na prática, a cada
intervalo definido, normalmente 5 ms, eliminam-se os componentes que estão entre os valores ±ka0, em que a0
corresponde ao máximo do intervalo e k normalmente é configurado como 30% desse máximo.
43
ao impulso de um filtro passa baixa ideal com frequência de corte igual à metade da taxa de
amostragem reduzida (Fds) com uma janela de Hanning de 5 ms de duração. A correlação
cruzada normalizada é calculada em todos os atrasos k, tal que Fds / F0max ≤ k ≤ K, sendo K o
maior atraso em cada quadro, definido como [round(Fs / F0min)], e sendo F0min a menor
frequência a ser buscada no sinal (definida como 50 Hz). Registra-se o valor máximo da
correlação nesse intervalo, denotado por ϕmax.
Todos esses máximos locais que excedem um limiar, correspondente ao produto entre o
mínimo valor de pico aceitável da correlação cruzada normalizada (CAND_TR), definido
como 0,3 (valor parametrizável), e ϕmax, ou seja, (CAND_TR×ϕmax). Obtêm-se estimativas
mais precisas da localização e amplitude dos picos por meio de uma interpolação parabólica,
fazendo uso dos três pontos que definem cada pico, sobre Fds. Considera-se um número
máximo de candidatos (N_CANDS), determinado como 20. Portanto, se houver mais do que
(N_CANDS – 1) picos, já que um dos candidatos sempre é o “silêncio”, ordenam-se os picos
por amplitude, de forma decrescente, e os (N_CANDS – 1) primeiros são armazenados.
No segundo passo, calcula-se a correlação cruzada normalizada (ϕ), sobre a taxa de
amostragem original do sinal (Fs) apenas para sete atrasos na vizinhança de cada estimativa de
pico refinada obtida no primeiro passo. Assim, um novo ϕmax é encontrado, e a correlação é
dada como zero para os atrasos que não foram considerados nesse momento.
Novamente, apenas os picos que excedem o limiar de ativação são marcados. Nos dois
passos, essa ponderação do valor máximo da correlação e o mínimo aceitável,
(CAND_TR×ϕmax), é utilizada no nível de varredura dos picos, em vez de apenas CAND_TR, a
fim de ter uma normalização de um pico de valor possivelmente reduzido devido a um ruído
aditivo em um trecho de sinal vozeado (em oposição a um sinal com silêncio). Também se
considera o mesmo número máximo de candidatos, conforme descrito no parágrafo anterior.
Nesse passo, contudo, não se utiliza mais de interpolação parabólica para fazer refinamento
nas estimativas (por não ser necessário, dado que se está em uma resolução maior, porque o
cálculo agora se dá sobre a taxa de amostragem original).
Ainda há duas modificações realizadas no próprio cálculo da correlação cruzada
normalizada que são definidas pelo RAPT. A primeira delas visa a evitar erros na
determinação do estado da voz (silêncio ou voz), principalmente, visto que em determinadas
condições como um sinal com média diferente de zero na janela de correlação (w) ou com
ruídos de baixa frequência, a correlação, como mostrada na Equação (14), pode produzir
valores altos de correlação para todos os atrasos no intervalo de busca para a frequência
fundamental. Isso se torna mais complicado ainda quando intervalos de silêncio ou de voz
44
com baixa amplitude são classificados como voz ou silêncio baseando-se apenas na amplitude
da correlação. A solução adotada consiste em subtrair a média local de cada janela de
referência de todas as amostras envolvidas no cálculo de cada quadro. Assim, a correlação é
calculada sobre esse segmento modificado do sinal.
Considerando z o tamanho do quadro em amostras [round(tFs)], e i como o índice do
quadro de análise, incrementado a uma taxa de (1 / Tz), e xm a e-mésima amostra do sinal de
entrada com média diferente de zero, o sinal si,j que é passado como entrada para calcular a
correlação no quadro i é apresentado na Equação (16):
10 ,, K-,njiz;mxs ijmji (16)
na qual:
1nm
mj
jj x .
Quadros que não contêm energia na correlação ou não têm máximos locais por
quaisquer outros motivos, não produzem frequências ou períodos candidatos. Nesses casos, o
máximo da correlação apontado é zero e o quadro é classificado como sendo “silêncio”.
O segundo ponto de modificação se refere ao fato de que trechos de silêncio em sinais
de voz, mesmo com um processo de gravação e digitalização muito cuidadoso, ainda
apresentam um componente periódico significativo. Obviamente, esse componente não deve
ser entendido como a frequência fundamental daquela parte do sinal. E, nesses casos, a
correlação definida na Equação (14) pode indicar altos valores de correlação, levando a um
erro na determinação do estado da voz.
Por isso, argumenta-se que é útil incorporar algum conhecimento acerca do nível absoluto
do sinal. Isso é feito por meio de uma constante aditiva (A_FACT = 10.000) no denominador
da correlação, no seu segundo passo de operação. Logo, a correlação no atraso k e quadro i,
passa a ser definida como mostra a Equação (17):
k
n
j
kjiji
kieeFACTA
ss
0
1
0
,,
,_
(17)
na qual:
1
2
,
nj
jl
lij se é definido na Equação (16).
Ressalta-se que o primeiro passo de cálculo da correlação utiliza praticamente a
mesma fórmula definida na Equação (17), contudo, sem a adição de A_FACT, e k varia de
[round(Fds / F0max)] até K – 1.
45
3.3.3 Pós-processamento
Como já comentado inicialmente, aplica-se programação dinâmica para selecionar os
melhores candidatos à frequência fundamental e estado da voz para cada quadro,
considerando uma combinação entre evidência local e contextual.
Considera-se Ii como o número de hipóteses para o quadro i, que corresponde a um
somado ao número de máximos locais selecionados através da correlação para o quadro i, e
dessa forma, tem-se 1 ≤ Ii ≤ N_CANDS. Assim, para cada quadro, há Ii – 1 frequências
fundamentais possíveis e uma hipótese de silêncio. Tem-se Ci,j como o valor do j-ésimo
máximo local sobre a correlação no quadro i (valores dos picos selecionados no segundo
passo da correlação cruzada). E ainda, Li,j corresponde ao atraso em que Ci,j foi observado.
Com isso, pode-se definir o custo local, que corresponde à função objetivo, para propor que o
quadro i é de voz, com período igual a T×Li,j na Equação (18) e, para o silêncio, na Equação
(19):
ijijiji IjLCd 1 ),1(1 ,,, (18)
em que: β = LAG_WT / (Fs / F0min), sendo LAG_WT um fator linear para atenuação da
correlação cruzada, igual a 0,3.
)(max_ ,, jij
Ii CBIASVOdi
(19)
em que: VO_BIAS é um fator para dar preferência a hipóteses de voz, definido como zero no
trabalho que propôs o método [53].
Detalhando a função dos parâmetros definidos anteriormente, o LAG_WT permite o
ajuste do grau em que correlações em atrasos mais longos sofrem uma penalidade para
favorecer a seleção de períodos mais curtos. O parâmetro VO_BIAS permite o ajuste da
verossimilhança de uma decisão a favor da voz (em detrimento do silêncio). Assim, a função
de custo local di,j favorece Ci,j próximo de um e atrasos menores para quadros vozeados, e Ci,j
próximo de zero para quadros silenciosos.
O custo da transição da frequência fundamental entre quadros no quadro i quando as
hipóteses j e k no quadro atual e anterior são de voz é definido como na Equação (20):
)0.2ln(_,min_ ,,,, kjkjkji CDOUBLWTFREQ (20)
na qual: 1
,1
,
, 1 ;1 ,ln
ii
ki
ji
kj IkIjL
L
, FREQ_WT é o custo de uma mudança de
frequência, igual a 0,2, e DOUBL_C é uma constante positiva que pondera o custo de um
46
salto de oitava na frequência fundamental, tanto para cima, como para baixo, definida como
0,35.
Essa equação torna o custo de transição uma função crescente sobre a mudança de
frequência entre quadros, e permite saltos de oitava com determinado custo. Quando tanto o
quadro atual quanto o anterior são propostos como sem voz, tem-se que δi,Ii,Ii-1 = 0. Já quando
as decisões entre os quadros em análise são diferentes, o custo se apresenta como definido nas
Equações (21) e (22), respectivamente para quando a transição é voz para silêncio, e silêncio
para voz.
1,, k1 ,)__()__(_ iiikIi IrrCAVTRSCSVTRCVTRANi
(21)
1,, k1 ,__)__(_1 iiiIji IrrCAVTRSCSVTRCVTRAN
i (22)
em que: VTRAN_C, VTR_S_C, VTR_A_C são constantes positivas respectivamente denotando
o custo fixo de uma transição no estado da voz, igual a 0,005, o custo da transição modulada
na amplitude, e o custo da transição modulada no espectro de frequência, os dois últimos
iguais a 0,5. E ainda, Si é uma função de estacionariedade apresentada na Equação (23):
),1rms(
),rms(
hi
hirri
(23)
na qual: rms corresponde à raiz do valor médio quadrático, definida como
izm
J
sWhirms
J
j hmjj
,),(
1
0
2
, sendo W uma janela de Hanning de comprimento J =
0,3Fs; z = [round(tFs)], correspondendo ao passo entre cada quadro medido em amostras (com
t igual a 0,01s, representando o comprimento do quadro no tempo); h é um fator de
deslocamento que ajusta o centro da janela para as medidas de rms atual e passada, para terem
uma distância de 20ms, independentemente do passo entre quadros z.
A utilização do valor rr se dá da seguinte forma: se a amplitude do sinal de fala está
crescendo, rr é maior que um, enquanto que se decrescendo, rr fica entre zero e um. O fator s
é uma função inversa da distorção de Itakura [99], medida sobre a fronteira da região de voz
proposta (Equação (24)):
8,0)1,itakura(
2,0
iisi
(24)
na qual: a distorção espectral itakura(i,i – 1) é calculada utilizando uma janela de Hanning,
com comprimento e posição definidos como no cálculo da raiz do valor médio quadrático.
47
A ordem da análise LPC17 (Linear Predictive Coding – Codificação Preditiva Linear),
denotada por O, é escolhida como: O = 2 + round(Fs / 1000), e o sinal é pré-enfatizado
utilizando um filtro de primeira ordem com coeficiente igual a e-7000/Fs; e o método da
autocorrelação LPC é usado sobre o sinal de voz, amostrado a Fs.
Esses custos das transições entre estados da voz diminuem quando o espectro do sinal
está mudando rapidamente como acontece com as fronteiras das regiões de voz e quando a
amplitude do sinal varia de acordo com o esperado quando do início e final do sinal de voz. A
constante VTRAN_C provê um fator de penalização fixo para a mudança no estado de voz
independentemente das mudanças no sinal de voz para favorecer o comportamento da
estimativa com a observação geral de que os estados da voz variam relativamente de forma
não frequente. Com todo esse preâmbulo, pode-se definir a fórmula recursiva para a função
objetivo para o quadro i como (Equação (25)):
ikjikiIk
jiji IjDdDi
1 },{min ,,,1,,1
(25)
em que: as condições iniciais são D0,j = 0, 1 ≤ j ≤ I0; I0 = 2.
Para cada estado em cada quadro, salvam-se os ponteiros para a volta (definição do
melhor caminho), definidos como qi,j = kmin, em que kmin em que cada quadro são os índices
que minimizam Di,j, de forma que a melhor sequência de estados possa ser recuperada. A
estimativa “grosseira” para a frequência fundamental para o quadro i é definida na Equação
(26):
ji
si
L
FF
,
0 (26)
em que: os valores de j são aqueles que resultam no valor mínimo global para D. Essa
estimativa é refinada por meio de um ajuste parabólico para os três pontos na correlação
cruzada englobando o pico. O ponto em que a primeira derivada desse ajuste é zero é tomado
como o pico real.
3.4 CONSIDERAÇÕES
Neste Capítulo, apresenta-se de forma detalhada a tarefa de detecção de frequência
fundamental. Dessa forma, relataram-se os principais conceitos relacionados, além de parte
dos problemas enfrentados. Descrevem-se alguns dos principais métodos de detecção de
17 Codificação Preditiva Linear é uma técnica utilizada para representar o envelope espectral de um sinal digital
de voz, em uma forma comprimida e é muito usada para prover estimativas precisas dos parâmetros da voz [2].
Afirma-se que é uma predição linear porque ela utiliza uma função linear para predizer valores futuros, nesse
caso, de um sinal discreto no tempo, baseado nas amostras anteriores.
48
frequência, dada sua relevância na área além da grande utilização deles em vários contextos e
sua disponibilidade em ferramentas largamente empregadas e de livre acesso. Além disso,
essas técnicas se mostram passíveis de melhoria de desempenho, isto é, redução de erros na
detecção de frequência em função do ajuste de seus parâmetros (ponto abordado no próximo
Capítulo).
Destaca-se que apesar de não ter se planejado isso, os três métodos apresentados se
baseiam em alguma função de correlação. Embora isso possa ser visto como uma limitação da
descrição como ainda da avaliação da pesquisa em si, ressalta-se que essa é a classe de
métodos mais utilizada, dada sua relativa simplicidade e eficiência. Ainda mais, devido às
diferentes configurações e estratégias de processamento de cada método, dado que cada um
deles procura resolver certos aspectos na utilização da correlação, eles se comportam de
forma diferente diante dos diversos cenários impostos pelos sinais de voz a serem
processados.
Outro ponto de semelhança entre os métodos analisados (também presente na maioria
dos métodos de detecção de frequência fundamental) é a existência de um parâmetro de
entrada em comum: o intervalo de busca. Esse é o parâmetro a ser explorado para a
otimização proposta nesta Tese.
49
4 CLASSIFICAÇÃO AUTOMÁTICA DE MECANISMOS
LARÍNGEOS
Este Capítulo apresenta as ideias e métodos realizados nesta pesquisa para a classificação
automática de mecanismos laríngeos. Essa classificação, baseada no sinal de voz
exclusivamente, é que possibilita a utilização do mecanismo laríngeo como base para a
aplicação na detecção de frequência fundamental, de forma automatizada. Dessa forma,
explica-se detalhadamente cada passo do método, mostrando sua importância no processo e
também ilustrando as ideias, motivações e assunções tomadas no desenvolvimento.
Pela revisão da literatura, não se conhece nenhum método automático para a
classificação de mecanismos laríngeos. No caso, a caracterização desses mecanismos, suas
relações e transições, foram feitas de forma manual por especialistas, baseando-se no EGG e
DEGG do sinal [111][10][36][112][113][21] (referências listadas em ordem cronológica).
Inclusive, em [36], argumenta-se que um parâmetro importante para a definição do
mecanismo vibratório é o quociente de abertura, o qual é calculado como a razão entre o
tempo de abertura da glote e o período fundamental. E, devido a existir uma faixa de
sobreposição entre os mecanismos e o quociente de abertura, além de a técnica vocal poder
iludir os ouvidos, sugere-se que deve haver uma combinação entre a audição da produção
vocal e do cálculo do quociente de abertura e outros parâmetros do EGG.
Assim, um método para classificar automaticamente os mecanismos laríngeos visa
completar duas lacunas encontradas na metodologia atual do trabalho com os mecanismos
laríngeos:
1º. Automatização: a classificação manual normalmente está propensa a erros não
determinísticos, no sentido que não são fruto de um processo em que os erros
são função específica de algum defeito ou assunção tomada no seu
desenvolvimento.
2º. Não necessidade do EGG: a manipulação do EGG provoca alto custo, tanto
humano quanto de recursos, visto que do modo atual, é necessário adquirir um
eletroglotógrafo e fazer a gravação do áudio sincronizada com a
eletroglotografia. Ainda mais, há cenários em que não é possível obter o EGG,
o que corresponde à maioria dos casos visto que normalmente se trabalha sobre
áudios previamente gravados. Como exemplo, podem-se citar perícias de
gravações telefônicas [115].
50
4.1 HIPÓTESE
A possibilidade de distinguir entre os mecanismos laríngeos a partir do espectrograma partiu
de algumas figuras mostradas em artigos [21][36] sobre o uso do EGG e DEGG para a
definição dos mecanismos. Por exemplo, a Figura 6 ilustra o espectrograma de um glissando18
ascendente em que se usam os quatro mecanismos laríngeos encontrados na produção da voz
humana. Cada região de mecanismo diferente é rotulada na figura; a abscissa representa o
tempo (que vai de zero a 500 ms), e nessa parte inferior, também se ilustram os saltos de
frequência normalmente identificados na transição de um mecanismo para o outro; enquanto
que a ordenada representa a frequência.
Figura 6 – Espectrograma de um glissando ascendente com o uso sucessivo dos quatro mecanismos laríngeos.
Fonte: Adaptada de [21].
A partir da observação da Figura 6, vê-se, que aparentemente, as regiões de cada
mecanismo apresentam um aspecto visual distinto: à medida que se vai subindo de
mecanismo, o espectrograma se mostra menos denso. Essa “impressão” foi o vislumbre de
que era possível fazer a diferenciação entre os mecanismos laríngeos pelo espectrograma,
tratado como uma imagem. Outro ponto importante nessa questão é que também se observa
que há faixas de transição entre os mecanismos, ou seja, frequências que podem ser
produzidas em dois mecanismos distintos, como também se indica que certas frequências só
podem ser produzidas em determinado mecanismo. Assim, percebe-se uma relação entre o
mecanismo vibratório e as frequências fundamentais, fato que pode ser explorado na tarefa de
detecção de frequência fundamental.
A Figura 7 mostra o espectrograma, o EGG e o DEGG de um glissando ascendente e
descendente, marcando as regiões de transição e destacando diferenças na forma do EGG e
DEGG entre os diferentes mecanismos empregados. No item (b), é possível ver uma
18 O glissando é um ornamento que consiste no deslizamento rápido entre duas ou várias notas “vizinhas”
(sequência de sucessão) [12].
51
ampliação da última região de transição, entre os mecanismos M1 e M0, que destaca a
diferença entre os referidos mecanismos. A visualização da Figura 7 reforça a ideia inspirada
pela Figura 6 ao apresentar conjuntamente as diferenças no espectrograma (como
anteriormente) e nos sinais eletroglotográfico e sua derivada, que como comentado, são os
sinais utilizados na literatura para fazer a caracterização dos mecanismos laríngeos.
Figura 7 – Correspondência entre o espectrograma, o EGG e o DEGG, (a) Espectrograma, EGG e DEGG
sincronizados com a indicação de cada mecanismo e suas transições, (b) foco do EGG e DEGG na última
transição entre mecanismos (M1 – M0).
(a)
(b)
Fonte: Adaptada de [36].
Para deixar ainda mais evidente a ligação entre o mecanismo laríngeo e a aparência do
espectrograma, a Figura 8 apresenta um exemplo de execução da mesma nota e mesma vogal
cantada em dois mecanismos diferentes pelo mesmo cantor. Na parte superior, ilustram-se os
espectrogramas, enquanto que o painel inferior esquerdo apresenta o quociente de abertura; na
parte inferior direita estão os sinais de EGG e DEGG (linha superior destacada em verde e
linha inferior destacada em azul, respectivamente), tudo isso para os dois mecanismos
identificados.
52
A relevância dessa imagem se dá por isolar as diferenças entre os dois mecanismos
laríngeos, a salvo das possíveis discrepâncias existentes em virtude das outras variáveis da
emissão vocal (vogal e altura). Com essa visualização, percebe-se, portanto, que há variações
no aspecto visual do espectrograma quando se muda o mecanismo laríngeo. Também se
observa que os valores para os quocientes de abertura se comportam como o esperado, tendo
valores menores para o mecanismo 2.
Dessa maneira, pôde-se formular a presente proposta: identificar os mecanismos
laríngeos a partir da distinção no aspecto visual do espectrograma. Trabalhos na literatura,
como [116][117], fazem uso de espectrogramas para caracterizar sinais de áudio visualmente.
De acordo com a experiência e a análise das imagens, pensou-se em caracterizar essas
imagens como texturas. Somado a isso, os estudos, tanto na questão de análise de texturas
conceitualmente [118][119], quanto na categorização de sinais de áudio baseada em
espectrograma utilizando texturas [121][122][123][124][125][126][127][128], optou-se por
considerar que cada imagem seria tratada como uma textura, confirmando a intuição a
respeito da viabilidade da ideia.
Figura 8 – Medida do quociente de abertura de uma vogal “a” cantada na mesma altura pelo mesmo cantor nos
mecanismos 1 e 2.
Fonte: Adaptada de [36].
53
4.2 MÉTODO PROPOSTO
Para sumarizar o método, a Figura 9 apresenta seu fluxograma. Nas seções subsequentes,
explica-se cada etapa individualmente, apresentando os conceitos e parâmetros envolvidos no
processo. Como fica claro no texto, cada etapa pode ter mais de um método a ser avaliado, e
também existe a possibilidade de se propor novas abordagens em cada uma delas no futuro.
Em relação às características dos sinais de áudio avaliados, neste estágio, só se consideraram
áudios amostrados a uma taxa de 16 kHz (a taxa de amostragem da base empregada no
trabalho).
Figura 9 – Fluxograma do método de classificação proposto.
Fonte: Autoria própria
4.2.1 Representação visual do sinal de áudio
O espectrograma é uma representação visual do espectro de frequências do sinal [129]. Ele
apresenta a densidade espectral do sinal ao longo do tempo. A forma mais comum de se
representar um espectrograma é através de um gráfico bidimensional no qual a abscissa
corresponde ao tempo e a ordenada, à frequência. Uma terceira dimensão indica a amplitude
de cada frequência e é normalmente associada a uma cor ou nível de cinza (intensidade).
Normalmente, espectrogramas são gerados através do cálculo do quadrado da
magnitude da STFT (Short-Time Fourier Transform - Transformada de Fourier de Tempo
Curto) do sinal [80]. Por sua vez, a STFT corresponde ao cálculo da DFT sobre janelas no
sinal de áudio, cada uma delas sendo obtida pelo produto entre uma função específica e o
sinal de áudio. Na prática, devido ao alto custo computacional da DFT, é usada uma
implementação rápida da DFT, chamada de FFT (Fast Fourier Transform - Transformada
Rápida de Fourier).
54
Embora simples de definir, a geração de um espectrograma depende de vários
parâmetros da STFT, como o tipo e o tamanho da janela, sem contar alguns parâmetros
internos para algumas das funções (como exemplo o desvio padrão de uma gaussiana ou a
ordem de um polinômio, entre outros), o número de pontos da FFT, e o grau de sobreposição
do janelamento ou tamanho do salto [129]. Ainda mais, há várias possibilidades para cada
parâmetro, como por exemplo, o tipo de janela [130], cada janela tendo suas características
específicas; e o intervalo praticamente ilimitado para os valores dos parâmetros internos
dessas funções. Esses valores têm forte impacto sobre a representação gerada. Sendo assim,
percebe-se que é necessário configurar esses parâmetros de forma satisfatória de acordo com
o objetivo pretendido.
Infelizmente, nos trabalhos tomados como base [21][36], das quais foram obtidas as
Figuras 6, 7 e 8, não foram informados os parâmetros utilizados para a obtenção dos referidos
espectrogramas, pois isso possibilitaria uma análise mais direta em relação às imagens
tomadas como base para as ideias propostas. Assim, foi necessário buscar o conjunto de
valores desses parâmetros para a aplicação neste trabalho.
Portanto, no primeiro momento, não se fez uma análise experimental, no sentido de se
conseguir os melhores parâmetros possíveis, considerando o objetivo da discriminação entre
os mecanismos laríngeos. Buscou-se pelos parâmetros que obtivessem aspecto visual o mais
semelhante possível às figuras mencionadas anteriormente. Pois, essas imagens precisavam
continuar apresentando as dissimilaridades esperadas (encontradas nas figuras apresentadas)
ou, de outra forma, que fosse possível perceber as diferenças entre imagens provenientes de
sinais usando mecanismos 1 ou 2 visualmente. Inicialmente, o principal objetivo era mostrar a
possibilidade de realizar a classificação entre mecanismos laríngeos, utilizando uma imagem
que representa o sinal como base.
Assim, a Tabela 1 mostra os parâmetros utilizados para a geração dos espectrogramas
nesse momento inicial, os quais se transformam nas imagens cujas propriedades texturais são
exploradas no próximo passo do método. Para a visualização e comparação com as figuras
dos outros artigos [21][36], adotou-se a mesma convenção de exibição: imagem em tons de
cinza com os níveis de energia mais altos representados por tons mais escuros, enquanto que
os mais baixos, por tons mais claros.
Outro fator investigado no trabalho foi a forma de geração da imagem que representa o
sinal de áudio. No início, embora tendo como espelho as imagens geradas na literatura,
conforme ilustrado nas Figuras 6, 7 e 8, utilizou-se a estratégia definida em [116], a qual
consiste em tomar o valor absoluto da magnitude da STFT e transformá-lo em uma imagem
55
diretamente. Após a obtenção dos resultados iniciais, ao buscar por alternativas para melhorar
as taxas de acerto, observou-se que, embora fossem imagens válidas e que serviam bem ao
propósito da segmentação de fonemas [116], essa representação poderia ser melhorada no
sentido de fornecer as diferenças de aspecto visual entre os mecanismos laríngeos de forma
mais evidente.
Tabela 1 – Parametrização para geração dos espectrogramas.
Parâmetro Valor
Tipo da janela Gaussiana
Desvio padrão 3,5
Tamanho da janela 512
Grau de sobreposição 93,75%
Pontos da FFT 512
Taxa de amostragem 16 kHz
Assim, em vez de se considerar apenas a magnitude da STFT como base para a
geração da representação visual, passou-se a construir as imagens sobre a função de densidade
espectral [88], ainda considerando os dados de tempo e frequência (também obtidos com o
cálculo da STFT). Em detalhes, nesse contexto, o gráfico é formado da seguinte maneira: o
tempo, em segundos, definindo as colunas da imagem; a frequência definindo as linhas da
imagem; e por fim, a densidade espectral, escalada por dez vezes seu logaritmo na base 10,
como a intensidade da imagem.
Como já mencionado no início da Seção, os parâmetros do cálculo da STFT
influenciam o seu resultado e, por conseguinte, impactam na representação visual que
obtemos e também no resultado da classificação. Isso ocorre porque a representação está
diretamente relacionada à capacidade de discriminação entre os exemplos de mecanismos
diferentes, considerando as características e classificador empregados no trabalho (Subseções
4.2.2 e 4.2.3, respectivamente). Portanto, fez-se uma exploração experimental em relação ao
tamanho da janela e o desvio padrão da gaussiana, visto que esses dois parâmetros eram os
que causavam maiores diferenças na visualização entre as imagens geradas.
Na Figura 10, apresentam-se alguns espectrogramas calculados no trabalho, sendo um
glissando em (a), enquanto que em (b) e (c) se mostram respectivamente um exemplo de
emissão no mecanismo 1 e 2, da mesma vogal e da mesma nota pelo mesmo cantor. Assim, é
possível observar que, mesmo com configurações diferentes na geração do espectrograma, as
imagens conservam as propriedades observadas como propícias à determinação dos
mecanismos laríngeos: (i) marcação das transições entre mecanismos durante o glissando
(item (a)); (ii) as diferenças entre a densidade nas imagens do mecanismo 1 e 2; (iii) os
formantes da voz parecem mais evidentes quando da utilização do mecanismo 2; (iv) os traços
56
correspondentes à frequência fundamental e seus múltiplos aparecem mais fortes (escuros na
representação) no mecanismo 1.
Figura 10 – Exemplos de espectrogramas obtidos no trabalho (a) glissando, (b) mecanismo 1, (c) mecanismo 2.
(a)
(b)
(c)
Fonte: O autor.
Nesse segundo formato de geração de imagens, ainda foi avaliado outro parâmetro
referente a uma limiarização na geração do espectrograma. Basicamente, as saídas do
57
espectrograma são truncadas para zero quando têm valores menores do que um limiar
determinado (valor definido em decibéis), provocando assim, um aspecto visual diferente.
Esse parâmetro possibilitou a geração de imagens mais semelhantes ao que foi encontrado na
literatura (embora seus resultados não tenham sido melhores no sentido de taxa de acerto na
classificação e portanto, não se exibiram essas imagens).
4.2.2 Caracterização da imagem por textura
Não existe uma concordância ou uma definição formal sobre o que é uma textura. Contudo,
uma característica que pode ser observada é a repetição de um padrão ou padrões em uma
região [118]. Apesar dessa falta de conceito unificado, uma textura pode ser definida de forma
geral como a aparência ou característica visual e tátil de uma superfície. De acordo com [131],
uma região de imagem tem uma textura constante se o conjunto de suas propriedades locais
naquela região é constante, varia lentamente ou é aproximadamente periódico. A região da
imagem, medida estatística ou propriedade que se repete sobre uma região texturizada é
chamada de elemento de textura ou texel, ou ainda texton. Contudo, é importante perceber que
“regiões texturizadas produzem interpretações diferentes de acordo com a distância com que
são observadas e de acordo com o grau de atenção visual” [132].
Esse fato já mostra um pouco da dificuldade envolvida na área de análise de texturas,
dado não haver sequer uma formalidade na definição do problema, quanto mais, nas
abordagens para seu tratamento. Apesar disso, a análise de texturas é uma área de pesquisa
ativa e vários descritores foram apresentados na literatura, como
[133][134][135][136][137][138][139], para citar alguns.
Devido à facilidade de entendimento e implementação e ainda a sua ampla aplicação na
literatura, e até para a classificação de gêneros musicais por espectrogramas [122], optou-se
por adotar a análise da textura por meio das propriedades de Haralick [133], calculadas a
partir da matriz de coocorrência de tons de cinza (GLCM – Grey Level Co-occurrence
Matrix).
Uma GLCM funciona como um contador e contém informação sobre a quantidade de
pixels encontrados em uma imagem, separados por um fator de distância [133]. A ideia é
verificar cada pixel da imagem, analisando sua vizinhança; uma célula (i, j) da matriz é
incrementada sempre que dois pixels de níveis de cinza i e j estão separados por uma distância
d, onde d é o par ordenado (dx, dy), relacionado à distância nas direções horizontal e vertical,
respectivamente. É comum levar em conta a direção entre estes pixels. Portanto, temos
normalmente quatro direções: horizontal, vertical e as duas diagonais (0°, 45°, 90° e 135°),
58
sendo que as outras quatro que completariam o círculo trigonométrico em passos de 45°,
fornecem as mesmas respostas que os ângulos informados. Assim, para cada valor de d,
quatro matrizes de NxN são produzidas, ao se considerar N níveis de cinza no cálculo, que não
precisa ser necessariamente a quantidade de total de tons de cinza da imagem (poderia ser
feita uma análise quantizada). Usualmente, N é igual a 256, ou seja, todos os tons de cinza
possíveis em uma representação em RGB com 8 bits. Apesar da grande quantidade de dados
produzida, estes dados são usados para calcular valores numéricos simples (descritores ou
propriedades) que encapsulam a informação.
Em [133], Haralick et al propuseram 14 propriedades que podem descrever uma textura.
Na maior parte dos casos, não se utilizam todas elas, empregando-se apenas um subconjunto,
a depender da necessidade ou efetividade para cada problema. Sabendo disso e se baseando
em [122], usaram-se sete descritores, a saber: segundo momento angular ou energia (f1,
Equação (27)), variância (f2, Equação (28)), correlação (f3, Equação (29)), homogeneidade (f4,
Equação (30)), entropia (f5, Equação (31)), máxima verossimilhança (f6, Equação (32)) e
momento de terceira ordem (f7, Equação (33)). Ressalta-se que esses cálculos se dão sobre a
GLCM normalizada. Esse procedimento de normalização consiste em dividir os elementos da
GLCM pela quantidade total de pixels da imagem, fornecendo assim probabilidades
conjuntas. Mais especificamente, p(i,j) é a probabilidade que um pixel com tom de cinza igual
a i esteja a uma distância d, na direção especificada no parâmetro de cálculo, de outro tom de
cinza igual a j [118].
i j
jipf 2
1 ),( (27)
i j
jipjif ),()( 2
2 (28)
yx
i j
yxjipij
f
),(
3 (29)
),(
1
124 jip
jif
i j
(30)
)),(log(),(5 jipjipfi j
(31)
),(max6 jipf (32)
),(3
7 jipjif (33)
59
No artigo de Haralick, comenta-se que não seria adequado utilizar os cálculos das quatro
direções da GLCM diretamente, visto que uma textura quando rotacionada continua sendo a
mesma textura, muito embora, os valores das propriedades variem. Logo, sugere-se calcular
uma média e uma medida de dispersão para contornar essa questão. No entanto, no nosso
caso, não se precisa ter essa preocupação dado que as imagens de espectrograma são sempre
geradas na mesma direção e orientação. Assim, podemos empregar diretamente os quatro
valores para cada descritor gerados pelas quatro orientações da GLCM.
4.2.3 Classificação
A partir das características calculadas para cada segmento de áudio que, como exposto na
Seção 4.2.2, são as propriedades texturais dos espectrogramas, é necessário discriminar ou se
distinguir os mecanismos laríngeos. No primeiro momento, o classificador selecionado para
esse reconhecimento, foi a SVM (Support Vectors Machine - Máquina de Vetores de Suporte)
[140]. Posteriormente, a fim de se ter um parâmetro referente ao processo de classificação em
si, considerando a representação visual do sinal e a sua caracterização por texturas, também se
avaliou o uso de k-NN (k Nearest Neighbors – k vizinhos mais próximos). Dessa maneira,
apresentam-se a seguir cada técnica de classificação utilizada na pesquisa.
4.2.3.1 Máquina de Vetores de Suporte
A SVM é uma técnica de aprendizagem baseada na teoria da aprendizagem estatística e se
caracteriza pela busca de superfícies de separação com margens de separação ótimas, em
contraste com outras técnicas que apenas encontram uma superfície de separação qualquer. A
Figura 11, ilustra essas diferenças, mostrando no item (a) uma superfície de separação correta,
porém arbitrária, enquanto mostra um hiperplano de separação ótimo, isto é, com margem de
separação máxima ou ótima no item (b). As margens de separação são definidas pela menor
distância entre os padrões de treinamento e a superfície de decisão. O fato é que, quanto maior
a margem de separação, maior deve ser o poder de generalização do modelo, visto que dessa
forma se reduz a probabilidade de erros.
Dessa forma, em termos gerais, o treinamento da SVM consiste em encontrar os
vetores que maximizam a margem de separação entre as classes. De outra forma, isso
corresponde a determinar a distância mínima que um padrão está da superfície de separação:
quando nenhum exemplo consegue ter distância menor que este, conseguiu-se definir o vetor
60
de suporte para aquela classe (obviamente, o procedimento se aplica para as duas classes do
problema).
Figura 11 – Superfícies de separação corretas, (a) menor margem, (b) margem ótima.
(a) (b)
Fonte: [141].
O procedimento básico para determinar o hiperplano ótimo de separação só consegue
ser aplicado a dados linearmente separáveis. Como se sabe, a maioria dos problemas não
possuem essa característica e, portanto, são necessários artifícios para contornar essa questão.
No caso, dois procedimentos, em ordem crescente de complexidade e também de
possibilidade de resolução da limitação apontada, são normalmente usados na SVM para esse
fim: (i) margens flexíveis e (ii) a função núcleo.
As margens flexíveis consistem em permitir erros no treinamento do modelo para
aumentar a margem de separação e dessa forma, também aumentar a generalização no teste.
Esse compromisso entre os erros possíveis no treino e o tamanho da margem de separação é
controlado por um parâmetro, conhecido como constante de regularização. A Figura 12 ilustra
essa situação, mostrando um conjunto de dados linearmente separáveis no item (a) e um
conjunto de dados não linearmente separáveis no item (b). A região sombreada indica a área
da margem, a linha sólida representa a superfície de decisão, enquanto que as linhas
tracejadas apontam a superfície formada pelos vetores de suporte. No item (b), os pontos
marcados por ξ* são aqueles que estão do lado errado da margem, ou de outra forma, foram
classificados de forma incorreta.
Nem sempre as margens flexíveis são suficientes para conseguir fornecer uma margem
de separação satisfatória para o problema. Assim, surge a utilização da função núcleo, que é
um procedimento mais capaz de lidar com as não linearidades dos conjuntos de dados do que
as margens flexíveis (embora os dois sejam usados em conjunto na prática), visto que, neste
caso, ainda se geram hiperplanos para separar os dados. Com a função núcleo, as SVMs se
61
tornam capazes de gerar superfícies de separação não lineares, sendo assim, mais adequadas
na maior parte dos casos.
Figura 12 – Classificação por meio de vetores de suporte com margens (a) dados linearmente separáveis e
margens rígidas, (b) dados não linearmente separáveis e margens flexíveis.
Fonte: Adaptada de [142].
O princípio por trás da função núcleo é que, após o mapeamento para o novo
hiperespaço definido pela função núcleo, os dados que eram originalmente não linearmente
separáveis, tornem-se linearmente separáveis. Na
Figura 13, apresenta-se um exemplo de mapeamento que torna dados não linearmente
separáveis (item (a)) em linearmente separáveis (item (b)), como é possível verificar pela
distribuição dos dados e pela superfície de separação do item (b).
Figura 13 – Mapeamento para espaço da função núcleo, (a) espaço de entrada, (b) espaço da função núcleo.
(a) (b)
Fonte: [141].
A SVM é uma abordagem amplamente difundida e bem sucedida em diversas
aplicações de reconhecimento de padrões. Além disso, a SVM é bem adaptada, inclusive na
sua representação padrão, a problemas de classificação binária (como o que temos, dado que a
62
análise se concentrou sobre os dois mecanismos laríngeos mais utilizados). Ainda mais,
também foi o classificador empregado em [122], o que dá indícios de que a SVM é uma boa
escolha para o problema abordado na pesquisa.
Maiores detalhes sobre o treinamento das SVMs, incluindo os detalhes envolvidos nos
problemas de otimização necessários para determinar os vetores de suporte, podem ser
encontrados em [142] e [143]. Assim como outros modelos de aprendizagem, as Máquinas de
Vetores de Suporte possuem parâmetros que determinam o desempenho do modelo em dado
problema. Esses parâmetros são a função núcleo e seus parâmetros internos, além da
constante de regularização usada na flexibilização das margens de separação [142]. A
propósito, as SVMs são normalmente mais sensíveis a variações dos seus parâmetros, fato que
é apontado como uma deficiência do modelo [143].
4.2.3.2 k Vizinhos mais Próximos
O método dos k vizinhos mais próximos (k-NN) é um dos mais simples, conhecidos e
utilizados em aprendizagem de máquina [141]. A ideia da técnica é que exemplos que
pertencem à mesma classe tendem a estar próximos, ou em outras palavras, têm valores
relativamente similares, ao se considerar uma medição de distância entre suas características.
O k-NN pode ser definido como um método não paramétrico baseado em instâncias,
no sentido que, ao contrário da SVM ou das redes neurais artificiais, que passam por um
processo de treinamento no qual se define uma superfície de decisão, o treinamento do k-NN
é simplesmente armazenar todos os exemplos do conjunto de treino. Isso significa que se têm
as características e rótulos (classes) dos exemplos de entrada.
A decisão se baseia exatamente na distância entre a amostra de teste e aquelas do
treino. Faz-se a comparação entre a entrada e todos os exemplos do treino; a classe predita
corresponde àquela igual à da maioria dos k exemplos mais próximos encontrados nos dados
de treino. O valor de k é um parâmetro de entrada do método. A Figura 14 mostra o princípio
de funcionamento do k-NN. A entrada é denotada por ‘x’ e há duas classes (pontos vermelhos
e pretos), enquanto que os eixos coordenados, indicados por x1 e x2, denotam as duas
características das amostras envolvidas no processo de classificação. Nesse exemplo, k tem
valor igual a cinco e assim, a circunferência engloba os cinco exemplos mais próximos de ‘x’.
Logo, ‘x’ é dito como pertencente à classe dos pontos pretos, pois a maioria (três) dos cinco
exemplos mais próximos é dessa classe.
63
Com a ajuda dessa figura, percebe-se que o valor de k desempenha um papel muito
importante nos resultados obtidos pelo k-NN. Logo, o melhor valor de k depende dos dados,
sendo um parâmetro que deve ser otimizado para cada aplicação. Uma heurística comumente
usada para definir o valor de k é variar de 1 até a raiz quadrada do número de exemplos de
treino [144], e então considerar o valor que obteve os melhores resultados.
Figura 14 – Princípio do k-NN.
Fonte: [144].
Outro ponto é que a definição de proximidade depende da medida de distância. A
medida mais utilizada é a distância Euclidiana, embora seja possível encontrar várias outras
na literatura como city-block ou Manhattan, Mahalanobis, Minkowski, apenas para citar
algumas [145]. Destaca-se que a distância usada também pode alterar os resultados obtidos
(assim como o valor do parâmetro k). Assim, pode-se determinar qual a melhor medida para
conjuntos de dados específicos por meio de uma análise experimental ou através da
aprendizagem da função de distância no processo de treinamento [146][147][148].
Ainda mais, também é possível alterar o cálculo das distâncias no que diz respeito à
ponderação dos valores. A estratégia padrão é que todos os exemplos têm o mesmo peso, ou
seja, computa-se apenas a distância entre a entrada e os exemplos, e esses valores servem
como base para a decisão sobre a classe. Mas é possível, por exemplo, considerar que
exemplos mais próximos são mais relevantes e, portanto, atribuir um peso maior para tais
amostras: nesse caso, tem-se uma ponderação inversamente proporcional à distância em
relação à entrada.
64
Um dos principais problemas do k-NN é o custo computacional que cresce à medida
que a base de treino cresce. Isso acontece porque, quando se tem mais exemplos, mais
distâncias são computadas, visto que o método se baseia na comparação direta entre a entrada
e os dados do treino. Duas estratégias são normalmente utilizadas para diminuir esse
problema: (i) procedimento de poda e (ii) agrupamento dos dados.
A poda consiste em remover exemplos da base os quais não contribuem
significativamente para a discriminação. Isso porque sabe-se que exemplos parecidos não
tendem a dar informações que ajudam a diferenciar entre as classes. Logo, a poda é realizada
por meio de uma medida de similaridade, que serve como base para avaliar as amostras do
treino e apontá-las como relevantes quando apresentam dissimilaridades; já as que são
consideradas similares, são removidas normalmente sem maiores perdas de generalização.
A outra forma de realizar menos comparações no k-NN é por meio do agrupamento de
dados ou clustering. Nesse caso, utiliza-se um método de agrupamento o qual define os
centros de cada grupo e, por exemplo, pode-se não fazer comparações com exemplos que
pertencem a um grupo em que a distância foi muito grande (de acordo com um limiar definido
pelo usuário). Assim, no primeiro passo são feitas comparações com um número de exemplos
muito menor do que a quantidade de exemplos de treino (apenas os centros dos grupos). E, no
segundo momento, na maioria dos casos, mesmo ao se comparar com todos os exemplos de
alguns grupos, o número de comparações tende a ser bem menor do que a totalidade de
comparações realizadas quando se usa o conjunto de treino inteiramente.
4.3 CONSIDERAÇÕES
Este Capítulo apresenta em detalhes o método de classificação automática de mecanismos
laríngeos proposto nesta Tese. Assim, definiram-se as principais ideias que levaram ao
presente método, além de cada etapa do processo, explicando tanto os conceitos e algoritmos
base empregados, como a utilização de cada um deles na abordagem apresentada. Dessa
forma, já se tem ideia de parte das limitações do método, dadas as restrições das técnicas de
base utilizadas, tais como dependência de uma parametrização adequada na geração do
espectrograma, na análise de texturas e na classificação.
O maior intuito de desenvolver um método automático para classificar os mecanismos
laríngeos é possibilitar sua utilização como base para a otimização de parâmetros na detecção
de frequência fundamental. Por isso, o próximo Capítulo mostra como usar a informação de
65
mecanismos laríngeos para esse fim, mais detalhadamente, como restringir o intervalo de
busca na detecção de frequência.
66
5 DETECÇÃO DE FREQUÊNCIA FUNDAMENTAL
UTILIZANDO O CONHECIMENTO DOS MECANISMOS
LARÍNGEOS
Como exposto no Capítulo 3, existem diversos métodos para a detecção de frequência
fundamental, inclusive fazendo uso de diferentes abordagens, ou arcabouços teóricos
distintos, além de variados domínios de aplicação sobre o sinal (tempo, frequência ou tempo-
frequência). A grande maioria dos estudos foca no algoritmo em si, mas não na exploração
dos valores de seus parâmetros, normalmente utilizando valores padrão [61].
No entanto, esses parâmetros são importantes para o resultado a ser alcançado, sendo
um deles, o intervalo de busca. Os trabalhos na literatura normalmente consideram um
intervalo bem largo; sendo de 40 a 800 Hz para a voz falada [101], enquanto que no caso da
voz cantada, essa questão é ainda mais pronunciada, já que o intervalo é ainda maior,
chegando a 1500 Hz [66]. Embora esses valores sejam completamente plausíveis dado que
representam um conhecimento adquirido em vários anos de pesquisa pela comunidade,
inclusive do processo de produção da voz humana, não se espera que uma mesma pessoa
varie tanto a frequência numa determinada emissão vocal, ou em pequenos segmentos dela, ao
lembrarmos que a detecção é usualmente feita por blocos ou janelas.
Há situações em que quanto maior o intervalo, maior a incerteza associada ao
algoritmo, tornando-se mais difícil estimar a frequência de forma correta. Como se sabe, a
presença de harmônicos, os quais muitas vezes aparecem com mais energia do que a própria
fundamental, também pode trazer insucesso aos métodos de detecção de frequência
fundamental. A propósito, valores exagerados i.e., que ultrapassam determinado limiar, para
esse intervalo de busca podem até provocar respostas inconsistentes. Ainda mais, erros de
oitava (seja para baixo ou para cima) são bastante comuns e são mais prováveis de acontecer
nesse contexto de um intervalo extenso. Enquanto grandes intervalos podem ser usados para
testar a robustez dos algoritmos em relação a esse tipo de erro, intervalos mais realísticos
podem produzir melhores taxas para as técnicas de detenção de frequência fundamental [61].
Os experimentos realizados em [61] mostraram e concluíram que as técnicas de
detecção de frequência fundamental podem ser beneficiadas se houver ajustes de seus
parâmetros (nesse contexto específico, as frequências mínima e máxima a serem encontradas
no sinal). Ou seja, uma parametrização mais adequada pode melhorar o desempenho dos
algoritmos de forma geral. Ainda mais, algoritmos clássicos da literatura como a
67
autocorrelação modificada (Seção 3.1), a correlação cruzada (Seção 3.2) e o RAPT (Seção
3.3) conseguiram chegar ao nível de acerto de algoritmos mais recentes e apontados como
mais robustos, como o SWIPE [102] e o SHS [93]. Esse fato tem uma implicação contundente
ao atestar que seria possível usar algoritmos mais simples de forma mais eficiente, contanto
que se fizesse um ajuste dos seus parâmetros.
Não foi apresentada em [61] a taxa na qual o intervalo foi apropriado ou não. Pois,
parece razoável pensar que, em alguns casos, possa ter havido erro nessa atribuição. Além
disso, outra questão importante é que em [61], empregou-se uma detecção em dois passos:
primeiro, executa-se a técnica com os valores padrão do software PRAAT (75 Hz – 600 Hz),
e no segundo passo, calculam-se os valores otimizados a partir da estratégia definida em
[150]. Os limites são então definidos conforme as fórmulas apresentadas nas expressões
abaixo:
1072,035 qeriorlimite_inf
109,165 qeriorlimite_sup
nas quais: q35 e q65 representam respectivamente o 35º e 65º quantis para os valores de F0
obtidos no primeiro passo.
Embora seja uma abordagem aparentemente efetiva, encontram-se duas questões: (i) a
necessidade de se ter dois passos de detecção, o que confia a estimação dos limites sobre os
valores encontrados para a frequência, os quais podem estar errados; (ii) a definição das
constantes das fórmulas, incluindo a parametrização dos quantis que, mesmo obtidas
experimentalmente, ainda assim parecem um tanto arbitrárias.
Dado que os mecanismos laríngeos são configurações do próprio sistema fonatório
humano, independente do gênero do locutor (embora as faixas de transição variem um pouco
para cada gênero), parece razoável que eles possam ser utilizados como guia para delimitar os
valores limitantes para a detecção de frequência fundamental. Ainda mais, quando se lembra
de que apesar de haver as faixas de transição entre eles, há frequências que só podem ser
emitidas em determinado mecanismo.
Isso pode ser visualizado tanto na Figura 6 (ao se concentrar sobre as regiões onde
ocorre o salto de frequência que marcam a transição entre os mecanismos), como mais
evidentemente ainda na Figura 15 (na qual se apresentam os perfis das extensões vocais, tanto
para vozes masculinas como para vozes femininas da base apresentada em [151]). Na Figura
15, entre as linhas tracejadas, estão as regiões de transição entre os mecanismos 1 e 2, de
forma que as bordas externas das regiões de transição são aquelas em que se observa apenas
68
um mecanismo. A legenda mostra como interpretar a representação dos níveis mínimos e
máximos de pressão sonora, para cada mecanismo e cada gênero.
A partir da observação da Figura 15, percebe-se que a região de transição entre os
mecanismos, embora um pouco extensa à primeira vista, pouco mais de uma oitava (E3 a G4
para os homens, e G3 a A4 para as mulheres), não chega a representar um terço do alcance
vocal apresentado, ao se examinar cada gênero isoladamente, já que a extensão de cada um
deles é de três oitavas e meia, aproximadamente (E♭2 a G5 para os homens, e D3 a B6 para as
mulheres). Ao se fazer a análise sem distinção de gênero, o valor se torna menos significante
ainda, visto que o alcance total é igual a pouco mais de quatro oitavas e meia (E♭2 a B6), e a
sobreposição nesse caso se dá entre E3 e A4. Para aqueles não familiarizados com as notações
musicais apresentadas aqui, recomenda-se a visualização do Apêndice A para a compreensão
dos elementos de teoria musical necessários, e do Anexo A, para que se compreenda a relação
entre as notas e frequências.
Figura 15 – Perfil da extensão vocal média para vozes masculinas e femininas nos dois mecanismos (M1 e M2).
Fonte: Adaptada de [21].
69
Essa contribuição é bastante interessante visto que, nesse caso, adota-se um critério
inerente à produção vocal humana para guiar o processamento sobre a voz, seja ela falada ou
cantada. Embora se reconheça que possam existir algumas variações devido ao idioma ou
modalidade (fala ou canto), ou até em função da base de dados específica, por exemplo,
acredita-se que isso possa ser suplantado por um projeto cuidadoso no sentido de se
possibilitar a adoção de parâmetros específicos, tornando a abordagem flexível para isso, ou
ainda, de alguma forma, estimar como tornar o método invariante a essas questões.
5.1 DETERMINAÇÃO DOS INTERVALOS DE BUSCA OTIMIZADOS
Considerando esse cenário e baseando-se em trabalhos da literatura
[21][27][28][152][153][154], pôde-se definir os intervalos de busca para a frequência
fundamental para cada mecanismo laríngeo. A Tabela 2 mostra esses intervalos de busca
baseados nos mecanismos laríngeos. Pela análise dos valores, é possível observar o que foi
argumentado nos Capítulo 2 e neste capítulo também: há frequências que só conseguem ser
produzidas em determinados mecanismos, havendo uma faixa de interseção entre os
mecanismos “vizinhos”.
Tabela 2 – Intervalos de busca baseados no mecanismo laríngeo.
Mecanismo Limite inferior (Hz) Limite superior (Hz)
M0 2 78
M1 77 440
M2 164 988
M3 932 1568
Assim, pode-se determinar se o conhecimento dos mecanismos laríngeos
exclusivamente consegue gerar a melhora esperada na detecção de frequência. Também se
investigou se a informação do gênero poderia fornecer resultados mais precisos, dado que
essa é uma parametrização ainda mais restritiva ou, de outra forma, torna o intervalo ainda
menor, o que dá a chance de se diminuir a incerteza para a estimativa.
Dessa forma, a Tabela 3 apresenta os limites do intervalo de busca baseados tanto nos
mecanismos laríngeos quanto no gênero do cantor. Os traços na linha referente ao intervalo
para o gênero masculino, mecanismo 3, indicam que não foram encontrados registros de
homens utilizando esse mecanismo na literatura. Ainda mais, outra observação é que não há
interseção entre os usos do M0 e M1 para a voz feminina. Os estudos sugerem que ao
contrário do que acontece com os outros mecanismos, não existe uma faixa de sobreposição
70
de mecanismos no que tange à frequência entre o M0 e o M1, exceto para vozes masculinas
bastante graves [21][155].
Tabela 3 – Intervalos de busca baseados no mecanismo laríngeo e no gênero.
Gênero Mecanismo Limite inferior (Hz) Limite superior (Hz)
Masculino
M0 7 78
M1 77 392
M2 164 660
M3 - -
Feminino
M0 2 78
M1 146 440
M2 185 988
M3 932 1568
Adicionalmente, houve alguns erros inesperados nos experimentos executados
utilizando a informação de gênero. Em alguns exemplos, o gross pitch error (explicado na
Seção 6.2.2.2) chegou a quase 100% quando os valores de frequência fundamental estavam
próximos ao limite superior do intervalo (esse problema foi bem incidente para o RAPT, em
especial). Mais especificamente, ocorriam erros de oitava, dando a ideia de que o intervalo ora
definido pode ser muito restritivo para alguns casos, fazendo com que o método prefira uma
estimativa uma oitava abaixo ou acima.
Por conta disso, resolveu-se incluir uma nova parametrização que considera uma
margem sobre os valores definidos na Tabela 3. A margem foi definida como 20% pois
corresponde à margem considerada para se dizer que houve um erro do tipo gross pitch em
estudos de voz, e também é aproximadamente igual ao intervalo de um tom, na música,
parecendo assim, bem razoável. A Tabela 4 apresenta os valores para essa nova definição para
os intervalos.
Tabela 4 – Intervalos de busca baseados no mecanismo laríngeo e no gênero com adição de margem.
Gênero Mecanismo Limite inferior (Hz) Limite superior (Hz)
Masculino
M0 5 93
M1 61 470
M2 131 792
M3 - -
Feminino
M0 2 93
M1 116 528
M2 148 1185
M3 745 1881
5.2 UTILIZAÇÃO DA INFORMAÇÃO DE MECANISMOS LARÍNGEOS
Assim, definidos os intervalos de busca otimizados pelo conhecimento dos mecanismos
laríngeos, a ideia é que as medidas de erro para a detecção de frequência fundamental possam
71
ser melhoradas, quando comparadas com a parametrização para o canto (60 – 1500 Hz) [66].
Ainda mais, pode-se determinar se a informação do mecanismo laríngeo em uso é suficiente
para prover essa melhora de resultados ou se a informação do gênero deve fazer diferença.
A primeira ideia que surge ao ter um processo de classificação é usar sua saída sem
qualquer filtro, ou seja, se o classificador predisser que a amostra pertence a uma classe, leva-
se essa informação adiante e executam-se as próximas etapas baseando-se nesse dado. No
cenário específico deste trabalho, seria considerar que, se o classificador apontou que o
exemplo é do mecanismo 1, utiliza-se o intervalo definido para o mecanismo 1, e da mesma
forma para o mecanismo 2.
Contudo, ao se considerar a saída de um procedimento automático de classificação, é
necessário considerar a possibilidade de haver erros. Quando se pensa em um processo
executando após a saída de outro, parece óbvio que um erro em uma etapa anterior pode
causar erros na etapa posterior do processo. Logo, também se avaliou a utilização de um
procedimento de rejeição, baseado na confiança que o classificador tem de ter realizado uma
predição correta, que nesse caso específico é representada pela probabilidade de se pertencer à
classe predita.
A ideia é que, se essa probabilidade é baixa, existe uma chance bem maior de que esse
exemplo tenha sido classificado de forma incorreta, pois o classificador não tem “certeza”
sobre essa classificação. Assim, pode-se definir um limiar o qual vai ponderar as saídas da
classificação: se a probabilidade na saída for maior que o limiar, considera-se a saída da
classificação, ou seja, utiliza-se o intervalo otimizado do mecanismo predito pelo
classificador; caso contrário, ou seja, se a probabilidade for menor que o limiar, utiliza-se o
intervalo padrão, visto que, nesse caso, os erros na detecção de frequência fundamental seriam
aqueles oriundos da própria detecção, e não da definição possivelmente errônea do
mecanismo, provocando um intervalo de busca não apropriado para aquele sinal.
Por exemplo, se fosse emitido um C5 (frequência fundamental igual a 523,25 Hz), mas
ele fosse classificado como pertencente ao mecanismo 1, certamente aconteceria um erro na
extração da frequência (provavelmente indicaria como um C4, ou seja, um erro de oitava para
baixo). Isso porque, nessa situação, conforme se mostra na Tabela 2, não seria possível
indicar um valor maior do que 440 Hz (A4) para a frequência fundamental ao se utilizar
aqueles limites.
Isso também não significa necessariamente que é mais vantajoso utilizar o
procedimento de rejeição porque o erro adicional para os casos em que se usou o intervalo
padrão em vez de usar o intervalo otimizado pode acabar sendo maior quando contabilizado
72
em sua totalidade do que para os casos em que houve erro de classificação. Pois, nesse
contexto, como há interseção entre os mecanismos, nem sempre uma classificação errada
causará erros na detecção de frequência fundamental porque eles só acontecerão quando
houver erro e a frequência estiver além dos limites da faixa de interseção.
5.3 CONSIDERAÇÕES
Neste Capítulo, mostra-se como o mecanismo laríngeo empregado na emissão vocal pode dar
subsídios para otimizar os intervalos de busca na detecção de frequência fundamental. Assim,
apresenta-se a relação entre as frequências emitidas e os mecanismos laríngeos (dependência
das configurações do trato vocal) e como usá-la num processo de detecção de frequência. Isso
é apresentado tanto quando se possui a informação de mecanismo laríngeo previamente
(aplicação direta), como quando a entrada da detecção de frequência é a saída de um
procedimento de classificação automática.
Dado que é necessário avaliar a metodologia proposta, no próximo Capítulo,
apresentam-se os detalhes referentes ao plano experimental deste trabalho. Nesse âmbito,
englobam-se as estratégias desenvolvidas e o ajuste dos parâmetros dos modelos empregados
nas diferentes etapas do método (classificação automática de mecanismos laríngeos e
detecção de frequência fundamental baseada nos mecanismos laríngeos).
73
6 EXPERIMENTOS
Este Capítulo apresenta os experimentos realizados nesta pesquisa, no intuito de mostrar toda
a metodologia empregada, tanto em relação à classificação de mecanismos laríngeos quanto à
detecção de frequência fundamental. Assim, abordam-se as questões referentes ao algoritmo
proposto, além das formas de avaliação utilizadas, as quais possuem papel crucial para a
correta interpretação dos resultados obtidos. Dessa forma, busca-se uma análise detalhada do
desempenho da proposta, com o intuito de destacar e avaliar seus pontos positivos e
negativos.
6.1 BASE LYRICS
O conjunto de dados utilizado como base neste trabalho foi um subconjunto, empregado em
[66], da base LYRICS, apresentada em [10][113]. Assim, utilizaram-se 437 amostras de
vogais cantadas por treze diferentes cantores treinados (seis baixos/barítonos, três
contratenores e três sopranos). Essa restrição da base de dados em relação à emissão de vogais
se deu para evitar problemas de coarticulação entre as sílabas ou fonemas na detecção de
frequência fundamental.
Embora a base de dados não tenha sido construída nesta pesquisa, expõem-se alguns
detalhes sobre a gravação dos sinais. O sinal acústico foi gravado por meio de um microfone
condensador19 (Brüel & Kjær 4165), posicionado a 50 cm da boca, um pré-amplificador
(Brüel & Kjær 2669), e um amplificador condicionado20 (Brüel & Kjær NEXUS 2690). As
taxas de amostragem utilizadas foram de 44,1 ou 48 kHz, com 16 bits de resolução. Já o sinal
eletroglotográfico foi gravado através de um eletroglotógrafo de dois canais [156]. Ambos os
sinais foram gravados diretamente e simultaneamente nos dois canais de um gravador DAT
(Digital Audio Tape – Fita de áudio digital)21 (modelo PORTADAT PDR1000).
As tarefas de canto registradas no conjunto utilizado englobaram vogais sustentadas,
com as seguintes dinâmicas ou articulações: crescendos, decrescendos, arpejos; e glissandos
19 Um microfone condensador, também chamado de capacitivo ou eletrostático opera por meio de um capacitor
variável (capacitores eram chamados de condensadores em terminologia antiga, e por isso o nome). O princípio é
que o diafragma atua como uma placa de um capacitor, e as vibrações produzem mudanças nas distâncias entre
as placas. Sua resposta em frequência é bem plana, quando comparada com outros tipos de microfone, além de
apresentar maior precisão e clareza em uma gravação. 20 É comum utilizar operações de condicionamento do sinal para que este possa estar nas condições ideiais para
um processo posterior, especialmente em conversões analógico-digital. Um amplificador condicionado tem
como objetivo, nesse cenário, prover amplificação do sinal, isolamento elétrico, alimentação, detecção de
sobrecarga, a fim de poder ser digitalizado. Especificamente, a amplificação do sinal visa cumprir duas funções:
aumentar a resolução do sinal de entrada e aumentar sua relação sinal-ruído. 21 Um gravador DAT grava as informações de forma digital, ou seja, consistindo de sequências de números
binários, numa fita magnética.
74
ascendentes e descendentes. Sempre que possível, foi solicitado aos cantores que utilizassem
ambos os mecanismos laríngeos M1 e M2, ou seja, o cantor deveria emitir as mesmas notas
tanto no M1 quanto no M2, para a faixa de frequência de interseção entre os mecanismos
(frequências que o indivíduo consegue emitir em qualquer um dos dois mecanismos).
Sobre a distribuição das notas ou frequências existentes na base, podem-se extrair duas
informações. Uma se refere à tessitura dos cantores ou as alturas que eles conseguem cantar,
dessa forma, determinando as possíveis notas emitidas para cada mecanismo laríngeo. Isso se
torna importante devido a se saber que existe uma faixa de transição entre os mecanismos, na
qual uma pessoa consegue produzir a mesma frequência em mais de um mecanismo [21].
Sendo assim, a Tabela 5 apresenta os intervalos vocais para cada cantor da base empregada,
com foco nas notas e mecanismos. Nas colunas dos mecanismos, quando aplicável, apresenta-
se o intervalo em que o indivíduo consegue cantar, juntamente com o intervalo em que ele faz
isso de forma confortável, em parênteses. Outros detalhes como idade, profissão, formação
musical, entre outros, podem ser consultados em [10].
Tabela 5 – Características vocais dos cantores na base LYRICS.
Sujeito Classificação
vocal Mecanismo I Mecanismo II
B1 Barítono F1 – A3
(B♭1 – G3) G2 – G4
B2 Barítono G1 – B♭3
(B♭1 – G3) G2 – D♭4
B3 Baixo-
Barítono D1 – B♭3
(F♯1 – G3) F2 – F4
B4 Barítono
dramático E♭1 – A3
(F1 – G♯3) E2 – C4
B6 Barítono E♭1 – B♭3
(G1 – G3) E2 – E4
B7 Baixo-
Barítono
D1 – F♯3
E1 – F3 E3 – B♭3
CT1 Contratenor F♯1 – A3
(F♯1 – F♯3) F♯2 – A4
(A2 – F♯4)
CT2 Contratenor D1 – A3
(A1 – D3) E2 – A4
(G2 – F♯4)
CT3 Contratenor G1 – F3
(B1 – D3) F2 – B4
(G2 – G4)
S1 Soprano
coloratura C2 – E♭3
B♭2 – E6
(C3 – F5)
S2 Soprano lírico E2 – A3
(E2 – F3) A2 – C♯5
(A2 – B4)
S3 Soprano lírico
jovem
D2 – D3
(F2 – D3) D3 – G5
(D3 – F5)
75
6.1.1 Conjunto de notas isoladas
Para poder avaliar a proposta de classificação automática de mecanismos laríngeos e,
consequentemente, a sua aplicação sobre a detecção de frequência fundamental, extraiu-se um
subconjunto da base LYRICS (exposta na seção anterior) composto por áudios em que há
apenas uma nota cantada. Isso porque para tal, é importante isolar o problema da distinção
entre os mecanismos em si, dos diversos outros problemas que podem aparecer ao se
considerar a aplicação de uma técnica para o processamento de sinais, e também até da
própria utilização do método proposto, tais como: segmentação (em blocos fixos como na
Transformada de Fourier, ou dinâmico a partir de fronteiras entre as frequências diferentes),
granularidade (se primeiro se deve avaliar a presença de transições para depois fazer a
classificação, caso esse em que se teria uma abordagem em dois níveis, ou se é melhor aplicar
a classificação diretamente), o tratamento para áreas de transição, etc. Percebe-se que ao
empregar um arquivo em que só há uma nota presente, esses problemas são minimizados ou
eliminados, possibilitando assim, concentrar-se na questão fundamental: verificar se é
possível fazer uma classificação entre os mecanismos vibratórios da laringe a partir do sinal
de áudio.
Posto isso, obteve-se um conjunto de 146 arquivos que contêm apenas uma nota
sustentada. Como essa base se torna essencial para a validação da proposta, apresenta-se a
quantidade de exemplos por mecanismo (Tabela 6).
Tabela 6 – Distribuição dos exemplos do conjunto de emissões de notas isoladas por mecanismo laríngeo.
Mecanismo Quantidade
M1 80
M2 66
A partir da observação da Tabela 6, conclui-se que em relação ao mecanismo laríngeo,
a base se mostra balanceada [144], ou seja, há uma proporção semelhante entre as classes
existentes. Essa disposição é importante porque o desbalanceamento entre as classes costuma
provocar problemas de aprendizado para os diversos algoritmos e, portanto, exige a utilização
de estratégias definidas especialmente para esse tipo de distribuição dos dados.
6.1.2 Conjunto de mecanismo único
A fim de avaliar a possível melhora obtida quando da utilização de intervalos otimizados de
forma geral, pode-se utilizar um conjunto maior de exemplos, do que aquele em que só há
uma nota cantada. Isso porque para essa avaliação, utiliza-se a informação de mecanismo
76
laríngeo da própria base de dados, fato que evita a preocupação com a questão de notas
diferentes causarem possíveis problemas de classificação. Esses valores de referência de cada
emissão foram registrados nas pesquisas que geraram a base de dados [10][113], analisando-
se simultaneamente os áudios pela análise acústica perceptiva e pelos registros
eletroglotográficos, por meio do próprio EGG e do DEGG, analisando-se os picos, formas e
transições, o que permitiu a estimação dos parâmetros pertinentes, e consequentemente, os
mecanismos laríngeos.
Assim, é possível ter a dimensão de o quanto se pode ganhar com o emprego de
intervalos otimizados baseados no mecanismo laríngeo, dando subsídios para possíveis
investigações futuras. Pois, caso não houvesse ganho significativo ao se usar a informação
sobre mecanismo presente na base de dados em relação à detecção de frequência fundamental,
não haveria a possibilidade de melhoria em um processo que usa uma classificação
automática (que ainda tem uma porcentagem de erro associada, mesmo que minimizada).
Ademais, essa avaliação se torna bastante importante para mostrar que os resultados da
detecção de frequência fundamental podem ser melhores para quaisquer frequências que
variam de forma significativa durante o tempo (cenário habitual em aplicações de voz).
Portanto, extraiu-se um conjunto de 405 exemplos, correspondendo àqueles em que
apenas um mecanismo laríngeo foi usado. Pondera-se que ainda é necessário manter a
restrição de apenas um mecanismo na amostra porque caso houvesse mais de um mecanismo,
seria necessário executar algum procedimento de segmentação ou identificação dos instantes
de transição, o que não foi realizado neste trabalho. Nesse cenário, a distribuição de exemplos
nessa base, de acordo com os mecanismos laríngeos é apresentada na Tabela 7. Ressalta-se
que nesse caso, como não se executa a classificação automática, também não há problemas
em relação à predominância de exemplos que utilizam o mecanismo 1.
Tabela 7 – Distribuição dos exemplos do conjunto de emissões com mecanismo único por mecanismo laríngeo.
Mecanismo Quantidade
M1 257
M2 148
6.2 METODOLOGIA
Esta Seção versa sobre as escolhas feitas em relação à metodologia utilizada no estudo. Como
abordou-se tanto a classificação de mecanismos laríngeos como a aplicação desse
conhecimento na detecção de frequência fundamental e são tarefas que exigem cada uma
77
parâmetros e configurações específicas, separa-se nas Subseções a seguir, a metodologia
adotada em cada uma dessas tarefas.
6.2.1 Classificação de mecanismos laríngeos
Para melhor compreensão, cada Subseção seguinte apresenta um quesito, sendo: as
características de textura extraídas da imagem do espectrograma expostas na Subseção
6.2.1.1; o classificador e seus parâmetros na Subseção 6.2.1.2; o planejamento dos
experimentos, no sentido de como se conduziram os testes, na Subseção 6.2.1.3; e finalmente,
os critérios de avaliação usados na Subseção 6.2.1.4.
6.2.1.1 Características
Como apresentado no Capítulo 4, o cerne da proposta consiste em se fazer a discriminação
entre os mecanismos laríngeos por meio da diferenciação entre as imagens de espectrograma
geradas em cada caso. E ainda, concluiu-se que a análise de texturas poderia dar respostas
para o objetivo pretendido.
E assim, utilizaram-se as seguintes propriedades: segundo momento angular ou energia,
contraste, correlação, homogeneidade, entropia, máxima verossimilhança e momento de
terceira ordem (expostas na Seção 4.2.2 e definidas pelas Equações (27) a (33)). Como a
matriz de coocorrência de tons de cinza tem uma dependência angular, ou seja, é possível
variar os ângulos e a partir daí obter diferentes valores para os descritores, aplicaram-se as
quatro orientações possíveis (0°, 45°, 90° e 135°), sendo que as outras quatro que
completariam o círculo trigonométrico em passos de 45°, fornecem as mesmas respostas que
os ângulos informados. Dessa forma, têm-se sete descritores em quatro ângulos, totalizando
um conjunto de 28 características, as quais representam cada amostra.
O valor do parâmetro de distância do cálculo da GLCM (d) utilizado foi igual a 1 (valor
padrão). Salienta-se que nesse momento, não se fez exploração experimental sobre a variação
desse parâmetro.
6.2.1.2 Classificação
Ao realizar os primeiros experimentos, os quais visavam mostrar que era possível classificar
automaticamente os mecanismos laríngeos, explorou-se a viabilidade da proposta num sentido
amplo, em vez de se obter de fato a melhor taxa de acerto possível. E portanto, os parâmetros
do modelo não foram ajustados empiricamente, mantendo então seus valores padrão. Esses
78
valores são: núcleo RBF; desvio padrão igual ao inverso do número de características e,
portanto, no nosso caso, é igual 1/28; e constante de regularização igual a 1.
Posteriormente, realizou-se uma avaliação experimental sobre os parâmetros do
classificador. Nesse sentido, fez-se um procedimento de busca grid search22 e os parâmetros
foram, no primeiro momento: núcleos, o RBF e polinomial; os parâmetros internos das
funções de núcleo (desvio padrão e grau do polinômio, respectivamente) e a constante de
regularização variaram de 10-5 a 105, com um passo de 1 no expoente da potência.
Após encontrar os melhores resultados com essa parametrização, fez-se uma
exploração mais detalhada na vizinhança de cada parametrização, aumentando a
granularidade na variação dos parâmetros. Por exemplo, agora, em vez de variar o expoente
de 1 em 1, como foi anteriormente, o passo seria de 0,1, ou então, para o caso de os valores
estarem numa faixa de 100 por exemplo, a variação se daria em torno desse valor, indo de 97
a 102. Ou seja, altera-se a ordem de grandeza da variação do parâmetro, tendendo assim a ter
uma exploração detalhada do comportamento do classificador, em relação aos parâmetros
utilizados. Mais detalhes em relação aos valores específicos são mostrados na Seção 7.1.1,
dado que esses valores são funções específicas dos resultados encontrados em cada passo da
análise.
Já considerando o segundo modelo de geração de imagens (baseado na densidade
espectral), o primeiro nível de classificação forneceu um resultado bastante satisfatório visto
que esse modelo fornecia um resultado superior na discriminação entre os mecanismos.
Portanto, não se fez tantos níveis de exploração nesse caso, embora fosse plausível; optou-se
por parar a exploração e utilizar os resultados desse primeiro nível já que dessa forma, o
objetivo principal do trabalho já poderia ser atingido.
6.2.1.3 Plano experimental
Tendo em vista a validação da proposta e até sua avaliação posterior à medida que surgirem
novas ideias, tanto nesta pesquisa, como em trabalhos futuros pelo autor, como por outros
pesquisadores, utilizou-se a validação cruzada estratificada repetida [144] como abordagem
para execução dos testes. A validação cruzada visa determinar o poder de generalização dos
modelos, ao avaliar seu desempenho em diferentes porções do conjunto de dados.
22 Grid search, que em tradução livre significa busca em grade, consiste do método de executar a seleção dos
parâmetros de forma exaustiva, cobrindo todos os valores especificados. De outra forma, a avaliação é feita
sobre o produto cartesiano dos conjuntos de parâmetros selecionados, o que corresponde à união de todos esses
valores [157].
79
Há vários procedimentos para a validação cruzada, tendo sido empregado o mais
usado deles: a validação cruzada k-fold [158]. Mais especificamente, fez-se uma validação
cruzada 4-fold, o que significa que para cada execução, tinham-se 3/4 dos dados para treino e
1/4 para teste. Esses valores foram determinados por causa da relativa pequena quantidade de
dados disponíveis, no sentido que ao utilizar um valor de k maior, faria com que se contasse
com poucos exemplos de teste em cada rodada.
Emprega-se uma amostragem estratificada para manter as proporções entre as classes
da base como um todo em cada conjunto. Isso garante que se têm exemplos de todas as
classes nos conjuntos de treino e teste, além de facilitar a aprendizagem e também refletir a
distribuição dos dados na construção da superfície de decisão.
A repetição se dá em virtude de prover ou aumentar a significância estatística dos
experimentos. Dessa forma, o procedimento de validação cruzada foi repetido dez vezes,
gerando assim 40 execuções do processo de classificação (treino e teste). Convém lembrar
que a heurística de haver pelo menos 30 execuções para ter relevância estatística decorre do
fato de que com aproximadamente 30 graus de liberdade, a distribuição t-student já se
aproxima bem de uma distribuição normal (a aproximação melhora quando se aumenta o
número de graus de liberdade, tendendo a ser igual no infinito) [160].
Assim, para cada grupo de parâmetros definidos anteriormente, combinados segundo a
estratégia de grid search (explicada na Subseção anterior), aplica-se esse procedimento de
validação cruzada 4-fold repetido dez vezes. Dessa forma, coletam-se as estatísticas para cada
execução, sendo possível avalia-las segundo os critérios de avaliação determinados para essa
aplicação (apresentados na próxima Subseção).
6.2.1.4 Critérios de avaliação
Basicamente, o critério de avaliação adotado corresponde à taxa de acerto da classificação
entre os mecanismos laríngeos. No entanto, menciona-se que essa medida se torna efetiva ao
se considerar sua média e desvio padrão, sendo esta a metodologia empregada.
6.2.2 Detecção de frequência fundamental
6.2.2.1 Plano experimental
Para a avaliação considerando o uso da informação de mecanismos laríngeos para restringir os
intervalos passados como parâmetros para a detecção de frequência fundamental, realizaram-
se dois experimentos. No primeiro, utilizaram-se os dados existentes na própria base de dados
80
(a base contém a informação de mecanismos laríngeos para cada amostra) para poder avaliar
os ganhos obtidos a partir da otimização nos intervalos baseando-se tanto nos mecanismos
laríngeos apenas, como também em conjunto com o gênero do cantor, que gera uma restrição
ainda maior. No segundo momento, avalia-se a detecção de frequência fundamental
utilizando a saída do procedimento de classificação automática de mecanismos laríngeos
desenvolvido no trabalho. Assim, para cada amostra, independente de um caso de erro ou
acerto, o mecanismo predito pelo classificador indica qual intervalo será aplicado na detecção
de frequência.
Nesse contexto, conforme comentado na Seção 5.2, avaliou-se ainda a aplicação de um
procedimento de rejeição, baseado na probabilidade da classificação na saída do classificador.
Considerando que a saída do classificador é um valor de probabilidade para cada classe, no
caso em que houvesse dúvida máxima na classificação, os valores de probabilidade seriam
iguais a 0,5 para cada classe (sabendo que a soma das probabilidades é sempre igual a 1).
Tendo isso em vista, consideraram-se como limiares: 0,60; 0,65; 0,70 e 0,75. Os
valores foram pensados seguindo a ideia de que valores de probabilidade menores que 0,60,
de certa forma ainda configurariam certa dúvida do classificador; enquanto que
provavelmente, ao se ter um limiar maior que 0,75, geraria além da rejeição de exemplos
incorretos, a rejeição de exemplos corretos em demasia. Isso aconteceria porque uma
probabilidade de 0,8 para uma classe, implica 0,2 de probabilidade para a outra, o que não se
considera como “dúvida” e, portanto, não faria sentido ter um limiar mais alto que esse.
6.2.2.2 Critérios de avaliação
Como critérios de avaliação para a detecção de frequência fundamental, utilizaram-se as
medidas comumente usadas na literatura, as quais são:
Voice decision error (VDE – erro na detecção de voz): é igual à proporção dos
quadros em que houve erro na detecção de atividade vocal. Um erro desse tipo ocorre
quando o quadro é “vozeado” mas o detector o aponta como “não vozeado” e vice-
versa.
Gross pitch error (GPE – erro de altura grosseiro): corresponde à proporção dos
quadros em que houve um erro que excede determinado limiar. A avaliação desse tipo
de erro só se aplica para os quadros em que tanto o método quanto o ground truth
consideram “vozeados”. Normalmente, nos estudos de fala, esse limiar é configurado
como 20%. Contudo, como se estão tratando sinais musicais, para que esse limiar faça
81
sentido nesse contexto, ele é configurado para ser igual à metade de um semitom, pois,
se formos atribuir um rótulo de uma nota para determinada frequência, um erro maior
do que esse geraria um rótulo incorreto. Mais especificamente, o valor é igual a 55
cents, sendo um semitom igual a 100 cents.
F0 frame error (FFE – erro de F0 no quadro): é definido como a proporção dos
quadros em que houve um VDE ou GPE. O FFE é uma medida única para dar um
panorama geral do desempenho do detector de frequência, pois, avalia o balanço entre
os erros de detecção da voz e da estimação de frequência.
Mean of fine pitch errors (MFPE – média dos erros relativos de altura): média dos
erros relativos de altura, na comparação entre o valor predito pelo método e o ground
truth, em cents, para os quadros que foram avaliados como corretos segundo o GPE.
Com essa medida se avalia o viés na estimação de frequência.
Standard deviation of fine pitch errors (SFPE – desvio padrão dos erros relativos de
altura): desvio padrão da distribuição dos erros relativos de altura, também medido em
cents. É uma medida da acurácia do detector de frequência.
6.3 IMPLEMENTAÇÕES
Nesta pesquisa, utilizaram-se dois ambientes de programação: o MATLAB23 [161], versão
2017a, para a parte do processamento do sinal e de imagens; e o Python24 [162], versão 3.5,
para a classificação (execução da validação cruzada e SVM). A IDE (Ambiente Integrado de
Desenvolvimento) utilizada para o código Python foi a PyCharm25. Ainda mais, usaram-se as
bibliotecas NumPy26 e SciPy27 [163], além da scikit-learn28 [164]. Nesta última, a
implementação da SVM é um wrapper Python para a LIBSVM29 [165] (biblioteca escrita em
C largamente testada e utilizada em geral na área de aprendizagem de máquina).
A opção pelo MATLAB se deve à facilidade de se tratar matrizes e,
consequentemente, imagens por parte do programa, além da disponibilização de várias
funcionalidades nativas para o processamento de imagens [166] e de sinais [33], além de
fornecer uma interface amigável e apropriada para o trabalho com imagens e sinais digitais.
23 Disponível em: <http://www.mathworks.com/products/matlab/>. 24 Disponível em: <https://www.python.org/>. 25 Disponível em: <https://www.jetbrains.com/pycharm/>. 26 Disponível em: <http://www.numpy.org/>. 27 Disponível em: <https://www.scipy.org/>. 28 Disponível em: <http://scikit-learn.org/stable/>. 29 Disponível em: <https://www.csie.ntu.edu.tw/~cjlin/libsvm/>.
82
Cabe relatar que esse software é bastante utilizado e difundido para o processamento de
imagens e de sinais.
Utilizou-se Python por já existir o código para a execução da classificação nessa
linguagem e ainda é uma linguagem/ambiente que tem sido largamente empregado pela
comunidade de aprendizagem de máquina. Como o objetivo era a classificação apenas, sem
precisar de intervenções no núcleo da SVM, isto é, modificações no seu treinamento ou no
modo de classificação, a reescrita do código não se tornou requerida.
6.4 CONSIDERAÇÕES
Este Capítulo aborda todo o protocolo experimental aplicado no trabalho. Dessa maneira,
apresenta-se: (i) a base de dados utilizada, incluindo os subconjuntos que foram necessários
para possibilitar a análise de desempenho de forma conveniente; (ii) a metodologia tanto para
a classificação de mecanismos laríngeos como para a detecção de frequência fundamental
incluindo os critérios de avaliação empregados e, por fim; (iii) as características e ferramentas
das implementações realizadas.
Nesse ponto, toda a metodologia proposta precisa ser avaliada de forma sistemática,
sobre um conjunto de sons, mais especificamente, vozes cantadas. O próximo Capítulo aborda
os experimentos realizados, primeiramente, em relação à classificação de mecanismos
laríngeos. Depois, apresentam-se os experimentos sobre a detecção de frequência
fundamental, incluindo a comparação com as técnicas da literatura sem a utilização da
otimização proposta no trabalho.
83
7 RESULTADOS E ANÁLISE
Este capítulo tem como objetivo descrever e discutir os resultados obtidos pelas propostas
apresentadas neste trabalho. Dessa forma, especificamente, apresenta-se o que foi alcançado
para a classificação de mecanismos laríngeos, na Seção 7.1 (base para a otimização de
intervalos de busca para a detecção de frequência fundamental) e também para a detecção de
frequência fundamental em si, na Seção 7.2.
7.1 CLASSIFICAÇÃO DE MECANISMOS LARÍNGEOS
Como exposto no Capítulo 4, houve dois momentos em relação à classificação automática dos
mecanismos laríngeos. No primeiro, o objetivo era mostrar que é possível/viável realizar uma
classificação automática utilizando apenas o sinal de voz. Isso implica as duas novidades em
relação ao tratamento dos mecanismos laríngeos, que tinham sua classificação de forma
manual, baseada no sinal EGG. Esses resultados estão descritos na Subseção 7.1.1. No
segundo momento, buscou-se melhorar os resultados obtidos com essa classificação para
poderem ser utilizados na detecção de frequência fundamental (objetivo principal de seu
desenvolvimento). Assim, foram realizadas modificações e arranjos experimentais que
puderam aumentar a taxa de acerto nessa classificação ou, de outra forma, habilitaram a
aplicação da classificação de mecanismos laríngeos como base para a detecção de frequência.
Apresentam-se esses resultados na Subseção 7.1.2.
7.1.1 Imagens baseadas na magnitude da STFT
7.1.1.1 Viabilidade da proposta
Como comentado, o objetivo do experimento inicial era verificar a possibilidade de se
classificar um sinal entre os mecanismos laríngeos através apenas do sinal de áudio, mais
especificamente, pela textura do espectrograma. Lembra-se que nesse contexto, as imagens
foram obtidas por meio do cálculo da magnitude da STFT, as texturas foram descritas
utilizando propriedades de Haralick e a classificação realizada por uma SVM, com parâmetros
padrão da biblioteca empregada. Nesse cenário, obteve-se uma taxa média de acerto de
86,16%, com desvio padrão de 0,0452.
Esse resultado atesta a viabilidade de se fazer a classificação automática de
mecanismos laríngeos, dado que mesmo sem uma parametrização empírica do classificador, a
qual muitas vezes é necessária para se atingir uma boa acurácia, conseguiu-se uma taxa
84
superior a 80% (valor dependente do problema em questão). Ainda mais, também não se
contou com a utilização de outros descritores de textura, o uso de características diretamente
extraídas do sinal de áudio, i.e., que não são obtidos pela representação visual dada pelo
espectrograma, ou ainda algum processo de extração ou seleção de características.
Detalhando a análise, obteve-se um pequeno desvio, visto que a diferença entre os
maiores e menores valores não é acentuada. Esses achados também se verificam ao saber que
o pior resultado de validação cruzada foi de 75,00% e o melhor de 97,30%. E, ainda mais, ao
verificar que o primeiro quartil fica em 83,33%, enquanto que o terceiro, em 89,19%,
ilustrando que a maior parte das taxas esteve neste intervalo. Outro dado interessante é que a
moda e mediana são iguais a 86,11%, bem próximas da média, que é de 86,16%. Isso aponta
certa tendência “central” das taxas.
É interessante notar que no pior cenário do experimento, a taxa de acerto foi bem
superior ao que seria uma tentativa aleatória ao acaso, dado que nesse cenário, a taxa seria de
50% (que é o valor esperado na média de um evento aleatório com duas possibilidades); ou a
uma abordagem baseada na probabilidade a priori entre as classes, ao se considerar que a
distribuição existente na base de notas isoladas fosse a realidade do universo de emissões
vocais (54,79%, ao se escolher sempre pela maioria). Isso é um bom indicativo que, de fato, o
método proposto pode ser eficaz. Esses resultados foram publicados em [167].
7.1.1.2 Exploração dos parâmetros do classificador
Apesar de mostrar que era possível realizar a classificação de mecanismos laríngeos
utilizando o espectrograma e descritores de textura, o resultado alcançado no primeiro
experimento, descrito na Subseção anterior, motivou a avaliação de parâmetros dos
classificadores a fim de se obter taxas de acerto mais elevadas. Nesse momento, adotou-se a
exploração dos parâmetros dado que é sabido que eles são fatores determinantes no
desempenho de um classificador. Ainda mais, também foi utilizado o k-NN (explicado na
Subseção 4.2.3.2) como alternativa à SVM, no intuito de verificar se há uma diferença de
comportamento significativa em função do classificador.
Dado que o k-NN apresenta atributos discretos ou categóricos, não há porque realizar
vários níveis de exploração de parâmetros. Dessa forma, os parâmetros empregados para o k-
NN são apresentados na Tabela 8.
Devido à enorme quantidade de valores devido à combinação entre os parâmetros, preferiu-se
não mostrar todos esses resultados individualmente. Em vez disso, relata-se o resultado para a
85
melhor parametrização, de acordo com os experimentos realizados. Nesse contexto, a maior
taxa atingida com o k-NN foi de 86,98%, com 7 vizinhos, distância de Manhattan e
ponderação inversamente proporcional, independentemente do algoritmo usado para a
computação da distância. A parametrização padrão do k-NN na biblioteca (5 vizinhos,
distância Euclidiana, ponderação uniforme e algoritmo Auto) atingiu 85,34% e o mínimo foi
de 77,27%. Logo, pode-se corroborar que a avaliação sobre os parâmetros do k-NN é
importante para o desempenho, conforme esperado e reportado em outros trabalhos na
literatura.
Tabela 8 – Parametrização para o k-NN.
Parâmetro Valor
k 1; 3; 5; 7; 9; 11
Distância Manhattan; Euclidiana; Chebyshev; Minkowski
Ponderação Uniforme; Inversamente proporcional
Algoritmo Auto; Ball-Tree; Kd tree; Força bruta
Já no caso da SVM, excetuando a função de núcleo, os parâmetros têm valores
contínuos e, portanto, torna-se necessário uma exploração mais profunda. A Tabela 9 mostra
o conjunto de valores utilizados inicialmente para os testes com a SVM. O passo para a
variação dos parâmetros internos das funções de núcleo e para o constante de regularização
foi de um no expoente, ou, em outras palavras, variou sobre potências de 10.
Tabela 9 – Parametrização inicial para a SVM.
Parâmetro Valor
Função de núcleo RBF, sigmoide
Parâmetro interno 10-5 a 104 e 1/28
Constante de regularização 10-5 a 104
Nesse nível, duas configurações conseguiram os melhores resultados: as duas usaram
núcleo RBF, e uma com desvio padrão igual a 10-4 e constante de regularização igual a 102,
enquanto que a outra, tinha desvio igual a 10-5, e constante de regularização igual a 103. Nos
dois casos, a taxa de acerto foi igual a 87,73%. Já no primeiro ponto, verifica-se a importância
de se configurar os parâmetros, tal como ocorreu com o k-NN (como mostrado na Seção
7.1.1.1, o resultado foi de 86,16%, com o núcleo RBF, desvio igual a 1/28 e constante de
regularização igual a 1). Além disso, é necessário aprofundar a análise, explorando-se os
valores na vizinhança dos valores de parâmetros citados, a fim de determinar qual
configuração experimental pode fornecer os melhores resultados.
Dessa forma, apresentam-se os valores de parâmetros utilizados nesse primeiro nível
de exploração na Tabela 10 e na Tabela 11. Mantivemos a função sigmoide neste momento,
86
porque embora não tenha apresentado as taxas mais elevadas, elas ainda eram próximas às
melhores do núcleo RBF e, assim, poderia haver alguma configuração interessante que
passaria despercebida ao ignorar isso. Em ambas as explorações, o parâmetro interno agora
varia de 0,1 (10-1) sobre o expoente da potência de 10. Em relação aos valores da constante de
regularização, na Tabela 10, o passo foi de 50, enquanto que, na Tabela 11, foi de 100.
Tabela 10 – Primeiro nível de exploração para a SVM (1).
Parâmetro Valor
Função de núcleo RBF, sigmoide
Parâmetro interno 10-4,5 a 10-3,5
Constante de regularização 50 a 250
Tabela 11 – Primeiro nível de exploração para a SVM (2).
Parâmetro Valor
Função de núcleo RBF, sigmoide
Parâmetro interno 10-5,5 a 10-4,5
Constante de regularização 800 a 1200
Para a exploração baseada nos valores mostrados na Tabela 10, o melhor resultado foi
88,35%, usando núcleo RBF, desvio padrão igual a 10-3,7 e constante de regularização igual a
150. Relata-se que essa foi a maior taxa atingida em todos os experimentos executados nesse
contexto (imagens obtidas via magnitude da STFT). Para os valores mostrados na Tabela 11,
a maior taxa de acerto foi de 88,28%, com o núcleo RBF, desvio igual a 10-4,9 e constante de
regularização igual a 1200. Ainda foi realizado um nível a mais de análise, restringindo mais
ainda os valores na vizinhança do que foi encontrado na exploração anterior, contudo, não
foram encontrados resultados melhores. No melhor caso, os resultados foram iguais aos já
reportados acima e, portanto, decidiu-se não apresentar esses valores de parâmetros.
Logo, conclui-se que o melhor resultado atingido nesse ponto foi uma taxa de acerto
de 88,35%, mostrando que a avaliação experimental é realmente importante, visto que foi
possível aumentar a acurácia do classificador em 2,19 pontos percentuais (observando-se que,
ao usar os valores padrão dos parâmetros, atingiu-se 86,16%). Também é importante destacar
que mesmo um classificador mais simples como o k-NN pôde gerar resultados bem
satisfatórios (86,98%) ao se configurar seus parâmetros de forma adequada.
Nesse ponto, pode-se afirmar que o objetivo inicial foi alcançado: mostrar que se pode
classificar automaticamente os mecanismos laríngeos, sem utilizar o EGG, ou de outra forma,
usando apenas o sinal de áudio como base, considerando o aspecto visual do espectrograma
(reforçando essa ideia já mostrada na Subseção 7.1.1.1).
87
7.1.2 Imagens baseadas na densidade espectral
A partir dos resultados alcançados nos experimentos descritos na Subseção 7.1.1, buscou-se
aumentar a referida taxa de acerto, para possibilitar a utilização da classificação proposta na
detecção de frequência fundamental. Isso porque erros na classificação podem causar erros na
detecção de frequência devido à configuração equivocada de parâmetros. Para isso, conforme
relatado na Subseção 4.2.1, alterou-se a forma de criação da imagem do espectrograma e
ainda se fez uma avaliação sobre os seus parâmetros para obter maior acurácia na
classificação.
Assim, além de mudar a forma de cálculo da representação visual, realizaram-se
experimentos na vizinhança dos valores empregados anteriormente. Dessa forma,
primeiramente foram investigados os tamanhos de janela iguais a 128, 256, 512 e 1024.
Depois, os valores do desvio da Gaussiana iguais a 1,5; 2; 2,5; 3; 3,5 e 4 já para o melhor
tamanho de janela. Embora seja possível argumentar que um parâmetro possa ter efeito sobre
o outro, entende-se que a busca por parâmetros feita dessa forma é válida, até porque ao
observar as imagens geradas, percebe-se que o tamanho da janela influencia a imagem gerada
de forma mais geral, enquanto que o desvio faz diferença nos detalhes mais finos. Ainda mais,
outras pesquisas também adotam esse tipo de estratégia, conforme exposto em [66]. Nesse
ponto, é importante destacar que não se variou o tipo de janela porque há muitas opções
disponíveis, sem contar a variação dos parâmetros dessas funções, e assim, manteve-se a
janela Gaussiana.
A parametrização que obteve o melhor resultado foi utilizando o tamanho de janela
igual a 256 e desvio padrão igual a 2,5. Ao se comparar com os valores empregados
inicialmente, vê-se que os dois valores foram diferentes, sem contar, a própria modificação na
representação de imagem, no que se refere à utilização da densidade espectral. Mais
especificamente, com todas essas atualizações, a taxa de acerto atingida foi de 94,87%,
quando não foi usado nenhum mecanismo de rejeição, isto é, ou as amostras são consideradas
como acerto ou como erro. A exploração sobre os valores dos parâmetros da SVM foi
realizada conforme mostra a Tabela 9 e a configuração que obteve esse resultado foi com o
núcleo RBF, desvio padrão igual a 10-3 e constante de regularização igual a 102.
Assim, a Tabela 12 mostra os resultados médios para as taxas de acerto, rejeição e
erro, além dos respectivos desvios (entre parênteses) para as repetições de classificação
(procedimento explicado na Subseção 6.2.1.3). Todos esses resultados se referem ao
classificador configurado como descrito no parágrafo anterior (melhor resultado). A taxa de
88
erro para a classificação sem limiar de rejeição não apresenta desvio padrão porque ela foi
obtida como o complemento da taxa de acerto média.
Como indicam os valores da Tabela 12, o uso de um procedimento de rejeição baseado
em limiar reduz a taxa de erro com o custo de também reduzir a taxa de acerto. Claro que, na
situação ideal ou no melhor caso, seria bom se apenas o erro diminuísse enquanto que o acerto
se mantivesse, porém, na prática, isso não ocorre. Uma análise mais detalhada sobre a
variação das taxas de acerto e de erro para os limiares avaliados permite verificar que a taxa
de acerto decresce mais do que a taxa de erro. Isso significa que é possível estarem sendo
descartadas mais classificações corretas do que incorretas. Essa realidade se relaciona
diretamente com a probabilidade da predição dada pelo classificador.
Tabela 12 – Taxas da classificação para o melhor classificador dos experimentos.
Classificador Acerto Rejeição Erro
Sem limiar 94,87 (3,46) - 5,13
Limiar = 0,60 92,47 (4,16) 3,63 (3,07) 3,90 (3,09)
Limiar = 0,65 90,62 (4,83) 6,30 (4,12) 3,07 (2,91)
Limiar = 0,70 88,36 (5,14) 9,12 (4,87) 2,53 (2,42)
Limiar = 0,75 85,89 (5,85) 11,78 (6,04) 2,32 (2,35)
Para diminuir a quantidade de exemplos corretamente classificados que são
descartados, seria necessário ajustar essas probabilidades, tornando-as mais confiáveis. Nesse
sentido, seria possível alterar o mecanismo de atribuição dessas probabilidades no processo de
treinamento do classificador ou aplicar alguma estratégia de pós-processamento como
análises sobre a curva ROC30 (Receiver Operating Characteristic – Característica de
Operação do Receptor). A avaliação dessas estratégias não foi realizada nesse estudo porque o
maior objetivo é a aplicação sobre a detecção de frequência fundamental e não
necessariamente a maior taxa de acerto possível (embora inicialmente ela sempre seja
desejada), e julgou-se que o nível alcançado nesse experimento é o suficiente para esse fim.
7.2 DETECÇÃO DE FREQUÊNCIA FUNDAMENTAL
Na aplicação do conhecimento sobre os mecanismos laríngeos na detecção de frequência
fundamental, primariamente, dois grandes experimentos foram realizados. O primeiro
considera a aplicação desse conhecimento utilizando as informações disponíveis na base de
dados (Subseção 7.2.1). Nesse cenário, o objetivo principal é mostrar empiricamente que ao
30 Trata-se de um gráfico que ilustra o desempenho de um classificador binário de acordo com a variação do
limiar de rejeição. A curva ROC é construída a partir da taxa de verdadeiros positivos e de falsos positivos para
cada limiar adotado [159].
89
reduzir o intervalo de busca na detecção de frequência, a partir dos mecanismos laríngeos,
reduzem-se também as taxas de erro. Ainda mais, também se avalia se a restrição adicional
por gênero do cantor leva a redução maior no desempenho do detector de frequência ou se a
informação do mecanismo laríngeo em uso é suficiente para essa otimização.
Já o segundo experimento avalia se o procedimento de classificação automática de
mecanismos laríngeos consegue ser utilizado de forma efetiva com a mesma finalidade de
redução de erros na detecção de frequência (Subseção 7.2.2). A diferença é que, dessa forma,
agora existem os erros de classificação que, por mais bem planejado e treinado que seja um
classificador, normalmente haverá casos de falha. Portanto, é necessário avaliar se, apesar
desses erros, consegue-se uma melhoria significativa na maior parte dos casos, ao menos.
7.2.1 Detecção com conhecimento de mecanismos laríngeos a priori
Para esse experimento, usou-se o conjunto de exemplos com mecanismo único, apresentado
na Subseção 6.1.2. Isso foi possível porque ao ser utilizada a informação de mecanismos
laríngeos da base de dados, não foi necessário realizar a classificação automática, a qual deve
ser afetada pela presença de diferentes notas no estágio atual.
A seguir, são apresentados os resultados para os métodos RAPT (Tabela 13),
autocorrelação modificada (Tabela 14) e correlação cruzada normalizada (Tabela 15). As
medidas de erro avaliadas são o VDE (Voice Decision Error), GPE (Gross Pitch Error), FFE
(F0 Frame Error), MFPE (Mean of Fine Pitch Errors) e SFPE (Standard deviation of Fine
Pitch Errors), todas descritas e definidas na Subseção 6.2.2.1 e para os intervalos de busca
apresentados na Seção 5.1, mais especificamente nas Tabelas 2, 3 e 4. Em todas as tabelas
mencionadas, destacam-se em negrito os menores valores obtidos para cada medida de erro.
Tabela 13 – Taxas de erro para o RAPT com informação prévia de mecanismos laríngeos.
Intervalo VDE GPE FFE MFPE SFPE
Padrão 1,99 15,66 16,70 14,77 14,77
Baseado em mecanismos 1,73 10,30 11,39 12,16 9,28
Baseado em mecanismos e gênero 1,71 13,14 14,03 12,40 9,37
Baseado em mecanismos e gênero com margens 1,76 10,45 11,55 12,39 9,39
Tabela 14 – Taxas de erro para a autocorrelação modificada com informação prévia de mecanismos laríngeos.
Intervalo VDE GPE FFE MFPE SFPE
Padrão 2,03 14,67 15,75 19,31 13,22
Baseado em mecanismos 1,64 7,81 8,91 14,25 10,39
Baseado em mecanismos e gênero 1,64 7,96 9,03 14,21 10,37
Baseado em mecanismos e gênero com margens 1,78 10,90 11,93 16,03 11,31
90
Tabela 15 – Taxas de erro para a correlação cruzada normalizada com informação prévia de mecanismos
laríngeos.
Intervalo VDE GPE FFE MFPE SFPE
Padrão 1,71 11,59 12,58 14,29 10,46
Baseado em mecanismos 1,47 6,48 7,53 11,96 9,27
Baseado em mecanismos e gênero 1,45 6,68 7,70 11,75 9,14
Baseado em mecanismos e gênero com margens 1,56 9,02 9,98 12,90 9,73
A partir da análise das três tabelas, é possível afirmar que o intervalo que obteve os
melhores resultados, no geral, foi o baseado em mecanismos laríngeos. Ao compará-lo com a
parametrização padrão, observa-se que todas as medidas de erro foram reduzidas de forma
significativa. A significância entre as diferenças nos erros foi atestada por meio do teste de
Wilcoxon [160], a um nível de 5% de significância.
Ainda mais, quando avaliam-se os intervalos que também levaram em consideração o
gênero do cantor (tanto com ou sem margens), observa-se que houve algumas reduções muito
pequenas e não significativas apenas em alguns dos erros (VDE, MFPE ou SFPE). Nesse
ponto, ainda existe a questão que uma redução nos erros relativos (MFPE e SFPE), ditos
“refinados” dado que estão dentro da margem de aceitação para um acerto segundo o critério
do erro grosseiro, não pode ser creditada exclusivamente a maior restrição no intervalo
baseada no gênero. Isso porque essas medidas só são calculadas sobre os quadros em que
houve acerto no GPE. Em todos esses casos, o GPE foi maior e, consequentemente, menos
quadros foram avaliados. Portanto, não se pode creditar mesmo essa pequena diminuição nos
erros ao intervalo mais restrito, nessa situação.
Também pondera-se que apesar de algumas diminuições nas medidas de erro
apontadas anteriormente, pode ser observado que a parametrização baseada apenas no
mecanismo laríngeo obteve resultados bem melhores para o GPE e o FFE em todos os casos
quando comparada com a parametrização padrão. A GPE é normalmente considerada a
medida mais importante para a detecção de frequência fundamental e, por conseguinte, essa
redução se torna bastante relevante. A diminuição no FFE também se mostra importante pelo
fato de que essa medida revela justamente o compromisso entre o erro na decisão de voz ou
silêncio e a estimação de frequência em si.
Adicionalmente, há algumas propriedades dos métodos analisados as quais
contribuíram para a melhora obtida com a otimização no intervalo de busca. Mais
detalhadamente, outros picos além daquele que corresponde ao verdadeiro período
fundamental (ou frequência) no quadro podem ser altos o bastante, ou até mais altos que o
pico da frequência fundamental, induzindo o método a um erro na detecção de frequência.
91
Ainda mais, em partes do som em que não há voz, podem aparecer outros picos significativos,
tornando-os os melhores candidatos, provocando uma tendência a ter frequências
fundamentais inexistentes nessas partes. Assim, a otimização proposta ajuda a atenuar essas
fontes de erro na detecção de frequência fundamental por funções de correlação [168].
Embora não seja o foco do presente estudo, observa-se que o método que obteve o
melhor resultado foi a correlação cruzada normalizada. A priori, esse resultado não era
esperado, dado que o RAPT e a autocorrelação modificada são muito mais referenciados na
literatura no geral. Acredita-se que devido à sua formulação mais simples, o efeito do
intervalo reduzido para a detecção de frequência tenha feito mais diferença realmente na
escolha dos picos candidatos para a frequência e não influenciou em outras partes internas do
método, como deve ter acontecido com os outros métodos, os quais são mais refinados.
Isso indica que, para uma aplicação mais geral da proposta desta Tese, é necessário
avaliar quais parâmetros internos e partes dos métodos são possivelmente afetados pelos
valores mínimo e máximo de frequência, para que a restrição no intervalo seja realizada
apenas na etapa desejada, ou seja, no momento de decidir sobre os candidatos. Por exemplo,
ao se considerar métodos ditos espectrais, ou seja, baseados no domínio da frequência, é
possível que um valor menor para o limite máximo de frequência impeça um cálculo correto
devido a, por exemplo, não se conseguir o número de harmônicos necessários para estimar a
frequência de forma correta.
Logo, nota-se que, em certos casos, provavelmente apenas reduzir o intervalo de busca
simplesmente, trará melhora na detecção de frequência, sendo necessário avaliar como esses
valores influenciam o funcionamento do método de forma geral. Contudo, julga-se que ao
serem tomadas essas precauções, a restrição do intervalo de busca baseada em mecanismos
laríngeos trará ganhos significativos, como os apresentados nesta Tese, para a detecção de
frequência fundamental. Tais resultados foram publicados em [169].
7.2.2 Detecção baseada na classificação automática de mecanismos laríngeos
Esse experimento teve como fundamento a classificação automática de mecanismos laríngeos.
Nesse caso, utilizou-se a base de notas isoladas, exposta na Subseção 6.1.1, que também foi
usada para os experimentos sobre a classificação (Seção 7.1). Ainda mais, nesse contexto, o
RAPT não foi incluído nesse experimento porque não foi possível automatizar a execução
para prover uma execução em lote no Wavesurfer, impossibilitando gerar a quantidade de
rodadas de execução necessárias nesse cenário. Já os outros dois métodos abordados, a
autocorrelação modificada e a correlação cruzada normalizada, puderam ser utilizados pois se
92
conseguiu gerar uma execução em lote no PRAAT (por meio de sua linguagem interna de
script).
Assim, são apresentados os resultados obtidos para a autocorrelação modificada
(Tabela 16) e a correlação normalizada cruzada (Tabela 17), considerando a aplicação do
intervalo de busca determinado pela predição do classificador em relação ao mecanismo
laríngeo. Entre parênteses, está indicado o valor adotado para a rejeição baseada na
probabilidade para a classe predita, conforme explicado na Seção 5.2. Novamente, estão
marcados em negrito os menores valores de erro atingidos para cada medida de erro avaliada.
Tabela 16 – Taxas de erro para a autocorrelação modificada com a classificação automática de mecanismos
laríngeos.
Intervalo VDE GPE FFE MFPE SFPE
Padrão 2,75 9,52 11,48 17,18 12,53
Baseado em mecanismos (sem limiar) 2,63 6,20 8,19 12,08 9,31
Baseado em mecanismos (limiar = 0,60) 2,92 7,83 9,78 12,03 9,26
Baseado em mecanismos (limiar = 0,65) 2,92 7,78 9,73 12,06 9,29
Baseado em mecanismos (limiar = 0,70) 3,07 8,25 10,17 12,00 9,25
Baseado em mecanismos (limiar = 0,75) 3,07 8,20 10,12 11,90 9,20
Tabela 17 – Taxas de erro para a correlação cruzada normalizada com a classificação automática de mecanismos
laríngeos.
Intervalo VDE GPE FFE MFPE SFPE
Padrão 2,48 6,90 8,80 11,66 9,24
Baseado em mecanismos (sem limiar) 2,48 5,03 6,80 9,94 8,22
Baseado em mecanismos (limiar = 0,60) 2,79 6,87 8,41 9,92 8,18
Baseado em mecanismos (limiar = 0,65) 2,79 6,79 8,34 9,91 8,17
Baseado em mecanismos (limiar = 0,70) 2,93 7,27 8,78 9,89 8,13
Baseado em mecanismos (limiar = 0,75) 2,93 7,22 8,73 9,88 8,14
Analisando ambas as tabelas anteriores, é possível observar a mesma tendência
apontada pelo experimento da seção anterior, isto é, o intervalo de busca baseado em
mecanismos laríngeos diminui os erros na detecção de frequência fundamental, no geral. Para
os dois métodos, os melhores resultados para o VDE, GPE e FFE foram obtidos utilizando a
classificação sem limiar. Apenas para o VDE, houve empate quando comparado à
parametrização padrão para a correlação cruzada normalizada. Frisa-se que houve diferença
de desempenho significativa segundo o critério GPE para ambos os métodos, também levando
a uma redução significativa para o FFE, dado que este corresponde à uma agregação entre o
VDE e o GPE.
Embora os menores valores de erro para o MFPE e SFPE tenham sido alcançados em
configurações com limiar de rejeição, a mesma observação feita para o experimento da Seção
93
7.2.1 também vale: não é possível afirmar se essa redução no erro relativo se dá por realmente
haver um desempenho superior ou se foi por causa do maior erro grosseiro, o que leva a se
analisar menos quadros. Assim, de forma geral, pode-se afirmar que o melhor desempenho
obtido foi para a classificação sem mecanismo de rejeição, ou seja, utilizando a saída da
classificação diretamente.
Em relação à aplicação do procedimento de rejeição, aponta-se que classificações
corretas foram descartadas a um ritmo maior do que aquelas incorretas, como apresentado na
Subseção 7.1.2, visto que a taxa de acerto decresce mais rapidamente do que a de erro, ainda
com o aumento na taxa de rejeição. Consequentemente, no caso da aplicação do limiar de
rejeição, isso implica que mais exemplos que poderiam ter seus resultados melhorados pela
otimização baseada nos mecanismos laríngeos não estão tendo esse benefício. Pois, só se
aplica o intervalo otimizado nos exemplos corretamente classificados, e a soma entre rejeição
e erro utiliza o intervalo padrão, levando a uma menor redução dos erros nessa situação.
Como esperado, a redução nos erros obtida no experimento com a classificação
automática é menor do que aquele com a informação da base, pois, desde o início se sabe que
um erro de classificação (que é praticamente inevitável em algum momento), pode gerar erros
na detecção de frequência fundamental. Além disso, como os conjuntos de dados são
diferentes, embora oriundos da mesma base de dados, também não se pode esperar
exatamente o mesmo desempenho para ambos os casos.
Ainda assim, pontua-se que apesar de poder haver erros por conta de uma classificação
errônea por parte do método, há situações em que isso não acontece. Como existe uma faixa
de interseção na produção de frequências entre os mecanismos vizinhos (bem ilustrada na
Figura 15 e Tabela 2), só ocorrerá um erro devido à estratégia proposta quando a frequência
fundamental estiver fora dessa faixa. Ou seja, para as frequências que estão na faixa de
interseção, um erro de classificação não se torna tão grave, sendo possível ainda detectar as
frequências de forma correta, dado que, nesse caso, não haverá uma indução ao erro por um
intervalo totalmente inapropriado. E apesar disso, também deve-se levar em conta que o
intervalo utilizado não é tão grande como o padrão nesse caso e, portanto, pelo que foi
demonstrado nos experimentos, deve haver redução no erro mesmo assim.
Apesar de haver diferenças de desempenho entre as diferentes parametrizações no que
se relaciona ao procedimento de rejeição, em um cenário mais conservador, ou seja, em que
seja desejável realmente diminuir o erro, mesmo com o custo de também diminuir o acerto,
ainda é vantajoso se empregar a presente proposta com limiar quando comparada ao intervalo
padrão. Pois, embora a detecção baseada na rejeição apresente resultados inferiores àquela
94
sem rejeição, ela ainda é significativamente melhor do que a parametrização padrão para a
maioria dos cenários para os dois métodos (sendo pior apenas para os valores acima de 0,70
na correlação cruzada normalizada), mostrando assim a eficácia do método proposto.
Conforme é comentado na Subseção 7.1.2, para melhorar esses resultados, seria necessário
analisar de forma mais detalhada a utilização da probabilidade da predição do classificador.
Os resultados apresentados nesta Subseção foram publicados em [170].
Sobre as diferenças entre os resultados obtidos utilizando a informação de mecanismos
laríngeos a priori (Subseção 7.2.1) e aqueles atingidos com a classificação automática
(presente Subseção), embora já descrito nos inícios dessas duas Subseções referidas, destaca-
se que foram utilizados procedimentos distintos em dois aspectos. Primeiramente, o conjunto
de dados é diferente: ao utilizar a informação de mecanismo laríngeo da base de dados, foi
possível usar 405 amostras da base de dados, enquanto que no caso da classificação
automática, foram apenas 146.
Em segundo lugar, os resultados apresentados nas Tabelas 16 e 17 correspondem à
média atingida ao se avaliar cada repetição do processo de classificação (convém lembrar que
cada repetição da classificação pode resultar em diferentes exemplos sendo classificados
corretamente ou incorretamente, o que afeta o desempenho da detecção de frequência por
conseguinte). Ao contrário disso, nas Tabelas 14 e 15, os resultados provém de uma execução
única, digamos assim, dado que não existe naquele contexto, uma classificação automática.
Em outras palavras, isso significa que os exemplos possuem a informação de interesse, não
havendo, dessa forma, a variação comentada a respeito da classificação automática, o que
implica resultado diferente além da não necessidade de agregar vários resultados, como se faz
com a média, dado que qualquer repetição do experimento geraria o mesmo resultado. Ao
considerar tudo isso, percebe-se que não é possível fazer uma comparação direta entre os
resultados obtidos nesses dois cenários distintos.
95
8 CONCLUSÕES
A voz é o instrumento do ser humano que permite sua capacidade de comunicação
representando um dos elementos fundamentais da sociedade. Assim, aplicações de
processamento de voz emergem com grande relevância no cotidiano. Isso ainda pode ser
verificado pela grande quantidade de sistemas e de trabalhos científicos que têm como foco o
processamento, transmissão, codificação, ou síntese da voz. Dos vários aspectos da produção
vocal, um de bastante destaque é a altura, a qual se mostra importante para tarefas como o
reconhecimento do locutor (ou do seu gênero), ou na execução musical pelo cantor, entre
várias outras. Para cobrir o largo espectro de frequências, estas ligadas diretamente à noção de
altura, o sistema fonatório, através da laringe, apresenta configurações distintas, permitindo
essa dinamicidade (chamados mecanismos laríngeos).
Esta Tese tem como tema central o processamento da voz, com análise sobre exemplos
de canto. São apresentados os conceitos e áreas relacionadas, com alguns de seus métodos e
metodologias. Nesse sentido, a detecção de frequência fundamental possui destaque,
consistindo de uma tarefa de grande relevância para as aplicações de processamento de voz
em geral, com longa história de pesquisa, literatura vasta e grande quantidade de métodos
propostos.
Outro foco se concentrou sobre os mecanismos laríngeos, visto que eles formaram a
base das propostas realizadas neste trabalho. Isso se torna evidente tanto pela utilização dos
mecanismos laríngeos como base para melhorar o desempenho dos métodos de detecção de
frequência fundamental, como também pelo método proposto para a classificação automática
de mecanismos laríngeos, baseado apenas no sinal de áudio.
Uma das dificuldades enfrentadas pelos detectores de altura ou frequência
fundamental é o intervalo de busca demasiadamente largo utilizado, a fim de se ter
generalidade porque, inicialmente, é preciso considerar qualquer voz. Porém, a partir do
próprio áudio a ser processado, é possível extrair medidas as quais permitam um intervalo
mais restrito, tornando dessa forma, os algoritmos menos propensos a erros. Dessa maneira,
os mecanismos laríngeos podem dar esse tipo de informação, possibilitando a diminuição do
intervalo de busca, e assim melhorando a precisão de algoritmos de detecção de frequência
fundamental ou, ainda, tornando-os mais eficientes devido a se ter um intervalo de busca
reduzido.
96
8.1 CONTRIBUIÇÕES
Em um experimento utilizando a informação de mecanismo laríngeo existente na própria base
de dados empregada no trabalho, foi mostrado que, de fato, a restrição do intervalo de busca,
baseada nos mecanismos laríngeos melhorou o desempenho na detecção de frequência
fundamental. Todas as taxas de erro foram reduzidas quando comparadas ao intervalo padrão
utilizado para sinais de voz cantada. Nesse experimento, também mostrou-se que a
informação sobre o gênero do cantor não contribuiu para reduzir ainda mais esses erros.
Assim, verifica-se que os mecanismos laríngeos foram o fator decisivo para essa melhora
sobre a detecção de frequência.
A metodologia exposta na literatura para a identificação dos mecanismos laríngeos era
manual e prescindia de um procedimento clínico, a eletroglotografia. A fim de permitir uma
aplicação da proposta de forma automática e direta, foi desenvolvido um método para a
classificação automática de mecanismos laríngeos. Este é baseado na análise da textura do
espectrograma, que é obtido a partir do sinal de áudio. Inicialmente, mesmo sem maiores
ajustes de parâmetros do classificador e sem procedimentos de extração/seleção de
características, o método atingiu uma taxa de 86,16% na discriminação entre os mecanismos.
Posteriormente, foram executados experimentos para avaliar o processo de
classificação em si, utilizando uma exploração sobre os valores dos parâmetros da SVM
(classificador usado inicialmente) e do k-NN. Mostrou-se que mesmo o k-NN, que é um
método mais simples, conseguiu desempenho efetivo, chegando a uma taxa de 85,34% na
melhor configuração do classificador. Confirmando o que é relatado na literatura, foi
mostrado que o desempenho da classificação depende dos parâmetros utilizados, dado que
para a SVM, foi possível aumentar a taxa de acerto para 88,35%, representando um ganho de
2,19 pontos percentuais.
Por fim, a partir de alterações no processo de geração da imagem do espectrograma e
ainda do ajuste de seus parâmetros, além dos parâmetros do classificador, alcançou-se uma
taxa de acerto de 94,87% (representando nesse ponto, um aumento de 8,71 pontos percentuais
em relação à taxa inicial), mostrando a viabilidade de realizar a classificação entre
mecanismos laríngeos pela análise da imagem do espectrograma.
Lembra-se ainda que essa discriminação automática de mecanismos laríngeos é uma
contribuição inédita na pesquisa com sinais de voz. Ainda se alude ao fato de essa
classificação ser realizada sem a necessidade do EGG, o que se torna bastante vantajoso.
Nesse caso, não é necessário um aparelho específico para o procedimento, nem a gravação
97
simultânea da voz e do EGG, e nem um especialista treinado tanto para a execução do exame
quanto para a interpretação e conclusão a respeito do mecanismo laríngeo usado.
Também se destaca que essa identificação pode prover dados para os pesquisadores da
área de voz, mesmo para áudios previamente gravados, o que não era possível anteriormente.
Isso significa que, por exemplo, torna-se possível fazer avaliações clínicas sobre áudios
gravados previamente, possibilitando uma análise histórica da voz do paciente. Ou ainda,
aplicar esse conhecimento em perícias, as quais normalmente são executadas sobre gravações
de ligações telefônicas.
Dessa forma, foi apresentado que é possível melhorar o desempenho de métodos de
frequência fundamental a partir de parâmetros existentes no próprio sinal de voz (ou no
processo da geração da voz, como foi o caso do mecanismo laríngeo). Como uma
extrapolação do que foi apresentado, outras aplicações que se baseiam na voz poderiam ser
beneficiadas pela proposta ou pelas ideias lançadas nesta Tese.
Por exemplo, a informação de mecanismo laríngeo poderia ser incorporada em um
processo de síntese de voz cantada, dando maior naturalidade às vozes produzidas
artificialmente. Nesse caso, seria possível associar as diferentes qualidades vocais em
conjunto com os mecanismos laríngeos (tal como os registros vocais) e suas faixas de
frequência, como ainda embutir as transições entre mecanismos no processo de geração de
voz. Assim, tal como acontece com sistemas texto-fala, em que o objetivo converter texto
ortográfico em fala [5], poderíamos ter esse uso dos mecanismos laríngeos em sistemas
partitura-canto, no sentido análogo de converter uma representação musical em uma
apresentação vocal. Nesse caso, essa representação precisa possuir os insumos necessários: as
notas a serem cantadas, em notação musical (partitura) e o texto da música (como texto
comum ou em notação fonética) [171]; ou talvez solfejar ou simplesmente cantarolar as notas
quando da ausência da letra. Essa aplicação ainda tem o potencial de ser usada na educação
vocal ou no ensino de música, visto que através de ajustes dos parâmetros do sistema, seria
possível auxiliar no processo de mostrar como usar a voz da forma correta.
Também é possível que outros parâmetros da produção vocal, além do mecanismo
laríngeo, possam contribuir para a detecção de frequência fundamental, ou para outra
aplicação que envolva a voz, tendo o mesmo princípio base que é utilizar o sinal de voz para
extrair parâmetros de sua produção a fim de tornar os resultados das aplicações cada vez mais
precisos.
Vale ressaltar que a proposição desta Tese, que é usar a classificação de mecanismos
laríngeos como base para a otimização dos intervalos de busca para a detecção de frequência
98
fundamental pode ser aplicada a qualquer detector de frequência (com possíveis adaptações,
como discutido na Subseção 7.2.1). Essa é uma contribuição muito interessante dado que em
teoria, seria possível melhorar os resultados dessa área tão importante de forma geral, no
sentido de que qualquer método de detecção de frequência pode se beneficiar de tal
metodologia.
Ademais, tendo relação com a classificação automática proposta, torna-se possível
aplicar a otimização do intervalo de busca baseada nos mecanismos laríngeos sobre quaisquer
bases de voz ou gravações isoladas das vozes. Pois se não fosse por isso, não seria possível
ajustar o intervalo de busca quando não existissem os registros eletroglotográficos (que
necessariamente precisam ser gravados simultaneamente ao sinal de voz).
Por fim, destacam-se as contribuições desta pesquisa geradas em forma de artigos:
Automatic classification of laryngeal mechanisms in singing based on the audio signal
only, publicado na 21st International Conference on Knowledge-Based and Intelligent
Information & Engineering Systems (KES 2017), realizada em setembro de 2017, em
Marselha, França [167] (resultados da Subseção 7.1.1.1).
Improving pitch extraction performance through laryngeal mechanisms background,
publicado na 25th International Conference on Systems, Signals and Image Processing
(IWSSIP 2018), realizada em junho de 2018, em Maribor, Eslovênia [169] (resultados
da Subseção 7.2.1).
A pitch extraction system based on laryngeal mechanisms classification, publicado na
31st IEEE International Joint Conference on Neural Networks, realizada em julho de
2018, no Rio de Janeiro, Brasil [170] (resultados da Subseção 7.2.2, em conjunto com
aqueles da Subseção 7.1.2).
8.2 TRABALHOS FUTUROS
A partir dos resultados obtidos nesta Tese, é possível apontar alguns desdobramentos:
Utilizar um processo de extração/seleção de características
o Como ilustrado no trabalho, atualmente, empregam-se 28 características as
quais provém da análise da textura do espectrograma. Sabe-se que
procedimento de extração e seleção de características pode melhorar o
desempenho da classificação em termos gerais, ainda utilizando menos
características.
99
Desenvolver um método efetivo para ter uma classificação por trechos (por bloco fixo
ou variável, ou por detecção de transições), a fim de habilitá-lo a processar emissões
em que há mais de um mecanismo laríngeo.
o O método de classificação automática de mecanismos laríngeos descrito nesta
Tese aplica-se a emissões sonoras em que apenas uma nota foi emitida. Sua
concepção foi feita dessa maneira, a fim de evitar problemas advindos da
segmentação do áudio, dado que o objetivo inicial era a prova do conceito de
que se podem classificar os mecanismos laríngeos a partir do sinal de áudio, e
nesse caso, mais especificamente, a partir da textura do espectrograma. No
entanto, sabe-se que há emissões sonoras em que mais de um mecanismo é
utilizado, seja propositalmente ou não. Logo, é preciso determinar maneiras
para que o algoritmo possa ser executado sobre porções do áudio, e não no
áudio como um todo, a fim de torná-lo mais efetivo e de uso mais geral.
Aplicar toda a metodologia sobre sinais de voz falada.
o Como os mecanismos laríngeos estão presentes na emissão sonora
independentemente do tipo de emissão, torna-se possível executar o método
sobre sinais de voz que não são de canto. Uma questão que surge é que nesse
caso, será necessário rotular as bases de sinais de fala existentes na literatura
em relação aos mecanismos laríngeos, sendo isso parte de pesquisas futuras
também.
o Também é interessante incluir a análise de vozes disfônicas, pois o aspecto
visual do espectrograma deve variar em função das variações provocadas pela
disfonia (distúrbio na comunicação caracterizado pela dificuldade na emissão
vocal, provocando alterações de altura ou intensidade [172]).
Utilizar outras técnicas de aprendizagem de máquina, em especial, aquelas de
aprendizagem profunda. O interesse sobre técnicas de aprendizagem profunda se
justifica devido ao seu desempenho superior, quando comparadas com técnicas
tradicionais em diversos domínios como classificação de dígitos e caracteres
manuscritos ou classificação de imagens em geral, reconhecimento de fala, entre
outros, chegando a ter desempenhos próximos ou superiores aos humanos [173][174].
o Isso pode certificar qual seria o melhor classificador aplicado a essa tarefa
específica de classificação dos mecanismos laríngeos. Essa exploração se faz
100
interessante por se saber que embora na média qualquer algoritmo de
aprendizagem tenha desempenho semelhante ao se considerar o contexto de
qualquer aplicação sobre quaisquer dados [144], mas em dados específicos,
certos classificadores conseguem melhores resultados.
o Para ter uma aprendizagem efetiva, os métodos baseados em aprendizagem
profunda necessitam de grande quantidade de exemplos [175]. No caso da
aplicação descrita neste trabalho, não há muitas amostras rotuladas. Contudo, a
partir dos avanços na área, atualmente, existem abordagens como data
augmentation (criação de exemplos similares, com certas distorções) e
classificação por patches (baseada em subdivisões da imagem), abordagem
esta que inclusive já foi aplicada sobre análise de texturas [176]. Essas
estratégias podem em certas situações, criar a quantidade de dados necessária,
de forma contornar o problema e habilitar o uso de técnicas de aprendizagem
profunda em aplicações que não possuem grande número de exemplos
disponível.
Estudar a viabilidade de se extraírem características além daquelas oriundas da
imagem do espectrograma.
o Para a classificação de gêneros musicais [177], que é uma tarefa de
classificação aplicada sobre sinais musicais, verificou-se que a utilização de
parâmetros visuais e acústicos melhora os resultados. Logo, essa tendência
pode ser avaliada no caso da classificação de mecanismos laríngeos.
o Em [115], são extraídos alguns parâmetros do EGG e DEGG a partir de
filtragem inversa. No caso desta aplicação, a aproximação nem requer tanta
precisão possivelmente. O que se torna necessário é que as diferenças
observadas quando do cálculo a partir dos sinais EGG e DEGG (que eram as
únicas abordagens conhecidas para a identificação dos mecanismos laríngeos)
sejam mantidas. Por exemplo, o quociente de abertura, calculado a partir da
EGG e DEGG é menor para o M1 do que para o M2 [113]. Portanto, mesmo
que os valores obtidos não sejam os mesmos do que aqueles obtidos utilizando
os sinais originais, uma aproximação que mantenha esse tipo de diferença pode
ser o suficiente para o objetivo de classificar mecanismos laríngeos.
101
REFERÊNCIAS
[1] LENNON, J.; MCCARTNEY, P. The end. Intérprete: The Beatles. In: THE
BEATLES. Abbey Road. London: Apple Records, p1969. Remasterizado em digital.
1 CD. Faixa 16.
[2] RABINER, L. R.; SCHAFFER, R. W. Theory and Applications of Digital Speech
Processing, Upper-Saddle River: Pearson, 2011.
[3] OLSON, H. F.; BELAR, H.; ROGERS, E. S. Speech processing techniques and
applications. IEEE Transactions on Electroacoustics, v. AU-15, n. 3, p. 120-126,
1967.
[4] RABINER, L. R. Applications of speech recognition in the area of
telecommunications. In: IEEE WORKSHOP ON AUTOMATIC SPEECH
RECOGNITION AND UNDERSTANDING, dec. 1997, Santa Barbara, United States
of America. Proceedings… [S.l.]: IEEE, p. 501-510, 1997.
[5] TAYLOR, P. Text-to-Speech Synthesis, Cambridge: Cambridge University Press,
2009.
[6] HONDA, K. Physiological processes of speech production. In: BENESTY, J.;
SONDHI, M. M.; HUANG, Y. Springer Handbook of Speech Processing, Berlin,
Heidelberg: Springer-Verlag, 2008, cap. 2.
[7] SCHWARTZ, D. A.; HOWE, C. Q.; PURVES, D. The statistical structure of human
speech sounds predicts musicals universals. The Journal of Neuroscience, v. 23, n.
18, p. 7160-7168, 2003.
[8] HOUAISS, A. O Que É Língua, São Paulo: Brasiliense, 1991.
[9] OLSON, H. F. Music, Physics and Engineering, 2. ed., New York: Dover, 1967.
[10] HENRICH, N. Etude de la Source Glottique en Voix Parlée et Chantée:
Modelisation et Estimation, Mesures Acoustiques et Électroglottographiques,
Perception. 2001. Tese (Doutorado em Acústica) – Université Pierre et Marie Curie -
Paris VI, Paris, France.
[11] MOSBY. Mosby’s Dictionary of Medicine, Nursing & Health Professions, 10. ed.,
Saint Louis: Elsevier, 2017.
[12] MED, B. Teoria da Música, 4. ed., Brasília: Musimed, 1996.
[13] BEBER, B. C. Características Vocais Acústicas de Homens com Voz e Laringe
Normais. 2009. Dissertação (Mestrado em Distúrbios da Comunicação Humana) –
Universidade Federal de Santa Maria, Santa Maria, Brasil.
[14] HERBST, C. T. Investigation of Glottal Configurations in Singing. 2012. Tese
(Doutorado em Biofísica) – Palacký University Olomouc, Olomouc, Czech Republic.
102
[15] DEJONCKERE, P. H.; LEBACQ, J. Electroglottography and vocal nodules: an
attempt to quantify the shape of the signal. Folia Phoniatrica, v. 37, n. 3-4, 195-200,
1985.
[16] KITZING, P. Clinical applications of electroglottography. Journal of Voice, v. 4, n. 3,
p. 238-249, 1990.
[17] VIEIRA, M. N.; MCINNES, F. R. ; JACK, M. A. On the influence of laryngeal
pathologies on acoustic and electroglottographic jitter measures. Journal of the
Acoustical Society of America, v. 111, n. 2, p. 1045-1055, 2002.
[18] MAYES, R. W. et al. Laryngeal electroglottography as a predictor of laryngeal
electromyography. Journal of Voice, v. 22, n. 6, p. 756-759, 2008.
[19] GUIMARÃES, I.; ABBERTON, E. Fundamental frequency in speakers of portuguese
for different voice samples. Journal of Voice, v. 19, n. 4, p. 592-606, 2005.
[20] FARIA, B. S. Electroglottography of speakers of Brazilian Portuguese through
objective multiparameter vocal assessment (EVA). Brazilian Journal of
Otorhinolaryngology, v. 78, n. 4, p. 29-34, 2012.
[21] ROUBEAU, B.; HENRICH, N.; CASTELLENGO, M. Laryngeal vibratory
mechanisms: the notion of vocal register revisited. Journal of Voice, v. 23, n. 4, p.
425-438, 2009.
[22] GARCIA, M. Mémoire sur la Voix Humaine presenté àl’Académie des Sciences
en 1840, 2. ed., Paris: Duverger, 1847.
[23] GAY, T. et al. Electromyography of the intrinsic laryngeal muscles during phonation,
Annals of Otology, Rhinology, and Laryngology. v. 81, n. 3, p. 401-409, 1972.
[24] KITZING, P. Photo- and Electroglottographical recording of the laryngeal vibratory
pattern during different registers, Folia Phoniatrica. v. 34, n. 5, p. 234-241, 1982.
[25] MCGLONE, R. E.; BROWN JR, W. S. Identification of the “shift” between vocal
registers, Journal of the Acoustical Society of America. v. 46, n. 4, p. 1033-1036,
1969.
[26] HOLLIEN, H. On vocal registers, Journal of Phonetics. v. 2, p. 125-143, 1974.
[27] MILLER, D. G. Registers in Singing: Empirical and Systematic Studies in the
Theory of Singing Voice. 2000. Tese (Doutorado em Ciências Médicas) – University
of Groningen, Groningen, Netherlands.
[28] HENRICH, N. Mirroring the voice from Garcia to the present day: some insights into
singing voice registers, Logopedics Phoniatrics Vocology, v. 31, n. 1, p. 3-14, 2006.
103
[29] FABRE, P. Un procedé électrique percutané d’inscription de l’accolement glottique au
cours de la phonation: glottographie de hauté fréquence. Bulletin de l’Académie
Nationale de Médecine, p. 66-69, 1957.
[30] BAKEN, R. J. Electroglottography. Journal of Voice, v. 6, n. 2, p. 98-110, 1992.
[31] HANNU, P. Analysis of Human Voice Production Using Inverse Filtering, High-
Speed Imaging, and Electroglottography. 2005. Dissertação (Mestrado em
Tecnologia) – Helsinki University of Technology, Espoo, Finland.
[32] COLTON, R. H.; CONTURE, E. G. Problems and pitfalls of electroglottography.
Journal of Voice, v. 4, n. 1, p. 10-24, 1990.
[33] INGLE, V. K.; PROAKIS, J. G. Digital Signal Processing Using MATLAB, Pacific
Grove: Brooks/Cole, 2000.
[34] DINIZ, P. S. R.; SILVA, E. A. B.; NETTO, S. L. Digital Signal Processing: System
Analysis and Design, 2. ed., Cambridge: Cambridge University Press, 2010.
[35] KELLER, F. J.; GETTYS, W. E.; SKOVE, M. J. Física – Volume 2, São Paulo:
Makron Books, 1997.
[36] HENRICH, N.; ROUBEAU, B.; CASTELLENGO, M. On the use electroglottography
for the characterisation of the laryngeal mechanisms. In: STOCKHOLM MUSIC
ACOUSTICS CONFERENCE, ago. 2003, Stockholm, Sweden. Proceedings…
[S.l.:s.n.], v.2, p. 455-458, 2003.
[37] VENNARD, W. Singing: the Mechanism and the Technic, 4. ed., New York: Carl
Fisher, 1967.
[38] THURMAN, L. et al. Addressing vocal register discrepancies: an alternative, science-
based theory of register phenomena. In: INTERNATIONAL CONFERENCE ON
THE PHYSIOLOGY AND ACOUSTICS OF SINGING, 2., out. 2004, Denver,
United States of America. Proceedings… [S.l.:s.n.], p. 1-64, 2004.
[39] RABINER, L. R. et al. A comparative performance study of several pitch detection
algorithms. IEEE Transactions on Acoustics, Speech, and Signal Processing, v.
ASSP-24, n. 5, 1976.
[40] LUENGO, I. et al. Evaluation of pitch detection algorithms under real conditions. In:
INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL
PROCESSING, 32., abr. 2007, Honolulu, United States of America. Proceedings…
[S.l.]: IEEE, v. 4, p. 1057-1060, 2007.
[41] SUKHOSTAT, L.; IMAMVERDIYEV, Y. A comparative analysis of pitch detection
methods under the influence of different noise conditions. Journal of Voice, v. 29, n.
4, p. 410-417, 2015.
104
[42] PARSA, V.; JAMIESON, D. G. A comparison of high precision F0 extraction
algorithms for sustained vowels. Journal of Speech, Language, and Hearing
Research, v. 42, n. 1, p.112-126, 1999.
[43] HESS, W. J. Pitch Determination of Speech Signals. Algorithms and Devices,
Berlin: Springer-Verlag, 1983.
[44] TAVARES, T. F.; BARBEDO, J. G. A.; LOPES, A. Performance evaluation of
fundamental frequency estimation algorithms. In: INTERNATIONAL WORKSHOP
ON TELECOMMUNICATIONS, 4., mai. 2011, Rio de Janeiro, Brazil.
Proceedings… Santa Rita do Sapucaí: INATEL, p. 94-97, 2011.
[45] PATTERSON, R. D.; GAUDRAIN, E.; WALTERS, T. C. The perception of family
and register in musical tones. In: JONES, M. R.; FAY, R. R.; POPPER, A. N. Music
Perception, New York: Springer, 2010, cap. 2.
[46] BENETOS, E. et al. Automatic music transcription: challenges and future directions.
Journal of Intelligent Information Systems, v. 41, n. 3, p. 407-434, 2013.
[47] BENETOS, E.; EWERT, S.; WEYDE, T. Automatic transcription of pitched and
unpitched sounds from polyphonic music. In: INTERNATIONAL CONFERENCE
ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 39., mai. 2014, Florence,
Italy. Proceedings… [S.l.]: IEEE Signal Processing Society, p. 3107-3111, 2014.
[48] SCHRAMM, R. et al. Multi-pitch detection and voice assignment for a cappella
recordings of multiple singers. In: INTERNATIONAL SOCIETY FOR MUSIC
INFORMATION RETRIEVAL CONFERENCE, 18., out. 2017, Suzhou, China.
Proceedings… [S.l.]: International Society for Music Information Retrieval, p. 552-
559, 2017.
[49] MARTAK, L. S.; SAJGALIK, M.; BENESOVA, W. Polyphonic note transcription of
time-domain audio signal with Deep WaveNet architecture. In: INTERNATIONAL
CONFERENCE ON SYSTEMS, SIGNALS AND IMAGE PROCESSING, 25., jun.
2018, Maribor, Slovenia. Proceedings… [S.l.]: IEEE, p. 1-5, 2018.
[50] ANTONELLI, M.; RIZZI, A.; VESCOSO, G. A query by humming system for music
information retrieval. In: INTERNATIONAL CONFERENCE ON INTELLIGENT
SYSTEMS DESIGN AND APPLICATIONS, 10., nov./dez. 2010, Cairo, Egypt.
Proceedings… [S.l.]: IEEE, p. 586-591, 2010.
[51] MOLINA, E. et al. The importance of F0 tracking in query-by-singing-humming. In:
INTERNATIONAL SOCIETY FOR MUSIC INFORMATION RETRIEVAL
CONFERENCE, 15., out. 2014, Taipei, Taiwan. Proceedings… [S.l.]: International
Society for Music Information Retrieval, p. 277-282, 2014.
[52] KIM, S.; UNAL, E.; NARAYANAN, S. Music fingerprint extraction for classical
music cover song identification. In: IEEE INTERNATIONAL CONFERENCE ON
MULTIMEDIA & EXPO, 9., jun. 2008, Hannover, Germany. Proceedings… [S.l.],
IEEE, p. 1261-1264, 2008.
105
[53] TALKIN, D. A robust algorithm for pitch tracking. In: KLEIJN, W. B.; PALIWAL,
K. K. Speech Coding and Synthesis, New York: Elsevier, 1995, cap. 14.
[54] KLAPURI, A. Introduction to music transcription. In: KLAPURI, A.; DAVY, M.
Signal Processing Methods for Music Transcription, New York: Springer, 2006,
cap. 1.
[55] PLACK, C. J.; OXENHAM, A. J. Overview: the present and future of pitch. In:
PLACK, C. J. et al. Pitch: Neural Coding and Perception, New York: Springer,
2005, cap. 1.
[56] HARTMANN, W. M. Pitch, periodicity, and auditory organization. Journal of the
Acoustical Society of America, v. 100, n. 6, p. 3491-3502, 1996.
[57] RANDEL, D. M. The Harvard Dictionary of Music, 4. ed., Cambridge: Belknap
Press of Harvard University Press, 2003.
[58] GERHARD, D. Pitch Extraction and Fundamental Frequency: History and
Current Techniques. 2003. Relatório Técnico – University of Regina, Regina,
Canada.
[59] LATHI, B. P. Sinais e Sistemas Lineares, 2. ed., Porto Alegre: Bookman, 2007.
[60] HESS, W. J. Pitch and voicing determination of speech with an extension towards
music signals. In: BENESTY, J.; SONDHI, M. M.; HUANG, Y. Springer Handbook
of Speech Processing, Berlin, Heidelberg: Springer-Verlag, 2008, cap. 10.
[61] KEELAN, E.; LAI, C.; ZECHNER, K. The importance of optimal parameter setting
for pitch extraction. In: Meeting of the Acoustical Society of America, 160., nov.
2010, Cancun, Mexico. Proceedings… v. 11, n. 1, p. 1pSC27:1-10, 2012.
[62] BOERSMA, P.; WEENIK, D. PRAAT. Doing phonetics by computer [programa de
computador]. Disponível em: <http://www.fon.hum.uva.nl/praat/>. Acesso em: 29
nov. 2015.
[63] KTH Royal Institute of Technology. Wavesurfer [programa de computador].
Disponível em: <http://www.speech.kth.se/wavesurfer/>. Acesso em: 29 jul. 2018.
[64] DE CHEVEIGNÉ, A.; KAWAHARA, H. Comparative evaluation of F0 estimation
algorithms. In: EUROPEAN CONFERENCE ON SPEECH COMMUNICATION
AND TECHNOLOGY, 7., Aalborg, Denmark, 2001. Proceedings… [S.l.]:
International Speech and Communication Association, p. 2451-2454, 2001.
[65] JANG, S. -J. et al. Evaluation of performance of several established pitch detection
algorithms in pathological voices. In: INTERNATIONAL CONFERENCE OF THE
IEEE ENGINEERING IN MEDICINE AND BIOLOGY SOCIETY, 29., ago. 2007,
Lyon, France. Proceedings… Stoughton: The Printing House, p.620-623, 2007.
[66] BABACAN, O. et al. A Comparative study of pitch extraction algorithms on a large
variety of singing sounds. In: INTERNATIONAL CONFERENCE ON ACOUSTICS,
106
SPEECH AND SIGNAL PROCESSING, 38, mai. 2013, Vancouver, Canada.
Proceedings… [S.l.]: IEEE Signal Processing Society, p. 7815-7819, 2013.
[67] MARKEL, J. D. The SIFT algorithm for fundamental frequency estimation. IEEE
Transactions on Audio and Electroacoustics, v. AU-20, n. 5, 1972.
[68] NOLL, A. M. Cepstrum pitch determination. Journal of the Acoustical Society of
America, v. 41, n. 2, p. 293-309, 1967.
[69] KUNIEDA, N.; SHIMAMURA, T.; SUZUKI, J. Robust method of measurement of
fundamental frequency by ACLOS – Autocorrelation of log spectrum. In:
INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL
PROCESSING, 21., mai. 1996, Atlanta, United States of America. Proceedings…
[S.l.]: IEEE Signal Processing Society, p. 232-235, 1996.
[70] DE CHEVEIGNÉ, A.; KAWAHARA, H. YIN, a fundamental frequency estimator for
speech and music. Journal of the Acoustical Society of America, v. 111, n. 4, p.
1917-1930, 2002.
[71] KASI, K.; ZAHORIAN, S. A. Yet another algorithm for pitch tracking. In:
INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL
PROCESSING, 27., mai. 2002, Orlando, United States of America. Proceedings…
[S.l.]: IEEE Signal Processing Society, p., I:361-I:364, 2002.
[72] HUANG, H.; PAN, J. Speech pitch determination based on Hilbert-Huang transform.
Signal Processing, v. 86, n. 4, p. 792-803, 2006.
[73] XU, J. -W.; PRINCIPE, J. C. A pitch detector based on a generalized correlation
function. IEEE Transactions on Audio, Speech, and Language Processing, v. 16, n.
8, 2008.
[74] DRUGMAN, T.; ALWAN, A. Joint robust voicing detection and pitch estimation
based on residual harmonics. In: INTERSPEECH, 12., ago. 2011, Florence, Italy.
Proceedings… [S.l.]: International Speech Communication Association, p. 1973-
1976, 2011.
[75] CHU, W. ALWAN, A. SAFE: a statistical approach to F0 estimation under clean and
noisy conditions. IEEE Transactions on Audio, Speech, and Language Processing,
v. 20, n. 3, 2012.
[76] MAUCH, M.; DIXON, S. PYIN: a fundamental frequency estimator using
probabilistic threshold distributions. In: INTERNATIONAL CONFERENCE ON
ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 39., mai. 2014, Florence,
Italy. Proceedings… [S.l.]: IEEE Signal Processing Society, p. 659-663, 2014.
[77] GONZALEZ, S.; BROOKES, M. PEFAC – A pitch estimation algorithm robust to
high levels of noise. IEEE/ACM Transactions on Audio, Speech, and Language
Processing, v. 22, n. 2, 2014.
107
[78] YANG, N. et al. BaNa: a noise resilient fundamental frequency detection algorithm
for speech and music. IEEE/ACM Transactions on Audio, Speech, and Language
Processing, v. 22, n. 12, 2014.
[79] BOERSMA, P. Accurate short-term analysis of the fundamental frequency and the
harmonics-to- noise ratio of a sampled sound. Proceedings of the Institute of
Phonetic Sciences. v. 17, p. 97-110, 1993.
[80] OPPENHEIM, A. V.; SCHAFER, R. W. Discrete Time Signal Processing, 3. ed.,
Upper Saddle River: Prentice-Hall, 2009.
[81] MURPHY, P.; AKANDE, O. Cepstrum-based harmonics-to-noise ratio measurement
in voiced speech. In: CHOLLET, G.; ESPOSITO, A.; FAUNDEZ-ZANUY, M.;
MARINARO, M. Nonlinear Speech Modeling and Applications. Lecture Notes in
Computer Science, v. 3445, Berlin, Heidelberg: Springer.
[82] LOPES, J. et al. A medida HNR: sua relevância na análise acústica da voz e sua
estimação precisa. In: JORNADAS SOBRE TECNOLOGIA E SAÚDE, 1., abr. 2008,
Guarda, Portugal. Livro de Atas… [S.l.:s.n]: p. 1-20, 2008.
[83] TELES, V. C.; ROSINHA, A. C. U. Análise acústica dos formantes e das medidas de
perturbação do sinal sonoro em mulheres sem queixas vocais, não fumantes e não
etilista. Arquivos Internacionais de Otorrinolaringologia, v. 12, n. 4, 523-530,
2008.
[84] RABINER, L. R.; SCHAFER, R. W. Introduction to digital speech processing.
Foundations and Trends in Signal Processing, v. 1, n. 1-2, p. 1-194, 2007.
[85] HARRIS, F. J. On the use of windows for harmonic analysis with the Discrete Fourier
Transform. Proceedings of the IEEE, v. 66, n. 1, p. 51-83, 1978.
[86] RABINER, L. R. On the use of autocorrelation analysis for pitch detection. IEEE
Transactions on Acoustics, Speech, and Signal Processing, v. ASSP-25, n. 1, p. 24-
33, 1977.
[87] LEIS, J. W. Digital Signal Processing Using MATLAB for Students and
Researchers, Hoboken: John Wiley and Sons, 2011.
[88] OLIVEIRA, H. M. Análise de Fourier e Wavelets: Sinais Estacionários e Não
Estacionários, Recife: Editora Universitária da Universidade Federal de Pernambuco,
2007.
[89] PRESS, W. H.; FLANNERY, B. P.; TEUKOLSKY, S. A.; VETTERLING, W. T.
Numerical Recipes, Cambridge: Cambridge University Press, 1986.
[90] BELLMAN, R. Dynamic Programming, Princeton: Princeton University Press,
1957.
[91] ALPHEN, P.; BERGEM, D. R. Markov models and their application in speech
recognition, Proceedings of the Institute of Phonetic Sciences. v. 13, p. 1-26, 1989.
108
[92] ATAL, B. S. Automatic Speaker Recognition Based on Pitch Contours. 1968. Tese
(Doutorado em Engenharia Elétrica) – Polytechnique Institute of Brooklyn, New
York, United States of America.
[93] ATAL, B. S. Automatic speaker recognition based on pitch contours. Journal of the
Acoustical Society of America, v. 52, n. 6, p. 1687-1697, 1972.
[94] CORMEN, T. H. et al. Introduction to Algorithms, 2. ed., Cambridge: MIT Press;
Boston: McGraw-Hill, 2001.
[95] NEY, H. A dynamic programming technique for nonlinear smoothing. In:
INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL
PROCESSING, 6., mar./abr. 1981, Atlanta, United States of America. Proceedings…
New York: IEEE Acoustics, Speech and Signal Processing Society, p. 62-65, 1981.
[96] NEY, H. Dynamic programming algorithm for optimal estimation of speech parameter
contours, IEEE Transactions on Systems, Man, and Cybernetics, v. SMC-13, n. 3,
p. 208-214, 1983.
[97] ORFANIDIS, S. J. Introduction to Signal Processing, [S.l.]: Sophocles J. Orfanidis,
2010. Disponível em: <https://www.ece.rutgers.edu/~orfanidi/intro2sp>. Acesso em:
13 nov. 2018.
[98] SHONDI, M. M. New methods of pitch extraction, IEEE Transactions on Audio
and Electroacoustics, v. AU-16, n. 2, 1968.
[99] ITAKURA, F. Minimum prediction residual principle applied to speech recognition,
IEEE Transactions on Acoustics, Speech, and Signal Processing, v. ASSP-23, n. 1,
p. 67-72, 1975.
[100] HERMES, D. J. Measurement of pitch by subharmonic summation. Journal of the
Acoustical Society of America, v. 83, n. 1, p. 257-264, 1988.
[101] MARTIN, P. Détection de F0 par intercorrélation avec un fonction peigne. In:
JOURNÉE D’ÉTUDES SUR LA PAROLE, 12., mai. 1981, Montréal, Canada.
Actes… [S.l]: Université de Montréal, p. 221-232, 1981.
[102] CAMACHO, A. SWIPE: A Sawtooth Waveform Inspired Pitch Estimator for
Speech and Music. 2007. Tese (Doutorado em Engenharia de Computação) –
University of Florida, Florida, United States of America.
[103] CAMACHO, A.; HARRIS, J. G. A sawtooth waveform inspired pitch estimator for
speech and music. Journal of the Acoustical Society of America, v. 124, n. 3, p.
1638-1652, 2008.
[104] CAMACHO, A.; HARRIS, J. G. A pitch estimation algorithm based on the smooth
harmonic average peak-to-valley envelope. In: INTERNATIONAL SYMPOSIUM
ON CIRCUITS AND SYSTEMS, 40., mai. 2007, New Orleans, United States of
America. Proceedings… Stoughton: The Printing House, p. 3940-3943, 2007.
109
[105] SCHROEDER, M. R. Period histogram and product spectrum: new methods for
fundamental frequency measurement. Journal of the Acoustical Society of America,
v. 43, n. 4, p. 829-834, 1968.
[106] SONDHI, M. M. New methods of pitch extraction. IEEE Transactions on Audio
and Electroacoustics, v. AU-16, n. 2, p. 262-266, 1968.
[107] DUIFHUIS, H.; WILLEMS, L. F.; SLUYTER, R. J. Measurement of pitch in speech:
an implementation of Goldstein’s theory of pitch perception, Journal of the
Acoustical Society of America, v. 71, n. 6, p. 1568-1580, 1982.
[108] BAGSHAW, P. C. Automatic Prosodic Analysis for Computer Aided
Pronunciation Teaching. 1994. Tese – University of Edinburgh, Edinburgh,
Scotland.
[109] WANG, M.; LIN, M. An analysis of pitch in Chinese spontaneous speech. In:
INTERNATIONAL SYMPOSIUM ON TONAL ASPECTS OF TONE
LANGUAGES, mar. 2004, Beijing, China. Proceedings… [S.l.:s.n], p. 203-205,
2004.
[110] SCHWARTZ, D. A.; PURVES, D. Pitch is determined by naturally occurring periodic
sounds. Hearing Research, v. 194, n. 1-2, p. 31-46, 2004.
[111] ROUBEAU, B.; CHEVRIE-MULLER, C.; ARABIA-GUIDET, C.
Electroglottographic study of the changes of voice registers. Folia Phoniatrica, v. 39,
n. 6, p. 280-289, 1987.
[112] HENRICH, N. et al. On the use of the derivative of electroglottographic signals for the
characterization of nonpathological phonation. Journal of the Acoustical Society of
America, v. 115, n. 3, p. 1321-1332, 2004.
[113] HENRICH, N. et al. Glottal open quotient in singing: Measurements, and correlation
with laryngeal mechanisms, vocal intensity and fundamental frequency. Journal of
the Acoustical Society of America, v. 117, n. 3, p. 1417-1430, 2005.
[114] GARNIER, M. et al. Glottal behavior in the high soprano range and the transition to
the whistle register, Journal of the Acoustical Society of America, v. 131, n. 1, p.
951-962, 2012.
[115] MATTOS, J. S. Um Estudo Comparativo entre o Sinal Eletroglotográfico e o Sinal
de Voz. 2008. Dissertação (Mestrado em Engenharia de Telecomunicações) –
Universidade Federal Fluminense, Rio de Janeiro, Brasil.
[116] COSTA, D. C.; MELLO, C. A. B.; VIANA, H. O. Speech and phoneme segmentation
under noisy environment through spectrogram image analysis. In: INTERNATIONAL
CONFERENCE ON SYSTEMS, MAN AND CYBERNETICS, 42, oct. 2012, Seoul,
Korea. Proceedings… [S.l.]: IEEE Computer Society, p. 1017-1022, 2012.
110
[117] YU, G.; SLOTINE, J. Audio classification from time-frequency texture. In:
INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL
PROCESSING, 34, abr. 2009, Taipei, Taiwan. Proceedings… [S.l.]: IEEE Signal
Processing Society, p. 1677-1680, 2009.
[118] PARKER, J. R. Algorithms for Image Processing and Computer Vision, New
York: John Wiley and Sons, 1997.
[119] DAVIES, E. R. Machine Vision, 3. ed., San Francisco: Morgan Kaufmann, 2005.
[120] DESHPANDE, H.; SINGH, R.; NAM, U. Classification of music signals in the visual
domain, In: CONFERENCE ON DIGITAL AUDIO EFFECTS, 4., dez. 2001,
Limerick, Ireland. Proceedings… [S.l.:s.n], p. 1-4, 2001.
[121] COSTA, Y. M. G. et al. Classificação de gêneros musicais por texturas no espaço de
frequência, In: CONGRESSO DA SOCIEDADE BRASILEIRA DE
COMPUTAÇÃO, 31, jul. 2011, Natal, Brasil. Anais… [S.l.]: Sociedade Brasileira de
Computação, p. 1352-1365, 2011.
[122] COSTA, Y. M. G. et al. Music genre recognition using spectrograms. In:
INTERNATIONAL CONFERENCE ON SYSTEMS, SIGNAL AND IMAGE
PROCESSING, 18, jun. 2011, Sarajevo, Bosnia and Herzegovina. Proceedings…
Sarajevo: University Sarajevo, p. 151-154, 2011.
[123] COSTA, Y. M. G. et al. Comparing textural features for music genre classification. In:
INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS, jun. 2012,
Brisbane, Australia. Proceedings… [S.l.]: IEEE, p. 1867-1872, 2012.
[124] COSTA, Y. M. G. et al. Music genre classification using LBP textural features, Signal
Processing, v. 92, n. 11, p. 2723-2737, 2012.
[125] COSTA, Y. M. G. et al. Music genre recognition based on visual features with
dynamic ensemble of classifiers selection. In: INTERNATIONAL CONFERENCE
ON SYSTEMS, SIGNAL AND IMAGE PROCESSING, 20., jul. 2013, Bucharest,
Romania. Proceedings… Bucharest: University Polithecnica of Bucharest, p.55-58,
2013.
[126] COSTA, Y. M. G. et al. Music genre recognition using Gabor Filters and LPQ texture
descriptors. In: IBEROAMERICAN CONGRESS ON PATTERN RECOGNITION,
18., nov. 2013, Havana, Cuba. Lecture Notes in Computer Science… [S.l.]:
Springer-Verlag, v. 8259, p. 67-74, 2013.
[127] NANNI, L.; COSTA, Y.; BRAHNAM, S. Set of texture descriptors for music genre
classification. In: International Conference on Computer Graphics, Visualization and
Computer Vision, 22., jun. 2014, Plzen, Czech Republic. Communication Papers
Proceedings… Plzen: Union Agency, p. 145-152, 2014.
[128] LUCIO, D. R.; COSTA, Y. M. G. Bird species classification using spectrograms. In:
LATIN AMERICAN COMPUTING CONFERENCE, 41., out. 2015, Arequipa, Peru.
Proceedings… [S.l.]: IEEE, p. 335-345, 2015.
111
[129] ROADS, C. The Computer Music Tutorial, Cambridge: MIT Press, 1996.
[130] HARRIS, F. J. On the use of windows for harmonic analysis with the Discrete Fourier
Transform, Proceedings of the IEEE, v. 66, n. 1, p. 51-83, 1978.
[131] SKLANSKY, J. Image segmentation and feature extraction, IEEE Transactions on
Systems, Man, and Cybernetics, v. 8, n. 4, p. 237-247, 1978.
[132] CHAUDHURI, B. ; SARKAR, N. ; KUNDU, P. Improved fractal geometry based
texture segmentation technique, IEE Proceedings E – Computers and Digital
Techniques, v. 140, n. 5, p. 233-241, 1993.
[133] HARALICK, R. M.; SHANMUGAM, K.; DINSTEIN, I. Textural features for image
classification, IEEE Transactions on Systems, Man, and Cybernetics, v. SMC-3, n.
6, p. 610-621, 1973.
[134] UNSER, M. Sum and difference histograms for texture classification, IEEE
Transactions on Pattern Analysis and Machine Intelligence, v. PAMI-8, n. 1, p.
118-125, 1986.
[135] OJALA, T.; PIETIKÄINEN, M.; HARWOOD, D. Performance evaluation of texture
measures with classification based on Kullback discrimination of distributions. In:
INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION, 12., out. 1994,
Jerusalem, Israel. Proceedings… Los Alamitos: IEEE Computer Society, p. 582-585,
1994.
[136] OJALA, T.; PIETIKÄINEN, M.; HARWOOD, D. A comparative study of texture
measures with classification based on feature distributions, Pattern Recognition, v.
29, n. 1, p. 51-59, 1996.
[137] OJALA, T.; PIETIKÄINEN, M.; MÄENPÄÄ, T. Multiresolution gray-scale and
rotation invariant texture classification with local binary patterns, IEEE Transactions
on Pattern Analysis and Machine Intelligence, v. 24, n. 7, p. 971-987, 2002.
[138] OJANSIVU, V.; HEIKILLÄ, J. Blur insensitive texture classification using local
phase quantization. In: INTERNATIONAL CONFERENCE ON IMAGE AND
SIGNAL PROCESSING, 3., jul. 2008, Cherbourg, France. Lecture Notes in
Computer Science… [S.l.]: Springer-Verlag, v. 5099, p. 236-243, 2008.
[139] FERNÁNDEZ, A.; ÁLVAREZ, M. X.; BIANCONI, F. Image classification with
binary gradient contours, Optics and Lasers in Engineering, v. 49, n. 9-10, p. 177-
1184, 2011.
[140] CORTES, C.; VAPNIK, V. Support-Vector Networks, Machine Learning, v. 20, n. 3,
p. 273-297, 1995.
[141] LACERDA, E. B. et al. Handwriting recognition: overview, challenges and future
trends. In: BEZERRA, B. L. D.; ZANCHETTIN, C.; TOSELLI, A. H.; PIRLO, G.
112
Handwriting: Recognition, Development and Analysis, New York: Nova Science
Publishers, 2017, cap. 1.
[142] HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The Elements of Statistical
Learning. Data Mining, Inference and Prediction, Springer Series in Statistics, New
York: Springer, 2. ed., 2009.
[143] BRAGA, A. P.; CARVALHO, A. P. L. F.; LUDERMIR, T. B. Redes Neurais
Artificiais: Teoria e Aplicações, Rio de Janeiro: LTC, 2. ed., 2007.
[144] DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern Classification, 2. ed., New
York: John Wiley and Sons, 2001.
[145] CHA, S. -H. Comprehensive survey on distance/similarity measures between
probability density functions, International Journal of Mathematical Models and
Methods in Applied Sciences, v. 4, n. 1, p. 300-307, 2007.
[146] YANG, L. Distance Metric Learning: A Comprehensive Survey. Disponível em:
<https://www.cs.cmu.edu/liuy/frame_survey_v2.pdf>. Acesso em: 03 nov. 2018.
[147] WEINBERGER, K. Q.; SAUL, L. K. Distance metric learning for large margin
nearest neighbor classification, Journal of Machine Learning Research, v. 10, p.
207-244, 2009.
[148] WANG, F.; SUN, J. Survey on distance metric learning and dimensionality reduction
in data mining, Data Mining and Knowledge Discovery, v. 29, n. 2, p. 534-564,
2015.
[149] ATAL, B. S. Automatic Speaker Recognition Based on Pitch Contours, Journal of
the Acoustical Society of America, v. 52, n. 6B, p. 1687-1697, 1972.
[150] DE LOOZE, C.; RAUZY, S. Automatic detection and prediction of topic changes
through automatic detection of register variations and pause durations. In:
INTERSPEECH, 10., set. 2009, Brighton, United Kingdom. Proceedings… [S.l.:s.n.],
p. 2919-2922, 2009.
[151] ROUBEAU, B. et al. Phonétogramme par mécanisme laryngé, Folia Phoniatrica et
Logopaedica, v. 56, n. 5, p. 321-333, 2004.
[152] WALKER, J. An investigation of the whistle register in female voice, Journal of
Voice, v. 2, n. 2, p. 140-150, 1988.
[153] HOLLIEN, H. ; MICHEL, J. Vocal fry as a phonational register, Journal of Speech.
Language, and Hearing Research, v. 11, n. 3, p. 600-604, 1968.
[154] BLOMGREN, M. et al. Acoustic, aerodynamic, physiologic, and perceptual properties
of modal and vocal fry registers, The Journal of the Acoustical Society of America,
v. 103, n. 5, p. 2649-2658, 1998.
113
[155] MCGLONE, R. E.; SHIPP, T. Some physiological correlates of vocal-fry phonation,
Journal of Speech, Language, and Hearing Research, v. 14, n. 4, 769-775, 1971.
[156] ROTHENBERG, M. A multichannel electroglottograph. Journal of Voice, v. 6, n. 1,
p. 36-43, 1992.
[157] HSU, C. -W.; CHANG, C. -C.; LIN, C. -J. A Practical Guide to Support Vector
Classification. 2016. Relatório Técnico – National Taiwan University, Taipei,
Taiwan. Disponível em: <http://www.csie.ntu.edu.tw/~cjlin>. Acesso em: 28 nov.
2017.
[158] ARLOT, S.; CELISSE, A. A survey of cross-validation procedures for model
selection, Statistics Surveys, v. 4, p. 40-79, 2010.
[159] FAWCETT, T. An introduction to ROC analysis. Pattern Recognition Letters, v. 27,
n. 8, p. 861-874, 2006.
[160] MONTGOMERY, D. C.; RUNGER, G. C. Estatística Aplicada e Probabilidade
para Engenheiros, 5. ed., Rio de Janeiro: LTC, 2012.
[161] HANSELMAN, D.; LITTLEFIELD, B. Mastering MATLAB, Upper Saddle River:
Pearson, 2011.
[162] LUTZ, M. Learning Python, 5. ed., [S.l]: O’Reilly’, 2013.
[163] BRESSERT, E. SciPy and NumPy: An Overview for Developers, 1. ed., Sebastopol:
O’Reilly, 2013.
[164] PEDREGOSA, F. et al. Scikit-learn: Machine Learning in Python. Journal of
Machine Learning Research, v. 12, p. 2825-2830, 2011.
[165] CHANG, C.-C.; LIN, C.-J. LIBSVM: A library for Support Vector Machines, ACM
Transactions on Intelligent Systems and Technology, v. 2, n. 3, p. 27:1-27:27,
2011.
[166] GONZALEZ, R. C.; WOODS, R. E.; EDDINS, S. L. Digital Image Processing Using
MATLAB, Upper Saddle River: Prentice-Hall, 2004.
[167] LACERDA, E. B.; MELLO, C. A. B. Automatic classification of laryngeal
mechanisms in singing based on the audio signal. In: INTERNATIONAL
CONFERENCE ON KNOWLEDGE-BASED AND INTELLIGENT
INFORMATION & ENGINEERING SYSTEMS, 21., set. 2017, Marseille, France.
Procedia Computer Science… Amsterdam: Elsevier, v. 112, p. 2204-2212, 2017.
[168] BOERSMA, P. Acoustic analysis. In: PODESVA, R.; SHARMA, D. Research
Methods in Linguistics, New York: Cambridge University Press, 2013, cap. 17.
[169] LACERDA, E. B.; MELLO, C. A. B. Improving pitch extraction performance through
laryngeal mechanisms background. In: INTERNATIONAL CONFERENCE ON
114
SYSTEMS, SIGNAL AND IMAGE PROCESSING, 25., jun. 2018, Maribor,
Slovenia. Proceedings… [S.l.]: IEEE, p. 1-5, 2018.
[170] LACERDA, E. B.; MELLO, C. A. B. A pitch extraction system based on laryngeal
mechanisms classification. In: IEEE INTERNATIONAL JOINT CONFERENCE ON
NEURAL NETWORKS, 31., jul. 2018, Rio de Janeiro, Brazil. Proceedings… Los
Alamitos: IEEE Computer Society, p. 2605-2610, 2018.
[171] RODET, X. Synthesis and processing of the singing voice. In: IEEE BENELUX
WORKSHOP ON MODEL BASED PROCESSING AND CODING OF AUDIO, 1.,
nov. 2002, Leuven, Belgium. Proceedings… [S.l.:s.n.], p. 99-108, 2002.
[172] CIELO, C. A. et al. Disfonia organofuncional e queixas de distúrbios alérgicos e/ou
digestivos. Revista CEFAC, v. 11, n. 3, p. 431-439, 2009.
[173] CIRESAN, D.; MEIER, U. SCHMIDHUBER, J. Multi-column deep neural networks
for image classification. In: IEEE CONFERENCE ON COMPUTER VISION AND
PATTERN RECOGNITION, 25., jun. 2012, Providence, United States of America.
Proceedings… [S.l.]: IEEE Computer Society, p. 3642-3649, 2012.
[174] KRIZHEVSKY, A.; SUTSKEVER, I.; HINTON, G. E. ImageNet classification with
deep convolutional neural networks. In: CONFERENCE ON NEURAL
INFORMATION PROCESSING SYSTEMS, 26., dec. 2012, Lake Tahoe, United
States of America. Advances in Neural Information Processing Systems 25…
[S.l.:s.n.], p. 1097-1105, 2012.
[175] GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A. Deep Learning, Cambridge:
MIT Press, 2016.
[176] CAVALIN, P. R.; OLIVEIRA, L. S. A review of texture classification methods and
databases. In: CONFERENCE ON GRAPHICS, PATTERNS AND IMAGES, 30.,
out. 2017, Niterói, Brazil. SIBGRAPI-T Proceedings… [S.l]: IEEE, p. 1-8, 2017.
[177] NANNI, L. et al. Combining visual and acoustic features for music genre
classification. Expert Systems with Applications, v. 45, p.108-117, 2016.
[178] YOUNG, R. W. Terminology for logarithmic frequency units, Journal of the
Acoustical Society of America, v. 11, n. , p 134-139, 1939.
[179] UNIVERSITY OF SOUTH WALES. Notes names, MIDI numbers, and
frequencies. Disponível em: <http://newt.phys.unsw.edu.au/jw/notes.html>. Acesso
em: 21 dez. 2015.
115
APÊNDICE A – ELEMENTOS DE TEORIA MUSICAL
Este Apêndice tem como objetivo apresentar os principais conceitos ou elementos de teoria
musical referenciados no trabalho.
Na música, os sons são representados por um grupo de sete notas: dó, ré, mi, fá, sol, lá
si. Esses monossílabos são usados predominantemente nas línguas latinas. Também existe a
nomenclatura alfabética, largamente usada no inglês, que tendo a mesma ordem que a
sequência apresentada no início (dó a si), é dada por: C, D, E, F, G, A, B. Essas notas,
independente da nomenclatura, correspondem às teclas brancas do piano.
O pentagrama ou pauta musical é a disposição de cinco linhas paralelas horizontais e
quatro espaços intermediários, onde se escrevem as notas musicais (esquema ilustrado na
Figura 16). As linhas e espaços são contados de baixo para cima. No caso, a ordem de alturas
também se dá de baixo para cima, ou seja, abaixo tem-se notas mais graves, enquanto que
acima, notas mais agudas. Ainda existem as linhas suplementares que são curtos segmentos de
linha paralelos aos definidos pela pauta, com o objetivo de permitir grafar notas mais agudas
(na parte superior) e mais graves (na parte inferior). Essas linhas acompanham as notas, sendo
apenas um pouco maiores que estas, na horizontal.
Figura 16 – Representação do pentagrama.
Fonte: Autoria própria.
A clave é um sinal colocado no início da pauta para determinar a altura das notas,
dando seu nome à nota escrita na linha na qual está posicionada. As duas claves mais
utilizadas na música e também são aquelas que estão presentes neste trabalho, são a clave de
sol e a clave de fá. A clave de sol indica que a nota sol é a segunda linha do pentagrama,
enquanto que a clave de fá, normalmente é posicionada na quarta linha, fazendo com que essa
linha corresponda a um fá (mostradas na Figura 17). É possível colocar a clave de fá em
outras linhas, porém, isso é menos usual, e depende do instrumento ou voz em questão.
Neste trabalho, é utilizada a notação científica de alturas (definida em [178]), que
corresponde ao nome da nota seguido de um número, o qual indica a oitava ou faixa de
116
frequência em que essa nota está definida. Ou seja, tem-se a relação exata entre a nota
mencionada e a sua frequência ou posição em um piano ou outro instrumento.
Figura 17 – Claves de sol e de fá.
Fonte: Autoria própria.
Nessa notação, a nota de referência é o dó0 (C0), que tem frequência igual a 16,352 Hz.
Esse valor foi definido para houvesse exatamente quatro oitavas entre o dó central do piano
(C4), com frequência de 261,63 Hz, e ainda que a nota lá4 (A4) que é a nota padrão na música
clássica ocidental utilizada para a afinação de instrumentos e orquestras no geral, tivesse
frequência igual a 440 Hz (definida pela norma ISO 16:1975). A Figura 18 mostra como se
configura a notação científica em relação a um teclado de piano e às notas no pentagrama.
Figura 18 – Notação científica de alturas.
Fonte: [178].
Outro conceito importante para o trabalho é o de semitom ou meio tom. Este
corresponde ao menor intervalo adotado entre duas notas na música ocidental, no sistema
temperado (sistema de afinação que iguala os semitons em partes perfeitamente iguais, em
contraste com o sistema natural, no qual uma parte tom tem 5/9 de tom e a outra, 4/9). Para as
notas naturais (teclas brancas do teclado), existe um semitom entre o mi e o fá e entre o si e o
dó. Um tom corresponde à soma de dois semitons, e é o intervalo entre as notas dó-ré, ré-mi,
fá-sol, sol-lá e lá-si.
117
Os acidentes ou alterações são sinais que modifica a entoaçaão da nota. Os acidentes
mais comuns, que são usados neste trabalho são: o sustenido, representado pelo símbolo ‘♯’,
eleva a altura de uma nota natural em meio tom, enquanto que o bemol (♭), abaixa a altura em
um semitom.
As notas indicam alturas absolutas, ou de outra forma, um número específico de
vibrações, no entanto, também é interessante entender a altura relativa, que é o resultado da
comparação entre sons (no mínimo dois). Mais importante para o trabalho, é a medição
numérica dos intervalos, que é sua classificação de acordo com o número de notas contidas no
intervalo. Assim, uma oitava corresponde ao intervalo entre oito notas, e que corresponde a
dobrar ou reduzir pela metade a frequência da nota (quando é a nota do mesmo nome, sem
acidentes ou com o mesmo acidente).
118
ANEXO A – NOTAS MUSICAIS E SUAS REPRESENTAÇÕES
Este anexo visa demonstrar ou dar noção das notas referidas no trabalho, juntamente com suas
diversas representações. Nesse sentido, a Figura 19 ilustra um teclado de piano, com as
frequências de cada nota. Apresentam-se os números MIDI (MIDI number), o nome da nota
(Note name), um teclado de referência (Keyboard), a frequência (Frequency) em Hz, e uma
pauta de referência também (com as claves invertidas para acompanhar o sentido de
crescimento das notas da mais grave para a mais aguda, de cima para baixo).
Figura 19 – Referência das notas.
Fonte: [179].
Recommended