Everton Barbosa Lacerda - UFPE

Pós-Graduação em Ciência da Computação

Everton Barbosa Lacerda

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br

www.cin.ufpe.br/~posgraduacao

Recife

DETECÇÃO DE FREQUÊNCIA FUNDAMENTAL BASEADA EM MECANISMOS LARÍNGEOS

EVERTON BARBOSA LACERDA

DETECÇÃO DE FREQUÊNCIA FUNDAMENTAL BASEADA EM MECANISMOS

LARÍNGEOS

Tese apresentada ao Programa de Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco como requisito parcial para obtenção do grau de Doutor em em Ciência da Computação. Área de concentração: Inteligência Computacional

Orientador: Carlos Alexandre Barros de Mello

Recife

Catalogação na fonte

Bibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217

L131d Lacerda, Everton Barbosa

Detecção de frequência fundamental baseada em mecanismos laríngeos / Everton Barbosa Lacerda. – 2018.

118 f.: il., fig., tab. Orientador: Carlos Alexandre Barros de Mello. Tese (Doutorado) – Universidade Federal de Pernambuco. CIn, Ciência da

Computação, Recife, 2018. Inclui referências, apêndice e anexo.

1. Inteligência computacional. 2. Processamento de voz. I. Mello, Carlos Alexandre Barros de (orientador). II. Título. 006.3 CDD (23. ed.) UFPE- MEI 2019-029

Everton Barbosa Lacerda

“Detecção de frequência fundamental baseada em mecanismos

laríngeos”

Tese de Doutorado apresentada ao Programa

de Pós-Graduação em Ciências da

Computação da Universidade Federal de

Pernambuco, como requisito parcial para a

obtenção do título de Doutor em Ciências da

Computação.

Aprovado em: 13/09/2018.

_________________________________________________

Orientador: Prof. Dr. Carlos Alexandre Barros de Mello

BANCA EXAMINADORA

_________________________________________________

Prof. Dr. Geber Lisboa Ramalho

Centro de Informática/UFPE

_________________________________________________

Prof. Dr. Daniel Carvalho da Cunha

Centro de Informática/UFPE

_________________________________________________

Prof. Dr. Francisco Madeiro Bernardino Júnior

Escola Politécnica de Pernambuco/UPE

_________________________________________________

Profª. Drª. Adriana de Oliveira Camargo Gomes

Depertamento de Fonoaudiologia/UFPE

_________________________________________________

Prof. Dr. Alceu de Souza Britto Junior

Centro de Ciências Exatas e de Tecnologia/PUC-PR

Dedico este trabalho a vovó Iraci (in

memorian), que mesmo sem estudo formal,

sempre foi de uma sabedoria imensa, além de

ser um exemplo de caráter e dignidade.

AGRADECIMENTOS

Primeiramente, agradeço a Deus pela dádiva da vida e por fornecer o necessário para que se

chegasse até esse momento. Sem Ele, nada prosperaria.

Agradeço à minha família, base de tudo que sou e serei, que fiz e farei. Uma menção

especial aos meus pais (Ivaldo e Maria de Fátima) por todos os ensinamentos para a vida;

esses que me ajudaram a perseverar nessa carreira acadêmica; e ainda por sempre ter

incentivado e dado condições, em todos os âmbitos, para que eu pudesse estudar. Um

agradecimento mais que especial à minha mãe pela paciência de sempre, e por ter aguentado

todo o estresse gerado pela dupla jornada de doutourado e trabalho.

Agradeço à minha companheira Jéssica Andrade, que conheci durante o próprio

doutorado, e que certamente é parte deste trabalho: pelo incentivo e fé depositados sobre mim,

além de dividir comigo os momentos alegres e aqueles de dúvida e frustração. Isso, sem

contar o fato de ter tornado a jornada muito mais aprazível e feliz, a contribuição para meu

crescimento como pessoa no geral, e a dose adicional de paciência para suportar o ânimo nem

sempre bom devido à carga de trabalho.

Agradeço imensamente a meu orientador, Carlos Alexandre. Durante todo o tempo

de trabalho juntos (doze anos), foram inúmeros conselhos e ensinamentos (tanto acadêmicos e

técnicos como para a vida em geral), ajuda, e por sempre acreditar em mim e no meu trabalho.

Ademais, pelo modelo de inspiração de professor, pesquisador e pessoa correta que ele é.

Agradeço a todos os meus amigos que estiveram comigo durante esse tempo e

também àqueles que conheci durante o doutorado (na universidade ou nas conferências que

tive a oportunidade de ir). Suas presenças certamente aliviaram o fardo da caminhada. Um

obrigado destacado a Marcello Medeiros e Renato Albuquerque pela ajuda nos experimentos.

Também agradeço ao pessoal da Document Solutions, empresa onde trabalho, tanto

pelo desconto de carga horária para fazer o doutorado, como também pelos amigos que pude

fazer, e ainda pelo auxílio no meu crescimento profissional.

Mais um agradecimento à pesquisadora francesa Nathalie Henrich, por ter nos

fornecido a base de dados utilizada neste trabalho, além de ter respondido pacientemente

todas as minhas dúvidas.

“And in the end, the love you take is equal to

the love you make” [1].

RESUMO

A detecção de frequência fundamental é uma das áreas mais antigas, relatadas e

relevantes em processamento de sinais de voz. Isso ocorre porque ela é importante em várias

aplicações (processamento, síntese ou codificação da voz). Muitos métodos foram propostos,

porém, há possibilidades para melhorias, principalmente, no que diz respeito ao ajuste de seus

parâmetros. Para permitir seu amplo espectro de frequência, a produção vocal é caracterizada

por quatro configurações laríngeas distintas, chamadas de mecanismos laríngeos, sendo seus

rótulos M0, M1, M2 e M3, em ordem crescente de possibilidade de produção de frequências,

ou seja, do mais grave para o mais agudo. É conhecido que certas frequências que podem ser

emitidas em dois mecanismos “vizinhos”, porém, outras, que só se observam em determinado

mecanismo. Também se sabe que um parâmetro que afeta o desempenho dos algoritmos de

detecção de frequência fundamental é o intervalo de busca, que é definido como a menor e

maior frequência esperada para o sinal de entrada. Esses valores podem ser determinados por

conhecimento prévio sobre a voz sob análise ou se usam valores padrão definidos na

literatura. Devido à relação entre os mecanismos laríngeos e as frequências produzidas pela

voz, esta Tese propõe empregar a identificação do mecanismo para otimizar o intervalo de

busca na detecção de frequência. Isso é possível porque cada som é produzido em um

mecanismo específico e, portanto, não se torna necessário usar um intervalo de frequência

adequado para qualquer voz. A abordagem descrita na Tese apresenta a vantagem de utilizar

uma medida intrínseca à produção vocal. Na literatura, a caracterização desses mecanismos é

feita através do sinal eletroglotográfico (EGG) e sua derivada (DEGG), e não se conhece

nenhum método automático para tal. Assim, além de propor otimizar os intervalos de busca

apoiando-se nos mecanismos laríngeos, esta Tese apresenta um método para a classificação

automática de mecanismos laríngeos baseado na análise de uma representação visual do sinal.

Em mais detalhes, obtém-se o espectrograma, calculam-se as suas propriedades de textura, e

essas medidas são usadas como características para a classificação. Os experimentos mostram

que a informação de mecanismo laríngeo reduz os erros na detecção de frequência

fundamental. Além disso, mostra-se que a classificação automática é efetiva, no que tange à

classificação, chegando a uma taxa de 94,87%; e também para a detecção de frequência, pois

apesar dos erros de classificação, a acurácia da detecção aumentou significativamente.

Palavras-chave: Processamento de Voz. Detecção de Frequência Fundamental. Classificação

de Mecanismos Laríngeos. Mecanismos Laríngeos. Canto.

ABSTRACT

Pitch extraction is one of the oldest, most reported and most relevant areas in speech

processing. This assertion relies upon the fact that pitch extraction is a key component in

several voice-related applications (processing, coding or synthesis). Several methods were

proposed; however, there is room for further improvements, specially, when dealing with the

fine-tuning of its parameters. In order to produce its wide frequency range, voice production

is characterized by four distinct laryngeal displacements, called laryngeal mechanisms (their

labels are M0, M1, M2 and M3, in frequency ascending order, i.e., from bass to treble).

Certain frequencies can be emitted using two “neighboring” mechanisms; however, some

frequencies can only be produced in a determinate mechanism. It is known that the frequency

range (a common parameter that describes the minimum and maximum frequency that is

expected for the input signal) affects the performance of pitch extraction methods. Due to the

relation between laryngeal mechanisms and the frequencies produced by the voice, this Thesis

proposes to employ laryngeal mechanisms to optimize the frequency range in pitch extraction.

This is possible because each sound is produced using a specific mechanism and, therefore, it

is not necessary to adopt the frequency range used to be adequate to any voice. The approach

described herein is advantageous in the sense that it uses an intrinsic parameter of vocal

production. At the literature, the characterization of these mechanisms is made by the

electroglottographic signal (EGG) and its derivative (DEGG) and there is no automatic

method to perform their identification. Therefore, besides proposing the optimization of

frequency range based on laryngeal mechanisms, this Thesis also presents a method for the

automatic classification of laryngeal mechanisms based on the analysis of a visual

representation of the signal. Detailing, the spectrogram is obtained from the audio signal, its

textural properties are calculated, and these measures are used as features for classification.

In the experiments, we show that using laryngeal mechanism information decrease the errors

in pitch extraction. Furthermore, we also show that the automatic classification is effective:

when regarding the classification process itself, it reaches a hit rate equals to 94.87%; and

considering its use in pitch extraction, despite of classification errors, we could increase the

accuracy in pitch extraction significantly.

Keywords: Audio Processing. Pitch Extraction. Laryngeal Mechanisms Classification.

Laryngeal Mechanisms. Singing.

LISTA DE FIGURAS

Figura 1 – Representações do sinal de voz (amostra de canto), (a) forma de onda; (b)

espectrograma. ..................................................................................................... 19 Figura 2 – Princípio de funcionamento do eletroglotógrafo. ................................................ 23 Figura 3 – Visualização do fechamento glotal por cinematografia ultrarrápida e

eletroglotografia simultâneas (locutor em fonação normal, F0 = 110 Hz, no

mecanismo 1). ..................................................................................................... 27 Figura 4 – Visualização da abertura glotal por cinematografia ultrarrápida e

eletroglotografia simultâneas (locutor em fonação normal, F0 = 110 Hz, no

mecanismo 1). ..................................................................................................... 28 Figura 5 – Mecanismo de janelamento e estimação da autocorrelação. ............................... 35 Figura 6 – Espectrograma de um glissando ascendente com o uso sucessivo dos quatro

mecanismos laríngeos.......................................................................................... 50 Figura 7 – Correspondência entre o espectrograma, o EGG e o DEGG, (a) Espectrograma,

EGG e DEGG sincronizados com a indicação de cada mecanismo e suas

transições, (b) foco do EGG e DEGG na última transição entre mecanismos (M1

– M0). .................................................................................................................. 51 Figura 8 – Medida do quociente de abertura de uma vogal “a” cantada na mesma altura pelo

mesmo cantor nos mecanismos 1 e 2. ................................................................. 52 Figura 9 – Fluxograma do método de classificação proposto. ............................................. 53

Figura 10 – Exemplos de espectrogramas obtidos no trabalho (a) glissando, (b) mecanismo

1, (c) mecanismo 2. ............................................................................................. 56 Figura 11 – Superfícies de separação corretas, (a) menor margem, (b) margem ótima. ........ 60 Figura 12 – Classificação por meio de vetores de suporte com margens (a) dados linearmente

separáveis e margens rígidas, (b) dados não linearmente separáveis e margens

flexíveis. .............................................................................................................. 61 Figura 13 – Mapeamento para espaço da função núcleo, (a) espaço de entrada, (b) espaço da

função núcleo. ..................................................................................................... 61 Figura 14 – Princípio do k-NN. .............................................................................................. 63

Figura 15 – Perfil da extensão vocal média para vozes masculinas e femininas nos dois

mecanismos (M1 e M2). ...................................................................................... 68

Figura 16 – Representação do pentagrama. .......................................................................... 115 Figura 17 – Claves de sol e de fá. ......................................................................................... 116

Figura 18 – Notação científica de alturas. ............................................................................ 116 Figura 19 – Referência das notas. ......................................................................................... 118

LISTA DE TABELAS

Tabela 1 – Parametrização para geração dos espectrogramas. ............................................. 55 Tabela 2 – Intervalos de busca baseados no mecanismo laríngeo. ....................................... 69 Tabela 3 – Intervalos de busca baseados no mecanismo laríngeo e no gênero. .................... 70 Tabela 4 – Intervalos de busca baseados no mecanismo laríngeo e no gênero com adição de

margem. ............................................................................................................... 70 Tabela 5 – Características vocais dos cantores na base LYRICS. ........................................ 74 Tabela 6 – Distribuição dos exemplos do conjunto de emissões de notas isoladas por

mecanismo laríngeo. ............................................................................................ 75

Tabela 7 – Distribuição dos exemplos do conjunto de emissões com mecanismo único por

mecanismo laríngeo. ............................................................................................ 76 Tabela 8 – Parametrização para o k-NN. .............................................................................. 85 Tabela 9 – Parametrização inicial para a SVM. .................................................................... 85 Tabela 10 – Primeiro nível de exploração para a SVM (1). .................................................... 86 Tabela 11 – Primeiro nível de exploração para a SVM (2). .................................................... 86 Tabela 12 – Taxas da classificação para o melhor classificador dos experimentos. ............... 88 Tabela 13 – Taxas de erro para o RAPT com informação prévia de mecanismos laríngeos. . 89 Tabela 14 – Taxas de erro para a autocorrelação modificada com informação prévia de

mecanismos laríngeos.......................................................................................... 89 Tabela 15 – Taxas de erro para a correlação cruzada normalizada com informação prévia de

mecanismos laríngeos.......................................................................................... 90 Tabela 16 – Taxas de erro para a autocorrelação modificada com a classificação automática

de mecanismos laríngeos. .................................................................................... 92 Tabela 17 – Taxas de erro para a correlação cruzada normalizada com a classificação

automática de mecanismos laríngeos. ................................................................. 92

LISTA DE ABREVIAÇÕES

AM Amplitude Modulation (Modulação em amplitude)

DAT Digital Audio Tape (Fita de áudio digital)

dB Decibel

DEGG Derivada do sinal eletroglotográfico

DFT Discrete Fourier Transform (Transformada Discreta de Fourier)

EGG Eletroglotografia ou eletroglotográfico

ERB Equivalent Rectangular Bandwith (Largura de Banda

Retangular Equivalente)

F0 Frequência fundamental

FFE F0 frame error (erro de F0 por quadro)

FFT Fast Fourier Transform (Transformada Rápida de Fourier)

GPE Gross pitch error (erro de altura “grosseiro”)

HNR Harmonics-to-Noise Ratio (relação harmônicos-ruído)

Hz Hertz

IDE Integrated Development Environment (Ambiente Integrado de

Desenvolvimento)

kHz Quilohertz

k-NN k-Nearest Neighbors (k vizinhos mais próximos)

LPC Linear Predictive Coding (Codificação Preditiva Linear)

MFPE Mean of fine pitch errors (média dos erros relativos de altura)

MIDI Musical Instrument Digital Interface (Interface Digital para

Instrumentos Musicais)

ms Milissegundos

ROC Receiver Operating Characteristic (Característica de Operação

do Receptor)

RAPT Robust Algorithm for Pitch Tracking (Algoritmo Robusto para

Rastreamento de Alturas)

RBF Radial Basis Function (Função de Base Radial)

SFPE Standard deviation of fine pitch erros (desvio padrão dos erros

relativos de altura)

SPL Sound Pressure Level (Nível de Pressão Sonora)

STFT Short-Time Fourier Transform (Transformada de Fourier de

Tempo Curto)

SVM Support Vector Machine (Máquina de Vetor de Suporte)

VDE Voice decision error (erro na decisão de voz)

WAV Waveform Audio File Format

SUMÁRIO

1 INTRODUÇÃO .......................................................................15

1.1 MOTIVAÇÃO ............................................................................................. 17 1.2 OBJETIVOS ............................................................................................... 20

1.3 ESTRUTURA DA TESE ............................................................................... 21

2 MECANISMOS LARÍNGEOS ..............................................22

3 DETECÇÃO DE FREQUÊNCIA FUNDAMENTAL .........30

3.1 AUTOCORRELAÇÃO MODIFICADA ............................................................. 32

3.1.1 Algoritmo .................................................................................................................. 36

3.2 CORRELAÇÃO CRUZADA NORMALIZADA .................................................. 39

3.3 ROBUST ALGORITHM FOR PITCH TRACKING (RAPT) ............................... 40

3.3.1 Pré-processamento ................................................................................................... 41 3.3.2 Computação da correlação cruzada normalizada ................................................. 42 3.3.3 Pós-processamento ................................................................................................... 45

3.4 CONSIDERAÇÕES ...................................................................................... 47

4 CLASSIFICAÇÃO AUTOMÁTICA DE MECANISMOS

LARÍNGEOS ...........................................................................49

4.1 HIPÓTESE ................................................................................................. 50

4.2 MÉTODO PROPOSTO .................................................................................. 53

4.2.1 Representação visual do sinal de áudio .................................................................. 53 4.2.2 Caracterização da imagem por textura .................................................................. 57 4.2.3 Classificação .............................................................................................................. 59 4.2.3.1 Máquina de Vetores de Suporte ................................................................................. 59 4.2.3.2 k Vizinhos mais Próximos........................................................................................... 62

4.3 CONSIDERAÇÕES ...................................................................................... 64

5 DETECÇÃO DE FREQUÊNCIA FUNDAMENTAL

UTILIZANDO O CONHECIMENTO DOS

MECANISMOS LARÍNGEOS ..............................................66

5.1 DETERMINAÇÃO DOS INTERVALOS DE BUSCA OTIMIZADOS ...................... 69

5.2 UTILIZAÇÃO DA INFORMAÇÃO DE MECANISMOS LARÍNGEOS .................... 70

5.3 CONSIDERAÇÕES ...................................................................................... 72

6 EXPERIMENTOS ..................................................................73

6.1 BASE LYRICS ......................................................................................... 73

6.1.1 Conjunto de notas isoladas ...................................................................................... 75 6.1.2 Conjunto de mecanismo único ................................................................................ 75

6.2 METODOLOGIA ......................................................................................... 76

6.2.1 Classificação de mecanismos laríngeos................................................................... 77 6.2.1.1 Características ........................................................................................................... 77

6.2.1.2 Classificação .............................................................................................................. 77 6.2.1.3 Plano experimental..................................................................................................... 78 6.2.1.4 Critérios de avaliação ................................................................................................ 79

6.2.2 Detecção de frequência fundamental ...................................................................... 79 6.2.2.1 Plano experimental..................................................................................................... 79 6.2.2.2 Critérios de avaliação ................................................................................................ 80

6.3 IMPLEMENTAÇÕES .................................................................................... 81

6.4 CONSIDERAÇÕES ...................................................................................... 82

7 RESULTADOS E ANÁLISE .................................................83

7.1 CLASSIFICAÇÃO DE MECANISMOS LARÍNGEOS .......................................... 83

7.1.1 Imagens baseadas na magnitude da STFT ............................................................ 83 7.1.1.1 Viabilidade da proposta ............................................................................................. 83 7.1.1.2 Exploração dos parâmetros do classificador ............................................................. 84

7.1.2 Imagens baseadas na densidade espectral ............................................................. 87

7.2 DETECÇÃO DE FREQUÊNCIA FUNDAMENTAL ............................................. 88

7.2.1 Detecção com conhecimento de mecanismos laríngeos a priori ........................... 89 7.2.2 Detecção baseada na classificação automática de mecanismos laríngeos ........... 91

8 CONCLUSÕES .......................................................................95

8.1 CONTRIBUIÇÕES ....................................................................................... 96

8.2 TRABALHOS FUTUROS .............................................................................. 98

REFERÊNCIAS ................................................................... 101

APÊNDICE A – ELEMENTOS DE TEORIA MUSICAL115

ANEXO A – NOTAS MUSICAIS E SUAS

REPRESENTAÇÕES .......................................................... 118

1 INTRODUÇÃO

Um grande fluxo de dados está presente no cotidiano das pessoas diariamente. Esses dados

provêm de diversas fontes e formatos, sendo um deles muito importante na sociedade, que é o

áudio. Isso acontece seja através de noticiários, programas de televisão, programas de rádio,

podcasts, streaming de vídeo ou de música, sem contar a principal forma de comunicação

humana no dia-a-dia, que é a voz.

Nesse contexto, a comunicação falada é um elemento essencial. O fundamento

principal da fala é a comunicação, i.e., a transmissão de mensagens entre um emissor (locutor)

e um receptor (ouvinte) [2]. Há bastante tempo – desde a década de 1950 [3][4], junto com a

evolução dos dispositivos de computação e da pesquisa em processamento de sinais – o

domínio do processamento da voz possui posição de destaque [5]. Seu principal objetivo é

construir sistemas capazes de simular ou potencialmente ultrapassar as habilidades humanas

no entendimento, geração e codificação da voz em um conjunto de interações entre humanos

ou entre humanos e máquinas [5].

O processamento de voz é uma área em constante expansão: consegue-se transmitir

sinais de voz remotamente por diversos meios como telefone e através da Internet. Existem

sistemas que sintetizam a voz humana com alto grau de naturalidade (similaridade com a fala

humana) e inteligibilidade (facilidade com que a fala consegue ser entendida) [5], em

contraste com as vozes robotizadas que caracterizavam esse tipo de aplicação no passado. O

entendimento da nossa voz pela máquina se torna cada vez mais próximo com o avanço da

tecnologia do reconhecimento de voz.

De forma simples, a voz humana consiste dos sons produzidos por uma pessoa

utilizando o trato vocal, seja para falar, cantar, gritar, etc. O som da voz é uma onda de ar que

se origina de ações complexas do corpo humano, apoiadas por três unidades funcionais:

geração de pressão do ar, regulação da vibração e controle dos ressonadores [6]. O aparato

vocal é dividido em: órgãos da fonação (produção da voz) e da articulação (configurações dos

órgãos da fala). Os órgãos fonatórios (pulmões e laringe) criam fontes de som vocal pela

configuração de pressão de ar dos pulmões e parâmetros para a vibração das pregas vocais na

laringe. Esses dois órgãos juntos ajustam a altura, intensidade e qualidade da voz, e ainda

geram os padrões prosódicos da fala. Os órgãos articulatórios dão ressonâncias ou modulação

à fonte da voz e geram sons adicionais para algumas consoantes. Eles consistem da

mandíbula, língua, lábios, véu palatino e paredes da faringe. Os sistemas fonatório e

articulatório influenciam um ao outro mutuamente, enquanto mudam a forma do trato vocal

para produzir vogais e consoantes. Para maiores detalhes sobre todo o funcionamento do

aparato vocal por completo, detalhes da fisiologia, e até sobre o próprio processo de fonação,

sugere-se consultar [6].

O fato é que todo esse sistema é capaz de gerar sequências complexas de sons. O tom

da voz pode inclusive, sugerir emoções, como raiva, surpresa ou felicidade. Ainda mais, os

cantores fazem da voz um instrumento musical (sendo um dos mais versáteis), seja para criar

ou para reproduzir música. Inclusive, a análise de sons produzidos pela voz humana mostrou

que a distribuição de probabilidades de amplitude e frequência de emissões vocais faladas

pode predizer tanto a estrutura da escala cromática1 como a ordem de consonância entre os

diferentes intervalos musicais [7]. Em outras palavras, ao medirem quantitativamente as

amplitudes e frequências sobre uma grande quantidade de exemplos de sentenças faladas, os

autores encontraram que as concentrações máximas ou picos dessa distribuição correspondem

aos intervalos musicais (razões entre as frequências) considerados mais consonantes. Isso

pode implicar que o desenvolvimento da estrutura melódica musical tem como base as

relações entre os sons da voz, devido a esta ser a principal fonte de estímulos sonoros quase

periódicos2 no ambiente humano.

Além disso, a voz é um dos principais meios para a linguagem, que pode ser definida

como a capacidade de aquisição e utilização de sistemas complexos de comunicação ou como

uma instância específica de tal sistema [8]. Fundamentalmente, a linguagem é a principal

forma de comunicação e compartilhamento de informações entre os indivíduos. A linguagem

verbal acompanha o homem desde os seus primórdios, embora tenha se desenvolvido bastante

até chegar às formas atuais, representadas pelos diversos idiomas e dialetos usados pela

humanidade. Tudo isso, reforça a importância da voz na vida das pessoas.

Um aspecto dos sons, inclusive vocais, de grande relevância é a altura. Esse atributo

fornece informações importantes sobre a fonte do som. Na fala, por exemplo, a altura ajuda a

identificar o gênero da pessoa (mulheres tendem a ter vozes mais agudas que os homens), e dá

significados adicionais ao que é dito (uma sentença pode ser interpretada como afirmação ou

interrogação dependendo da entonação). Na música, a altura determina as notas musicais. A

altura pode ser definida como o atributo da sensação auditiva em termos dos quais os sons

podem ser ordenados em uma escala se estendendo do grave para o agudo, como uma escala

musical [9]. A altura é primariamente dependente da frequência da fonte sonora.

1 A escala cromática é uma sequência de doze semitons consecutivos (oitava dividida em doze semitons) [12]. 2 A onda vocal é uma onda quase periódica formada por várias sinusóides de diferentes frequências [13]. Ela é

considerada quase periódica porque seus ciclos vibratórios são semelhantes, porém não idênticos. Isso significa

que pequenas variações e aperiodicidades sempre estarão presentes em sujeitos com laringe e voz normais.

A capacidade vocal humana, no que se refere às frequências produzidas, relaciona-se

diretamente com as configurações do sistema fonatório, mais especificamente, da laringe.

Assim, dependendo da frequência emitida, a laringe pode estar disposta de forma distinta,

para permitir essa emissão sonora. Essas configurações laríngeas são denominadas

mecanismos laríngeos [10]. Os mecanismos laríngeos são um conceito mais formal e preciso

do que os registros (normalmente empregados na área do canto), podendo ser definidos como

regiões perceptualmente distintas de qualidade vocal, cada um com intervalos de frequência,

padrões de vibração das pregas vocais e timbre ou tons particulares [11]. Isso porque, ao

contrário dos registros, os quais podem depender de diversos parâmetros da fonação, os

mecanismos se relacionam apenas às condições fisiológicas da laringe. De certa forma, os

mecanismos laríngeos podem ser vistos, inclusive, como um componente do que se chama

registro vocal.

A identificação desses mecanismos é feita a partir da análise de um procedimento

clínico, a eletroglotografia (EGG) e da análise dos sons produzidos. Na eletroglotografia,

basicamente, mede-se a área de contato das pregas vocais através de um aparelho, o

eletroglotógrafo. Daí, um especialista analisa os valores obtidos no exame conjuntamente com

a percepção auditiva e, assim, pode determinar qual(is) mecanismo(s) foram empregados

naquela emissão sonora. Entre aplicações práticas do sinal EGG e de sua derivada (DEGG),

além do trabalho sobre mecanismos laríngeos, estão: a análise do funcionamento da dinâmica

da emissão vocal [14], o auxílio ao diagnóstico de patologias do trato vocal [15][16][17][18],

a modelagem e avaliação da voz por meio de parâmetros extraídos do EGG [19][20].

1.1 MOTIVAÇÃO

Devido à relação entre mecanismos laríngeos e as frequências emitidas pela voz humana, ao

passo que certas alturas só podem ser emitidas em determinados mecanismos, a identificação

do mecanismo laríngeo pode ser de grande valia para a detecção de frequência fundamental.

Pois, existe a chance de que informações adicionais sobre a entrada3 possam diminuir as

chances de errar do algoritmo na saída. No caso dessa aplicação, a entrada é exatamente o

sinal a ser processado, enquanto que a saída corresponde à frequência calculada.

3 Essa afirmação se aplica no contexto de informações que ajudem a discriminar entre os diferentes exemplos em

determinado problema. Por exemplo, ao se diferenciar um urso pardo de um urso polar, a cor da pele é uma

informação relevante; contudo, ao diferenciar entre diferentes tipos de cadeira, essa informação não ajuda e pode

até atrapalhar no processo.

Um parâmetro comum a vários algoritmos de detecção de altura é o intervalo de busca,

ou seja, a frequência mais baixa e a mais alta que se espera detectar. A fim de serem

genéricos, os métodos normalmente adotam um intervalo bem largo, que cobre as frequências

utilizadas usualmente na fala humana (com algumas variações a depender do estudo em

questão), embora isso tenda a diminuir sua precisão.

O conhecimento do mecanismo laríngeo pode diminuir esse problema, ao permitir que

o intervalo de busca seja reduzido, em função de se conhecer que há alturas que não podem

ser emitidas em certos mecanismos. Essa hipótese pode ser levantada apesar de se saber que

há uma variação nos valores de frequências para cada mecanismo em função anatomia

laríngea dos sujeitos. Pois, a literatura indica que mesmo com essas diferenças individuais,

existe uma faixa em que as transições entre mecanismos acontecem [21] e, logo, tem-se uma

relação entre os mecanismos que pode ser generalizada, independente do indivíduo. Posto

isso, não valeria a pena empregar esse intervalo genérico que considera todas as vozes, dado

que determinado som foi produzido em um mecanismo específico.

Atualmente, embora exista um método válido e bem sucedido para a estimação do

mecanismo laríngeo, ele é totalmente “manual”. Ainda mais, o processo atual sofre de duas

grandes deficiências: (i) a necessidade do eletroglotógrafo para a realização do procedimento

clínico e (ii) a presença de um especialista para interpretar os dados gerados pelo

procedimento.

O primeiro ponto limita bastante a aplicação ou utilização do conceito em um contexto

mais amplo. Em uma cotação de 20174, um eletroglotógrafo custava US$ 4.716, chegando a

US$ 5.036 com os custos de envio (cerca de R$ 20.000,00 no câmbio atual), fator que

certamente compromete sua utilização em diversos casos. Outra razão relacionada a esse

ponto, é que na maior parte do tempo, o aparelho não está disponível no momento da emissão

vocal, além do fato de não ser possível fazer uma avaliação em sons gravados previamente. É

preciso lembrar que parte das aplicações de processamento de voz (por processamento nesse

cenário, deixando de fora aqui as áreas de transmissão e codificação de voz) é executada

sobre sons gravados anteriormente, a exemplo da transcrição automática de música, perícias

sobre gravações telefônicas, a própria detecção de frequência fundamental, entre outras.

A segunda questão também se torna um empecilho visto que para uma utilização em

larga escala, tal como a avaliação de frequência fundamental ou o reconhecimento de locutor,

4 Cotação realizada para o aparelho EG2-PCX, da empresa Glottal Enterprises, localizada em Syracuse, Nova

Iorque, EUA.

não se espera, para qualquer área do conhecimento, ter um especialista sempre à disposição

para executar a tarefa em questão.

Logo, para permitir a utilização do mecanismo laríngeo como base para a detecção de

frequência fundamental (e possivelmente para outras aplicações que envolvam o sinal de voz),

torna-se necessário um método automatizado para saber o mecanismo laríngeo que foi usado

naquela emissão vocal. Com tal metodologia, passa a ser possível aplicar o conhecimento do

mecanismo laríngeo da forma conveniente para a aplicação em questão.

Dessa maneira, é possível sumarizar que existem dois grandes desafios a serem

enfrentados no trabalho: a estimação do mecanismo laríngeo e da frequência fundamental. A

Figura 1 ilustra as duas principais representações de um sinal de voz para um exemplo da base

de dados empregada no trabalho: a forma de onda, no item (a) e o espectrograma, no item (b).

Figura 1 – Representações do sinal de voz (amostra de canto), (a) forma de onda; (b) espectrograma.

Fonte: Autoria própria.

A forma de onda é uma representação digital, que é uma sequência de impulsos

amostrados no tempo. A partir da observação dessa imagem (item (a)) percebe-se que logo de

início, que as informações que se deseja extrair não parecem estar contidas ali de forma direta.

A outra forma de representação é o espectrograma (mais detalhes na Subseção 4.2.1), que

busca mostrar a distribuição dos componentes de frequência durante o tempo. Embora seja

possível visualizar essa variação do espectro de frequência (item (b)), devido às variações

existentes na geração da voz, também não se torna direta a extração correta de parâmetros do

sinal de voz a partir dessa representação.

1.2 OBJETIVOS

A partir do exposto, o principal objetivo desta pesquisa é o desenvolvimento de uma

metodologia para a detecção de frequência fundamental, baseada na classificação automática

de mecanismos laríngeos. A melhora na detecção de frequência fundamental, no âmbito de

diminuir o erro entre a frequência calculada e os valores de referência, dá-se em função da

restrição sobre os limites de frequência a serem estimados, a partir do mecanismo laríngeo

empregado na emissão sonora. Como exposto no Capítulo 2, não existe na literatura nenhuma

proposta que realize a identificação de mecanismos laríngeos automaticamente. Assim, o

desenvolvimento do método para a classificação automática de mecanismos laríngeos é o

outro grande objetivo deste trabalho.

Como objetivos específicos, é possível citar:

Criar um algoritmo automático para classificação de mecanismos laríngeos

independente de equipamentos como o EGG;

Melhorar o resultado de métodos de detecção de frequência fundamental, no sentido

de torna-los mais precisos e acurados, a partir da aplicação de limites de frequência

mais restritos nas suas entradas.

Corroborar a sensibilidade dos algoritmos de detecção de frequência fundamental em

relação ao intervalo de frequência, especialmente sobre o canto, dado que a literatura

se concentrou sobre sinais de fala.

Mostrar que é possível utilizar o aspecto visual do espectrograma para fazer a

discriminação entre os mecanismos laríngeos.

1.3 ESTRUTURA DA TESE

Este trabalho está estruturado em oito capítulos. Neste capítulo, mostra-se uma visão geral

sobre o processamento de voz, a utilização da voz na comunicação e na música, além dos

objetivos da pesquisa. No Capítulo 2, abordam-se os conceitos e metodologias atuais em

relação aos mecanismos laríngeos. O Capítulo 3 apresenta a área de detecção de frequência

fundamental, e ainda, os métodos da literatura que foram utilizados no estudo. O Capítulo 4

define a proposta para a classificação de mecanismos laríngeos, apresentando seu

embasamento, suas etapas e os métodos empregados em cada uma delas. No Capítulo 5,

mostra-se como o conhecimento de mecanismo laríngeo é usado na detecção de frequência

fundamental, no intuito de melhorar o desempenho nessa detecção. O Capítulo 6 relata todo o

plano experimental, tanto para a classificação de mecanismos laríngeos como para a detecção

de frequência fundamental. No Capítulo 7, apresentam-se os resultados obtidos e análises

sobre os mesmos e, por fim, o Capítulo 8 conclui o trabalho.

2 MECANISMOS LARÍNGEOS

A produção da voz humana sobre toda extensão de frequência possível envolve diferentes

ajustes do aparato vocal, englobando zonas chamadas de registros [22] (apud [21]). É possível

encontrar várias descrições ou caracterizações desses registros em diversas áreas do

conhecimento, tais como fisiologia, física, fonética e voz em geral, e ensino do canto,

conforme pode ser visto nas referências [23][24][25][26][27]. Devido a isso, várias

abordagens surgiram a depender dos interesses dos pesquisadores em questão. Em suma,

pode-se verificar que certas observações se relacionam mais diretamente com a forma que a

laringe funciona, enquanto certos trabalhos incluem a ação de cavidades ressonantes do trato

vocal ou das sensações características devido a estímulos proprioceptivos por causa de

contrações musculares ou vibrações laríngeas. Apesar dessa diversidade, os termos utilizados

são semelhantes, o que causa confusão nesse domínio, inclusive, sendo relatado pelos

próprios pesquisadores.

A noção de mecanismo laríngeo veio para formalizar, e de outra forma também,

padronizar ou balizar a noção de registro vocal. O conceito foi apresentado dessa maneira em

[10] e consiste na noção da existência de configurações distintas da laringe, as quais

proporcionam a capacidade da voz humana de produzir seu amplo espectro de frequência, em

consonância com os registros vocais, no sentido de que os registros são produzidos em

determinados mecanismos. O ponto é que no caso dos mecanismos, as diferenças na voz se

dão exclusivamente em função das configurações laríngeas, o que nem sempre é o caso nas

mudanças de registro, as quais podem se verificar em virtude de outros aspectos do trato

vocal. De outra forma, os registros podem ser definidos pela relação entre as ressonâncias do

trato vocal e dos mecanismos laríngeos. Para uma visão histórica dessa noção de registro, a

qual remonta a fins do século XIX, e ainda a ligação com o conceito de mecanismo laríngeo

de forma mais detalhada, sugere-se a leitura de [28].

A caracterização desses mecanismos, suas relações e transições, foram feitas

baseando-se no sinal EGG (eletroglotografia) e na DEGG (derivada do sinal

eletroglotográfico). A eletroglotografia é um procedimento não invasivo para a observação da

atividade da laringe, concebido em [29]. Mais especificamente, esse exame estima a variação

da área de contato entre as pregas vocais durante a fonação por meio da variação da

impedância elétrica devido ao espaço intraglótico durante a vibração da mucosa das pregas

vocais.

Resumidamente, o princípio de funcionamento do eletroglotógrafo é baseado na

medição da impedância entre dois eletrodos colocados no pescoço do locutor, através da

aplicação de uma pequena corrente elétrica (limitada a alguns miliampères para ser

imperceptível, evitando desconforto [30]). Quando as pregas vocais estão fechadas, a corrente

elétrica passa entre elas, ou seja, há baixa impedância. Já quando as pregas estão abertas

(separadas), a impedância da laringe é alta devido ao fluxo de ar que as atravessa. Logo,

existe uma correlação entre a variação da impedância da laringe e a da área de contato das

pregas vocais [31][10].

A Figura 2 ilustra o esquema de funcionamento do eletroglotógrafo. Ele se constitui de

um gerador de corrente alternada (na ordem de 1 MHz), de dois eletrodos que são colocados

sobre a pele, no nível da cartilagem tireoide, e de um circuito elétrico que age principalmente

como um demodulador de frequência. Um filtro passa-alta5, de banda de corte entre 5 e 40

Hz, permite a eliminação de componentes de ruído de baixa frequência devidos ao movimento

da laringe durante a fonação, ao fluxo sanguíneo das artérias e veias da garganta, bem como a

contração dos músculos extrínsecos da laringe [32]. O eletroglotógrafo mede a diferença de

potencial entre os dois eletrodos (cada um em um lado do pescoço). Esta se liga à impedância

elétrica da garganta, que é a resistência à passagem da corrente através da pele, cartilagem

tireoide, tecidos, músculos e glote.

Figura 2 – Princípio de funcionamento do eletroglotógrafo.

Fonte: Adaptada de [10].

5 Um filtro passa-alta é um seletor de frequências que tem como objetivo deixar passar as altas frequências

(aquelas com valor acima da banda de corte) e por atenuar as baixas frequências (aquelas que tem valor abaixo

da banda de corte) [33][34].

A relação entre a diferença de potencial e a impedância é dada pela lei de Ohm6, e a

proporcionalidade é garantida quando a corrente é mantida constante. Quando a glote está

fechada, a resistência é menor, enquanto que essa resistência aumenta com a abertura da glote,

pois o ar é pior condutor do que os tecidos humanos. O sinal elétrico entregue, portanto, é

modulado em frequência pelo movimento vibratório das pregas vocais. Consequentemente, o

período deste sinal corresponde à frequência fundamental do som emitido [10].

Dessa forma, o sinal eletroglotográfico descreve o grau de contato entre as pregas

vocais. De grande importância é o fato de a primeira derivada do sinal (DEGG) detectar o

instante de fechamento e de abertura da glote, além de prover uma estimação precisa da

frequência fundamental do sinal [10]. Além disso, de outra forma, a DEGG permite estudar as

mudanças de forma do sinal EGG. Inclusive, ao se analisar ambos os sinais, é possível

observar ou perceber o comportamento glotal a cada ciclo. Por meio de comparações entre

imagens de alta velocidade e o sinal EGG, percebeu-se que o fechamento glotal ocorre no

instante em que a DEGG possui seu pico de máximo.

As Figuras 3 e 4 ilustram essa relação entre os sinais mencionados e o comportamento

da glote, sendo a primeira em relação ao fechamento e a segunda, à abertura. Em cada quadro

das figuras, apresentam-se uma imagem da glote, o sinal EGG (em verde) e a DEGG (em

azul). A frequência fundamental que está sendo emitida nessa fonação é denotada por F0 nas

referidas figuras. A evolução no tempo é da esquerda para a direita, de cima para baixo. A

observação do sexto quadro da Figura 3 permite visualizar a relação entre o pico da DEGG e

o fechamento da glote. Contudo, há casos em que em vez de um pico pronunciado, como no

exemplo mostrado, pode haver picos duplos, imprecisos, ou até a ausência de picos. Essas

situações ocorrem devido às irregularidades da mucosa as quais perturbam o movimento da

Com todo esse aparato, os pesquisadores conseguiram descrever os mecanismos

laríngeos, que em uma definição, correspondem a diferentes configurações fisiológicas,

mecânicas e comportamentos vibratórios glotais [36]. Reporta-se ainda que essas

configurações particulares caracterizam-se pela anatomia das pregas vocais (comprimento e

espessura), assim como pela fisiologia presente [10]. Os sinais EGG e DEGG desempenham

papel fundamental para essa caracterização. Ainda mais, porque esses sinais permitem o

cálculo também do quociente de abertura, que é um descritor bastante importante que tem

6 A lei de Ohm afirma que a corrente entre dois pontos através de um condutor é diretamente proporcional à

diferença de potencial entre dois pontos (voltagem), introduzindo a constante de proporcionalidade, a resistência

[35]. No caso, a impedância é a extensão da lei de Ohm para circuitos de corrente alternada.

relação com os mecanismos laríngeos (definido como a razão entre o tempo de abertura da

glote e o período fundamental).

Assim, definem-se quatro mecanismos laríngeos, nomeados: mecanismo 0 (M0),

mecanismo 1 (M1), mecanismo 2 (M2) e mecanismo 3 (M3), sendo os números em ordem

ascendente de frequências, ou seja, do mais grave para o mais agudo [10][36]. É importante

lembrar que não se deve confundir o mecanismo com a noção de registro, embora

frequentemente se use a terminologia de registro para ter referência em relação à terminologia

empregada no canto. O entendimento ou caracterização dos mecanismos laríngeos pode ser

feito com uma analogia ao que se tem em uma orquestra: instrumentos com cordas mais

grossas ou cavidades maiores produzem frequências mais baixas, tais como um violoncelo ou

um fagote; enquanto que instrumentos com cordas mais finas ou menores produzem

frequências mais altas, tais como um violino ou uma flauta pícolo. Em outras palavras, para

os mecanismos, existe uma variação que se dá em função da estrutura (anatomia, que se

relaciona com o tamanho).

Assim, o mecanismo 0 (M0) é a forma de se produzir os tons mais graves. É bem

usado na voz masculina durante a fala, embora raramente seja empregado no canto. Também

costuma aparecer na voz falada de jovens e adolescentes norte-americanos (sejam homens ou

mulheres). Nesse mecanismo, as pregas vocais estão curtas e muito grossas [26]. O músculo

vocal se encontra bastante contraído e, portanto, tenso. Nesse cenário, a “cobertura” do

músculo vocal (mucosa) fica “frouxa”. O processo vibratório é caracterizado por uma fase

fechada muito longa em relação ao período fundamental.

Os mecanismos 1 e 2 são largamente utilizados tanto na fala quanto no canto. Para os

homens, o registro “normal” é o mecanismo 1, sendo o 2, correspondente ao falsete ou

falsetto7, enquanto que para as mulheres, o “comum” é o mecanismo 2. No M1, as pregas

estão grossas e vibram sobre todo seu comprimento com uma diferença de fase vertical. Já no

M2, a massa e o comprimento vibratório são reduzidos [37] (apud [36]), além de não haver

diferença de fase vertical. Outra distinção se mostra na forma do EGG que é mais assimétrica

no M1 do que no M2. Ainda mais, a DEGG apresenta um pico de fechamento glotal forte e

um pico de abertura glotal fraco no M1, enquanto que ambos os picos podem ter amplitudes

similares no M2.

O mecanismo 3 (M3) é usado para produzir as frequências mais altas e é dificilmente

usado tanto na fala quanto no canto. Nesse mecanismo, as pregas vocais estão finas, bastante

7 Tipo de fonação vocal que permite o indivíduo cantar notas além do alcance vocal normal da sua voz, sendo

normalmente mais utilizada essa nomenclatura para o registro mais agudo das vozes masculinas.

tensionadas e a amplitude vibratória é muito reduzida quando comparada ao mecanismo 2. A

abertura entre as pregas vocais é muito pequena, e pode não haver contato entre elas. Nesse

caso, não há sinal EGG, ou o EGG tem forma muito simétrica. É importante relatar que os

mecanismos 1 e 2 correspondem a 90% das produções vocais [10].

Os mecanismos laríngeos interferem na qualidade da voz, dado que são ajustes

fisiológicos do trato vocal. Portanto, o entendimento de tais ajustes torna-se importante tanto

para a reabilitação vocal quanto para o aprimoramento da voz. Na questão clínica, o

funcionamento neuromuscular em diferentes mecanismos pode auxiliar a indicar a presença

de patologias da voz, inclusive diferenciando entre paresia, paralisia ou falta de

condicionamento. Além disso, permite a avaliação da gravidade de um processo inflamatório

nos tecidos que cobrem as pregas vocais e outros distúrbios patológicos orgânicos das pregas

vocais [38]. Em laringes saudáveis de cantores treinados, uma disfunção na coordenação entre

as mudanças de registro ou mecanismo pode indicar precocemente uma doença neurológica

Figura 3 – Visualização do fechamento glotal por cinematografia ultrarrápida e eletroglotografia simultâneas

(locutor em fonação normal, F0 = 110 Hz, no mecanismo 1).

Figura 4 – Visualização da abertura glotal por cinematografia ultrarrápida e eletroglotografia simultâneas