43
JUDSON HIROTOSHI TABATA COMPARAÇÕES DE EFICIÊNCIA DE DETECTORES DE ATIVIDADE DE VOZ LONDRINA–PR 2015

JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

JUDSON HIROTOSHI TABATA

COMPARAÇÕES DE EFICIÊNCIA DE DETECTORES DEATIVIDADE DE VOZ

LONDRINA–PR

2015

Page 2: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo
Page 3: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

JUDSON HIROTOSHI TABATA

COMPARAÇÕES DE EFICIÊNCIA DE DETECTORES DEATIVIDADE DE VOZ

Trabalho de Conclusão de Curso apresentadoao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel emCiência da Computação.

Orientador: Prof. Dr. Fábio Sakuray

LONDRINA–PR

2015

Page 4: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

Judson Hirotoshi TabataComparações de eficiência de Detectores de Atividade de Voz/ Judson Hiro-

toshi Tabata. – Londrina–PR, 2015-41 p. : il. (algumas color.) ; 30 cm.

Orientador: Prof. Dr. Fábio Sakuray

– Universidade Estadual de Londrina, 2015.

1. Palavra-chave1. 2. Palavra-chave2. I. Orientador. II. Universidade xxx. III.Faculdade de xxx. IV. Título

CDU 02:141:005.7

Page 5: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

JUDSON HIROTOSHI TABATA

COMPARAÇÕES DE EFICIÊNCIA DE DETECTORES DEATIVIDADE DE VOZ

Trabalho de Conclusão de Curso apresentadoao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel emCiência da Computação.

BANCA EXAMINADORA

Prof. Dr. Fábio SakurayUniversidade Estadual de Londrina

Orientador

Prof. Dr. Segundo Membro da BancaUniversidade/Instituição do Segundo

Membro da Banca

Prof. Dr. Terceiro Membro da BancaUniversidade/Instituição do Terceiro

Membro da Banca

Prof. Ms. Quarto Membro da BancaUniversidade/Instituição do Quarto

Membro da Banca

Londrina–PR, - de 2015

Page 6: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo
Page 7: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

Este trabalho é dedicado às crianças adultas que,quando pequenas, sonharam em se tornar cientistas.

Page 8: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo
Page 9: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

AGRADECIMENTOS

Os agradecimentos principais são direcionados à Gerald Weber, Miguel Frasson,Leslie H. Watter, Bruno Parente Lima, Flávio de Vasconcellos Corrêa, Otavio Real Sal-vador, Renato Machnievscz1 e todos aqueles que contribuíram para que a produção detrabalhos acadêmicos conforme as normas ABNT com LATEX fosse possível.

Agradecimentos especiais são direcionados ao Centro de Pesquisa em Arquiteturada Informação2 da Universidade de Brasília (CPAI), ao grupo de usuários latex-br3 e aosnovos voluntários do grupo abnTEX2 4 que contribuíram e que ainda contribuirão para aevolução do abnTEX2.

1 Os nomes dos integrantes do primeiro projeto abnTEX foram extraídos de <http://codigolivre.org.br/projects/abntex/>

2 <http://www.cpai.unb.br/>3 <http://groups.google.com/group/latex-br>4 <http://groups.google.com/group/abntex2> e <http://abntex2.googlecode.com/>

Page 10: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo
Page 11: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

“Não vos amoldeis às estruturas deste mundo,mas transformai-vos pela renovação da mente,a fim de distinguir qual é a vontade de Deus:

o que é bom, o que Lhe é agradável, o que é perfeito.(Bíblia Sagrada, Romanos 12, 2)

Page 12: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo
Page 13: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

SOBRENOME, N. A.. Comparações de eficiência de Detectores de Atividade deVoz. 41 p. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) –Universidade Estadual de Londrina, Londrina–PR, 2015.

RESUMO

Segundo a 1, 3.1-3.2, o resumo deve ressaltar o objetivo, o método, os resultados e as con-clusões do documento. A ordem e a extensão destes itens dependem do tipo de resumo(informativo ou indicativo) e do tratamento que cada item recebe no documento original.O resumo deve ser precedido da referência do documento, com exceção do resumo inseridono próprio documento. (. . . ) As palavras-chave devem figurar logo abaixo do resumo, an-tecedidas da expressão Palavras-chave:, separadas entre si por ponto e finalizadas tambémpor ponto.

Palavras-chave: Latex. Template ABNT-DC-UEL. Editoração de texto.

Page 14: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo
Page 15: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

SOBRENOME, N. A.. Title of the Work. 41 p. Final Project (Bachelor of Science inComputer Science) – State University of Londrina, Londrina–PR, 2015.

ABSTRACT

This is the english abstract. The Abstract in English should be faithful to the Resumo inPortuguese, but not a literal translation.

Keywords: Latex. ABNT-DC-UEL. Text editoration.

Page 16: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo
Page 17: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

LISTA DE ILUSTRAÇÕES

Figura 1 – Diagrama de bloco de um VAD (adaptado de [2]) . . . . . . . . . . . . 25Figura 2 – Exemplo de Detector de atividade de voz integrado a um sistema de

reconhecimento de locutor (adaptado de [3]) . . . . . . . . . . . . . . . 26

Page 18: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo
Page 19: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

LISTA DE TABELAS

Page 20: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo
Page 21: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

LISTA DE ABREVIATURAS E SIGLAS

ABNT Associação Brasileira de Normas Técnicas

BNDES Banco Nacional de Desenvolvimento Econômico e Social

IBGE Instituto Nacional de Geografia e Estatística

IBICT Instituto Brasileiro de Informação em Ciência e Tecnologia

NBR Norma Brasileira

Page 22: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo
Page 23: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2 FUNDAMENTAÇÃO TÉORICA . . . . . . . . . . . . . . . . . 252.1 Detector de Atividade de Voz . . . . . . . . . . . . . . . . . . . . 252.2 O problema do Ruído . . . . . . . . . . . . . . . . . . . . . . . . . 262.3 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . 26

3 MÉTODOS DE DETECÇÃO DE ATIVIDADE DE VOZ . . . 273.1 Domínio de tempo . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.1.1 Detector Linear Baseada em Energia . . . . . . . . . . . . . . . . 283.1.2 Detector Linear Adaptativo Baseado em Energia . . . . . . . . 283.1.3 Algoritmo do tipo cruzamentos por zero . . . . . . . . . . . . . 283.2 Domínio de frequência . . . . . . . . . . . . . . . . . . . . . . . . . 293.2.1 Detector Linear de Energia em Sub-bandas . . . . . . . . . . . 293.2.2 detecção de achatamento espectral . . . . . . . . . . . . . . . . . 293.2.3 Detector de Atividade de voz Abrangente . . . . . . . . . . . . 293.3 Decisores baseados em aprendizado de máquina . . . . . . . . . 30

4 RESULTADOS DOS MÉTODOS PROPOSTOS . . . . . . . . 31

5 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

APÊNDICES 37

ANEXOS 39

Trabalhos Publicados pelo Autor . . . . . . . . . . . . . . . . . 41

Page 24: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo
Page 25: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

23

1 INTRODUÇÃO

Os usuários de aplicações que utilizam sinais de voz em suas atividades estãocada vez mais exigentes em relação a seu desempenho. Como exemplo dessas aplicaçõespodemos citar a transmissão de voz em redes de pacotes (Voice Over Internet Protocol -VoIP), reconhecimento de locutor, ou seja, o reconhecimento biométrico por sinal de voze o reconhecimento de comandos de voz, muito utilizado em sistemas móveis e veiculares.

No entanto, a presença de ruídos pode impactar o desempenho desse tipo de aplica-ções, fazendo com que comandos não sejam reconhecidos e interpretados de forma correta,dificultando o processo de identificação por sinal de voz ou mesmo tornando ineficaz al-guns codificadores (CODECs) que visam transmitir somente sinais gerados pelos locutores[4].

Para aumentar seu desempenho, essas aplicações utilizam detectores de atividadede voz (voice activity detector - VAD), uma classe de processamento de sinais que detectaa presença ou a ausência de fala em pequenos segmentos de um sinal de áudio [2]. OsVAD’s possuem uma função fundamental no pré-processamento de diversas aplicações deenvolvem fala.

No reconhecimento de comandos de voz e de locutores a utilização dos VAD’s sedão no fato de que só serão processados segmentos que possuem voz ativa, e que segmentosde silêncio e de ruídos devem ser descartados a fim de diminuir o custo computacional.Na transmissão de dados de voz os VAD’s são utilizados para otimizar a codificação edecodificação, por exemplo o G.729 da ITU (International Telecommunication Union) quetrabalha com um módulo DTX ( discontinuous transmission) que executa de duas formasdistintas, uma quando há detecção de atividade de voz e outra quando há sinal inativoou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisoreficiente que classifica a fala em ativa ou inativa, baixo custo computacional (utilizaçãoem tempo real), máxima detecção de segmentos inativos de voz e que tenha o mínimo defalsos-negativos ou falsos-positivos.

Um VAD integrado a um sistema de comunicação aumenta o desempenho do canalde transmissão, reduz a interferência e o consumo de energia em dispositivos portáteis porexemplo [2].

Page 26: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo
Page 27: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

25

2 FUNDAMENTAÇÃO TÉORICA

2.1 Detector de Atividade de Voz

Os VAD’s se referem a um problema de identificação de fala ativa e de fala inativa(silêncio ou ruído). É um componente "front-end"de muitos sistemas de processamento defala [5] e utilizados como pré-processadores dos sistemas de comunicação [2]. De acordocom [6] as características necessárias para um detector ideal são: confiabilidade, precisão,adaptação, simplicidade, processamento em tempo real e que seja robusto a qualquer tipode ruído. Sendo o ruído a característica mais desafiadora para compor um algoritmo VADespecialmente quando necessita-se de processamento em tempo real devido a sua comple-xidade. O desempenho dos algoritmos VAD são afetados pelo aumento do ruído. Algunsmétodos propostos superaram esse problema em troca de alta complexidade computacio-nal. Sendo a simplicidade e a robustez sobre ruído características essenciais dos detectoresde atividade de voz.

Os algoritmos de detectores de voz operam de forma a tomar o sinal digitalizado,processando esse sinal extraindo suas características particulares e passam essas carac-terísticas para um modelo que irá descrevê-la como ruído, fala ou silêncio, e finalmenteclassificar o sinal baseado no limiar definido pelo modelo adotado [7], a figura 1 ilustra oscomponentes do VAD.

Figura 1 – Diagrama de bloco de um VAD (adaptado de [2])

Sua utilização em sistemas de reconhecedores de comandos ou de locutor, estáilustrado na figura 2. Nesse tipo de sistema, o VAD é uma técnica utilizada para diminuiro impacto negativo do ruído no processamento do sinal. Primeiro são feitas as estimativasdo nível de ruído, esse refinamento geralmente é obtido com um filtro (Wiener) ou umasubtração espectral. Concluída essa tarefa, ocorre a extração do ruído e períodos de silêncioa partir da decisão do VAD (Frame Dropping) para que os erros de inserção provocadas

Page 28: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

26

Figura 2 – Exemplo de Detector de atividade de voz integrado a um sistema de reconhe-cimento de locutor (adaptado de [3])

pelos ruídos sejam reduzidos, e finalmente somente os frames de interesse serão passadasao sistema de reconhecimento [3].

2.2 O problema do Ruído

Um problema na área de processamento da fala é a detecção de sua presença emum dado sinal. A resolução desse problema deve ser realizada pela distinção da fala ativapara inativa baseando-se na observação de um vetor de características, no qual serve comoentrada para a regra de decisão que classifica esse vetor. A tarefa de identificação de sinaisde fala não é trivial pois com o aumento do ruído o classificador tende a ficar menos efetivoem seu processamento [3].

A seleção de um vetor de características adequado para a detecção de fala e umrobusto decisor são desafios que afetam a atuação dos VADs sob condições de ruído. Muitosalgoritmos são efetivos em várias aplicações porém podem ocorrer erros de detecção devidoa perda de poder de decisão sob baixo nível de SNR (relação sinal-ruído, do inglês signal-to-noise ratio), uma medida que compara o nível de ruído ambiente com o nível do sinalde áudio analisado, sendo esse um dos principais obstáculos que desafiam a eficiência dosalgoritmos dos detectores [3].

2.3 Trabalhos Relacionados

Page 29: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

27

3 MÉTODOS DE DETECÇÃO DE ATIVIDADE DE VOZ

O primeiro passo para um sistema de detecção de atividade de voz é a extraçãode características acústicas do sinal. Muitas técnicas assumem que essas característicassão estacionárias sobre um intervalo de alguns milissegundos, então o sinal é divididoem segmentos de tamanhos iguais chamados quadros (ou do inglês frames) para a extra-ção das características [8]. Algumas características mais exploradas na literatura serãocategorizadas a seguir:

∙ Baseadas em Energia: sendo a energia uma medida de sonoridade do sinal, sãocaracterísticas simples que são exploradas pelos VAD’s baseados no domínio detempo, o qual assume que a fala sempre será mais sonoro que o ruído. Porém quandoa sonoridade do ruído está no mesmo nível que a fala, ou por exemplo quando háo aumento de nível do ruído do ambiente, o método falha na discriminação da falaativa e do ruído [8]. Por exemplo métodos que calculam um valor de limiar deenergia onde a energia da fala deve sempre ultrapassar esse valor, porém quando háuma situação de alto ruído essas características podem não ser muito eficientes. Emgeral essas características funcionam bem sob a ausência de ruído ou condições dealto nível de SNR, porém a eficiência cai drasticamente quando o nível de SNR ficaabaixo de 10 dB.

∙ Baseadas no Espectro da Frequência: é uma das características dos VAD’s que ana-lisa o espectro da frequência, e descreve a informação de frequência do sinal. Vistoque as características espectrais dos ruídos se diferem das características de vozativa [8]. Essas características são exploradas nos métodos baseados no Domínio dafrequência que será exemplificado mais a seguir.

Alguns modelos tradicionais de implementação dos VADs foram desenvolvidos eclassificados em domínio de tempo e domínio de frequência. Por exemplo métodos dedomínio de tempo como Detector Linear Baseada em Energia (LED), Detector LinearAdaptativo Baseada em Energia (ALED) [4], Taxa de Cruzamento por zeros [9, 10] e emdomínio de frequência como Detector Linear de Energia em Sub-Bandas (LSED), Detectorde achatamento espectral (SFD) e Detector de Atividade de voz Abrangente (CVAD) [4]são métodos que procuram ser eficazes sob o problema de ruídos junto com o sinal e queserão abordados a seguir.

Page 30: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

28

3.1 Domínio de tempo

Detectores de atividade de voz em domínio de tempo são métodos nos quais ascaracterísticas são baseados em energia dos frames em função do tempo ao longo dosinal, ou seja o sinal inteiro é dividido em frames de mesmos valores de milissegundos eclassificados. Sendo a energia um parâmetro considerável no qual pode classificá-lo comoativo ou inativo e de que a energia de um frame ativo é maior do que um inativo entãoadota-se uma seguinte regra: se a energia de um frame ultrapassa um valor de limiardefinido então é considerado como ativo, caso contrário inativo [4].

3.1.1 Detector Linear Baseada em Energia

O Detector Linear Baseada em Energia (LED - Linear Energy-Based Detector): éum método no qual consiste em adaptar o valor de limite de energia, uma vez que o sinalpode possuir ruídos não-estacionários e um limite fixo ocasionaria um erro no algoritmo[4]. A regra de atualização do limite ocorre da seguinte forma:

𝐸𝑛𝑜𝑣𝑜 = (1 − 𝑝)𝐸𝑎𝑛𝑡𝑖𝑔𝑜 + 𝑝𝐸𝑠𝑖𝑙𝑒𝑛𝑐𝑖𝑜 (3.1)

Sendo 𝐸𝑛𝑜𝑣𝑜 o valor do limite atualizado, 𝐸𝑎𝑛𝑡𝑖𝑔𝑜 o valor do limite anterior, e 𝐸𝑠𝑖𝑙𝑒𝑛𝑐𝑖𝑜 ovalor de energia do frame mais recente e 𝑝 é escolhido considerando a resposta ao impulsoda eq 3.1 como um filtro de primeira ordem (0< 𝑝<1) [4].

3.1.2 Detector Linear Adaptativo Baseado em Energia

O Detector Linear Adaptativo Baseado em Energia (ALED - Adaptative LinearEnergy-based Detector): é um aprimoramento do Detector Linear Baseada em Energia(LED), uma vez que 𝑝 é limitado a uma constante que é insensível a variação das es-tatísticas dos ruídos. Para superar esse problema é computado a energia baseado nasestatísticas dos frames inativos, um buffer contendo os valores de 𝐸𝑠𝑖𝑙𝑒𝑛𝑐𝑖𝑜 e calculado avariância dos valores desse buffer e a cada novo valor adicionado ao buffer um valor antigosai e é calculado um novo valor de variância, dessa forma é definido o valor para 𝑝 e assimcalculado o novo valor para o limite 𝐸𝑛𝑜𝑣𝑜 [4].

3.1.3 Algoritmo do tipo cruzamentos por zero

Algoritmos do tipo cruzamentos por zero (ZCR- Zero Crossing Rate): medem aquantidade de vezes em que sucessivas amostras possuem diferentes sinais algébricos. Éuma medida do número de vezes em que no qual um devido intervalo ou frame a amplitudedo sinal passa pelo valor zero [10]. A energia para voz ativa está concentrada em baixasfrequências e para voz inativa a energia se concentra em altas frequências. Deste modo a

Page 31: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

29

contagem de cruzamentos para voz ativa é baixa e é tipicamente entre 0-30, e para vozinativa varia entre 10-100 [2].

3.2 Domínio de frequência

Os métodos em domínio de frequência levam em consideração as característicasbaseada na frequência dos sinais de voz. É utilizado a Transformada Discreta do Cos-seno para a computação do espectro pelas seguintes razões: é computacionalmente menoscomplexa do que a Transformada Discreta de Fourier, e os valores são reais [4]

3.2.1 Detector Linear de Energia em Sub-bandas

Detector Linear de Energia em Sub-bandas (LSED - Linear Sub-band Energy De-tector) é um método no domínio de frequência que trabalha com sub-bandas de sinais devoz. Esse algoritmo realiza suas decisões baseadas na comparação das energias do sinaldo frame com os limites de energia no domínio da frequência. Após a divisão em fra-mes contendo amostras do sinal computa-se suas DCT’s e as compara com cada bandade frequência de largura de 1kHz cada, que são quatro bandas: 0-1kHz, 1-2kHz, 2-3kHz,3-4kHz [4]. Ao final aplica-se a lógica combinacional para a tomada de decisão sobre osinal caso seja voz ativa ou inativa [11]. Sendo que a maior parte da energia de voz serconcentrada em baixas frequências, na faixa de 0-1kHz, esta é dominante no processo doLSED, assim é fundamental que a energia nessa sub-banda supere o limiar e em qualqueroutro par de sub-bandas para que seja indicado atividade de voz [11].

3.2.2 detecção de achatamento espectral

O algoritmo de detecção de achatamento espectral (SFD - Spectral Flatness Detec-tor) tem o objetivo de funcionar sob influência de baixo SNR. Enquanto o ruído brancopossui um espectro mais plano, a voz ativa possui um espectro não-estacionário com maiorconteúdo espectral localizado em baixas frequências, isso implica que uma variância altasignifica que o sinal contém voz ativa enquanto baixa variância significa ruído isolado[4]. A variância de cada frame é comparada com a variância do limiar para determinara atividade de voz e cada frame inativo é usado para atualizar o valor do limiar. Estealgoritmo funciona bem em baixas condições de SNR porque ele utiliza uma abordagemestatística para a distribuição de energia no espectro, ao contrário dos algoritmos baseadosem energia [4].

3.2.3 Detector de Atividade de voz Abrangente

O Detector de Atividade de voz Abrangente (CVAD - Comprehensive VAD): é ummétodo mais abrangente proposto por [4]. Para obter um resultado melhor, este algoritmo

Page 32: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

30

une os métodos discutidos anteriormente, uma vez que esses anteriores exploraram apenasalgumas características específicas. Este método é capaz de identificar ruído branco assimcomo ruídos de uma frequência específica e mantendo uma boa qualidade do sinal. Oscálculos e o processamento continuam os mesmos mudando apenas a regra de decisão,baseando-se numa prioridade maior na comparação de Energia. O fluxograma desse mé-todo é mostrado na figura. Embora a qualidade do resultado seja melhor comparado comos métodos anteriores, seu desempenho diminui em sinal com baixo SNR e com ruído defundo devido a sua complexidade ser alta [4].

3.3 Decisores baseados em aprendizado de máquina

O último processo dos VAD’s são os decisores, que captam as informações extraídasdas características e assim classificam os frames do sinal como ativos ou inativos. Dessaforma foram desenvolvidos também decisores com abordagens baseados em aprendizadode máquina, e que por exemplo podem ser treinados previamente com as característicasdos ruídos já analisados e assim poder classificar de forma mais eficiente.

Os decisores dos VAD’s podem ser treinados com um sinal misto de fala e ruído jápreviamente classificados (aprendizagem supervisionada) ou com um ruído similar ao dosinal de entrada (aprendizagem semi-supervisionada). É desejável que os sistemas VADsnão necessitem de treinamento por ser mais difícil encontrar dados especializados paratal, essa abordagem é chamada de aprendizagem não-supervisionada, também é desejávelque o sistema seja robusto, de forma que consiga lidar com uma variedade de ruídosnão-estacionários e que possa operar com uma amplitude de SNR maior [5].

Outra abordagem mais moderna foi proposto por Shin et al. [12] utilizou umaregra de decisão incorporando o conceito de minimum classification error. Baig et al.[13] baseou-se em máquina de vetores de suporte com aprendizagem supervisionada queapresentou um resultado eficiente e um classificador preciso.

Page 33: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

31

4 RESULTADOS DOS MÉTODOS PROPOSTOS

Page 34: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo
Page 35: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

33

5 CONCLUSÃO

Page 36: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo
Page 37: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

35

REFERÊNCIAS

[1] ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS. NBR 6028 : Resumo -apresentação. Rio de Janeiro, 2003. 2 p.

[2] MEDURI, S. et al. A Survey and Evaluation of Voice Activity DetectionAlgorithms. [s.n.]. Disponível em: <http://medieteknik.bth.se/fou/cuppsats.nsf/all/a1e356336cee2e3ac125799800566259/\protect\T1\textdollarfile/BTH2011\_Meduri.pdf>.

[3] RAMIREZ, J.; GóRRIZ, J.; SEGURA, J. Voice activity detection. fundamentalsand speech recognition system robustness. Robust Speech Recognition, n. June, p.1–22, 2007. Disponível em: <http://cdn.intechopen.com/pdfs/104/InTech-Voice\_activity\_detection\_fundamentals\_and\_speech\_recognition\_system\_robustness.pdf>.

[4] PRASAD, R. V. et al. Comparison of voice activity detection algorithms forVoIP. Proceedings ISCC 2002 Seventh International Symposium on Computers andCommunications, 2002. ISSN 1530-1346.

[5] GERMAIN, F. G.; SUN, D. L.; MYSORE, G. J. Speaker and Noise IndependentVoice Activity Detection. Methods, v. 14, p. 15, 2013.

[6] MOATTAR, M. H.; HOMAYOUNPOUR, M. M.; KALANTARI, N. K. A newapproach for robust realtime Voice Activity Detection using spectral pattern.Acoustics Speech and Signal Processing (ICASSP), 2010 IEEE InternationalConference on, p. 4478–4481, 2010. ISSN 1520-6149.

[7] KOLA, J.; ESPY-WILSON, C.; PRUTHI, T. Voice activity detection. Merit Bien,p. 1–6, 2011.

[8] KHOA, P. Noise robust voice activity detection. p. 77, 2012.

[9] JALIL, M.; BUTT, F. A.; MALIK, A. Short-time energy, magnitude, zero crossingrate and autocorrelation measurement for discriminating voiced and unvoicedsegments of speech signals. 2013 The International Conference on TechnologicalAdvances in Electrical, Electronics and Computer Engineering, TAEECE 2013,n. m, p. 208–212, 2013.

[10] SHETE, D.; S.B. Patil, P. Zero crossing rate and Energy of the Speech Signal ofDevanagari Script. IOSR journal of VLSI and Signal Processing, v. 4, n. 1, p. 01–05,2014. ISSN 23194197. Disponível em: <http://www.iosrjournals.org/iosr-jvlsi/papers/vol4-issue1/Version-1/A04110105.pdf>.

[11] SANDER, F. et al. Comparação de Detectores de Atividade de Voz em AmbienteRuidoso. 2011.

[12] SHIN, J. W.; CHANG, J.-H.; KIM, N. S. Voice activity detection based onstatistical models and machine learning approaches. Computer Speech & Language,Elsevier Ltd, v. 24, n. 3, p. 515–530, 2010. ISSN 08852308. Disponível em:<http://dx.doi.org/10.1016/j.csl.2009.02.003>.

Page 38: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

36

[13] BAIG, M.; MASUD, S.; AWAIS, M. Support Vector Machine based Voice ActivityDetection. Intelligent Signal Processing and Communications, 2006. ISPACS ’06.International Symposium on, p. 319–322, 2006.

Page 39: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

Apêndices

Page 40: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo
Page 41: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

Anexos

Page 42: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo
Page 43: JUDSONHIROTOSHITABATA - UEL...ou ruído [3]. As características desejáveis para um algoritmo VAD são: ter um decisor eficiente que classifica a fala em ativa ou inativa, baixo custo

41

TRABALHOS PUBLICADOS PELO AUTOR

Trabalhos publicados pelo autor durante o programa (obrigatório somente para teses dedoutorado e dissertações de mestrado no template DC/UEL).

1. Jose da silva, autor2 da silva, orientador da silva, Título do artigo, local onde foipublicado, mês/ano, editora, número de página, isbn, (Qualis CC 2012, xx)

2. Jose da silva, autor2 da silva, orientador da silva, Título do artigo, local onde foipublicado, mês/ano, editora, número de página, isbn, (Qualis CC 2012, xx)

3. Jose da silva, autor2 da silva, orientador da silva, Título do artigo, local onde foipublicado, mês/ano, editora, número de página, isbn, (Qualis CC 2012, xx)

4. Jose da silva, autor2 da silva, orientador da silva, Título do artigo, local onde foipublicado, mês/ano, editora, número de página, isbn, (Qualis CC 2012, xx)