sbt2005 - 1000 frases

Embed Size (px)

Citation preview

  • 5/17/2018 sbt2005 - 1000 frases

    1/5

    XXII SIMPOSIO BRASILEIRO DE TELECOMUNICA(:OES - SBrT'OS, 04-08 DE SETEMBRO DE 2005, CAMPINAS, SP

    Urn Conjunto de 1000 Frases FoneticarnenteBalanceadas para 0 Portugues Brasileiro Obtido

    Utilizando a Abordagern de Algoritrnos GeneticosRicardo J,R Cirigliano, Clarisse Monteiro, Filipe Leandro de E Barbosa, Fernando Gil Vianna Resende Jr.,

    Leticia Rebollo Couto, J0:10 A. de Moraes

    Resumo-Este trabalho apresenta urn algoritmo que e utili-zado na obtencao de urn conjunto de 1000frases foneticamentebalanceadas, com diversas aplicacoes em processamento de voz.Os conjuntos utilizados ate entao, alem de serem consideravel-mente menores, foram projetados para uma variedade especificada lingua portuguesa. Neste trabalho, 0 conjunto de 1000frasese obtido utilizando-se tecnicas de algoritmo genetico, visando aminimizar 0mimero de unidades de sintese de voz nao vistas nabase.0espaco de busca de tal conjunto e urn corpus eletronlcode urn jornal brasileiro. Resultados mostram que 0 conjuntoobtido e foneticamente balanceado para os fones representativosda variedade do portugues falado nos telejornais de abrangencianacional.Palavras-Chave- Base de dados, foneticamente balanceado,sintese de voz, portugues brasileiro.Ahstract- This work presents an algorithm used to obtain acollection of 1000 sentences phonetically balanced, with seve-

    ral applications in speech processing. Until now, all sentencescolletions were considerably smaller and designed for somevariety of Portuguese. In this work, the 1000 sentences set isobtained through genetic algorithms techniques, looking for theminimization of the number of speech synthesis units not presentin the collection.The search space is an electronic corpus from abrazilian newspaper.The results showthat the obtained collectionis phonetically balanced to the phones of Brazilian Portugueseused in newspapers.Keywords- Data base, phonetically balanced, speech synthesis,

    Brazilian Portuguese.

    I. INTRODU\=AOBases de voz sao de suma importancia em sistema de sintese

    de fala (TTS - text-to-speech). Nos sistemas TTS baseados emHMMs (hidden Markov models), por exemplo, quanta maioro mimero de ocorrencias de uma dada unidade em uma basede dados de voz, mais acurado pode ser 0 modelo relacionadoa tal unidade. Em [1] foi proposto urn conjunto de 200 frasesfoneticamente balanceadas para 0 portugues falado no Rio deJaneiro. Tal conjunto vern sendo amplamente utilizado comobase de voz para sistemas TTS para 0 portugues [2][3].Ricardo J.R. Cirigliano, Fernando Gil Vianna Resende Jr. Programa de

    Engenharia Eletrica, COPPE, Universidade Federal do Rio de Janeiro, Rio deJaneiro, Brasil, E-mails:[email protected]@lps.ufrj.br. Filipe Leandrode F. Barbosa Departamente de Engenharia Eletronica e de Cornputacao,Universidade Federal do Rio de Janeiro, Rio de Janeiro, Brasil, E-mail:[email protected]. Clarisse Monteiro, Leticia Rebollo Couto, Joao A. deMoraes, Faculdade de Letras, Universidade Federal do Rio de Janeiro, Rio deJaneiro, Brasil, E-mails:[email protected]. leticiarcouto@yahooJr,[email protected].

    Neste trabalho e apresentado urn algoritmo que auxiliana obtencao de urn conjunto de 1000 frases foneticamentebalanceadas, com divers as aplicacoes em processamento devoz, a partir de uma base de texto pre-selecionada de urnextrato de jornal brasileiro. Tal conjunto foi projetado visandoo balanceamento fonetico, tomando como base 0 portuguesfalado em telejornais de abrangencia nacional, caracterizadopor uma pronuncia pouco marcada regionalmente e bern aceitaem divers as regi6es do pais.o presente trabalho esta organizado em secoes como se-gue. Na Secao II e apresentada uma breve descricao desistemas de sintese de voz. Na Secao III sao descritas asprincipais aplicacoes de algoritmos geneticos e e apresen-tado 0 algoritmo genetico implementado para solucionar 0problema da obtencao das 1000 frases. A Secao IV contemos resultados obtidos. Na secao V sao apresentados os des-cartes e substituicoes de frases realizados ap6s a aplicacaodo algoritmo genetico. A Secao VI apresenta os testes paravalidacao do balanceamento fonetico das 1000 frases. A Secao7 apresenta as conc1us6es a que chegamos.

    II. SINTETIZADORES DE VOZUm sistema de sintese de voz pode ser entendido como urn

    conversor texto-fala, ou seja, um sistema que recebe comoentrada urn texto e da como saida a voz sintetizada. Existemvaries metodos de sintese de voz, dentre os quais os maiscomuns sao os metodos de concatenacao de formas de onda,como 0 PSOLA (Pitch Synchronous Overlap and Add). Outratecnica que vem se tornando popular e a baseada em HMMs[2].Ao sintetizar voz, devemos escolher as unidades minimasde sfntese a serem utilizadas. Em alguns sintetizadores de voz,essas unidades sao as sflabas. Outros conversores texto-falautilizam os fones para realizar a sintese. A pesquisa em queeste trabalho esta inserido utiliza os trifones como unidadesprincipais de sintese. Os trifones sao representados por urnfone central, com as transicoes do fone anterior e do posterior.A escolha de trifones como unidade de sfntese representa umborn equilfbrio entre a co-articulacao, refletida na transicaoentre fones e 0 mimero de unidades existentes.

    III. ALGORITMOS GENETICOSA. Descriciio GeralAlgoritmos geneticos sao algoritmos desenvolvidos com

    base na teoria da evolucao [4]-[7]. Tais algoritmos sao uti-

    mailto:E-mails:[email protected]@lps.ufrj.br.mailto:[email protected]:E-mails:[email protected]:[email protected]:[email protected]:E-mails:[email protected]:[email protected]:E-mails:[email protected]@lps.ufrj.br.
  • 5/17/2018 sbt2005 - 1000 frases

    2/5

    XXII SIMPOSIO BRASILEIRO DE TELECOMUNICA(:OES - SBfT'OS, 04-08 DE SETEMBRO DE 2005, CAMPINAS, SP

    SimResolveu? Pam!

    Fig. I. Diagrama esquernatico de urn algoritmo genetico.

    lizados quando 0 espaco de busca da solucao 6tima para urndado problema e considerado grande 0 suficiente, para quetome proibitiva a procura com os recursos computacionais dehoje. Dependendo do tempo disponivel para a obtencao da res-posta para urn dado problema, os algoritmos geneticos podemser aplicaveis. Nesses algoritmos sao utilizados conceitos depopulacao, reproducao, selecao natural, mutacoes geneticas ecross-over [4].A Figura I mostra urn diagrama esquematico de urn al-

    goritmo genetico simples. Podemos ver que a primeira fasedo algoritmo e a geracao da populacao inicial, feita alea-toriamente. Em seguida, calculando-se a funcao-objetivo doproblema em questao, 0 membro mais apto da populacaoe apontado. Se 0 objetivo de minimizacao ou maximizacaonao foi alcancado, os membros mais aptos se reproduzem, etambem sofrem mutacoes genetic as e cross-over, fatos resu-midos, conforme mostrado na Figura I, pelo termo Evolucao.Os membros menos adaptados, ou seja, aqueles cuja funcao-objetivo nao atingiu valores acima de limiares desejados, ternuma maior probabilidade de sofrerem alteracoes em seus ge-nes. Ap6s evoluir, a populacao passa para a pr6xima geracao,na qual a funcao-objetivo sera novamente calculada e 0 ciciorecomecara, dando, por sua vez, origem a novas geracoes.B. Buscando a soluciio por algoritmos geneticoso presente trabalho busca na teoria de algoritmos geneticos

    a solucao para 0 problema de encontrar, em uma base detexto eletronico de urn extrato de jomal brasileiro, 1000 frasesfoneticamente balanceadas, minimizando 0mimero de trifonesnao vistos na mesma, ou seja, fazendo com que, dentre todosos trifones existentes na lfngua portuguesa, essas 1000 frasescontivessem 0 maior ruimero possivel. A base de dados detexto utilizada e a base do CETEN-Folha [8]. Essa base dedados foi obtida a partir das 365 edicoes do jomal brasileiroFolha de Sao Paulo no ana de 1994 e possui, aproxima-damente, 24 milhoes de palavras. Urn conjunto menor defrases foi obtido, inicialmente, a partir da base do CETEN-

    Folha, selecionando apenas as frases que continham entre 9 e12 palavras. Tais frases foram selecionadas por considerar-se este tamanho como representativo da media de gruposritmicos e entonacionais do portugues. Alem dis so, frasescurtas possuem poucos trifones e frases muito longas podemtomar 0 treinamento dos HMMs computacionalmente inviavel.Cabe aqui ressaltar que a unidade palavra foi definida emfuncao do espaco em branco. Segundo este criterio "Rio deJaneiro"corresponde a tres palavras e "lua-de-mel?a uma.Aparentemente, 0 problema em questao parece ser de

    minimizacao, visto que queremos minimizar 0 mimero detrifones nao vistos na base. Contudo, tal problema pode ser re-escrito como urn problema de maximizacao, em que 0 objetivoseria 0 de maximizar 0 mimero de trifones diferentes em urnconjunto de 1000 frases. Assim, estariamos automaticamenteminimizando 0 mimero de unidades nao vistas.A funcao-objetivo do algoritmo genetico desenvolvido e 0

    mimero de trifones diferentes encontrados em cada conjuntode 1000 frases selecionado. Para quantificarmos a impossibi-lidade de uma computacao 6tima para resolver 0 problemaem questao, vamos verificar 0 mirnero total de combinacoesde 1000 frases que teriamos que obter para chegarmos aoconjunto 6timo, ou seja, ao conjunto de frases que tivesse 0maior mimero de trifones diferentes.Considerando que 0 arquivo de frases selecionado

    do CETEN -Folha possui 213000 frases, aproximadamente,teriamos que computar a combinacao de 213000 frases, to-madas 1000 a 1000. Tal mirnero saturaria uma variavel de 64bits.Para que tal combinacao fosse calculada, utilizou-

    se uma biblioteca implementada em C++, que realizaoperacoes aritmeticas com resolucao arbitraria, a GMP(Gnu Multiple Precision) [9].o mimero total de combinacoes encontrado, ou seja, deconjuntos de 1000 frases possiveis, foi 6,22.102764. Consi-derando 0 fato de que 0 calculo da funcao-objetivo, paracada conjunto frases, demora aproximadamente 5 segundosem urn computador com processador ATHLON 700 MHz, 0mimero total de segundos para finalizar tal computacao seria3,1.102765, que corresponde a 102758 anos, aproximadamente.Para efeito de comparacao, desde 0 surgimento do Universo

    ate hoje, transcorreram cerca de 1010 anos, 0 que deixa claroo fato do calculo do conjunto 6timo ser inviavel, considerandoo poder computacional existente atualmente.Para que tal solucao 6tima fosse possivel precisariamos de

    urn computador capaz de computar, em urn segundo, 3.102757funcoes objetivo para os conjuntos de 1000 frases. Aindaassim, 0 resultado levaria urn ana para ser obtido. 0 poder deprocessamento deste computador precis aria ser 3.102757 maiordo que urn computador 5 vezes mais rapido que 0 computadorutilizado para computar a funcao-objetivo.

    C. Descriciio do algoritmo desenvolvidoPara poder solucionar 0 problema das 1000 frases em tempohabil, foi desenvolvido urn algoritmo baseado na teoria de

    algoritmo genetico. Tal conjunto de procedimentos e descritoem passos, a seguir:

  • 5/17/2018 sbt2005 - 1000 frases

    3/5

    XXII SIMPOSIO BRASILEIRO DE TELECOMUNICA(:OES - SBrT'05, 04-08 DE SETEMBRO DE 2005, CAMPINAS, SP

    TABELA IRESULTADO PARA DIVERSAS CONFIGURA

  • 5/17/2018 sbt2005 - 1000 frases

    4/5

    XXII SIMPOSIO BRASILEIRO DE TELECOMUNICA(:OES - SBrT'OS, 04-08 DE SETEMBRO DE 2005, CAMPINAS, SP

    foi unido ao primeiro, resultando em urn total de 2000 frases.Esse segundo conjunto corresponde a regiao 120582.Foram descartadas frases com as seguintes caracteristicas: Frases com palavras, siglas ou abreviacoes que apresenta-yam, em sua grafia, sequencias grafematicas nao previstasnas convencoes ortograficas do portugues (como Senna,shoppings), ou palavras, geralmente nomes proprios es-trangeiros, cuja prornincia corrente nao obedece as re-gras, estabelecidas para 0 portugues, de conversao texto-fone (como Freud, Einstein) ou as regras prosodic as deatribuicao do acento tonico com base na grafia (como emRoger);

    Frases com urn mimero de palavras acima do estipulado,surgidas apos a transcricao de numerais e datas porextenso ou, ao contrario, abaixo do previsto, apos acorrecao de erros de transcricao na atribuicao de espacoem branco no que diz respeito tanto a caracteres depontuacao, quanta a palavras compostas, pela omissaodo hffen, como em "lua de mel";

    Frases incompletas ou que perderam 0 sentido fora docontexto;

    Elementos de diffcilleitura que pudessem causar gaguei-ras no leitor, como trechos de poesias, frases interrogati-vas e frases exc1amativas;

    Marcas de fala indireta e marcadores conversacionais.Ao final 0 algoritmo genetico foi novamente rodado para

    selecior apenas 1000 frases. A regiao 2 foi a selecionada,apresentando 3223 trifones.Na Tabela II sao apresentadas as 30 primeiras frases, do

    total das 1000 frases obtidas, disponiveis na pagina virtualwww.lps.ufrj.br/vozIlOOOfrases.VI. BALANCEAMENTO FONE-TICO

    A Tabela III mostra uma lista da frequencia relativa dosfones nas 1000 frases e no CETEN-Folha. As frequenciasfoneticas do CETEN-Folha e das 1000 frases foram levan-tadas apos utilizarmos 0 algoritmo de transcricao grafema-fone descrito em [10], que faz 0 mapeamento das letras dotexto eletronico, os grafemas, para suas respectivas leituras,os fones.Com 0 objetivo de verificar se as 1000 frases sao fone-

    ticamente balanceadas em relacao a base CETEN-Folha, foirealizado urn teste qui-quadrado como descrito em [1]. 0 testeconsiderou que, uma vez que a base de dados possui 38 fones,existem 37 graus de liberdade. Segundo a tabela apresentadaem [1], para 35 graus de liberdade 0 qui-quadrado deve estarabaixo de 18,51 para considerarmos 0 conjunto de 1000 frasesfoneticamente balance ado em relacao a base completa doCETEN-Folha. 0 teste realizado apresentou urn qui-quadradoigual a 0,53, significativamente menor que 18,51, mostrandoque as 1000 frases estao foneticamente balanceadas.No entanto, urn conjunto de 1000 frases e demasiadamente

    extenso para ser utilizado em testes subjetivos. Para tais testes,e interessante que as 1000 frases sejam utilizadas apenas nafase de treinamento do sistema, e conjuntos menores, de 10ou 20 frases, para os testes. A base de 1000 frases foi entaodividida em conjuntos de 10 e 20 frases, sem que fosse feita

    uma busca otimizada para 0 agrupamento. Os conjuntos foramretirados de forma sequencial das 1000 frases. Em cada con-junto foi realizado urn teste qui-quadrado para verificar se eleera foneticamente balanceado em relacao a base completa doCETEN-Folha. Todos os conjuntos de 10 e 20 frases tiveramos seus qui-quadrado abaixo de 18,51. Contudo, urn grandemimero de conjuntos, apesar de foneticamente balanceados,nao apresentavam alguns fones que possuem baixa probabili-dade de ocorrencia. Foi entao definida a restricao que so seriamutilizados conjuntos com qui-quadrado abaixo de 18,51 e queapresentassem no mfnimo duas ocorrencias de cada fone. Sobesta restricao, nenhum conjunto de 10 frases se mostrou validocomo conjunto de testes. Contudo, 17 conjuntos de 20 frases,apresentados na Tabela IV, foram identificados como validospara realizacao de testes. Esse conjuntos foram movidos parao inicio do conjunto de 1000 frases e ordenados de formacrescente segundo seus qui-quadrados.

    VII. CONCLUSOESNeste trabalho e obtido urn conjunto de 1000 frases atraves

    de urn algoritmo baseado na teoria de algoritmo genetico.A abordagem baseada em algoritmo genetico possibilitou aresolucao de urn problema cuja solucao otima seria proibitivanos dias de hoje. Os resultados mostram que a regiao escolhidacomo a melhor foi encontrada em duas configuracoes demimeros NeG, 0 que pode significar que tal regiao estariaproxima da regiao que seria considerada a otima. Contudo,tal fato so poderia ser comprovado computando todas aspossibilidades.

    REFERENCIAS[I] A. Aleaim, J. A. Solewicz e J. A. Moraes, "Frequencia de ocorrencia dos

    fones e lis tas de frases foneticamente balanceadas no portugues falado noRio de Janeiro". Revista da Sociedade Brasi leira de Telecomunicacoes,Rio de Janeiro. v. 7, n. I, p. 23-41, 1992.

    [2] G. Pinto, F. L. F. Barbosa, and F. G. v. Resende Jr., "A BrazilianPortuguese TTS based on HMMs", Proc. Brazilian TelecommunicationsSociety, 2002. p. 868-872.

    [3] R. S. Maia, R. Zen, K. Tokuda, T. Kitamura and F. G. V. ResendeJr., "Towards the development of a Brazilian Portuguese Text-to-SpeechSystem Based on HMMs", In EUROSPEECH, p.2465-2468, 2003.

    [4] "GENETIC Algorithms - An Intuitive Introduction", Disponfvel em:http://homepage.sunrise.ch/homepage/pglaus/gentore.htm. Acesso em:03/06/2004.

    [5] "GENETIC Algorithms Research And Application Group (The Ga-rage)", Disponfvel em: http://garage.cps.msu.edu/demos/ flywheel !in-dex.html. Acesso em: 31/05/2004.[6] "A DEMONSTRATION of The Genetic Algorithm", Disponfvel em:http://math .hws .edu/xJavaiGA/. Acesso em: 05/06/2004.

    [7] "INTRODUCTION to Genetic Algorithms", Disponfvel em:http://cs.felk.evut.cz/xobitko Igal. Acesso em: 10106/2004.

    [8] "CORPUS de Extractus de Textos Electr6nicos Nilel Folha de Sao Paulo(Ceten-Folha)", Disponfvel em: http://acdc.linguateca.pt/cetenfolhal.Acesso em: 06/12/2002.

    [9] "BIBLIOTECA GMP (GNU MULTIPLE PRECISION)", Disponfvelem: http://www.swox.com/gmp/. Acesso em: 14/06/2004.

    [10] "F . L. F. Barbosa, G. O. Pinto, F. G. V. Resende Jr. , C. A. Goncalves,R. Monserrat and M. C. Rosa, "Grapheme-phone transcript ion algori thmfor a Brazil ian Portuguese TTS", In INTERNATIONAL WORKSHOP,PROPOR, 2003, Faro, Portugal.

    http://www.lps.ufrj.br/vozIlOOOfrases.http://homepage.sunrise.ch/homepage/pglaus/gentore.htm.http://garage.cps.msu.edu/demos/http://cs.felk.evut.cz/xobitkohttp://acdc.linguateca.pt/cetenfolhal.http://www.swox.com/gmp/http://www.swox.com/gmp/http://acdc.linguateca.pt/cetenfolhal.http://cs.felk.evut.cz/xobitkohttp://garage.cps.msu.edu/demos/http://homepage.sunrise.ch/homepage/pglaus/gentore.htm.http://www.lps.ufrj.br/vozIlOOOfrases.
  • 5/17/2018 sbt2005 - 1000 frases

    5/5

    XXII SIMPOSIO BRASILEIRO DE TELECOMUNICA(:OES - SBrT'05, 04-08 DE SETEMBRO DE 2005, CAMPINAS, SP

    TABELA IIAs 30 PRIMEIRAS FRASES DO CONJUNTO DAS 1000 FRASES.

    1 Pesquisa e uma coisa que muda a toda hora.2 No total, serao chamados vinte e seis mil

    candidatos.3 0 numero de convocados por vaga e de doze

    candidatos.4 Atualmente, esse abatimento e limitado a

    setenta por cento dos gastos5 Sandra Regina Machado: acho que ela enfim

    criou juizo.6 Eles e stao colocando armadilhas nas fazendas

    onde ja ocorreram os ataques.7 Dessas, somente umas trezentas e vinte foram

    inauguradas em territorio americana.8 No total, sete misseis foram disparadoscontra 0 encrave.

    9 Em Florianopolis, foi registrado dois grausCelsius na manha de domingo.

    10 As situa