ALGORITMOS DE NAVEGAÇÃO ROBÔ MÓVEL ...4o. SBAI- SP, 08-10 1999 ALGORITMOS DE NAVEGAÇÃO ROBÔ MÓVEL UTILIZANDO PROGRAMAÇÃO GENÉTICA Vidal Farfan Elétrica Paulo Carlos - SP

4o. SBAI- Simpósio Brasileiro de Automação Inteligente, São Paulo, SP, 08-10 de Setembro de 1999

ALGORITMOS DE NAVEGAÇÃO PARA UM ROBÔ MÓVELUTILIZANDO PROGRAMAÇÃO GENÉTICA

Daniel Vidal FarfanDep. de Engenharia ElétricaUniversidade de São Paulo

São Carlos - SPdfarfan @ sel.eesc.sc.usp.br

Marco Henrique TerraDep. de Engenharia ElétricaUniversidade de São Paulo

São Carlos - SPterra @ sel.eesc.sc.usp.br

Aluízio Fausto Ribeiro AraújoDep. de Engenharia ElétricaUniversidade de São Paulo

São Carlos - SPaluizioa @ sel.eesc.sc.usp.br

Abstract: The main objective of this paper is to use geneticprogramming to generate navigation algorithms for a mobilerobot that follows walls. The strategy proposed in [2] ismodified considering different initial positions for the robot,parameters, and taxes of reproduction, crossover and mutation.Such modifications improve the performance of the robot. Astudy of parameter robustness is also presented.

palavras chaves: Programação genética, algoritmos genéticos,robô móvel.

1 INTRODUÇÃONeste trabalho utilizamos a programação genética paraencontrar a solução de um problema particular. Desejamosobter um algoritmo de navegação que conduza um robô móvela uma distância aproximadamente constante das paredes, portodo o ambiente desconhecido .

Cada indivíduo da população é um programa de computadorsintaticamente válido que possui: funções, procedimentos, evariáveis. Chamamos de funções as operações que recebemargumentos, e terminais as operações que não recebem.Representamos cada indivíduo da população por meio de umaárvore formada por um nó raiz, nós intermediários, e nósfolhas. O nó raiz é o que origina a árvore, e fica localizadoacima dos demais, os nós intermediários fazem ligação entreoutros nós, e os nós folhas são aqueles que não se ramificam.Os nós contém círculos com letras, que representam funções, equadrados com números, que representam terminais (fig.I).

As operações criativas mais comuns, utilizadas para gerarnovas populações, são: reprodução, cruzamento, e mutação.

Reprodução: É a cópia de um indivíduo da geração anteriorpara a próxima geração, sem qualquer alteração em suaestrutura (Fig.I),

Fíg.I: Exemplo de reprodução.

Cruzamento: Consiste em selecionar dois indivíduos, e um nóao acaso em cada um deles, então trocar os nós selecionados,juntamente com qualquer sub-árvore que exista abaixo ' deles(Fig.2).

próximageraçãoreproduçãogeração

atua!

Na seção 2 é feita uma breve descrição de programaçãogenética, na seção 3 formula-se o problema descrevendo-se orobô e as salas de treinamento, na seção 4 propõe-se a soluçãopara o problema descrito, e na seção 5 a implementaçãorealizada é apresentada . Finalmente, na seção 6 os resultadosobtidos são apresentados.

2 A PROGRAMAÇÃO GENÉTICAA programação genética, assim com os algoritmos genéticos, éuma técnica de aprendizagem de máquinas que procura imitaros mecanismos de seleção natural na busca da melhor soluçãopara um determinado problema. A principio é gerada umapopulação inicial de indivíduos utilizando alguma heurística,então se avalia o desempenho de cada indivíduo, e de acordocom seu desempenho, cada indivíduo recebe um númerorepresentando o seu desempenho . Esse número é chamadofitness. Os indivíduos de melhor fitness são combinados pormeio de operações criativas para gerar a população da próximageração, então é testado o desempenho desses novos indivíduose cada indivíduo recebe um fitness. Novas populações vãosendo geradas dessa forma até que o fitness de algum indivíduoultrapasse um certo limite pré-definido . Esse indivíduo é asolução do problema em questão.

631

56

88 \51

,85

Frente

+--_'---'" 87

84

53

/52

Fig.4: O robô e seus sensores

As salas de treinamento3.2

A nós seleCionadOS

MA C

3 1 2

Mutação: Consiste em selecionar um indivíduo, e um nó aoacaso em sua estrutura , remover o nó, juntamente comqualquer sub-árvore que exista abaixo dele, gerar uma novasub-árvore e colocar no lugar da antiga (Fig.3) .

Fig.2: Exemplo de cruzamento.

40. SBAI- Simpósio Brasileiro de Automação Inteligente, São Paulo, SP, 08-10 de Setembro de 1999

próxima posicionados a incrementos de 45 ° relativos a sua frentecruzamento geração (FigA): SI , S2, S3, S4 , S5 , S6, S7: S8. O sensor SI sempre

B indica a distância do robô até a parede à sua frente , o sensor S7até a parede à direita , o sensor S3, até a parede à esquerda, esimilarmente ocorrendo com o restante dos sensores.

nó selecionado

geraçãoatual mutação

próximageraçãoA

árvore gerada

Um ambiente bidimensional é simulado , consistindo em quatrosalas completamente fechadas, com paredes variando emcomplexidade (Fig.5) . Cada sala do ambiente simuladoconsiste em uma grade de 40 por 40 células, onde cada célula éum quadrado de lado L. L é um valor que pode variar, e émedido em pixels. As áreas negras representam as paredes doambiente, as áreas cinzas representam o caminho que o robôdeve percorrer , e o símbolo * em cada sala indica a posiçãoinicial do robô naquela sala. Para poder avali ar o desempenhode cada indivíduo, dividimos as áreas cinz as em unidades quedenominamos células de corredor. O robô ideal deve visitarpelo menos um pixel de todas as 930 células de corredorexistentes.

Fig.3: Exemplo de mutação.

Como parte do projeto , é necessário especificar um conjunto defunções e terminai s que devem satisfazer as seguintesrestrições para que a programação genética consiga encontrar asolução do problema:

Suficiência: Requer que exista uma solução para o problema nodomínio de todos os programas que podem ser gerados com oconjunto de terminais e funções especificado.

Fechamento: Requer que toda função e terminal devolva umvalor de tipo compatível, e que toda função aceite argumentosdesse mesmo tipo.

A suficiência garante que a solução para o problema existe, e ofechamento garante que qualquer árvore completa (todos osnós folhas têm um terminal) é um programa sintaticamenteválido que pode ser compilado e executado.

Também é necessário definir um teste de fitness que irá avaliaro desempenho de cada indivíduo.

3 DEFINiÇÃO DO PROBLEMA

3.1 O robô seguidor de paredesO robô simulado neste trabalho pode se mover pelos espaçosvazios de seu ambiente, medir a sua distância até as paredes , emudar a sua direção. O robô possuí oito sensores de alcance

Fig.S: Salas de treinamento

Utilizamos um ambiente com quatro salas {Jara avaliar aimportância da posição inicial do robô, e encorajar odesenvolvimento de soluç ões gerais, evitando assim a simplesmemorização de um conjunto de movimentos.

632

40. SBAI- Simpósio Brasile iro de Automação Inteligente, São Paulo. SP, 08-10 de Setembro de 1999

o tamanho do pixel é usado como a unidade básica demovimento, e dentro de cada sala o robô pode se mover em 8sentidos fixos (Fig.6): 1,2,3,4,5,6,7,8. Os vetores da figura6 são utilizados para localizar a frente do robô em relação àsala.

3

4, i/,25-- -1

6/!7

Fig.6: Vetores de orientação

4 PROPOSiÇÃO DA SOLUÇÃONesta seção definimos o conjunto de funções e terminais queserá utilizado para resolver o problema, assim corno o teste defitness.

As funções e terminais são definidos com base em trêsvariáveis lógicas que indicam o estado atual do robô:TooCloseToWall (vale 1 se o robô está muito perto da parede),IncoridorRange (vale I se o robô está em urna célula decorredor), e To oFarFromWall (vale 1 se o robô está muitolonge da parede). Estas variáveis, assim corno "seus parâmetrosal , d, e Õ, são descritas na seção 5.

colisão acontece. Se o robô colide com urna parede, omovimento pára naquele ponto evitando que o robô invada aparede.

TumRight(), TumLeft(). Estes terminais fazem o robô girar 45°à direita ou à esquerda, respectivamente. O valor retomado é anova direção do robô.

TumTowardsClosestWall(). Este terminal verifica as distânciasmedidas pelos sensores e gira o robô em direção à parede maispróxima. O valor retornado é a nova direção do robô.

TumAwayFromClosestWall(). Este terminal é semelhante aTurnTowardsClos estWall(), exceto que o robô gira para adireção oposta à parede mais próxima.

TumParallelToClosestWall(). Este terminal também ésemelhante a TumTowardsClosestWall(), exceto que o robôgira de tal forma que seu sensor S3 é apontado em direção àparede mais próxima.

4.3 Função de fitnessA função de fitness será utilizada para medir o desempenho dosindivíduos, e classificá-los. Ela leva em consideração trêsparâmetros: NumberOfCo rridorGridsl'fotVisited. Distanceôf-EnditzgPointFromCenterOfCorridor, e TotaLDistanceTravelled

NumberOfCorridorGridsNotVisited: É o número de células decorredor não visitadas.

4.1 FunçõesAs funções aqui definid as seguem o segu inte modelo:NomeDaFunção(lista de argumentos que utiliza).

Do2(Arga, Argb} , Esta função faz operações seqüenciais. Elaavalia primeiro o argumento Arga, e em seguida o argumentoArgb. O valor retornado é o resultado do argumentoArgb.

WhilelnCoridorRange(Arga) . Enquanto InCoridorRange = I , oargumento Arga é avaliado continuamente. O valor retomado éo resultado da última avaliação do argumento Arga .

WhileTooCloseToWall(Arga). Enquanto TooCloseToWall = I,o argumento Arga é avaliado continuamente. O valor retornadoé o resultado da última avaliação do argumento Arga.

TotaLDistanceTravelled: É o número de células que o robôvisitou. É incluído para favorecer os algoritmos que cumprem asua tarefa caminhando apenas o necessário.

DistanceOfEndingPointFromCenterOfCorrid01: É a dis tânciado ponto final do robô até o centro da célula de corredor maispróxima. Este termo é usado para evitar a convergênciaprematura nas primeiras gerações.

Escolhemos a seguinte função para avaliar o desempenho dosindivíduos da população:

106 I (1000 * NumberOfCorridorGridsNotVisited + 100*DistanceOfEndingPointFromCenterOfCorridor

+ TotaLDistanceTravelled)

WhileTooFarFromWall(Arga) . Enquanto TooFarFromWall =1, o argumento Arga é avaliado continuamente. O valor"retomado é o resultado da última avaliação do argumento Arga.

IfConvexComer(Arga, Argb). Se a distância medida pelosensor S3 for maior que (al+d) e a distância medida pelosensor S4for menor que (a1+d) esta função avalia o argumentoArga, caso contrário, ela avalia o "argumento Argb. Em ambosos casos o valor retornado é o resultado da avaliação doargumento.

5 IMPLEMENTAÇÃO

5.1 As variáveis de estadoAs variáveis de estado IncoridorRange, TooFarFromWall eTooCloseToWall dependem de três parâmetros pré-definidos:al = distãncia da célula de corredor até a parede, d =largura dacélula de corredor, e Ô=faixa de tolerancía (Fig.7).

li " õ

Fig.7: Parâmetros para as variáveis de estado

d

a1---__---"-'---u••__I••__ I--4.2 TerminaisOs terminais aqu i definidos seguem o seguínte modelo:NomeDoTerminal(). Os terminais não recebem argumentos.

MoveForward(). Este terminal faz o robô avançar 'passo'pixels a sua frente. O valor retornado é 1 se o robô completaseu movimento sem colidir com uma parede, e O se urna

633

Para obter os resultados apresentados neste trabalho,desenvolvemos um simulador [10], tomando por base [3],escrito em ANSI C, com interface gráfica para o sistemaoperacional DOS. As figuras 5, 9 e 10 foram geradas pelosimulador, e importadas para este texto. O simulador utiliza umgerador de números aleatórios portável [5], implementado pornós, que irá fornecer os mesmos resultados em qualquermáquina. Utilizamos a roleta como mecanismo de seleção [4].Todas' as experiências foram executadas em um PC Pentium-300 Mhz rodando Windows 95.

A população foi fixada em 200 indivíduos, e o número máximode gerações utilizado foi 400. Limitamos o tamanho máximode cada indivíduo a 70 caracteres, e optamos por sempre copiaro indivíduo de melhor desempenho para a próxima geração,impedindo que ele se perca em virtude da aleatoriedade doprocesso. Estes valores foram fixados levando-se em conta osresultados obtidos em [2].

Tabela 1: Algoritmo atualizar

1- Atribua a x a distância do robô até a parede maispróxima;

2- Se (x < aI + Ô)TooCloseToWall:= I, caso contrárioTooCloseTo Wall := O;

3- Se(x>al+d-ô)TooFarFromWall:= 1, caso contrárioTooFarFromWall:= O;

4- Se (ai $; x $; aI + d)lncoridorRange := I, caso contráriolncoridorRange := O.

40. SBAI- Simpósio Brasileiro de Automação Inteligente, São Paulo, SP, 08-10 de Setembro de 1999

Sempre que o robô verifica a leitura de seus sensores de 5.3 Considerações geraisalcance, o algoritmo atualizar é executado para atualizar asvariáveis de estado (tabela I).

5.2 Funções e terminaisInspirados no trabalho de Langdon [3], optamos porrepresentar os indivíduos (programas) por meio de cadeias decaracteres (strings). A cada função foi atribuída uma letra, e acada terminal foi atribuído um número, conforme mostrado natabela 2. A figura 8 mostra os elementos utilizados naconstrução dos programas.

Tabela 2: Representação

'A' Do2(argA,argB)'B' lfCollvexComer(argA,argB)'C' WhilelnCoridorRange(argA)'D' WhileTooCloseToWall(argA)'E' WhileTooFarFromWall(argA)'I' MoveFonvard()'2' --7 TurnRight()'3' --7 TurnLeft()'4' Turn'Iowardstllosestwalli)'5' TumAwayFromClosestWall()'6' TumParalleIToClosestWall()

conjunto de funções

Durante os testes preliminares identificamos duas formas deevoluir os indivíduos para alcançar a solução desejada. Aprimeira é gerar uma população inicial com indivíduos grandes(próximos ao limite máximo permitido) e ir combinando-os ,principalmente por meio de cruzamento. A segunda é geraruma população inicial pequena e ir evoluindo os indivíduosprincipalmente por meio de mutação. Neste trabalho utilizamosa segunda forma, devido a ela ter nos fornecido melhoresresultados. As probabilidades para reprodução, cruzamento emutação determinam qual forma será utilizada para evoluir osindivíduos. Neste trabalhos, utilizamos: 30%, 60% e 10%,respectivamente. Estes valores foram selecionados com base notrabalho anterior [2].

É oportuno salientar que os programas gerados freqüentementeentram em loop infinito, e é necessário que na implementaçãodas funções e terminais sejam tomadas providências para evitaresses inconvenientes. Os seguintes procedimentos foramadotados para contornar esse problema: 10 limitamos o númerototal de passos que o robô pode dar em cada sala a 330xL; 2°sempre que um "Ioop while" é concluído e o robô não semoveu, o loop é terminado. Esses procedimentos fizeram comque a execução de cada programa terminasse em um tempofinito. O valor 330xL foi escolhido de forma a permitir que orobô caminhe o suficiente para poder visitar todas as células decorredor da sala, antes de "ficar sem combustível".

conjunto de terminais 6 RESULTADOS

Fig.8: Elementos para a construção dasárvores

Utilizando-se esta representação, o indivíduo 2 da figura 3 érepresentado pela seguinte cadeia de carácteres: "AEIA4CI ", eo programa correspondente é o seguinte:

Do2WhileTooFarFromWall

MoveFonvard

Em [2], o autor fixou os parâmetros do simulador nos seguintesvalores: L =d =ai = lO, Õ=2, e passo =5. Neste trabalhofizemos um estudo paramétrico para verificar a influênciadesses parâmetros na aprendizagem do robô. Optamos pormanter a relação L = d =al , e variar os valores de L, Ô, epasso. Utilizamos dois critérios de parada para finalizar oprocesso de evolução:

1°_ algum indivíduo consegue visitar mais de 90% das célulasde corredor existentes, ou seja, visitar mais de 837 célulasdas 930 existentes;

Do2TumTowardsClosestWallWhilelnCoridorRange

Moveliorward

2°_o número de gerações chega a 400.

634

40. SBAI- Simpósio Brasileiro de Auiomação Inteligente, São Paulo,SP, 08-10 de Setembro de 1999

Tabela 3: Estudo paramétrico

L Õ P CP Fitness Nl N210 2 1 1° 12.5775 852 27710 2 2 1° 17.3677 875 92210 2 3 1° 10.7670 840 168410 2 4 2° 6.8750 787 142710 2 5 l° 10.9543 840 17210 2 6 2° 10.0640 833 83010 2 7 2° 1.1872 89 67810 4 1 1° 11.1110 843 88210 4 2 1° 11.1808 842 21910 4 3 l° 14.1409 861 26510 4 4 1° 15.9248 869 26510 4 5 1° 10.9543 840 17210 4 6 1° 19.0480 879 27710 4 7 1° 19.6692 881 31110 4 8 1° 13.0727 855 2895 1 1 1° 16.5183 871 2065 2 1 1° 11.0557 841 2185 1 2 2° 3.2107 620 3005 2 2 2° 4.5793 714 13255 1 3 1° 12.2359 850 2795 2 3 1° 11.3025 843 368

A tabela 3 apresenta os resultados obtidos, onde tem-se que:

P: Passo utilizado no terminal MoveForward();CP: Critério de parada que foi acionado;Fitness: Resultado da função de desempenho;Nl: Número de células de corredor visitadas;N2: Número de células que visitou, mas que não deveria ter

visitado. O número máximo é 3361.

Nesse estudo paramétrico fizemos o robô começar sempre domesmo lugar em cada uma das quatro salas (veja Fig. 5). Nasala 1 o robô foi colocado no sentido do vetor 3 (Fig. 6), nassalas 2 e 3 o robô foi colocado no sentido do vetor 1, e na sala4 o robô foi colocado no sentido do vetor 2. Estas posições esentidos adotados diferem das adotadas em [2], onde Dainoptou por colocar o robô sempre no centro de cada sala, e nosentido do vetor 1. Neste trabalho realizamos alguns estudosutilizando as mesmas configurações iniciais utilizadas em [2], econstatamos que essa configuração é muito particular devido adois motivos: 1° o sentido adotado coloca o robô de frente paraa parede mais próxima; 2° a posição é muito simétrica, nãoficando muito evidente para o robô qual é a parede maispróxima, caso ele seja colocado em outro sentido. Devido aessas considerações, os robôs treinados na configuração [2]aprendem a andar para frente até encontrar uma célula decorredor, e então caminham acompanhando as paredes. Com asalterações feitas neste trabalho colocamos o robô em posições esentidos que aumentam o gradiente das distâncias medidas pelorobô, e favoreçem os algoritmos que conduzem o robô para aparede mais próxima, independente de qual seja a 'posição esentidos iniciais.

A tabela 3 mostra apenas parte do estudo paramétrico querealizamos, e foi incluída para mostrar ao leitor a influênciados parâmetros na aprendizagem do robô.

Quando utilizamos os parâmetros: L=lO, al=lO, d=5, 0=2,P=I, obtivemos o programa "A2EACAA2AEAC63AIC361",denominado robô 1, apresentado na figura 9.

635

Fig. 9: Comportamento do robô 1

A figura 9 mostra claramente, que o robô 1 apresenta ocomportamento desejado, e é uma solução para o problemaproposto, pois visita todas as células de corredor do seuambiente.

Pelo comportamento do robô 1 nas salas 3 e 4 (fig.9), vemosque ele não é a solução ótima para o problema, pois a partir desua posição inicial, ele não percorre o menor caminho emdireção às células de corredor. Na tentativa de encontrar asolução ótima, mudamos apenas o sentido da posição inicial dorobô 1 nas salas. O robô foi posicionado no sentido do vetor 1em todas as salas, e assim obtivemos o programa"EAEA4AAEA4AC61AC214AC21". denominado robô 2, cujocomportamento, quando colocado em diferentes posiçõesinciais e sentidos, é apresentado na figura 10.

Fig.l0: Comportamento do robô 2

40. SBÁI- Simpósio Brasileiro de Automação Inteligente, São Paulo, SP, 08-10 de Setembro de 1999

7 CONCLUSÕESUtilizando a programação genética foi possível encontrar umasolução para o problema proposto . Os robôs 1 e 2, são soluçõesrobustas para o problema proposto , pois funcionam em salasdiferentes' das utilizadas no treinamento. O algoritmoapresentado em [2] não consegue visitar as células de corredorque se encontram nos cantos convexos, ocasionalmentecometem erros, abandonando os corredores, e não se dirigempara a célula de corredor mais próxima. Por essas razões asduas soluções aqui apresentadas tem melhor ' desempenhoquando comparadas com o algoritmo apresentado em [2].

A maneira como se posiciona inicialmente o robô em cada salaé de fundamental importância para se encontrar a soluçãoótima do problema. Pequenas variações nos parâmetrosocasionam a convergência para algoritmos distintos. Encontrara melhor solução para o problema exige muitas combinaçõesdos parâmetros, perspicácia do programador, e um pouco desorte.

Em geral a programação genética nos fornece algoritmos denavegação com relativa facilidade, mas a questão mais difícil éencontrar uma solução que preencha todos os requisitosdesejados. De acordo com os parâmetros utilizados, obtêm-sealgoritmos que utilizam estratégias variadas para resolver oproblema, algumas vezes encontrando estratégias ..nunca antespensadas.

8 AGRADECIMENTOSAgradecemos a CAPES pelo fomento a pesquisa, ao JoséGeraldo V. Moreira pela programação do módulo de entrada,110 Sr. JESUS pela grande contribuição no módulo de interpre-tação das strings, e pelo apoio a este trabalho, a T. PatriciaSimões, e ao Igor Prata pelas suas contribuições a este trabalho.

636

9 REFERÊNCIAS BIBLIOGRÁFICAS[1] J.R. Koza, Genetic programming, The MIT Press, 1992.

[2] R.A. Dain, "Developing Mobile Robot WaIl-FollowingAlgorithms Using Genetic Programming", Applied Inteligence,vo1. 8, n.I, January, 1998, pp. 33-41.

[3] W. B. Langdon, Quick Intro to simple-gp.c, UniversityCollege London, 1994.ftp://cs.uc1.ac.uk/genetic/gp-code/simple/*. *

[4] D.E. Goldberg, Genetic algorithms in search, optimization,and machine learning, Addison-Wesley Publishing Company,1989.

[5] W.H. Press, et al., Numerical Recipes in C : The Art ofScientific Computing; Cambridge University Press, 1992 .

[6] K.A. Barclay, ANSI C: problem solving and programming,Prentice Hall Europe, 1990.

[7] P.H. Winston, Artificial Intelligence, Addison-Wesley,1992.

[8] P.J. Angeline(Editor), Kinnear (Editor), Advances inGenetic Programming (Complex Adaptive Systems Sedes, Voi2, MIT Press, 1996

[9]W.B. Langdon,Genetic Programming and Data Structures:Genetic Programming -I- Data Structures = AutomaticProgrammingl, Kluwer Acadernic Pub, 1998.

[lO] ftp://ftp.arnl.net/pub/robo/

Documents

ALGORITMOS DE NAVEGAÇÃO ROBÔ MÓVEL ...4o. SBAI- SP, 08-10 1999 ALGORITMOS DE NAVEGAÇÃO ROBÔ MÓVEL UTILIZANDO PROGRAMAÇÃO GENÉTICA Vidal Farfan Elétrica Paulo Carlos - SP