6
40. SBAI - Simpósio Brasileiro de Automação Inteligente, São Paulo, SP., 08-10 de Setembro de 1999 CONTROLE DE UM MANIPULATOR BI-ARTICULADO COM UMA REDE NEURAL DE CONTATOS MULTI-SINÁPTICOS Benedito Dias Baptista Filho(t) e Eduardo Lobo Lustosa Cabral (ttl (t) Divisão de Termo-Hidráulica - IPEN-CNEN/SP - Travessa R, 400 - Cidade Universitária (t t) Depto de Engenharia Mecânica - Escola Politécnica da USP - Av. Prof. Mello Moraes, 2231 CEP 05508-900 - São Paulo - SP 2 OS NOVOS CONCEITOS Keywords: Neural network architecture, Control systems, Manipulator position-control, Os novos conceitos implementados em uma rede neural artificial utilizada no controle de posição de um manipulador bi-articulado no plano apresentado neste trabalho, foram desenvolvidos como parte de uma tese de doutorado conduzida Resumo Este trabalho apresenta uma nova concepção de redes neurais artificiais para aplicação em controle de sistemas dinâmicos. Este novo conceito de rede neural artificial é baseado em um modelo de neurônio com múltiplas sinapses. As forças de ligação das sinapses são modificadas por meio de um processo seletivo e cumulativo, seguindo um método de aprendizado não supervisionado. Esta nova rede é aplicada no controle de posição de um manipulador bi-articulado no plano, mostrando resultados excelentes. (2) onde O é o sinal de saída, T N representa o "tamanho" da unidade, a é um ganho, e S é a soma de todas as entradas sinápticas na unidade. O "tamanho" pode ser ajustado a valores convenientes para, por exemplo, melhorar a linearidade de resposta em uma determinada faixa de interesse, ou para amplificar ou atenuara relação entrada/saída. 2) Modelo de Transmissão Sindptica: O processo de transmissão sináptica é simulado por um conjunto de funções que imitam uma curva Gauseana como a representada na Figura 1 e expressa como: entre 1994 e 1998, com todos os conceitos detalhados em [l) e [2). Esses novos conceitos foram baseados ein circuitos e funções neuronais estudados na neurofisiologia. O livro de Kandel et al [3) é a referência utilizada para estas informações. A. Processo de Sinalização Neuronal 1) Função de transferência neuronal: A .função de transferência de sinais nas unidades que representam os neurônios dentro desta nova rede neural é uma tangente hiperbólica modific áda: O =T N tanh(aLS), .(l) S= T l+a(l-l o )2 onde, T é a "força de ligação" da sinapse, que pode assumir qualquer valor positivo (excitatória) ou qualquer valor negativo (inibitória), a é uma constante que pode ser escolhida adequadamente para produzir funções sem variações abruptas, de acordo com o número de terminaissinápticos, I é o valor do sinal transmitido no axônio, e, lo é o valor de I que maxirniza S, o valor de saída para a célula alvo. Esse valor lo é chamado de "limiar". A expressão (2), que representa um terminal sináptico isolado, permite amplificação e resposta seletiva. Essa função aprimora a função de transferência global do neurônio e é muito mais simples do que uma função sigmóide em termos de esforço. Com forças e limiares convenientes, um conjunto de funções da forma da Eq. (2) pode reproduzir qualquer tipo de função contínua. 1 Palavras Chaves: Arquitetura de redes neurais, sistemas de controle, controle de posição de robôs nanipuladores . Abstract: This work presents the position control of a robot manipulator using a new artificial neural network. This neural network is based on a new neuron model with multiple synapses. The synapses' connective strengths are modified through a selective and cumulative process that resembles an unsupervised learning method. These new concepts applied to the position control of the planar two-link manipulator show excellent resuIts. o objetivo deste trabalho é apresentar os resultados de uma .inovação no campo de redes neurais artificiais que pode ser utilizada no controle de braços robóticos.. Esta nova rede neural é baseada no projeto de redes especializadas para uma determinada tarefa e na fisiologia de sistemas neuronais biológicos. Este trabalho consiste de seis seções A primeira seção é esta introdução. A segunda seção descreve os novos conceitos introduzidos. A terceira seção apresenta a aplicação dos novos conceitos de redes neurais no controle do braço robótico. A quarta ' seção apresenta os resultados e sua discussão . A quinta seção é o resumo das principais conclusões . 119

CONTROLE UM MANIPULATOR BI-ARTICULADO COM UMA … · um processo seletivo e cumulativo, de aprendizado não supervisionado. no um manipulador bi -articulado plano, mostrando resultados

  • Upload
    ngodien

  • View
    213

  • Download
    0

Embed Size (px)

Citation preview

40. SBAI - Simpósio Brasileiro de Automação Inteligente, São Paulo , SP., 08-10 de Setembro de 1999

CONTROLE DE UM MANIPULATOR BI-ARTICULADO COM UMA REDENEURAL DE CONTATOS MULTI-SINÁPTICOS

Benedito Dias Baptista Filho(t) e Eduardo Lobo Lustosa Cabral (ttl(t) Divisão de Termo-Hidráulica - IPEN-CNEN/SP - Travessa R, 400 - Cidade Universitária

(tt) Depto de Engenharia Mecânica - Escola Politécnica da USP - Av. Prof. Mello Moraes, 2231CEP 05508-900 - São Paulo - SP

2 OS NOVOS CONCEITOS

Keywords: Neural network architecture, Control systems,Manipulator position-control,

Os novos conceitos implementados em uma rede neuralartificial utilizada no controle de posição de um manipuladorbi-articulado no plano apresentado neste trabalho, foramdesenvolvidos como parte de uma tese de doutorado conduzida

Resumo Este trabalho apresenta uma nova concepção de redesneurais artificiais para aplicação em controle de sistemasdinâmicos. Este novo conceito de rede neural artificial ébaseado em um modelo de neurônio com múltiplas sinapses.As forças de ligação das sinapses são modificadas por meio deum processo seletivo e cumulativo, seguindo um método deaprendizado não supervisionado. Esta nova rede é aplicada nocontrole de posição de um manipulador bi-articulado no plano,mostrando resultados excelentes.

(2)

onde O é o sinal de saída, TN representa o " tamanho" daunidade, a é um ganho, e S é a soma de todas as entradassinápticas na unidade. O "tamanho" pode ser ajustado a valoresconvenientes para, por exemplo, melhorar a linearidade deresposta em uma determinada faixa de interesse, ou paraamplificar ou atenuara relação entrada/saída.

2) Modelo de Transmissão Sindptica: O processo detransmissão sináptica é simulado por um conjunto de funçõesque imitam uma curva Gauseana como a representada naFigura 1 e expressa como:

entre 1994 e 1998, com todos os conceitos detalhados em [l) e[2). Esses novos conceitos foram baseados ein circuitos efunções neuronais estudados na neurofisiologia. O livro deKandel et al [3) é a referência utilizada para estas informações.

A. Processo de Sinalização Neuronal

1) Função de transferência neuronal: A .função detransferência de sinais nas unidades que representam osneurônios dentro desta nova rede neural é uma tangentehiperbólicamodific áda:

O=TN tanh(aLS), .(l)

S= Tl+a(l-lo)2

onde, T é a "força de ligação" da sinapse, que pode assumirqualquer valor positivo (excitatória) ou qualquer valor negativo(inibitória), a é uma constante que pode ser escolhidaadequadamente para produzir funções sem variações abruptas ,de acordo com o número de terminaissinápticos, I é o valor dosinal transmitido no axônio, e, lo é o valor de I que maxirniza S,o valor de saída para a célula alvo. Esse valor lo é chamado de"limiar".

A expressão (2), que representa um terminal sináptico isolado,permite amplificação e resposta seletiva. Essa função aprimoraa função de transferência global do neurônio e é muito maissimples do que uma função sigmóide em termos de esforço.Com forças e limiares convenientes, um conjunto de funçõesda forma da Eq. (2) pode reproduzir qualquer tipo de funçãocontínua.

1

Palavras Chaves: Arquitetura de redes neurais, sistemas decontrole, controle de posição de robôs nanipuladores .

Abstract: This work presents the position control of a robotmanipulator using a new artificial neural network. This neuralnetwork is based on a new neuron model with multiplesynapses. The synapses' connective strengths are modifiedthrough a selective and cumulative process that resembles anunsupervised learning method. These new concepts applied tothe position control of the planar two-link manipulator showexcellent resuIts.

o objetivo deste trabalho é apresentar os resultados de uma.inovação no campo de redes neurais artificiais que pode serutilizada no controle de braços robóticos.. Esta nova redeneural é baseada no projeto de redes especializadas para umadeterminada tarefa e na fisiologia de sistemas neuronaisbiológicos. Este trabalho consiste de seis seções A primeiraseção é esta introdução. A segunda seção descreve os novosconceitos introduzidos. A terceira seção apresenta a aplicaçãodos novos conceitos de redes neurais no controle do braçorobótico. A quarta ' seção apresenta os resultados e suadiscussão. A quinta seção é o resumo das principaisconclusões .

119

40. SBAI- Slrnpósio Brasileiro de Automação Inteligente, São Paulo, SP, 08-10 de Setembro de 1999

Segundo Kandel et al [3] em circuitos neuronais biológicos,um dado conjunto de sinapses pode sofrer diferentesmodificações em várias formas de aprendizado, por exemplo,podem ser deprimidas pela habituação ou podem ser reforçadaspela sensitização. Formas de aprendizado mais complexas sãoo condicionamento clássico e a prática. Os processosenvolvidos no mecanismo de memória reflexiva sugerem odesenvolvimento de um circui to especial para implementar umprocesso de aprendizado. Esse circuito, mostrado na Fig. 2,aproveita um sinal de erro que, por meio de um interneurôniofacilitador, é conectado aos terminais pré-sinápticos da unidadede saída em ligações tipo "axo-axônicas" (ligações de sinapsesdiretamente nos terminais sinápticos de um axônio). É nessesterminais que as mudanças plásticas, características doaprendizado, são efetivadas. O sinal (+/-) do impulsodependente do erro é quem decide se o processo corresponde auma facilitação ou inibição pré-sinâptica, o que irá aumentarou reduzir a força de ligação sináptica.

B. Aprendizado e Mecanismos de Memória

Figura I - Função de Transferência Sináptica.

(3)

(4)dT C__J = _

dt 1+as(/ - / 0.1/ '

onde 1j é a força de ligação da j-ésima sinapse da unidademotora, as é a constante da função da sinapse facilitadora, I é ovalor do sinal proveniente do nível de controle superior (odesejo), e /0.1 é o limiar da sinapse.

. de =T õ -À, edt c .

onde C é o fator de disparo de mudanças de longo-termo, ô é osinal de saída da inter-unidade facilitadora, Â.é uma constantede decaimento, e, Te é a força de ligação da sinapse facilitadora(que controla a taxa de mudança).

De acordo com a Eq. (3), o fator de disparo de mudanças delongo-termo (C) pode crescer a uma taxa proporcional ao sinalde aprendizado (O) até um valor de equilíbrio. Isso acelera ou'desacelera as mudanças sinápticas. Se o sinal que chegadecresce a zero, o fator de disparo de mudanças de longo-termotambém cai a zero, de acordo com uma taxa estabelecida pelaconstante de decaimento O..). Isso significa que, após umrazoável período de treinamento, quando não existir mais umsinal de erro e nem excessivas mudanças dinâmicas, não haverámais necessidade de mudanças, tomando assim o processoinerentemente estável.

Para completar essa idéia é necessário ainda um artifício paraque as mudanças se concentrem nos terminais sinápticos.convenientes, isto é, naqueles em que o valor do limiar (/0) émais próximo dó valor do sinal do desejo. Essa característicainédita irá, além de promover a seleção adequada do terminalsináptico, estabelecer a taxa de mudança da força de ligação(1) como função do fator de disparo de mudanças de longo-termo e do limiar sináptico. Isso é implementado pela seguinteexpressão:

C. Arquitetura da Unidade de Controle Motor

1.00·0.50 0.00 0.50Sinol áe Entrada ·.t

1.00

0.60

0.60

6.40

0.20

0.00

·1.00

O conceito da estrutura principal da rede neural estárepresentado na Fig. 3. Ele define uma "unidade de controlemotor," representando os novos conceitos aplicados aopropósito de controle.

Para dispensar a necessidade de alimentar a rede com medidasdas taxas de variação dos sinais do processo, foi utilizado umartifício que consiste na medida da diferença de sinais deunidades em camadas consecutivas, portanto defasados notempo. As inter-unidades responsáveis por essa função sãoligadas por conexões "rígidas" (sem plasticidade). Os sinais desaída dessas unidades representam as taxas de mudança. dossinais sensórios que, combinados com o sinal de erro em umaunidade intermediária, por sua vez conectada à unidade desaída, representam a dinâmica do sistema em uma analogia àsoma de aos + a. âe/ât + a2d2ê1dr + ... O coeficiente ao do erroé implementado por funções sinãpticas que resultam em umafunção de transferência linear, da seguinte forma:

Desejo

Sinal de Erro

Sinal Sensório

Figura 2 - Sinapses para o processo de aprendizado.

A alteração na força ·de transmissão sináptica devido aoprocesso de ' aprendizado é reproduzida por um modelo deplasticidade baseado em mecanismos de .armazenamento dememória. Isso é feito por um processo cumulativo onde otermo governante é proporcional ao sinal de entrada (o sinal detreinamento ô) e à sua taxa de decaimento, de acordo com aseguinte expressão: s _ 1 ( TE ).

'P'''''' N 1+0.25(/-2)2 '(7)

40. SBAI- Simpósio Brasileiro de Automação inteligente, São Paulo, SP, 08-10 de Setembro de 1999

s -TE ).ip, N 1+0.25(1+2)2 '

(8)encontrado em sistemas biol6gicostanto em circuitos deneurônios quanto em células musculares. Assim, tem-se:

onde TE é força de ligação das sinapses de erro.

A funções de transferência sináptica nas conexões dos sinais detaxas de variação com a inter-unidade são modeladas comcaracterísticas de amortecimento do tipo xixi. Isso é necessáriopara atenuar oscilações e tornar o processo estável mesmo napresença de altas taxas de variação. Esse amortecimento é

1 ( T )S - , .tu - N 1+11(1-1)2 '

1 ( -T )S - ,.tís - N 1+11(1+1)2 '

onde T, é a força de ligação das sinapses de mudanças.

(9)

(10)

Sinapse inibitóriadeerroSip, ( equação 4.2.1 )

-------Sinapsc inibitóriaTipo- iS,. ( equaçao 4.20 )

X' Posiçãopresente: do sistema sensório

Processo de plastícldade de = T ô - ÂCdt '

'!!L- edI

de =Tô-ÂCdt '

dT, e-il= l+a,(xD

(13)

(14)

A. Modelo da Dinâmica do Processo

O manipulador bi-articulado é um problema não-linear 'comdois graus de liberdade. As variáveis consideradas no modelosão mostradas m(ll1g. 4. A dinâmica desse sistema érepresentada por:

TI = Hji,+Hji2 +h122e; + h'2Ae2 +G, ;T2= H22ii2+Hjj, + h2119,2+ G2;

onde 81 é o ângulo entre o primeiro segmento e o eixo-x, é oângulo entre o segundo e o primeiro segmentos, T) e 't"2 são ostorques nas articulações 1 e 2 respectivamente, e os outrostermos são definidos a seguir.H" =m,l;, +1, + [m,(1,2+1;2 +21,lc2cos9,)+1,];H" =m,l,l" cose, +m,l;, + /,] ;n; =m,l;,'+l,;1I,n =-m,I,I" siIlO, ;h'21 =-2m,I,I"sin9,;h211 =m,lJ"sine,;G, =m,gl" cose, +m,g(l, cose, +/" cos(e,+0,));G, =m,gl" cos(O,+e,).

(11)

(12)

Figura 3 - Conceito de Unidade de Controle Motor.A verificação do desempenho da rede, em termos de controle ehabilidade de aprendizado, para alcançar alvos desejados , érealizada através de simulações.

MODELAGEM DO PROBLEMA

Os sinais do sistema sensório e do nível de controle superiorsão transmitidos através de dois conjuntos de sinapses,simétricos em termos de limiar e força de ligação. Essassinapses possuem características plásticas e são ajustadas peloaprendizado. O comportamento dessas sinapses é representadopor:

T)s) 2l+a«( -lo)S = , T.. ' l+a(1, -/o.•Yonde 1j(kJ é a força de ligação daj(k)-ésima sinapse.

3

Antes de qualquer treinamento essas sinapses "não têm força" ,i.e., Tj(kJ=O. O surgimento de um sinal de erro e gera um sinalDdiferente de zero que age no sentido de aumentar ou diminuiro fator de disparo de longo-termo C, da Eq. (3). As mudançasplásticas, responsáveis pelo processo de aprendizado, tomamentão lugar nas sinapses da .unidade motora. O sinal do"desejo" é utilizado para ajustar todas as sinapses plásticas,mesmo aquelas do caminho que vem do sistema sens6rio. Umadescrição detalhada dessa unidade ,de controle motor seencontra nas referências [1] e [2].

Esse conceito de Unidade de Controle Motor é aplicado nocontrole de posição de um manipu1ador bi-articulado no plano.

121

40. SBAI- Simpósio Brasileiro de Automação Inteligente, São Paulo, SP, 08-10 de Setembro de 1999

Os subscritos 1 e 2 se referem ao i-ésimo segmento do relativo à direção do primeiro segmento, O, e são somadosmanipulador com massa m i; comprimento total li, distância da para alimentar o segundo controlador. É importante destacararticulação ao centro de massa lei e momento de inércia li, e g é que um sistema diferente poderia ser modelado.a aceleração da gravidade.

x

Na Figura 5, Om e O:!D representam os comandos de posiçãodesejada, OI e O2 são os sinais de saída das unidades decontrole motor que irão alimentar os atuadores, D, e D2, INE

são as inter-unidades responsáveis pela avaliação dos erros,IfII} .são as inter-unidades responsáveis pela avaliação daprimeira derivada das taxas de variação (neste problema nãosão necessárias ordens mais elevadas), INF são as inter-unidades facilitadoras do aprendizado, e IN> são as inter-unidades usadas para gerar os sinais necessários para avaliar astaxas de mudança dos sinais. Observa-se que inter-unidades deentrada, IN!, foram acrescentadas para desempenhar a funçãode soma de entradas. Nota-se ainda que os caminhos dosistema sensório são representados por linhas pontilhadas,enquanto que as linhas sólidas representam os sinais do nívelsuperior de controle e os caminhos intermediários.

Deve-se notar que, nesta implementação, as sinapses plásticasaprendem somente o torque ' gravitacional. Outrasimplementações podem ser desenvolvidas para a rede aprenderos torques gerados pelas foças centrífugas e Coriollis.

y

A dinâmica de cada motor elétrico acoplado ao manipulador égovernada por:

dnJ M dt ="CM -"(.-"Cn f , (15)

onde JM é o momento polar de inércia do rotor, n é a rotação,"CM é o torque motor, "CPM é o torque de perdas, e "C é o torque decarga dado pelas Eq. (13) ou (14).

Segmento 2't2-,,82.----

Figura 4 - Modelo do Manipulador bi-articulado.

O torque motor é dado por:7:", = KTO , (16)

Os parâmetros de simulação, o processo de treinamento e aavaliação de desempenho são apresentados e discutidos napróxima seção.

Assume-se que o torque de perdas no motor é proporcional ao. quadrado da rotação, ou seja:

onde KLB é uma constante proporcional à pressão de contato, e!J. é o fator de atrito. Esse torque foi correlacionado a partir dedados obtidos na referência [4].

onde KT é o ganho motor/atuador, e O é o sinal de saída docontrolador neural acoplado. O torque de perdas, 7:PM, écomposto de duas partes: perdas nos mancais (7:w) e perdas nomotor (7:l.M)' Para descrever as perdas nos mancais, foramconsiderados o atrito estático e atrito viscoso:

4 RESULTADOSE DISCUSSÃO

O treinamento é desempenhado "on-line" , i.e., durante aexecução de comandos de posição desejada. A mudança decomandos de "desejo" , de acordo com a seqüência apresentadana Fig. 6, desenvolve o processo de aprendizado não-supervisionado. Um conjunto de 28 posições alvo é usado notreinamento. O manipulador parte da posição de repouso, -900 ,totalmente estirado, segue no sentido horário para a posição -185°, retoma para a posição de repouso, segue no sentido anti-horário para a posição +185°, retornando novamente para aposição de repouso. Esse conjunto de alvos é submetido à redepor seis vezes. A duração de cada busca ao alvo, t, em cadatentativa segue o seguinte: primeirae segunda tentativas, t =5s.; terceirae quarta, t =10 S.; e, quintae sexta, t =20 s.

A Tabela 1 apresenta os parâmetros numéricos utilizados parasimular o manipulador bi-articulado da Fig. 5. Os principaisparâmetros dos componentes da rede neural são dados naTabela 2.

O treinamento é desempenhado "on-line" , i.e., durante aexecução de comandos de posição desejada. A mudança decomandos de "desejo", de acordo com a seqüência apresentadana Fig. 6, desenvolve o processo de aprendizado não-supervisionado. Um conjunto de 28 posições alvo é usado notreinamento. O manipulador parte da posição de repouso, -90°,totalmente estirado, segue no sentido horário para a posição -185°, retoma para a posição de repouso, segue no sentido anti-horário para a posição +185°, retomando novamente para aposição de repouso. Esse conjunto de alvos é submetido à redepor seis vezes. A duração de cada busca ao alvo, t, em cadatentativa segue o seguinte: primeira e segunda tentativas, t =5s.; terceirae quarta, t =IOs.; e, quinta e sexta, t =20 s.

(17)

(18)

7:LB = KUlJl ,

onde KU,f é uma constante, função do tipo do motor:

B. Controle de Posiçãocom a NovaRedeNeural

Como no processo do manipulador bi-articulado existem doisatuadores, devem ser utilizadas pelo menos duas unidades decontrole. Para o propósito de demonstração os sinais de entradadestas duas unidades é restringido apenas aos ângulos, 01edesejados e atuais. Observe que as velocidades angulares nãosão necessárias porque o sistema possui inter-unidades paraestimar as taxas de variação dos ângulos. Note-se ainda quenesta demonstração a posição da extremidade do manipulador étratada como um resultado e não como um objetivo. Isso é feitopara evitar a necessidade de outras camadas para converterposição da extremidade em ângulos desejados.

A Figura 5 mostra a rede que representa os dois controladoresacoplados ao processo. Considerando que a posição dosegundo segmento afeta a carga no primeiro, o atuador doprimeiro motor deve ser alimentado com a soma das saídas dosdois controladores. Levando em conta que o ângulo O:! é

122

40. SBAI- Simpósio BrasileirodeAutomação Inteligente, São Paulo, SP, 08·10 de Setembrode 1999

8DIN'

eIN e(l O,

IN'

IN'

eIN e(....')

Figura 5 - Esquema simplificado da rede para o controle do manipulador.

Tabela1-Parâmetros para o modelo do Manipulador Tabela 2 • Parâmetros para a Rede Neural

Parâmetro Segmento1 2

Comprimento -L (mm) 707 707Massa -m (ke:) 3.0 2.0Momento de Inércia - I (k2 rn') 0.041 0.027Ganhode TorqueMotor- KT (N M) 60 30Momento de inérciado rotor-hf (kg nr) 0.0013 0.0013Constantede perdas nosmancais- KLB 1.0 1.0Constantede oerdasnoMotor- KIM 25.1 25.1

14 .. 22

Parâmetro ValorTamanho das unidades- TN (Eq, 1) 2.1Constante deganhodasunidades - a (Eq. 1) 0.5Constante dassinaosespláSticas - a (Eo. 5, 6) 28.8Número de sinapses plásticas· caminbo sensório 15Número de sinapses plásticas - caminho "desejo" 15Intervalo de limiares consecutivosctO.i -/O.i+l) 0.1667

Força das sinapsesde erro- Te(Eqs. 7, 8) 2.5Força dassínaosesde taxas- Tr (EQs. 9, 10) 0.09Força das sinapses de/aciUlação - Te (Eq. 3) 0.1Constante de decaimento - À.(Eq. 3) 10.0Constante deplasticidade sinãptíca - as (Eq. 4) 144.0

Figura 6 :.... Conjunto de posições para treinamento.

Após repetir o conjunto de comandos de treinamento por seis 'vezes, o sistema é capaz de atingir qualquer posição comrazoável precisão e as forças de ligação dos dois conjuntos desinapses plásticas, que eram inicialmente zero, cresceram paraos valores mostrados na Figura 7. Essa fase de treinamentodurou 1960 segundos de tempo simulado (com somente 85

.. 20

3 .. 5 .17.19 ::1

<10.8.28

Posição Inicial

/>'9 .. 27

. 10 .. 26

segundos de CPU em um Microcomputador Pentium 166MHz). Esta rapidez pode indicar que o processo deaprendizado é computacionalmente eficiente.

Após o treinamento, o próximo passo é verificar a resposta dosistema a qualquer outra entrada. .Para isso o modelo deplasticidade foi bloqueado (fazendo Te= Ona Eq. 3) para evitarnovas atualizações nas forças de ligação e possibilitar aobservação da capacidade de generalização. Foram executadostestes sobre todo o domínio de 810 e obtendo-se excelentesresultados. Também foram realizados testes sem bloquear omodelo de plasticidade, permitindo observar seu desempenhoestável. .

A Figura 8 exibe os resuitados de um desses testes, mostrandoa trajet6ria da extremidade do manipulador na busca de cincoalvos, cada um definido por um desejo diferente, mantidoconstante durante um período de 6 segundos. Esse exemplocontém duas posições presentes no conjunto de treinamento(pontos 2 e 4) e três posições não presentes no treinamento(pontos 3, 5 e 6). O último alvo é posicionado a uma grandedistância da posição anterior para observar a estabilidade darede na presença de grandes erros e altas velocidades . Aevolução da distância da extremidade do manipulador ao alvo é

123

O novo conceito de rede neural proposto para o controle deposição do manipulador bi-articuladono plano demonstra queaopção de se desenvolver redes especializadas para umadeterminada tarefa parece ser muito promissor para soluções decontrole .

O uso de múltiplos contatos sinápticos em cada terminaçãoaumenta a capacidade de integração de cada unidade(neurônio) . O uso de funções de transferência sináptica declasses mais elevadas do que a simples multiplicação de umpeso melhora a relação entrada/saída permitindo a redução donúmero total de unidades com funções sigmóide que são maisdemandantes em termos computacionais.

Este novo conceito de rede neural implementa mecanismosartificiais que imitam os mecanismos de habituação esensitização observados em organismos vivos. O uso de ummodelo simplificado de plasticidade nas sinapses permiteaprendizado em tempo real durante o funcionamento doprocesso e sem a existência de algoritmos matemáticos nãoexplicáveis fisicamente.

0.10+-------.."...---".L------l

Unidade MoloraN. 2

€ 0.00 +--n--.r-1rr-1..-..JJLIl-ll..JL.IL--,.......T-........- -I

40. SBAI- Simpósio Brasileiro de Automação Inteligente, São Paulo, SP, 08-10 de Setembro de 1999

apresentada na Fig. 9, que mostra cinco picos que representam 5 CONCLUSÕESa transição entre cada comando. Observe-se que alvos, mesmodistantes mais do que 2000mm da posição corrente, sãoatingidos quase que sem oscilação em menos do que 5segundos. Neste exemplo em que as unidades de controlemotor possuem apenas 15 sinapses por lado, com um total de60 contatos plásticos nas duas unidades, com somente 28pontos de treinamento e 70 segundos de treinamento para cadaponto , o máximo erro em distância é menor do que 5mm.

-0.20 +---,----.----...---,----.---1

Figura 7 - Forças de ligação sinápticas após treino.

Figura 8 - Trajetória da extremidade do manipulador.

Baptista F., B.D.• Cabral, E.L.L., Soares, A.J. (1998). A NewApproach to Artificial Neural · Netowrks, IEEETransactions on Neural Networks, VoI. 9, No. 6, pp.1167-1179.

REFERÊNCIA BIBLIOGRÁFICA

A tarefa de treinamento pode ser desempenhada "on-line", istoé, durante a execução de comandos desejados, de acordo comum método de aprendizado não-supervisionado. O limitadotempo de treinamento e o pequeno número de alvos necessáriospara o aprendizado, associados ainda com os bons resultadosobtidos na tarefa de posicionamento em todo o domínio, mostrauma notável capacidade de generalização.

Esta nova rede neural é mais complexa do que as redes multi-camada convencionais com retro-propagação do erro, emtermos de arranjo de sinapses e funções de transferência, mastem a vantagem de reduzir o- número total de unidadesnecessárias. Como as funções de transferência das unidades(neurônios) é mais complexa do que as funções das sinapses,há um ganho líquido em termos de desempenho comodemonstrado na seção 4. O desempenho no aprendizadomostrado no exemplo prevê que este é certamente um conceitopromissor.

1.000.00LimiarSin4ptico

-1.00

1600

1200

".!o 800o

"2."

'"• 00

- .•4t t ll1l40.40.:»:

-

-

'VI. \ \ \ \I I

Baptista F., B.D. (1998) , Redes Neurais para Controle deSistemas de Reatores, São Paulo: Tese de Doutorado -Instituto de Pesquisas Energéticas e Nucleares - lPEN-CNEN/SP.

E.R. Kandel, J.H. Schwartz and T.M. Jessel , (1991) Principleso/ Neural Science, Prentice-Hall International Inc.,Third Edition .

Niemann , G., (1950) Maschinenelemente, Springer-VerlagOHG.

10 20 30Tempo (s)

Figura 9 - Distância da extremidade ao alvo.

124