Capitulo 3 redes neurais artificiais

Embed Size (px)

Citation preview

  • 1.CAPTULO 3REDES NEURAIS ARTIFICIAISNeste captulo so apresentados os fundamentos tericos das redes neurais artificiais,descrevendo sua clula bsica, sua arquitetura e os algoritmos de aprendizagem.3.1 IntroduoEste captulo apresenta a fundamentao de conceitos para implementao de sistemasbaseados em Redes Neurais Artificiais (RNA). A tecnologia de redes neurais busca umasimilaridade entre o comportamento do neurnio biolgico e um modelo de neurniocomputacional. Assim, ser possvel a realizao de tarefas tais como: a associao,categorizao e percepo de traos marcantes realizados pelo homem [85]. As RNAspossuem outros nomes, como neurocomputao, processamento paralelo distribudo, sistemasneuro-mrficos, computadores biolgicos ou neuro-computadores.O final da dcada de80 marcou o ressurgimento da rea de RNAs, tambm conhecidacomo conexionismo ou sistemas de processamento paralelo e distribudo [12]. Esta forma decomputao caracterizada por sistemas que, em algum nvel, relembram a estrutura dasredes neurais do crebro humano [85]. AsRNAs so implementadas em hardware e software,que imitam as habilidades computacionais do sistema nervoso biolgico, usando um grandenmero de simples de neurnios artificiais interconectados.Os neurnios artificiais simulam os neurnios biolgicos, os quais recebeminformaes de sensores ou de outros neurnios artificiais, produzindo operaes simplessobre estes dados, e passam o resultado para outros neurnios artificiais [52]. As RNsfuncionam atravs de seus neurnios artificiais, que processam seus dados usando: Paralelismo lgico: para todos os neurnios da mesma camada; Operaes seriais: quando a informao de uma camada transferida paraneurnios de outra camada.

2. 33Existem trs caractersticas principais que descrevem umaRN biolgica, e a quecontribuem para a sua habilidade funcional: Topologia (arquitetura); Dinmica; Aprendizado.As RNs esto sendo adotadas para uso em uma variedade de aplicaes comerciais emilitares que atinge desde o reconhecimento de padres at otimizao e seqenciamento [6].Realiza tarefas bem melhor que outras tecnologias mais convencionais (incluindo sistemaespecialistas). O campo de estudo mantm dependncias interdisciplinares com as cinciascognitivas, a ciberntica, a psicologia, a neuro-biologia, a matemtica e a fsica.3.2 As Redes NeuraisO funcionamento da grande maioria dos computadores digitais em uso atualmente baseado no princpio de centralizar todas as operaes em um processador poderoso ecomplexo. Essa a idia bsica da arquitetura Von Neumann, assim chamada, pois foiproposta por John Von Neumann, um dos pioneiros da computao, em 1947. O poder de talprocessador pode ser medido em termos de sua velocidade e complexidade [52, 85]As redes neurais artificiais, diferentemente de computadores digitais convencionais,executam suas tarefas usando simultaneamente um grande nmero de processadores, ou seja,esses processadores operam em paralelo. A representao do conhecimento distribuda pelasconexes e o aprendizado feito alterando-se os valores associados com as conexes.Todavia, os mtodos de aprendizagem ainda precisam ser programados e para cada problemaespecfico um mtodo de aprendizado apropriado deve ser escolhido.3.2.1 Histrico das Redes Neurais ArtificiaisA histria das redes neurais artificiais relativamente recente. Conta com um poucomais de meio sculo se considerarmos como pioneiros os trabalhos dos neuro-fisiologistasDonald Hebb e Karl Lashley, por volta de 1940, quando as primeiras simulaes foram feitascom papel e lpis [12]. 3. 34O primeiro modelo artificial de um neurnio biolgico foi fruto do trabalho pioneirodo psiquiatra e neuro-anatomistaWarren McCulloch e Walter Pitts em 1943 [85]. O trabalhopublicado em 1943, "A logical Calculus of the Ideas Immament in Nervous Activity", apresentada uma discusso sofisticada das redes lgicas de neurnios e novas idias sobremquinas de estados finitos, elementos de deciso de limiar lineares e representaes lgicasde vrias formas comportamento e memria. Nos conceitos da ciberntica, fez-se umaanalogia entre clulas nervosas vivas e o processo eletrnico num trabalho publicado sobre osneurnios formais. O trabalho consistia num modelo de resistores variveis e amplificadoresrepresentando conexes sinpticas de um neurnio. Parte da discusso emRNAs gira emtorno dos mtodos de aprendizado para que neurnios possam ser capazes de executar umadeterminada funo. O trabalho mencionado anteriormente deMcCulloch e Pitts se concentramuito mais em descrever um modelo artificial de um neurnio e de apresentar as suascapacidades computacionais do que apresentar tcnicas de aprendizado. Os fatos bsicospercebidos por McCulloch e Pitts, que tornaram possvel a modelagem matemtica doneurnio [5, 6, 12 , 85], foram: Neurnios comportam-se como "somadores algbricos"; Adicionam entradas excitatrias; Subtraem entradas inibitrias; Neurnios possuem uma propriedade de "limiar", isto , quando as entradasintegradas excedem o limiar, disparam um sinal atravs do axnio; Neurnios comportam-se analogicamente enquanto o axnio comportam-se deforma digital.Dessa forma, um tratamento discreto e binrio utilizando o clculo proposicionaltemporal poderia ser empregado para modelar neurnios biolgicos. O neurnio foi definidocomo tendo dois estados: Verdadeiro e falso do clculo da lgica proposicional de ordem zero; O zero e um da lgebra de booleana.O estado do neurnio analisado a cada instante de tempo, onde o neurnio estdisparado ou est inativo. 4. 35O primeiro mecanismo de aprendizagem foi iniciado porDonald Hebb, em 1949. Eleprops uma regra de aprendizagem conhecida hoje como regra de aprendizagemHebbiana.Hebb demonstrou que a capacidade de aprendizagem emRNs pode ser conseguida atravs davariao dos pesos das conexes entre os neurnios. A regra de Hebb diz que, quando umestmulo de entrada influncia na produo de estmulos de sada, o peso da conexo entre osneurnios deve ser incrementado. A regraHebbiana tem sido utilizada em vrios algoritmosde aprendizagem de redes neurais artificiais. Mais tarde,Widrow e Hoff sugeriram uma regrade aprendizagem, conhecida com regra de Widrow-Hoff ou Regra Delta, que ainda hojebastante utilizada. Esta, por sua vez, baseada no mtodo do gradiente para minimizao doerro na sada de um neurnio com resposta linear [6, 12, 85].Os pesquisadores Widrow e Hoff desenvolveram o Adaline (Adaptive Linear NetworkElement) e o Madaline (Many Adaline) Perceptron como um dispositivo prtico para resolvertarefas de reconhecimento de padres. O Adaline/Madaline usou sadas analgicas em vez debinrias como originariamente proposto porMcCulloch e Pitts. Pela primeira vez, imitava ocrebro humano com processadores paralelos em vez de uma nicaCPU [52].Em 1958, Frank Rosenblatt em seu livro "Principles of Neurodynomics", forneceuvrias idias a respeito do perceptrons (novo modelo), que so RNs de limiar baseado nomodelo de Mc-Culloch e Pitts [52]. O perceptron mais simples descrito porRosenblatt possuitrs camadas: A primeira recebe as entrada do exterior e possui conexes fixas; A segunda recebe impulsos da primeira atravs de conexes, cuja eficincia detransmisso (pesos) ajustvel; E por sua vez, envia sadas para a terceira camada (resposta).Uma das principais idias deRosenblatt foi elaborao da arquitetura back-coupledperceptron e o algoritmo "back-coupled error correction algorithm", que capaz de adaptaros pesos de um conjunto de entradas de uma unidade de associao, de acordo com uma sadadesejada. Tanto o algoritmo "back-couple error conection" quanto regra delta de Widrow-Hoff so mtodos de aprendizagem para redes perceptron de apenas uma camada de neurnios[52].Em 1969, Marvin Minsky e Seymour Papert fizeram um estudo desses algoritmos epublicaram o livro Perceptrons [12]. Provaram formalmente que uma rede formada de umanica camada de neurnios, independente do algoritmo de aprendizagem, capaz apenas de 5. 36resolver o problema de associao de padres quando os conjuntos de pares de padres solinearmente separveis. Naquela poca era sabido que redes perceptron com mais de umacamada de neurnios, chamadasMulti Layer Perceptrons (MLP) ou ainda redes feedforward,tinham o poder computacional de aprender padres linearmente dependentes, contudo eradesconhecido um algoritmo de aprendizagem que pudesse realizar tal associao. Emparticular, demostraram que um perceptron incapaz sequer de distinguir a letraT de um C.Estes resultados e observaes feitas por Minsky e Papert foram devastadoras, e a abordagemconexionista ficou em segundo plano durante a dcada de70 at o incio da dcada de 80 [6,12, 85].Em 1982 John Hopfield, fsico e bilogo do Instituto de Tecnologia da Califrnia, deuum novo impulso s RNs. Usando uma pesquisa baseada no sistema neurolgico de umalesma de jardim, que apresentou um sistema computacional neural composto de muitoselementos de processamento interconectados, que buscam atingir um estado de energiamnima (em repouso). O modelo do fsico representa a operao a partir de um determinadonvel de excitao (limiar), mostrando que a memria do sistema armazenada nainterconexes entre as unidades neurais [52].A importncia das redes perceptron na resoluo do problema de associao depadres para um conjunto de padres no linear foi praticamente eliminada porRumelhart,Hinton e Willians [6, 12, 25, 52, 85]. A soluo encontrada foi a Regra Delta Generalizada,mais conhecida como algoritmo deCorreo de Erros Backpropagation, em 1986, para redesperceptron de multicamadas de neurnios com entradas e sadas analgicas. As funes deativao foram substitudas por funes contnuas sigmides. Um resultado similar j haviasido encontrado independentemente por Parker, em 1982, o qual foi chamado de "TheLearning Logic", porm sem repercusso na poca [52, 85].3.2.2 Fundamentos BiolgicosSabe-se que o crebro humano contm em torno de 1011neurnios aproximadamente[85]. O neurnio possui um corpo e diversas ramificaes, cujas as funes so: Recebe informaes, ou impulsos nervosos, oriundos de outros neurnios, paraconduzi-los at o corpo celular; 6. 37 No corpo celular a informao processada e novos impulsos so gerados. Estesimpulsos so transmitidos a outros neurnios; A transmisso feita atravs de um ponto chamado axon hillock (filamentoaxnico), onde surge um filamento comprido que o axnio. Este entra emcontato com os dentritos dos neurnios seguintes.O ponto de contato entre a terminao axnica de um neurnio e o dendrito de outro chamado de sinapse. As sinapses liberadas pelos neurnios representam a funcionalidade dasRNs. As sinapses funcionam como vlvulas, sendo capazes de controlar a transmisso deimpulsos. Isto , o fluxo da informao entre neurnios na rede neural (ver figura 3.1). Oefeito das sinapses varivel, e esta variao que d ao neurnio a capacidade de adaptao.Um neurnio possvel estar conectado a outros neurnios e gerar at 10.000 sinapses, ouseja, at 10.000 conexes com neurnios adjacentes [12].Figura 3.1 Componente do neurnio biolgico [12]O axnio pode transmitir impulso eltrico em ambas as direes, onde o fluxo deinformao vai ao sentido dos dentritos para o axnio, onde h um impulso eltrico no lado doaxon hillock. Em condies normais, se uma corrente eltrica aplicada em ponto do axnio,o seu potencial ir decair exponencialmente medida que a corrente propagada atravs doaxnio.H uma diferena de potencial entre o interior e o exterior do neurnio, ocasionadapela diferena entre a concentrao depotssio (interna clula) esdio (externa clula). Aconcentrao de ons de potssio dentro da clula cria um potencial eltrico de -70 mV(potencial de repouso) em relao ao exterior. Para a que a clula dispare, produzindo um 7. 38potencial de ao (impulso nervoso), preciso que os impulsos das sinapses reduzam estenvel em cerca de-50 mV (ver figura 3.2).Figura 3.2 Potencial de ao em um neurnio [12]Quando as entradas chegam ao corpo da clula, ocorre um processo de integrao(soma) dos estmulos de entrada, e como resultado pode ser gerado um impulso eltrico quecomea no axon hillock e se propaga at os terminais do axnio. O processo de controle daproduo do impulso eltrico normalmente aceito como uma funo de limiar que produzuma sada, caso a soma das entradas seja maior ou igual a um dado limiar.3.2.3 Caractersticas de uma Rede NeuralExistem trs caractersticas principais que descrevem umaRN biolgica, e a quecontribuem para a sua habilidade funcional:a) Topologia do Sistema Neural:Os princpios importantes que podem ser encontrados subjacentes organizaoestrutural das reas diferentes do crebro: Camadas de elementos de processamento; Colunas de elementos de processamento; Especializao do tecido neural em sistemas especficos e no especficos. 8. 39Interfaces sensoras captam informaes do mundo para o crebro. Os dados sopassados atravs de nveis mltiplos do sistema nervoso, ou camadas de neurnios. Atravsdesta transferncia de nveis do funcionamento cerebral ocorre a abstrao, conceitualizao edeteco de caracterstica. Por exemplo, o sistema nervoso pode detectar caractersticasespecficas, todavia este tambm espalha informao ambgua. Estas sensaes no podem serentendidas enquanto no forem processadas por muitas camadas nas vrias reas do crebro.b) Dinmica do Sistema Neural:Diversos processos dinmicos que ocorrem no sistema neural biolgico sointegralmente ligados s estruturas destes sistemas: Representao distribuda de informao; Codificao temporal da informao; Regra de inibio; Processamento feedforward e feedback.A informao que acessada por vrios sensores biolgicos distribuda paraneurnios mltiplos. Essa informao processada por uma parte do crebro e enviada paraoutra rea do crebro. Esta nova rea processa e passa de volta a informao para a locaooriginal ou atravs locaes intermedirias.c) Aprendizado no Sistema Neural:A habilidade do sistema neural biolgico de aprender adaptativamente em resposta experincia e ao ambiente um dos mais notveis aspectos deste sistema. Existem algunsaspectos associados com tal aprendizado: Aprendizado sobrepe conexes rgidas; Conceitualizao. 9. 40O crebro adaptativo no incio da vida, contudo desenvolve uma fixao ouinflexibilidade com a maturao. Apesar de uma relativa inflexibilidade, na fase adulta, existeuma habilidade contnua do crebro em adaptar-se e aprender novas coisas.3.3 Princpios da NeurocomputaoApesar de uma rede neural ser simulada e executada em um computador seqencial, arede est muito mais para o funcionamento cerebral do que para um computador.A RNA algoritmo computacional, onde a camada de entrada recebe um conjunto dedados (previamente selecionados e conhecido), cujas sucessivas repeties faz com que umcritrio de convergncia ou parada ocorra. Assim, a rede treinada e os parmetros soajustados e definidos nas camadas intermedirias e de sada (ver figura 3.4). Com isto, diz-seque a RNA aprendeu a reconhecer de modo generalizado um conjunto para o qual previamente treinada.Figura 3.3 Modelo neural [85]Se uma rede aprende, ela deve reproduzir algum conhecimento. O seu conhecimentono est localizado em um endereo e, dessa forma, a rede no separa memria de dadosarmazenados. O conhecimento armazenado est distribudo por toda a rede, da mesma formaque no se pode dissecar um crebro para extrair conhecimento. O programa implementadoest previamente condicionado para tal atividade, no far outra coisa seno a estabelecida, ouseja, a atividade treinada. 10. 41Ao se escrever um programa para realizar uma ao diante de um fato, tem-se queprever todas as situaes possveis para associar as aes pertinentes a cada ao. Porm,como todos sabem, existem certos casos que simplesmente no possvel prever exatamentetodos os fatos, a comear pela quantidade de situaes diferentes que possam vir a ocorrer,dependendo do problema. Dessa forma, quando acontece uma dessas situaes inesperadas, oprograma de computador tomaria uma atitude imprevista, ou no tomaria atitude nenhuma,pois no saberia o que fazer. A culpa no do programa, pois no programado para reagirdiante de situaes que ainda no lhe foram apresentado, e muito menos do computador [12].O crebro no pensa assim, pois, baseado no conhecimento sinapticamenteacumulado, tomar alguma ao perante a nova situao, ponderando pelo julgamento doselementos que aprendeu.O crebro humano consome de 20 a 25% da energia corporal e possui um total de 10bilhes de neurnios, sendo que cada um faz entre mil e dez mil conexes com os neurniosadjacentes [85].O aprendizado sinptico paralelo, que o torna flexvel, rpido e eficaz. Umcomparativo entre o crebro e o computador, resulta, no quadro a seguir, os seguintes valores(ver tabela 3.1):Tabela 3.1 Comparativo entre o crebro humano e o computador [85]Parmetro Crebro ComputadorMaterial Orgnico Metal e plsticoVelocidade Milisegundo NanosegundoTipo de Processamento Paralelo SeqencialArmazenamento Adaptativo EstticoControle de Processos Distribudo CentralizadoNmero de elementos processados 1011a 1014105a 106Ligaes entre elementos processados 10.000