i Modelos Modificados de Redes Neurais Morfológicas Banca Examinadora: Este exemplar corresponde à redação final da dissertação devidamente corrigida e defendida por Estevã

Universidade Estadual de CampinasInstituto de Matemática, Estatísticae Computação CientícaDepartamento de Matemática AplicadaModelos Modicados de Redes NeuraisMorfológicas

Autor: Estevão Esmi LaureanoOrientador: Prof. Dr. Peter Sussner16 de junho de 2010Este trabalho teve o apoio nanceiro da Fapesp. Processo 2006/05868-5.

iModelos Modificados de Redes Neurais Morfológicas

Banca Examinadora:

Este exemplar corresponde à redação final

da dissertação devidamente corrigida e

defendida por Estevão Esmi Laureano e

aprovada pela comissão julgadora.

Campinas, 30 de Abril de 2010

Prof. 'Dr:?eter Sussner.

Orientador

1. Álvaro Rodolfo De Pierro, Dr ...... ... .... ............... ..... .. .... ... .. DMA I IM ECC I Unicamp

2. Fernando José Von Zuben, Dr. ....... .... .... .......... .. ..... ....... ... DCA I FEEC I Unicamp

3. Marcos Eduardo Ribeiro do Valle Mesquita, Dr . .. ...... .... ... ... .. ....... DM I CCE I UEL

4. Peter Sussner, Dr ..... ..... ...... ........ ......... ...... .... ........... ...... DMA I IM ECC I Unicamp

Dissertação apresentada ao Instituto de

Matemática, Estatística e Computação

Científica, UNICAMP, como requisito parcial

para obtenção do Título de Mestre em

Matemática Aplicada.

ii

L37Jm

FICHA CATALOGR.ÁFJCA ELABORADA PELA BIBLIOTECA DO IMECC DA UNICAMP

Bibliotecitria: Maria FaJbilliJiUJ. !Hezcrra Müll!er CRIBS / 61 62

L.au re tw)., E.s:te-.. ~o E'iffii

Modelos. rllDdi ficados de ll:!'(fus ncura.is morfológictl! lEsle\'ào Esn~i

L.:u:r~aoo -- CJimpiii'WS, lS..P. : s.n.]. 201 0.

Ois. crtaç.W (mesln!do) - Uni\'er:iidade Estadual de Campina .

IJJ.limto de Malernãti.oCa., Es.tatl!llica ~ CMl(:ll!lts~ Gc-ntUica.

LTL>-Oria do$ reticul!ados. 2.MQrfologia rnatetnâJi.oCa. J .Cor~uBlO!!

dirfusru:. 4.Red.es. rlCtlrai.s (Cornpu1a.çto). S.Mernória assoeiali\o'll.

E tadual de Crunpina. . lnsütuto dc Mst.emãJica, Estatlstica e

COJl!puma~o-Cie-n1.iflea. Ul. "J1tulo.

Pãlarw'P.!:i<ba.v~ em tngl~ ( Kk:)"A'ards). l .latiice tlloory. 2.Msilicn~:úi.-cal. n~rpl1alogy.

J.f'LI7_zy set.. 4.NI!'Il:ml n-zi:l.rork (Cmnput€rscienee. S.As:ioeiBti'\1-e memory. 6.Pruttem reoogniúm~.

Árua d\1 coucentrn~a: Mat.emélica. Aplicad3

Tihllaçno. Mcs!N etlll Matemática Aplicada

Banc.a e>:mnimadora: Pro f: Drr. ?etc r S.'ll:i.!!r~err (IlM ECÇ -tn[CAM P) Prof. Dr. ÁI'P ro Rodollfo de Piell'O 1Jv1ECC-UNICAMP) Pmf. D:r. Fem!IJI'bdo José Vo11 Zu'lx:n (FE!EC-lJN[CAMP) Prol: IIJor. Ma~t:tl!l ISd'u:mlo Ribeiim do V;allie MMqllitt (f'CE liEL)

D:ua da dcfc. a.: 2:6/0412.0 I O

iii

...

Pw r. [a ). llr ra~. i\ f.', ' ARO ltflDOU;on .DIE rn~RRO

ResumoRedes neurais morfológicas (MNN) são redes neurais articiais cujos nós exe-cutam operações elementares da morfologia matemática (MM). Vários modelosde MNNs e seus respectivos algoritmos de treinamentos têm sido propostos nosúltimos anos, incluindo os perceptrons morfológicos (MPs), o perceptron mor-fológico com dendritos, as memórias associativas morfológicas (fuzzy), as redesneurais morfológicas modulares e as redes neurais de pesos compartilhados e reg-ularizados. Aplicações de MNNs incluem reconhecimento de padrão, previsão deséries temporais, detecção de alvos, auto-localização e processamento de imagenshiperespectrais.Nesta tese, abordamos dois novos modelos de redes neurais morfológicas. Oprimeiro consiste em uma memória associativa fuzzy denominada KS-FAM, e osegundo representa uma nova versão do perceptron morfológico para problemasde classicação de múltiplas classes, denominado perceptron morfológico comaprendizagem competitiva (MP/CL).Para ambos modelos, investigamos e demonstramos várias propriedades. Emparticular para a KS-FAM, caracterizamos as condições para que uma memóriaseja perfeitamente recordada, assim como a forma da saída produzida ao ap-resentar um padrão de entrada qualquer. Provamos ainda que o algoritmo detreinamento do MP/CL converge em um número nito de passos e que a redeproduzida independe da ordem com que os padrões de treinamento são apresen-tados. Além disso, é garantido que o MP/CL resultante classica perfeitamentetodos os dados de treinamento e não produz regiões de indecisões.Finalmente, comparamos os desempenhos destes modelos com os de outrosmodelos similares em uma série de experimentos, que inclui reconhecimento deimagens em tons de cinza, para a KS-FAM, e classicação de vários conjuntos dedados disponíveis na internet, para o MP/CL.Palavras-chave: Reticulado, MorfologiaMatemática, Conjuntos Fuzzy, RedeNeural (Morfológica), Memória Associativa (Fuzzy), Reconhecimento de Padrão.v

AbstractMorphological neural networks (MNN) are articial neural networks whose hid-den neurons perform elementary operations of mathematical morphology (MM).Several particular models of MNNs have been proposed in recent years, includ-ing morphological perceptrons (MPs), morphological perceptrons with dendrites,(fuzzy) morphological associative memories, modular morphological neural net-works as well as morphological shared-weight and regularization neural networks.Applications of MNNs include pattern recognition, time series prediction, targetdetection, self-location, and hyper-spectral image processing.In this thesis, we present two new models of morphological neural networks.The rst one consists of a fuzzy associative memory called KS-FAM. The secondone represents a novel version of the morphological perceptron for classicationproblems with multiple classes called morphological perceptron with competitivelearning (MP/CL).For both KS-FAM and MP/CL models, we investigated and showed severalproperties. In particular, we characterized the conditions for perfect recall usingthe KS-FAM as well as the outputs produced upon presentation of an arbitraryinput pattern. In addition, we proved that the learning algorithm of the MP/CLconverges in a nite number of steps and that the results produced after theconclusion of the training phase do not depend on the order in which the trainingpatterns are presented to the network. Moreover, the MP/CL is guaranteed toperfectly classify all training data without generating any regions of indecision.Finally, we compared the performances of our new models and a range of com-peting models in terms of a series of experiments in gray-scale image recognition(in case of the KS-FAM) and classication using several well-known datasets thatare available on the internet (in case of the MP/CL).Keywords: Lattice Theory, Mathematical Morphology, Fuzzy Set, (Morpho-logical) Neural Network, (Fuzzy) Associative Memory, Pattern Recognition.

vii

ix

Aos meu pais,Brasil Alves Laureano e,Tânia Esmi Laureano

AgradecimentosÀ todos que me apoiaram e me ajudaram durante este projeto de mestrado. Emespecial, para meus pais, Brasil Alves Laureano e Tânia Esmi Laureano, a minhairmã Renata Esmi Laureano, e aos demais entes queridos que tanto torceram pormim.À Damaris, por todos os momentos de compreensão, carinho e amor.Também aos meus grandes amigos que tiveram comigo durante este tempo:Willian Eloi, Gustavo, Marcio, Marcos e Luciana, Willian Oliveira, Nolmar,Celso, Ney e Flávia, Eduardo Miqueles, José Carlos e vários outros.Ao meu orientador, Peter Sussner, pela orientação, paciência e, principal-mente, por acreditar em minha capacidade para desenvolver este projeto.Agradeço por m, todos professores tanto da Unicamp quanto da Unip quecontribuiram para minha formação acadêmica nos cursos de pós-graduação ebacharelado.

xi

Tabela de siglasSigla SignicadoMNN Redes neurais morfológicasMP Perceptron morfológicoMPD Perceptron morfológico com dendritosMM Morfologia matemáticaFMNN Redes neural morfológica fuzzyFMAM Memória associativa morfológica fuzzyMP/CL Perceptron morfológico com aprendizagem competitivaMLP Perceptron de múltiplas camadaskNN k vizinhos mais próximosANN k Redes neural articialMAM Memória associativa morfológicaSE Elemento estruturanteFMM Morfologia matemática fuzzyAM Memória associativaFAM Memória associativa fuzzyAMM Memória morfológica auto-associativaHMM Memória morfológica heteroassociativaIFAM Memória associativa fuzzy implicativaGFAM Memória associativa fuzzy generalizadaKS-FAM Memória associativa fuzzy baseada na medida de subsethood deKoskoNRMSE Raiz quadrada do erro médio quadrático normalizado

xiii

xiv

DAM Memória associativa dinâmicaBAM Memória associativa bidirecionalKAM Kernel associative memoryBSB Brain-state-in-a-boxOLAM Memória associativa linear óptimaFLN Neurocomputação em reticulados fuzzyFLNN Fuzzy lattice neural networkFLR Fuzzy lattice reasoningMSE Erro médio quadrático

Sumário1 Introdução 12 Fundamentos teóricos das redes neurais morfológicas 52.1 Estrutura de reticulados completos na morfologia matemática . . 72.2 Motivação e conceitos básicos da morfologia matemática . . . . . 182.3 Conceitos básicos da morfologia matemática fuzzy . . . . . . . . . 203 Memórias associativas morfológicas 253.1 Modelos clássicos de memórias associativas morfológicas . . . . . . 263.2 Memórias associativas morfológicas fuzzy . . . . . . . . . . . . . . 283.3 FAM baseada na medida de subsethood de Kosko (KS-FAM) . . . 313.3.1 Medida de subsethood de Kosko . . . . . . . . . . . . . . . 313.3.2 FAM baseada na medida de subsethood de Kosko para ocaso binário . . . . . . . . . . . . . . . . . . . . . . . . . . 343.3.3 KS-FAM: Denição e propriedades . . . . . . . . . . . . . 353.4 Experimentos com KS-FAM . . . . . . . . . . . . . . . . . . . . . 413.4.1 Imagens binárias . . . . . . . . . . . . . . . . . . . . . . . 423.4.2 Imagens em tons de cinza . . . . . . . . . . . . . . . . . . 433.4.2.1 Experimentos usando padrões incompletos . . . . 453.4.2.2 Variações de claridade e orientação . . . . . . . . 463.4.2.3 Padrões ruidosos . . . . . . . . . . . . . . . . . . 484 Redes neurais morfológicas construtivas 534.1 Neurocomputação em reticulados fuzzy . . . . . . . . . . . . . . . 534.2 Perceptron morfológico . . . . . . . . . . . . . . . . . . . . . . . . 574.3 Perceptron morfológico com aprendizagem competitiva (MP/CL) 604.3.1 Algoritmo do MP/CL para problemas de classicação binários 634.3.2 Propriedades do algoritmo do MP/CL para problemas declassicação binários . . . . . . . . . . . . . . . . . . . . . 67xv

xvi SUMÁRIO4.3.3 Algoritmo do MP/CL para problemas de classicação commúltiplas classes . . . . . . . . . . . . . . . . . . . . . . . 814.4 Experimentos com redes neurais morfológicas construtivas . . . . 824.4.1 Problema sintético de Ripley . . . . . . . . . . . . . . . . . 854.4.2 Problema de segmentação de imagem . . . . . . . . . . . . 874.4.3 Problema de classicação de ores íris . . . . . . . . . . . 884.4.4 Problema de câncer de mama de Wisconsin . . . . . . . . 905 Conclusões e considerações nais 93

Capítulo 1Introdução

Redes neurais morfológicas (MNNs) surgiram da fusão de idéias da mor-fologia matemática e redes neurais articiais. Vários modelos particulares deMNNs e seus respectivos algoritmos de treinamentos foram propostos nos últi-mos anos, incluindo os perceptrons morfológicos (MPs) [72, 83], o perceptronmorfológico com dendritos (MPDs) [74], as memórias associativas morfológicas(fuzzy) [92, 93, 95, 99], as redes neurais morfológicas modulares [1] e as redesneurais de pesos compartilhados e regularizadas [37, 45]. Os modelos de neuro-computação fuzzy desenvolvidos por Kaburlasos, Petridis et al., também podemser classicados como redes neurais morfológicas, mesmo tendo sido baseados einspirados em outras idéias, tais como as provindas dos modelos ART [11, 12, 13].Redes neurais híbridas morphological-rank-linear e morfológicas têm sido apli-cadas com sucesso em uma variedade de problemas, tais como reconhecimento depadrão [40, 42, 43, 46, 63], previsão de séries temporais [2, 44, 95], detecção dealvos [46], reconhecimento de caracteres [62], auto-localização e análise de imagemhiperespectral [30, 66].O perceptron morfológico está entre os primeiros modelos de redes neuraismorfológicas que apareceram na literatura [69, 72, 83]. Este modelo foi baseadona álgebra minimax, que corresponde a uma álgebra de reticulado originada paraproblemas em escalonamento de máquinas e pesquisa operacional [4, 14, 19]. Aálgebra minimax possui algumas semelhanças com a álgebra linear, por exem-plo, ela dispõe de produtos de matrizes e lida com estruturas matemáticas querecordam espaços vetoriais e anéis [18]. O fato dos cálculos ocorridos na ca-1

2 Introduçãomada de uma rede neural tradicional poderem ser expressos como um produtomatriz-vetor, seguido da aplicação de uma função de ativação não linear, inspiroupesquisadores a desenvolver MNNs substituindo os produtos matriciais conven-cionais pelos denidos na álgebra minimax [21, 28, 29]. J.D. Davidson mostrouque a teoria da morfologia matemática clássica pode ser encaixada na álgebraminimax, por meio de um isomorsmo que mapeia certos produtos matriciaisem operações elementares da morfologia matemática [20]. Dessa maneira, paraeste tipo de rede, a álgebra minimax tem concedido aos pesquisadores um acessofácil ao problema de denir pesos que, geralmente, na terminologia da morfologiamatemática, correspondem a certos elementos estruturantes.A morfologia matemática (MM), por sua vez, é uma teoria que usa conceitosdas teorias de conjuntos, geometria e topologia para análise de estruturas ge-ométricas em objetos [36, 58, 76, 77] e tem sido utilizada em várias áreas, taiscomo processamento de imagens, reconhecimentos de padrões e visão computa-cional [9, 32, 33, 47, 64, 78, 79]. Inicialmente, essa teoria surgiu para processa-mento de imagens binárias [58, 76] e, subsequentemente, várias abordagens forampropostas para generalizá-la para imagens em tons de cinza, tais como as aborda-gens a umbra [76, 80] e morfologia matemática fuzzy [23, 60]. Está última, consistede uma abordagem à MM a partir da teoria de conjuntos fuzzy [23, 60, 96, 101].Em geral, a estrutura de reticulados completo é a estrutura amplamente aceitapara se conduzir à MM [36, 75].A MM contempla quatro operadores elementares: erosão, dilatação, anti-erosão e anti-dilatação. Posto isto, uma rede neural morfológica é denida, maisprecisamente, como sendo uma rede neural articial cujos nós executam uma dasquatro operações elementares da MM, possivelmente seguidos de uma função deativação [99].Uma classe de MNNs de especial importância para este trabalho é constitu-ido pelas redes neurais morfológicas fuzzy (FMNNs), que consistem em MNNsbaseadas na morfologia matemática fuzzy. A primeira classe geral de MNN fuzzyque surgiu na literatura corresponde às memórias associativas morfológicas fuzzy(FMAMs) [99]. Em termos gerais, uma memória associativa é um modelo pro-jetado para armazenar pares de entradas e saídas, que adionalmente exibe umacerta tolerância a entradas distorcidas ou incompletas [34, 49]. No nosso con-texto, uma memória associativa morfológica (fuzzy) é uma memória associativaque, ao mesmo tempo, também é uma MNN (fuzzy).

3Nesta tese, abordamos dois novos modelos de redes neurais morfológicas. Oprimeiro consiste em uma memória associativa fuzzy denominada KS-FAM. Osegundo representa uma versão do perceptron morfológico para problemas declassicação de múltiplas classes, denominada perceptron morfológico com apren-dizagem competitiva (MP/CL). O último modelo pertence a uma subclasse dasMNNs denominada redes neurais morfológicas construtivas, cujo nome vem dofato de que, durante a fase de aprendizagem, os algoritmos de treinamentos dessasredes constroem e ajustam automaticamente sua arquitetura para lidar com umdeterminado problema.Tanto para KS-FAM quanto para o MP/CL, investigamos e demonstramosvárias propriedades, por exemplo, mostramos que o algoritmo de treinamento doMP/CL independe da ordem com que os padrões de treinamento são apresentadosà rede. Adicionalmente, comparamos os desempenhos destes modelos com os deoutros modelos similares em uma série de experimentos. Como fruto da pesquisadesenvolvidas sobre os dois modelos, o autor e seu orientador, em conjunto, pub-licaram dois artigos em anais de conferência [89, 87] e um capítulo de livro [88].Além disso, eles também tiveram um artigo aceito para publicação em um re-vista internacional com árbitro [91], e mais dois artigo aceitos para publicaçãoem proceedings de dois congressos internacionais [25, 90].Esta tese é organizada em cinco capítulos.No Capítulo 2, apresentaremos todos os conceitos matemáticos fundamentaisdas redes neurais morfológicas que serão abordadas no decorrer deste trabalho.Nele, distinguiremos entre as abordagens à morfologia matemática no sentidoalgébrico (Seção 2.1) e no sentido intuitivo (Seção 2.2). Adicionalmente, indi-caremos os conceitos básicos da abordagem fuzzy à MM na Seção 2.3.No Capítulo 3, abordaremos a classe das memórias associativas morfológi-cas. Inicialmente apresentando os primeiros modelos de MAMs que surgiramna literatura e, em seguida, abordando a classe das memórias associativas mor-fológicas fuzzy, onde foi revista uma estratégia geral para treinamento de certasFMAMs, baseada na relação de adjunção entre operadores da MM sobre estruturade reticulados completos. Na terceira seção, introduziremos o modelo KS-FAM,demonstrando algumas das suas propriedades. Por m, encerraremos este capí-tulo comparando a KS-FAM com outros modelos de memórias associativas emuma série de experimentos, envolvendo tanto imagens binárias quanto imagensem tons de cinza. Nestas simulações, sondamos a capacidade de tolerância da

4 IntroduçãoKS-FAM com respeito à entradas incompletas e presença de ruídos.No Capítulo 4, trataremos de maneira geral dos modelos de redes neurais mor-fológicas construtivas, tais como os modelos FLNs de Kaburlasos et al. Contudo,uma atenção especial será dada ao modelo MP/CL e seu respectivo algoritmo detreinamento, pois, boa parte do texto deste capítulo será dedicado à investigaçãoe demonstração de várias propriedades exibidas pelo algoritmo de treinamento doMP/CL. Também vamos conduzir testes e comparações quanto ao desempenhodo MP/CL em quatro problemas bem conhecidos de classicação, disponíveis nainternet, com vários classicadores, incluindo o tradicional perceptron de múlti-plas camadas (MLP), árvore de decisão, k vizinhos mais próximos (kNN) e outrosclassicadores morfológicos.Por último, no Capítulo 5, apresentaremos as conclusões e as consideraçõesnais.

Capítulo 2Fundamentos teóricos das redesneurais morfológicas

As redes neurais morfológicas (MNNs) constituem uma classe de redes neuraisarticiais (ANNs), cujo elemento de processamento (ou neurônio) executa umaoperação elementar da morfologia matemática (erosão, dilatação, anti-erosão ouanti-dilatação) seguida, possivelmente, de uma função de ativação [97].Os fundamentos matemáticos das redes neurais morfológicas podem ser encon-trados na teoria da morfologia matemática (MM) junto à estrutura de reticuladoscompletos [70, 71]. As primeiras redes neurais morfológicas, como as memórias as-sociativas morfológicas (MAMs) e o perceptron morfológico (MP), foram denidaspor operadores de uma sub-álgebra da álgebra de imagens, especicamente a ál-gebra minimax, que consiste em um caso particular da morfologia matemática[20, 21, 73]. Entretanto, a partir da caracterização algébrica dos operados funda-mentais da MM, foi vericado que cada unidade de processamento dessas redesexecutavam operações da MM.A morfologia matemática surgiu inicialmente com a morfologia matemáticabinária, como uma ferramenta para a análise de imagens binárias [56, 57, 58, 76,77]. Posteriormente, várias abordagens estenderam a teoria inicial para imagensem tons de cinza [36, 76, 81, 75].A teoria da morfologia matemática inclui dois operadores básicos: a erosão e adilatação. Estes operadores são denidos em termos de um elemento estruturante.Intuitivamente, uma erosão calcula o grau de inclusão do elemento estruturante5

6 Fundamentos teóricos das redes neurais morfológicasnuma imagem dada nos pontos do domínio, enquanto, uma dilatação calcula ograu de intersecção do elemento estruturante reetido pela origem com a imagemdada em cada ponto do domínio. Além da erosão e da dilatação, há ainda doisoutros operadores elementares, a anti-dilatação e a anti-erosão, que são produzi-dos pela combinação de um conceito de negação com a erosão ou dilatação. AFigura 2.1 exibe exemplos de uma erosão e uma dilatação de imagem binária porum elemento estruturante dado por um disco binário de raio igual a 5. Similar-mente, a Figura 2.2 exibe exemplos de uma erosão fuzzy e uma dilatação fuzzy deuma imagem fuzzy, i.e., um conjunto fuzzy que identica uma imagem em tonsde cinza.

a) Imagem original (129x125) b) Elemento estruturante (21x21)

c) Imagem erodida (129x125) d) Imagem dilatada (256x256)Figura 2.1: (a) Imagem original binária, (b) Elemento estruturante dado por um discocom raio 5, (c) Imagem original erodida pelo elemento estruturante, (d) Imagem originaldilatada pelo elemento estruturante.Além do sentido intuitivo, os operadores elementares da MM podem ser car-

2.1 Estrutura de reticulados completos na morfologia matemática 7

a) Imagem original (256x256) b) Elemento estruturante (21x21)

c) Imagem erodida (256x256) d) Imagem dilatada (256x256)Figura 2.2: (a) Imagem original fuzzy, (b) Elemento de estruturação dado por umabola de raio 3, (c) Imagem original erodida pelo elemento estruturante, (d) Imagemoriginal dilatada pelo elemento estruturante.acterizados, equivalentemente, através de um sentido algébrico baseado na teoriade reticulados. Na Seção 2.1 será apresentada a generalização da morfologiamatemática em estrutura de reticulados completos a partir das propriedades al-gébricas de seus operadores.2.1 Estrutura de reticulados completos na mor-fologia matemáticaA teoria de reticulados se refere a estruturas algébricas que impõem algumtipo de ordenação sobre um conjunto [7, 36, 55, 75]. As fundações matemáticas

8 Fundamentos teóricos das redes neurais morfológicasda forma mais geral da MM podem ser encontradas nesta teoria [36, 75, 77].Um conjunto parcialmente ordenado L (poset) é um conjunto tal que, umarelação binária reexiva, antisimétrica e transitiva ≤ é denida. Se para todox, y ∈ L tem-se x ≤ y ou y ≤ x então L é dito uma corrente. Neste trabalho,vamos supor, para simplicar, que um poset não é vazio [31].Um conjunto parcialmente ordenado L é denominado reticulado se, e somentese, todo subconjunto nito e não vazio de L possuir ínmo e supremo em L[7, 55]. O ínmo do subconjunto Y ⊆ L é denotado pelo símbolo ∧

Y ou, al-ternativamente, por ∧

j∈J yj para Y = yj : j ∈ J e J um conjunto de índices.Similarmente, o supremo do subconjunto Y ⊆ L é denotado pelo símbolo ∨

Y ou,alternativamente, por ∨j∈J yj para Y = yj : j ∈ J e J um conjunto de índices.Um reticulado limitado L possui um elemento mínimo denotado por 0L (oualternativamente por −∞) e um elemento máximo por 1L (ou alternativamentepor +∞). Em um reticulado limitado denimos ∧ ∅ = 1L e ∨

∅ = 0L. Note quetodo reticulado L pode ser convertido em um reticulado limitado L pela adiçãode um elemento mínimo 0L e um elemento de máximo 1L.O conjunto L é dito reticulado completo se todo subconjunto (nito ou innito)de L possui um ínmo e um supremo em L, o intervalo [0, 1] e o conjunto R±∞=

R ∪ +∞,−∞ representam exemplos de reticulado completo [7, 55]. Note quetodo reticulado completo L é limitado. Se um reticulado L possui a propriedadede que todo subconjunto não vazio e limitado possui um ínmo e um supremoem L, então L é condicionalmente completo. Por exemplo, o conjunto dos reaisR é condicionalmente completo, mas o conjunto dos números racionais Q não écondicionalmente completo.Lema 1. Seja L um reticulado condicionalmente completo, Se L for limitado,então L é um reticulado completo.Demonstração. Seja Y ⊆ L tal que Y 6= ∅. Temos que Y é limitado pois 0L ≤ y ≤

1L para todo y ∈ Y. Como L é condicionalmente completo, temos que existem∧

Y ∈ L e ∨

Y ∈ L. Logo, L é reticulado completoSejam L1, . . . ,Ln reticulados, então, uma ordem parcial sobre L = L1×. . .×Lnpode ser denida de acordo com a Eq. 2.1.(x1, . . . , xn) ≤ (y1, . . . , yn) ⇔ xi ≤ yi, ∀i = 1, . . . , n (2.1)

2.1 Estrutura de reticulados completos na morfologia matemática 9O poset L resultante é também um reticulado e é chamado de um produto dereticulados com constituintes L1, . . . ,Ln. O símbolo Ln é utilizado para denotaro produto de n cópias de L. Além disso, se Li é reticulado completo para i =1, . . . , n, então L herda a propriedade de completude se as seguintes regras paraqualquer conjunto de índice J forem consideradas:

∧

j∈J

xj =∧

j∈J

(xj1, . . . xjn) = (

∧

j∈J

xj1, . . . ,∧

j∈J

xjn) , (2.2)∨

j∈J

xj =∨

j∈J

(xj1, . . . xjn) = (

∨

j∈J

xj1, . . . ,∨

j∈J

xjn) . (2.3)Para a e b pertencentes a um reticulado L, o intervalo [a,b] denota o conjuntox ∈ L : a ≤ x ≤ b correspondente à hipercaixa com vértice inferior a e vérticesuperior b. Note que, se a > b, então o conjunto [a,b] = ∅. Para X ⊆ L,a notação box(X) é utilizada para denotar o menor intervalo ou hipercaixa quecontém X. Se X = ∅, então, box(X) = ∅, caso contrário, box(X) é dado por[∧

X,∨

X]. Se H(L) denota o conjunto de todas as hipercaixas no reticuladocompleto L, então, H(L) forma um reticulado completo com a relação de ordemparcial dada por ⊆, onde o maior e o menor elemento são ∅ e L, respectivamente.O conjunto τ(L) = (a,b);a,b ∈ L com a ordem parcial dada por (a,b) ≤(c,d) ⇔ c ≤L a e b ≤L d, onde ≤L denota a ordem parcial do reticuladoL, também representa um reticulado. Além disso, se L é completo, então τ(L)herda a propriedade de completude de L. Os elementos de τ(L) são chamados deintervalos generalizados. Aqui, preferimos denotar por (a,b) ao invés de [a,b]para distinguir das hipercaixas, porém, note que se (a,b) ∈ τ(L) for tal quea ≤ b, então, podemos identicar (a,b) com uma única hipercaixa [a,b] 6= ∅.O conjunto das funções de um conjunto U em [0, 1], denotado por [0, 1]U (oualternativamente por F(U)), herda a estrutura de reticulado completo de [0, 1]em termos da seguinte ordem parcial: Para todo a,b ∈ [0, 1]

U, temos quea ≤ b ⇔ a(u) ≤ b(u), ∀u ∈ U. (2.4)Sejam L e M reticulados, uma função ϕ : L → M, que satisfaz às seguintesequações para todo x ∈ L e todo y ∈ M, é chamada homomorsmo de reticulados:

10 Fundamentos teóricos das redes neurais morfológicasϕ(x∨ y) = ϕ(x)∨ϕ(y) e ϕ(x∧ y) = ϕ(x)∧ϕ(y) . (2.5)Um homomorsmo de reticulado bijetivo é dito um isomorsmo de reticulado.Equivalentemente, a função ϕ : L → M é um isomorsmo de reticulado se ϕ ébijetiva e isótona, isto é, ϕ(x) ≤ ϕ(y) para todo x ≤ y. No caso especial onde

L = M, temos um automorsmo de reticulado.A função ν : L → L é chamada de um automorsmo dual se ela invertea ordem parcial. Em particular, um automorsmo dual involutivo ν : L → Lrepresenta uma negação em L. Em outras palavras, uma negação em L é umabijeção involutiva que inverte a ordem parcial de L [36]. Por exemplo, NS(x) =

1− x é uma negação no reticulado completo [0, 1].No contexto da MM, uma erosão (algébrica) é um mapeamento ε de umreticulado completo L para um reticulado completoM que comuta com o operadorínmo. Em outras palavras, um operador ε representa uma erosão se, e somentese, a seguinte igualdade valer para todo subconjunto Y ⊆ L:ε(∧

Y) =∧

y∈Y

ε(y) (2.6)Similarmente, um operador δ : L → M representa uma dilatação (algébrica)se, e somente se, para todo subconjunto Y ⊆ L valer a seguinte igualdade:δ(∨

Y) =∨

y∈Y

δ(y) (2.7)Um operador ε : L → M é uma anti-erosão (algébrica) e um operador δ :

L → M é uma anti-dilatação (algébrica) se, e somente se, para todo subconjuntoY ⊆ L valer a Eq. 2.8 e Eq. 2.9, respectivamente [99].

ε(∧

Y) =∨

y∈Y

ε(y) (2.8)δ(∨

Y) =∧

y∈Y

δ(y) (2.9)Alguns pesquisadores adicionam o suxo algébrico aos nomes dos operadoresmorfológicos apresentados acima, devido ao fato dos mesmos serem denidosa partir de certas propriedades algébricas, e assim, distinguir estás denições

2.1 Estrutura de reticulados completos na morfologia matemática 11daquelas baseadas em medidas de inclusão e intersecção, como na MM binária[8]. O próximo lema indica que certas composições de operações elementares daMM também representam operações morfológicas elementares. A prova destelema é bastante óbvia e segue diretamente a aplicação das propriedade algébricasdos respectivos operadores elementares, tal como foram denidas acima.Lema 2. Sejam ε, δ, ε, δ respectivamente uma erosão, uma dilatação, uma anti-erosão e uma anti-dilatação de um reticulado completo L para um reticuladocompleto M. Dado um operador f : M → K onde K é um reticulado completo, asseguintes armações são verdadeiras:1. Se f é uma erosão, então, f ε é uma erosão e f δ é uma anti-dilatação.2. Se f é uma dilatação, então, fδ é uma dilatação e f ε é uma anti-erosão.Banon e Barrera mostraram um resultado importante para a MM, que consisteem que todo mapeamento Ψ entre reticulados completos L e M pode ser expressoem termos de supremos e ínmos das quatro operações básicas da morfologiamatemática [5]. Precisamente, todo mapeamento Ψ : L → M pode ser expressocomo um supremo de pares de ínmos entre erosões e anti-dilatações, isto é,existem erosões εi e anti-dilatações δi para algum conjunto de índices I tal queΨ =

∨

i∈I

(

εi ∧ δi) (2.10)Alternativamente, Ψ : L → M pode ser expresso como um ínmo de paresde supremos entre dilatações e anti-erosões, e consequentemente uma versão dualda Eq. 2.10 pode ser obtida. Está decomposição está de acordo com o modelode processamento de várias redes neurais morfológicas importantes, tais comoo perceptron morfológico e o MP/CL (que serão abordadas no Capítulo 4) [18,19, 88]. A prova da Equação 2.10 é construtiva e requer somente a estrutura dereticulado completo de L e M [5].A MM pode agregar duas importantes noções de dualidade: negação e ad-junção. Anti-dilatações e anti-erosões podem ser construídas pela combinaçõesde negações com erosões ou dilatações, conforme o teorema a seguir [99].

12 Fundamentos teóricos das redes neurais morfológicasTeorema 1. Sejam L e M reticulados completos com negações νL e νM, respec-tivamente.1. Um operador δ : L → M é uma anti-dilatação ⇔ δ = ε νL e δ = νM δ,onde δ é uma dilatação e ε é uma erosão.2. Um operador ε : M → L é uma anti-erosão ⇔ ε = δνM e ε = νL ε, ondeε é uma erosão e δ é uma dilatação.Sejam o mapeamento Ψ : L → M, e νL, νM negações nos respectivos reticula-dos completos L e M. O operador Ψν, chamado negação de Ψ, é dado por:

Ψν(x) = νM(Ψ(νL(x))) ∀x ∈ L (2.11)Os operadores de erosão e dilatação podem ser ligados pelo conceito de ne-gação, conforme a proposição a seguir [36].Proposição 1. A negação de uma erosão é uma dilatação, e vice-versa.A seguir, será apresentada a noção de dualidade com respeito a adjunção.Considere dois operadores arbitrários δ : L → M e ε : M → L. Dizemos que opar (ε, δ) é uma adjunção se, e somente se, a seguinte expressão valer:δ(x) ≤ y⇔ x ≤ ε(y) ∀x ∈ L, y ∈ M (2.12)Note que uma consequência direta da Preposição 1 é que, se o par (ε, δ)representa uma adjunção, então, o par (δν, εν) também forma uma adjunção.A próxima proposição garante que existe uma única erosão que pode ser as-sociada com uma certa dilatação, e vice-versa, em termos adjunção [77, 36].Proposição 2. Sejam L e M reticulados completos. Considere os mapeamentos

δ : L → M e ε : M → L.1. Se (ε, δ) é uma adjunção, então, δ é uma dilatação e ε é uma erosão.2. Para uma dilatação δ existe uma única erosão ε tal que (ε, δ) é uma ad-junção, e a erosão adjunta é dada porε(x) =

∨

x ∈ L : δ(x) ≤ y, ∀y ∈ M (2.13)

2.1 Estrutura de reticulados completos na morfologia matemática 133. Para uma erosão ε existe uma única dilatação δ tal que (ε, δ) é uma ad-junção, e a dilatação adjunta é dada porδ(x) =

∧

y ∈ M : ε(y) ≥ x, ∀x ∈ L (2.14)As operações elementares da morfologia matemática, de fato, podem ser pro-duzidas em um reticulado se uma certa operação adicional estiver denida alémdas operações de ínmo e supremo. Se L é um reticulado arbitrário, dizemos queL é um reticulado com ordem de grupo ou um l-grupo [7] se L também formaum grupo com uma certa operação + (geralmente, a notação de adição é usadapara notações de grupo) e se toda translação de grupo é isótona, i.e., a seguintecondição é satisfeita para todo x, y ∈ L tal que x ≤ y:

a+ x+ b ≤ a+ y+ b ∀a, b ∈ L . (2.15)Se um l-grupo L também for um reticulado condicionalmente completo, entãodizemos que L é um l-grupo condicionalmente completo.De maneira mais geral, um grupo parcialmente ordenado é um grupo que tam-bém constitui um conjunto parcialmente ordenado e satisfaz a Equação 2.15. Oúnico grupo parcialmente ordenado limitado, i.e., equipado com fronteiras uni-versais é o grupo trivial 0, onde 0 denota o elementro neutro com respeito aadição. Portanto, o grupo trivial 0 é também o único reticulado com ordemde grupo que representa um reticulado limitado [7]. Todavia, R. Cuninghame-Green considera, na teoria matemática da álgebra minimax, estruturas algébricasdenominadas bounded lattice ordered groups (ou blogs), que são dadas por umreticulado limitado G cujo conjunto dos elementos nitos F = G \ +∞,−∞forma um l-grupo (lembre que −∞ =∧

G e +∞ =∨

G representam, respec-tivamente, o menor e maior elemento de G). Contudo, o nome blog sugere aexistência de estruturas de grupos em reticulados limitados diferente de 0, porisso, neste trabalho, preferimos chamar essa estrutura de extensão de reticuladolimitado com ordem de grupo (ou extensão de l-grupo) ao invés de blog. No casoespecial onde a extensão de l-grupo G é um reticulado completo nos referimos aG como extensão de l-grupo completo.Para que uma extensão de l-grupo G seja consistente, é necessário que ooperador + também seja denido em (G×G) \ (F×F). A m de simplicidade,

14 Fundamentos teóricos das redes neurais morfológicasestamos interessados apenas em G diferente do grupo trivial 0. Como todatranslação de grupo é um automorsmo de reticulado e para todo x ∈ F tem-se−∞ ≤ x ≤ +∞, as seguintes denições são utilizadas para manter a isotonia,i.e., preservação da ordem:

a+ (+∞) = +∞+ a = +∞ , ∀a ∈ F ∪ +∞ , (2.16)a+ (−∞) = −∞+ a = −∞ , ∀a ∈ F ∪ −∞ . (2.17)Ainda falta denir + em (+∞,−∞), (−∞,+∞). Para isto, existem duasboas opções: (−∞)+(+∞) = (+∞)+(−∞) = +∞ que é coerente com a Equação2.16 e (−∞) + (+∞) = (+∞) + (−∞) = −∞ que é coerente com a Equação2.17. Posto isto, uma nova operação binária +′ que coincide com a operação +em G×G\(+∞,−∞), (−∞,+∞) pode ser denida e suas diferenças são dadaspelas seguintes regras:

(−∞) + (+∞) = (+∞) + (−∞) = −∞ , (2.18)(−∞) + ′ (+∞) = (+∞) + ′ (−∞) = +∞ . (2.19)Observe que (G,+) e (G,+ ′) não formam grupos já que nem −∞ e nem +∞possuem inverso aditivo.Dessa maneira, uma extensão de l-grupo pode ser denotada pelo sistema

(G,∨,∧,+,+ ′) (denotaremos por apenas G quando não houver ambiguidadesobre os operadores). No caso especial onde G é extensão de l-grupo (completo)e também uma corrente, nos referiremos à G como extensão de l-grupo (completo)totalmente ordenado. Exemplos de extensões de l-grupos completos totalmenteordenados são (R±∞,∨,∧,+,+ ′) e (Z±∞

,∨,∧,+,+ ′) onde +,+ ′ coincidem coma operação usual de adição em R, e (R≥0+∞,∨,∧, ·, · ′) onde · e · ′ correspondem amultiplicação usual nos números reais positivos. Note que (Q±∞

,∨,∧,+,+ ′)representa uma extensão de l-grupo totalmente ordenado mas não uma extensãode l-grupo completo totalmente ordenado, pois que Q não é reticulado completo.Por m, observe que as operações ∨,∧,+,+ ′ denidas em G podem ser es-tendidas para Gn, onde n > 1, tomando coordenada a coordenada.Além disso, o Lema 1 por ser utilizado para produzir uma extensão de l-grupocompleto a partir de produtos de de l-grupo condicionalmente completos. Em

2.1 Estrutura de reticulados completos na morfologia matemática 15particular, seja Rn = Rn∪ +∞,−∞ e +,+ ′ denidas fora de Rn×Rn como nasEquações 2.16, 2.17, 2.18 e 2.19, o sistema (Rn,∨,∧,+,+ ′) forma uma extensãode l-grupo completo que não é uma corrente quando n > 1. De maneira analogaobtemos a extensão de l-grupo completo (Zn ∪ +∞,−∞,∨,∧,+,+ ′).A existência do inverso aditivo em um estrutura de l-grupo permite denir oconceito de elemento conjugado em uma extensão de l-grupo [18, 19]. Seja G umaextensão de l-grupo. Na álgebra minimax o conjugado de um elemento x ∈ G édenotado por x∗ e é denido por:x∗ =

−x se x ∈ G \ +∞,−∞ (inverso aditivo)−∞ se x = +∞

+∞ se x = −∞

(2.20)Note que o mapeamento ν∗ : G → G, dado por ν∗(x) = x∗ representa umanegação no reticulado G. Uma matriz A ∈ Gm×n corresponde a uma matrizcojungada A∗ ∈ Gn×m, onde cada componente [a∗ij] de A∗ é dada por [a∗

ij] = [aji]∗.Obviamente, segue que (A∗)∗ = A.A operação de máximo e mínimo, de duas matrizes de dimensões compatíveis,é executada em cada componente, por exemplo, C = A ∨ B é dada por [cij] =

[aij ∨ bij], para A,B ∈ Gm×n.Os modelos de redes neurais morfológicas, discutidos neste trabalho, utilizamdois tipos de produtos de matrizes. Sejam as matrizes A e B com entradas em Gde dimensões, respectivamente, m× p e p × n, a matriz C = A ∨ B é o produtomax de A e B e a matriz D = A ∧ B é o produto min de A e B, e são denidaspelas seguintes equações:cij =

p∨

k=1

(aik + bkj) (2.21)dij =

p∧

k=1

(aik +′ bkj). (2.22)A partir das denições anteriores, uma elegante relação de dualidade entreoperações de matrizes [18, 19] é dada por

(A∧ B)∗ = A∗ ∨ B∗ e (A ∧ C)∗ = C∗ ∨ A

∗ (2.23)para A,B ∈ Gm×n e C ∈ Gn×p.

16 Fundamentos teóricos das redes neurais morfológicasO lema enunciado a seguir é útil para demonstrar que, de fato, erosões e di-latações podem ser obtidas através, respectivamente, de produtos min e produtosmax. Lembre que, em uma extensão de l-grupo, os operadores + e + ′ possuemprioridade em relação as operações de ∨ e ∧ do reticulado. Entretanto, o uso deparênteses pode ser utilizado para alterar o signicado da expressão, por exemplo(x∨ y) + z.Lema 3. [91] Sejam G uma extensão de l-grupo completo e J um conjunto arbi-trário de índices. As seguintes igualdades valem para todo w, xj ∈ G onde j ∈ J:

w+ ′ (∧

j∈J

xj) =∧

j∈J

w+ ′ xj , (2.24)w+ (

∨

j∈J

xj) =∨

j∈J

w+ xj . (2.25)Teorema 2. [91] Seja G uma extensão de l-grupo completo. Considere os seguintesoperadores εA, δA : Gn → Gm para A ∈ Gn×m:εA(x) = At ∧ x , (2.26)δA(x) = At ∨ x . (2.27)Temos que εA representa uma erosão e δA representa uma dilatação do retic-ulado completo Gn para o reticulado completo Gm.Os operadores εA e δA são utilizados por vários modelos de redes neuraismorfológicas, tais como o perceptron morfológico [72] e as memórias associati-vas morfológicas [73]. O próximo teorema mostra como vericar a relação deordem entre dois elementos de uma extensão de l-grupo, através de operaçõesmorfológicos elementares baseadas em produto min ou produto max.Teorema 3. Sejam G uma extensão de l-grupo e x,a,b ∈ Gn. As seguintesarmações são válidas:1. A desigualdade a ≤ x vale se, e somente se, εv(x) ≥ 0 ,onde v = a∗, ou se

εw(x) ≤ 0, onde w = a.2. A desigualdade x ≤ b vale se, e somente se, δv(x) ≤ 0, onde v = b∗, ou seδw(x) ≥ 0, onde w = b.

2.1 Estrutura de reticulados completos na morfologia matemática 17O Teorema 3 implica que os elementos de uma hipercaixa [a,b] = x ∈ Gn :

a ≤ x ≤ b podem ser determinados pela vericação da seguinte igualdadeεa∗(x)∧ δb(x) ≥ 0. (2.28)Em especial, esse fato é usado na estratégia de classicação de algumas redesneurais morfológicas, tal como o perceptron morfológico. A Figura 2.3 provêuma ilustração desta situação para a hipercaixa [a = 1, b = 9] na extensão de

l-grupo R±∞.

0 1 2 3 4 5 6 7 8 9 10−2

−1

0

1

2

3

4

5

6

a b

δw

(x)εv(x)

_

Figura 2.3: Exemplo de uma erosão εv e uma anti-dilatação δw na extensão del-grupo R, onde v = −a e w = b para a, b ∈ R.Nesta seção apresentamos a caracterização da MM sobre a estrutura de retic-ulados completos numa forma algébrica. Contudo, o desenvolvimento inicial daMM, especicamente a MM binária, não foi motivada por esse sentido algébrico,apesar de satisfazê-la. A próxima seção objetiva-se a esclarecer o sentido intuitivocom o qual surgiu a MM binária.

18 Fundamentos teóricos das redes neurais morfológicas2.2 Motivação e conceitos básicos da morfologiamatemáticaA morfologia matemática binária compreende dois operadores fundamentais, aerosão e a dilatação, que podem ser descritos, respectivamente, em termos deinclusões e intersecções entre conjuntos [56, 57, 58, 76, 77]. A seguir, serão apre-sentadas as denições básicas da MM binária junto a alguns exemplos e a umaanálise intuitiva das operações de erosão e dilatação.Seja X o símbolo que denota o espaço euclidiano Rd ou o espaço digital Zd(onde d é um inteiro positivo), então uma imagem binária A é identicada comoum subconjunto de X, isto é, A ⊆ X. As operações de erosão binária EB ea dilatação binária DB são associadas a um subconjunto S de X chamado deelemento estruturante (SE). Note que o elemento estruturante pode ser vistocomo uma imagem de acordo com a denição anterior.Sejam a translação de uma imagemA ⊆ X por x ∈ X denotada por Ax e dadapor Ax = a+ x : a ∈ A, e a reexão de A em torno da origem é denotada porA e dada por A = −a ∈ X : a ∈ A. A erosão EB(A,S) e a dilatação DB(A,S)de uma imagem binária A por um elemento estruturante S, são denidas pelasEquações 2.29 e 2.30 que correspondem, respectivamente, à subtração e à adiçãode Minkowski [77, 76].

EB(A,S) = x ∈ X : Sx ⊆ A =⋂

s∈S

As (2.29)DB(A,S) =

x ∈ X : Sx ∩A 6=

=

⋃

s∈S

As =⋃

a∈A

Sa (2.30)No sentido intuitivo, uma erosão (Eq. 2.29) calcula em quais pontos x doespaço X um elemento estruturante S está incluso em uma imagem A, enquantouma dilatação (Eq. 2.30) mede quais pontos o elemento estruturante reetido Sse intersepta com a imagemA. As Figuras 2.4 e 2.5, ilustram a operação de erosãoe dilatação de uma imagem A por um elemento estruturante S, respectivamente.Note que, para um elemento estruturante S xo, as Equações 2.4 e 2.5 tam-bém satisfazem, respectivamente, às denições de erosão algébrica e dilatação al-gébrica, pois, os operadores ∩ e ∪ representam operações de ínmo e supremo noreticulado completo P(X) (o conjunto de todos os subconjuntos de X). Portanto,

2.2 Motivação e conceitos básicos da morfologia matemática 19

Figura 2.4: (a) Imagem A, (b) Elemento de estruturação S, (c) Imagem A erodidapor S

Figura 2.5: (a) Imagem A, (b) Imagem A dilatada por S, (c) Elemento de estruturaçãoSEB(·,S) e DB(·,S) representam, respectivamente, uma erosão e uma dilataçãotanto no sentido intuitivo quanto no sentido algébrico para todo S.Além disso, há também outros dois operadores fundamentais na MM binária,que são a anti-dilatação e a anti-erosão, e que podem ser denidos em termos deum operador de negação (no caso da MM binária utiliza-se o operador comple-mento) e pelas operações de erosão e dilatação [76, 77].Várias abordagens estenderam a MM binária para o caso de tons de cinza[36, 76, 81], entre elas destaca-se a abordagem de umbra [81] cuja denição dos op-eradores fundamentais está de acordo com os princípios intuitivos da MM binária.A idéia básica desta abordagem consiste em mapear uma imagem de tons de cinzapara um subconjunto do espaço formado pelo produto do domínio com espaço devalores que a imagem pode assumir, e então aplicar os operadores da MM bináriaa estes subconjuntos. A teoria de conjuntos fuzzy [101, 102] também pode ser

20 Fundamentos teóricos das redes neurais morfológicasutilizada para denir uma morfologia matemática fuzzy cujos operadores básicosestejam baseados em medidas de inclusão e conjunção fuzzy [96], conforme seráelucidado na Seção 2.3. Numa forma algébrica, a morfologia matemática podeser conduzida sobre a estrutura de reticulados completos como visto na Seção 2.1[36, 75, 77].2.3 Conceitos básicos da morfologia matemáticafuzzyOriginalmente a MM foi desenvolvida como uma abordagem à teoria de con-juntos para análise de imagens binárias [58, 76]. Extensões para morfologiamatemática de tons de cinza incluem as abordagens de umbra e threshold [76, 81],além de várias abordagens na direção da morfologia matemática fuzzy (FMM)[60, 96].Em poucas palavras, a idéia inicial que motivou a extensão da MM bináriaa partir da teoria dos conjuntos fuzzy, consiste na substituição dos operadoresde conjuntos (inclusão, intersecção e complemento) nas equações de erosão e di-latação binárias, pelas respectivas extensões na lógica fuzzy. Especicamente,uma abordagem à MM fuzzy, em geral, considera certas medidas de inclusãofuzzy e intersecção fuzzy, assim como, uma certa negação fuzzy para denir oper-ações morfológicas elementares: erosão fuzzy, dilatações fuzzy, anti-erosão fuzzye anti-dilatação fuzzy. Esse tipo de abordagem é consistente com a motivaçãointuitiva com a qual surgiu e se desenvolveu a MM, pois, só posteriormente éque a mesma foi conduzida sobre uma estrutura de reticulados completos e seusoperadores elementares caracterizados através de propriedades algébricas. Umaoutra maneira de se conduzir uma abordagem à morfologia matemática fuzzy éa partir das denições algébricas conforme as Equações 2.6, 2.7, 2.8 e 2.9.Neste trabalho, denotaremos um conjunto fuzzy A como sendo uma funçãoa de um domínio X em [0, 1], onde o valor a(x) é o grau de pertinência de xem A. O símbolo F(X) denota a classe de todos os conjuntos fuzzy em X. Nocaso particular onde X =

[

x1, . . . , xk] denotaremos o conjunto fuzzy a ∈ F(X)como um vetor coluna a = [a1, . . . , ak]

T ∈ [0, 1]k onde ai = a(xi) para todo

i = 1, . . . , k. Lembre que F(X) é um reticulado completo com a ordem parcialdada pela Eq. 2.4.

2.3 Conceitos básicos da morfologia matemática fuzzy 21Seja X um grupo, tipicamente o l-grupo Rn ou Zn. Para x ∈ X e s ∈ F(X)denotamos por sx, s ∈ F(X) a translação de s por x dada pela Eq. 2.31 e areexão de s em torno da origem dada por Eq. 2.32.sx(y) = s(y− x) ∀y ∈ X (2.31)s(y) = s(−y) ∀y ∈ X (2.32)Seja IncF : F(X)×F(X) → [0, 1] uma inclusão fuzzy. A erosão fuzzy εF(a, s)de um conjunto fuzzy a por um elemento estruturante s ∈ F(X) é dada por

εF(a, s)(x) = IncF(sx,a) ∀x ∈ X (2.33)Similarmente, se SecF : F(X) × F(X) → [0, 1] denota uma intersecção fuzzyentão a dilatação fuzzy ∆F(a, s) de um conjunto fuzzy a por um elemento estru-turante s ∈ F(X) é dada por∆F(a, s)(x) = SecF(sx,a) ∀x ∈ X (2.34)Uma grande variedade de medidas de inclusão fuzzy e intersecção fuzzy de-nominadas, respectivamente, por Inf-I e Sup-C (ou por Min-I e Max-C no caso de

X nito), podem ser construídas em termos de implicações IF e conjunções fuzzyCF [96] como se segue:

IncF(a,b) =∧

x∈X

IF(a(x),b(x)) (2.35)SecF(a,b) =

∨

x∈X

CF(a(x),b(x)) (2.36)Alguns pesquisadores em FMM tem concebido medidas de inclusão fuzzy querelaxam a noção da medida de inclusão e intersecção crisp, permitindo a deniçãode medidas que não satisfazem a propriedade de herança [16], isto é, que as re-strições de IncF e SecF à P(X)×P(X) não coincidem com a inclusão e intersecçãode conjuntos crisp, respectivamente. Por exemplo, a medida de subsethood deKosko utilizada no modelo KS-FAM discutido no próximo capítulo deste tra-balho representa uma medida de inclusão fuzzy que não satisfaz a propriedade de

22 Fundamentos teóricos das redes neurais morfológicasherança [86, 87].As denições de erosões fuzzy (Eqs 2.33) e dilatações fuzzy (Eqs 2.34) dadasacima obedecem à regra intuitiva com a qual foram denidos seus correspondentesno caso binário. Apesar disso, muitos autores preferem (ou apenas consideram)utilizar as denições algébricas desses operadores, propiciada pela estrutura dereticulado completo formada pela classe dos conjuntos fuzzy, aproveitando-se,assim, das propriedades e teoremas estabelecidos para estes operadores, tal comoa relação de adjunção e a decomposição de Banon e Barrera.Formalmente, dizemos que uma função εF(·, s) : F(X) → F(X) é uma erosãofuzzy no sentido algébrico se, e somente se, εF satisfaz a Eq. 2.6 para todos ∈ F(X). Similarmente, dizemos que uma função δF(·, s) : F(X) → F(X) é umadilatação fuzzy no sentido algébrico se, e somente se, δF satisfaz a Eq. 2.7 paratodo s ∈ F(X) [96].Observe na Equação 2.35 que, se a implicação fuzzy IF(b, ·) comutar como operador de ínmo para todo b ∈ [0, 1], então, IncF(s, ·) também comutarácom o ínmo para todo s ∈ F(X) e, portanto, a função resultante εF satisfaráa denição de uma erosão fuzzy, tanto no sentido algébrico quanto no sentidointuitivo. Exemplos de implicações fuzzy que produzem erosões fuzzy em ambosos sentidos:

IM(x, y) =

1, x ≤ y

y, x > y(Gödel) (2.37)

IP(x, y) =

1, x ≤ yy

x, x > y

(Goguen) (2.38)IW(x, y) = 1∧ (y− x + 1) (Lukasiewicz) (2.39)Ik(x, y) = (1− x)∨ y (Kleene). (2.40)Similarmente, se a conjunção fuzzy CF da Equação 2.36 for tal que CF(b, ·)é uma dilatação algébrica [0, 1] → [0, 1], isto é, comuta com o operador supremopara todo b ∈ [0, 1], então, a função correspondente ∆F(·, s) é tanto uma dilataçãofuzzy F(X) → F(X) no sentido intuitivo quanto no sentido algébrico. Exemplosde conjunções que representam dilatações algébricas em ambos os argumentos:

2.3 Conceitos básicos da morfologia matemática fuzzy 23TM(x, y) = x∧ y (Mínimo) (2.41)TP(x, y) = x · y (Produto) (2.42)TW(x, y) = 0∨ (x+ y− 1) (Lukasiewicz) (2.43)CK(x, y) =

0, x+ y ≤ 1

x, x+ y > 1(Kleene) (2.44)Note que os operadores TM, TP e TL correspondem a t-normas [48]. De fato,toda t-norma contínua representa uma dilatação algébrica [0, 1] → [0, 1] em am-bos os argumentos [99].Além disso, conjunções fuzzy e implicações fuzzy podem estar relacionadaspelo conceito de adjunção. Especicamente, dizemos que uma conjunção fuzzy

C e uma implicação fuzzy I formam uma adjunção se, e somente se, C(·, z) eI(z, ·) formarem uma adjunção para todo z ∈ [0, 1], isto é, se C e I satiszerem aseguinte equação para todo x, y, z ∈ [0, 1] [99]:

C(x, z) ≤ y⇔ x ≤ I(z, y) (2.45)Pela proposição 2, C(·, z) e I(z, ·) representam, respectivamente, uma di-latação algébrica e uma erosão algébrica. Além disso, uma implicação fuzzy Ie uma conjunção C podem ser obtidas de acordo com as seguintes equações:I(y, x) =

∨

z ∈ [0, 1] : C(z, y) ≤ x e C(x, y) = ∧

z ∈ [0, 1] : I(y, z) ≥ x(2.46)Os pares (TM, IM), (TP, IP), (TW, IW) e (CK, IK) constituem exemplos de oper-adores adjuntos.A partir das Equações 2.35 e 2.36 podemos denir dois produtos matriciais nalógica fuzzy. Sejam A ∈ [0, 1]m×k e B ∈ [0, 1]

k×n, os produtos max-C e min-I deA por B são denotados, respectivamente, por D = A B e E = A~B e denidospelas seguintes Equações [61, 99], onde C e I correspondem a uma conjunçãofuzzy e a uma implicação fuzzy:

dij =

k∨

ξ=1

C(aiξ, bξj) ∀i = 1, . . . ,m e ∀j = 1, . . . , n (2.47)

24 Fundamentos teóricos das redes neurais morfológicaseij =

k∧

ξ=1

I(bξj, aiξ) ∀i = 1, . . . ,m e ∀j = 1, . . . , n (2.48)Existem ainda outros produtos matriciais denidos na teoria de lógica fuzzy,tal como o produto Inf-D (ou Min-D) derivado de uma certa disjunção fuzzyD. Porém estes dois são sucientes para o propósito deste trabalho. Para maisinformações indicamos [61].Vários modelos de FMAMs são baseados nos produtos max-C e min-I [99].Além disso, uma certa estratégia de aprendizagem para FMAMs pode ser adotadaquando esses produtos representam certas operações elementares da MM fuzzy[99]. Este tema será abordado com mais detalhes no próximo capítulo.

Capítulo 3Memórias associativas morfológicas

Umamemória associativa (AM) é um modelo projetado para armazenar paresde entrada e saída. Uma propriedade desejável em uma AM, é que dada umaversão incompleta ou distorcida de um padrão de entrada ela seja capaz de recor-dar a saída desejada. Matematicamente falando, dado k pares de vetores (oumemórias fundamentais) (x1,y1) , . . . , (xk,yk), o projeto de uma AM consisteem encontrar um mapeamento g tal que g(xξ) = yξ para todo ξ = 1, . . . , k e queseja equipado com uma certa tolerância a ruídos, isto é, para uma versão cor-rompida xξ de xξ tenha-se g(xξ) = yξ. Uma memória associativa fuzzy (FAM) éuma AM que armazena pares de vetores que representam conjuntos fuzzy.Uma memória associativa morfológica (MAM) [73] é um modelo de AM repre-sentada por uma rede neural morfológica. Os modelos clássicos de MAMs de tonsde cinza e seus principais resultados serão discutidos na Seção 3.1. Em seguidaserão abordadas as memórias associativas morfológicas fuzzy (FMAMs) que con-sistem em AMs descritas por redes neurais cujos neurônios executam operaçõeselementares da morfologia matemática fuzzy, e que armazenam pares de entradase saídas dados por conjuntos fuzzy. Note que a determinação de FMAMs de-pende de como (ou em que sentido) os operadores morfológicos fuzzy elementaressão denidos, isto é, no sentido intuitivo, no sentido algébrico ou por ambos.Também será discutido um método de aprendizagem não iterativo, baseado narelação de dualidade com respeito a adjunção dos operadores da MM, que podeser empregado na fase de armazenamento para uma certa classe de FMAMs [99].Na Seção 3.3 será apresentado um modelo de AM fuzzy baseado na medida25

26 Memórias associativas morfológicasde subsethood de Kosko [50, 51] que pode ser classicado como uma rede neuralmorfológica no sentido intuitivo. Este modelo generaliza a memória associativabinária introduzida em [87]. Por m, encerraremos este capítulo apresentandoalguns resultados de experimentos envolvendo a AM fuzzy baseada na medida desubsethood de Kosko.3.1 Modelos clássicos de memórias associativas mor-fológicasSuponha que se queira armazenar k pares de vetores (ou memórias fundamentais)(

x1,y1)

, . . ., (xk,yk) usando uma memória associativa morfológica (MAM). Se-jam X = [x1, . . . , xk] ∈ Rn×k a matriz cujas colunas são os vetores xξ ∈ Rn eY = [y1, . . . ,yk] ∈ Rm×k a matriz cujas colunas são os vetores yξ ∈ Rm, paraξ = 1, . . . , k. Aqui, foi considerado (xξ,yξ) ∈ Rn × Rm ao invés de (xξ,yξ) per-tencente ao reticulado completo Rn×Rm, visto que essa restrição é suciente paratodos os propósitos práticos. Relembre que Rp = Rp ∪ −∞,+∞, p ≥ 1, repre-senta, pelo Lema 1, uma extensão de l-grupo completo, pois, Rp é um reticuladocondicionalmente completo.Considere as operações matriciais denidas na Seção 2.1, X ∈ Rn×k e Y ∈

Rm×k. Apresentaremos dois modelos básicos de MAM: o primeiro consiste naconstrução de uma matriz WXY de dimensão m × n dada pela Equação 3.1, eo segundo consiste em um esquema dual de construção de uma matriz MXY dedimensãom×n conforme a Equação 3.2. Note ainda que se pode obter a seguinteigualdade WXY = (MYX)∗ a partir da Equação 2.23.WXY = X ∧ Y

∗ =

k∧

ξ=1

yξ ∧ (xξ)∗ (3.1)MXY = X ∨ Y

∗ =

k∨

ξ=1

yξ ∨ (xξ)∗ (3.2)Dado um padrão de entrada x ∈ Rn o processo de recordação de um padrãoy ∈ Rm no modelo WXY é dado pela Eq. 3.3. Analogamente, uma saída z ∈ Rmé produzida no modelo dual MXY conforme a Eq. 3.4.

3.1 Modelos clássicos de memórias associativas morfológicas 27y = δWt

XY(x) =WXY ∨ x (3.3)

z = εMtXY(x) =MXY ∧ x (3.4)Note que as Equações 3.3 e 3.4 formam, respectivamente, uma dilatação al-gébrica e uma erosão algébrica, conforme o Teorema 2.No caso onde X = Y (isto é, yξ = xξ, para ξ = 1, . . . , k) tem-se WXX e MXXe são chamadas de memórias morfológicas auto-associativas (AMMs), caso con-trário obtem-se memórias heteroassociativas (HMM). O exemplo 1 ilustra duasAMMs (WXX e MXX) que armazenaram com sucesso todas as memórias funda-mentais (i.e., WXX ∨ xξ = xξ =MXX ∧ xξ para ξ = 1, . . . , 4).Exemplo 1.

X =

9 4 4 3

1 8 0 5

5 7 7 2

, WXX =

0 −4 −3

−8 0 −7

−4 −3 0

, MXX =

0 8 4

4 0 3

3 7 0

Para o caso binário onde X ∈ 0, 1n×k, Sussner mostrou que cada componentedo produto min MXX ∧ x equivale ao cálculo de uma inclusão crisp de um certoelemento estruturante s ∈ 0, 1n em x, para todo x ∈ 0, 1n. Seja mti a i-ésimalinha deMXX e a negação (fuzzy) NS : [0, 1]

n → [0, 1]n denida para todo n comoNS(x) = x = (1− x1, . . . , 1− xn), ∀x ∈ [0, 1]n. (3.5)Especicamente, foi vericada a seguinte igualdade para todo i = 1, . . . , n [86]:

mti ∧ x =

1 se (mt

i)t ≤ x

0 caso contrário (3.6)Por isso, o operador εMtXX

também representa uma erosão no sentido intuitivo.Seja x uma versão ruidosa de x, dizemos que x é uma versão erodida de x se,e somente se, x ≤ x, analogamente, dizemos que x é uma versão dilatada de x se,e somente se, x ≥ x.As AMMs exibem duas propriedades desejáveis em uma AM. Uma se refere

28 Memórias associativas morfológicasa sua capacidade de absoluta de armazenamento, ou seja, pode-se armazenarquantas memórias fundamentais se queira. Outra se refere à convergência da redeem um único passo. Esta última característica pode ser formulada em termos dospontos xos das AMMs. Um padrão x é chamado ponto xo de uma AMM WXXse, e somente se, WXX ∨ x = x. Similarmente, um padrão x é chamado ponto xode uma AMM MXX se, e somente se, MXX ∨ x = x. Dado um vetor de entraday a saída WXX ∨ y é ponto xo do modelo WXX, similarmente, o vetor de saídaMXX ∨ y é ponto xo de MXX.Todavia, AMMs armazenam uma grande quantidade de memórias falsas ouespúrias além de exibirem uma tolerância a erro limitada. Especicamente, amemória WXX exibe tolerância apenas a ruídos erosivos, enquanto, a memóriaMXX exibe tolerância a ruídos dilativos [73, 84, 92]. Uma análise das propriedadesde HMMs pode ser encontrada em [73, 95].3.2 Memórias associativas morfológicas fuzzyMemórias associativas morfológicas fuzzy (FMAMs) são memórias associati-vas morfológicas cujos padrões de entrada e saída e/ou pesos sinápticos represen-tam conjuntos fuzzy [99]. Recentemente, as FMAMs foram aplicadas com sucessoem problemas de reconstrução de imagens e previsão de séries temporais [94, 95].Em um sentido mais abrangente do que a FMAM, chamamos de memóriaassociativa fuzzy (FAM) uma AM descrita por uma rede neural que armazenapares de vetores que representam conjuntos fuzzy.Se o neurônio de uma rede neural executa um produto do tipo max-C entãoele é dito um neurônio max-C. Uma FMAM composta por neurônios max-C édenominada como FMAM max-C [99]. Valle e Sussner mostraram que váriosmodelos de FAMs pertencem às classes das FMAMs max-C, tais como a famosaFAM de Kosko, FAM implicativa (IFAM), FAM generalizada (GFAM) de Chunge Lee, FAM de Junbo e max-min FAM com limiar de Liu [6, 15, 51, 54, 93, 99].Considere uma FMAM max-C de uma única camada comm neurônios max-C.Podemos representar este modelo pela seguinte equação:

y = W(x) =W x (3.7)onde W ∈ [0, 1]m×n representa a matriz de pesos sinápticos e x ∈ [0, 1]

n e y ∈

3.2 Memórias associativas morfológicas fuzzy 29[0, 1]

m são os padrões de entrada e saída fuzzy, respectivamente. Referimo-nos atal rede como FMAM max-C W.Seja uma FMAM max-C W tal que a correspondente conjunção fuzzy C exe-cuta uma dilatação fuzzy algébrica no segundo argumento. Recorde da Seção 2.3que W(x) também representará uma dilatação fuzzy algébrica.Em vista da Proposição 2, uma erosão A : [0, 1]m → [0, 1]

n pode ser con-struída, tal que (A,W) formam uma adjunção. A FMAM adjunta deW é denidacomo um modelo de AM que corresponde ao mapeamento A. O teorema a seguircaracteriza as FMAMs adjuntas às FMAMs max-C [99].Teorema 4. Se W denota a FMAM max-C W dada pela Eq. 3.7. Seja N umanegação fuzzy. Dado um padrão de entrada y ∈ [0, 1]m, a FMAM adjunta de

W computa o padrão de saída x ∈ [0, 1]n em termos da seguinte equação, onde

M = [mij] = [N(wji)] = N(W):x = A(y) =MT • y (3.8)Um resultado similar ao Teorema 4 pode ser produzido para FMAMs de umacamada que representam uma erosão fuzzy algébrica, tais que cada neurônio darede executa um produto min-D. Estas memórias associativas fuzzy pertencem àclasse das FMAMs min-D. A demonstração deste resultado e mais informaçõessobre as FMAMs min-D podem ser encontradas em [99].A seguir será apresentada uma classe geral de estratégia de treinamento (ouarmazenamento) para FMAMs max-C chamada aprendizagem por adjunção (ouaprendizagem fuzzy implicativo).Sejam (xξ,yξ) : ξ = 1, . . . , k o conjunto de memórias fundamentais, e

X ∈ [0, 1]n×k e Y ∈ [0, 1]

m×k as matrizes cujas colunas são os vetores xξ e yξ,respectivamente. Seja ainda DX : [0, 1]m×n → [0, 1]

m×k o operador denido por:DX(W) =W X (3.9)O operador DX representa uma dilatação para todo X ∈ [0, 1]

n×k se, e somentese, o operador C(·, x) do produto max-C for uma dilatação para todo x ∈ [0, 1],conforme o Teorema 19 de [99].Considere DX sendo uma dilatação e a FMAM max-C dada pela Eq. 3.7.Pela Proposição 2 existe uma única erosão EX : [0, 1]m×k → [0, 1]

m×n que forma

30 Memórias associativas morfológicasuma adjunção com DX. Seja a matriz de pesos sinápticos da FMAM max-Cdada por W = EX(Y), então, W representa o supremo do conjunto das matrizesV ∈ [0, 1]

m×n tal que V X ≤ Y, pelo fato de W satisfazer a seguinte Equação[99]:W =

∨

V ∈ [0, 1]m×n

: DX(V) = V X ≤ Y (3.10)Note que a matriz de pesos sinápticos W = EX(Y) é calculada pela erosão EXadjunta do operador DX, conforme a Proposição 2. Daí o nome de aprendizagempor adjunção.A Equação 3.10 implica queW é a melhor aproximação abaixo de Y em termosdo produto max-C. Note ainda que, se existe V ∈ [0, 1]m×n tal que V X = Ycomo V ≤W temos que W X = Y pela Eq. 3.10 e pelo fato do operador C(·, x)do produto max-C ser crescente. No caso auto-associativo, a FMAM max-Cobtida pela aprendizagem por adjunção sempre armazenará e recuperará todasas memórias fundamentais.O próximo teorema mostra que a matriz de pesos sinápticosW = EX(Y) podeser facilmente computada por um único produto min-I, e sua demonstração podeser encontrada em [99].Teorema 5. Seja X =

[

x1, . . . , xk]

∈ [0, 1]n×k e Y =

[

y1, . . . ,yk]

∈ [0, 1]m×k.Considere o operador DX dado pela Eq. 3.9 baseado em uma conjunção fuzzy Cque representa uma dilatação nos dois argumentos. A matriz de pesos sinápticos

W = EX(Y) é dada pelo seguinte produto min-I, onde I é a implicação fuzzy queé adjunta a C.W = Y ~ XT (3.11)Em particular, o conjunto das FMAMs max-C produzidas pelo esquema deaprendizagem por adjunção onde C é um t-norma contínua, coincide com a classedas IFAMs [93].Neste trabalho, falaremos em FMAM de Lukasiewicz para nos referir a FMAMmax-C (ou min-D) gerada por aprendizagem adjunta baseada na conjunção (oudisjunção) fuzzy de Lukasiewicz.

3.3 FAM baseada na medida de subsethood de Kosko (KS-FAM) 313.3 FAM baseada na medida de subsethood deKosko (KS-FAM)Nesta seção apresentaremos um modelo de memória associativa fuzzy de duascamadas denominada KS-FAM [87]. O processamento dos neurônios da primeiracamada é baseado na medida de subsethood de Kosko [50, 51], que pode servista como uma medida de inclusão entre conjuntos fuzzy que não satisfaz apropriedade de herança, isto é, não generaliza o caso crisp. Considerando asdenições dos operadores morfológicos fuzzy no sentido intuitivo discutidos naSeção 2.3, se nenhuma restrição quanto a propriedade de herança for assumida,então, o modelo KS-FAM representa uma FMAM. A seguir, será apresentada amedida de subsethood de Kosko e algumas análises sobre suas propriedades.3.3.1 Medida de subsethood de KoskoKosko propôs uma medida subsethood [50, 51] denida em um universo nitoΩ, que pode ser vista como uma medida de inclusão que não generaliza o casocrisp. Sejam A e B conjuntos fuzzy denidos em um universo nito Ω, tal quecard(A) =

∑x∈Ω a(x) > 0, então, a medida de subsethood S(A,B) é denida por

S(A,B) = 1−

∑x∈Ω 0∨ (a(x) − b(x))

∑x∈Ω a(x)

=

∑x∈Ω a(x)∧ b(x)∑

x∈Ω a(x)(3.12)Note que a Equação 3.12 pode ser facilmente generalizada para um domíniocontínuo Ω com a ressalva de que ∫

Ωa(x)dx seja nito e maior que zero, ou seja,

0 <∫Ωa(x)dx <∞:

S(A,B) =

∫Ω(a(x)∧ b(x))dx∫Ωa(x)dx

(3.13)Pela Equação 3.13 ca evidente que a medida de subsethood calcula o graude inclusão de um conjunto fuzzy A em um conjunto fuzzy B. Porém, S nãomantém a propriedade de herança. Sejam A,B ⊆ Ω e Inc a medida de inclusãocrisp dada porInc(A,B) =

1 se A ⊆ B

0 caso contrário (3.14)

32 Memórias associativas morfológicasO exemplo 2 ilustra a diferença entre a medida de inclusão crisp (Inc) com a desubsethoodExemplo 2. SejamA =

[

0 0 0 1 1 1] , B =

[

0 1 1 1 1 0]

.A medida de inclusão crisp Inc(A,B) = 0 pois A 6⊆ B, enquanto S(A,B) = 2

3.Note pelo exemplo anterior que todas as coordenadas, exceto a última doconjunto binário A, estão contidas em B, portanto, num sentido fuzzy, é razoávelpensar que o grau de inclusão de A em B seja 2

3. Todavia, ao se aplicar a funçãolimiar f denida conforme a Eq. 3.15 obtém-se a seguinte igualdade f(S(A,B)) =

Inc(A,B) no caso crisp.f(x) =

1 se x ≥ 1

0 caso contrário (3.15)A partir dessa observação e da Equação 3.6, Sussner vericou que o produtomin executado por memórias morfológicas auto-associativas MXX pode ser ex-presso em termos da medida de subsethood de Kosko [86]. SejamMXX ∈ 0, 1n×ne y ∈ 0, 1

n, onde mti denota a i-ésima linha de MXX. Para simplicarmos,denotaremos (mt

i)t por mi. O símbolo mi denota a negação fuzzy padrão de

mi denida como na Equação 3.5. Seja f denida como na Eq. 3.15, a seguinteigualdade é obtida [86]:(MXX ∧ y)i = mt

i ∧ y = f(S(mi,y)) para i = 1, . . . , n. (3.16)De maneira mais geral, pode ser mostrado que 1 ∧ (mt ∧ y) = f(S(m,y))para todo m,y ∈ 0, 1n. Basta vericar, de maneira completamente análoga aoexposto por Sussner em [86], as seguintes equivalências:mt ∧ x ≥ 1 ⇔ mi + xi ≥ 1 ∀i = 1, . . . , n (3.17)

⇔ xi ≥ 1−mi ∀i = 1, . . . , n (3.18)⇔ x ≥ m (3.19)Levando em conta a relação exposta acima da medida de subsethood de Kosko

3.3 FAM baseada na medida de subsethood de Kosko (KS-FAM) 33com o produto min, vamos denir o produto min fuzzzy ∧ : [0, 1]m×n×[0, 1]

n×p →

[0, 1]m×p. SejamM ∈ [0, 1]

m×n e X ∈ [0, 1]n×p. A matriz Y formada pelo produtomin fuzzy de M com X é dada por

yij = S(mi, xj) para todo i = 1, . . . ,m e j = 1, . . . , p (3.20)onde mi denota a transposta da i-ésima linha de M e xj a j-ésima coluna de

X.Exemplo 3. Considere a matriz X ∈ 0, 14×2 e a matriz MXX gerada pelascolunas de X como abaixo. Este exemplo ilustra tanto a ação do produto minquanto a do produto min fuzzy entre a matriz MXX com o vetor x ∈ 0, 14×1abaixo, onde y =MXX ∧ x e z =MXX ∧ x.X =

1 0

1 0

1 1

0 1

,MXX =

0 0 0 1

0 0 0 1

1 1 0 1

1 1 0 0

, x =

0

1

1

1

, y =

0

0

1

1

, z =

0.667

0.667

1.000

1.000

Exemplo 4. Uma visualização do efeito do produto min fuzzy é dado neste outroexemplo. Considere as oito imagens binárias de tamanho 64 × 64, lidas da es-querda para direita e de cima para baixo, exibidas na Figura 3.1. Estas imagensforam convertidas respectivamentes nos padrões binários x1, . . . , x8 ∈ 0, 14096 eutilizadas na construção da matriz de pesos sinápticos MXX ∈ 0, 14096×4096. Sejax1 o padrão corresponde à versão corrompida de x1 (cameraman) retratada naFigura 4(a), a interpretação visual do produto min fuzzy de MXX e x1 é dadapela Figura 4(b).Baseado no produto min fuzzy e num algoritmo de pós-processamento T queexecuta uma defuzzicação, Sussner propôs uma abordagem bem sucessida parauma AMM binária (TMAM) que exibe maior tolerância a ruídos arbitrários do quea MAM MXX [86]. Considere x1, . . . , xk ∈ 0, 1n×k os padrões binários utilizadosna construção da matrizMXX. Dada uma entrada x ∈ 0, 1n, a fase de recordaçãoda TMAM é dada pelo seguinte esquema:entrada x →MXX ∧ x → Pós-proc. T → saída y.

34 Memórias associativas morfológicas

Figura 3.1: Oito imagens binárias que foram usadas na construção da matrizMXX.

(a) Imagem de EntradaBinária Corrompida. (b) Imagem Fuzzy Recu-perada.Figura 3.2: A imagem fuzzy na direita foi produzida a partir do vetor referenteda imagem corrompida à esquerda através do produto min fuzzy com MXX.Uma outra abordagem consiste de uma MAM binária de duas camadas apli-cada tanto para o caso auto-associativo quanto heteroassociativo, que reduz onúmero de memória espúrias comparado às MAMs clássicas [85]. Uma FAMbaseada na medida de subsethood que será apresentada a seguir, foi propostainicialmente para tentar combinar as vantagens das duas abordagens anteriores.3.3.2 FAM baseada na medida de subsethood de Kosko parao caso binárioComo já mencionado, as memóriasWXX eMXX exibem duas características indese-jáveis: armazenam uma grande quantidade de memórias espúrias e possuem uma

3.3 FAM baseada na medida de subsethood de Kosko (KS-FAM) 35tolerância a erro limitada. Recentemente alguns modelos de MAMs foram pro-postos no intuito de superar essas diculdades. Por exemplo, Sussner introduziuuma memória associativa morfológica de duas camadas que exibe uma quanti-dade reduzida de memórias espúrias [86]. Outra abordagem utilizou o produtomin fuzzy junto a um algoritmo de pós-processamento que prove maior tolerânciaa ruído arbitrários [85].A seguir, será apresentado o modelo original baseado na medida de subsethoodde Kosko proposto para o caso binário que, em experimentos preliminares comproblemas de reconstrução de imagens binárias, obteve bons resultados [87].Sejam X ∈ 0, 1n×k, Y ∈ 0, 1

m×k e Z =[

z1, . . . , zk]

∈ 0, 1p×k tal que

∨kξ=1z

ξ = 1 = (1, . . . , 1)t ∈ [0, 1]p e cada coluna zξ satisfaz as condições dezξ 6≤ zγ e zξ∧ zγ = 0 = (0, . . . , 0)t ∈ [0, 1]p para todo γ 6= ξ. Dado uma entradax, uma saída y é produzida de acordo com as seguintes equações:

w = h(MXZX ∧ x) (3.21)

y =WZY ∨w (3.22)onde MXZX = MXZ ∧MXX e a função h : Rp → 0, 1

p é denida como h (x) =

(h (x1) , . . . , h (xp))t tal que

h (xi) =

1 se xi = ∨p

j=1 xj

0 caso contrário , para i = 1, . . . , p (3.23)Esse modelo pode ser visto como uma rede neural de duas camadas, cujaprimeira calcula um mapeamento fuzzy da entrada por meio de um produto minfuzzy, seguida de uma função h que executa uma competição entre os neurôniosdesta camada de modo que apenas os neurônios com a maior saída são ativados.3.3.3 KS-FAM: Denição e propriedadesNesta subseção será generalizado o modelo original baseado na medida desubsethood de Kosko de modo que o mesmo seja capaz de armazenar pares deentrada e saída que correspondem a conjuntos fuzzy.O lema a seguir simplica consideravelmente o modelo em aspectos computa-cionais permitindo uma generalização consistente do modelo para o caso fuzzy.

36 Memórias associativas morfológicasLema 4. Sejam X =[

x1, . . . , xk]

∈ [0, 1]n×k e Z =

[

z1, . . . , zk]

∈ 0, 1m×k talque ∨k

ξ=1zξ = 1 e cada coluna zξ satisfaz as condições de zξ 6≤ zγ e zξ ∧ zγ = 0para todo γ 6= ξ. Então MXZ

X =MXZ.Demonstração. Primeiramente, será mostrado que (MXZX )ij ≤ (MXZ)ij para i =

1, . . . ,m e j = 1, . . . , n. Usando o fato que (MXX)kk = 0 para k = 1, . . . , n, segueque(MXZ

X )ij =

n∧

p=1

(MXZ)ip + (MXX)pj ≤ (MXZ)ij + (MXX)jj = (MXZ)ijLogo (MXZX )ij ≤ (MXZ)ij.Em seguida será vericado que (MXZ

X )ij ≥ (MXZ)ij donde será concluído oresultado.Como ∨kξ=1z

ξ = 1 e zξ ∧ zγ = 0 para todo γ 6= ξ então para cada i =

1, . . . ,m existe ξi tal que zξii = 1 e zγi = 0 para γ 6= ξi, o que implica que(MXZ)ip = ∨k

γ=1(zγi − x

γp) = 1− x

ξi

p para todo p = 1, . . . , n. Daí segue que(MXZ

X )ij =

n∧

p=1

(MXZ)ip + (MXX)pj

=

n∧

p=1

1− xξi

p + (

k∨

γ=1

xγp − xγj )

≥n∧

p=1

1− xξi

p + xξi

p − xξi

j

≥n∧

p=1

1− xξi

j

≥ 1− xξi

j

≥ (MXZ)ijPortanto (MXZX )ij = (MXZ)ij para todos i = 1, . . . ,m e j = 1, . . . , n.Suponha que se deseja armazenar o seguinte conjunto de pares de entrada esaída (xξ,yξ) ∈ [0, 1]n × [0, 1]m : ξ = 1, . . . , k. Sejam X =

[

x1, . . . , xk] a matrizcujas colunas são os vetores de entrada xξ ∈ [0, 1]n, Y =

[

y1, . . . ,yk] a matrizcujas colunas são os vetores de saída yξ ∈ [0, 1]m e a matriz Z ∈ 0, 1p×k dada

3.3 FAM baseada na medida de subsethood de Kosko (KS-FAM) 37como no lema 4. O modelo original pode ser generalizado da seguinte maneira:dada uma entrada x ∈ [0, 1]n, uma saída y ∈ [0, 1]

m é produzida de acordo comas seguintes equações:w = h(MXZ ∧ x) (3.24)y =WZY ∨w. (3.25)Note que o lema 4 garante que o modelo generalizado estará bem denido,uma vez que MXZ ∈ [0, 1]

p×n, pois (MXZ)ij = 1 − xξi

j ∈ [0, 1], onde ξi é tal quezξ

i

i = 1 e zγi = 0 para γ 6= ξi. Portanto o produto min fuzzy, entre MXZ e umaentrada x ∈ [0, 1]n qualquer, pode ser computado.O Teorema 6 garante que a memória WZY é capaz de recordar perfeitamentea saída yξ quando apresentando o vetor zξ como entrada, para i = 1, . . . , k.Teorema 6. Sejam Z ∈ 0, 1

p×k como no lema 4 e Y ∈ [0, 1]m×k. Então

WZY ∨ zξ = yξ para todo ξ = 1, . . . , k.Demonstração. Por um lado, segue que (WZY ∨ zξ)i ≤ yξi pois

(WZY ∨ zξ)i =

p∨

t=1

(WZY)it + zξt

=

p∨

t=1

(

k∧

γ=1

yγi − zγt ) + z

ξt

≤

p∨

t=1

yξi − zξt + z

ξt

≤ yξiPor outro lado, temos que (WZY ∨ zξ)i ≥ yξi , pois como existe t∗ tal quezξt∗ = 1 e zγt∗ = 0 para γ 6= ξ pelas hipoteses de que zξ 6≤ zγ e zξ ∧ zγ = 0 paraξ 6= γ então

38 Memórias associativas morfológicas(WZY ∨ zξ)i =

p∨

t=1

(WZY)it + zξt

=

p∨

t=1

(

k∧

γ=1

yγi − zγt ) + z

ξt

≥ (

k∧

γ=1

yγi − zγt∗) + z

ξt∗

≥ ((

k∧

γ=1;γ6=ξ

yγi )∧ (yξi − 1)) + 1

≥ (yξi − 1) + 1

≥ yξiComo (WZY ∨ zξ)i ≤ yξi e (WZY ∨ zξ)i ≥ y

ξi para todo i = 1, . . . ,m conclui-seque (WZY ∨ zξ) = yξO Corolário 1 expressa uma consequência direta do Teorema 6, cuja demon-stração utiliza apenas o fato do produto max ( ∨ ) comutar com o supremo (∨)(lembre que δWt

ZYé uma dilatação no sentido algébrico).Corolário 1. Sejam Y e Z como no Teorema 6, entãoWZY ∨ (∨ξ∈Θz

ξ) = ∨ξ∈Θyξ,onde Θ é um subconjunto de 1, . . . , k não vazio.O Teorema 7 caracteriza a capacidade de armazenamento da memória asso-ciativa fuzzy baseada na medida de subsethood de Kosko (KS-FAM).Teorema 7. Sejam Y =

[

y1, . . . ,yk]

∈ [0, 1]m×k, X =

[

x1, . . . , xk]

∈ [0, 1]n×ktal que xγ 6≤ xξ para todo ξ 6= γ e Z =

[

z1, . . . , zk]

∈ 0, 1p×k como no lema 4.Então WZY ∨ h(MXZ ∧ xξ) = yξ para todo ξ = 1, . . . , k.Demonstração. Dado ξ ∈ 1, . . . , k. Seja i ∈ 1, . . . , p temos que zξi = 1 ou

zξi = 0.No caso onde zξi = 1 temos que zγi = 0 para γ 6= ξ. Isso implica que (MXZ)ij =

zξi − xξj = 1− x

ξj ⇒ mij = x

ξj para todo j = 1, . . . , n. Daí (MXZ ∧ xξ)i = 1, pois

(MXZ ∧ xξ)i =

∑nj=1 mij ∧ x

ξj∑n

j=1 mij

=

∑nj=1 x

ξj ∧ x

ξj∑n

j=1 xξj

= 1

3.3 FAM baseada na medida de subsethood de Kosko (KS-FAM) 39Agora, se zξi = 0 então existe γ tal que zγi = 1 pois ∨kλ=1z

λ = 1. Isso implicaque (MXZ)ij = zγi − x

γj = 1− x

γj ⇒ mij = x

γj para todo j = 1, . . . , n. Além disso,como xγ 6≤ xξ então existe j∗ tal que xγj∗ > xξj∗ ≥ 0. Logo, (MXZ ∧ xξ)i < 1, pois

(MXZ ∧ xξ)i =

∑nj=1 mij ∧ x

ξj∑n

j=1 mij

=

∑nj=1 x

γj ∧ x

ξj∑n

j=1 xγj

=(∑n

j=1;j 6=j∗ xγj ∧ x

ξj ) + x

ξj∗∑n

j=1 xγj

≤(∑n

j=1;j 6=j∗ xγj ) + x

ξj∗∑n

j=1 xγj

<

∑nj=1 x

γj∑n

j=1 xγj

= 1Como existe i∗ tal que zξi∗ = 1, pois, zξ 6≤ zγ para ξ 6= γ, então, do resul-tado acima segue que ∨pi=1(MXZ ∧ xξ)i = 1 e, portanto, h(MXZ ∧ xξ) = zξ pelaEquação 3.23.Pelo Teorema 6 segue que WZY ∨ zξ = yξ, o que conclui a demonstração.O próximo exemplo ilustra a capacidade de armazenamento do modelo KS-FAM, assim como, sua tolerância a presença de ruído e a padrões incompletos.Exemplo 5. Seja x1, . . . , x6, respectivamente, o conjunto das imagens da primeiralinha da Figura 3.3 lidas da esquerda para direita. Utilizamos uma KS-FAM paraarmazenar os pares (xξ, xξ) : ξ = 1, . . . , 6. A memória resultante armazenouperfeitamente cada uma das memórias fundamentais, conforme o Teorema 7. Nasegunda e terceira linha da Figura 3.3, cada coluna contém exemplos de versõesde um determinado xξ, respectivamente, com adição de ruído gaussiano e incom-pleto, que produziram a saída desejada ao serem apresentados a rede.O último resultado apresentado nesta subseção vem do Teorema 8 que carac-teriza a saída produzida por uma KS-FAM dada uma entrada x qualquer. Noteque o número de memórias espúrias armazenadas é bem reduzido se comparadoaos modelos clássicos de MAMs. Outro fato importante a observar é que esseresultado foi propiciado devido à aplicação da função h na primeira camada.


Figura 3.3: A primeira linha exibe as imagens utilizadas como memórias fundamentaispara gerar uma KS-FAM. Para cada coluna, a segunda e terceira linha contêm entradasapresentadas à memória KS-FAM cuja saída é exibida na primeira linha.Teorema 8. Sejam X ∈ [0, 1]n×k, Y ∈ [0, 1]

m×k e Z =[

z1, . . . , zk]

∈ 0, 1p×k talque ∨k

ξ=1zξ = 1 e cada coluna zξ satisfaz as condições de zξ 6≤ zγ e zξ ∧ zγ = 0para todo γ 6= ξ. Então, para cada x ∈ [0, 1]

n existe um único subconjunto deíndices Θx ⊆ 1, . . . , k, Θx 6= ∅, tal que h(MXZ ∧ x) = ∨ξ∈Θxzξ. Além disso,

WZY ∨ h(MXZ ∧ x) = ∨ξ∈Θxyξ.Demonstração. Sejam α = ∨nj=1(MXZ ∧ x)j o maior valor do produto min fuzzy

MXZ ∧ x, T =j : (h(MXZ ∧ x))j = 1

(o subconjunto de 1, . . . ,m que satisfazo maior valor α), Θx = ξ : zξj = 1 para j ∈ T e S =

j : (∨ξ∈Θxz

ξ)j = 1.Lembre que [0, 1] representa uma corrente. Como (MXZ ∧ x)j ∈ [0, 1] paratodo j = 1, . . . ,m, segue que existe um índice j ∈ 1, . . . ,m tal que α =

(MXZ ∧ x)j [7]. Logo tem-se T 6= ∅. A prova da existência de Θx segue dofato que para cada j ∈ T existe um índice ξj tal que zξjj = 1 pela hipótese que∨kξ=1z

ξ = 1 e, portanto, Θx 6= ∅.Para provar a unicidade de Θx basta então vericar que S = T . A sequênciade implicações a seguir conclui que T ⊆ S.ξj ∈ Θx ⇒ (∨ξ∈Θxz

ξ)j = 1⇒ j ∈ S⇒ T ⊆ SPor outro lado, cada j ∈ S resulta na existência de um índice i∗ ∈ T de acordocom a sequência de implicações dadas por

3.4 Experimentos com KS-FAM 41j ∈ S⇒ ∃ ξj ∈ Θx com z

ξjj = 1⇒ ∃ i∗ ∈ T com z

ξji∗ = 1 e (MXZ ∧ x)i∗ = αNote que se zξi = 1 então (MXZ)iq = z

ξi − x

ξq para todo q = 1, . . . , n pelo fatode zγi = 0 para todo γ 6= ξ. Logo (MXZ)i∗q = z

ξji∗ − x

ξjq = z

ξjj − x

ξjq = (MXZ)jppara todo q = 1, . . . , n, donde temos que

α = (MXZ ∧ x)i∗ = (MXZ ∧ x)j ⇒ (h(MXZ ∧ x))j = 1⇒ j ∈ T ⇒ S ⊆ T (3.26)Portanto, conclui-se que S = T .A igualdade S = T prova que h(MXZ ∧ x) = ∨ξ∈Θxzξ pelas próprias deniçõesde S e T . Recorrendo ao Colorário 1 conclui-se queWZY ∨ h(MXZ ∧ x) = ∨ξ∈Θxy

ξ.Por m, a demonstração da unicidade de Θx decorre diretamente da unicidadede T .3.4 Experimentos com KS-FAMNesta seção compararemos a KS-FAM com outras memórias associativas. Ini-ciaremos analisando a porcentagem de acerto do modelo KS-FAM com imagensbinárias em um experimento idêntico ao realizado por Sussner em [86]. Uma vezque uma imagem em tons de cinza pode ser identicada com um conjunto fuzzy.Prosseguiremos sondando o desempenho da KS-FAM em algumas simulações uti-lizando imagens em tons de cinza (fuzzy), e comparando-as com outros modelosde memórias associativas em termos da raiz quadrada do erro médio quadráticonormalizado (NRMSE), que é calculado através da equação

‖ y− y ‖2‖ y ‖2

(3.27)onde y e y denotam respectivamente a saída desejada e a saída produzida pelomodelo, e ‖ · ‖2 a norma euclidiana.

42 Memórias associativas morfológicas3.4.1 Imagens bináriasNesta subseção repetiremos o experimento conduzido por Sussner em [86] uti-lizando o modelo KS-FAM, a m de comparar a porcentagem de acerto deste mod-elo com as de outros, presentes na mesma publicação. Em particular, considere ospadrões x1, . . . , x10 ∈ 0, 149 gerados a partir da aplicação do método row scanem cada imagem binária exibida na Figura 3.4, tal que x1, . . . , x5 correspondemrespectivamente às vogais maiúsculas de A a U, enquanto x6, . . . , x10 às vogaisminúsculas a, e, i, o, e u. Os pares das vogais maiúsculas (x1, x1), . . . , (x5, x5)foram armazenados usando uma MAMWXX, uma rede de Hopeld discreta [38] euma memória associativa dinâmica com armazenamento por projeção (projection-recorded DAM) [34]. Além disso, os pares (x1, x6), . . . , (x5, x10), que associamcada vogal maiúscula a sua respectiva minúscula, foram armazenados utilizandoumamemória associativa bidirecional com armazenamento por correlação (correla-tion-recorded BAM) [34], uma TMAM e uma KS-FAM com Z = I ∈ 0, 15×5,onde I denota a matriz identidade.2 4 6

1

2

3

4

5

6

7

2 4 6

1

2

3

4

5

6

7

2 4 6

1

2

3

4

5

6

7

2 4 6

1

2

3

4

5

6

7

2 4 6

1

2

3

4

5

6

7

2 4 6

1

2

3

4

5

6

7

2 4 6

1

2

3

4

5

6

7

2 4 6

1

2

3

4

5

6

7

2 4 6

1

2

3

4

5

6

7

2 4 6

1

2

3

4

5

6

7Figura 3.4: Dez imagens binárias de dimensões 7 × 7 que foram utilizadas comopares de entrada-saída na construção das memórias testadas.O gráco ilustrado na Figura 3.5 exibe a porcentagem média de acertos dosmodelos mencionados anteriormente ao apresentar entradas xξ, que correspondema versões de xξ com valores de pixels (ou bits) invertidos aleatoriamente por umacerta probabilidade p, em 1000 experimentos para cada ξ = 1, . . . , 5.O gráco na Figura 3.5 revela que o modelo KS-FAM obteve um ótimo de-

3.4 Experimentos com KS-FAM 43

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.40

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Probabilidade de reversao do bit

Por

cent

agem

de

acer

tos

KS−FAM

MAMΤ

DAMHopfield

BAM

Figura 3.5: Percentual de perfeito reconhecimento ao apresentar 1000 versõescorrompidas de cada vogal maiúscula contendo reversões aleatórias de bits comprobabilidade p.sempenho em relação às outras memórias, já que sua média de acertos, para cadaprobabilidade de reversão de bits p testada, cou acima das demais, como ob-servado nas curvas traçadas. Avaliando as curvas referentes aos outros modelos,vericamos que neste experimento a TMAM e a projection-recorded DAM ex-ibiram tolerância satisfatória com respeito a inversão de bits, em constraste como modelo correlation-recorded BAM que exibiu baixa porcentagem de acertosmédios para toda probabilidade p e, nem ao menos foi capaz de armazenar to-dos os pares de memórias fundamentais. A rede de Hopeld discreta armazenoucerca de 80% dos pares das vogais maiúsculas, porém, sua porcentagem de acertosmédio cai rapidamente conforme a probabilidade p aumenta.3.4.2 Imagens em tons de cinzaA Figura 3.6 exibe quatro imagens de tamanho 64×64 com 256 tons de cinza, querepresentam versões reduzidas das que estão contidas na base de dados do Grupode Visão Computacional da Universidade de Granada na Espanha. Para cadaimagem foi gerado um vetor xξ de tamanho 4096, utilizando o método row-scan,para ξ = 1, . . . , 4. Os vetores resultantes x1, . . . , x4 foram utilizados em todas as

44 Memórias associativas morfológicassimulações restantes deste capítulo, e correspondem respectivamente às imagensda Figura 3.6 lidas da esquerda para direita.Figura 3.6: As quatro imagens, da esquerda para direita, correspondem aospadrões x1, . . . , x4 utilizados nos experimentos de reconstrução de imagens.Na fase de construção da memória KS-FAM, consideramos Z como sendo amatriz identidade 4× 4. Como sugerido pelo Teorema 7, o modelo KS-FAM ar-mazenou perfeitamente cada um dos padrões xξ para ξ = 1, . . . , 4. Contudo, am de comparar o desempenho da KS-FAM em termos de NRMSE com outrosmodelos de memórias associativas, elaboramos um série de experimentos que en-volve investigações sobre incompletude, variação de claridade e orientação, assimcomo presença de vários tipos de ruídos. Em particular, em nossos experimentosconsideramos também a rede de Hamming [35, 53], a MAM WXX [73], a FAMmax-min de Kosko [51], a FAM de Junbo [39], a IFAM de Lukasiewicz [93], akernel associative memory (KAM) [103], o modelo brain-state-in-a-box (BSB)generalizado de Costantini et al. [17], a MAM WXX + ν [92], a memória asso-ciativa linear óptima (OLAM) [49], e a rede Hopeld complexa de Tanaka et al.[98].Lembre que o modelo KAM dispõe de n neurônios escondidos, onde n éo número de protótipos (ou memórias fundamentais) a ser armazenado. Cadaneurônio correspondente a um protótipo xξ, para ξ = 1, . . . , n, cuja ativação, aoapresentar uma entrada x, é dada pelo cálculo de uma função Kernel k(x, xξ).Neste trabalho adotamos a popular Gaussian kernel function dada pela seguinteexpressão:

k(x, xξ) = exp

(

‖x− xξ‖2

2σ2

) para ξ = 1, . . . , n. (3.28)Além disso, seguimos o sugerido por Stokbro et al. e escolhemos σ como sendo adistância euclidiana média entre todos os pares de diferentes centros das funções

3.4 Experimentos com KS-FAM 45de base radiais K(·, xξ) [82, 103]:σ =

√

1

n − 1

∑

ξ 6=γ

‖xξ − xγ‖2 (3.29)Com respeito ao modelo BSB generalizado, a abordagem de Constantino etal. decompõe uma imagem com L tons de cinza em B = log2 L imagens binárias[17], onde cada imagem é armazenada numa rede BSB binária, descritas pelasseguintes equações discretizadasx(k+ 1) = g(x(k) +Wx(k)), k = 1, 2, . . . (3.30)onde g(x) = (−1) ∨ (x ∧ 1). Neste trabalho, computamos a matriz de pesossinápticos W seguindo o método iterativo nas equações 5 e 6 de [17] usando

δ = 100 e η = 0.1.A rede de Hopeld complexa, consiste de uma rede recorrente que armazenamemórias fundamentais com entradas complexas. Em particular, cada valor depixel numa imagem com L tons de cinza é identicado como um ponto no conjuntoJL = eı(L−j)θL ; j = 0, . . . , L − 1, onde θL = 2π

L. Na abordagem de Tanaka et al.,os pesos da rede são sintetizados utilizando a regra de projeção generalizada [52].Nas simulações, atualizamos os estados dos neurônios da rede até os mesmososcilarem na ordem de 10−4 ou até atingir um máximo de 10 iterações, onde oesquema de atualização dos estados dos neurônios adotado é dado pela equação

12 em [98] com ε = 0.2,3.4.2.1 Experimentos usando padrões incompletosNeste primeiro experimento, investigaremos os modelos de memórias associati-vas apresentando apenas partes das imagens originais como entrada, tais como,ilustradas na Figura 3.7. Uma interpretação visual das saídas deste teste paraa imagem incompleta do cameraman é visualizada na Figura 3.8. A Tabela 3.1lista os NRMSEs resultantes para cada imagem parcial.Uma breve olhada na Tabela 3.1 revela que o modelo KS-FAM obteve o mel-hor desempenho entre os modelos testados em termos de NRMSE, completandoperfeitamente todas as imagens parciais. Um resultado similar foi atingido pelarede de Hamming, que apenas falhou em recuperar a imagem do cameraman. Os

46 Memórias associativas morfológicasFigura 3.7: Versões incompletas das imagens originais.

Figura 3.8: Da esquerda para direita e de cima para baixo, a primeira imagemexibe uma versão incompleta da imagem do cameraman e as imagens restantescorrespondem, respectivamente, as saídas produzidas pela KS-FAM, rede de Ham-ming, MAM WXX, FAM de Kosko, FAM de Junbo, IFAM de Lukasiewicz, KAM,BSB generalizada, MAM WXX + ν, OLAM, e rede Hopeld complexa.NRMSEs produzidos pelas MAM WXX, KAM, e IFAM de Lukasiewicz são com-paráveis e relativamente pequenos. Os piores desempenhos caram por conta darede de Hopeld complexa, da MAM WXX + ν e da FAM de Kosko.3.4.2.2 Variações de claridade e orientaçãoNeste experimento modicamos a claridade e a orientação das imagens originais.Especicamente, subtraímos uma constante (0.35 no caso fuzzy e 89 no caso detons de cinza) na imagem da árvore e adicionamos a mesma constante na imagem

3.4 Experimentos com KS-FAM 47Tabela 3.1: NRMSEs produzido pelos modelos de AMs ao apresentar os padrõesincompletos da Figura 3.7 Árvore Lena Igreja CameramanKS-FAM 0 0 0 0Hamming 0 0 0 0.7599

WXX 0.0088 0.0191 0 0.0412FAM de kosko 0.4764 0.8695 1.1443 0.6609FAM de Junbo 0.1658 0.2067 0.0666 0.4184IFAM de Luk. 0.0088 0.0193 0 0.0448KAM 0.0905 0.0772 0.0059 0.5359BSB gen. 0 0.1401 0.2600 0.7452

WXX + ν 0.6482 0.8042 0.6979 0.7809OLAM 0.2451 0.4706 0.4538 0.7268Hopeld 0.0067 0.3324 0.1172 0.8559

da Lena. Os valores dos pixeis resultantes foram limitados pelos valores dasfronteiras do domínio fuzzy [0, 1] ou domínio de tons de cinza [0, 255], dependendodo caso. Além disso, rotacionamos a imagem da igreja por 10 graus à esquerda ea imagem do cameraman por 10 graus à direita.As Figuras 3.9,3.10, 3.11, e 3.12 exibem os resultados deste experimentospara os diversos modelos testados. A KS-FAM conseguiu recuperar perfeita-mente todas as quatro imagens originais a partir de suas versões modicadas.Desconsiderando a KS-FAM, o melhor desempenho entre as memórias restantesfoi alcançado pelo modelo KAM, já que a rede de Hamming foi incapaz de lidarcom variações de claridade. A Tabela 3.2 sumariza os resultados deste experi-mento em termos de NRMSE.Analisando as saídas produzidas pelos modelos nas guras de 3.9 à 3.12 e oserros apresentados na Tabela 3.2, vericamos que os piores desempenhos carampor conta das memórias WXX, FAM de Kosko, FAM de Junbo e a IFAM deLukasiewicz. Além disso, a BSB generalizada de Constantini et al. e a redede Hopeld complexa de Tanaka et al. obtiveram um comportamento similar arede de Hamming, produzindo saídas satisfatórias, tanto em termos de NRMSEquanto visual, apenas para as imagens com variações de orientação.


Figura 3.9: A imagem no canto superior esquerdo exibe a versão escurecida daimagem da árvore. As imagens restantes, lidas da direita para esquerda e de cimapara baixo, representam as saídas produzidas pela KS-FAM, rede de Hamming,MAM WXX, FAM de Kosko, FAM de Junbo, IFAM de Lukasiewicz, KAM, BSBgeneralizada, MAM WXX + ν, OLAM, e rede Hopeld complexa.Tabela 3.2: NRMSEs produzido pelos modelos de AMs com padrões contendovariações de claridade e orientaçãoÁrvore Lena Igreja CameramanKS-FAM 0 0 0 0Hamming 0.6347 0.8414 0 0

WXX 0.4771 0.7354 1.6015 0.9509FAM de kosko 0.4302 0.8937 1.1586 0.7300FAM de Junbo 0.2603 0.7240 1.3803 0.7014IFAM de Luk. 0.4517 0.7240 1.5378 0.9063KAM 0.1945 0.1499 0.0566 0.0784BSB gen. 0.5595 0.9764 0.0272 0.0052

WXX + ν 0.6032 0.4615 0.6168 0.4765OLAM 0.4986 0.6810 0.2892 0.1937Hopeld 0.8564 0.8901 0.0338 0.01503.4.2.3 Padrões ruidososFinalmente, corrompemos as imagens originais introduzindo vários tipos de ruí-dos: ruído pimenta de densidade 0.25, ruído sal e pimenta de densidade 0.5, e

3.4 Experimentos com KS-FAM 49

Figura 3.10: Da esquerda para direita e de cima para baixo, a primeira imagemmostra a versão clareada da imagem da Lena , enquanto que as imagens restantescorrespondem às saídas dos modelos testados listados na mesma ordem que naFigura 3.9.ruído gaussiano com média zero e variância 0.03. Cada uma das Figuras 3.13,3.14 e 3.15 ilustra as saídas produzidas pelas memórias associativas avaliadasao apresentar o padrão corrompido visualizado no canto esquerdo superior daprópria imagem. Note que na Figura 3.14, as saídas produzidas pelas memóriasWXX e a IFAM de Lukasiewicz formam uma imagem quase que completamentebranca.A Tabela 3.3 mostra os NRMSEs obtidos em 100 experimentos para cadapadrão xξ, ξ = 1, . . . , 4. Tanto a KS-FAM quanto a rede de Hamming produziramexatamente a resposta desejada para cada versão corrompida apresentada e, porisso, os NRMSEs gerados por estes modelos durante tais experimentos foramiguais a zero. Outros modelos que também apresentaram uma tolerância muitosatifatória com respeito aos três tipos de ruídos analisados, foram: KAM, BSBgeneralizada e a rede Hopeld complexa. A MAM WXX, a FAM de Junbo e aIFAM de Lukasiewicz forão capazes apenas de lidar de maneira satisfatória como ruído pimenta.


Figura 3.11: Da esquerda para direita e de cima para baixo, a primeira visualizaa versão rotacionada da imagem da igreja. As imagens restantes correspondem,respectivamente, as saídas dos modelos testados na mesma ordem da Figura 3.9.

Figura 3.12: Da esquerda para direita e de cima para baixo, a primeira imagemmostra a versão rotacionada da imagem do cameraman. As demais imagenscorrespondem às saídas dos modelos testados, dispostas como na Figura 3.9.

3.4 Experimentos com KS-FAM 51Tabela 3.3: NRMSEs produzidos pelos modelos de AMs com padrões ruidososRuído Ruído RuídoPimenta Sal e Pimenta Gaussiano(Densidade 0.25) (Densidade 0.5) (σ2 = 0.03)KS-FAM 0 0 0Hamming 0 0 0

WXX 0.0024 1.4388 0.9005FAM de kosko 0.8068 0.8200 0.8185FAM de Junbo 0.0399 1.2381 0.6563IFAM de Luk. 0.0027 1.2764 0.8701KAM 0.0361 0.1018 0.0137BSB gen. 0 0.1374 0.1181

WXX + ν 0.7433 0.5733 0.2770OLAM 0.2507 0.2437 0.0365Hopeld 0.0297 0.14075 0.0116

Figura 3.13: Da esquerda para direita e de cima para baixo, a primeira im-agem representa uma versão da imagem da Lena contendo ruído pimenta dedensidade 0.25. As imagens restantes correspondem, respectivamente, as saí-das da KS-FAM, rede Hamming, WXX, FAM de Kosko, FAM de Junbo, IFAMde Lukasiewicz, KAM, BSB generalizada, WXX + ν, OLAM e rede de Hopeldcomplexa.


Figura 3.14: A imagem no canto superior esquerdo exibe uma versão corrompidada imagem da árvore contendo ruído sal e pimenta de densidade 0.5. As imagensrestantes correspondem as saídas produzidas pelos modelos testados, dispostasna mesma ordem que na Figura 3.13.

Figura 3.15: A imagem no canto superior esquerdo mostra uma versão corrompidada imagem da igreja contendo ruído gaussiano com média zero e variância 0.03.As imagens restantes correspondem às saídas produzidas pelos modelos testados,dispostas na mesma ordem que na Figura 3.13.

Capítulo 4Redes neurais morfológicasconstrutivas

As redes neurais morfológicas que ajustam automaticamente sua arquiteturadurante a fase de treinamento são denominadas construtivas. De maneira geral,a estratégia de treinamento das redes morfológicas construtivas consiste da uti-lização de um certo algoritmo de clusterização e da conversão de cada clustergerado numa ou mais unidades de processamento. Exemplos de MNN con-strutivas incluem a classe dos perceptron morfológicos (MPs) [72, 83, 91] e osmodelos de neurocomputação em reticulados fuzzy (FLNs) de Kaburlasos et al.[43, 44, 41, 40, 42, 63].4.1 Neurocomputação em reticulados fuzzyKaburlasos et al. dene os modelos FLNs sobre uma estrutura matemáticadenominada reticulado fuzzy, que nada mais é do que uma extensão do conceitode reticulado a partir da extensão do conceito de ordem parcial. Por exemplo, sex e y pertencem a um reticulado L tal que x < y, então, ao invés de falar que xé menor que y, num reticulado fuzzy, dizemos que x é menor que y com um grauσ(x, y) ∈ [0, 1], onde σ representa uma extensão da ordem parcial do reticuladoL [43, 63].Um operador binário σ : L × L → [0, 1] é dito uma ordem parcial fuzzy noreticulado L se os seguintes axiomas são cumpridos para todo x,y e z pertencentes53

54 Redes neurais morfológicas construtivasà L:A-1 σ(x, 0L) = 0 se x 6= 0LA-2 σ(x, x) = 1A-3 se x ≤ y então σ(z, x) ≤ σ(z, y).Apesar de uma ordem parcial fuzzy σ representar uma medida de inclusãocom valores no domínio fuzzy [0, 1], optamos por falar de uma ordem parcialfuzzy ao invés de medida de inclusão (fuzzy) pelo fato de σ generalizar a ordemparcial convencional do reticulado. Um par (L, σ) composto de um reticulado Le uma ordem parcial fuzzy σ é chamado de um reticulado fuzzy.Ordens parciais fuzzy podem ser construídas a partir de funções de avaliaçõespositivas. Seja L um reticulado qualquer. Uma função de avaliação positiva υ éuma função de L em R tal que υ(x ∨ y) = υ(x) + υ(y) − υ(x ∧ y) e x < y ⇒

υ(x) < υ(y) para todo x, y ∈ L. A seguinte proposição mostra como elaborarordens parciais fuzzy, utilizando tais funções.Proposição 3. [40] Sejam L um reticulado e υ : L → R uma função de avaliaçãopositiva com υ(0L) = 0. As funções σk e σs dadas porσk(x, y) =

1 , x∨ y = 0Lυ(y)

υ(x∨ y), c.c. e (4.1)

σs(x, y) =

1 , x = 0Lυ(x∧ y)

υ(x), c.c. ∀x, y ∈ L (4.2)representam ordens parciais fuzzy.Exemplos de escolhas convencionais de pares de uma função de avaliaçãopositiva e um automorsmo dual para construções de ordens parciais fuzzy são

υl(x) = x e θl(x) = 1− x para x ∈ [0, 1] (4.3)υζe(x) =

1

1+ e−λ(x−xm)e θe(x) = 2xm − x, para x ∈ [xmin, xmax] ⊆ R(4.4)

4.1 Neurocomputação em reticulados fuzzy 55onde xm = xmax+xmin

2e λ = ζ

xmax−xminpara algum ζ > 0.Considere o produto de reticulados L = L1 × . . .× Ln. Se vi : Li → R denotauma função de avaliação positiva em Li para i = 1, . . . , n, então, v : L → R dadapor v(x) = v1(x1) + . . .+ vn(xn) para todo x ∈ L é uma avaliação positiva.A estratégia de computação da maioria dos modelos FLNs na literatura ébaseado no cálculo de ordens parciais fuzzy (ou grau de inclusão) entre inter-valos generalizados de um certo produto de reticulado. Recorde da Seção 2.1que o conjunto dos intervalos generalizados de um reticulado também represen-tam um reticulado com a ordem parcial induzida pela ordem do reticulado. Emparticular, sejam (a,b), (c,d) intervalos generalizados no produto de reticulados

L = L1 × . . . × Ln, denimos (a,b) ≤ (c,d) se, e somente se, c ≤ a e b ≤ d.Equivalentemente, se θ é uma negação (ou um automorsmo dual) em L, então,(a,b) ≤ (c,d) se, e somente se, θ(a) ≤ θ(c) e b ≤ d. Está última observaçãopermite produzir ordens parciais fuzzy para o conjunto de intervalos generalizadosde L a partir de funções de avaliação positiva no sentindo da Proposição 3.Se υ e θ são, respectivamente, uma avaliação positiva e um automorsmo dualem um reticulado L, então o operador υ : τ(L) → R dado por

υ(a,b) = υ(θ(a)) + υ(b) para todo (a,b) ∈ τ(L)representa uma avaliação positiva no reticulado τ(L) [40].Apesar dos modelos FLNs serem denidos sobre o conjunto dos intervalosgeneralizados de um certo reticulado, todo processamento dos modelos especícosde FLNs que surgiram na literatura, até o momento, estão restritos a cálculos deordens parciais fuzzy entre intervalos generalizados de reticulados da forma (a,b)tal que a ≤ b. Note que cada intervalo deste tipo pode ser identicado comouma única hipercaixa [a,b] 6= ∅ contida em L, conforme mencionado na Seção2.1. Por isso, os cálculos executados pelas FLNs também representam medidasde inclusão entre hipercaixas.Neste trabalho, estamos interessados em dois modelos de FLNs que podemser aplicados na solução de problemas de classicação: a FLNN (fuzzy latticeneural network) [63] e o modelo FLR (fuzzy lattice reasoning)[40]. Assim comooutros modelos de FLNs, seus desenvolvimentos foram inspirados pela teoria deressonância adaptativa [11]. Porém, veremos, até o nal desta seção, que estasredes representam MNNs no sentido intuitivo.

56 Redes neurais morfológicas construtivasDurante a fase de treinamento dos modelos FLNN e FLR, clusters em termosde hipercaixas são produzidos num produto de reticulados L1× . . .Ln, onde cadaLi é um reticulado totalmente ordenado. Ao nal, regras de classicação baseadasnestas hipercaixas são produzidas, atribuindo rótulos de classes apropriados. Es-pecicamente, um padrão de entrada x, que pode ser identicado como umahipercaixa [x, x] ou, equivalentemente, como um intervalo generalizado (x, x), éclassicado como sendo da classe associada à hipercaixa (ou intervalo general-izado) B, cujo grau de inclusão de x em B é maior. Lembre que a noção demedida de inclusão nos modelos FLNs coincide com a de ordem parcial fuzzy.Geralmente, quando utilizamos uma FLNN ou uma FLR, denimos uma medidade inclusão σk dada pela Equação 4.1 a partir de uma certa escolha de uma funçãode avaliação positiva v e um automorsmo dual θ.Note que, cada hipercaixa B produzida na fase de treinamento corresponde auma unidade de processamento que computa o grau de inclusão de um padrãode entrada x em B a partir de uma certa ordem parcial fuzzy. No contexto daMM, o neurônio resultante executa uma erosão no sentido intuitivo da entradax por um elemento estruturante B. Portanto, os classicadores FLNNs e FLRsrepresentam MNNs no sentido intuitivo.Ocasionalmente, os algoritmos de treinamento e suas modicações tanto daFLNN quanto da FLR podem produzir sobreposições de hipercaixas pertencentesa classes distintas, embora, de acordo comKaburlasos et al., esses eventos ocorramraramente [40].Por m, gostariamos de ressaltar que a diferença essencial entre a FLR e aFLNN está no algoritmo de treinamento. Especicamente, eles se diferenciam naestratégia adotada para confectionar agrupamentos no conjunto de treinamentoem termos de hipercaixas. O algoritmo de treinamento da FLNN possui com-plexidade O(n3), onde n é a quantidade de padrões de treinamento, e sua versãooriginal não requer escolhas de parâmetros adicionais [63]. Em contraste, o al-goritmo de treinamento da FLR, descrito em [40], inclui testes de assimilaçõesde hipercaixas em termos de um parâmetro de vigilância ρcrit ∈ [0.5, 1], e exibecomplexidade O(n3) apenas no pior caso.

4.2 Perceptron morfológico 574.2 Perceptron morfológicoO perceptron morfológico (MP) foi uma das primeiras redes neurais morfológ-icas a aparecer na literatura. Inicialmente, foi desenvolvida como um modelosimples de uma camada oculta para solucionar problemas de classicação binários[69, 72]. A idéia básica para o desenvolvimento dos MPs foi substituir o produtomatricial da álgebra linear usado no perceptron convencional, por um produtomatricial da álgebra minimax. Uma vez que as funções descritas pelo MP nãosão diferenciáveis, o algoritmo backpropagation tradicional não pode ser aplicadopara treinar esta rede. Ao invés de recorrer ao algoritmo modicado do backprop-agation sugerido por Pessoa e Maragos [62], que é capaz de lidar com esses tiposde funções, um algoritmo completamente novo foi proposto no começo [83]. Estealgoritmo, ao contrário dos mencionados anteriormente, não apenas determina ospesos dos neurônios da rede, mas também adiciona novos neurônios na camadaoculta, resultando uma arquitetura feedforward que reete a decomposição sug-erida por Banon e Barrera [5]. Portanto, o perceptron morfológico pode ser vistocomo uma rede neural construtiva [88].A função de agregação empregada nos neurônios individuais de MPs são daforma εA, δA, εA e δA, onde as componentes aij da matriz A, denotam os pesossinápticos e possuem valores no l-grupo R. Lembre que pelo Teorema 2, estes op-eradores representam operações elementares da morfologia matemática. Especi-camente, dado um vetor de entrada x ∈ Rn±∞= (R±∞

)n (na prática, estamosrestritos a vetores de entrada x ∈ Rn), um vetor de pesos sinápticos w ∈ Rn±∞euma função de ativação f, um neurônio oculto do perceptron morfológico calculauma saída y de acordo com uma das seguintes regras:1. y = f(εw(x)), onde

εw(x) = wt ∧ x =

n∧

i=1

(xi +′ wi) ; (4.5)2. y = f(δw(x)), onde

δw(x) = wt ∨ x =

n∨

i=1

(xi +wi) ; (4.6)

58 Redes neurais morfológicas construtivas3. y = f(εw(x)), ondeεw(x) = δw(x) ν∗(x) = n

∨

i=1

(x∗i +wi) ; (4.7)4. y = f(δw(x)), ondeδw(x) = εw(x) ν∗(x) = n

∧

i=1

(x∗i +′ wi) . (4.8)Os pesos do MP são determinados usando um algoritmo de treinamento su-pervisionado [83] que constrói hipercaixas n-dimensionais em torno de conjuntosde dados que compartilham o mesmo rótulo de classe. Note que uma hiper-caixa em Rn±∞

é completamente determinada por um vértice inferior a e umvértice superior b, onde um elemento x ∈ Rn±∞está contido em [a,b] se esomente se a ≤ x ≤ b. O Teorema 3 implica que, equivalentemente, temos

εv(x) ∧ δw(x) ≥ 0 onde v = (a∗)t e w = b. Entretanto, para vericar se xestá contido em uma hipercaixa [a,b] é suciente o cálculo de uma única erosão,pois, basta considerar u,y ∈ R2n±∞dados por u = [vt,wt]t e y = [xt, x∗]t paraobtermor εv(x)∧ δw(x) = εu(y).Durante o treinamento, o MP gera automaticamente hipercaixas da forma

[aj,bj] que correspondem a pares consistentes de erosões εvj e anti-dilataçõesδwj

. Na fase de teste, um padrão de entrada x é associado com a primeira classese, e somente se, x estiver contido em uma das hipercaixas [aj,bj]. Em outraspalavras, a saída do MP é determinada pela seguinte equação para algumm ∈ N:y = f(

m∨

j=1

(εvj(x)∧ δwj(x))) , (4.9)onde f(x) =

1, se x ≥ 0 ,

0, se x < 0 .(4.10)Portanto, um padrão de entrada x é classicado com pertencente à classe 1 se, esomente se, y = 1.A Figura 4.2 retrata a arquitetura nal construída pelo algoritmo de treina-mento. Note que o neurônio de saída executa uma dilatação Rm±∞

→ R±∞, dada

4.2 Perceptron morfológico 59por x →∨mi=1 xi, seguida pela aplicação da função de ativação f.

Figura 4.1: Arquitetura do perceptron morfológico.O objetivo da aprendizagem do MP é estimar uma função desconhecida ψque mapeia padrões de entrada em um reticulado completo Rn±∞para rótulos declasse no reticulado completo 0, 1 produzindo perfeita classicação. Note que afunção limiar f representa um homomorsmo Rn±∞

→ 0, 1. Portanto, a Equação4.12 pode ser reescrita na formay =

m∨

j=1

(f(εvj(x))∧ f(δwj(x)))) . (4.11)Uma vez que a função f representa uma erosão R±∞

→ 0, 1 (no sentidoalgébrico), podemos utilizar o Lema 2 para inferir que fεvj é uma erosão Rn±∞→

0, 1 e que fδwjé uma anti-dilataçãoRn±∞

→ 0, 1 para todo j = 1, . . .m. Dessamaneira, o MP estima a função de classicação perfeita ψ : Rn±∞→ 0, 1 emtermos de um máximo de pares de mínimos de erosões e anti-dilatações. Recordeque ψ : Rn±∞

→ 0, 1 pode ser decomposta exatamente pela Equação 2.10 usandoum supremo de pares de mínimos de erosões e anti-dilatações [5].Dado um conjunto de padrões de treinamento xξ ∈ Rn divididos em duas

60 Redes neurais morfológicas construtivasclasses distintas: C1 e C0. O algoritmo construtivo de treinamento do MP con-strói m hipercaixas, tais que, a união entre elas contém todos os padrões detreinamento de C1, enquanto, todos os padrões de treinamentos restantes per-tencentes à classe C0 residem fora desta. Em outras palavras, se yξ denota∨mj=1(f(εvj(x

ξ))∧ f(δwj(xξ))) então o algoritmo de treinamento produz xξ = 1 se,e somente se, yξ ∈ C1.Recentemente, foi publicada uma versão modicada do algoritmo de treina-mento original do MP que possui garantia de convergência em um número nitosde passos, produzindo uma superfície de decisão que separa perfeitamente os da-dos de treinamento da classe C1 dos dados de treinamento da classe C0 [88]. Estaversão modicada também produziu melhores resultados de classicação do quea versão original em várias simulações. Entretanto, assim como a versão original,a versão melhorada apenas pode ser aplicada a problemas de classicação binário[74, 88].4.3 Perceptron morfológico com aprendizagem com-petitiva (MP/CL)Visto que a abordagem inicial do perceptron morfológico pode ser aplicadaapenas a problemas de classicação binários, submetemos a novas modicaçõesa m de lidar com S classes, onde S > 1. Para este m, podemos aplicar oalgoritmo de treinamento original melhorado [88] por S vezes para diferenciar osdados de treinamento de cada rótulo de classe dos demais dados de treinamento.Este processo gera S módulos com arquitetura similar àquela ilustrada na Figura4.2. Substituindo a função de ativação f pela função identidade e os neurôniosde saída limiares por neurônios de saída competitiva, os S módulos podem sercombinados utilizando uma operação do tipo argmax tal como a arquitetura daFigura 4.3. O modelo resultante é chamado perceptron morfológico com neurônioscompetitivos (MP/C).Precisamente, seja C′s ⊆ x1, . . . , xk o conjunto de padrões de treinamentoque pertencem à s-ésima classe, onde s = 1, . . . , S. Para cada s = 1, . . . S,simplesmente atribuimos C1 = C′

s e C0 =⋂

t 6=sC′t e aplicamos o algoritmo detreinamento do MP, produzindo assim um conjunto de hipercaixas que diferenciaos padrões de treinamento da s-ésima classe das demais. Este procedimento gera

4.3 Perceptron morfológico com aprendizagem competitiva (MP/CL) 61

Figura 4.2: Módulo de um MP/C ou MP/CL correspondente à s-ésima classe.módulos da forma ilustrada na Figura 4.2 para todo s = 1, . . . S. Os pesos doso. módulo são denotados por vsj e ws

j , onde j = 1, . . . ,ms. Dado um padrão deentrada x ∈ Rn, o so. módulo computa a seguinte saída ys:ys =

ms∨

j=1

(εvsj(x)∧ δws

j(x)) (4.12)Subsequentemente, uma competição entre os S neurônios de saídas ocorrepara determinar a classe de pertinência de um padrão de entrada x produzida peloMP/C. Em outras palavras, o MP/C atribui o rótulo de classe y = argmaxs=1,...,S yspara um padrão de entrada x tal como visualizado na Figura 4.3. Recorde que acamada de saída winner-take-all (argmax) pode ser implementada em softwarepela simples seleção do neurônio de saída que possui maior valor de ativação ouem termos de uma rede neural conhecida como MAXNET [53].Apesar do MP/C atingir resultados satisfatórios e exigir baixo tempo de CPU(ou processamento) para treinamento em algumas simulações realizadas [88, 91],o algoritmo de treinamento do MP/C possui as seguintes desvantagens:

62 Redes neurais morfológicas construtivas

Figura 4.3: Arquitetura tanto do MP/C quanto do MP/CL. Pode produzir áreas de indecisão correspondentes a hipercaixas com rótulosde classes distintos; O MP/C resultante depende da ordem com que os padrões de treinamentosão apresentados à rede durante o treinamento.Para superar essas desvantagens, sugerimos um algoritmo de treinamento com-pletamente diferente [89, 91]. Este novo algoritmo também se aplica a problemasde múltipas classes e constrói o mesmo tipo de arquitetura que o algoritmo detreinamento do MP/C, porém, não possui as desvantagens mencionadas anterior-mente. O modelo treinado usando este novo algoritmo é denominado perceptronmorfológico com aprendizagem competitiva (MP/CL).Inicialmente, descreveremos o algoritmo de treinamento para classicaçãobinária em Ln, onde L é uma corrente. Em seguida, o estenderemos para lidarcom múltiplas classes. Para começar, precisamos introduzir algumas notaçõespertinentes. Denimos os seguintes semi-espaços H−i (c) e H+

i (c) assim como osseguintes hiperplanos Pi(c) para todo c ∈ Ln e todo i = 1, . . . , n.H−i (c) = x ∈ Ln : xi < ci , H

+i (c) = x ∈ Ln : xi > ci ,e Pi(c) = x ∈ Ln : xi = ci .

(4.13)O objetivo do algoritmo, é construir duas famílias disjuntas de hipercaixasF1 = [a11,b

11], . . . , [a

1m1,b1m1

] e F2 = [a21,b21], . . . , [a

2m2,b2m2

] em Ln, tais queF1 contenha todos os padrões de treinamento da primeira classe e F2 contenhatodos os padrões de treinamento da segunda classe. Note que, se L é um l-grupo

4.3 Perceptron morfológico com aprendizagem competitiva (MP/CL) 63totalmente ordenado, então, a hipercaixa [a,b] em Ln determina uma erosãoεv : Ln → L, onde v = −a, assim como, uma anti-dilatação δw : Ln → Londe w = b. Adicionalmente, teriamos que um elemento arbitrário x ∈ Ln estácontido em [a,b] se, e somente se, εv(x) ∧ δw(x) ≥ 0, onde 0 ∈ L representa oelemento neutro com respeito à operação de grupo + sob L. Desta maneira, cadafamília de hipercaixas Fs gera ms pares consistentes de uma erosão εvs

je umaanti-dilatação δws

jpara j = 1, . . . ,ms e s = 1, 2, que resultam em uma MNN comdois módulos similares ao ilustrado na Figura 4.2.4.3.1 Algoritmo do MP/CL para problemas de classicaçãobináriosConsidere o conjunto treinamento X = x1, . . . , xk ∈ Ln, onde L é uma corrente.Sejam Cs o conjunto dos padrões de treinamento pertencentes à s-ésima classe,para s = 1, 2, e C o símbolo utilizado para denotar a família de padrões detreinamento que ainda devem ser considerados pelo algoritmo. A seguir seráapresentado o algoritmo para classicação de problemas binários.Inicialize C com C := X, e as famílias de hipercaixas Fs com Fs := ∅ para

s = 1, 2. Enquanto C 6= ∅ execute os seguintes passos:(1): Selecione uma família de padrões de treinamento arbitrária X ∈ C e denaCs := X ∩ Cs para s = 1, 2. Compute, então, a menor hipercaixa [as,bs] =box(Cs) = [

∧

Cs,∨

Cs] em Ln contendo todos os elementos de Cs ondes = 1, 2 (relembre que o reticulado limitado L surge da junção de L com asfronteiras universais 0L e 1L).Em seguida, determine a intersecção I = [a1,b1] ∩ [a2,b2]. Note que I =[a,b] onde a = a1 ∨ a2 and b = b1 ∧ b2.(2): Se I = ∅, remova X do conjunto C e adicione as hipercaixas [a1,b1] e [a2,b2]nas famílias correntes de hipercaixas produzindo

Fs := Fs ∪ [as,bs] , s = 1, 2 . (4.14)(3): Caso contrário, se I 6= ∅, um entre os casos (a) e (b) abaixo ocorre.

64 Redes neurais morfológicas construtivas(a): Se [a1,b1] 6= [a2,b2], aumentamos as famílias Fs de hipercaixas pelaexecução dos seguintes comando para i = 1, . . . , n:Fs := Fs ∪ [

∧

(H−i (a) ∩ C

s),∨

(H−i (a) ∩ C

s)] , s = 1, 2 , (4.15)Fs := Fs ∪ [

∧

(H+i (b) ∩ C

s),∨

(H+i (b) ∩ C

s)] , s = 1, 2 . (4.16)Este procedimento é visualizado na Figura 4.4. As Equações 4.15 e4.16 equivalem a gerar a menor hipercaixa contendo todos os padrõesde treinamento da so. classe que estão localizados, respectivamente,nos semi-espaços H−i (a) e H+

i (b). Para s = 1, 2, as hipercaixas resul-tantes com o rótulo de classe s são, então, adicionadas ao conjunto dehipercaixas Fs corrente.Após atualizar as famílias de hipercaixas F1 e F2, se X∩I 6= ∅, substituaX por X ∩ I em C, caso contrário, remova X de C.(b): Vamos analisar agora o caso em que I = [a1,b1] = [a2,b2]. A Figura4.5 provê uma interpretação visual desta rara situação em R2.Sejam x um vértice arbitrário da hipercaixa I = [a,b] e P o conjuntode hiperplanos da forma Pi(x), i ∈ 1, . . . , n, que contém o menornúmero de padrões de treinamento em X. Sem perda de generalidade,escolhemos x = b. Deste modo, obtemosP = Pi(b) : |Pi(b)∩ X| ≤ |Pj(b)∩ X| ∀ i, j onde i, j = 1, . . . , n (4.17)Seja U a união de todas as intersecções entre dois hiperplanos distintosde P. A Figura 4.6 retrata P e U numa ocorrência de [a1,b1] =

[a2,b2] em R3 (note que mudamos a perspectiva para propósitos devisualização). Na Figura 4.6, temos P = P, P ′. Formalmente, temosU =

⋃

P,P ′∈P,P 6=P ′

(P ∩ P ′) . (4.18)Primeiro, aumentamos o conjunto Fs adicionando todas hipercaixasda forma [u,u] = u para u ∈ U ∩ Cs:


(a) Entrada X (b) box(C1)

(c) box(C2) (d) box(H−

1 (a) ∩ Cs) e box(H+

1 (b) ∩ Cs), s =

1, 2

(e) box(H−

2 (a) ∩ Cs) e box(H+

2 (b) ∩ Cs), s =

1, 2

(f) Atualiza Fs, s = 1, 2Figura 4.4: Uma execução do Passo 3(a) do algoritmo MP/CL para classicaçãobinária.Fs := Fs ∪ u : u ∈ U ∩ Cs , s = 1, 2 . (4.19)


Figura 4.5: Uma rara situação que requer tratamento especial durante a execuçãodo algoritmo do MP/CL.Em segundo, substituímos em C o conjunto X por X \⋃

P. Lembreque C representa a família de conjuntos de dados de treinamento queainda temos que tratar. Em terceiro, denimos P pela remoção dasintersecções entre os hiperplanos em P como se segueP := P \U : P ∈ P . (4.20)Finalmente, atribuimos C := C ∪ X ∩ P : P ∈ P e X ∩ P 6= ∅, o queimplica que os conjuntos de padrões de treinamento X ∩ P 6= ∅, onde

P ∈ P, serão tratados nas próximas iterações do algoritmo. Note quena Figura 4.6, P compreende P \U e P ′ \U.Após convergir, o algoritmo de treinamento acima obtém duas famílias dehipercaixas: F1 e F2. Se L possui adicionalmente uma estrutura de grupo entãocada família de hipercaixas pode ser usada para construir um módulo do MP/CLda forma ilustrada na Figura 4.2. A arquitetura nal do MP/CL é dada emtermos da combinação destes dois módulos usando argmax como na Figura 4.3.Observe que o algoritmo do MP/CL pode ser aplicado sem nenhuma mudançapara problemas de classicação binários, em um produto de reticulados L1 ×

. . . × Ln cujos constituintes são correntes. Entretanto, mesmo se cada Li parai = 1, . . . , n é um grupo totalmente ordenado, não somos capazes de denirerosões e anti-dilatações da forma εv e δw, uma vez que não se pode tomaro supremo entre as componentes de um vetor pertencente a este produto dereticulados. Ao invés disso, neste caso, podemos recorrer às medidas de inclusãoou distâncias tais como as denidas por Kaburlasos et al. [40, 42]. A Figua 4.7


Figura 4.6: Um exemplo de [a1,b1] = [a2,b2] em R3 incluindo as visualizaçõesdos conjuntos P e U.ilustra um exemplo em R da superfície de decisão produzida por um MP/CLcom dois módulos, onde o primeiro módulo é sintetizado utilizando a hipercaixa[a1,b1] e o segundo a hipercaixa [a2,b2].4.3.2 Propriedades do algoritmo do MP/CL para proble-mas de classicação bináriosNesta subseção investigaremos as propriedades do algoritmo de treinamento doMP/CL para classicação binária descrito acima em termos de lemas, coroláriose teoremas. Quase todos os resultados formulados são demonstrados no decorrerdo texto, e para os que não são, indicamos a idéia central de como os mesmospodem ser vericados. Em particular, sondaremos o algoritmo com respeito àindependência da ordem com que os padrões de treinamento são apresentados arede, às regiões de indecisão produzida e à convergência.Note que, em cada iteração do algoritmo os Passos 1 - 3 são executados paraum elemento X de C, onde X representa uma família de padrões de treinamento.Nesta subseção mostraremos que o resultado do algoritmo não depende da escolha


Figura 4.7: Exemplo da superfície de decisão produzida por um MP/CL para umclassicação binário em R.de X em C a cada iteração.Para este m, introduzimos um contador de iteração t e algumas notaçõescom respeito a t. Vamos assumir que o algoritmo inicia com t = 0. Seja Fs(t) afamília de hipercaixas referente a s-ésima classe que foram geradas até a conclusãoda iteração t, para s = 1, 2. O símbolo C(t) será usado para denotar as famíliasde padrões de treinamento que ainda devem ser consideradas após a conclusãoda iteração t. Note que C(t) é da forma C(t) = X1(t), . . . , Xlt(t) para todot = 0, 1, . . ..Lema 5. Suponha que C(t) = X1(t), . . . , Xlt(t) onde t ≥ 0, temos quebox(Xi(t)) ∩ box(Xj(t)) = ∅ ∀ i 6= j . (4.21)Demonstração. Provaremos este lema por indução. Em t = 0, temos que C(0) =

X, e portanto não há nada o que mostrar.Agora suponha que a Equação 4.21 vale para t = p e C(p) = X1(p), . . . , Xlp(p).A menos que C(p) = ∅, a iteração p+ 1 é executada. Sejam X = Xi∗ , para algumi∗ ∈ 1, . . . , lp, um elemento arbitrário de C(p) e [as,bs], para s = 1, 2, a menorhipercaixa contendo os padrões em X ∩ Cs. Um dos seguintes casos ocorre: I = [a1,b1] ∩ [a2,b2] = ∅: Neste caso, o passo (2) produz C(p + 1) =

C(p) \ Xi∗ ⊆ C(p). Pela hipótese de indução, a Equação 4.21 vale paraXi(p+ 1), Xj(p+ 1) ∈ C(p+ 1) ⊆ C(p) tal que i 6= j. I = [a1,b1] ∩ [a2,b2] 6= ∅:

4.3 Perceptron morfológico com aprendizagem competitiva (MP/CL) 69(a), [a1,b1] 6= [a2,b2]: O Passo (3)(a) produz C(p + 1) =[

C(p) \ X]

∪

X ∩ I. Seja X, X ′ dois elementos distintos de C(p + 1). Se ambos Xe X ′ estão contidos em C(p) \ X então box(X) ∩ box(X ′) = ∅ pelahipótese de indução. Agora vamos assumir sem perda de generalidadeque X = X∩I ⊆ X. Imediatamente obtemos box(X)∩box(X ′) = ∅ poisbox(X) ∩ box(X ′) ⊆ box(X) ∩ box(X ′) = ∅ pela hipótese de indução.(b), [a1,b1] = [a2,b2]: O Passo (3)(b) produz C(p + 1) =[

C(p) \ X]

∪

X \⋃

P ∪[⋃

P∈P,X∩P 6=∅X∩ P]. Considere um par de conjuntos arbi-trários X, X ′ ∈ C(p+ 1) tal que X 6= X ′.Se ambos X e X ′ estão contidos em⋃

P∈P,X∩P 6=∅X∩P então X = X∩P 6=

∅ e X ′ = X ∩ P ′ 6= ∅ para alguns P, P ′ ∈ P tal que P 6= P ′. Relembreque P ∩ P ′ = ∅, o que implica em box(X) ∩ box(X ′) = box(X ∩ P) ∩box(X ∩ P ′) = ∅ devido a box(X ∩ P) ⊆ P e box(X ∩ P ′) ⊆ P ′.Agora vamos considerar a situação onde um dos conjuntos X, X ′ estácontido em ⋃

P∈P,X∩P 6=∅X ∩ P e um outro conjunto é igual a X \⋃

P.Sem perda de generalidade, vamos assumir que X = X ∩ P 6= ∅ paraalgum P ∈ P e que X ′ = X \⋃

P. Temos que P ⊆ Pi(b) para algumi ∈ 1, . . . , n. Como X ′ = X \

⋃

P ⊆ X \ Pi(b) segue que x ′i < bipara todo x ′ ∈ X ′. A última armação não apenas implica que X ′ ⊆

Ln \ P mas também que box(X ′) ⊆ Ln \ P. Portanto, concluimos quebox(X) ∩ box(X ′) = ∅.Suponha que X ′ ∈ C(p) \ X e que X = X ∩ P 6= ∅ para algumP ∈ P. Como X ⊆ X, temos box(X) ⊆ box(X). A igualdade box(X) ∩box(X ′) = ∅ segue da hipótese de indução para X, X ′ ∈ C(p). Logobox(X) ∩ box(X ′) = ∅.Similarmente, se X ′ ∈ C(p) \ X e X = X \

⋃

P, então, também temosX ⊆ X, o que implica em box(X) ⊆ box(X). Novamente, uma aplicaçãoda hipótese de indução provê o fato de que box(X) e box(X ′) não seinterceptam.Finalmente, no caso onde ambos X e X ′ estão contidos em C(p) \ X,o resultado desejado decorre imediatamente da hipótese de indução.Como consequência do Lema 5, obtemos o seguinte colorário:

70 Redes neurais morfológicas construtivasCorolário 2. A intersecção de dois elementos distintos Xi(t) e Xj(t) de C(t) parai 6= j é vazio.O Corolário 2 é utilizado para provar que o algoritmo de aprendizagem doMP/CL não depende de escolhas particulares de X no Passo (1), porque todosos conjuntos que são utilizados para construir as hipercaixas resultantes do Passo(2), (3)(a) ou (3)(b) são disjuntos, dois a dois. Este fato é expresso no seguintecorolário [91].Corolário 3. As famílias de hipercaixas Fs, onde s = 1, 2, produzidas pelo al-goritmo de treinamento do MP/CL após convergir e o número de iterações atéconvergir, não dependem de escolhas particulares de X no Passo (1). Em partic-ular, o resultado e o tempo de convergência do algoritmo, independem da ordemcom que os padrões de treinamento são apresentados à rede.A gura a seguir visualiza duas árvores que correspondem a duas aplicaçõesdiferentes do algoritmo do MP/CL no mesmo problema de classicação. O to. níveldas árvores contém o elemento C(t) para as duas instâncias distintas do algoritmo.Por exemplo, a raiz de cada árvore corresponde ao conjunto inicializado C ≡ C(0),que contém apenas o conjunto inteiro de padrões de treinamento X. O círculoem torno de um certo conjunto Xi(t), signica que o mesmo é selecionado peloPasso (1) durante a iteração t+ 1, i.e., X = Xi(t). Os rótulos entre os níveis deuma certa árvore denota qual passo é executado pelo algoritmo subsequente aoconjunto X correspondente ao nó selecionado.Repare que na Figura 4.8 em ambas as instâncias do algoritmo, o Passo (3)(b)é executado na segunda iteração, indicando que a condição [a1,b1] = [a2,b2] 6= ∅é satisfeita. Tal situação é visualizada na Figura 4.6 onde os padrões em X∩U sãoremovidos de X e o restante (X \U) é particionado nos conjuntos X \

⋃

P, X ∩ Pe X ∩ P ′ para formar C(2). Note que as duas instâncias do algoritmo diferem daescolha de X na terceira iteração, em particular, a instância da esquerda consideraX = X2(2) enquanto a instância da direita considera X = X3(2). As arestastracejadas entre os níveis de uma árvore são usadas para representar a cópia doselementos não escolhidos de C(t) na iteração t + 1 para o conjunto C(t + 1).Lembre que no Passo (2), executado quando a condição [a1,b1] ∩ [a2,b2] = ∅ocorre, o conjunto C(t+ 1) é formado removendo X de C(t), para simbolizar esteprocedimento utilizamos um quadrado após a execução do Passo (2). Por m,


Figura 4.8: Duas diferentes instâncias do algoritmo do MP/CL.repare que ambas as instâncias dos algoritmos convergem em 5 iterações, comosugerido pelo Corolário 3.Note que em uma iteração t+ 1, cada família de padrões de treinamento quenão foi selecionada de C(t) no Passo (1), i.e., cada X ′ ∈ C(t) tal que X ′ 6= Xpermanece inalterada e é transferida para C(t + 1), e assim, sucessivamente atéque X ′ seja escolhido no Passo (1) em alguma iteração t∗ > t. Dessa maneira,as atualizações nas famílias de hipercaixas Fs para s = 1, 2 provenientes daatribuição X = X ′ independe de qual iteração isto ocorre. Está última observaçãoé utilizada como idéia central para demonstrar o Corolário 3.Outra excelente propriedade exibida pelo algoritmo é que não existe sobreposiçõesentre hipercaixas com rótulos de classes distintos em F1 ∪ F2. Para provar estaarmação é necessário apresentar outros dois lemas.Lema 6. Seja t ≥ 0. As hipercaixas box(X ′) e B são disjuntas para todo X ′ ∈ C(t)e para todo B ∈⋃2s=1 F

s(t).Demonstração. Primeiramente, para t = 0 temos que C(0) = X e F1(0) =

F2(0) = ∅. Logo, não há nada o que mostrar, já que não existe nenhum B ∈⋃2s=1 F

s(t).

72 Redes neurais morfológicas construtivasSuponha que a armação do lema é verdade para t = p. Se C(p) = ∅ entãonada resta a ser mostrado. Caso contrário, a iteração p + 1 é executada. NoPasso (1) um X ∈ C(p) arbitrário é selecionado.Se o Passo (2) é invocado, então, Fs(p + 1) e C(p + 1) são respectivamentegerados, adicionando as hipercaixas box(Cs) = [as,bs] à Fs(p) e removendo X deC(p). Formalmente, temos que:Fs(p+1) = Fs(p)∪box(Cs) = Fs(p)∪[as,bs] , s = 1, 2, e C(p+1) = C(p)\X .(4.22)Para todo X ′ ∈ C(p + 1) ⊆ C(p) e todo B ∈ Fs(p), onde s = 1, 2, temos quebox(X ′) ∩ B = ∅ pela hipótese de indução. Ainda falta mostrar que box(Cs) ∩box(X ′) = ∅ para s = 1, 2. Como Cs = X ∩ Cs ⊆ X deduzimos que box(Cs) ⊆box(X) e, portanto, box(Cs)∩box(X ′) ⊆ box(X)∩box(X ′) = ∅ pelo Lema 5, dadoque X, X ′ ∈ C(p).Suponha que [a1,b1] ∩ [a2,b2] 6= ∅. Se [a1,b1] difere de [a2,b2], então, oPasso (3)(a) é executado produzindoFs(p+ 1) = Fs(p) ∪

⋃ni=1box(H−

i (a) ∩ Cs) ∪

⋃ni=1box(H+

i (b) ∩ Cs) , s = 1, 2,e C(p+ 1) = (C(p) \ X) ∪ X ∩ I. (4.23)Seja s ∈ 1, 2. Suponha que X ′ ∈ C(p) \ X. Para B ∈ Fs(p), já sabemos quebox(X ′) ∩ B = ∅ pela hipótese de indução. Se B = box(H−

i (a) ∩ Cs) para algumíndice i, então, o fato queH−

i (a)∩Cs ⊆ X implica que B ⊆ box(X), donde obtemosbox(X ′)∩B ⊆ box(X ′)∩ box(X) = ∅ pelo Lema 5. Similarmente, vericamos quebox(X ′)∩B = ∅ para todo X ′ ∈ C(p)\X e para todo B ∈

⋃ni=1box(H+

i (b)∩Cs).Agora, no caso onde X ′ = X ∩ I temos que a relação box(X ′) ⊆ box(X) vale.Portanto, como X ∈ C(p), temos pela hipótese de indução que box(X ′) ∩ B ⊆box(X) ∩ B = ∅ para todo B ∈ Fs(p). Também sabemos que X ′ = X ∩ I implicaque box(X ′) ⊆ I. Dado B = box(H−

i (a)∩Cs) para algum i ∈ 1, . . . , n, temos que

B ⊆ H−i (a). A última armação produz box(X ′)∩B = ∅. Similarmente, podemosmostrar que box(X ′)∩B = ∅ para X ′ = X∩ I e para todo B ∈

⋃ni=1box(H+

i (b)∩

Cs).Finalmente, vamos lidar com a situação [a1,b1] = [a2,b2] que exige a exe-

4.3 Perceptron morfológico com aprendizagem competitiva (MP/CL) 73cução do Passo (3)(b), resultando emFs(p+ 1) = Fs(p) ∪ u : u ∈ U ∩ Cs , s = 1, 2 ,e C(p+ 1) =

[

C(p) \ X]

∪ X \⋃

P ∪[⋃

P∈P,X∩P 6=∅X ∩ P]

.(4.24)Novamente, seja s ∈ 1, 2 arbitrário. Suponha que X ′ ∈ C(p) \ X. Para

B ∈ Fs(p), temos que box(X ′)∩B = ∅ pela hipótese de indução. O próximo casoa ser considerado é B ∈ u : u ∈ U ∩ Cs, i.e., B = u = [u,u] para algumu ∈ U. Note que B = u ⊆ U ∩ Cs ⊆ X. Portanto, a igualdade box(X ′) ∩ B = ∅decorre do Lema 5.Agora, vamos assumir que X ′ = X\

⋃

P ⊆ X. Se B ∈ Fs(p) então box(X ′)∩B ⊆box(X)∩B = ∅, o que revela que box(X ′)∩B = ∅ como desejado. Note que existepelo menos um índice i tal que Pi(b) ∈ P e que todo elemento x de X ′ satisfazxi < bi para todo Pi(b) ∈ P. Logo, como X ′ é nito temos que box(X ′)∩Pi(b) = ∅para todo Pi(b) ∈ P. Em particular, temos que box(X ′)∩B = ∅ se B = u ⊆

⋃

Ppara algum u ∈ U ∩ Cs.Por m, vamos considerar o caso onde X ′ = X ∩ P 6= ∅ para algum P ∈ P.Como anteriormente, se B ∈ Fs(p), então, box(X ′) ∩ B ⊆ box(X) ∩ B = ∅. SeB = u para algum u ∈ U ∩ Cs, então, u ∈ P ∩ P ′ para alguns P = Pi(b), P

′ =

Pj(b) ∈ P tal que i 6= j, i.e., ui = bi e uj = bj. Por hipótese, X ′ ⊆ P paraalgum P ∈ P = P \ U : P ∈ P. Como X ′ ⊆ P \ U para algum P ∈ P, existeum índice i∗ tal que P = Pi∗(b) ∈ P e xi∗ = bi∗ para todo x ∈ X ′. Temosque i 6= i∗ e/ou j 6= i∗, suponha, sem perda de generalidade, que j 6= i∗. ComoPi∗(b) ∩ Pj(b) ⊆ U segue que xj < bj para todo x ∈ X ′. O fato de X ′ ser nito,garante que (

∨

X ′)j < bj = uj e consequentemente box(X ′) ∩ B = ∅.Lema 7. Se B1 ∈ F1(t) e B2 ∈ F2(t) então B1 ∩ B2 = ∅.Demonstração. A prova deste lema é dada por indução. Para t = 0 temos F1(0) =F2(0) = ∅. Logo não há nada o que mostrar.Suponha que a armação do lema é verdade para t = p. Se C(p) = ∅, então, denovo não há nada o que mostrar. Caso contrário, a iteração p+1 é executada. NoPasso (1) um X ∈ C(p) arbitrário é selecionado. Em seguida, uma das seguintessituações ocorre:

74 Redes neurais morfológicas construtivas Se [a1,b1] ∩ [a2,b2] = ∅ então o Passo (2) será executado produzindoFs(p+ 1) = Fs(p) ∪ [as,bs] , s = 1, 2. (4.25)Seja B1 ∈ F1(p+1) e B2 ∈ F2(p+1). Se Bs ∈ Fs(p) para s = 1, 2 então B1∩

B2 = ∅ pela hipótese de indução. Se Bs ∈ Fs(p) e Br = [ar,br] ⊆ box(X)para r 6= s então Bs ∩ Br = ∅ pelo Lema 6. Finalmente, se Bs = [as,bs]para s = 1, 2, então, a intersecção Bs ∩ Br é nula por hipótese. Se [a1,b1] ∩ [a2,b2] = I 6= ∅ e [a1,b1] 6= [a2,b2], então, o Passo (3)(a)produzFs(p+ 1) = Fs(p)∪

n⋃

i=1

box(H−i (a)∩ C

s)∪n⋃

i=1

box(H+i (b)∩ C

s) , s = 1, 2.(4.26)Primeiramente, seja Bs ∈ Fs(p) para algum s = 1, 2. Sem perda de gener-alidade assumimos que B1 ∈ F1(p). Novamente, o caso B2 ∈ F2(p) segueimediatamente da hipótese de indução. Agora, seja B2 = box(H−i (a) ∩ C

2)para algum índice arbitrário i. Como H−i (a) ∩ C

2 ⊆ X ∈ C(p), as hiper-caixas B1 e B2 não se interseptam de acordo com o Lema 6. Um argumentosimilar revela que B1 ∩ B2 = ∅ se B2 ∈ ⋃ni=1box(H+

i (b) ∩ Cs).Agora, seja Bs ∈

⋃ni=1box(H−

i (a) ∩ Cs) ∪

⋃ni=1box(H+

i (b) ∩ Cs) para

s = 1, 2. Temos que B1 ∩ B2 ⊆ I e I ∩ [⋃ni=1H

−i (a) ∪

⋃ni=1H

+i (b)

]

= ∅.Como Bs ⊆ box(Cs)∩ [⋃ni=1H

−i (a)∪

⋃ni=1H

+i (b)

], para s = 1, 2, segue queB1 ∩ B2 = ∅. Se [a1,b1] = [a2,b2] 6= ∅ então o Passo (3)(b) resulta em

Fs(p+ 1) = Fs(p) ∪ u : u ∈ U ∩ Cs , s = 1, 2. (4.27)Considere Bs ∈ Fs(p+ 1) arbitrários, para s = 1, 2. Sabemos pela hipótesede indução que B1 e B2 tais que Bs ∈ Fs(p) para s = 1, 2 não se interseptam.Agora, vamos assumir sem perda de generalidade que B1 ∈ F1(p) e queB2 = u para algum u ∈ U ∩ Cs. Observe que B2 = u ⊆ Cs ⊆ X ∈ C(p).Uma breve olhada no Lema 6 revela que B1 ∩ B2 = ∅. Finalmente, a

4.3 Perceptron morfológico com aprendizagem competitiva (MP/CL) 75intersecção B1 ∩ B2 é obviamente vazia se Bs ∈ u : u ∈ U ∩ Cs paras = 1, 2 pois C1 ∩ C2 = ∅.

O Lema 4 estabelece que não existem sobreposições de hipercaixas em F1(t)com hipercaixas em F2(t) no estágio t do algoritmo. Em particular, temosCorolário 4. Após convergir, o algoritmo de treinamento do MP/CL para clas-sicação binária produz famílias de hipercaixas F1 e F2 cujos elementos não seinterseptam, i.e.,B1 ∩ B2 = ∅ ∀B1 ∈ F1, B2 ∈ F2 . (4.28)Vamos agora investigar a convergência do algoritmo, em especial, provaremosque o algoritmo converge em um número nito de passos. Para isto, vamos usaro seguinte fato que pode ser facilmente vericado por indução: todo X em C(t) énão vazio.Lema 8. Todo elemento de C(t) é não vazio.Demonstração. Primeiramente, se considerarmos t = 0 teremos C(0) = X o queestá de acordo com o lema. Suponha que a armação do lema seja verdade para

t = p. Se C(p) = ∅ então não resta nada o que provar. Caso contrário, a iteraçãop+ 1 é executada e um X ∈ C(p) arbitrário é selecionado no Passo (1).Se I = ∅ então o Passo (2) é invocado e C(p + 1) é gerado removendo X deC(p). Neste caso, todo X ′ ∈ C(p+1) está contido em C(p) e X ′ 6= ∅ pela hipótesede indução.Caso contrário, se I 6= ∅, existem dois casos que temos de considerar: [a1,b1] 6=[a2,b2] e [a1,b1] = [a2,b2].No primeirio caso, o Passo (3)(a) é chamado. Se X ∩ I = ∅ então C(p+ 1) =

C(p) \ X e os mesmos argumentos acima podem ser empregados para mostrarque X ′ 6= ∅ para todo X ′ ∈ C(p + 1). Caso contrário, C(p + 1) é dado por[

C(p)\X]

∪X∩I. Já sabemos pela hipótese de indução que todo X ′ ∈ C(p)\Xé diferente do conjunto vazio e, além disso, X∩ I 6= ∅ por suposição. Logo, temoso desejado.No segundo caso, o Passo (3)(b) produz

76 Redes neurais morfológicas construtivasC(p+ 1) =

[

C(p) \ X]

∪X \

⋃

P∪[

⋃

P∈P,X∩P 6=∅

X ∩ P]

. (4.29)Seja X ′ ∈ C(p + 1). Dadas as observações feitas acima, apenas o caso X ′ =

X \⋃

P precisa ser estudado. Note que, a desigualdade a < b é satisfeita poissenão teríamos que a pertence tanto a C1 quanto a C2, contradizendo a suposiçãoque C1∩C2 = ∅. Consequentemente, existe um padrão x ∈ X tal que xi = ai < bipara algum índice i, o que implica que x /∈⋃

P. Em outras palavras, X ′ 6= ∅.Lema 9. Seja A(t) o conjunto de padrões de treinamento x ∈ X que estão con-tidos em alguma hipercaixa Bx ∈ F1(t) ∪ F2(t). Se X = x1, . . . , xk, então,X =

[⋃

C(t)]⋃

A(t) e [⋃

C(t)]

∩A(t) = ∅ para todo t ≥ 0.Demonstração. Para todo t ≥ 0 ambos A(t) e ⋃

C(t) são subconjuntos de X.Portanto, temos [⋃C(t)]⋃

A(t) ⊆ X. Vamos mostrar que X ⊆[⋃

C(t)]⋃

A(t)por indução.Para t = 0, temos C(0) = X o que implica que X ⊆[⋃

C(0)]⋃

A(0). Vamosassumir que X ⊆[⋃

C(p)]⋃

A(p) para t = p.Note que, é suciente mostrar que [⋃C(p)]⋃

A(p) ⊆[⋃

C(p+1)]⋃

A(p+1)para concluir que X ⊆[⋃

C(p + 1)]⋃

A(p + 1). De fato, basta vericar que[⋃

C(p)]

⊆[⋃

C(p + 1)]⋃

A(p + 1), pois, A(p) ⊆ A(p + 1). Para isto, vamostomar um elemento arbitrário x de ⋃

C(p) e vericar que x ∈[⋃

C(p + 1)]⋃

A(p+ 1).Se C(p) = ∅ então nada resta para ser mostrado. Caso contrário, a iteraçãop + 1 é executada o que implica que um X ∈ C(p) arbitrário é selecionado noPasso (1). O fato que x ∈

⋃

C(p) implica que x ∈ X ′ para algum X ′ ⊆ C(p).Este conjunto X ′ é único pois os subconjuntos de X que residem em C(p) sãodijuntos pelo Corolário 2. Se X ′ 6= X então X ′ ∈ C(p + 1) e, portanto, x estálocalizado em ⋃

C(p+ 1). O caso onde x ∈ X ′ = X requer algumas examinaçõesmais detalhadas do algoritmo: Suponha que o Passo (2) é executado. Dados os fatos que C1 ⊆ [a1,b1] ∈

F1(p+1) e C2 ⊆ [a2,b2] ∈ F2(p+1), concluimos que X = C1∪C2 ⊆ A(p+1).

4.3 Perceptron morfológico com aprendizagem competitiva (MP/CL) 77 Vamos considerar o Passo (3)(a). Recorde que X∩I ∈ C(p+1) se X∩I 6= ∅.Portanto, temos x ∈⋃

C(p+1) se x ∈ X∩I. Agora, se x /∈ X∩I então existeum índice i tal que x ∈ H−i (a) ou x ∈ H+

i (b), o que implica que existe umrótulo de classe s tal que x ∈ (H−i (a) ∩ C

s) ∪ (H+i (b) ∩ C

s) ⊆ A(p+ 1). Finalmente, vamos considerar o Passo (3)(b). Como anteriormente, sex ∈ U ∩ X temos que x ∈ A(p + 1). Por m, note que, se x ∈ P ∩ X paraalgum P ∈ P ou se x ∈ X \

⋃

P, então, obtemos que x ∈⋃

C(p+ 1).Para sumarizar, obtemos que X = [⋃

C(t)]⋃

A(t) para todo t = 0, 1, . . ..A segunda parte do lema é vericada a partir das implicações a seguir. Paraum t ≥ 0 arbitrário, suponha x ∈[⋃

C(t)]

∩A(t). Por um lado, temos que x ∈ Bpara algum B ∈⋃2s=1 F

s(t) pois x ∈ A(t). Por outro lado, x está localizado emX ′ ⊆ box(X ′) para algum X ′ ∈ C(t). Portanto, a aplicação do Lema 6 leva àcontradição x ∈ B ∩ box(X ′) = ∅.Agora, estamos prontos para provar que o algoritmo converge em um númeronito de iterações. Pelo Lema 9, o critério de parada C(t) = ∅ é atingido se, esomente se, A(t) = X. Logo, é suciente mostrar que existe uma iteração p talque A(p) (o conjunto dos padrões de treinamento que já foram classicados atéa conclusão da iteração p) é igual a X.Com a exceção de situações extremamente raras tal como ilustrada na Figura4.5, apenas os Passos (1), (2) e (3)(a) são executados no algoritmo. Portanto,inicialmente, focaremos nos casos usuais onde a situação I = [a1,b1] = [a2,b2],que leva à execução do Passo (3)(b), nunca acontece.Teorema 9. Considere um problema de classicação binário com um conjuntode dados de treinamento X = x1, . . . , xk ∈ Ln, onde L é uma corrente. Asseguintes armações são validas:1. Se o Passo (3)(b) não for executado em uma aplicação do algoritmo detreinamento do MP/CL, então temos |A(t + 1)| ≥ |A(t)| + 1 para todo

t = 0, 1, . . . e o algoritmo converge no máximo em k iterações.2. Se nenhuma suposição adicional que impeça a execução do Passo (3)(b)for considerada, então o algoritmo converge em menos de 2k iterações.

78 Redes neurais morfológicas construtivasDemonstração. Primeiramente, suponha que o Passo (3)(b) não é invocado du-rante a execução do algoritmo. Suponha que t ∈ N ∪ 0 iterações do algoritmojá tenham sido completadas e que C(t) 6= ∅ ou, equivalentemente, que A(t) 6= X(conforme o Lema 9). Após a escolha de um elemento X em C(t), as menoreshipercaixas [as,bs] contendo todos os elementos de Cs = X ∩ Cs são construídasem Ln. Subsequentemente, o algoritmo invoca ou o Passo (2) ou o Passo (3)(a).No primeiro caso, |A(t + 1)| = |A(t)| + |X| ≥ |A(t)| + 1, pois, X ∩ A(t) = ∅pelo Lema 9 e X 6= ∅ pelo Lema 8. No segundo caso, temos [a1,b1] 6= [a2,b2] eA(t+ 1) = A(t)∪

[

X \ (X∩ I)], onde I = [a1,b1]∩ [a2,b2]. Sem perda de gener-alidade, podemos assumir que a1 6= a2. Logo, a1 e a2 diferem em pelo menos emuma componente. Por isso, podemos assumir adicionalmente sem perda de gen-eralidade que a1i < a2i para algum índice i, o que implica que existe x pertencenteà C1 \ [X ∩ I

] tal que xi = a1i . Logo x ∈ box(H−i (a) ∩ C

1) e, consequentemente,|A(t + 1)| ≥ |A(t)| + 1. Dessa maneira, concluímos que existe um índice p ≤ ktal que A(p) = X. Em outras palavras, o critério de parada C = ∅ é atingido nomáximo em k iterações.Para provar a segunda armação do teorema, i.e., o caso geral onde podeincluir execuções do Passo (3)(b), é suciente demonstrar que existe um índicep < 2k tal que |A(p)| = k = |X|. Para isto, mostraremos que |A(t)| ≥ K(t) paratodo t ≥ 0, onde

K(t) =

0, para t < k ,

t− (k− 1), para k ≤ t < 2k− 1 ,

k, se t ≥ 2k− 1 .

(4.30)SejaQ(t) o número de iterações que o Passo (2) ou o Passo 3 (a) foi executadoaté a conclusão da iteração t, onde 0 ≤ t ≤ 2k−1, e 0 ≤ p1 < . . . < pQ(t) ≤ 2k−1as respectivas iterações em que estes passos foram executados. Pelos mesmosargumentos do primeiro caso, temos que para cada i = 1, . . . , Q(t) ao menos umelemento é adicionado á A(pi). Como |A(0)| = 0, segue que |A(t)| ≥ Q(t). Sejat tal que 0 ≤ t ≤ 2k− 1, vamos provar a relação a seguir:

|A(t)| ≥ Q(t) ≥ K(t) . (4.31)Para 0 ≤ t < k, a desigualdade acima vale, pois K(t) = 0 . Resta mostrar

4.3 Perceptron morfológico com aprendizagem competitiva (MP/CL) 79que Q(t) ≥ t − (k − 1) ou, equivalentemente, que t − Q(t) ≤ k − 1, parak ≤ t ≤ 2k− 1. Observe que até a iteração t o algoritmo invocou t−Q(t) vezeso Passo (3)(b), e em cada vez o conjunto X em questão foi particionado em nomínimo dois subconjuntos. Uma vez que o conjunto de padrões de treinamentoX possui apenas k elementos, no máximo k − 1 partições como as realizadas noPasso (3)(b) podem ocontecer. Logo, t−Q(t) ≤ k − 1.O Teorema 9 revela que para problemas de classicação binários o númerode iterações cresce linearmente com o número de padrões de treinamento. Alémdisso, o esforço computacional para o cálculo de ínmos e supremos, escala lin-earmente com a dimensão dos dados. Portanto, num problema de classicaçãobinário, mesmo uma grande quantidade de dados de alta dimensão não representaum sério desao computacional ao algoritmo.O próximo resultado a ser mostrado diz respeito ao erro produzido no conjuntode treinamento de um problema de classicação binário por um MP/CL treinadopelo algoritmo descrito na subseção anterior. Para isto, vamos enunciar doiscorolários úteis.Corolário 5. Seja X ∈ C(t), para t ≥ 0. Não existe x ∈ X\ X tal que x ∈ box(X),i.e., [X \ X

]

∩ box(X) = ∅.Demonstração. Pelo Lema 9 temos que X =[⋃

C(t)]⋃

A(t) e [⋃C(t)]

∩A(t) =

∅. Por um lado, o Lema 6 nos fornece que [⋃X ′∈C(t) box(X ′)]

∩[⋃

[F1(t)∪F2(t)]]

=

∅ e, como A(t) ⊆ ⋃[

F1(t) ∪ F2(t)] e X ∈ C(t), concluimos que A(t) ∩ box(X) =

∅. Por outro lado, o Lema 5 garante que [⋃

C(t) \ X]

∩ box(X) = ∅, pois,[⋃

X ′∈C(t)\X box(X ′)]

∩ box(X) = ∅.Corolário 6. Sejam s, r ∈ 1, 2 tal que s 6= r. Para todo t ≥ 0, se B ∈ Fs(t)então Cr ∩ B = ∅.Demonstração. A prova deste corolário é dada por indução. Para t = 0 temosF1(0) = F2(0) = ∅. Logo não há nada o que mostrar.Suponha que a armação do corolário vale para t = p. Se C(p) = ∅ então,novamente, nada resta o que mostrar. Caso contrário, a iteração p+1 é executadae um X ∈ C(t) arbitrário é selecionado. Seja Fs(p+ 1) = Fs(p+ 1) \ Fs(p), paras = 1, 2, temos que Fs(p+ 1) = Fs(p) ∪ Fs(p+ 1). Considere B ∈ Fs(p+ 1). SeB ∈ Fs(p) então, pela hipótese de indução, temos que Cr ∩ B = ∅ para r 6= s.

80 Redes neurais morfológicas construtivasNo caso onde B ∈ Fs(p + 1), pelo Corolário 5 segue que [

Cr \ X]

∩ B = ∅ poisB ⊆ box(X). Para completar a demonstração basta vericar B ∩ Cr = ∅ (lembreque Cr = Cr∩X). Para isto, uma vericação mais detalhada do algoritmo torna-senecessária.Se o Passo (2) é executado, então, a condição box(Cs) ∩ box(Cr) = ∅ ésatisfeita e Fs(p + 1) = box(Cs) = [as,bs], o que implica que box(Cs) ∩ Cr = ∅,pois, Cr ⊆ box(Cr).Se o Passo (3)(a) é executado, então, Fs(p+1) = [

⋃ni=1box(H−

i (a)∩ Cs)

]

∪[⋃ni=1box(H+

i (b) ∩ Cs)

] e [as,bs] 6= [ar,br]. Suponha, sem perda de generali-dade, que B = box(H−i (a)∩C

s) para algum índice i tal que B 6= ∅. Logo existe x ∈

Cs tal que x ∈ H−i (a) e asi ≤ xi < ai, o que implica que ai = asi ∨ ari = ari. Por-tanto, Cr∩H−

i (a) = ∅, pois, para todo y ∈ Cr temos que yi ≥ ai. Dessa maneiraconcluímos que Cr∩B = ∅. A demonstração para B ∈⋃ni=1box(H+

i (b)∩ Cs) talque B 6= ∅ se dá de maneira análoga.Se o Passo (3)(b) é invocado, então, Fs(p + 1) = u : U ∩ Cs. Como

Cs ∩ Cr = ∅ por suposição, segue B ∩ Cr = ∅ para todo B ∈ Fs(p+ 1).O próximo teorema mostra que o algoritmo de treinamento do MP/CL paraproblemas de classicação binário após convergir, produz perfeita classicaçãoem todo conjunto de treinamento, i.e., não há erro de treinamento. Recorde quepara uma extensão de grupo totalmente ordenada L, construímos dois móduloscomo na Figura 4.2 e uma arquitetura compreendendo estes dois módulo comona Figura 4.3. Portanto, para todo padrão de treinamento da s-ésima classex ∈ X ∩ Cs a arquitetura resultante produz argmaxs=1,2 y

s = s, para s = 1, 2.Teorema 10. Seja s ∈ 1, 2. Todo padrão de treinamento x ∈ X∩Cs está contidoem alguma hipercaixa B ∈ Fs. Além disso, x não está contido em nenhumahipercaixa B ′ ∈ Fr tal que s 6= r ∈ 1, 2.Demonstração. Uma vez que o algoritmo converge em um número nito de iter-ações pelo Teorema 9, existe um índice p tal que X = A(p) = x ∈ X : x ∈⋃

[

F1(p) ∪ F2(p)]

pelo Lema 9. Para s = 1, 2, o Corolário 6 fornece queCs∩

[⋃

Fr(p)]

= ∅ para s 6= r, o que implica que Cs ⊆ [⋃

Fs(p)], i.e., para todo

x ∈ X ∩ Cs existe B ∈ Fs tal que x ∈ B.

4.3 Perceptron morfológico com aprendizagem competitiva (MP/CL) 81Como resutlado do Teorema 10, em um problema de classicação binário oMP/CL resultante produz argmaxs=1,2 ys = r para toda entrada x ∈ Cr, para

r = 1, 2, de acordo com a Equação 2.28.4.3.3 Algoritmo do MP/CL para problemas de classicaçãocom múltiplas classesSuponha que nos deparemos com um problema classicação com S classes, ondeS > 2, e que nosso objetivo seja construir um MP/CL para solucioná-lo. SejaCs ⊆ X = x1, . . . , xk o conjunto de padrões de treinamento em Ln pertencentesà so. classe para todo s = 1, . . . , S, tais que, Cs∩Cr = ∅ para s 6= r e ⋃S

s=1 Cs = X.A estratégia adotada consiste em aplicar o algoritmo do MP/CL para cada par

(Cs, Cr) com s 6= r. Dessa maneira, obtemos S − 1 famílias de hipercaixas paracada Cs, onde s = 1, . . . , S. Tomando todas as intersecções das hipercaixas defamílias distintas associadas com a mesmo Cs, produzimos uma única família dehipercaixas Fs para cada uma das S classes, que podem ser usadas para construirum único MP/CL com arquitetura similar à ilustrada na Figura 4.3 com S módu-los, onde cada módulo possui a forma exibida na Figura 4.2. Formalmente, seja Fsro símbolo que denota a família de hipercaixas associadas á s-ésima classe geradapelo algoritmo do MP/CL considerando apenas os padrões de treinamento dasclasses Cs e Cr. Uma única família de hipercaixas Fs é produzida pela seguinteequaçãoFs =

⋂

r 6=s

[ar,br] : [ar,br] ∈ Fsr para s = 1, . . . , S. (4.32)Note que o algoritmo dado acima para MP/CLs, para múltiplas classes con-siste de uma extensão natural do algoritmo binário. Além disso, o algoritmoestendido herda as propriedades provadas para o caso binário, com exceção dacomplexidade computacional para o pior caso que cresce exponencialmente como número de classes. Esta última armação decorre diretamente da observaçãode que dado s ∈ 1, . . . , S, para todo r 6= s o conjunto Fsr pode conter no máximok hipercaixas, onde k é o número de padrões. Logo, a Equação 4.32 pode exigirno máximo kS−1 cálculos.Apesar do processo de aplicar sucessivas intersecções para formar uma únicafamília de hipercaixas ser extremamente custoso, a família resultante exibe as

82 Redes neurais morfológicas construtivasmesmas propriedades demonstradas na subseção anterior para o caso binário.Isto pode ser conrmado através de vericações simples, cuja idéia central vem deque um elemento B =⋂

r 6=s[ar,br] ∈ Fs, preserva simultaneamente propriedadesoriundas de cada [ar,br] ∈ Fsr (tudo graças às interseções).Para sumarizar, o algoritmo de treinamento do MP/CL para duas classes oumais exibem as seguintes propriedades [91]:1. Algoritmo construtivo que gera automaticamente nós ocultos correspon-dentes a hipercaixas em Ln;2. Garantia de parada do algoritmo de treinamento;3. Complexidade O(nS−1) no pior caso, onde S é o número de classes;4. Perfeita classicação nos dados de treinamento;5. Nenhuma sobreposição de hipercaixas com rótulo distintos;6. Independência das escolhas dos conjuntos X durante o algoritmo, em par-ticular independência da sequência dos dados de treinamento.4.4 Experimentos com redes neurais morfológicasconstrutivasNesta seção avaliamos o desempenho de classicação e o esforço computacionaldo modelo MP/CL em uma série de experimentos em quatro base de dados bemconhecidas: o problema sintético de Ripley [67, 68], a base de dados de segmen-tação de imagens, a base de dados de íris e a base de dados de câncer de mama deWisconsin [3]. Além disso, comparamos os resultados produzidos pelo MP/CLcom os produzidos pelo perceptron de múltiplas camadas (MLP), FLNN [63],classicador FLR [40], k vizinhos mais próximos (kNN) [24] e árvore de decisão[10, 26].Em todos os experimentos, consideramos MLPs com funções de ativação sig-moid e com uma única camada escondida. As MLPs foram implementadas uti-lizando o toolbox de redes neurais do MATLAB [59], e treinadas utilizando retro-propagação baseado no método do gradiente com momento e passo adptativocom taxa de aprendizagem η = 10−4 e constante de momento α = 0.9. Em cada

4.4 Experimentos com redes neurais morfológicas construtivas 83problema individual, aplicamos validação cruzada com 10-fold para determinaro número de neurônios escondidos Ha ∈ 10, 20, 30, o parâmetro de crescimentoρinc ∈ 1.0, 1.1, 1.2 e o parâmetro de decrescimento ρdec ∈ 0.5, 0.6, 0.7. A ca-mada de saída de cada MLP aplicada a um dos problemas de classicação subse-quentes compreende S neurônios de saídas, onde S representa o número de classes.Na fase de teste, associamos o padrão de entrada x com a classe correspondenteao neurônio de saída mais ativo. Uma vez que os resultados da MLP dependeda inicialização dos pesos, escolhemos os pesos que produziram o menor erroquadrático médio no treinamento em dez inicializações aleatorias. Finalmente, oalgoritmo de treinamento foi interrompido quando o número de iterações atingiu25000, ou o erro médio quadrático (MSE) no conjunto de treinamento atingiuum valor menor do que 0.005 ou variou em menos de 0.0002 da última iteração.Durante a aplicação do método de validação cruzada, também foi utilizado comocritério de parada a quantidade de vezes consecutivas que o MSE no conjunto devalidação aumentou, enquanto o MSE no conjunto de treinamento mantinha-sedecrescendo.Tanto a FLNN quanto o classicador FLR produzem resultados ligeiramentediferentes dependendo da ordem com a qual os padrões são apresentados a rededurante o treinamento. Nos experimentos conduzidos nesta seção optamos pormanter a mesma ordem com que os padrões de treinamento aparecem nas basesde dados na internet.Ao contrário dos outros modelos, o MP/CL é equipado com algoritmo detreinamento que exibe independência da sequência dos padrões de treinamento enão requer inicializações de pesos. Além disso, assim como a FLNN, o MP/CLconverge num número nitos de iterações atingindo, no nal, erro de treinamentozero.Em nossas simulações com os classicadores FLNs, construímos FLNNs eclassicadores FLRs utilizando a medida de inclusão baseada na Equação 4.3 sobo produto de reticulados L1× . . .×Ln com constituintes Li = [0, 1]. A medida deinclusão induzida pela função de avaliação positiva e automorsmo dual em R daEquação 4.4, também foi empregada em outras FLRs testadas. Para simplicar,utilizaremos o símbolo FLRl para denotar o classicador FLR equipado com amedida de inclusão baseada na função de avaliação positiva υl e no automorsmodual θl. Similarmente, o símbolo FLRζe denota o classicador FLR equipado coma medida de inclusão baseada em υζe e θe.

84 Redes neurais morfológicas construtivasO projeto de uma FLR requer a escolha de alguns parâmetros, por exem-plo, o parâmetro de vigilância ρcrit utilizado no algoritmo de treinamento. Emnossos experimentos, aplicamos técnicas de validação cruzada com 10-folds paradeterminar tais parâmetros. Especicamente, para o modelo θl selecionamos ovalor de ρcrit ∈ 0.5, 0.6, 0.7, 0.8, 0.9 que produziu menor taxa de erro médio nos10-folds. Com respeito ao modelo FLRζe, escolhemos os valores de ζ ∈ 1, 5, 10, 15e ρcrit ∈ 0.5, 0.6, 0.7, 0.8, 0.9 que produziram menor taxa de erro médio nos10-folds.Obviamente, o modelo kNN depende da escolha do parâmetro k. De maneirasimilar ao caso das FLRs, empregamos validação cruzada com 10-folds para de-terminar o melhor valor de k ∈ 1, 2, . . . , 15 em termos da menor taxa de erromédio no conjunto de validação. Finalmente, incluímos em nossas comparaçõesos resultados obtidos por árvores de decisão, especicamente, utilizamos a im-plementação padrão das árvores de classicação do MATLAB cujo critério daescolha de uma divisão é dada pelo índice de diversidade Gini [59].As tabelas de 1 à 4 exibem a porcentagem de padrões mal classicados notreinamento e teste. Uma vez que o tipo de operações executadas por modelosindividuais nas épocas de treinamento variam bastante de um modelo para ooutro, optamos por adicionar em nossas comparações o tempo de CPU requeridopara treinamento, validação e teste (sobre um AMD Athlon 64 X2 Dual CoreProcessor 4200+ com velocidade de processamento de 2.221 GHz) para cadamodelo individual. Note que, o tempo utilizado para procedimentos de validaçãocruzada também foi considerado.Todos os modelos e algoritmos foram implementados usando MATLAB. Nos-sas comparações de esforço computacional incluem também o número de neurônios.Nos modelos morfológicos construtivos, consideramos uma hipercaixa gerada nafase de treinamento como uma unidade de processamento, já que a expressãoεv(x) ∧ δw(x) pode ser computada como uma única expressão, conforme expli-cado na Seção 4.2.A Tabela 4.1 sumariza as características dos quatros problemas de classicaçãoconsiderado neste trabalho.

4.4 Experimentos com redes neurais morfológicas construtivas 85Tabela 4.1: Características das quatro bases de dados utilizadas.Base de Dados Sintético de RipleyAtributos Classes Padrões Trein. Padrões Teste19 7 30 por classe 300 por classeProblema de Segmentação de ImagemAtributos Classes Padrões Trein. Padrões Teste19 7 30 por classe 300 por classeProblema de Classicação de IrisAtributos Classes Padrões Trein. Padrões Teste4 3 35 por classe 15 por classeProblema de Diagnóstico de Câncer de MamaAtributos Classes Padrões Trein. Padrões Teste30 2 249 benignos e 212 malignos 108 benignos e 64 malignos4.4.1 Problema sintético de RipleyO conjunto de dados sintético de Ripley consiste em exemplos de dados de duasclasses [67, 68], onde cada padrão possui dois atributos, ou seja, consiste de umproblema de classicação binário no R2. Os dados são divididos em um conjuntode treinamento e um de teste consistidos, respectivamente, de 250 e 1000 padrõescom o mesmo número de exemplares pertencentes a cada uma das duas classes.A Tabela 4.2 revela que o kNN com k = 13, escolhido usando validaçãocruzada com 10-fold, exibiu o melhor resultado de classicação, porém, lem-bre que todos os 250 padrões de treinamento precisaram ser armazenados. Umdesempenho de classicação similar foi atingido pelo MP/CL que gerou auto-maticamente 55 neurônios escondidos simples. O algoritmo do MP/CL convergiumuito rapidamente para o conjunto de pesos que separa perfeitamente os dadosde treinamento. Assim como o MP/CL, a FLNN também não produziu erros notreinamento.Em contraste com os demais modelos, o MP/CL não requer a escolha de nen-hum parâmetro, o que justica grandes diferenças entre os valores do MP/CL

86 Redes neurais morfológicas construtivascom os de outros modelos na coluna T lvtcpu da Tabela 4.2. Por exemplo, a MLP queobteve um tempo de processamento total T lvtcpu por volta de 6 horas, onde muitodeste custo excessivo de CPU decorre de aplicar a validação cruzada com 10-fold para determinar os seguintes parâmetros adequados: número de neurôniosescondidos Ha = 20, parâmetro de crescimento ρinc = 1.2 e parâmetro de de-crescimento ρdec = 0.6. Com respeito aos modelos FLRl e FLRζe, a validaçãocruzada resultou em ρcrit = 0.9 em ambos os casos e ζ = 10.Os resultados produzidos pela árvore de decisão, MLP e pela FLNN são com-paráveis mas o tempo de CPU para treinamento da FLNN e especialmente daMLP foram relativamente longos comparados ao da árvore de decisão. Ambas aFLNN e os classicadores FLRs produziram áreas de indecisão correspondentesa sobreposições de hipercaixas, porém, isso poderia ter sido evitado, adicionandocomputações adicionais muito demoradas. Em nossos experimentos, nenhumadecisão com respeito às áreas de indecisão foi considerada. Uma visualização dasáreas de indecisão geradas pelo modelo FLNN no problema sintético de Ripleypode ser encontrada em [88, 89]. A superfície de decisão gerada pelo modeloMP/CL é visualizada na Figura 4.9.Tabela 4.2: Percentual de padrões mal classicados no treinamento (Etr) e teste(Ete) nos experimentos, tempo de CPU em segundos para treinamento (T lcpu),total de tempo de CPU em segundos para treinamento, validação e teste (T lvtcpu),e o número de neurônios ou hipercaixas (Hn).Base de Dados Sintético de RipleyModelo Etr(%) Ete(%) T lcpu T lvtcpu HnMP/CL 0.0 10.20 0.05 0.16 55

FLRl (ρcrit = 0.9) 8.80 15.30 0.41 33.05 77

FLR10e (ρcrit = 0.9) 10.80 16.20 0.58 113.45 51FLNN 0.0 14.20 84.43 85.65 46MLP 4.0 14.60 57.10 21120.77 22

13NN 11.60 9.60 − 0.16 250Árvore de Decisão 5.20 13.00 0.37 0.43 41

4.4 Experimentos com redes neurais morfológicas construtivas 87

Feature 1

Fea

ture

2

−1.2 −1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8

0

0.2

0.4

0.6

0.8

1

Figura 4.9: A diferença de tons da imagem corresponde à superfície de decisãoproduzida pelo modelo MP/CL no problema sintético de Ripley.4.4.2 Problema de segmentação de imagemO conjunto de dados de segmentação de imagem foi doada pelo Vision Group daUniversidade de Massachussets e está incluído no Machine Learning Repositoryda Universidade da Califórnia, Irvine [3]. Este conjunto de dados consiste em210 padrões de treinamento e 2100 padrões de teste, dividos entre 7 diferentesclasses, onde cada padrão é descrito por 19 atributos contínuos.Por um lado, a Tabela 4.3 mostra que a MLP superou todos os outros modelosem termos de precisão de classicação. Por outro lado, o tempo de treinamentoT lcpu é relativamente longo e a busca pelos parâmetros adequados (Ha = 30, ρinc =1.2, ρdec = 0.7) para a MLP usando validação cruzada com 10-fold produziu umtempo total de processamento T lvtcpu excessivo de quase sete horas. Além disso, aTabela 4.3 revela que os classicadores FLRs, a árvore de decisão e o MP/CL,também produziram resultados satisfatórios, porém, o modelo FLRl gerou umnúmero excessivo de 208 hipercaixas a partir de 210 padrões de treinamento. AFLRζe, FLNN, árvore de decisão e MP/CL exibiram taxas de erros similares em

88 Redes neurais morfológicas construtivastorno de 10%. Devido à simplicidade computacional dos neurônios do MP/CL, onúmero relativamente alto de 63 neurônios escondidos, construídos pelo algoritmode treinamento do MP/CL, não representa uma desvantagem quando comparadoaos 17 neurônios da FLNN e aos 37 neurônios da MLP, pois, envolvem cálculoscomputacionalmente caros. Em contraste, a árvore de decisão exigiu muito poucotempo de CPU para treinamento e teste. Finalmente, o pior desempenho declassicação é dado pelo modelo kNN.Tabela 4.3: Percentual de padrões mal classicados no treinamento (Etr) e teste(Ete) nos experimentos, tempo de CPU em segundos para treinamento (T lcpu),total de tempo de CPU em segundos para treinamento, validação e teste (T lvtcpu),e o número de neurônios ou hipercaixas (Hn).Base de Dados de Segmentação de ImagemModelo Etr(%) Ete(%) T lcpu T lvtcpu HnMP/CL 0.0 10.14 9.08 10.69 63

FLRl (ρcrit = 0.9) 0.0 8.00 0.27 151.07 208



4.4.3 Problema de classicação de ores írisA base de dados de ores íris é um conjunto de dados multivalorados, introduzidopor R.A. Fisher [27]. A base consiste em 50 exemplares de três tipos de espéciesde ores íris: setosa, virginica e versicolor. Quatro propriedades foram medidasa partir de cada exemplo, que são: altura, largura, sépala e pétala.Nesta base de dados, os conjuntos de treinamento e teste não são dados explici-tamente como no problema sintético de Ripley e no problema de segmentação deimagem. Além disso, o número de exemplares presentes é relativamente pequenose comparado aos demais problemas.Conduzimos nossos experimentos de duas maneiras. Na primeira, dividimoso conjunto original [3] num conjunto de treinamento, consistindo dos primeiros35 padrões de cada espécie, e num conjunto de teste, consistindo dos padrões

4.4 Experimentos com redes neurais morfológicas construtivas 89restantes. Em seguida, os utilizamos para treinar e testar cada um dos modelos.Na Tabela 4.4 apresentamos os resultados obtidos neste experimento. Note queos modelos MP/CL e FLNN classicaram perfeitamente todos os padrões tantode treinamento quanto de teste. A árvore de decisão, MLP (Ha = 10, ρinc =

1.2, ρdec = 0.6) e kNN também atingiram perfeita classicação no conjunto deteste apesar dos respectivos erros de treinamento serem ligeiramente positivos.Neste experimento, decididamente, o MP/CL e a árvore de decisão tiveramo melhor desempenho por causa que seus algoritmos de treinamento não apenasconvergiram muito rapidamente mas, também construíram uma arquitetura nalcom um número pequeno de neurônios.Tabela 4.4: Percentual de padrões mal classicados no treinamento (Etr) e teste(Ete) nos experimentos, tempo de CPU em segundos para treinamento (T lcpu),total de tempo de CPU em segundos para treinamento, validação e teste (T lvtcpu),e o número de neurônios ou hipercaixas (Hn).Base de Dados de IrisModelo Etr(%) Ete(%) T lcpu T lvtcpu HnMP/CL 0.0 0.0 0.08 0.13 15

FLRl (ρcrit = 0.7) 2.86 2.22 0.04 13.21 29


5NN 3.81 0.0 − 1.14 105Árvore de Decisão 2.86 0.0 0.01 0.01 9A segunda maneira consiste em dividir aleatoriamente 35 exemplares de cadaclasse de ores para treinamento e os demais para teste, por 100 vezes. Em cadadivisão produzida, computamos o desempenho de cada modelo, treinado comos parâmetros iguais aos dos modelos da Tabela 4.4, nos dados de treinamento eteste. A Tabela 4.5 exibe os valores médios do percentual de acerto no conjunto detreinamento e teste, dos tempos requeridos de CPU e da quantidade de neurôniosutilizados para cada modelo testado.Note na Tabela 4.5, que o modelo kNN obteve o menor percentual médio deerro de classicação no conjunto de teste, porém isso não acontece no conjunto detreinamento e todos os 105 padrões de treinamento necessitam ser armazenados.O segundo melhor desempenho no conjunto de teste, ligeiramente maior que o

90 Redes neurais morfológicas construtivasTabela 4.5: Percentual médio de padrões mal classicados no treinamento (Etr) eteste (Ete), tempo médio de CPU em segundos para treinamento (T lcpu), total detempo médio de CPU em segundos para treinamento, validação e teste (T lvtcpu), eo número médio de neurônios ou hipercaixas (Hn).Base de Dados de IrisModelo Etr(%) Ete(%) T lcpu T lvtcpu HnMP/CL 0.0 4.56 0.07 0.13 10.14

FLRl (ρcrit = 0.7) 1.27 5.04 0.04 0.27 26.92

FLR10e (ρcrit = 0.8) 1.51 5.47 0.06 0.33 15.89FLNN 0.0 6.24 5.71 5.72 8.06MLP 1.29 4.56 13.66 13.67 13

5NN 2.47 3.38 − 0.11 105Árvore de Decisão 1.99 5.67 0.01 0.01 6.92primeiro, cam por conta do MP/CL e da MLP, mas diferente da MLP, o MP/CLnão produz erro no conjunto de treinamento e não requer a escolha de nenhumparâmetro, além de exigir um tempo de CPU bem inferior ao da MLP.4.4.4 Problema de câncer de mama de WisconsinO conjunto de dados de câncer de mama de Wisconsin foi criado por Wolberg,Street e Mangasarian da Universidade de Wisconsin [100]. Trinta propriedadescom valores reais foram computadas a partir da digitalização de biópsias de câncerde mama, que descrevem características presentes no núcleo da célula presente naimagem. O conjunto de dados consiste em 569 instâncias, onde 357 são benignose 212 malignos. Alocamos os primeiros 249 padrões benignos e os primeiros 148padrões malignos para o conjunto de treinamento, e o restante aplicamos comoconjunto de teste.A Tabela 4.6 indica que neste experimento, os modelos FLRζe e MP/CL tiveramexcelentes desempenhos. Apesar do modelo FLRζe produzir uma precisão de classi-cação ligeiramente melhor, o algoritmo do MP/CL requeriu menos tempo paraconvergir e gerou menos neurônios do que o algoritmo construtivo do modeloFLRζe.Finalmente, repare que o tempo total T lvtcpu requirido pela MLP foi muito alto(em torno de 11 horas). O método de validação cruzada produziu Ha = 10,

4.4 Experimentos com redes neurais morfológicas construtivas 91ρinc = 1.2, e ρdec = 0.7.Tabela 4.6: Percentual de padrões mal classicados no treinamento (Etr) e teste(Ete) nos experimentos, tempo de CPU em segundos para treinamento (T lcpu),total de tempo de CPU em segundos para treinamento, validação e teste (T lvtcpu),e o número de neurônios ou hipercaixas (Hn).Problema de Câncer de Mama de WisconsinModelo Etr(%) Ete(%) T lcpu T lvtcpu HnMP/CL 0.0 4.07 0.08 0.15 64

FLRl (ρcrit = 0.6) 0.0 9.30 3.53 555.06 376



Capítulo 5Conclusões e considerações nais

Nos primeiros capítulos deste trabalho, discutimos a arquitetura teórica dereticulados das redes neurais morfológicas. Em particular, distinguimos entredenições de operações elementares da morfologia matemática no sentido al-gébrico do sentido intuitivo. Isso permitiu denir redes neurais morfológicastambém no sentido intuitivo.A memória associativa morfológica baseada na medida de subsethood deKosko (KS-FAM) mostrou-se ser uma alternativa promissora na área de recon-hecimento de padrões. Em experimentos de reconstrução de imagens envolvendoimagens em tons de cinza, a KS-FAM apresentou tolerância com respeito a váriostipos de ruídos: pimenta, sal e pimenta, e gaussiano. Além disso, o modelo KS-FAM obteve também excelente desempenho em experimentos envolvendo padrõesincompletos, variações de luminosidade e variações de orientação dos padrõesoriginais.Neste trabalho, foi demonstrado que para um conjunto de memórias funda-mentais que satisfaz uma única hipótese fraca (xξ 6≤ xγ para todo ξ 6= γ), entãoa KS-FAM exibe capacidade de armazenamento absoluta. Também foram car-acterizadas as saídas produzidas por uma KS-FAM em termos de máximos entrememórias fundamentais. Todavia, a fase de recordação desse modelo foi poucoexplorada, e nenhuma caracterização adequada sobre as condição necessárias esucientes para se obter perfeito reconhecimento foi elaborada ainda. Por m,classicamos a KS-FAM como um modelo de rede neural morfológica no sentidointuitivo, uma vez que os neurônios da primeira camada executam erosões apenas93

94 Conclusões e considerações naisno sentido intuitivo.Com respeito às redes neurais construtivas, revimos os modelos FLNs e operceptron morfológico. Em especial, abordamos com detalhe o modelo MP/CLdemonstrando várias de suas propriedades. Além disso, também apontamos aconexão entre o algoritmo de treinamento do MP/CL e a decomposição de ma-peamentos entre reticulados completos sugerida por Banon e Barrera [5].O algoritmo do MP/CL gera automaticamente uma arquitetura feedforwardcom neurônios escondidos correspondendo a hipercaixas em um reticulado com-pleto Ln, onde L corresponde a um reticulado totalmente ordenado que pos-sui uma estrutura adicional de grupo. Vimos também que as funções de agre-gações empregadas nos neurônios do MP/CL, assim como seus predecessores MPe MP/C, representam operações morfológicas elementares entre reticulados com-pletos.As principais caracterísiticas do algoritmo construtivo do MP/CL são listadasa seguir [91]:1. Garantia de parada do algoritmo de treinamento;2. Complexidade O(nS−1) no pior caso, onde S é o número de classes;3. Perfeita classicação dos dados de treinamento;4. Nenhuma área de indecisão é produzida, isto é, não há sobreposição dehipercaixas com rótulo distintos;5. Independência da ordem com que os padrões de treinamento são apresen-tados à rede.Neste trabalho, investigamos o desempenho e o esforço computacional do mod-elo MP/CL em problemas de classicação bem conhecidos [3, 67]. O MP/CLexibiu resultados de classicação satisfatórios, além de convergir rapidamente nafase de treinamento, sem nenhum ajuste de parâmetro ou inicialização de pesos.Entre os modelos testados, um desempenho similar foi encontrado pelo classi-cador FLR, que necessita que alguns parâmetros sejam determinados de antemão.Apesar do MP/CL produzir um número de neurônios escondidos relativamentealto comparado ao da MLP, ressaltamos que as operações de produto min exe-cutadas nos nós escondidos do MP/CL envolve um esforço computacional muitopequeno, especialmente se implementado em hardware [65].

95Os testes estatísticos sugeridos por Dem²ar [22] para comparar vários classi-cadores sobre várias bases de dados, em particular, o teste de Friedman comcomparações post-hoc, não pôde ser aplicado devido ao número relativamentebaixo de base de dados testadas. Em outras palavras, as informações de desem-penho obtidas dos classicadores nas quatro bases de dados não são sucientespara se obter uma análise conclusiva utilizando tais testes.

Referências Bibliográcas[1] Araújo, R., Madeiro, F., and Pessoa, L. Modular morphological neu-ral network training via adaptive genetic algorithm for design translationinvariant operators. In Proceedings of the IEEE International Conferenceon Acoustics, Speech and Signal Processing (Toulouse, France, 2006).[2] Araújo, R., Madeiro, F., Sousa, R., Pessoa, L., and Ferreira, T.An evolutionary morphological approach for nancial time series forecast-ing. In Proceedings of the IEEE Congress on Evolutionary Computation(Vancouver, Canada, 2006), pp. 24672474.[3] Asuncion, A., and Newman, D. UCI repository of machine learningdatabases, 2007.[4] Backhouse, R., and Carré, B. Regular algebra applied to path-ndingproblems. J. Inst. Math. Appl. 15 (1975), 161186.[5] Banon, G., and Barrera, J. Decomposition of mappings between com-plete lattices by mathematical morphology, part 1. general lattices. SignalProcessing 30, 3 (Feb. 1993), 299327.[6] Belohlávek, R. Fuzzy logical bidirectional associative memory. Infor-mation Sciences 128, 1-2 (2000), 91103.[7] Birkhoff, G. Lattice Theory, 3 ed. American Mathematical Society,Providence, 1993.[8] Bloch, I. Mathematical morphology on bipolar fuzzy sets. In Proceedingsof the International Symposium on Mathematical Morphology (2007), vol. 2,pp. 34.[9] Braga-Neto, U., and Goutsias, J. Supremal multiscale signal analysis.SIAM Journal of Mathematical Analysis 36, 1 (2004), 94120.97

98 REFERÊNCIAS BIBLIOGRÁFICAS[10] Breiman, L., Friedman, J., Olshen, R. A., and Stone, C. J. Clas-sication and Regression Trees. Wadsworth International, Belmont, CA,U.S.A, 1984.[11] Carpenter, G., and Grossberg, S. A massively parallel architecturefor a self-organizing neural pattern recognition machine. Computer Vision,Graphics, and Image Processing 37, 1 (Jan. 1987).[12] Carpenter, G., and Grossberg, S. A massively parallel architecturefor a self-organizing neural pattern recognition machine. In Neural Net-works: Theoretical Foundations, C. Lau, Ed. IEEE Press, Piscataway, NJ,1992.[13] Carpenter, G., Grossberg, S., and Rosen, D. Fuzzy ART: Fast sta-ble learning and categorization of analog patterns by an adaptive resonancesystem. Neural Networks 4, 6 (1991), 759771.[14] Carré, B. An algebra for network routing problems. J. Inst. Math. Appl.7 (1971), 273294.[15] Chung, F., and Lee, T. On fuzzy associative memory with multiple-rulestorage capacity. IEEE Transactions on Fuzzy Systems 4, 3 (August 1996),375384.[16] Cornelis, C., der Donck, C. V., and Kerre, E. Sinha-doughertyapproach to the fuzzication of set inclusion revisited. Fuzzy Sets andSystems 134, 2 (March 2003), 283295.[17] Costantini, G., Casali, D., and Perfetti, R. Neural associativememory storing gray-coded gray-scale images. Neural Networks, IEEETransactions on 14, 3 (May 2003), 703707.[18] Cuninghame-Green, R. Minimax Algebra: Lecture Notes in Economicsand Mathematical Systems 166. Springer-Verlag, New York, 1979.[19] Cuninghame-Green, R. Minimax algebra and applications. In Advancesin Imaging and Electron Physics, P. Hawkes, Ed., vol. 90. Academic Press,New York, NY, 1995, pp. 1121.

REFERÊNCIAS BIBLIOGRÁFICAS 99[20] Davidson, J. Foundation and applications of lattice transforms in imageprocessing. In Advances in Electronics and Electron Physics, P. Hawkes,Ed., vol. 84. Academic Press, New York, NY, 1992, pp. 61130.[21] Davidson, J., and Hummer, F. Morphology neural networks: An intro-duction with applications. Circuits, Systems, and Signal Processing 12, 2(1993), 177210.[22] Dem²ar, J. Statistical comparisons of classiers over multiple data sets.Journal of Machine Learning Research 7 (2006), 130.[23] Deng, T., and Heijmans, H. Grey-scale morphology based on fuzzylogic. Journal of Mathematical Imaging and Vision 16, 2 (Mar. 2002), 155171.[24] Devroye, L., Györfi, L., and Lugosi, G. A Probabilistic The-ory of Pattern Recognition (Stochastic Modelling and Applied Probability).Springer Verlag, Berlin-Heidelberg, Feb. 1997.[25] Esmi, E., and Sussner, P. A fuzzy associative memory based on Kosko'ssubsethood measure. In Proceedings of World Congress on ComputationalIntelligence (2010). accepted for publication.[26] Esposito, F., Malerba, D., and Semeraro, G. A comparative anal-ysis of methods for pruning decision trees. IEEE Transactions on PatternAnalysis and Machine Intelligence 19 (1997), 476491.[27] Fisher, R. The use of multiple measurements in taxonomic problems.Annals of Eugenics 7 (1936), 179188.[28] Gader, P., Won, Y., and Khabou, M. Image algebra network forpattern recognition. In Image Algebra and Morphological Image ProcessingV (July 1994), vol. 2300 of Proceedings of SPIE, pp. 157168.[29] Gader, P. D., Won, Y., and Khabou, M. Image algebra networks forpattern classication. In Image Algebra and Morphological Image ProcessingV (July 1994), vol. 2300 of Proceedings of SPIE, pp. 157168.

100 REFERÊNCIAS BIBLIOGRÁFICAS[30] Graña, M., Gallego, J., Torrealdea, F. J., and D'Anjou, A.On the application of associative morphological memories to hyperspectralimage analysis. Lecture Notes in Computer Science 2687 (2003), 567574.[31] Grätzer, G. Lattice Theory: First Concepts and Distributive Lattices.W. H. Freeman, San Francisco, CA, 1971.[32] Haralick, R., and Shapiro, L. Computer and Robot Vision, vol. I.Addison-Wesley, New York, 1992.[33] Haralick, R., Sternberg, S., and Zhuang, X. Image analysis usingmathematical morphology: Part I. IEEE Transactions on Pattern Analysisand Machine Intelligence 9, 4 (July 1987), 532550.[34] Hassoun, M. H. Dynamic associative neural memories. In AssociativeNeural Memories: Theory and Implemantation, M. H. Hassoun, Ed. OxfordUniversity Press, Oxford, U.K., 1993.[35] Hassoun, M. H. Fundamentals of Articial Neural Networks. MIT Press,Cambridge, MA, 1995.[36] Heijmans, H. Morphological Image Operators. Academic Press, New York,NY, 1994.[37] Hocaoglu, A., and Gader, P. Domain learning using Choquet integral-based morphological shared weight neural networks. Image and VisionComputing 21, 7 (2003), 663673.[38] Hopfield, J. J. Neural networks and physical systems with emergentcollective computational abilities. Proceedings of the National Academy ofSciences 79 (Apr. 1982), 25542558.[39] Junbo, F., Fan, J., and Yan, S. A learning rule for fuzzy associativememories. In Proceedings of the IEEE International Joint Conference onNeural Networks (June 1994), vol. 7, pp. 4273 4277.[40] Kaburlasos, V., Athanasiadis, I., and Mitkas, P. Fuzzy latticereasoning (FLR) classier and its application for ambient ozone estimation.International Journal of Approximate Reasoning 45, 1 (May 2007), 152188.

REFERÊNCIAS BIBLIOGRÁFICAS 101[41] Kaburlasos, V., and Papadakis, S. Granular self-organizing map (gr-som) for structure identication. Neural Networks 19, 5 (June 2006), 623643.[42] Kaburlasos, V., and Papadakis, S. A granular extension of the fuzzy-artmap (fam) neural classier based on fuzzy lattice reasoning (r). Neu-rocomputing 72, 1012 (2009), 20672078.[43] Kaburlasos, V., and Petridis, V. Fuzzy lattice neurocomputing(FLN) models. Neural Networks 13, 10 (2000), 11451170.[44] Kaburlasos, V. G. FINs: Lattice theoretic tools for improving predictionof sugar production from populations of measurements. IEEE Transactionson Systems Man and Cybernetics, Part B - Cybernetics 34, 2 (2004), 10171030.[45] Khabou, M., and Gader, P. Automatic target detection using entropyoptimized shared-weight neural networks. IEEE Transactions on NeuralNetworks 11, 1 (Jan. 2000), 186193.[46] Khabou, M., Gader, P. D., and Keller, J. M. LADAR target detec-tion using morphological shared-weight neural networks. Machine Visionand Applications 11, 6 (May 2000), 300305.[47] Kim, C. Segmenting a low-depth-of-eld image using morphological ltersand region merging. IEEE Transactions on Image Processing 14, 10 (2005),15031511.[48] Klir, G. J., and Yuan, B. Fuzzy Sets and Fuzzy Logic; Theory andApplications. Prentice Hall, Upper Saddle River, N. Y., 1995.[49] Kohonen, T. Self-Organization and Associative Memory. Springer Verlag,1984.[50] Kosko, B. Fuzzy Engineering. Prentice Hall, Upper Saddle River, N.J.,1992.[51] Kosko, B. Neural Networks and Fuzzy Systems: A Dynamical SystemsApproach to Machine Intelligence. Prentice Hall, Englewood Clis, N.J.,1992.

102 REFERÊNCIAS BIBLIOGRÁFICAS[52] Lee, D.-L. Improvements of complex-valued hopeld associative mem-ory by using generalized projection rules. IEEE Transactions on NeuralNetworks 17, 5 (Sept. 2006), 13411347.[53] Lippmann, R. An introduction to computing with neural nets. IEEETransactions on Acoustics, Speech, and Signal Processing ASSP-4 (1987),422.[54] Liu, P. The fuzzy associative memory of max-min fuzzy neural networkswith threshold. Fuzzy Sets and Systems 107 (1999), 147157.[55] Maragos, P. Lattice image processing: A unication of morphologicaland fuzzy algebraic systems. Journal of Mathematical Imaging and Vision22, 2-3 (May 2005), 333353.[56] Matheron, G. Elements Pour une Theorie des Milieux Poreux. Masson,Paris, 1967.[57] Matheron, G. Théorie des Ensembles Aléatoires. Ecole des Mines, Paris,1967.[58] Matheron, G. Random Sets and Integral Geometry. Wiley, New York,1975.[59] The MathWorks, Inc. MATLAB Documentation, 2007.http://www.mathworks.com.[60] Nachtegael, M., and Kerre, E. Connections between binary, gray-scale and fuzzy mathematical morphologies. Fuzzy Sets and Systems 124,1 (Nov. 2001), 7385.[61] Pedrycz, W., and Gomide, F. Fuzzy Systems Engineering TowardHuman-Centric Computing. Wiley-IEEE Press, New York, 2007.[62] Pessoa, L., and Maragos, P. Neural networks with hybrid morpho-logical/rank/linear nodes: a unifying framework with applications to hand-written character recognition. Pattern Recognition 33 (2000), 945960.[63] Petridis, V., and Kaburlasos, V. Fuzzy lattice neural network(FLNN): a hybrid model for learning. IEEE Transactions on Neural Net-works 9, 5 (Sept. 1998), 877890.

REFERÊNCIAS BIBLIOGRÁFICAS 103[64] Pitas, I., and Venetsanopoulos, A. Morphological shape decomposi-tion. IEEE Transactions on Pattern Analysis and Machine Intelligence 12,1 (1990), 3845.[65] Porter, R., Harvey, N., Perkins, S., Theiler, J., Brumby, S.,Bloch, J., Gokhale, M., and Szymanski, J. Optimizing digital hard-ware perceptrons for multi-spectral image classication. Journal of Math-ematical Imaging and Vision 19 (2003), 133150.[66] Raducanu, B., Graña, M., and Albizuri, X. F. Morphological scalespaces and associative morphological memories: Results on robustness andpractical applications. Journal of Mathematical Imaging and Vision 19, 2(2003), 113131.[67] Ripley, B. D. Datasets for pattern recognition and neural networks, 1996.http://www.stats.ox.ac.uk/pub/PRNN/.[68] Ripley, B. D. Pattern Recognition and Neural Networks. CambridgeUniversity Press, Cambridge, 1996.[69] Ritter, G. X., and Sussner, P. An introduction to morphologicalneural networks. In Proceedings of the 13th International Conference onPattern Recognition (Vienna, Austria, 1996), pp. 709717.[70] Ritter, G. X., and Sussner, P. Morphological neural networks. InIntelligent Systems: A Semiotic Perspective; Proceedings of the 1996 In-ternational Multidisciplinary Conference (Gaithersburg, Maryland, 1996),pp. 221226.[71] Ritter, G. X., and Sussner, P. Associative memories based on latticealgebra. In Computational Cybernetics and Simulation (Orlando, Florida,1997), 1997 IEEE International Conference on Systems, Man, and Cyber-netics.[72] Ritter, G. X., and Sussner, P. Morphological perceptrons. In ISAS'97,Intelligent Systems and Semiotics (Gaithersburg, Maryland, 1997).[73] Ritter, G. X., Sussner, P., and de Leon, J. L. D. Morphologicalassociative memories. IEEE Transactions on Neural Networks 9, 2 (1998),281293.

104 REFERÊNCIAS BIBLIOGRÁFICAS[74] Ritter, G. X., and Urcid, G. Lattice algebra approach to single-neuroncomputation. IEEE Transactions on Neural Networks 14, 2 (March 2003),282295.[75] Ronse, C. Why mathematical morphology needs complete lattices. SignalProcessing 21, 2 (Oct. 1990), 129154.[76] Serra, J. Image Analysis and Mathematical Morphology. Academic Press,London, 1982.[77] Serra, J. Image Analysis and Mathematical Morphology, Volume 2: The-oretical Advances. Academic Press, New York, 1988.[78] Sobania, A., and Evans, J. P. O. Morphological corner detector usingpaired triangular structuring elements. Pattern Recognition 38, 7 (2005),10871098.[79] Soille, P. Morphological Image Analysis. Springer Verlag, Berlin, 1999.[80] Sternberg, S. Parallel architecture for image processing. In Proceedingsof the Third International IEEE Compsac (Chicago, 1979).[81] Sternberg, S. Grayscale morphology. Computer Vision, Graphics andImage Processing 35 (1986), 333355.[82] Stokbro, K., Umberger, D., and Hertz, J. Exploiting neurons withlocalized receptive elds to learn chaos. Complex Systems 4 (1990), 603622.[83] Sussner, P. Morphological perceptron learning. In Proceedings of theIEEE International Symposium on Intelligent Control (Gaithersburg, MD,1998), pp. 477482.[84] Sussner, P. Fixed points of autoassociative morphological memories.In Proceedings of the International Joint Conference on Neural Networks(Como, Italy, July 2000), pp. 611616.[85] Sussner, P. Associative morphological memories based on variations ofthe kernel and dual kernel methods. Neural Networks 16, 5 (July 2003),625632.

REFERÊNCIAS BIBLIOGRÁFICAS 105[86] Sussner, P. Generalizing operations of binary morphological autoasso-ciative memories using fuzzy set theory. Journal of Mathematical Imagingand Vision 9, 2 (Sept. 2003), 8193. Special Issue on Morphological NeuralNetworks.[87] Sussner, P., and Esmi, E. A brief introduction to a two-layer morpho-logical associative memory based on fuzzy operations. In Proceedings of the8th International Symposium on Mathematical Morphology (Rio de Janeiro,Brazil, 2007), vol. 2, pp. 179190.[88] Sussner, P., and Esmi, E. Constructive morphological neural networks:some theoretical aspects and experimental results in classication. In Stud-ies in Computational Intelligence, J. Kacprzyk, Ed., Lecture Notes in Com-puter Science. Springer Verlag, Heidelberg, Germany, 2009.[89] Sussner, P., and Esmi, E. Introduction to morphological perceptronswith competitive learning. In Proceedings of the International Joint Con-ference on Neural Networks (Atlanta, GA, 2009), pp. 30243031.[90] Sussner, P., and Esmi, E. An introduction to the Kosko subsethoodfam. In Proceedings of Conference on Hybrid Articial Intelligence Systems(2010). accepted for publication.[91] Sussner, P., and Esmi, E. Morphological perceptrons with competi-tive learning: Lattice-theoretical framework and constructive learning al-gorithm. Information Science (2010). in press.[92] Sussner, P., and Valle, M. E. Grayscale morphological associativememories. IEEE Transactions on Neural Networks 17, 3 (May 2006), 559570.[93] Sussner, P., and Valle, M. E. Implicative fuzzy associative memories.IEEE Transactions on Fuzzy Systems 14, 6 (2006), 793807.[94] Sussner, P., and Valle, M. E. Recall of patterns using morphologicaland certain fuzzy morphological associative memories. In Proceedings of theIEEE World Conference on Computational Intelligence 2006 (Vancouver,Canada, 2006).

106 REFERÊNCIAS BIBLIOGRÁFICAS[95] Sussner, P., and Valle, M. E. Morphological and certain fuzzy mor-phological associative memories for classication and prediction. In Com-putational Intelligence Based on Lattice Theory, V. Kaburlassos and G. X.Ritter, Eds., vol. 67. Springer Verlag, Heidelberg, Germany, 2007, pp. 149 173.[96] Sussner, P., and Valle, M. E. Classication of fuzzy mathematicalmorphologies based on concepts of inclusion measure and duality. Journalof Mathematical Imaging and Vision 32, 2 (2008), 139159.[97] Sussner, P., and Valle, M. E. Fuzzy associative memories and theirrelationship to mathematical morphology. In Handbook of Granular Com-puting, W. Pedrycz, A. Skowron, and V. Kreinovich, Eds. John Wiley andSons, Inc., New York, 2008, ch. 33.[98] Tanaka, G., and Aihara, K. Complex-valued multistate associativememory with nonlinear multilevel functions for gray-level image reconstruc-tion. In IEEE International Joint Conference on Neural Networks (June2008), pp. 30863092.[99] Valle, M. E., and Sussner, P. A general framework for fuzzy mor-phological associative memories. Fuzzy Sets and Systems 159, 7 (2008),747768.[100] Wolberg, W., and Mangasarian, O. Multisurface method of patternseparation for medical diagnosis applied to breast cytology. In Proceedingsof the National Academy of Sciences (U.S.A, 1990), vol. 87, pp. 91939196.[101] Zadeh, L. A. Fuzzy sets. Information and Control 8, 3 (1965), 338353.[102] Zadeh, L. A. Fuzzy sets and information granularity. In Advances inFuzzy Set Theory and Applications, M. M. Gupta, R. K. Ragade, and R. R.Yager, Eds. North Holland, Amsterdam, 1979, pp. 318.[103] Zhang, B.-L., Zhang, H., and Ge, S. S. Face recognition by apply-ing wavelet subband representation and kernel associative memory. IEEETransactions on Neural Networks 15, 1 (Jan. 2004), 166177.

Documents

i Modelos Modificados de Redes Neurais Morfológicas Banca Examinadora: Este exemplar corresponde à redação final da dissertação devidamente corrigida e defendida por Estevã