60
U NIVERSIDADE F EDERAL DE G OIÁS I NSTITUTO DE I NFORMÁTICA MESTRADO EM C IÊNCIA DA C OMPUTAÇÃO K ELTON DE S OUSA S ANTIAGO Algoritmo Evolutivo de Cromossomo Duplo para Calibração Multivariada Goiânia 2013

Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

Embed Size (px)

Citation preview

Page 1: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

UNIVERSIDADE FEDERAL DE GOIÁSINSTITUTO DE INFORMÁTICA

MESTRADO EM CIÊNCIA DA COMPUTAÇÃO

KELTON DE SOUSA SANTIAGO

Algoritmo Evolutivo de CromossomoDuplo para Calibração Multivariada

Goiânia2013

Page 2: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

UNIVERSIDADE FEDERAL DE GOIÁS

INSTITUTO DE INFORMÁTICA

MESTRADO EM CIÊNCIA DA COMPUTAÇÃO

AUTORIZAÇÃO PARA PUBLICAÇÃO DE DISSERTAÇÃO

EM FORMATO ELETRÔNICO

Na qualidade de titular dos direitos de autor, AUTORIZO o Instituto de Infor-mática da Universidade Federal de Goiás – UFG a reproduzir, inclusive em outro formatoou mídia e através de armazenamento permanente ou temporário, bem como a publicar narede mundial de computadores (Internet) e na biblioteca virtual da UFG, entendendo-seos termos “reproduzir” e “publicar” conforme definições dos incisos VI e I, respectiva-mente, do artigo 5o da Lei no 9610/98 de 10/02/1998, a obra abaixo especificada, sem queme seja devido pagamento a título de direitos autorais, desde que a reprodução e/ou publi-cação tenham a finalidade exclusiva de uso por quem a consulta, e a título de divulgaçãoda produção acadêmica gerada pela Universidade, a partir desta data.

Título: Algoritmo Evolutivo de Cromossomo Duplo para Calibração Multivariada

Autor(a): Kelton de Sousa Santiago

Goiânia, 05 de Março de 2013.

Kelton de Sousa Santiago – Autor

Dr. Anderson da Silva Soares – Orientador

Page 3: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

KELTON DE SOUSA SANTIAGO

Algoritmo Evolutivo de CromossomoDuplo para Calibração Multivariada

Dissertação apresentada ao Programa de Pós–Graduação doInstituto de Informática da Universidade Federal de Goiás,como requisito parcial para obtenção do título de Mestre emCiência da Computação.

Área de concentração: Algoritmo Evolutivo, Calibraçãomultivariada, Cromossomo Duplo.

Orientador: Prof. Dr. Anderson da Silva Soares

Goiânia2013

Page 4: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

KELTON DE SOUSA SANTIAGO

Algoritmo Evolutivo de CromossomoDuplo para Calibração Multivariada

Dissertação defendida no Programa de Pós–Graduação do Instituto deInformática da Universidade Federal de Goiás como requisito parcialpara obtenção do título de Mestre em Ciência da Computação, aprovadaem 05 de Março de 2013, pela Banca Examinadora constituída pelosprofessores:

Prof. Dr. Anderson da Silva SoaresInstituto de Informática – UFG

Presidente da Banca

Prof. Dra. Telma Woerle de Lima SoaresInstituto de Informática – UFG

Prof. Dr. Clarimar José CoelhoDepartamento de Computação – PUC-GO

Page 5: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

Todos os direitos reservados. É proibida a reprodução total ou parcial dotrabalho sem autorização da universidade, do autor e do orientador(a).

Kelton de Sousa Santiago

Graduado em Análise de Sistemas pela Universidade Salgado de Oliveira -UNIVERSO. Durante o Mestrado, na Universidade Federal de Goiás - UFG,foi bolsista da CNPq e desenvolveu uma proposta para resolução do problemade seleção de amostras e variáveis para calibraçao multivariada, utilizandoalgoritmo evolutivo de cromossomo duplo.

Page 6: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

À minha esposa Débora, meus pais, Antônio e Ivonete e meu orientador Dr.Anderson, pelo grande apoio fornecido.

Page 7: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

Agradecimentos

• A Deus;

• À toda minha família, esposa, pais e irmãos pelo apoio incondicional em toda aminha vida;

• Ao meu orientador, Prof. Dr. Anderson e sua esposa Profa. Dra. Telma, pelaorientação extermamente dedicada e o imenso apoio fornecido;

• Ao professor Dr. Clarimar e ao grupo do Laboratório de Análise Multivariada(LAMV) da PUC-GO, pelo suporte e críticas construtivas concedidas;

• À Universidade Federal da Goiás, pelo apoio institucional;

• Ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) pelosuporte financeiro;

Page 8: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

“Quanto mais me aprofundo na Ciência mais me aproximo de Deus”

Albert Einstein

Page 9: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

Resumo

Santiago, K. S.. Algoritmo Evolutivo de Cromossomo Duplo para CalibraçãoMultivariada. Goiânia, 2013. 57p. Dissertação de Mestrado. Mestrado emCiência da Computação, Instituto de Informática, Universidade Federal deGoiás.

Este trabalho propõe o uso de um algoritmo genético de cromossomo duplo (AGCD)para a seleção de amostras e de variáveis de forma simultânea. A associação dos métodosalgoritmicos para a seleção de amostras e variáveis na calibração multivariada busca aconstrução de um modelo eficaz para a predição da concentração de uma determinadapropriedade de interesse.Como estudo de caso utiliza-se dados adquiridos por uma análise de material com ondasde infravermelho próximo (NIR) sobre amostras de trigo com o propósito de estimar aconcentração de proteínas existentes.Os algoritmos de seleção de amostras como o gerador de números aleatórios (GNA),Kennard-Stone (KS), particionamento de conjunto de amostras baseada na distância de Xe Y (SPXY) foram utilizados em conjunto aos algoritmos de projeção sucessivas (SPA)e o algoritmo de mínimos quadrados parciais (PLS) para seleção de variáveis, a fim dese obter resultados que sirvam como base de comparação com os resultados obtidos peloalgoritmo AGCD proposto.Os resultados apresentados pelos algoritmos de seleção de amostras (GNA, KS e SPXY)se mostraram bastante próximos, mas quando utilizados juntamente com os algoritmos deseleção de variáveis (SPA e PLS) seus resultados foram melhores em termos de RMSEP.O algoritmo evolutivo de cromossomo duplo (AGCD) alcançou resultados significativa-mente melhores em comparação aos demais algoritmos testados, atingindo uma melhoriade 97% em comparação com o algoritmo KS e uma melhoria de 63% sobre o algoritmoSPXY-PLS, o que mais se aproximou dos resultados do AGCD.

Palavras–chave

Algoritmo Genético, Cromossomo Duplo, Calibração Multivariada.

Page 10: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

Abstract

Santiago, K. S.. Evolutive Algorithm Based on Double Chromosome forMultivariate Calibration. Goiânia, 2013. 57p. MSc. Dissertation. Mestradoem Ciência da Computação, Instituto de Informática, Universidade Federal deGoiás.

This work proposes a genetic algorithm based on double chromosome (AGCD) forsamples and variables selection simultaneously. The algorithmic methods combinationfor selecting samples and variables in the multivariate calibration aims to building aneffective model for predicting the concentration of a certain interest property.As study case uses data acquired by a material analysis with near infrared waves (NIR)on wheat samples in order to estimate the proteins concentration.The algorithms for selection samples as the random number generator (RNG), Kennard-Stone (KS), sample set partitioning based on joint X and Y (SPXY) were used in con-junction with successive projection algorithms (SPA) and partial least square algorithm(PLS) for selection of variables in order to obtain results that can be used for comparisonbasis with the proposed algorithm AGCD results obtained.The presented results by samples selection algorithms (GNA, KS and SPXY) were tooclose, but when used together with variable selection algorithms (SPA and PLS) the resultswere better in RMSEP terms.The AGCD achieved significantly better results compared to the others tested algorithms,reaching an improvement of 97% in comparison with the KS algorithm and an improve-ment of 63% over SPXY-PLS algorithm, which further approached the AGCD results.

Keywords

Genetic Algoritm, Double Chromosome, Multivariate Calibration.

Page 11: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

Sumário

Lista de Figuras 10

Lista de Tabelas 11

Lista de Algoritmos 12

1 Introdução 13

2 Seleção de Amostras 162.1 Algoritmo de Seleção Aleatória 16

2.1.1 Números Pseudo-Aleatórios 172.2 Algoritmo Kennard-Stone (KS) 182.3 Algoritmo de Particionamento de Conjunto de Amostras Baseado em Distâncias

x-y Comuns (SPXY) 202.4 Algoritmo de Validação Cruzada 21

3 Seleção de Variáveis 233.1 Algoritmo das Projeções Sucessivas (SPA) 243.2 Mínimos Quadrados Parciais (PLS) 25

4 Algoritmos Genéticos (AG) 274.1 Evolução e Seleção Natural das Espécies 274.2 Terminologia Correlata 28

4.2.1 Cromossomo, Genes e Alelos 294.2.2 Aptidão (fitness) 304.2.3 Pais, Reprodução e Descendentes 304.2.4 Geração e Seleção 30

4.3 Conceitos Gerais de Algoritmos Genéticos 304.3.1 Otimização e Espaço de Busca 324.3.2 Operadores de Reprodução 33

4.3.2.1 Cruzamento ou Recombinação 344.3.2.2 Mutação 36

4.3.3 Vantagens e desvantagens de Algoritmos Genéticos 374.3.3.1 Algumas Vantagens dos Algoritmos Genéticos 384.3.3.2 Algumas desvantagens dos Algoritmos Genéticos 38

5 Materiais e Métodos 395.1 O Algoritmo Genético de Cromossomo Duplo 39

Page 12: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

6 Resultados 416.1 Algoritmos de Seleção de Amostras 416.2 Combinação entre Algoritmos de Seleção de Amostras e Variáveis 426.3 Algoritmo Genético de Cromossomo Duplo (AGCD) 43

7 Conclusão 477.1 Limitações e Trabalhos Futuros 47

Referências Bibliográficas 49

Page 13: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

Lista de Figuras

2.1 Exemplo de seleção de amostras pelo algoritmo de Kennard-Stone. 192.2 Esquema de separação dos dados nos conjuntos de validação e calibra-

ção para validação cruzada LOO. 21

4.1 Exemplos de estrutura de dados e terminologia de um AG [19]. (a)cromossomos com 10 genes e alelos binários; (b) cromossomo com 3genes e alelos correspondendo a valores reais. 29

4.2 Gráfico do espaço de busca contendo Máximos Locais e Máximo Global. 334.3 Exemplo de cruzamento de um ponto. 354.4 Exemplo de cruzamento de vários pontos. 354.5 Exemplo de cruzamento uniforme com máscara. 354.6 Exemplo de mutação inversion. 37

5.1 Exemplo de uma estrutura de cromossomo duplo 40

6.1 Gráfico de desempenho do AGCD 45

Page 14: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

Lista de Tabelas

6.1 Resultados da aplicação do algoritmo GNA para seleção de amostras. 416.2 Resultados da aplicação dos algoritmos KS e SPXY para seleção de

amostras. 416.3 Resultados da aplicação do algoritmo PNG-SPA para seleção de amos-

tras e variáveis. 426.4 Resultados da aplicação dos algoritmos KS-SPA e SPXY-SPA para sele-

ção de amostras e variáveis. 426.5 Resultados da aplicação do algoritmo GNA-PLS para seleção de amos-

tras e variáveis. 436.6 Resultados da aplicação do algoritmo KS-PLS e SPXY-PLS para seleção

de amostras e variáveis. 436.7 Resultados da aplicação do algoritmo KS-AGS e SPXY-AGS para seleção

de amostras e variáveis. 436.8 Resultados da aplicação do algoritmo AGCD para a seleção de amostras

e variáveis. 446.9 Resultados da aplicação do algoritmo AGCD para a seleção de amostras

e variáveis, com variação no número de amostras para calibração. 446.10 Comparativo dos valores de RMSEP obtidos por todos os algoritmos

executados. 45

Page 15: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

Lista de Algoritmos

4.1 Pseudocódigo de um AG típico 32

Page 16: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

CAPÍTULO 1Introdução

A Calibração Multivariada no contexto da química analítica faz referência àconstrução de um modelo matemático que possibilite estimar uma grandeza de interessecom base em valores mensurados de um conjunto de variáveis explicativas [39] ocupando-se específicamente de analisar dados químicos de natureza multivariada [32].

O principal problema da química analítica quantitativa é estimar a concentra-ção de uma ou mais espécies, a partir dos valores de determinadas propriedades físico-químicas do sistema de interesse. Para isto, é necessário construir um modelo de cali-bração, ou seja, determinar a relação entre propriedades medidas e concentrações [72].Dentre os métodos mais usados para se realizar a calibração estão as redes neurais arti-ficiais (ANN) [18], os mínimos quadrados parciais não lineares (N-PLS) [102], regreçãoem componentes principais (PCR) [44] e regressão linear múltipla (MLR) [92]. Dentre astécnicas citadas, a regressão linear múltipla é uma das mais utilizadas, por se tratar de ummodelo simples, de fácil entendimento [9] e tem se mostrado bastante eficiente, devido àevolução das técnicas de seleção de variáveis [45].

De forma similar aos outros algoritmos para calibração multivariada a MLRrequer a divisão do conjunto original de dados em dois subconjuntos conhecidos comocalibração e predição. Com o subconjunto de calibração adquire-se o modelo matemáticoque explica a relação entre as propriedades medidas e as concentrações, uma vez que estemodelo é obtido, ele é avaliado pelo subconjunto de predição. A forma mais simples parase realizar a subdivisão de amostras é a seleção aleatória, porém existem algoritmos maissofisticados tais como o algoritmo proposto por Kennard e Stone (KS) [54] e seu variante,o algoritmo de particionamento de conjunto de amostras baseada na distância de X e Y(SPXY), desenvolvido por Kawakami et al. [40]. Este último, considera as diferençasdas matrizes X (formado pelas propriedades medidas) e Y (contém a concentração domaterial de interesse) no cálculo das distâncias, desta maneira, o espaço das amostraspode ser coberto de forma mais eficaz em comparação com o KS.

A seleção de variáveis é utilizada na MLR para resolver o problema do malcondicionamento entre as variáveis em situações em que estão disponíveis mais variáveisque equações. Esta seleção permite eliminar as variáveis que não são relevantes na

Page 17: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

15

modelagem, além de reduzir o custo computacional. Com esse objetivo, Galvão et al. [5],propôs o algoritmo conhecido como algoritmo de projeção sucessivas (SPA), demostrandoresultados semelhantes ao algoritmo de análise interativa de erros (IEA) [104], e doalgoritmo de mínimos quadrados parciais (PLS) de Wold et al. [101,102].Filho [35] emsua dissertação descreve o desenvolvimento e aplicação do AG tradicional para seleçãode variáveis em calibração multivariada na determinação de Metil-terc-butil-éter e Etanolem Gasolina. Este abordagem possui algumas limitações como a necessidade de umoutro método para divisão de amostras além de obter um valor elevado do coeficientede correlação decorrente do número excessivo de variáveis incluídas no modelo e não deseu ajuste natural aos valores observados da atividade ( overfitting1).

Neste trabalho é proposto o uso de um algoritmo genético (AGCD) que adotauma estrutura de cromossomo duplo para calibração multivariada, onde a primeira partedo cromossomo contém os genes que indicam quais variáveis serão utilizadas no modelo,e a segunda parte contém os genes que indicam quais amostras serão utilizadas para ca-libração e predição. Através da abordagem de AG com cromossomos duplo, espera-sereduzir algumas das limitações do AG tradicional. A inspiração para tal idéia encontra-se,dentre outros, nos trabalhos de Wolfand e Mlynski [103], que modelaram um algoritmogenético com cromossomo duplo para o problema de roteamento de camada única paraconjuntos de transistores analógicos, possibilitando reduzir a complexidade computacio-nal de processamento e facilitando uma aplicação mais ampla do funcionamento genético.Jie-sheng et al. [53] propuseram um AG baseado em cromossomo duplo para o problemade roteamento de veículos através do qual obtiveram melhoria na velocidade de conver-gência e na capacidade de busca local. Matayoshi [64] e Gu et al [47]. também utilizaramAG com cromossomo duplo para os problemas de empacotamento em faixa 2D e a obten-ção de um diâmetro mínimo limitado para árvore geradora, respectivamente, e obtiveramvantagens semelhantes.

Como estudo experimental, emprega-se neste trabalho o mesmo conjunto dedados utilizado por Galvão et al. [43], obtido de amostras de trigo que foram inicialmenteusadas na 14a Conferência Internacional de Reflectãncia Difusa (Pennsylvania, USA)em 2008 e outrora disponível no site http://www.idrc-chambersburg.org/shootout.html.A concentração de proteina foi ecolhida como propiedade de interesse. O AGCD realizaa seleção de amostras e variáveis para calibração multivariada obtidas pela divisão deuma matriz de dados adquiridos por uma análise de material com ondas de infravermelhopróximo (NIR) sobre amostras de trigo com o propósito de estimar a concentração deproteínas existentes.

1entende-se por overfitting um ajustamento excessivo de um sistema ao conjunto de dados em que foitreinado, conduzindo a bons resultados que não se estendem à aplicação da solução a outros dados [1].

Page 18: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

16

No capítulo 2 é tratado sobre a seleção de amostras e principais algoritmos paraesse fim. No capítulo 3 apresenta-se a revisão dos principais algoritmos de seleção devariáveis. No capítulo 4 apresenta-se uma revisão sobre os algoritmos genéticos. Nocapítulo 5 são apresentados os materiais e métodos utilizados neste trabalho, além daapresentação da proposta do trabalho. O capítulo 6 apresenta os resultados obtidos e asdiscussões pertinentes. No capítulo 7 é formalizada a conclusão do trabalho e os trabalhosfuturos.

Page 19: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

CAPÍTULO 2Seleção de Amostras

A busca por métodos quimiométricos de seleção de amostras em calibração mul-tivariada tem atraído a atenção de muitos pesquisadores [33], pois existe uma necessidadede economia de trabalho experimental e computacional, uma vez que as rotinas de análisenecessitam utilizar instrumentos que precisam ser periodicamente recalibrados, por causados efeitos como por exemplo: envelhecimento, mudanças nas condições de trabalho oumanutenção regular.

Neste capítulo será abordada a base teórica referente aos algoritmos clássicosusados para seleção de amostras, os quais também adotamos para testes nessa pesquisa.São eles: Seleção aleatória, Kennard-Stone (KS), particionamento de conjunto de amos-tras baseado em distâncias x-y comuns (SPXY) e validação cruzada.

2.1 Algoritmo de Seleção Aleatória

A criação de números com ações de cunho aleatório é de grande utilidade eimportância em uma variedade de situações, como fenômenos físicos (desde a física nu-clear até engenharia de sistemas), em amostragem de uma população, em programação decomputadores, em tomadas de decisões e até mesmo em jogos como bingos e loteria [81].A imprevisibilidade em sequências numéricas é o que dá sentido à aleatoriedade, sendobastante usada em estudos estatísticos e extremamante útil na computação. Contudo, oscomputadores convencionais são máquinas que realizam operações deterministicamente,o que torna surpreendentemente rara a geração de números verdadeiramente aleatórios[99].

Deste modo, pode-se citar duas alternativas para a obtenção de uma sequênciaaleatória: A primeira, é a criação de um dispositivo específico que gere números verdadei-ramente aleatórios. Recentemente (2010), uma equipe de físicos americanos e europeuspublicaram na revista Nature os resultados da criação de um gerador quântico de núme-ros realmente aleatórios com base nos princípios fundamentais da mecânica quântica, eafirmaram: "pela primeira vez, podemos certificar que uma aleatoriedade verdadeira foiproduzida em um experimento sem um modelo detalhado do dispositivo."[75]. A segunda

Page 20: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

2.1 Algoritmo de Seleção Aleatória 18

alternativa é fazer com que o computador, atráves de algoritmos, gere uma sequência que"pareça"aleatória, que se aproxime suficientemente daquilo que seria uma amostra de nú-meros aletórios, assim, tal sequência passaria a ser chamada de pseudo-aleatória. Nestetrabalho utilizamos a segunda alternativa.

2.1.1 Números Pseudo-Aleatórios

Os geradores de números pseudo-aleatórios (GNA) [56], dentre as mais diversasaplicações, são utilizados na área de probabilidade e em algoritmos de otimização taiscomo as metaheurísticas: algoritmos genéticos (AG) [77], simulated annealing (SA) [1],greedy randomized adaptive search procedures (GRASP) [80] e pesquisa em vizinhançavariável [69,70]. Desempenham funções diversas como a fuga de ótimos locais, a cons-trução de operadores genéticos, variam a busca no espaço de soluções, etc. Os geradoresde números aleatórios influenciam fortemente a qualidade das soluções encontradas e otempo total de processamento das técnicas acima descritas quando estas são utilizadascomo métodos de resolução de vários problemas [98].

Os algoritmos geradores manipulados no computador criam uma seqüência denúmeros matematicamente calculada e deterministamente prevista, conforme uma regraprefixada. Cada número da seqüência é usada para gerar o número seguinte, então,é necessário fixar um número para começar a seqüência, o qual é conhecido como“semente” e continuam numa maneira totalmente determinística, por isso deve ser tomadomuito cuidado para que a aleatoridade esteja presente [81].

Por não se tratar de números verdadeiramente aleatórios, os geradores pseudo-aleatórios precisam conter algumas propriedades, dentre elas [85]:

• A sequência gerada, conforme já mencionado, precisa conter propriedades denúmeros verdadeiramente aleatórios, confirmados por testes estatísticos.• Fatalmente os geradores de números pseudo-aleatórios tendem a repedir um valor

a partir de um determinado ponto, assim, é desejável que um bom gerador possuaum grande período em sua série sem que haja repetições.• Um gerador deve ser rápido e usar pouca memória, devido aos estudos de simulação

necessitarem que um grande número de variáveis aleatórias sejam geradas. Estaúltima propriedade tem perdido um pouco de sua importância por causa a evoluçãodos computadores.

Os geradores de números aleatórios existentes na maioria dos compiladoresou interpretadores de linguagem de programação geram números pseudo-aleatórios queusam algoritmos matemáticos conhecidos, como os geradores lineares-congruentes, osgeradores Tausworthe, os geradores Fibonacci extendidos e geradores combinados [76].Esses geradores possuem implementações já bem desenvolvidas e bastante testadas [29].

Page 21: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

2.2 Algoritmo Kennard-Stone (KS) 19

Os passos de uma seleção aleatória são simples:

• 1. Selecione uma amostra aleatoriamente.• 2. Volte para 1 até que o número de amostras selecionadas seja suficiente.

Um GNA pode ser matematicamente definido como uma estrutura (S,µ, f ,U,g),onde S é um conjunto finito de estados, µ é uma probabilidade de distribuição em S usadapara selecionar o estado inicial s0 (semente), f : S→ S é a função de transição, U = [0, 1]é o conjunto de saída e g : S→U é a função de saída [56,97].

Como alternativa para seleção de amostras, neste trabalho utilizamos a funçãorandperm(), encontrada no Matlab, onde[89]:

• p = randperm(n) retorna um vetor que contém uma permutação aleatória dosnúmeros inteiros de 1 a n inclusive.• p = randperm(n,k) retorna um vetor contendo k inteiros únicos selecionados aleato-

riamente a partir de 1 até n, inclusive.

A função randperm() é derivada da função rand(), também do Matlab, que porsua vez, basea-se no método de Marsaglia e Tsang proposto em: “The Ziggurat methodfor generating random variables” [63]. O método de Ziggurat é um algoritmo gerador denúmeros aleatórios. Onde toma-se C como um conjunto de pontos (x,y) que se localizamabaixo de uma curva qualquer y = f (x), com uma área finita, e Z como um conjunto depontos que contenha C. Assim, o método escolhe pontos aleatórios (x,y) uniformementedo conjunto Z, de forma que se aproxime de cumprir três critérios [17]:

• Selecionar de forma rápida e fácil um ponto aleatório de Z;• Decidir se o ponto aleatório (x,y) de Z também está em C;• Tornar a razão entre as áreas de C e Z próximas de 1.

2.2 Algoritmo Kennard-Stone (KS)

Poposto em 1969, por Kennard e Stone, o algoritmo KS [54] é bem conhecidoentre os analistas químicos, além de ser encontrado em muitas outras aplicações [23].Normalmente, esse algoritmo é aplicado para realizar a seleção das amostras que irãocompor o conjunto de calibração, uma vez que este procede a seleção das amostras demaior variabilidade, ou seja, as amostras mais “externas” do conjunto total [95]. O critériode seleção é a distãncia entre elas (amostras). Veras et al. [96] utilizou uma série demodelos para auxílio da classificação de biodiesel na chamada “região do visível”, dentreeles o KS na seleção de amostras. Bouveresse e Massart [11] compararam a seleção doconjunto de amostras de transferência usando o algoritmo KS a um método baseado na

Page 22: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

2.2 Algoritmo Kennard-Stone (KS) 20

maximização da menor distância entre pontos (MSID). Os melhores resultados foramobtidos utilizando-se os algoritmos KS.

No algoritmo KS, inicialmente é realizada a determinação da distância de todasas amostras em relação ao valor médio das amostras. Então, o ponto mais distante ouo mais próximo dela é selecionado. Para este fim, o algoritmo emprega a distânciaseuclidiana dx(p,q) entre os x-vetores de cada par (p,q) das amostras calculadas comomostra a equação [40]:

dx(p,q) =√

∑Jj=1[xp( j)− xq( j)]2; p,q ∈ [1,N] (2.2.1)

Onde N é o número de amostras e J é o numero de variáveis.A amostra mais distante de s1 é selecionada (neste caso, s2). A terceira amostra

selecionada será a mais distante de s1 e s2, e em cada interação subsequente, o algoritmoseleciona a amostra que apresentar a maior distância em relação a alguma amostrajá selecionada. Este procedimento é repetido até o número de amostras que se desejeselecionar seja atingido [54].

A Figura 2.1 representa uma ilustração do critério de escolha de amostrasadotado pelo algoritmo KS. Nessa figura as amostras foram selecionadas num conjuntototal de seis amostras. As amostras A, B e E foram selecionadas nessa ordem porserem consideradas as mais representativas em relação ao espaço amostral estudado,considerando as distâncias existentes entre cada uma delas.

Figura 2.1: Exemplo de seleção de amostras pelo algoritmo deKennard-Stone.

Na figura 2.1 (a), é possível observar as duas amostras mais distantes que foramselecionadas (A e B). Em (b) mostra as menores distâncias das amostras não selecionadaspara as selecionadas. Por fim, em (c) pode-se ver a seleção da amostra com maior distância(E) das demais escolhidas.

Page 23: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

2.3 Algoritmo de Particionamento de Conjunto de Amostras Baseado em Distâncias x-y Comuns (SPXY)21

Pode-se enumerar os principais passos do algoritmo de Kennard e Stone daseguinte maneira [31]:

• 1. Selecionar a amostra mais próxima/distante da média, adicionando-a ao subcon-junto de calibração;• 2. Calcular e comparar a distância entre as demais amostras no conjunto com as

amostras já movidas para o subconjunto de calibração;• 3. Selecionar a amostra mais distante daquelas já adicionadas ao subconjunto de

calibração e retornar ao passo 2 até que o número desejado de amostras sejaalcançado.

2.3 Algoritmo de Particionamento de Conjunto deAmostras Baseado em Distâncias x-y Comuns(SPXY)

Proposto em 2005 por Galvão et al. [40], o algoritmo SPXY é um variante doalgoritmo KS, e realiza o aumento da distância definida na Eq. 2.2.1, com uma distânciada variável dependente y para o parâmetro em questão. Tal distância dy(p,q) pode sercalculado para cada par de amostras p e q, como na Equação 2.3.1 [40]:

dy(p,q) =√

(yp− yq)2 =∣∣yp− yq

∣∣ ; p,q ∈ [1,N] (2.3.1)

Onde N é o número de amostras.Galvão et. al., realizou a divisão das distâncias dx(p,q) e dy(p,q) por seus valores

máximos no conjunto de dados, a fim de atribuir a mesma importãncia para a distribuiçãodas amostras nos espaços x e y, como na Ed. 2.3.1 a seguir:

dxy(p,q) = dx(p, q)maxp,q∈[1, N ]dx(p, q) +

dy(p, q)maxp,q∈[1, N ]dy(p, q) ; p,q ∈ [1,N] (2.3.2)

Segundo Galvão et. al., o esforço computacional do algoritmo proposto é com-parável ao KS, uma vez que ambos empregam cálculos simples de distância.

O algoritmo SPXY foi usado em [27] para dividir o conjunto de amostras emconjunto de calibração e conjunto de validação utilização de espectroscopia de infraver-melho e calibração multivariada para monitorar parâmetros de qualidade e estabilidade de

Page 24: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

2.4 Algoritmo de Validação Cruzada 22

biodiesel, empregando modelos baseados em PLS (mínimos quadrados parciais) e MLR(regreção linear múltipla). Seus resultados mostraram que esses modelos podem ser utili-zados para estimar três parâmetros importantes relacionadas à estabilidade do biodiesel:estabilidade oxidativa, índice de ácido e de água.

Shamsipur, et al. [87] selecionou amostras de gasolina e trigo em conjuntos detreinamento e teste, pelo método SPSY, num trabalho que aborda a otimização por colôniade formigas como ferramenta para a seleção de comprimento de onda.

2.4 Algoritmo de Validação Cruzada

A validação cruzada é uma técnica de validação com base somente nos dadosde calibração. É semelhante ao teste de predição, uma vez que só testa preditores dedados que não são usados para a calibração, mas para a validação cruzada isto é feito porexclusão de amostras sucessivamente a partir do conjunto de calibragem próprio [66].

O procedimento Leaving One Out2 (LOO) é uma metodologia bem aceita para aimplementação da validação cruzada. Inicialmente, é excluída uma amostra do conjuntode calibração. Então, é realizada a calibração sobre as demais amostras, sendo testadana primeira amostra, comparando y com y, em que y é o valor real da propriedade deinteresse e y é o valor predito pelo modelo de calibração. A primeira amostra é reinseridano conjunto de calibração. O processo se repete excluindo a amostra dois e continua atéque cada amostra tenha sido excluída uma vez [66].

Figura 2.2: Esquema de separação dos dados nos conjuntos devalidação e calibração para validação cruzada LOO.

2o termo Leaving One Out significa: deixando um fora

Page 25: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

2.4 Algoritmo de Validação Cruzada 23

Na figura 2.2 é apresentado um exemplo da metodologia LOO, onde um conjuntode dados contendo nove amostras é utilizado. Na etapa 1 do processo, a amostra 1 éseparada do conjunto original e colocada no conjunto de validação. O modelo é calibradocom as amostras restantes e a capacidade preditiva do modelo gerado é testada com autlização da amostra 1. Em seguida, a amostra 2 é levada para o conjunto de validação. Asoito amostras restantes são utilizadas na calibração do modelo. O modelo tem novamentesua capacidade preditiva avaliada pela amostra não utilizada na calibração, nesse casoa amostra 2. O procedimento se repete até que todas as 9 amostras presentes sejamutilizadas uma única vez para a validação do modelo. Ao final, a capacidade preditivado modelo é obtida pela soma de cada uma das contribuições individuais, e em seguida,comparada com modelo gerados com diferentes conjuntos de variáveis [31].

Segundo Eastment e Krzanowski [28], o método de validação cruzada é capazde extrair o máximo de informação e, dessa forma, teoricamente é o melhor. Entretanto,conforme observado por Li et al. [57], este método tem elevados custos computacionais,especialmente quando as amostras são de grandes dimensões. Afirmam ainda, que estaé a principal razão para muitos pesquisadores proporem uma divisão dos dados em umnúmero bem menor de subconjuntos de calibração e validação.

Page 26: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

CAPÍTULO 3Seleção de Variáveis

Existe atualmente na literatura muitas propostas de metodologias para determi-nação de substâncias e/ou parâmetros físico-químicos em matrizes complexas empre-gando técnicas espectroscópicas, em especial espectroscopia vibracional (infravermelho,infravermelho próximo e RAMAN), e quimiometria [7,10,12,20,60,71,78,88,100].

A criação de equipamentos como espectrômetros capazes de gerar uma grandequantidade de informação em um curto intervalo de tempo por amostra, dá-se graçasao avanço da eletrônica e da informática, entretanto, na contrução de um modelo decalibração que relacione o sinal analítico medido com o parâmetro de interesse, nem todaa informação obtida é útil [45]. Uma das maiores dificuldades na calibração multivariadaconsiste na seleção de uma combinação de variáveis que leve à otimização do modelo.Um dos problemas práticos é na identificação de quantas e quais variáveis devem serescolhidas [34]. Dessa forma, as técnicas de seleção de variáveis têm como objetivoencontrar um subconjunto de preditores capaz de melhorar os resultados, ou em últimocaso, mantê-los constante em termos de erro.

Os métodos de seleção de variáveis buscam também produzir modelos maissimples e parcimoniosos. A busca por esse subconjunto de variáveis consiste em umproblema de otimização combinatorial conduzido por uma função objetivo. As restriçõesimpostas às combinações e as funções de custo definem a estratégia do algoritmo deseleção. Apesar de diversas propostas de algoritmos de seleção de variáveis terem sidoreportadas na literatura como em [4,37,51,67,90], este, ainda é um tópico em discussãoem quimiometria e áreas afins [45].

Neste capítulo, é apresentada duas estratégias (SPA e PLS) encontradas naliteratura para a determinação de forma automatizada do melhor modelo para geraçãodo conjunto de variáveis. Os algoritmos apresentados neste capítulo foram tambémselecionados para comparação de resultados desta pesquisa no capítulo 5.

Page 27: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

3.1 Algoritmo das Projeções Sucessivas (SPA) 25

3.1 Algoritmo das Projeções Sucessivas (SPA)

O algoritmo das projeções sucessivas (Sucessive Projection Algorithm – SPA)foi proposto em 2001 por Araújo et al. [5], com objetivo de selecionar variáveis paraa construção de modelos multivariados usando medidas espectrométricas UV-VIS. Con-tudo, ao longo dos últimos anos o SPA foi bastante usado em calibração multivariada,classificação, seleção de amostras e transferência de calibração [91].

Araújo et al., aplicou o SPA para a determinação simultânea de complexos deCo2+, Cu2+, Mn2+, Ni2+ e Zn2+, e comparou com resultados atingidos pelo algoritmogenético obtendo um erro médio quadrático de previsão (RMSEV) similar ao alcançadopelo algoritmo genético. Assim, Araújo et al., demonstrou que o SPA, a partir de opera-ções simples poderia também permitir o seu uso para a seleção de variáveis independentesque possuam mínimas relações lineares exatas ou aproximadamente exatas.

Em calibração multivariada, o SPA emprega conjuntos de calibração e validação,ambos com respostas instrumentais (X) e valores medidos por um método de referência(y). A essência do SPA consiste em realizar operações de projeção na matriz de calibraçãoXcal (Kc x J), cujas linhas e colunas correspondem a Kc amostras de calibração e Jvariáveis espectrais, respectivamente[5].

Araújo et al. projetou o SPA para a partir de cada variável J disponível para oprocedimento de seleção, construir uma cadeia ordenada de no máximo Kc variáveis,assim, cada elementro é selecionado de modo a exibir a mínima colinearidade com oanterior. Dessa maneira, a colinearidade entre as variáveis é avaliada pela correlação entreos valores da coluna da respectiva matriz de calibração Xcal . Este critério de seleção incluina cadeia não mais que Kc variáveis [5,42].

Para todas as J cadeias de variáveis construídas, é possível extrair Kc subconjun-tos de variáveis usando de um até Kc elementos de acordo com a ordem de seleção. Destemodo, um total de J x Kc subconjuntos de variáveis podem ser formados. Para escolher osubconjunto mais apropriado, constroem-se modelos de regressão linear múltipla (MLR),que são depois comparados em termos da raiz quadrada do erro médio quadrático paraum conjunto de validação (RMSEV: Root Mean Square Error of Validation) [42], comodescrito na equação:

RMSEV =√

1Kv ∑

Kvk=1(yk

v− ykv)

2 (3.1.1)

• onde ykv e yk

v são, o valor de referência e o valor previsto para o parâmetro deinteresse na k- ésima amostra de validação, respectivamente. Kv é número deamostras do conjunto de validação. Por fim, o algoritmo seleciona a cadeia devariáveis cujo modelo MLR levou ao menor RMSEV.

Page 28: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

3.2 Mínimos Quadrados Parciais (PLS) 26

Galvão et al. [41], empregou o SPA para selecionar variáveis em modelosmultivariados MLR usando uma técnica conhecida como subamostragem de forma aproduzir a variabilidade da composição de amostras reais. Os modelos obtidos foramaplicados a problemas envolvendo a determinação por espectrometria NIR em diesel dequatro parâmetros de qualidade (massa específica, teor de enxofre, e as temper aturas dedestilação T10% e T90%). A utilização de 30 iterações de subamostragem proporcionoumelhorias de 16%, 33% e 35% na precisão da previsão dos modelos PLS, SPA-MLRe GA-MLR, respectivamente, com relação aos resultados esperados para cada modeloindividual.

Caneca et al. [13], propôs o uso do SPA-MLR para a previsão da viscosidadede óleos lubrificantes a partir de medidas de refletância total atenuada na região doinfravermelho médio. Os modelos por SPA se mostraram superiores quando comparadosaos modelos PLS, PCR e GA-MLR, fornecendo um valor de RMSEP de 3,8 e um errorelativo médio de 3,2%. O RMSEP (raiz quadrada média do erro de predição) calcula adiferença entre o valor previsto pela calibração e o valor real, assim, é usado como umamedida para a precisão da calibração.

3.2 Mínimos Quadrados Parciais (PLS)

A regreção por mínimos quadrados parciais PLS (Partial Least Squares) desen-volvida por Wold et al. [101,102] é um método para regressão em fatores cujo objetivo éa predição de um conjunto de variáveis de saída Y baseado na observação de um conjuntode variáveis de entrada X. Sua aplicação em áreas como a monitoração de processos,marketing e processamento de imagens [93], deu-se devido à sua consolidação na área dequimiometria para a análise de cromatografias e espectrometrias [48,49,79].

A regressão PLS modela simultaneamente as variáveis latentes inerentes tandoem X quanto em Y. Essas variáveis latentes são usadas para definir um sub-espaço em Xque melhor se adapte à modelagem de Y [79]. A regressão PLS pode ser formada pelasetapas [79]:

• 1. Determinação da estrutura latente: Dado um conjunto de dados para treinamento,o modelo de regressão é construído. Essa etapa é chamada de calibração outreinamento• 2. Seleção de fatores: Dado um segundo conjunto independente, chamado de

conjunto de teste, predições são realizadas variando o número de fatores. O númerode fatores que fornecer a melhor predição é usado para o modelo. Esta etapacorresponde à validação do modelo.

Page 29: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

3.2 Mínimos Quadrados Parciais (PLS) 27

A principal vantagem da regressão PLS está na incorporação de maior informa-ção na fase de modelagem, resultando num modelo mais compacto para predição quandocomparado com outros métodos [65]. Uma desvantagem importante é o fato de o PLSutiliza todas as variáveis originais para construir as variáveis latentes.

Page 30: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

CAPÍTULO 4Algoritmos Genéticos (AG)

John Holland [52] dedicou-se ao estudo de processos naturais adaptáveis, tendoproposto os AG’s em meados da década de 60. Ele desenvolveu os AG’s em conjuntocom seus alunos e colegas da Universidade de Michigan nos anos 60 e 70 com o objetivode estudar formalmente o fenômeno da adaptação como ocorre na natureza e desenvolvermodelos em que os mecanismos da adaptação natural pudessem ser importados para ossistemas computacionais. Em 1975, Holland publicou seu livro intitulado Adaptation inNatural and Artificial Systems [52] e, em 1989, David Goldberg edita Genetic Algorithmsin Search, Optimization and Machine Learning [46], hoje considerados os livros maisimportantes sobre AG’s. Desde então, estes algoritmos vêm sendo aplicados com sucessonos mais diversos problemas de otimização e aprendizado de máquina.

Holland estudou a evolução natural como um processo robusto, simples e po-deroso, que poderia ser adaptado para solucionar problemas de otimização encontrandosoluções adequadas [46]. Estes algoritmos seguem o princípio da seleção natural e so-brevivência do mais apto, teoria defendida em 1859 pelo naturalista e fisiologista inglêsCharles Darwin em seu trabalho “A Origem das Espécies Pela Seleção Natural” [22].De acordo com Charles Darwin, “Quanto melhor um indivíduo se adaptar ao seu meioambiente, maior será sua chance de sobreviver e gerar descendentes”.

Este capítulo traz um estudo sobre os AGs abordando os aspectos mais impor-tantes e que serviram de inspiração para o desenvolvimento desta pesquisa. Para que hajauma melhor compreensão do surgimento e evolução dos AG’s baseados nas idéias evolu-cionistas de Darwin, será visto também uma breve introdução sobre evolução natural.

4.1 Evolução e Seleção Natural das Espécies

Charles Darwin introduziu novos conceitos no que se refere à teoria de evoluçãodas espécies, quando por volta de 1850 fez uma longa viagem de navio, visitandovários lugares observou que animais da uma determinada espécie eram ligeiramentediferentes de seus parentes em outos ecossistemas também diferentes, apresentando maioradaptação às necessidades e oportunidades oferecidas pelo seu ecossistema específico. As

Page 31: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

4.2 Terminologia Correlata 29

observações de Darwin resultaram em um conceito denominado de teoria da evolução dasespécies, levando-o a publicar um livro em 1859, chamado "A Origem das Espécies",se firmou após várias adaptações como uma das mais importantes teorias científicas damodernidade [59].

Darwin concluiu em seus estudos que nem todos os organismos que nascem,sobrevivem ou reproduzem-se. Os indivíduos mais propensos à sobrevivência são aquelesmais adaptados para enfrentar determinadas condições ambientais. Logo, estes indivíduosteriam maior chance de se reproduzir, e assim, deixar seus descendentes. Dessa forma,com o passar dos anos, as variações favoráveis tendem a permanecer, e as desfavoráveisa serem extintas.

Segundo o darwinismo (termo o qual também ficou conhecido), os preceitosbásicos do processo de evolução das espécies seriam:

• Os indivíduos, independentemente da espécie, disputam continuamente por recur-sos limitados presentes no meio ambiente;• Dentre os vários concorrentes presentes em um determinado meio, alguns, por

conterem características específicas, possuem uma melhor chance (probabilidade)de sobrevivência. Tais indivíduos são ditos mais adaptados ao ambiente em questão;• Os indivíduos que possuem uma maior probabilidade de sobrevivência, são os que

consequentemente se reproduzirão mais;• Visto que no processo de reprodução um grande número de características dos pais

são repassadas aos filhos, indivíduos que se reproduzem mais repassam mais desuas características às gerações seguintes;• Ao longo do processo de evolução, características mais desejáveis tendem a se

propagar na espécie, aumentando assim, o grau de adaptação desta ao ambiente;• O processo de reprodução é passível de falhas. O fenômeno conhecido como

mutação pode ocorrer durante a replicação e transmissão dos genes aos novosindivíduos criados. Este fonômeno é geralmente prejudicial, contudo, em algunscasos pode incorporar a ele uma característica desejável não contida no conjunto degenes dos seus pais. Desta forma, a natureza adquire a capacidade de explorar umnúmero maior de combinações e possibilidades.

4.2 Terminologia Correlata

Para uma melhor compreenção do estudo dos AGs, nesta seção é apresentadaa terminologia necessária, adaptada de [83]. Os principais termos apresentados nassubseções seguintes encontram-se resumidos na figura 4.1 abaixo.

Page 32: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

4.2 Terminologia Correlata 30

Figura 4.1: Exemplos de estrutura de dados e terminologia de umAG [19]. (a) cromossomos com 10 genes e alelos biná-rios; (b) cromossomo com 3 genes e alelos correspon-dendo a valores reais.

A fim de mapear o AG, é usada uma estrutura de dados de matriz (figura 4.1),onde cada linha representa um cromossomo e cada coluna da linha representa um alelo,ou seja, o valor assumido dentro de cada posição do cromossomo. O i-ésimo alelo devalor 1 indica que a i-ésima variável será incluída no modelo de calibração. O conjuntodos cromossomos forma uma população representada no formato de matriz.

4.2.1 Cromossomo, Genes e Alelos

A estrutura que codifica como os organismos são construídos é chamada cro-mossomo. Os cromossomos associam-se de modo a formar um organismo e seu númerovaria de uma espécie para outra [3]. Um cromossomo representa uma solução potencialpara o problema a ser abordado [21]. O conjunto completo de cromossomos de um servivo é chamado genótipo e as características do organismo gerado com base no genótipoconstituem o fenótipo [38]. Os cromossomos são codificados em um conjunto de símbo-los chamados genes. Os diferentes valores de um gene são chamados alelos. A posiçãodo gene em um cromossomo é denominada locus [19].

Para um AG, a codificação mais simples é a representação binária. Entretanto,em muitas aplicações do mundo real, a representação binária pode apresentar fraco poderde expressão [24], não sendo eficiente na representação das possíveis soluções. Comoalternativa existe a representação em ponto flutuante ou representação real, segundo aqual as soluções são arranjos de números reais, usualmente empregada quando os genessão distribuídos em um intervalo contínuo, em vez de um conjunto de valores discretos

Page 33: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

4.3 Conceitos Gerais de Algoritmos Genéticos 31

[30]. Neste trabalho emprega-se a representação binária em que o valor do alelo indica ouso (valor 1) ou não (valor 0) da variável analizada.

4.2.2 Aptidão (fitness)

O processo de seleção natural pode ser simulado nos AGs por uma função(conhecida como função de aptidão, ou fitness) que atribui um valor a cada indivíduo.Esse valor, em geral, indica a qualidade da solução que o indivíduo representa, dando-lhemaiores ou menores chances de ser selecionado para reprodução. O valor da aptidão éusado também para determinar quais indivíduos avançarão para a próxima geração [58].Para o problema de calibração usualmente emprega-se o erro de predição no conjunto deteste como função de aptidão.

4.2.3 Pais, Reprodução e Descendentes

Nos AGs, assim como na biologia, os indivíduos que participam da etapade recombinação para gerar novos indivíduos são chamados de pais. O processo dereprodução e/ou geração de filhos pode ocorrer em duas etapas, na biologia conhecidascomo sexuada e asexuada. A reprodução sexuada, que ocorre geralemte entre um parde cromossomos (pais), é conhecida como recombinação. A mutação são alteraçõesde cunho estocástico sob uma certa probabilidade aplicadas aos filhos. Esses novosindivíduos, gerados e/ou mutados são denominados em AGs como descendentes ou novassoluções [30].

4.2.4 Geração e Seleção

Uma iteração completa em um AG, na qual os indivíduos são avaliados, seleci-onados e/ou mutados e geram descendentes, é chamada de geração. A criação de novosdescendentes provoca o aumento da população, sendo nescessário um mecanismo de se-

leção que faça o controle desse crescimento.Basicamente o processo de seleção ocorre da seguinte forma: seja uma população

de tamanho Tp e seja Td o número de descendentes, assim, para a próxima geração, serãoselecionados Tp novos indivíduos entre as Tp +Td possíveis soluções, ou entre somenteos Td novos indivíduos.

4.3 Conceitos Gerais de Algoritmos Genéticos

Os algoritmos genéticos (AGs) são um ramo dos algoritmos evolutivos (AEs) ecomo tal, podem ser definidos como uma técnica de busca inspirada nos mecanismos de

Page 34: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

4.3 Conceitos Gerais de Algoritmos Genéticos 32

evolução de populações de seres vivos mais aceita atualmente sobre o processo biológiconatural. São heurísticas de otimização global [59]. Também podem ser vistos comotécnicas de computação bioinspirada [14,61] ou computação natural [8,15]. Os principaisAEs são a programação evolutiva, estratégias evolutivas e os algoritmos genéticos. Nadefinição dos algoritmos, µ é o tamanho da população e λ o número de descendentesgerados.

Uma observação importante sobre os AEs é que os indivíduos morrem apenasquando substituídos por indivíduos mais jovens com maior aptidão. Sistemas evolucio-nários deste tipo apresentam uma propriedade de que as estatísticas populacionais locais,como máximo, mínimo e médio de fitness, são funções de tempo monotonicamente não-decrescente, resultando em boas propriedades de convergência matemáticas. No entanto,tais sistemas não são nem biologicamente plausíveis nem computacionalmente desejáveisnos casos em que as regiões de aptidão são mais complexas. Intuitivamente, permitindoque os indivíduos sobrevivam e se reproduzam indefinidamente podem resultar em umaperda significativa de diversidade na população e pode aumentar a probabilidade de ficarpreso em um pico falso.

Há um número de maneiras se pode resolver este problema. Uma abordagem épermitir que os novos indivíduos possam substituir os indivíduos já existentes mesmo quecom maior aptidão. Um método mais direto é a utilização de um modelo de geraçõesem que os pais sobrevivam por exatamente uma geração e então, são completamentesubstituídos por seus descendentes. Esta é a forma que o algoritmo genético padrão tem[25,46,85],

Em relação aos outros AEs, pode-se destacar quatro diferenças dos AGs em suaformação padrão [58]:

• Os AGs fazem uso da representação binária como forma de codificação dos cro-mossomos;• O valor da função de aptidão é utilizado para selecionar os indivíduos da reprodu-

ção, não somente os indivíduos que sobrevivem;• Além da mutação, os AGs realizam combinação de informações de dois pais para

obter novos indivíduos, esse processo é chamado de recombinação de soluções;• Os AGs selecionam para a próxima geração µ indivíduos do total de (µ + λ)

indivíduos.

Basicamente, o que um algoritmo genético faz é criar uma população de pos-síveis respostas para o problema a ser tratado para depois submetê-las ao processo deevolução, constituído pelas seguintes etapas, como no algoritmo 4.1:

Page 35: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

4.3 Conceitos Gerais de Algoritmos Genéticos 33

Algoritmo 4.1: Pseudocódigo de um AG típico

Entrada: Parâmetros típicosSaída: População final de soluções

1 INICIALIZA população com soluções candidatas aleatórias;2 AVALIA cada candidata;3 repita4 SELECIONA os pais5 RECOMBINA pares de pais6 MUTA os descendentes resultantes7 AVALIA os novos candidatos8 ADICIONA os novos indivíduos à população

9 até CONDIÇÃO DE PARADA satisfeita

Os passos do pseudocódigo 4.1 (também denominados operadores genéticos poralguns altores [82,84])são descritos da seguinte maneira:

• Inicialização: primeiramente, indivíduos são selecionados aleatoriamente para paracompor a população.• Avaliação: avalia-se a aptidão dos indivíduos da população. É feita uma análise

para que se estabeleça quão bem elas respondem ao problema proposto;• Seleção: Os indivíduos com maior aptidão são selecionados para serem os pais;• Cruzamento: características das soluções escolhidas são recombinadas, gerando

novos indivíduos;• Mutação: características dos indivíduos resultantes do processo de reprodução são

alteradas (obedecendo uma certa probabilidade), acrescentando assim variedade àpopulação;• Adiciona: os indivíduos criados nesta geração são selecionados inseridos na nova

geração;• Finalização: verifica se as condições de encerramento da evolução foram atingidas,

retornando para a etapa de avaliação em caso negativo e encerrando a execução emcaso positivo.

4.3.1 Otimização e Espaço de Busca

Grande parte dos problemas científicos pode ser formulada como problemasde otimização. Existe uma série de fatores que influenciam o desempenho de um dadosistema, fatores estes que podem ser sujeitos a certas restrições. O objetivo é encontrara melhor combinação de fatores que proporcione o melhor desempenho possível para

Page 36: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

4.3 Conceitos Gerais de Algoritmos Genéticos 34

o sistema em questão [94]. Em termos matemáticos, a otimização consiste em achar asolução que represente o ponto máximo ou mínimo de uma função objetivo [55].

As técnicas de busca e otimização, geralmente, apresentam [55]:

• Um espaço de busca, onde estão todas as possíveis soluções do problema;• Uma função objetivo (também chamada de função de aptidão ou fitness), utilizada

para avaliar as soluções produzidas, associando a cada uma delas uma nota.

Seja um um problema de maximização denotado função objetivo qualquer, para aqual devemos encontrar o ponto máximo. O espaço de busca dessa função contém váriospontos de máximo (esses pontos valorizam o valor da função), contudo, a maioria nãorepresenta o maior valor que a função pode atingir, ainda assim, são chamados máximos

locais, uma vez que representam os maiores valores da vizinhança. A melhor solução paraessa função objetivo está no ponto que possui o maior valor de todo o espaço de busca,também chamado de máximo global, como pode ser visto na figura 4.2.

Figura 4.2: Gráfico do espaço de busca contendo Máximos Locaise Máximo Global.

O problema pode ser chamado unimodal quando há somente um ponto máximono espaço de busca, ou multimodal em caso contrário [94].

4.3.2 Operadores de Reprodução

Os operadores de reprodução (OR) objetivam a transformação da população acada geração de forma que sejam criados indivíduos cada vez mais capazes, o que con-

Page 37: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

4.3 Conceitos Gerais de Algoritmos Genéticos 35

tribui para que as populações evoluam a cada nova geração para obter um resultado sa-tisfatório ao final do processo. Assim, os OGs são extremamente necessários para a di-versificação da população e a manutenção das características de adaptação adquiridas nasgerações anteriores [16,82]. Os principais operadores responsáveis por essa diversificaçãoda população são os operadores de cruzamento (ou recombinação) e de mutação.

4.3.2.1 Cruzamento ou Recombinação

Existem vários modelos de seleção de indivíduos para os passos seguintes do AGque fazem uso do fitness. O modelo de seleção de indivíduos mais usado é o elitista, cujoprocesso basea-se na inclusão dos N(N≥1) melhores indivíduos da população atual paraa geração seguinte, isso garante que esses indivíduos não sejam descartados nas etapas decruzamento (ou recombinação) e mutação, esta é a principal vantagem do elitismo [16].

Contudo, o processo de seleção não gera novos indivíduos na população, so-mente seleciona os chamados pais que fornecerão suas características na etapa de repro-dução.

A principal idéia do cruzamento é a propagação das características positivas dosindivíduos mais aptos da população induzindo a troca de características entre os mesmospara a geração de novos indivíduos, de maneira que haja uma probabilidade razoável dosindivíduos resultantes deste cruzamento sejam melhores que os pais.

Na etapa de cruzamento os indivíduos selecionados como pais passam a integraruma população intermediária, podendo ser sorteado várias vezes e assim, participar doprocesso de recombinação não apenas uma vez [2].

Tradicionalmente chamada de crossover, a recombinação seleciona aleatoria-mente um ou mais pontos que divide os cromossomos em partes que em seguida sãocombinados para formar novos indivíduos [58].

Duas são as formas mais comuns de troca de segmentos nos AGs: de um e devários pontos.

No cruzamento de um ponto, o cromossomo dos pais são sinalizados a partirde uma posição aleatória, essa posição indica a divisão do cromossomo em duas partes,assim, o novo indivíduo é gerado agregando a parte inicial do primeiro pai à segunda partedo segundo pai, como pode ser visto na figura 4.3.

O cruzamento de vários pontos é bastante similar ao cruzamento de um ponto,contudo, o material genético (alelo) dos pais é dividido em N partes, como pode ser vistona figura 4.3.

Page 38: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

4.3 Conceitos Gerais de Algoritmos Genéticos 36

Figura 4.3: Exemplo de cruzamento de um ponto.

Figura 4.4: Exemplo de cruzamento de vários pontos.

No exemplo de cruzamento da figura 4.4 é possível observar que na geração dosfilhos há uma intercalação perfeita entre o material genético dos pais em vários pontos,contudo essa intercalação pode variar ficando por exemplo um filho com um intervalo dematerial genético do pai 1, dois intervalos do pai 2 e outro intervalo de material genéticodo pai 1.

Há também uma outra forma de se realizar a recombinação chamada uniforme,esta não utiliza pontos de cruzamento, ao invés disso, determina através de um parâmetroglobal com probabilidade de máscara, qual a probabilidade de cada alelo ser herdado decada pai, conforme abaixo [16].

Figura 4.5: Exemplo de cruzamento uniforme com máscara.

A figura 4.5 ilustra o método de cruzamento uniforme (método este adotado paracruzamento de indivíduos no AG proposto neste trabalho), onde o vetor de máscara possuicódificação binária, assim, o cruzamento acontece da seguinte maneira: onde na máscarahá ocorrência do valor 0, o filho 1 deve receber o alelo referente ao pai 1 naquela mesma

Page 39: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

4.3 Conceitos Gerais de Algoritmos Genéticos 37

posição, onde há ocorrência do valor 1, este novo indivíduo receberá o alelo referente aopai 2 também na mesma posição. O inverso ocorre para na criação do filho 2: quandoocorrer o valor 0, este receberá a característica da quela posição do pai 2 e quando ocorrero valor 1, receberá a característica do pai 1 na mesma posição.

O cruzamento uniforme é capaz de recombinar quaisquer posições entre dois ge-nitores, assim, apresenta um poder maior de destruição que o crossover de um e o de doispontos, os quais preservam os códigos compactos. A utilização do cruzamento uniformedeve ser em ambientes altamente elitistas como por exemplo em uma reprodução parcialda população, o que garante a permanência dos indivíduos mais aptos [73].

4.3.2.2 Mutação

Responsável pela aplicação e manutenção da diversidade genética da novapopulação [52], a mutação trabalha alterando arbitrariamente um ou mais característicasgenéticas de uma estrutura escolhida entre os novos indivíduos após o cruzamento,fornecendo meios para que essa nova descendência se torne diversificada, o que aumentaa probabilidade de percorrer todo o espaço de busca. Dessa forma, o operador demutação possui também um papel fundamental na prevenção da convergência prematura,que acontece quando a população se estabiliza com uma média de adaptação poucoadequada por causa da press˜ao evolutiva e baixa diversidade. Isto geralmente ocorre pelosurgimento de um super-indivíduo que domina o processo seletivo e, não sendo capaz degerar filhos melhores, transmite suas características por toda população.

A aplicação do operador de mutação sobre os novos indivíduos obedece umacerta taxa de probabilidade definida pelo projetista, essa taxa deve ser avaliada cuida-dosamente para não produzir resultados indesejados. A escolha do operador de mutaçãodepende em grande parte do tipo de representação usada no cromossomo [58]. Existeuma série de operadores de mutação definidos na literatura para os tipos mais comuns derepresentação, como visto em [26,36,68].

Segundo [6], se a representação binária for usada, a operação de mutação basea-se em determinar quais posições serão alteradas pela seleção aleatória com distribuiçãouniforme dada a taxa de mutação. A construção do novo indivíduo dá-se pela cópia dosgenes das posições não selecionadas e alterando os genes nas posições selecionadas como complemento do valor do gene atual. Em caso de representação por ponto flutuante, emgeral, o cromossomo é todo alterado pelos operadores de mutação e adicionam um valoraleatório, resultado de uma distribuição probabilística.

Abaixo sequem alguns tipos de mutação que podem ser aplicados em umindivíduo:

• Mutação creep: um valor sorteado é somado ou subtraído do valor do gene.

Page 40: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

4.3 Conceitos Gerais de Algoritmos Genéticos 38

• Mutação f lip: cada gene a ser mutado recebe um valor aleatório do alfabeto válido.• Mutação swap: alguns pares de genes são sorteados para troca de valores entre si.• Mutação inversion: ocorre em cromossomo de representação binária e consiste na

inversão do valor contido no gene escolhido aleatoriamente.

Em [25] Jong, propõe que a taxa de mutação seja inversamente proporcional aotamanho da população. Já Hesser e Manner [86] sugerem que uma taxa ótima de mutaçãopode ser encontrada pela expressão:

Pm = (N.L1/2)−1

• Onde N é o tamanho da população e L o comprimento dos cromossomos.

Assim como os demais parâmetros do AG, a taxa de mutação ideal dependedo problema a ser resolvido, sendo um problema em aberto na computação evolutiva,contudo, Castro [16] estima que a maioria das taxas utilizadas variam entre 0,001 e 0,1.

Figura 4.6: Exemplo de mutação inversion.

A figura 4.6 mostra a mutação simples de um ponto ocorrida em um descendente.Neste caso, a mutação consiste na inversão do valor do gene escolhido aleatoriamente.

4.3.3 Vantagens e desvantagens de Algoritmos Genéticos

Algoritmos genéticos são muito utilizados para resolver problemas complexos(inclusive problemas NP-difíceis), para aprendizado de máquinas, mas também para odesenvolvimento de programas simples. Eles têm sido, além disso, usados em algumasaplicações artísticas como pintura e música.

Castro [16], Marques [62] e Heinen e Osório [50] numeraram uma série devantagens e desvantagens como pode ser visto nas seções 4.3.3.1 e 4.3.3.2.

Page 41: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

4.3 Conceitos Gerais de Algoritmos Genéticos 39

4.3.3.1 Algumas Vantagens dos Algoritmos Genéticos

• Apresentam um bom desempenho para uma grande escala de problemas.

• São robustos e aplicáveis a uma grande variedade de problemas de otimização.

• São mais resistentes a se prenderem a ótimos locais.

• Tendo poder computacional e tempo suficiente, a solução encontrada poderá sermelhor que a solução obtida com os outros algoritmos.

AGs também são muito simples de implementar. Uma que houve a implantaçãoda parte básica do AG, só há necessidade de se escrever um novo cromossomo pararesolução de outro problema.

4.3.3.2 Algumas desvantagens dos Algoritmos Genéticos

• Dificuldade de encontrar o ótimo global exato.

• Grande possibilidade de configurações que podem complicar a resulução do pro-blema tratado.

• Requer a avaliação da função objetivo muitas vezes.

• Exigem um tempo maior de execução e/ou maior poder computacional que asdemais heurísticas.

Page 42: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

CAPÍTULO 5Materiais e Métodos

O conjunto de dados para a calibração multivariada foi o mesmo utilizado em[42], que consiste em 755 amostras de grãos de trigo obtidas por espectros de infraverme-lho próximo que foram usadas na Conferência Internacional de Reflectância Difusa em2008 (outrora encontrado em http://www.idrc-chambersburg.org/shootout.html), onde oteor de proteína foi escolhido como a propriedade de interesse.

O algoritmo de seleção de amostras pseudo-aleatório (GNA) foi aplicado utili-zando uma função Matlab chamada randperm() para separar aleatoriamente os dados emconjuntos de validação, calibração e previsão com amostras de tamanho 301, 237 e 237,respectivamente, sendo executado 20 vezes em cada instância, a fim de se obter a médiae desvio padrão dos valores de RMSEP.

O algoritmo Kennard-Stone (KS), foi aplicado para separar os dados em conjun-tos de validação, calibração e predição, com 301, 237 e 237 amostras respectivamente. Oconjunto de predição foi utilizado na avaliação de desempenho final. Os mesmos parâme-tros foram aplicados também para o algoritmo SPXY.

Os algoritmos de seleção de variáveis SPA e PSL foram aplicados em conjuntocom os algoritmos GNA, KS e SPXY. Junto ao PLS foi utilizado o parâmetro n f ac

(indicador de quantidade de variáveis latentes usadas para fazer a regressão PLS) variandode 1 a 30. As amostras possuem tamanho 301, 237 e 237 para os dados nos conjuntos devalidação, calibração e previsão respectivamente. Os algoritmos GNA-SPA e GNA-PLSforam executados 20 vezes em cada instância, a fim de se obter a média e desvio padrãodos valores de RMSEP.

5.1 O Algoritmo Genético de Cromossomo Duplo

O algoritmo genético proposto neste trabalho (AGCD) adota as principais ca-racterísticas de um AG típico, mas com um diferential: a estrutura dos cromosso duplo,onde a primeira parte do cromossomo contém os genes que indicam quais variáveis se-rão utilizadas no modelo, e a segunda parte contém os genes que indicam quais amostrasserão utilizadas na construção do modelo de calibração (figura 5.1). As amostras que não

Page 43: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

5.1 O Algoritmo Genético de Cromossomo Duplo 41

são utilizadas no conjunto de calibração são automaticamente incluídas no conjunto devalidação.

Figura 5.1: Exemplo de uma estrutura de cromossomo duplo

O conjunto de calibração e validação são separados aleatoriamente do conjuntooriginal pelo AGCD, totalizando um número de 500 amostras, as amostras restantee sãoutilizadas no conjunto de predição. Durante a simulação dos resultados o número degerações foi testado empiricamente com valores variando de 20 a 200, e o tamanho dapopulação variando de 10 a 100.

Toda a população do AG é qualificada com a função de fitness, um percentual deno mínimo 20% e no máximo 50% dos melhores indivíduos são escolhidos e divididospara emparelhamento na fase de cruzamento. O crossover usa a máscara de vetor paraindicar quais as características o novo indivíduo recebe de seus pais. Um exemplo de vetorde máscara utilizado neste trabalho pode ser visto na seção 4.3.2.1, e na figura 4.5. O vetorde máscara é criado com o mesmo tamanho do indivíduo e aleatoriamente preenchido comvalores binários (usando as funções round() e rand() do matlab respectivamente). Estevetor de máscara indica que, quando o seu valor é um, o filho recebe o alelo do pai 1, ese o valor do vetor de máscara é 0, o novo indivíduo recebe o alelo do pai 2. A taxa demutação adotada variou de 20% a 50%.

A representação de cromossomo duplo foi adotada para ajudar na simplificaçãodo processo de seleção eficiente de variáveis e amostras para a calibração multivariada.O cromossomo duplo é um vetor de duas seções que contêm tanto os valores escolhidospara as variáveis quanto para as amostras avaliadas, sendo mantidos separadas.

Todos os cálculos foram realizados por um computador de mesa com processadorIntel R© CoreTM i3-2100 (3,1 GHz), 4 GB de memória RAM e Matlab 7.13. O AGCD foiexecutado 20 vezes para cada conjunto de parâmetros de modo a se obter a média e odesvio padrão dos valores de RMSEP.

Page 44: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

CAPÍTULO 6Resultados

Neste capítulo, são apresentados os resultados da aplicação dos algoritmos deseleção de amostras GNA, KS e SPXY (seção 6.1), os resultados da aplicação dosalgoritmos conjuntos de seleção de amostras e variáveis GNA-SPA, KS-SPA, SPXY-SPA,GNA-PLS, KS-PLS, SPXY-PLS (seção 6.2) e os resultados obtidos pelo algoritmo AGCDtambém para seleção de amostras e variáveis (seção 6.3).

6.1 Algoritmos de Seleção de Amostras

A tabela 6.1 apresenta os valores de RMSEP obtidos a partir da aplicação doalgoritmo de seleção aleatória (GNA) para amostras. A Tabela 6.2 apresenta os valores deRMSEP obtidos pelos algoritmos KS e SPXY para seleção de amostras.

Tabela 6.1: Resultados da aplicação do algoritmo GNA para sele-ção de amostras.

GNAMaior RMSEP 5.7882Menor RMSEP 0.8893Média RMSEP 2.5936Desvio padrão RMSEP 1.1918

Tabela 6.2: Resultados da aplicação dos algoritmos KS e SPXYpara seleção de amostras.

KS SPXYRMSEP 2,8270 1,4567

Pode-se observar que o algoritmo SPXY para seleção de amostras (tabela 6.2)apresentou o menor valor de RMSEP em comparação aos algoritmos de seleção deamostras GNA e KS (tabela 6.1 e 6.2). Apesar do algoritmo GNA apresentar um erroRMSEP mínimo menor do que o obtido pelo algoritmo SPXY, em média, tal algoritmoapresenta um erro médio relativamente maior.

Page 45: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

6.2 Combinação entre Algoritmos de Seleção de Amostras e Variáveis 43

6.2 Combinação entre Algoritmos de Seleção de Amos-tras e Variáveis

A tabela 6.3 apresenta os resultados obtidos aplicando o algoritmo GNA-SPApara seleção de amostras e variáveis. Durante o processo de execução, o algoritmo GNA-SPA utilizou uma média de 24 variáveis, com uma variação que atingiu no mínimo 10 e nomáximo 50 variáveis. A tabela 6.4 apresenta os resultados obtidos aplicando os algoritmosKS-SPA e SPXY-SPA também para seleção de amostras e variáveis.

Tabela 6.3: Resultados da aplicação do algoritmo PNG-SPA paraseleção de amostras e variáveis.

PNG-SPAMaior RMSEP 0.2517Menor RMSEP 0.2171Média RMSEP 0.2373Desvio padrão RMSEP 0.0097

Tabela 6.4: Resultados da aplicação dos algoritmos KS-SPA eSPXY-SPA para seleção de amostras e variáveis.

KS-SPA SPXY-SPAVariáveis 38 22RMSEP 0,2491 0,2368

Os resultados obtidos pela aplicação dos algoritmos PNG, KS e SPXY paraseleção de amostras em conjunto ao algoritmo das projeções sucessivas (SPA) paraseleção de variáveis (tabela 6.3 e 6.4) apresentam um menor erro RMSEP quandocomparados com os resultados da seção anterior em que usava-se apenas algoritmos paraa seleção de amostras. Tal resultado demonstra a importância no emprego de algoritmosde seleção de variáveis para calibração multivariada.

A tabela 6.5 apresenta a média dos resultados de RMSEP para a aplicação doalgoritmo GNA-PLS para seleção de amostras e variáveis, o qual apresentou melhoresresultados com 22 variáveis latentes. A tabela 6.6 apresenta os resultados de RMSEPpara a aplicação dos algoritmos KS-PLS e SPXY-PLS respectivamente, para a seleção deamostras e variáveis. Os modelos KS-PLS e SPXY-PLS foram executados com o númerode variáveis latentes variando de 1 a 30.

Como pode ser visto nas tabelas 6.5 e 6.6, a aplicação do algoritmo de mínimosquadrados parciais (PLS) para a seleção de variáveis juntamente com os algoritmos deseleção de amostras PNG, KS e SPXY também obteve bons resultados, os quais se

Page 46: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

6.3 Algoritmo Genético de Cromossomo Duplo (AGCD) 44

Tabela 6.5: Resultados da aplicação do algoritmo GNA-PLS paraseleção de amostras e variáveis.

GNA-PLSVariáveis latentes 22RMSEP 0,1777Média RMSEP 0.2070Desvio padrão RMSEP 0.0113

Tabela 6.6: Resultados da aplicação do algoritmo KS-PLS e SPXY-PLS para seleção de amostras e variáveis.

KS-PLS SPXY-PLSVariáveis latentes 14 20RMSEP 0.2071 0.1973

equiparam aos resultados obtidos pela aplicação dos algoritmos de seleção de amostrasjuntamente ao SPA.

A tabela 6.7 mostra os resultados de RMSEP e quantidade de variáveis utilizadaspela junção dos algoritmos de seleção de amostras (KS e SPXY) ao algoritmo genéticosimples (AGS).

Tabela 6.7: Resultados da aplicação do algoritmo KS-AGS eSPXY-AGS para seleção de amostras e variáveis.

KS-AGS SPXY-AGSMédia de variáveis 123 115Maior RMSEP 0.4332 0.4065Menor RMSEP 0.2064 0.2021Média RMSEP 0.2422 0.2348Desvio padrão RMSEP 0.0162 0.0195

Como constatado nas tabelas anteriores, os resultados obtidos pelos algoritmosKS-AGS e SPXY-AGS apresentados na tabela 6.7 também são muito próximos. Issoprovavelmente é fruto da evolução das variadas técnicas de seleção de amostras e variáveisabordadas neste trabalho.

6.3 Algoritmo Genético de Cromossomo Duplo (AGCD)

A tabela 6.8 apresenta os resultados de RMSEP alcançados pelo algoritmoAGCD aplicando cromossomo duplo para selecionar amostras e variáveis. Na tabela sãomostrados os parâmetros utilizados como: número de gerações, tamanho da população etaxa de mutação e etc. O AGCD foi executado sob configurações diferentes.

Page 47: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

6.3 Algoritmo Genético de Cromossomo Duplo (AGCD) 45

Tabela 6.8: Resultados da aplicação do algoritmo AGCD para aseleção de amostras e variáveis.

AGCDConfiguração do AGCD Config. 1 Config. 2 Config. 3 Config. 4 Config. 5 Config. 6 Config. 7Taxa de mutação 0.2 0.5 0.2 0.5 0.2 0.5 0.2Taxa de melhores indivíduos 0.2 0.5 0.2 0.5 0.2 0.5 0.2Tamanho da população 10 10 50 50 100 100 100Tamanho da geração 20 20 50 50 100 150 200Variáveis (média) 97 99 95 98 97 98 95Maior RMSEP 0.0889 0.1078 0.0838 0.0982 0.0915 0.0939 0.0890Menor RMSEP 0.0674 0.0698 0.0631 0.0702 0.0638 0.0684 0.0588Média RMSEP 0.0790 0.0857 0.0744 0.0808 0.0729 0.0766 0.0724Desvio padrão RMSEP 0.0063 0.0106 0.0057 0.0083 0.0071 0.0070 0.0082

Pode-se observar na tabela 6.8 que o algoritmo genético de cromossomo duplo(AGCD) proposto, apresentou resultados melhores que todas as técnicas de seleção deamostras e variáveis, obtendo uma vantagem média de 75% em relação aos outros mode-los executados (GNA-SPA, KS-SPA e SPXY-SPA ,GNA-PLS, KS-PLS, SPXY-PLS, KS-AGS e SPXY-AGS), contudo, o AGCD faz uso de mais variáveis (em média 97 variáveis)que os modelos que utilizam o SPA (em média 28 variáveis), por exemplo. Observa-setambém que mesmo com várias mudanças na configuração do AGCD, os resultados deRMSEP mantiveram-se bastante próximos, demonstrando uma certa independência dosparâmetros. Dessa forma, optou-se pela escolha simples da configuração 1 da tabela 6.8para mais uma mudança: a diminuição no número de amostras para calibração e valida-ção.

A tabela 6.9 mostra o AGCD com a configuração 1 da tabela 6.8 com variaçãono número de amostras para calibração.

Tabela 6.9: Resultados da aplicação do algoritmo AGCD paraa seleção de amostras e variáveis, com variação nonúmero de amostras para calibração.

AGCDConfiguração do AGCD Config. 8 Config. 9 Config. 10Conjunto de calibração 400 300 275Taxa de mutação 0.2 0.2 0.2Taxa de novos indivíduos 0.2 0.2 0.2Tamanho da população 10 10 10Tamanho da geração 20 20 20Variáveis (média) 84 68 64Maior RMSEP 0.1115 0.1443 0.1750Menor RMSEP 0.0787 0.0871 0.0969Média RMSEP 0.0897 0.1145 0.1371RMSEP Sdv 0.0071 0.0164 0.0223

A figura 6.1 mostra o gráfico de desempenho do AGCD (número de amostras

Page 48: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

6.3 Algoritmo Genético de Cromossomo Duplo (AGCD) 46

disponíveis e seu respectivo RMSEP médio) formado através do número de amostrasdisponíveis na configuração 1 da tabela 6.8 e nas configurações 8, 9 e 10 da tabela 6.9.

Figura 6.1: Gráfico de desempenho do AGCD

Na figura 6.1 observa-se que à medida que o número de amostras disponíveispara que o AG o faça a separação entre calibração e validação diminui, ocorre um aumentono erro de predição, contudo, o resultado ainda é melhor que os resultados dos demaisalgoritmos estudados, ou seja, mesmo utilizando apenas 275 amostras para calibração evalidação, o erro permanece menor que o erro dos demais algoritmos.

Tabela 6.10: Comparativo dos valores de RMSEP obtidos por to-dos os algoritmos executados.

RMSEPGNA 2.5936KS 2.8270SPXY 1.4567PNG-SPA 0.2373KS-SPA 0.2491SPXY-SPA 0.2368PNG-PLS 0.2070KS-PLS 0.2071SPXY-PLS 0.1973KS-AGS 0.2422SPXY-AGS 0.2348AGCD 0.0724

Page 49: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

6.3 Algoritmo Genético de Cromossomo Duplo (AGCD) 47

A tabela 6.10 mostra um comparativo entre os valores de RMSEP obtidos portodos os algoritmos estudados neste trabalho. Para os algoritmos que contém algumfator de aleatoriedade (PNG, PNG-SPA, PNG-PLS, KS-AGS, SPXY-AGS e AGCD) éapresentada a média dos valores de RMSEP obtidos.

A comparação final dos resultados na tabela 6.10 indica que para o conjunto dedados utilizado o AGCD apresenta um melhor desempenho em termos de erro de prediçãoquando comparado às tecnicas tradicionais de seleção de amostras e de variáveis.

Page 50: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

CAPÍTULO 7Conclusão

O objetivo deste trabalho foi estabelecer um algoritmo genético com estruturade cromossomo duplo (AGCD) para seleção de amostras e variáveis de forma simultâneapara calibração multivariada. Como estudo de caso, usou-se um conjunto de dados obtidospor espectroscopia de infravermelho próximo, objetivando verificar a concentração deproteína em amostras de trigo. Para a construção de uma base para comparação, foramadotadas técnicas populares para o problema de seleção de amostras e variáveis emcalibração multivariada.

Os algoritmos KS e SPXY apresentaram resultados próximos um do outro, em-bora o SPXY tenha obtido resultado um pouco melhor. Quando algoritmos de seleçãode variáveis (SPA e PLS) foram utilizados juntamente com os algoritmos de seleção deamostras GNA, KS e SPXY, os resultados alcançados foram melhores em termos de RM-SEP do que quando utilizado somente algoritmos de seleção de amostras, evidenciando aimportância do emprego de algoritmos de seleção de variáveis para calibração multivari-ada.

Diante dos resultados fornecidos pela execução dos algoritmos estudados nestetrabalho, observa-se que o algoritmo evolutivo com cromossomo duplo conduz a resulta-dos significativamente melhores em comparação aos demais algoritmos abordados, atin-gindo melhoria de 97% em comparação com o algoritmo KS, por exemplo. O algoritmoque mais se aproximou dos resultados do AGCD foi o SPXY-PLS, e sobre o qual, oAGCD obteve um resultado 63% melhor. Assim, conclui-se que o AGCD também podeser usado para ajudar na seleção de amostras e variáveis, a fim reduzir o erro de prediçãoda calibração multivariada, com resultados equivalentes ou melhores que os obtidos pormeio dos algoritmos mais conhecidos na literatura para este fim.

7.1 Limitações e Trabalhos Futuros

Na estrutura de cromossomo duplo utiliza-se um único operador de recombina-ção para todo o cromossomo. O desenvolvimento de operadores específicos para seleçãode amostras e seleção de variáveis ainda é um desafio a ser superado.

Page 51: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

7.1 Limitações e Trabalhos Futuros 49

O número de variáveis selecionadas pelo AGCD é maior do que técnicas tradi-cionais tais como o SPA. Como estudo futuro, sugere-se o desenvolvimento de técnicasmulti-objetivo em que o número de variáveis possa ser considerado como uma funçãoobjetivo juntamente com o erro de predição.

Page 52: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

Referências Bibliográficas

[1] AARTS, E; KORST, J; Simulated Annealing and Boltzmann Machines - A Stochastic

Approach to Combinatorial Optimization and Neural Computing, John Wiley Sons,

1989.

[2] ALBRECHT, C. H.; Algoritmos Evolutivos Aplicados À Síntese E Otimização De Sis-

temas De Ancoragem. Tese de Doutorado em Ciências em Engenharia Oceânica.

Rio De Janeiro, Brasil. 2005.

[3] AMABIS, J. M; MARTHO, G. R; Curso básico de biologia, v. 3. São Paulo: Editora

Moderna. Ltda., 1985.

[4] ANDERSEN, C. M; BRO, R; Variable selection in regression - a tutorial. J. Chemom.

Special Issue Article, 2010 .

[5] ARAÚJO, M. C. U; et al; The successive projections algorithm for variable selection

in spectroscopic multicomponent analysis. Chemometrics and Intelligent Laboratory

Systems. 57: 65, 2001.

[6] BÄCK, T; FOGEL, D. B; (EDS) Evolutionary computation 1: Basic algorithms and

operators. IOP Publishing Ltd, 2000.

[7] BALABIM, R. M; SAFIEVA, R. Z; Gasoline classification by source and type based

on near infrared (NIR) spectroscopy data. Fuel 87: 1096 Gubkin Russian State

University of Oil and Gas, 119991 Moscow, Russia. 2008.

[8] BALLARD, D. H; An introduction to natural computing. MIT Press, 1999.

[9] BAPTISTELLA, M; O Uso De Redes Neurais E Regressão Linear Múltipla Na

Engenharia De Avaliações: Determinação Dos Valores Venais De Imóveis Urbanos.

Dissertação de Mestrado em Métodos Numéricos em Engenharia. UFPR. 2005.

[10] BITTNER, A; et al; Multivariate Calibration for Protein, Cholesterol and Triglyceri-

des in Human Plasma Using Short-Wave Near Infrared Spectrometry. Institut fur

Spektrochemie und Angewandte Spektroskopie, Bunsen-Kirchhoff-Str. 11, D-44 139

Dortmund, Germany. Journal of Molecular Structure 349. 341-344. 1995.

Page 53: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

Referências Bibliográficas 51

[11] BOUVERESSE, E; MASSART, D. L; Chemom. Intell. Lab. Syst. 32 , 201. 1996.

[12] BYE, E; Quantitative determination of silica mixtures by multivariate calibration ap-

plied to infrared spectroscopy. National Institute of Occupational Health, Department

of Occupational Hygiene, P.O. Box 8149, DEP., N-0033 Oslo I (Norway). Chemome-

trics and Intelligent Laboratory Systems, 14 413-417. Elsevier Science Publishers

B.V., Amsterdam. 1992.

[13] CANECA, A. R., et al. Assessment of infrared spectroscopy and multivariate tech-

niques for monitoring the service condition of diesel-engine lubricating oils. Talanta.

70: 344, 2006.

[14] CARVALHO, A. P. L. F; et al; Computação bioinspirada. In:Apostila de minicurso

XXIII JAI - Jornada de Atualização em Informática, Porto Alegre: Sociedade Brasi-

leira de Computação, p. 50. 2004.

[15] CASTRO, L. N; Fundamentals of natural computing: Basic concepts, algorithms,

and applications. CRC Press LLC, 2006.

[16] CASTRO, R. E; Otimização De Estruturas Com Multi-Objetivos Via Algoritmos

Genéticos. Tese de Doutoramento - COPPE/UFRJ, D.Sc., Engenharia Civil, 2001.

[17] CAVALCANTE, T. F. B; Um estudo comparativo entre BPSK e QAM, utilizando

OFDM, com aplicação aos sistemas móveis de quarta geração. Trabalho de Mes-

trado em Engenharia de Telecomunicações. UFF-RJ. 2010.

[18] CERQUEIRA, E. O; et al; Redes Neurais e Suas Aplicações Em Calibração Multi-

variada. ISSN 0100-4042. Quim. Nova, Vol. 24, No. 6, 864-873, 2001.

[19] COELLO COELLO, C. A; VANVELDHUIZEN, D. A; LAMONT, G. B; Evolutionary

algorithms for solving multi-objective problems. Genetic Algorithms and Evolutionary

Computation. New York, NY: Kluwer Academic, 2002.

[20] CONNIE, M. G; JOHN, F. K; Multivariate Calibration of Covalent Aggregate Fraction

to the Raman Spectrum of Regular Human Insulin. FDA, Division of Pharmaceutical

Analysis, 1114 Market St., St. Louis, Missouri 63101. DOI 10.1002/jps.21326. 2007.

[21] COX, E; Fuzzy Modeling and Genetic Algorithms for Data Mining and Exploration.

Elsevier/Morgan Kaufmann. 2005.

[22] DARWIN, C; On the origin of species by means of natural selection. London, John

Murray. 1859.

Page 54: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

Referências Bibliográficas 52

[23] DASZYKOWSKI, M; et al; Representaive Subset Selection, Analytica Chymica Acta,

V.468, 91-103. 2002.

[24] DEB, K; Multi-objective optimization using evolutionary algorithms. Wiley-

Interscience Series in Systems and Optimization. New York, NY: John Wiley Sons.

2001.

[25] DE JONG, K; An Analysis of Behavior of a Class of Genetic Adaptive Systems .Ph.D.

thesis, University of Michigan, Ann Arbor, MI. 1975.

[26] DE JONG, K. A; Evolutionary computation: A unified approach. MIT Press. 2006.

[27] DE LIRA, L. F. B; et al; Infrared spectroscopy and multivariate calibration to monitor

stability quality parameters of biodiesel. Microchemical Journal, Volume 96, issue 1,

p. 126-131. ISSN: 0026-265X DOI: 10.1016/j.microc.2010.02.014. Elsevier Science.

2010.

[28] EASTMENT, H. T; KRZANOWSKI, W. J. Cross-validatory choice of the number of

components from a principal component analysis, Technometrics 24, 73 - 77. 1982.

[29] EDDY, W. F; Random Number Generators for Parallel Processors. Jour-nal of

Computational and Applied Mathematics, v. 31, p. 63-71. 1990.

[30] EIBEN, A. E; SMITH, J. E; Introduction to evolutionary computing. Natural Compu-

ting Series. Berlin: Springer. 2003.

[31] FACCHIN, S; Técnicas de Análise Multivariável aplicadas ao Desenvolvimento

de Analisadores Virtuais. Dissertação De Mestrado. Universidade Federal Do Rio

Grande Do Sul. Escola De Engenharia. Departamento De Engenharia Química.

Programa De Pós-Graduação Em Engenharia Química. Porto Alegre. 2005.

[32] FERREIRA, M. M. C; et al; Quimiometria I: calibração multivariada, um tutorial,

Quím. Nova vol.22 n.5 São Paulo. 1999.

[33] FEUDALE, R. N; et al; Transfer of multivariate calibration models: a review, Chemo-

metrics and Intelligent Laboratory Systems, 64, 181-192. 2002.

[34] FILHO, H. A. D; Desenvolvimento de técnicas quimiométricas de compressão de

dados e de redução de ruído instrumental aplicadas a óleo diesel e madeira de

eucalipto usando espectroscopia NIR. Tese de Doutorado. UNICAMP. Campinas,

Março de 2007.

[35] FILHO, P. A. C; Algoritmo Genético na Seleção de Variáveis em Calibração Multiva-

riada de Dados Espectroscópicos. Dissertação de Mestrado. Instituto de Química,

UNICAMP. 1998.

Page 55: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

Referências Bibliográficas 53

[36] FOGEL, D. B; Evolutionary computation: Toward a new philosophy of machine

intelligence. IEEE Press. 2006.

[37] FORINA, M; et al; Selection of useful predictors in multivariate calibration. Anal.

Bioanal. Chem. 380: 397. 2004.

[38] GABRIEL, P. H. R; DELBEM, A. C. B; Fundamentos de algoritmos evolutivos. ICMC-

USP. 2008.

[39] GALVÃfO, A. R. F; Avaliação do uso de reamostratem e combinação de modelos

em regressão linear múltipla empregando o algoritmo das projeções sucessivas.

80f. Tese de Mestrado. ITA, São José dos Campos. 2012.

[40] GALVÃO, R. K. H; et al; A method for calibration and validation subset partitioning,

Talanta 67, 736 - 740. 2005.

[41] GALVÃO, R. K. H., et al. An application of subagging for the improvement of

prediction accuracy of multivariate calibration models. Chemometrics and Intelligent

Laboratory Systems. 81: 60. 2006.

[42] GALVÃO, R. K. H.; et al; Aspects of the successive projections algorithm for vari-

able selection in multivariate calibration applied to plasma emission spectrometry,

Analytica Chimica Acta, 443:107. 2001.

[43] GALVÃO, R. K. H, et al; Multi-Core Computation in Chemometrics: Case Studies of

Voltammetric and NIR Spectrometric Analyses. J. Braz. Chem. Soc. , Vol. 21, No. 9,

1626-1634. 2010.

[44] GEMPERLINE, P. J; et al; Nonlinear multivariate calibration using principal compo-

nents regression and artificial neural networks. Anal. Chem. 63 (20), pp 2313â“2323.

1991.

[45] GOMES, A. A; Algoritmo das Projeções Sucessivas aplicado à seleção de variáveis

em regressão PLS. Dissertação de Mestrado. João Pessoa, UFPB. 2012.

[46] GOLDBERG, D; Genetic Algorithms in Search, Optimization, and Machine Learning

. New York: Addison-Wesley. 1989.

[47] GU, F; et al; A Bounded Diameter Minimum Spanning Tree Evolutionary Algorithm

Based on Double Chromosome. Genetic and Evolutionary Computation Conference,

Proceedings, Shanghai, China, 2009.

[48] HAALAND, D. M; THOMAS, E. V; Partial least-squares methods for spectral analy-

sis. 1. relation to other quantitative calibration methods and the extraction of quanti-

tative information. Analytical Chemistry, 60(11):1193-1202. 1988.

Page 56: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

Referências Bibliográficas 54

[49] HAALAND, D. M; THOMAS, E V; Partial least-squares methods for spectral analy-

sis. 2. application to simulated and glass spectral data. Analytical Chemistry,

60(11):1202-1208. 1988.

[50] HEINEN, M. R; OSÓRIO, F. S; Algoritmos Genéticos Aplicados ao Problema de

Roteamento de Veículos. Universidade do Vale do Rio dos Sinos (UNISINOS).

Hifen, Uruguaiana, V. 30, no 58. 2006.

[51] HEYDEN, Y. V; ANDRIES, J. P. M.; GOODARZI, M; Variable Selection and Reduc-

tion in Multivariate Calibration and Modelling. LC-GC Europe; Vol. 24 Issue 12, p642.

2011.

[52] HOLLAND, J; Adaptation in Natural and Artificial Systems. Ann Arbor, MI: University

of Michigan Press. 1975.

[53] JIE-SHENG, W; et al; Solving Capacitated Vehicle Routing Problem Based on

Improved Genetic Algorithm. Sch. of Electron. Inf. Eng., Liaoning Univ. of Sci.

Technol., Anshan, China. 60-64. 2011.

[54] KENNARD, R.W; STONE, L.A.; Computer aided design of experiments, Technome-

trics, 11:137. 1969.

[55] LACERDA, E. G. M; Carvalho, A. C. P. L; Introdução aos algoritmos genéticos. In:

Galvão, C.O., Valença, M.J.S. (orgs.) Sistemas inteligentes: aplicações a recursos

hídricos e ciências ambientais. Porto Alegre: Ed. Universidade/UFRGS : Associação

Brasileira de Recursos Hídricos. p. 99-150. Coleção ABRH de Recursos Hídricos.

1999.

[56] L’ECUYER, P; Software for uniform random number generation: Distinguishing the

good and the bad. In Proceedings of the 2001 Winter Simulation Conference. 2001.

[57] LI, B; et al; Model selection for partial least squares regression. Chemometrics and

Intelligent Laboratory Systems 64, 79 - 89. 2002.

[58] LIMA, T. W; Estruturas de Dados Eficientes para Algoritmos Evolutivos Aplicados

ao Projeto de Redes, São Carlos. Tese de Doutoramento - Instituto de Ciências

Matemáticas e de Computação. ICMC, USP. 2009.

[59] LINDEN, R; Algoritmos Genéticos: Uma importante ferramenta da inteligência com-

putacional. 2a Edição. Brasport. ISBN 978-85-7452-373-66. Rio de Janeiro. 2008.

[60] LIRA, L. F. B; et al. Prediction of properties of diesel/biodiesel blends by infrared

spectroscopy and multivariate calibration. Fuel 89: 405-409. 2010.

Page 57: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

Referências Bibliográficas 55

[61] MANGE, D; ed. Bio-inspired computing machine. Informatique. EPFL Press. 1998.

[62] MARQUES, F. A. P; Modelagem E Controle De Nível Do Tubulão De Uma Caldei-

rade Vapor Aquatubular De Uma Refinaria De Petróleo. Mestrado em Engenharia

Elétrica. COPPE/UFRJ,M.Sc., Engenharia Elétrica. 2005.

[63] MARSAGLIA, G; TSANG, W. W; The ziggurat method for generating random varia-

bles, Journal of Statistical Software, Vol. 5, Issue 8, Pages 1-7. 2000.

[64] MATAYOSHI, M; Double Chromosome GA with Corner Junction for Solving the 2D

Strip Packing Problem. Inst. fur Theor. Elektrotech. und Messtech. Okinawa Int.

Univ., Okinawa, Japan. 1110-1116. 2010.

[65] MARTENS, H; MARTENS, M; Multivariate Analysis of Quality, An Introduction. Wiley,

West Sussex. 2001.

[66] MENDES, L. P. V; Algoritmos genéticos aplicados a séries temporais em mercados

cambiais. Trabalho de Mestrado em Gestão - Ciência Aplicada à Decisão. Facul-

dade de Economia da Universidade de Coimbra. 2008.

[67] MICHAEL, J. M; GERARD, L. C; CLIFFORD, S; Variable Selection in Multivariate

Calibration of a Spectroscopic Glucose Sensor. Texas AMUniversity, Biomedical En-

gineering Program, 233 Zachry Engineering Center (M.J.McS., G.L.C.) and Depart-

ment of Statistics (C.S.), College Station, Texas 77843. Volume 51. 1997.

[68] MICHALEWICZ, Z; FOGEL, D; How to solve it: Modern heuristics. Springer-Verlag

New York, Inc. 2004.

[69] MLADENOVIC, N. A; Variable Neighbourhood Algorithm - A New Metaheuristic For

Combinatorial Optimization, Presented at Optimization Days, Montreal. 1995.

[70] MLADENOVIC, N. A; HANSEN, P; Variable Neighbourhood Search , Computers

and Operations, v. 24, pp. 1097-1100. 1997.

[71] MOREIRA, E. D. T; et al; Near infrared reflectance spectrometry classification of

cigarettes using the successive projections algorithm for variable selection. Talanta.

79: 1260. 2009.

[72] NETO, B. B. et al. 25 Anos De Quimiometria No Brasil. Quim. Nova, Vol. 29, No. 6,

1401-1406. 2006.

[73] PACHECO, M. A. C.; Algoritmos Genéticos: Princípios E Aplicações. ICA: Laborató-

rio de Inteligência Computacional Aplicada. Departamento de Engenharia Elétrica.

PUC-RJ. 1999.

Page 58: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

Referências Bibliográficas 56

[74] PAPPA, G. L; Seleção de Atributos Utilizando Algoritmos Genéticos Multiobjetivos.

2002. 85 f. Dissertação de Mestrado em Informática Aplicada - Programa de Pós-

Graduação em Informática Aplicada da Pontifícia Universidade Católica do Paraná,

Curitiba. 2002.

[75] PIRONIO, S; et al; Random numbers certified by Bell’s theorem. Nature. Vol.: 464,

1021-1024. DOI: 10.1038/nature 09008. 2010.

[76] PORTNOI, M; Probabilidade, Variáveis Aleatórias, Distribuição De Probabilidades

E Geração Aleatória. Conceitos sob a ótica de Avaliação de Desempenho de

Sistemas. Edição 26.6.2010. UNIFACS. 2005.

[77] REEVES, C. R; Modern Heuristics Techiques for Combinatorial Problems, Halsted

Press: an Imprint of John Wiley Sons,Inc., 1993.

[78] REN, M; ARNOLD, M. A; Comparison of multivariate calibration models for glucose,

urea, and lactate from near-infrared and Raman spectra. Anal Bioanal Chem (2007)

387:879â“ 888. DOI 10.1007/s00216-006-1047-4. 2007.

[79] RENTERÍA, R. P; Algoritmos para regressão por mínimos quadrados parciais. Tese

de Doutorado. RJ. PUC-RIO, Departamento de Informática. 2003.

[80] RESENDE, M. G. C; RIBEIRO, C. C; Greedy Randomized Adaptive Search Pro-

cedures (GRASP), State-of-the-Art Handbook of Metaheuristics (F. Glover e G. Ko-

chenberger, eds.), 219-249, Kluwer. 2002.

[81] ROSA, F. H. F. P.; JUNIOR, V. A. P; Gerando Números Aleatórios. MAP-131

Laboratório de Matemática Aplicada. 2002.

[82] ROSA, T. O; LUZ, H. S; Conceitos Básicos de Algoritmos Genéticos: Teoria e

Prática. In: XI Encontro de Estudantes de Informática do Tocantins, Palmas. 2009.

[83] SAIT, S. M; YOUSSEF, H Interative computer algorithms with applications in engine-

ering: Solving combinatorial optimization problems. Los Alamitos, CA: IEEE Com-

puter Society. 1999.

[84] SANTOS, J. S; Mineração de Dados Utilizando Algoritmos Genéticos. Trabalho de

Conclusão de Curso (Ciência da Computação). Universidade Federal da Bahia.

Salvador - Bahia. 2008.

[85] SANTOS, M. P; Introdução à Simulação Discreta. Departamento de Matemática

Aplicada. Instituto de Matemática e Estatística. UERJ. 1999.

Page 59: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

Referências Bibliográficas 57

[86] SHAFFER, R; Practical Guide to Genetic Algorithms. Naval Research

Laboratory, Chemistry Division Code 6110. Washington, DC 20375 In:

http://www.dracica.sk/diplom/lit/practga.html. Acessado em: 10/2012.

[87] SHAMSIPUR, M; et al; Ant colony optimisation: a powerful tool for wavelength

selection. Journal Of Chemometrics J. Chemometrics; 20: 146-157. 2006.

[88] SIMÕES, S. S; Desenvolvimento de métodos validados para a determinação de

captopril usando espectrometria NIRR e calibração multivariada. Tese de douto-

rado, João Pessoa, UFPB, 2008.

[89] Site: Mathworks. R2012a Documentation - Randperm. Disponível em:

http://www.mathworks.com/help/techdoc/ref/randperm.html. Acessado em agosto,

2012.

[90] SOARES, I. P; et al; Multivariate Calibration by Variable Selection for Blends of

Raw Soybean Oil/Biodiesel from Different Sources Using Fourier Transform Infrared

Spectroscopy (FTIR) Spectra Data. Energy Fuels 22, 2079-2083. 2008.

[91] SOARES, S. F. C; Um novo critério para seleção de variáveis usando algoritmo das

projeções sucessivas. Dissertação de Mestrado. UFPB, Departamento de Química.

João Pessoa-PB. 2010.

[92] SUN, D; Infrared Spectroscopy For Food Quality Analysis And Control. Academic

Press. ISBN: 978-0-12-374136-3. 1st Ed. 2009.

[93] TENENHAUS, M; La Régression PLS, Théorie et Pratique. Technip, Paris, 1998.

[94] TANOMARU, J; Motivação, Fundamentos e aplicações de Algoritmos genéticos. In:

Procesings do II Congresso Brasileiro de Redes Neurais, v.1, p. 331-411. Curitiba,

Brasil. 1995.

[95] VALDERRAMA, P; POPPI, R. J; Avaliação De Figuras De Mérito Em Calibração.

Multivariada Na Determinação De Parâmetros De Controle De Qualidade Em

Indústria Alcooleira Por Espectroscopia No Infravermelho Próximo. Dissertação De

Mestrado. UNICAMP. Laqqa â“ Laboratório De Quimiometria Em Química Analítica.

Campinas. 2005.

[96] VERAS, G; et al; Classificação de biodiesel na região do visível. Quím. Nova, São

Paulo, v. 35, n. 2. 2012.

[97] VIEIRA, C. E. C; et al; Geradores de Números Aleatórios. PUC-RioInf.MCC22/04.

2004.

Page 60: Algoritmo Evolutivo de Cromossomo Duplo para Calibração ...repositorio.bc.ufg.br/tede/bitstream/tede/3724/5/Dissertação... · (LAMV) da PUC-GO, pelo suporte e críticas construtivas

Referências Bibliográficas 58

[98] VIEIRA, C. E. C; et al; Um Estudo Comparativo entre Três Geradores de Números

Aleatórios. PUC-RioInf.MCC16/04. 2004.

[99] VIGNATTI, A. L; Aleatoriedade e Suas Aplicações em Projeto de Redes e Sistemas

Distribuídos. Projeto 552342/01-7.

[100] WILLIAMS, P; NORRIS, K; Near-Infrared Technology in the Agricultural and Food

Industries. St. Paul, USA : Amer Assn of Cereal Chemists. 2001.

[101] WOLD, S.; et al; Pattern recognition: finding and using regularities in multivariate

data. In: Martens, J., editor, Proc. Iufost Conf. Food Research And Data Analysis,

London. Applied Science Publications. 1983.

[102] WOLD, S; MARTENS, H.; WOLD, H; The multivariate calibration problem in che-

mistry solved by the pls method. In: Ruhe, A.; Kagstrom, B., editors, PROC. CONF.

MATRIX PENCILS, p. 286-293, Heidelberg. Springer Verlag. 1983.

[103] WOLFAND, H. G; MLYNSKI, D. A. A New Genetic Singlebyer Routing Algorithm

for Analog Transistor Arrays. Inst. fur Theor. Elektrotech. und Messtech., Karlsruhe

Univ. 655-658 vol.4. 1996.

[104] ZHANG, J.; RIVARD, B.; ROGGE, D.M; The Successive Projection Algorithm (SPA),

an Algorithm with a Spatial Constraint for the Automatic Search of Endmembers in

Hyperspectral Data. Sensors, 8, 1321-1342. 2008.