12
Programação Genética Econométrica Aplicada a Problemas de Regressão em Conjuntos de Dados Seccionais André Luiz Farias Novaes 1 , Ricardo Tanscheit 1 , Douglas Mota Dias 2 1 Departamento de Engenharia Elétrica PUC-Rio Rua Marquês de S. Vicente, 225, 22.451-290 Rio de Janeiro, RJ 2 Departamento de Eletrônica e Telecomunicações UERJ Rua S. Francisco Xavier, 524, 20.550-900 Rio de Janeiro, RJ [email protected], [email protected], [email protected] Abstract. This article proposes black-box parsimonious linear models for regression tasks in cross-sectional datasets. Genetic Programming (GP) is employed to perform the evolution process of models, composed of distinct regressors. The algorithm for model generation algorithm of models, called Econometric Genetic Programming (EGP), when compared to benchmarks for five datasets, shows competitive results in terms of accuracy for most cases. Besides, the use of EGP helps identifying introns and combatting bloat through statistical significance. Resumo. Este artigo propõe modelos lineares, parcimoniosos, do tipo caixa- preta, para tarefas de regressão em conjuntos de dados seccionais. A Programação Genética (PG) é a ferramenta utilizada para realizar o processo de evolução de modelos, constituídos de distintos regressores. O algoritmo gerador de modelos, chamado de Programação Genética Econométrica (PGE), quando comparado com benchmarks para cinco conjuntos de dados, apresenta resultados competitivos em acurácia na maior parte dos casos. Além disso, oferece auxílio na identificação de introns e no combate ao bloat por significância estatística. 1. Introdução Considerando que muitos apontam o ano de 1663 como o marco inicial da estatística [Willcox 1938], pode-se dizer que a tarefa de regressão é tão antiga quanto a própria estatística. Introduzida por [Koza 1992], a Programação Genética (PG) [Poli et al. 2008] é uma ferramenta também aplicável à tarefa de regressão. Esta pode ser realizada em tipos distintos de conjuntos de dados [Wooldridge 2006] entre eles, dados de corte seccional/transversal, considerados coletados como Amostra Aleatória (AA). Em tal tarefa, o princípio da parcimônia [Domingos 1999] é aplicado da seguinte forma: deseja-se regredir uma variável de resposta em função do menor número possível de variáveis independentes, preferencialmente a partir de um modelo que tenha a estrutura mais simples possível. Em regressão, não é raro que se utilizem modelos caixa-preta, caracterizados por não ter informação a priori disponível [Giustolisi and Savic 2006] e orientados ao conjunto de dados aos quais são submetidos, buscando descobrir a forma funcional e os respectivos parâmetros provenientes da forma funcional, que usualmente precisam ser estimados. XIII Encontro Nacional de Inteligˆ encia Artificial e Computacional SBC ENIAC-2016 Recife - PE 469

Programação Genética Econométrica Aplicada a Prob lemas de ... · C onsiderando que muitos apontam o ano de 1663 como o marco inicial da estatística [Willcox 1938] , pode -se

Embed Size (px)

Citation preview

Page 1: Programação Genética Econométrica Aplicada a Prob lemas de ... · C onsiderando que muitos apontam o ano de 1663 como o marco inicial da estatística [Willcox 1938] , pode -se

Programação Genética Econométrica Aplicada a Problemas

de Regressão em Conjuntos de Dados Seccionais

André Luiz Farias Novaes1, Ricardo Tanscheit

1, Douglas Mota Dias

2

1Departamento de Engenharia Elétrica – PUC-Rio

Rua Marquês de S. Vicente, 225, 22.451-290 Rio de Janeiro, RJ

2Departamento de Eletrônica e Telecomunicações – UERJ

Rua S. Francisco Xavier, 524, 20.550-900 Rio de Janeiro, RJ

[email protected], [email protected], [email protected]

Abstract. This article proposes black-box parsimonious linear models for

regression tasks in cross-sectional datasets. Genetic Programming (GP) is

employed to perform the evolution process of models, composed of distinct

regressors. The algorithm for model generation algorithm of models, called

Econometric Genetic Programming (EGP), when compared to benchmarks for

five datasets, shows competitive results in terms of accuracy for most cases.

Besides, the use of EGP helps identifying introns and combatting bloat

through statistical significance.

Resumo. Este artigo propõe modelos lineares, parcimoniosos, do tipo caixa-

preta, para tarefas de regressão em conjuntos de dados seccionais. A

Programação Genética (PG) é a ferramenta utilizada para realizar o

processo de evolução de modelos, constituídos de distintos regressores. O

algoritmo gerador de modelos, chamado de Programação Genética

Econométrica (PGE), quando comparado com benchmarks para cinco

conjuntos de dados, apresenta resultados competitivos em acurácia na maior

parte dos casos. Além disso, oferece auxílio na identificação de introns e no

combate ao bloat por significância estatística.

1. Introdução

Considerando que muitos apontam o ano de 1663 como o marco inicial da estatística

[Willcox 1938], pode-se dizer que a tarefa de regressão é tão antiga quanto a própria

estatística. Introduzida por [Koza 1992], a Programação Genética (PG) [Poli et al. 2008]

é uma ferramenta também aplicável à tarefa de regressão. Esta pode ser realizada em

tipos distintos de conjuntos de dados [Wooldridge 2006] – entre eles, dados de corte

seccional/transversal, considerados coletados como Amostra Aleatória (AA). Em tal

tarefa, o princípio da parcimônia [Domingos 1999] é aplicado da seguinte forma:

deseja-se regredir uma variável de resposta em função do menor número possível de

variáveis independentes, preferencialmente a partir de um modelo que tenha a estrutura

mais simples possível.

Em regressão, não é raro que se utilizem modelos caixa-preta, caracterizados por

não ter informação a priori disponível [Giustolisi and Savic 2006] e orientados ao

conjunto de dados aos quais são submetidos, buscando descobrir a forma funcional e os

respectivos parâmetros provenientes da forma funcional, que usualmente precisam ser

estimados.

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 469

Page 2: Programação Genética Econométrica Aplicada a Prob lemas de ... · C onsiderando que muitos apontam o ano de 1663 como o marco inicial da estatística [Willcox 1938] , pode -se

Este artigo tem como objetivo principal propor modelos interpretáveis de

elevada acurácia, parcimoniosos, do tipo caixa-preta, para tarefas de regressão em

conjuntos de dados seccionais por meio da combinação de ferramental estatístico e de

computação evolucionária. O algoritmo gerador de modelos deste artigo é denominado

Programação Genética Econométrica (PGE).

Os principais precursores da PGE – particularmente os que combinam elementos

de regressão múltipla e PG – apresentam limitações em alguns aspectos. Em [Giustolisi

and Savic 2006], por exemplo, não é realizada a estimação no âmbito dos regressores, o

que pode gerar multicolinearidade elevada. Em [Davidson et al. 2003], significância

estatística não é utulizada como ferramenta de seleção de regressores. Os modelos

apresentados em [Arnaldo et al. 2014] carecem de interpretabilidade dos parâmetros.

Alguns destes trabalhos, embora aplicáveis a problemas práticos, também carecem de

fundamentação teórica necessária ao pleno uso de tais ferramentas – não é o foco deste

artigo explorar tais particularidades. A PGE se utiliza de boa parte dos elementos

utilizados por seus precursores, ao mesmo tempo que busca preencher as lacunas

deixadas pelos mesmos, quando da união de modelos de regressão com PG.

Este artigo é organizado da seguinte forma: as seções 2 e 3 descrevem a PG e

econometria – bases da PGE; a seção 4 apresenta a PGE em si; a seção 5 trata dos

Experimentos e Resultados, seguida da Conclusão.

2. Econometria

O modelo tradicional da econometria [Mardia et al. 1980] é um modelo estatístico que

pode ser escrito sob a forma 𝒀 = 𝑿𝜷 + 𝑼.

Se 𝒀 = 𝒚, 𝑼 = 𝒖 (vetores coluna), e 𝜷 for uma matriz 𝑘 x 1, tem-se o modelo

de regressão linear múltipla:

𝒚 = 𝑿𝜷 + 𝒖, (1)

onde 𝒚 = [𝑦1 𝑦2 ⋯ 𝑦𝑛]T e 𝑿 ≡ [𝒙1 … 𝒙𝑖 … 𝒙𝑘], representam as observações das

variáveis dependente e independente e 𝜷𝑘 x 1 faz o ajuste de 𝑿 a 𝒚. Como este pode não

ser perfeito, inclui-se o termo de erro 𝒖𝑛 x 1 = [𝑢1 𝑢2 ⋯ 𝑢𝑛]T. Como 𝜷 é desconhecido,

utiliza-se a amostra de 𝑛 observações para que se possa produzir, através de seu

estimador , alguma informação a ele relacionada.

2.1. Estimação por Mínimos Quadrados Ordinários (MQO)

A estimação por MQO é expressa matematicamente por [Ashlagi et al. 2010]:

min𝜷

‖𝒚 − 𝑿𝜷‖2 = min𝜷

(𝒚 − 𝑿𝜷)T(𝒚 − 𝑿𝜷) (2)

O estimador é o valor que soluciona (2). Este é uma função estritamente convexa de

𝜷 e, consequentemente, tem um ótimo único , determinado pelas equações em

𝑿T(𝒚 − 𝑿) = 𝟎, que é o vetor de derivadas de (2) em relação aos elementos de 𝜷. A

solução de (2) é dada por:

= (𝑿T𝑿)−1𝑿T𝒚. (3)

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 470

Page 3: Programação Genética Econométrica Aplicada a Prob lemas de ... · C onsiderando que muitos apontam o ano de 1663 como o marco inicial da estatística [Willcox 1938] , pode -se

2.2. Testes de Hipóteses

Hipótese é uma conjectura sobre a relação entre a variável dependente e um ou mais

regressores, expressa através de valores numéricos para 𝜷. A maneira clássica de se

realizar um Teste de Hipótese (TH) é inicialmente formular a hipótese que se deseja

testar (𝑯0), definir uma estatística de teste adequada e, em seguida, propor um critério

de decisão para rejeitar ou não rejeitar a hipótese.

Verificando-se, na prática, as hipóteses para aleatoriedade de 𝒖 [Davidson and

Mackinnon 1993] – o que de fato ocorre para os modelos nos conjuntos de dados deste

artigo –, é um vetor de variáveis aleatórias tal que |𝑿 ~ N(𝜷, 𝜎2(𝑿T𝑿)−1).

Usualmente, estima-se 𝜎2 por 2 = T 𝑛 − 𝑘 − 1⁄ , fazendo com que:

𝑇 =𝑖−𝛽𝑖

𝑆𝐸(𝑖) √𝑛⁄ ~ 𝑡 (𝑛 − 𝑘 − 1), (5)

onde 𝑇 representa a estatística de teste utilizada neste artigo, que é uma variável

aleatória com distribuição conhecida sob 𝑯0. O critério de decisão baseia-se em: se 𝑇𝑜𝑏𝑠

– a realização de 𝑇 quando os valores de 𝑖, 𝛽𝑖, 𝑆𝐸(𝑖) e √𝑛 são substituídos em (5) – é

um valor entre −𝑡α 2⁄ (𝑛 − 𝑘 − 1) e 𝑡𝛼 2⁄ (𝑛 − 𝑘 − 1), é muito provável, sob o nível de

confiança de 1 − 𝛼, que 𝑇𝑜𝑏𝑠 seja de fato um valor oriundo da distribuição de 𝑇 sob 𝑯0

– nesse caso, deve-se não rejeitar 𝑯0. Caso contrário, rejeitar-se-á 𝑯0.

3. Programação Genética (PG)

A PG evolui uma população de programas de computador, geração a geração,

transformando estocasticamente uma população em uma nova a partir dos operadores

genéticos de mutação e cruzamento. Espera-se que os novos programas sejam melhores

– em função de uma métrica de aptidão/acurácia [Poli et al. 2008]. Os programas são

usualmente representados por árvores, que podem ser um programa ou parte de um

programa (gene, ramo ou sub-árvore). Um programa pode ser composto por um

conjunto de genes (estrutura multigênica).

Como em outros algoritmos evolucionários, os indivíduos da população inicial

da PG são tipicamente gerados de maneira aleatória – há alguns métodos que

desempenham essa tarefa, tais como full, grow e ramped half-and-half – [Poli et al.

2008]. Construída a população inicial, a PG propõe a evolução de seus indivíduos

através de uma estrutura de repetição. A população inicial é exposta a rotinas que

buscam fazer com que, em média, os indivíduos das populações/gerações subsequentes

sejam melhores do que os indivíduos das populações/gerações anteriores. Este processo

finda quando uma solução com acurácia aceitável é encontrada ou uma condição de

parada é atingida. A determinação e o cálculo da acurácia são realizados somente após a

definição do conjunto de terminais, Ω, e do conjunto de funções. A definição de Ω e do

conjunto de funções depende do tipo de problema em estudo. O conjunto de terminais Ω

pode ser composto de variáveis e constantes efêmeras, além de funções sem

argumentos. O conjunto de funções pode ser composto por funções aritméticas,

matemáticas, booleanas, condicionais ou de repetição.

A (métrica de) acurácia ou função objetivo é a grandeza responsável por

identificar quais regiões do espaço de busca podem ser determinadas como as mais

prováveis de fornecer programas que solucionem, plena ou aproximadamente, a tarefa

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 471

Page 4: Programação Genética Econométrica Aplicada a Prob lemas de ... · C onsiderando que muitos apontam o ano de 1663 como o marco inicial da estatística [Willcox 1938] , pode -se

de interesse. O espaço de busca a ser explorado pela PG, definido como todas as

possíveis soluções para a tarefa em questão, também é função do conjunto de terminais

(Ω) e do conjunto de terminais e funções (𝜗).

4. Programação Genética Econométrica

O algoritmo gerador de modelos (PGE) disponibiliza uma família de modelos de

regressão – na forma de (1), com cada um dos indivíduos tendo um conjunto de

regressores 𝑋 – em função do conjunto de dados ao qual é aplicado. O modelo de

melhor acurácia é aquele superior aos outros de sua família em função de uma métrica

de comparação.

4.1. Métrica de Comparação

Solucionar (2) é também minimizar a Raiz do Erro Quadrático Médio (REQM). Embora

a REQM seja uma possível medida de ajuste [Wang and Bovik 2009], é comum que se

utilize o R2, construído a partir do R2, não somente para avaliar modelos como também

para compará-los.

4.2. Inclusão de Variáveis Estatisticamente Significantes

O ponto mais interessante do R2 é a penalização à inclusão de variáveis independentes

ao modelo caso elas não forneçam melhoria no grau de explicação dos componentes de

𝑿 a 𝒚 [Wooldridge 2006]. Sendo 𝒙𝑘+1 um vetor de dimensões 𝑛 x 1, o que se realiza na

prática quando se adiciona uma variável independente genérica 𝑥𝑘+1 ao conjunto de

regressores 𝑋 do modelo é a concatenação de 𝒙𝑘+1 à matriz de regressores 𝑿 ≡[𝒙1 … 𝒙𝑘], tornando 𝑿 ≡ [𝒙1 … 𝒙𝑘 𝒙𝑘+1] e 𝑋 = 𝑥1, 𝑥2, … , 𝑥𝑘, 𝑥𝑘+1.

A assertiva anterior pode ser formulada pelo seguinte modelo de decisão: sendo

𝑘+1 estimado por MQO após concatenação de 𝒙𝑘+1 a 𝑿 no modelo 𝒚 = 𝑿𝜷 + 𝒖, o

regressor 𝑥𝑘+1 aumentará o coeficiente R2 se e somente se a realização da estatística 𝑇,

referenciada em (5) ao coeficiente 𝑘+1, for maior do que 1 em valor absoluto. Neste

caso (|𝑇𝑜𝑏𝑠| > 1), 𝑥𝑘+1 promove um incremento na acurácia (R2) e sua inclusão é

justificável. Se |𝑇𝑜𝑏𝑠| < 1, R2 decresce com a inclusão de 𝑥𝑘+1. Se |𝑇𝑜𝑏𝑠| = 1, R2 não

se modifica com a inclusão de 𝑥𝑘+1.

Diz-se que 𝑥𝑖 é estatisticamente significante se há rejeição de 𝑯0 para os

modelos de TH de (4). A significância estatística é fundamental para que se possa

atribuir relações de causa e efeito entre variáveis, evitando que se tomem efeitos

puramente aleatórios como causas de eventos de interesse.

Construir modelos de regressão de acurácia elevada é o objetivo primário. Para

que seja cumprido, é proposto um algoritmo gerador de modelos de regressão linear que

se utiliza da REQM como métrica de comparação entre modelos. Embora o R2 não seja

explicitamente utilizado como métrica de comparação entre os modelos ao longo da

evolução, por razões avaliadas por [Novaes et al. 2015], ele pode ser utilizado ao

término da evolução como métrica de comparação com o benchmark proposto.

Para que se cumpra o objetivo, é fundamental adicionar regressores

estatisticamente significantes a 𝑋 de cada um dos modelos propostos, ao nível de

significância de 5%, nos moldes de (4) para TH. Ao se considerar o limiar 𝑡𝛼 2⁄ (𝑛 −

𝑘 − 1), em substituição ao valor unitário, tanto para realizar TH em 𝛽𝑘+1 quanto para

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 472

Page 5: Programação Genética Econométrica Aplicada a Prob lemas de ... · C onsiderando que muitos apontam o ano de 1663 como o marco inicial da estatística [Willcox 1938] , pode -se

decidir se é correto ou não acrescentar 𝑥𝑘+1 (do ponto de vista da maximização de R2),

preza-se por modelos que possuam regressores altamente colaborativos com o grau de

explicação de 𝑦, além de serem estaticamente significantes. Tal decisão revela uma

característica conservadora do método, ao somente permitir em 𝑋 os regressores que

sejam de fato agregadores à acurácia do modelo, aumentando o limiar de decisão para

adição de 𝑥𝑘+1 do valor 1,00 para o valor 1,96.

O algoritmo de geração de modelos de regressão linear se utiliza da prova

matemática relacionada ao acréscimo de 𝑥𝑘+1 a 𝑋 e da condição necessária para que

𝑥𝑘+1 seja estatisticamente significante e, por consequência, gerador de aumento a R2.

Ou seja, a 𝑋 deve ser acrescentado o maior número de regressores que sejam

estatisticamente significantes.

4.3. Modelo de PGE

A PGE é o algoritmo de PG que evolui modelos econométricos. Portanto, o roteiro

descrito anteriormente para a PG se aplica à PGE. Na PGE, os programas têm

representação em árvore, do tipo multigênica.

Qualquer constante em um indivíduo da PGE é proveniente da estimativa de ,

oriundo da estimação por MQO. Portanto, Ω é composto somente por variáveis.

A PGE se utiliza de uma versão probabilística do método ramped half-and-half

para geração da população inicial [Searson et al. 2010].

A condição de parada do algoritmo para todos os conjuntos de dados é o número

máximo de gerações proposto.

Os formatos de modelos citados somente necessitam das operações de soma e

multiplicação para que possam ser construídos. Logo, o conjunto de funções da PGE é

composto somente pelas funções de soma e multiplicação.

A multicolinearidade não se constitui em uma preocupação no que se refere ao

desempenho do algoritmo gerador de modelos, devido à utilização da decomposição QR

para estimação de por MQO [Novaes et al. 2015].

Com relação ao cálculo da acurácia, ressalta-se que, estimado , avalia-se quais

regressores em 𝑋 são estatisticamente significantes. Os que não o são, de acordo com o

TH proposto em (4), serão retirados de 𝑋. Realiza-se uma nova estimação somente com

os regressores estatisticamente significantes em 𝑋, chegando-se à 𝟐. O cálculo de

REQM é realizado em função de 𝟐.

Na PGE, utiliza-se a seleção por torneio (𝑛𝑡𝑜𝑟𝑛𝑒𝑖𝑜 = 7) com uma variante de

pressão lexicográfica [Luke and Panait 2006].

A Tabela 1 descreve o sumário da PGE para os experimentos realizados no

software GPTIPS – toolbox do Matlab no qual os algoritmos deste artigo foram

construídos [Searson et al. 2010]. O intervalo de cada parâmetro foi especificado

tomando por base [Poli et al. 2008].

Acrescente-se que a PGE permite, indiretamente, a identificação de introns

através da significância estatística. Introns são partes do código que não contribuem

para a acurácia do indivíduo [Miller and Smith 2006]. Ao se realizar TH em 𝜷, retiram-

se do cômputo da acurácia os regressores estatisticamente insignificantes – introns.

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 473

Page 6: Programação Genética Econométrica Aplicada a Prob lemas de ... · C onsiderando que muitos apontam o ano de 1663 como o marco inicial da estatística [Willcox 1938] , pode -se

Tabela 1. PGE: sumário

Objetivo Obter modelos de regressão com maior

acurácia possível.

Parâmetros

Tamanho da População De 50 a 150.

Número de Gerações De 15 a 100.

Altura Máxima do Indivíduo De 2 a 5.

Altura Máxima para sub-árvore criada De 2 a 5.

Número Máximo de Genes por Indivíduo De 2 a 5.

Probabilidades de Ocorrência de Mutação e Cruzamento

Variantes ao longo da evolução, de acordo com [Silva 2007]

Probabilidade de Ocorrência de Mutação tradicional [Koza 1992], dado que ocorrerá

Mutação. De 50% a 95%.

Probabilidade de Ocorrência de Cruzamento intragênico, dado que ocorrerá Cruzamento.

50%.

Taxa de Elitismo 5% sobre a população (fixo).

Condição de Parada Número de gerações atingido.

O combate ao bloat através da significância estatística é outra carcterística

importante da PGE. O bloat é o crescimento ilimitado e sem controle de indivíduos em

uma população, geralmente não ocasionando melhorias na acurácia [Luke and Panait

2006]. Embora se permita que introns permaneçam na estrutura de um indivíduo,

potencializando o bloat, a PGE o combate quando define que somente o regressor

estatisticamente significante contribui para a acurácia. Para a PGE, o crescimento

generalizado de indivíduos pode até não ser visto como um problema, pois ela se

beneficia de potenciais regressores estatisticamente significantes que venham a surgir a

partir deste crescimento.

5. Experimentos e Resultados

5.1. Métricas de Desempenho

Utiliza-se a PGE, com os parâmetros descritos na Tabela 1, para gerar modelos de

regressão linear para alguns conjuntos de dados: Concreto, Casas, Ruídos, Proteínas e

Iates – todos oriundos de [UCI Machine Learning Repository 2014].

Para treinar e avaliar a PGE, divide-se o conjunto de dados em dois grupos:

treinamento, com 70% do total de exemplos, e teste, com o restante. Em seguida,

realiza-se a validação cruzada 10-fold [Khai 1995] no conjunto de treinamento. O

conjunto de teste é utilizado exclusivamente para avaliar a qualidade das soluções.

Sob a ótica dos modelos de regressão, são de interesse, ao longo da evolução, as

métricas de REQM e R2. Como a PGE tem natureza parcimoniosa, é coerente que se

observe o comportamento do número de regressões, estatisticamente significantes ou

não, ao longo da evolução.

Os gráficos das Figuras 1a à 5b, que mostram a evolução das métricas de

interesse para os distintos conjuntos de dados, apresentam as seguintes siglas: “R2

Ajustado” para R2; “REQM” para “Raiz do Erro Quadrático Médio”, “#reg” para

número de regressores; “#reg-es” para número de regressores estatisticamente

significantes.

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 474

Page 7: Programação Genética Econométrica Aplicada a Prob lemas de ... · C onsiderando que muitos apontam o ano de 1663 como o marco inicial da estatística [Willcox 1938] , pode -se

Figura 1 a. Concreto: 𝟐 e REQM Figura 1b. Concreto: #reg e #reg-ES

Figura 2a. Casas: 𝟐 e REQM Figura 2b. Casas: #reg e #reg-ES

Figura 3a. Ruídos: 𝟐 e REQM Figura 3b. Casas: #reg e #reg-ES

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 475

Page 8: Programação Genética Econométrica Aplicada a Prob lemas de ... · C onsiderando que muitos apontam o ano de 1663 como o marco inicial da estatística [Willcox 1938] , pode -se

Figura 4a. Proteínas: 𝟐 e REQM Figura 4b. Proteínas: #reg e #reg-ES

Figura 5a. Iates: 𝟐 e REQM Figura 5b. Iates: #reg e #reg-ES

5.2. Benchmark

Como determinado anteriormente, o algoritmo de geração de modelos de regressão

linear se utiliza da prova matemática relacionada ao acréscimo de 𝑥𝑘+1 a 𝑋 e da

condição necessária para que 𝑥𝑘+1 seja estatisticamente significante e, por

consequência, gere um aumento em R2.

Propõe-se um benchmark para os algoritmos de regressão da PGE a partir do

resultado teórico acima e da análise dos gráficos de evolução do número de regressores.

Caso a PG não fosse utilizada como mecanismo de geração de modelos, o simples

acréscimo de regressores a 𝑋, segundo uma regra que não explora o espaço de busca,

seria suficiente. A rotina 𝑥2𝑓𝑥 do Matlab realiza essa tarefa. Eis um exemplo: supondo

𝑥1, 𝑥2, 𝑥3 as variáveis de Ω, 𝑥2𝑓𝑥 gerará o conjunto 𝑋 = 𝑥1, 𝑥2, 𝑥3, 𝑥1𝑥2, 𝑥1𝑥3,𝑥2𝑥3, 𝑥1

2, 𝑥22, 𝑥3

2 de regressores, composto pelas variáveis independentes originais de

Ω, seus termos cruzados e termos quadráticos. É possível utilizar 𝑥2𝑓𝑥 novamente,

agora sobre 𝑥1, 𝑥2, 𝑥3, 𝑥1𝑥2, 𝑥1𝑥3, 𝑥2𝑥3, 𝑥12, 𝑥2

2 e 𝑥32, para gerar um novo conjunto

𝑋 com ainda mais regressores. Neste caso, há a formação de dois modelos para

comparação com a PGE: o primeiro deles após aplicação única da rotina 𝑥2𝑓𝑥 e o

segundo após a aplicação dupla da rotina 𝑥2𝑓𝑥 (a segunda aplicação é realizada sobre o

conjunto de variáveis originadas da primeira aplicação de 𝑥2𝑓𝑥).

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 476

Page 9: Programação Genética Econométrica Aplicada a Prob lemas de ... · C onsiderando que muitos apontam o ano de 1663 como o marco inicial da estatística [Willcox 1938] , pode -se

5.3. Resultados

As Figuras de 6 a 10 apresentam resultados para cada conjunto de dados. Em cada uma

delas, os quadros denominados Treino, Validação e Teste dizem respeito a R2 nos

conjunto de treino, validação e teste para os três algoritmos testados, em cada um dos k

experimentos. O quadro “#reg-ES” representa o número de regressores estatisticamente

significantes. Ao final de cada quadro, apresentam-se a média e o desvio padrão (DP)

para todos os experimentos. Médias em azul indicam o algoritmo de melhor

desempenho: quanto maior o R2, melhor o resultado. Quanto menor o número de

regressores, mais parcimonioso é o modelo e melhor é o resultado (supondo que

apresente uma boa métrica de R2).

Figura 6. Resultados: Concreto

Figura 7. Resultados: Casas

Figura 8. Resultados: Ruídos Figura 9. Resultados: Proteínas

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 477

Page 10: Programação Genética Econométrica Aplicada a Prob lemas de ... · C onsiderando que muitos apontam o ano de 1663 como o marco inicial da estatística [Willcox 1938] , pode -se

Figura 10. Resultados: Iates

No conjunto de dados Concreto, a PGE apresentou o R2 médio mais elevado

dentre todos os algoritmos aplicados, nos conjuntos de treino, validação e teste, além de

ser o modelo com 𝑋 de menor cardinalidade (“#reg-ES” médio é o menor dentre todos

os algoritmos). O DP para todas as métricas da PGE foi o menor entre os algoritmos. O

desempenho no conjunto de teste é o de maior importância, pois representa a capacidade

do algoritmo de inferir o comportamento de 𝑦 em um conjunto de dados não utilizado

no treinamento.

No conjunto Casas, a PGE apresentou o R2 médio mais elevado dentre todos,

nos conjuntos de treino e teste. Os modelos com 𝑋 de menor cardinalidade são a PGE e

o Benchmark 1, com média de regressores estatisticamente significantes atingindo o

valor de 17,80. Tal fato evidencia a superioridade na qualidade de regressores gerados

pela PGE em relação ao Benchmark 1, visto que, embora apresentem a mesma

cardinalidade de 𝑋, a PGE apresentou melhor desempenho no conjunto de teste. O

termo “NaN” indica que o R2 dos modelos gerados pelo Benchmark 2 foram expostos à

situação em que 𝑘 ≅ 𝑛, com 𝑘 elevado (média de 318,60) e 𝑛 ligeiramente superior a 𝑘,

fazendo com que R2 atinja valores negativamente muito elevados, excedendo à precisão

computacional do software, como confirmam as tabelas de validação e teste.

No conjunto Ruídos, o Benchmark 2 explorou de maneira mais eficiente o

espaço de busca de regressores – por consequência, de modelos – do que a PGE e

Benchmark 1. Isto é observado pela cardinalidade média de 𝑋 em Benchmark 2, quando

comparada com as dos outros dois algoritmos. Por ser um conjunto de dados com

poucas variáveis de entrada – somente cinco – é possível que seja necessário aumentar a

capacidade de exploração do espaço de busca pela PGE, através da modificação de

parâmetros do experimento, como aumento do número máximo de gerações, do número

de genes máximo permitido e do tamanho de árvore máxima para os indivíduos.

A análise para o conjunto de dados Proteínas é semelhante àquela para Ruídos.

No conjunto de dados Iates, a PGE apresentou o R2 médio mais elevado nos

conjuntos de validação e teste.

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 478

Page 11: Programação Genética Econométrica Aplicada a Prob lemas de ... · C onsiderando que muitos apontam o ano de 1663 como o marco inicial da estatística [Willcox 1938] , pode -se

6. Conclusão

A utilização da PGE em tarefas de regressão cumpriu satisfatoriamente com seu

objetivo principal, ao propor modelos parcimoniosos de elevada acurácia para os

conjuntos de dados propostos e promover modelos competitivos frente a outros

algoritmos de regressão. Há benefícios e limitações relativas ao seu uso como processo

gerador de modelos para regressão.

A PGE traz como benefício a geração de modelos lineares que permitem análise

simples da estrutura do modelo e regressores que o compõem. O uso de em

substituição às constantes efêmeras em um modelo potencializa, por meio da acurácia, a

contribuição deste modelo à tarefa em questão, pois a estimação de é um processo de

otimização, que permite ao modelo estar em suas melhores condições (em função do

critério que se utiliza para otimização de ) de ser aplicado à tarefa.

Limitações da PGE seriam (i) a dupla estimação de para cada indivíduo,

necessária à identificação de regressores estatisticamente significantes e do cômputo da

acurácia, e (ii) a restrição aos modelos 𝒚 = 𝑿𝜷 + 𝒖, que pode inibir a geração de

outros modelos, menos restritivos em sua forma, mas que poderiam apresentar melhor

acurácia. A forma 𝒚 = 𝑿𝜷 + 𝒖 também implica, em primeira instância, em se

utilizarem somente as funções soma e multiplicação no conjunto de funções.

Referências

Arnaldo, I., Krawiec, K., & O’Reilly, U-M. (2014). Multiple Regression Genetic

Programming. In Proceedings of the 2014 Annual Conference on Genetic and

Evolutionary Computation, 2014, p. 879-886.

Ashlagi, I., Braverman, M., Hassidim, A. and Monderer, D. (2010). Monotonicity and

Implementability. In Econometrica, v. 78, n. 5, p. 1749-1772. Wiley.

Davidson, J. W., Savic, D. and Walters, G. A. (1999). Method for the Identification of

Explicit Polynomial Formulae for the Friction in Turbulent Pipe Flow. In Journal of

Hydroinformatics, v. 1, n. 2, p. 115-126. IWA Publishing Press.

Davidson, J. W., Savic, D. A., & Walters, G. A. (2003). Symbolic and numerical

regression: experiments and applications. In Information Sciences, v. 150, p. 95-117.

Davidson, R. and Mackinnon, J. G. (1993), Estimation and Inference in Econometrics,

Oxford University Press, 1st edition.

Domingos, P. (1999). The Role of Occam’s Razor in Knowledge Discovery. In Data

Mining and Knowledge Discovery, v. 3, issue 4, p. 409-425. Springer Publishing.

Kohavi, R. (1995). “A study of cross-validation and bootstrap for accuracy estimation

and model selection”. In: Proceedings of the 14th

International Joint Conference on

Artificial Intelligence - Volume 2, IJCAI’95, p. 1137–1143, San Francisco, CA.

Giustolisi, O. and Savic, D. A. (2006). A symbolic data-driven technique based on

evolutionary polynomial regression. In Journal of Hydroinformatics, v. 8, n. 3, p.

207-222. IWA Publishing Press.

Greene, W. H. (2011), Econometric Analysis, Prentice Hall, 7th

edition.

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 479

Page 12: Programação Genética Econométrica Aplicada a Prob lemas de ... · C onsiderando que muitos apontam o ano de 1663 como o marco inicial da estatística [Willcox 1938] , pode -se

Koza, J. R. (1992), Genetic Programming: On the Programming of Computers by

Means of Natural Selection (Complex Adaptive Systems), MIT Press, 1st edition.

Luke, S. and Panait, L. (2006). A comparison of bloat control methods for genetic

programming. In Evolutionary Computation, v. 14, n. 3, p. 309-344. MIT Press.

Maindonald, J. H. (1984), Statistical Computation, Wiley Press, 1st edition.

Mardia, K. V., Kent, J.T. and Bibby, J.M. (1980), Multivariate Analysis, Academic

Press, 1st edition.

Miller, J. F. and Smith, S. L. (2006). Redundancy and Computational Efficiency in

Cartesian Genetic Programming. In IEEE Transactions On Evolutionary

Computation, v. 10, n. 2, p. 167-174. IEEE Computational Intelligence Society.

Novaes, A. L. F. (2015). “Programação Genética Econométrica: uma Nova Abordagem

para Problemas de Regressão e Classificação em Conjuntos de Dados Seccionais”,

PUC-Rio.

Poli, R., Langdom, W. B. and McPhee, N. F. (2008), A Field Guide to Genetic

Programming, Lulu Enterprises, 1st edition.

Searson, D. P., Leahy, D. E. and Willis, M. J. (2010). “GPTIPS: an open source genetic

programming toolbox for multigene symbolic regression”. In Ao, S. I., Castillo, O.,

Douglas, C., Feng, D. D., and Lee, J.-A., editors, Proceedings of the International

Multiconference of Engineers and Computer Scientists, volume 1, p. 77-80,

International Association of Engineers.

Silva, S. (2007), GPLAB: A Genetic Programming Toolbox for MATLAB, 3rd

edition.

UCI Machine Learning Repository (2014). Datasets “Concrete Compressive Strength

Data Set”, “Housing Data Set”, “Airfoil Self-Noise Data Set”, “Physicochemical

Properties of Protein Tertiary Structure Data Set”, “Yacht Hydrodynamics Data Set”.

http://archive.ics.uci.edu/ml/, July/2014.

Wang, Z. and Bovik, A. C. (2009). Mean squared error: Love it or leave it? – A new

look at signal fidelity measures. In IEEE Signal Processing Magazine, v. 26, n. 1, p.

98-117. IEEE Signal Processing Society.

Willcox, W. F. (1938). The Founder of Statistics. In Review of the International

Statistical Institute, v. 5, n. 4, p. 321-328. International Statistical Institute (ISI).

Wooldridge, J. M. (2006). Introdução à Econometria: uma Abordagem Moderna,

Thomson Heinle, 1st edition.

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 480