METODOS DE REGRESS´ AO ROBUSTA E˜ KERNEL ......Federal de Pernambuco, sob o título “Métodos de...

Universidade Federal da Pernambuco

Centro de Informatica

Pos-graduacao em Ciencia da Computacao

METODOS DE REGRESSAO ROBUSTA E

KERNEL PARA DADOS INTERVALARES

Roberta Andrade de Araujo Fagundes

TESE DE DOUTORADO

Recife - PE

16 Dezembro 2013

Universidade Federal da Pernambuco

Centro de Informatica

Roberta Andrade de Araujo Fagundes

METODOS DE REGRESSAO ROBUSTA E KERNEL PARA

DADOS INTERVALARES

Trabalho apresentado ao Programa de Pos-graduacao em

Ciencia da Computacao do Centro de Informatica da Uni-

versidade Federal da Pernambuco como requisito do grau

de Doutor em Ciencia da Computacao.

Orientadora: Profa. Dra. Renata Maria Cardoso Rodri-

gues de Souza

Co-orientador: Prof. Dr. Francisco Jose de Azevedo Cys-

neiros

Recife - PE

16 Dezembro 2013

Catalogação na fonte Bibliotecária Monick Raquel Silvestre da Silva, CRB4-1217

Fagundes, Roberta Andrade de Araújo Métodos de regressão robusta e kernel para dados intervalares / Roberta Andrade de Araújo Fagundes. - Recife: O Autor, 2013. xv, 116 f.: il., fig., tab. Orientadora: Renata Maria Cardoso Rodrigues de Souza.

Tese (doutorado) - Universidade Federal de Pernambuco. CIn, Ciência da Computação, 2013. Inclui referências e apêndices. 1. Inteligência computacional. 2. Inteligência artificial. 3. Análise de dados simbólicos. 4. Aprendizado de máquina I. Souza, Renata Maria Cardoso Rodrigues de (orientadora). II. Título. 006.3 CDD (23. ed.) MEI2014 – 022

Tese de Doutorado apresentada por Roberta Andrade de Araújo Fagundes à Pós-

Graduação em Ciência da Computação do Centro de Informática da Universidade

Federal de Pernambuco, sob o título “Métodos de Regressão Robusta e Kernel para

Dados Intervalares” orientada pela Profa. Renata Maria Cardoso Rodrigues de

Souza, co-orientada pelo Prof. Francisco José de Azevedo Cysneiros e aprovada

pela Banca Examinadora formada pelos professores:

______________________________________________

Prof. Adriano Lorena Inacio Oliveira

Centro de Informática / UFPE

______________________________________________

Prof. Cleber Zanchettin

Centro de Informática / UFPE

_______________________________________________

Prof. Getúlio José Amorim Amaral

Departamento de Estatística / UFPE

_____________________________________________

Prof. Carmelo Jose Albanez Bastos Filho

Escola Politécnica / UPE

____________________________________________

Prof. Byron Leite Dantas Bezerra

Escola Politécnica / UPE

Visto e permitida a impressão.

Recife, 16 de dezembro de 2013.

___________________________________________________

Profa. Edna Natividade da Silva Barros Coordenadora da Pós-Graduação em Ciência da Computação do

Centro de Informática da Universidade Federal de Pernambuco.

A Deus que me concedeu o privilégio sagrado da vida e da condição humana.

AGRADECIMENTOS

Qualquer realizacao humana, mesmo que individual, e sempre o resultado de um conjunto

diversificado de contextos, de instituicoes e, especialmente de pessoas. A seguir, elicitarei

algumas pessoas:

Primeiramente a Deus; por todos os propositos que tem reservado para minha vida.

A minha avo. Euridice Andrade de Niz; sem ela nada disso teria sido possıvel.

Aos meus pais; eles foram a referencia da minha vida e responsaveis pela formacao

do meu carater.

A minha filha e ao meu marido; presenca constante, compreensao maxima, com-

panheiros de todas as horas.

A minha tia Marli, A minha sogra, Aos meus irmaos, As minhas cunhadas,

Aos meus sobrinhos e sobrinha ; que sempre me apoiaram incondicionalmente, que

apostaram em mim para vencer mais uma etapa da vida.

Aos meus orientadores; as pessoas mais importantes para a realizacao deste tra-

balho. Atraves de uma orientacao pautada no companheirismo, na motivacao do aluno,

na presenca constante e na honestidade, a Dra. Renata Souza e o Dr. Francisco Cys-

neiros proporcionaram as condicoes ideais de pesquisa, como tambem, ajudaram a ter a

persistencia necessaria para a conclusao do trabalho.

Aos outros participantes da pesquisa; Agradeco a todos que participaram direta

ou indiretamente da pesquisa nos diversos experimentos realizados. Fica aqui minha

gratidao aos colegas do grupo de analise de dados simbolicos (Marco, Carlos, Arthur,

Diego, Elaine, Telmo, Anderson e Ricardo).

"A genealidade é feita de 10% de talento e 90% de esforço."

---Thomas Alva Edison

RESUMO

O processo de descoberta de conhecimento tem o objetivo de extrair de informacoes uteis

(conhecimento) em bases de dados. As abordagens usadas na execucao do processo de

extracao do conhecimento sao genericas e derivadas das diferentes areas de conhecimento,

tais como da estatıstica, aprendizagem de maquina e banco de dados. A Analise de Dados

Simbolicos (ADS) [Bock e Diday, (2000)] e introduzida como abordagem na area de des-

coberta automatica de conhecimento que visa desenvolver metodos para dados descritos

por variaveis atraves de conjuntos de categorias, lista de valores, intervalos ou distribuicao

de probabilidade. Dentre as tecnicas estatısticas, os modelos de regressao procuram prever

o comportamento da variavel resposta (dependente) a partir de informacoes provenientes

do conjunto de variaveis preditoras (independentes). O objetivo deste trabalho e propor

duas metodologias para analise de dados intervalares. A primeira metodologia aborda o

metodo robusto em regressao, que e uma alternativa para o uso do metodo dos mınimos

quadrados quando os dados contem outliers. Enquanto a segunda aborda regressao por

kernel, que e um metodo que prover uma relacao nao parametrica entre as variaveis, sem

utilizar um modelo com parametros fixos, mas as taxas de convergencias dos estimadores

nao parametricos sao mais lentas do que a dos estimadores parametricos. Experimentos

com conjuntos de dados simulados e aplicacoes com conjuntos de dados reais intervalares

indicam a funcionalidade e eficiencia dos metodos propostos.

Palavras-chave: Regressao Robusta. Regressao Kernel. Analise de Dados Simbolicos.

Dados simbolicos do tipo intervalo.

ABSTRACT

The process of knowledge discovery is aimed at extracting useful information (knowledge)

in databases. The approaches used in the implementation of the knowledge extraction

process are generic and derived from different knowledge areas such as statistics, ma-

chine learning and database. The Symbolic Data Analysis (ADS) [Bock e Diday, (2000)]

is introduced as an approach in the field of automatic knowledge discovery aimed at de-

veloping methods for data described by sets of variables across categories, list of values,

ranges or probability distribution. Among the statistical techniques, regression models

seek to predict the behavior of the response variable (dependent) from information from

the set of (independent) predictors. The objective of this work is to propose two metho-

dologies for analysis of interval data. The first methodology addresses the robust method

in regression, which is an alternative to the use of the method of least squares when the

data contain outliers. While the second deals with kernel regression, which is a method to

provide a non-parametric relationship between the variables, without using a model with

fixed parameters, but the rates of convergence of nonparametric estimators are slower

than the parametric estimators. Experiments with simulated data sets and applicati-

ons with real data sets indicate intervallic functionality and efficiency of the proposed

methods.

Keywords: Robust Regression. Kernel Regression. Simbolic Data Analysis. Simbolic

Date of the interval

LISTA DE FIGURAS

2.1 Histograma para dados intervalares. . . . . . . . . . . . . . . . . . . . . . 19

3.1 Funcao de Tukey’s Biweight. . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.2 Cenario 1.: Alta variabilidade na parte superior do centro dos hipercubos. 43

3.3 Cenario 2.:Alta variabilidade na parte superior e inferior do centro dos

hipercubos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.4 Cenario 3.: Alta variabilidade na parte superior da amplitude dos hipercubos. 44

3.5 Cenario 4.:Alta variabilidade no centro e na amplitude dos hipercubos

conjuntamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.6 Cenario 5.:Alta variabilidade n centro e na amplitude dos hipercubos se-

paradamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.7 Grafico 3D: Pressao Sistolica (X), Pressao Diastolica (Z) e Taxa Pulso (Y ). 50

3.8 (a) Centro e (b) Amplitude do conjunto de dados intervalar Cardiologia. 51

3.9 Grafico 3D: Cilindrada do Motor (X), Velocidade Maxima (Z) e Preco (Y ). 51

3.10 (a) Centro e (b) Amplitude do conjunto de dados intervalar Carro. . . . . 52

3.11 Grafico 3D: Largura do Pıleo (Y ), Comprimento do Stipe (X) e Espessura

do Stipe(Z). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.12 (a) Centro e (b) Amplitude do conjunto de dados intervalar Cogumelo. . 53

3.13 Grafico 3D: Altura (X), Idade (Z) e Peso (Y ). . . . . . . . . . . . . . . . 54

3.14 (a) Centro e (b) Amplitude do conjunto de dados intervalar futebol. . . . 54

3.15 Grafico 3D: Numero de Operandos (X), Numero de Operadores (Z) e

Tamanho do Software (Y ). . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.16 (a) Centro e (b) Amplitude do conjunto de dados intervalar dos Projetos

da Nasa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.17 Grafico Residual Intervalar dos conjuntos de dados simbolicos reais. . . . 59

4.1 Y Estimado versus Y Real baseado no metodo RKI:CA. . . . . . . . . . 77

4.2 Y Estimado versus Y Real baseado no metodo RMI:CK+AL. . . . . . . . 77

4.3 Cenario 1.:Relacoes nao linear para o centro e aleatoria para amplitude. 82

LISTA DE FIGURAS

4.4 Cenário 2.: Relação não linear para o centro relação linear para amplitude. . . . . . .83

4.5 Cenário 3.: Relação não linear para o centro e a amplitude. . . . . . . . . . . . . . . . . . . 83

4.6 Cenário 4.: Relação não linear para o centro e aleatória para amplitude na

presença de ruídos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .84

4.7 Cenário 5.: Relação não linear para o centro e linear para amplitude na

presença de ruídos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .84

4.8 Cenário 6.: Relações não linear para o centro e amplitude na presença de

ruídos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

LISTA DE TABELAS

1.1 Projetos de software do repositorio da NASA para estimacao de software

descritos por dados simbolicos do tipo intervalo. . . . . . . . . . . . . . . 4

2.1 Temperaturas mınimas e maxima registradas na China. . . . . . . . . . . 8

2.2 Parte dos modulos de software do projeto 1. . . . . . . . . . . . . . . . . 12

3.1 Media e Desvio Padrao (entre parentesis) do MMRE para os metodos

RRI e RLI nos cenarios 1 e 2. . . . . . . . . . . . . . . . . . . . . . . . . 47

3.2 Media e Desvio Padrao (entre parenteses) do MMRE para os metodos

RRI e RLI nos cenarios 3, 4 e 5. . . . . . . . . . . . . . . . . . . . . . . 48

3.3 Comparacao entre modelos de regressao de acordo com o ganho relativo

(%) do MMRE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.4 Media e Desvio Padrao (entre parenteses) do MMRE para os metodos de

regressao (RRI e RLI). . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.5 Comparacao entre os modelos (RRI) e (RLI). . . . . . . . . . . . . . . . 58

4.1 Media e Desvio Padrao (em parentesis) doMMRE para conjunto de dados

reais intervalar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.2 Teste de Wilcoxon: p-value . . . . . . . . . . . . . . . . . . . . . . . . . . 76

4.3 Media e Desvio Padrao (em parentesis) do MMRE para cenarios (1, 2 e

3) sem ruıdos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

4.5 Media e Desvio Padrao (em parentesis) do MMRE para cenarios (4, 5 e

6) com ruıdos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

4.7 Comparacao entre modelos regressao de acordo com o ganho relativo (%)

do MMRE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

4.8 Media e Desvio Padrao (em parentesis) do MMRE assumindo relacao

linear para centro e amplitude, respectivamente, da variavel resposta in-

tervalar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

LISTA DE TABELAS

4.9 Teste de Wilcoxon: p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

4.10 Média e Desvio Padrão (em parêntesis) do MMRE assumindo uma forma

arbitrária para amplitude e uma relação linear para o centro da variável

resposta intervalar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .94

4.11 Teste de Wilcoxon: p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

4.12 Média e Desvio Padrão (em parêntesis) do MMRE assumindo uma relação

não linear para centro e amplitude, respectivamente, da variável resposta

intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .96

4.13 Teste de Wilcoxon: p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .96

4.14 Média e Desvio Padrão (em parêntesis) do MMRE para o conjunto de dados

reais intervalar considerando os métodos de Centro e Amplitude. . . . . . . . . . . . . . 97

1. Conjunto de Dados: Cardiologia (Range dos intervalos do pulso, pressão

sistólica e pressão diastólica dos pacientes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

2. Conjunto de Dados: Carro (Range dos intervalos do preço, motor e

velocidade máxima do conjunto de dados carro) . . . . . . . . . . . . . . . . . . . . . . . . . 115

3. Conjunto de Dados: Cogumelo (Range dos intervalos do píleo,

comprimento e espessura do estipe dos cogumelos do gênero Agricies . . . . . . . . 116

4. Conjunto de Dados: Futebol (Range dos intervalos do peso, altura e idade

dos jogadores de futebol de times da França) . . . . . . . . . . . . . . . . . . . . . . . . . . . .117

LISTA DE ACRÔNIMOS

ADS Análise de Dados Simbólicos

KDD Knowledge Discovery in Databases

AID Automatic Interation Detector

KNN Kernel Nearest Neighbor

MRLC modelo de regressão linear clássico

NO número de operadores

NOR número de operandos

NL número de linhas de código

inf inferior

sup superior

MLG modelos lineares generalizados

MBRS modelos bivariados de regressão simbólicos

RRI regressão robusta intervalar

RLI regressão linear intervalar

GR ganho relativo

MMRE magnitude do erro médio relativo

RKI:C Regressão Kernel Intervalar baseado na informação do centro

RKI:CA Regressão Kernel Intervalar baseado na informação do centro e da amplitude

RMI:CL+AK Mistura de Regressão Intervalar: Centro Linear + Amplitude Kernel

RMI:CK+AL Mistura de Regressão Intervalar: Centro Kernel + Amplitude Linear

RLI:C modelo linear baseado na informação do centro

RLI:CA modelo linear baseado na informação do centro e da amplitude

SUMARIO

Capıtulo 1—INTRODUCAO 1

1.1 Motivacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3 Organizacao da Tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Capıtulo 2—FUNDAMENTACAO TEORICA 7

2.1 Historico da Analise de Dados Simbolicos . . . . . . . . . . . . . . . . . . 7

2.1.1 Classificacao Nao Supervisionada, Classificacao Supervisionada e

Funcoes de Proximidade . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.2 Regressao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2 Dados Simbolicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2.1 Variavel simbolica do tipo modal . . . . . . . . . . . . . . . . . . 13

2.2.2 Variavel simbolica do tipo nao modal . . . . . . . . . . . . . . . . 13

2.3 Estatıstica Descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.4 Metodos de Regressao Simbolica sem Suposicao de Distribuicao para os erros 19

2.4.1 Metodo do centro . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.4.2 Metodo do mınimo e maximo . . . . . . . . . . . . . . . . . . . . 21

2.4.3 Metodo do centro e da amplitude . . . . . . . . . . . . . . . . . . 23

2.4.4 Metodos com Restricoes . . . . . . . . . . . . . . . . . . . . . . . 25

2.5 Metodos de Regressao Simbolica com Distribuicao para os erros . . . . . 26

2.5.1 Modelo Simetrico . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.5.2 Modelo Bivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.5.3 Modelo Logıstico . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.6 Comentarios finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Capıtulo 3—REGRESSAO ROBUSTA PARA DADOS SIMBOLICOS DO TIPO

INTERVALO 31

SUMÁRIO

3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.2 Construção do Modelo e Regra de Predição. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .32

3.3 Definição de outlier simbólico do tipo intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.3.1 Definição de outlier intervalar no centro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .37

3.3.2 Definição de outlier intervalar na amplitude. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .37

3.3.3 Definição de outlier intervalar no centro e na amplitude. . . . . . . . . . . . . . . . . . . . . . . . . . .37

3.4 Experimentos com Simulação Monte Carlo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.4.1 Simulação Monte Carlo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .38

3.4.2 Análise de Desempenho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .46

3.5 Aplicação Dados Reais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .49

3.5.1 Conjunto de Dados: Cardiologia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .49

3.5.2 Conjunto de Dados: Carro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .51

3.5.3 Conjunto de Dados: Cogumelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .52

3.5.4 Conjunto de Dados: Futebol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .54

3.5.5 Conjunto de Dados: NASA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .55

3.6 Análise dos Resultados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.6.1 Análise Gráfica dos Resíduos Intervalares. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.7 Considerações Finais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .61

Capítulo 4 — REGRESSÃO KERNEL PARA DADOS SIMBÓLICOS DO TIPO

INTERVALO 62

4.1 Introdução. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .62

4.2 Regressão Kernel Simbólica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .63

4.2.1 Regressão Kernel Intervalar baseado na informação do centro (RKI:C) . . . . . . . . . 64

4.2.1.1 Representação dos Intervalos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.2.1.2 Modelando a relação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.2.2 Regressão Kernel Intervalar baseado na informação do centro e da amplitude

(RKI:CA) . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .66

4.2.2.1 Representando intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.2.2.2 Modelando a relação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.2.3 Mistura de Regressão Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

SUMÁRIO

4.2.3.1 Mistura de Regressão Intervalar: Centro Linear + Amplitude

Kernel (RMI:CL+AK) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.2.3.2 Mistura de Regressão Intervalar: Centro Kernel + Amplitude

Linear (RMI:CK+AL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .72

4.3 Aplicação dos modelos com dados reais do tipo intervalo. . . . . . . . . . . . . . . . . . . . . . . 73

4.3.1 Resultados e diagnósticos dos modelos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4.4 Avaliação Experimental. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .78

4.4.1 Simulação Monte Carlo: Caso A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .78

4.4.2 Avaliação de desempenho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .85

4.4.3 Simulação Monte Carlo: Caso B. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .90

4.5 Comparação entre os métodos propostos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

4.6 Considerações Finais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

Capítulo 5 — CONCLUSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

5.1 Considerações. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

5.1.1 Comparação entre os métodos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .101

5.2 Publicações.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

5.3 Trabalhos Futuros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .104

REFERÊNCIAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .106

APÊNDICE A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

CAPITULO 1

INTRODUCAO

Este capıtulo fundamenta a utilizacao da analise de dados simbolicos, expoe os objetivos

em relacao ao trabalho proposto e por fim, descreve a organizacao dos demais capıtulos.

1.1 MOTIVACAO

Recentemente mais operacoes ou processos sao automatizados, ou seja, para cada nova

transacao como compras pela internet, operacoes bancarias, entre outras, todos esses

registros sao armazenados em enormes bases de dados. Entretanto, apesar do poder

de processamento dos computadores atuais, o esforco computacional necessario para a

manipulacao de grandes conjuntos de dados ainda e um problema.

O problema de extracao de informacao tem atraıdo um interesse amplo em varias

comunidades de pesquisa, e tem sido conduzido por uma variedade de aplicacoes. Muitas

aplicacoes envolvem cada vez mais uma grande quantidade de dados estruturados. A

modelagem e descoberta de conhecimento para esses dados exigem tecnicas de aprendizado

de maquina, bem como formalismos para a extracao de informacao.

Como o ambiente esta em constante mudanca, tornam-se necessarias novas tecnicas

(ou ferramentas) que suportem a extracao de conhecimento util a partir de volumes

crescentes de dados. Essas tecnicas denominam-se descoberta de conhecimento em bases

de dados (Knowledge Discovery in Databases (KDD)). Essa area de pesquisa esta em

bastante evidencia e visa desenvolver meios automaticos para descobrir conhecimento em

grandes base de dados.

As tecnicas de KDD incluem: (i) estruturacao de banco de dados; (ii) selecao de

variaveis; (iii) preprocessamento, transformacao e reducao de dados; (iv) mineracao de

dados; (v) analise, avaliacao e interpretacao dos resultados e (vi) utilizacao do conhe-

cimento extraıdo. Segundo [Boente et al., (2007)] o processo de descoberta de conheci-

mento possui tres etapas importantes: pre-processamento, mineracao de dados e pos-

processamento.

No pre-processamento, e necessario efetuar a identificacao de quais informacoes

da base de dados existente devem ser efetivamente consideradas importantes para

1.1 MOTIVACAO 2

o domınio do problema.

A etapa de mineracao de dados consiste na aplicacao de algoritmos ou tecnicas

que extraem conhecimento a partir dos dados. Esses algoritmos ou tecnicas po-

dem ser de classificacao, regressao, agrupamento (clusterizacao), dentre outros, que

possibilitem a sintetizacao do conhecimento.

A etapa de pos-processamento compreende o processo de tratamento do conhe-

cimento adquirido por meio da mineracao de dados, com o intuito de facilitar a

interpretacao e avaliacao deste, para priorizar a utilidade do conhecimento des-

coberto atraves da elaboracao de graficos, diagramas e outros tipos de relatorios

demonstrativos.

Os algoritmos utilizados no processo de mineracao de dados sao de diferentes areas

de conhecimento, tais como: estatıstica, inteligencia computacional e banco de dados

[Witten et. al, (2011)]. Na estatıstica, essas tecnicas podem ser aplicadas para descobrir

estruturas ou associacoes em conjunto de dados, realizar previsoes, etc. Dentre elas,

destacam-se modelos de regressao, que sao modelo matematicos e tem como um dos

objetivos prever o valor da variavel dependente (Y ) a partir das informacoes provinientes

de um conjunto de variaveis independentes (X).

Adicionalmente, atraves desses modelos, e possıvel realizar previsoes sobre o compor-

tamento futuro de algum fenomeno da realidade, como, por exemplo, prever a populacao

futura de uma cidade, simulando a tendencia de crescimento da populacao no passado,

como tambem mensurar o quanto X influencia ou modifica o valor de Y .

Por exemplo, considere um paciente que tem sua pressao arterial acompanhada pelo

seu medico. Um paciente saudavel pode ter o valor de sua pressao oscilando no intervalo

[115, 118]. Um outro, tambem saudavel, poderia ter sua pressao oscilando no intervalo

[114, 116]. Uma analise classica utilizando o centro dos intervalos perderia a informacao

sobre a variacao de pressao no estado saudavel para cada paciente.

Em outra possibilidade, seria extremamente atıpico que o peso (kg) desse determinado

cliente, em todas as suas consultas fosse igual a 70kg. No entanto, observa-se que o peso

variou no intervalo [67, 75] e essa variacao poderia fazer diferenca no diagnostico mais

preciso.

Suponha tambem, que um determinado banco nao estaria interessado no valor mo-

netario da conta corrente de um certo cliente, mas na variacao desse valor ao longo do

ano para fornecer benefıcios relacionados a sua conta.

1.1 MOTIVACAO 3

Nesses casos citados, a representacao classica de dados nao e capaz de representar

informacoes mais complexas, como, por exemplo, intervalos, conjuntos, frequencias e

distribuicoes de probabilidade. Na representacao classica as variaveis podem ser repre-

sentadas como: variaveis quantitativas e qualitativas. As variaveis qualitativas denotam

caracterısticas individuais das unidades sob analise, tais como sexo, estado civil, natura-

lidade, raca, grau de instrucao. As variaveis quantitativas assumem valores numa escala

metrica definida por uma origem e uma unidade, por exemplo: idade, salario, peso.

Os dados presentes em bases de dados simbolicas representam um extensao das in-

formacoes contidas em bases de dados classicas, apresentando-as de forma agregada. Uma

base de dados simbolicos pode conter, em uma celula de sua matriz, informacoes expres-

sas como listas, intervalos, distribuicoes de frequencia, distribuicoes de probabilidade,

etc., diferentemente de uma base de dados classica em que cada celula assume apenas um

unico valor.

Diante desse pressuposto, e essencial um tipo de analise de dados que considere a

complexidade, imprecisao, incerteza ou variabilidade presentes na estrutura dos dados.

Com isso, surge a Analise de Dados Simbolicos (ADS) [Billard e Diday, (2006)].

Billiard e Diday (2003) atestam o crescimento de dados de natureza simbolica e aler-

tam a necessidade do desenvolvimento de novas metodologias estatısticas para o tra-

tamento de informacoes dessa natureza. Alem disso, com relacao aos poucos metodos

estatısticos disponıveis, faz-se necessario o estabelecimento de um maior suporte ma-

tematico e estatıstico a esses metodos, tais como: verificacao de propriedades estatısticas,

estimacao de erros padrao e distribuicoes teoricas, entre outros.

Os principais conceitos da analise de dados simbolica e alguns metodos estatısticos de-

senvolvidos para manipular dados desta natureza foram apresentados em [Bock e Diday, (2000)],

[Billard e Diday, (2006)] e [Diday e Noirhomme-Fraiture, (2008)].

Os dados simbolicos sao caracterizados por variaveis estruturadas que representam

intervalos, distribuicoes de peso e conjuntos. Por exemplo, a Tabela 1.1 apresenta um

problema de engenharia de software, em que se pretende prever o tamanho do software

a ser desenvolvido para, posteriormente, obter o custo e tempo de desenvolvimento do

mesmo.

Ainda nesta Tabela 1.1 observa-se que os dados simbolicos do tipo intervalo sao re-

presentados pelos valores mınimo e maximo das variaveis independentes (X): numero de

operandos (NO), numero de operadores (NOR) e variavel dependente (Y ): numero de

linhas (NL). Esses registros foram gerados pelos 13 projetos do repositorio da NASA

http://mdp.ivv.nasa.gov/.

1.1 MOTIVACAO 4

Tabela 1.1 Projetos de software do repositorio da NASA para estimacao de software descritos

por dados simbolicos do tipo intervalo.

Projetos Variaveis Intervalares

NL NO NOR

1 [0:602] [0:1144] [1:1641]

2 [0:663] [0:843] [0:1198]

3 [0:817] [0:4015] [1:5590]

4 [0:210] [0:1403] [0:1687]

5 [0:242] [0:556] [1:857]

6 [13:2571] [1:467] [1:19]

7 [2:503] [0:798] [1:1129]

8 [0:639] [0:2279] [0:2948]

9 [3:112] [2:396] [3:493]

10 [1:3442] [0:3021] [0:5420]

11 [1:288] [0:428] [0:687]

12 [1:365] [0:632] [1:864]

13 [0:2072] [0:5169] [0:10862]

Portanto, ADS pode ser utilizada como uma abordagem para representar os limites

de um conjunto de possıveis valores de um item ou a variacao interna de uma variavel

atraves da reducao de conjuntos de dados em um numero reduzido de pequenos grupos

de informacao. Dados simbolicos do tipo intervalo tambem sao relevantes no caso de

aplicacoes com dados confidenciais em que somente permite-se conhecer o intervalo dos

valores.

A ADS [Diday e Noirhomme-Fraiture, (2008)] e uma area, que nasceu da influencia

simultanea de varios campos de pesquisa como: analise de dados classica, inteligencia

artificial, aprendizagem de maquina e banco de dados. O principal objetivo de SDA e de-

senvolver modelos para o tratamento de dados mais complexos, como intervalos, conjuntos

e distribuicoes de probabilidades ou de pesos. Alem disso, ADS e capaz de generalizar os

metodos tradicionais com dados classicos para metodos com dados simbolicos atraves do

desenvolvimento exploratorios, estatısticos e representacoes graficas para esses tipos de

dados. Esta tese esta inserida neste contexto de generalizacao de tecnicas classicas para

dados simbolicos do tipo intervalo.

1.2 OBJETIVOS 5

1.2 OBJETIVOS

O objetivo principal desta tese e desenvolver um conjunto de solucoes teoricas e aplicadas

na area de regressao para dados simbolicos do tipo intervalo, cujos resultados sejam

qualitativamente superiores aos dos metodos atualmente utilizados. Mais especificamente

propomos:

1. Desenvolver um metodo de regressao robusta para dados simbolicos do tipo inter-

2. Propor analise grafica dos resıduos para dados simbolicos do tipo intervalo;

3. Desenvolver um metodo de regressao baseado em kernel para dados simbolicos do

tipo intervalo;

4. Desenvolver um metodo de regressao baseado em duas regressoes: via kernel e linear

para dados simbolicos do tipo intervalo, denominado de metodo de regressao mista;

5. Realizar estudos de simulacao para verificar o desempenho da predicao dos modelos

propostos;

6. Aplicar as solucoes propostas neste trabalho em conjuntos de dados simbolicos do

tipo intervalo em repositorios disponıveis para a validacao experimental das solucoes

propostas;

7. Comparar os modelos propostos atraves do erro estimado atraves da simulacao

Monte Carlo.

1.3 ORGANIZACAO DA TESE

Esta tese e composta deste capıtulo introdutorio e mais quatro capıtulos, a saber:

Capıtulo 2 - Fundamentacao Teorica

Neste capıtulo serao apresentados os conceitos fundamentais de analise de dados

simbolicos, assim como metodos de regressao que existem na literatura de dados simbolicos

do tipo intervalo.

Capıtulo 3 - Regressao Robusta para Dados Simbolicos do Tipo Intervalo

1.3 ORGANIZACAO DA TESE 6

Este capıtulo apresenta a proposicao do metodo de regressao robusta simbolica para

dados do tipo intervalo, e analise de resıduos para deteccao de potencias outliers, como

tambem, e apresentado um conjunto de resultados de experimentos com simulacoes e

dados reais realizados com o metodo proposto.

Capıtulo 4 - Regressao Kernel para Dados Simbolicos do Tipo Intervalo

Este capıtulo propoe duas abordagens de regressao para dados simbolicos. A primeira

abordagem e baseada na regressao kernel para dados simbolicos do tipo intervalo. A se-

gunda abordagem e baseada no modelo de regressao mista(regressao via kernel e linear).

Com as duas abordagens sao realizados experimentos utilizando simulacoes e dados reais.

Ao final, e conduzida uma analise grafica dos modelos que obtiveram melhor desempenho.

Capıtulo 5 - Conclusoes

Este capıtulo apresenta parte dos principais resultados e conclusoes obtidos neste tra-

balho, bem como, as contribuicoes na area de modelos de regressao para dados simbolicos

do tipo intervalo, alem de publicacoes dos resultados em revista e congressos, nacionais

e internacionais. Por fim sao apresentadas direcoes para trabalhos futuros.

CAPITULO 2

FUNDAMENTACAO TEORICA

Este capıtulo divide-se em duas partes: inicialmente serao descritas as principais ca-

racterısticas de analise de dados simbolicos, suas aplicacoes e uma revisao de diversos

trabalhos desenvolvidos os quais fundamentaram esta Tese. Alem disso, apresenta-se os

metodos regressao linear para dados simbolicos do tipo intervalo existentes na literatura

de ADS.

2.1 HISTORICO DA ANALISE DE DADOS SIMBOLICOS

A analise de dados simbolicos [Bock e Diday, (2000)] surgiu atraves da influencia simul-

tanea de tres areas. Analise Exploratoria de Dados [Beaton e Tukey, (1974)], Inteligencia

Artificial [Russel e Norvig, (2003)] e Taxonomia Numerica [Sneath e Sokal, (1973)]. As

primeiras tentativas de obter dados simbolicos a partir de dados classicos foram realizadas

por [Belson, (1959)], seguidos de [Morgan e Sonquist, (1963)] com o metodo Automatic

Interation Detector (AID). Os primeiros algoritmos, chamados de Conceptual Clustering,

foram apresentadas por [Michalski et al., (1981)].

ADS constitui uma extensao de alguns metodos utilizados para analise de dados

classicos. Os primeiros trabalhos com os princıpios basicos da abordagem simbolica apa-

receram no final dos anos 80 [Diday, (1987)], [Diday e Brito, (1989)]e, desde entao, varios

outros trabalhos foram realizados em diversas direcoes. Bock e Diday, (2000) apresen-

tam os principais conceitos de ADS e metodos estatısticos desenvolvidos para manipular

dados desta natureza. Os dados simbolicos podem ser obtidos atraves de:

1. Aplicacao de um algoritmo de classificacao nao supervisionado (cluster analysis)

para simplificar grandes conjuntos de dados e descrever, de uma maneira autoex-

plicativa as classes associadas ao grupo obtidas;

2. Do resultado da descricao de conceitos por especialistas;

3. De bases de dados relacionais para estudar conjuntos de unidades cuja descricao

necessita da fusao eventual de varias relacoes.

2.1 HISTORICO DA ANALISE DE DADOS SIMBOLICOS 8

Como os avancos das tecnologias tem sido comum, encontram-se registros de intervalos

em base de dados de aplicacoes oriundas de diversos lugares. Na Tabela 2.1 e ilustrada

parte de uma tabela de dados simbolico reais coletados na China. Nesta tabela, as linhas

sao cidades da China e as colunas sao variaveis do tipo intervalo contendo as temperaturas

mınima e maxima registradas mensalmente em 60 cidades [China, (1998)].

Tabela 2.1 Temperaturas mınimas e maxima registradas na China.

Cidades Temperatura da China ([min : max]) - Ano 1998

Janeiro Fevereiro . . . Novembro Dezembro

AnQuin [1,8:7,1] [5,2:11,2]... [7,8:17,9] [4,3:11,8]

BaoDuin [-5,8:1,4] [-2,2:3,2]... [4,8:10,1] [-4,3:1,8]

BeiJing [-12,8:2,0] [-11,2:2,5]... [2,5:5,1] [-8,3:0,3]

......

Zhijiang [2,7:8,4] [2,7:8,7] . . . [8,2:20,9] [5,1:13,3]

Com a Tabela 2.1 obtida, a fase posterior consiste em analisar, classificar, prever,

resumir ou visualizar informacoes contidas nesta tabela. Assim, ADS pode ser aplicada

para apoio a tomada de decisao.

A partir do final da decada de 80, analise de dados simbolicos deixou de ser restrita

a um pequeno grupo de pesquisadores para ser uma area de pesquisa bastante relevante

marcada por muitas publicacoes e conferencias [Noirhomme-Fraiture e Brito, (2011)].

Trabalhos pioneiros [Diday, (1987)], [Diday, (1988)], [Diday, (1989)] e [Diday, (1991)]

apresentam os princıpios basicos da analise de dados simbolicos. Com isso, iniciou-se um

crescente interesse nessa area de pesquisa.

Neste contexto, apresenta-se uma breve descricao de alguns trabalhos de ADS nas

areas de [Noirhomme-Fraiture e Brito, (2011)]: classificacao nao supervisionada e super-

visionada, funcoes de proximidades e regressao.

2.1.1 Classificacao Nao Supervisionada, Classificacao Supervisionada e Funcoes

de Proximidade

Classificacao Nao Supervisionada

No que diz respeito aos metodos de classificacao nao supervisionada, [Gordon, (2000)]

apresentou um algoritmo de agrupamento de dados simbolicos que minimiza a soma do

potencial de descricao dos grupos. [De Carvalho e De Souza, (2010)] introduzem metodos

de agrupamento dinamicos para dados simbolicos intervalares com caracterısticas mistas,

baseadas na distancia euclidiana adaptativa quadratica.

[Almeida et al., (2013)] introduzem duas redes fuzzy kohonen clustering para partici-

onamento de dados intervalares. A primeira rede e baseada em uma distancia euclidiana

fixa para os intervalos e a segunda considera distancias ponderadas que mudam a cada

iteracao, e sao diferentes de um cluster para outro.

[Costa et al., (2013)] introduzem metodo de clustering baseado em kernel para dados

simbolicos do tipo intervalo, onde a distancia de um item e seu prototipo no espaco ca-

racterıstico e expandido usando dois componentes de kernel misturados para controlar os

intervalos. Alem disso, ferramentas para particionamento e interpretacao do cluster para

dados simbolicos do tipo intervalo tambem sao introduzidas.

Classificacao Supervisionada

No que diz respeito aos metodos de classificacao supervisionada, [Ichino et al., (1996)]

introduziram um classificador simbolico, baseado em uma abordagem geometrica cha-

mada regioes para dados simbolicos.

[Prudencio et al., (2004)] propuseram ummetodo de classificacao supervisionado, usando

dados simbolicos aplicados a um problema de selecao de modelos de series temporais.

[Bezerra e De Carvalho, (2004)] apresentaram uma abordagem para sistemas de reco-

mendacao, em que o perfil do usuario modelado e descrito por dados simbolicas modais.

[Arroyo et al., (2011)] analisam varios metodos de previsao para series temporais de da-

dos do tipo intervalo e histograma, sao adaptados filtros de suavizacao e metodos nao

parametricos (Kernel Nearest Neighbor (KNN), Redes Neurais).

Funcoes de Proximidade

Na literatura, diversas medidas de dissimilaridade [Bock e Diday, (2000)] tem sido

propostas: sao extendidas as medidas de dissimilaridade para dados simbolicos.

[Le-Rademacher e Billiard, (2011)] propoem a funcao de verossimilhanca para dados

simbolicos, ilustrando sua aplicacao ao se encontrar os estimadores de maxima verossi-

milhanca da media e variancia para distribuicoes de dados do tipo intervalo e histograma.

2.1.2 Regressao

Varios modelos de regressao para dados simbolicos do tipo intervalo tem sido introdu-

zidos na literatura. A maioria destes modelos usam o metodo dos mınimos quadrados

para estimar seus parametros. [Billard e Diday, (2000)] apresentam uma abordagem para

estender o modelo de regressao linear classico (MRLC) para dados simbolicos do tipo

intervalo pelo ajuste do metodo dos mınimos quadrados para o centro dos intervalos.

[Billard e Diday, (2002)] propuseram outra abordagem que ajusta dois MRLC indepen-

dentes sobre os limites inferior e superior dos intervalos. [Billard e Diday, (2006)] tambem

incluiram variaveis explicativas, bem como a estrutura hierarquica da variavel em um

modelo de regressao simbolica. [Maia e De Carvalho, (2008)] apresentam um modelo de

regressao linear para dados simbolicos do tipo intervalo basedos na regressao L1.

[Lima Neto e De Carvalho, (2008)] propuseram o metodo do centro e da amplitude

para ajustar o MRLC para dados simbolicos do tipo intervalo com desempenho melhor

do que os metodos apresentados em [Billard e Diday, (2000)] e [Billard e Diday, (2002)].

[Maia et al., (2008)] apresentaram abordagem para previsao de series temporais para da-

dos simbolicos do tipo intervalo. [Lima Neto e De Carvalho, (2010)] propuseram uma

nova abordagem para ajustar o modelo de regressao linear com restricao no centro e

na amplitude dos intervalos, a fim de assegurar a coerencia matematica entre os valores

previstos dos limites inferior e superior do intervalo.

No contexto do modelo de regressao para os dados de intervalo que assumem distri-

buicoes de probabilidade para os erros, [Domingues et al., (2010)] propuseram uma meto-

dologia de analise de dados intervalares baseado no metodo de regressao linear simetrica.

[Lima Neto et al., (2011)] introduziram o modelo de regressao bivariada simbolico para

dados de intervalo, baseado na teoria de modelo linear generalizado. [Souza et al., (2011)]

introduziram modelos de regressao linear logıstica para os limites inferior e superior dos

intervalos, em conjunto e separadamente.

[Billiard e Xu, (2012)] consideram alguns metodos classicos baseados no modelo de

regressao multipla para dados simbolicos do tipo intervalo ([De Carvalho et al., (2004)] ,

[Lima Neto et al., (2005)] e [Lima Neto e De Carvalho, (2010)]). Em seguida, para com-

2.2 DADOS SIMBOLICOS 11

parar esses metodos, a correlacao simbolica entre os intervalos observados e os intervalos

preditos foi introduzida como uma metrica de desempenho.

Posteriormente, na secao 2.4 serao descritos alguns dos metodos de regressao para

dados simbolicos do tipo intervalo citados, os quais embasaram teoricamente o desenvol-

vimento dos metodos propostos nessa tese.

2.2 DADOS SIMBOLICOS

Os dados simbolicos podem descrever indivıduos levando em conta, ou nao, imprecisao

ou incerteza. Alem disso, podem descrever itens mais complexos, tais como grupo de

indivıduos. Por exemplo:

Considere Y uma variavel simbolica que descreve o tempo em horas de treinamento

de um indivıduo jogador de futebol em uma semana. A descricao de um indivıduo,

em particular, k, pode ser: Y (k) = [0, 6];

Considere Z uma variavel simbolica que descreve o grau de instrucao existente em

uma cidade (classe de indivıduos). A descricao da cidade k pode ser: Z(k) =Analfabeto,

Ensino Fundamento Incompleto, Ensino Fundamental Completo, Ensino Medio In-

completo, Ensino Medio Completo, Ensino Superior Incompleto, Ensino Superior

Completo, Pos-Graduacao (Mestrado) e Pos-Graduacao (Doutorado);

Outro cenario muito comum nas empresas ocorre quando existe a necessidade de

divulgacao de informacoes de carater sigiloso como faixas salariais, valores em in-

vestimentos de risco ou percentuais de acidentes de trabalho. Esse tipo de dado

pode ser expresso atraves de dados simbolicos, usando intervalos, distribuicoes de

frequencias ou distribuicoes de probabilidade.

Em uma tabela de dados simbolicos, as linhas correspondem aos indivıduos ou classes

e as colunas sao as variaveis simbolicas que caracterizam os individuos. Os cenarios

apresentados motivam a utilizacao dos dados simbolicos para representacao dos dados

complexos.

A representacao de dados simbolicos do tipo intervalo sera objeto de estudo deste

trabalho. A descricao dos outros tipos de dados simbolicos pode ser encontrada na

literatura pertinente [Billard e Diday, (2006)] e [Lechevallier et al., (2008)].

Os modelos da literatura de ADS apresentados na subsecao 2.1.2 podem ser aplica-

dos para resolver problemas de regressao em diferentes areas. Por exemplo, na area de

engenharia de software e comum estimar o tempo e/ou custo relacionado a um projeto de

software [Bielak, (2000)]. As estimativas sao as bases do planejamento e, particularmente,

elas sao uteis no desenvolvimento e na manutencao do software. A predicao baseada nos

dados do tipo intervalo leva em conta a variabilidade, tornando mais flexıvel ao fazer o

planejamento de um software. Algumas aplicacoes de modelo de regressao para estima-

tiva de defeito de software podem ser encontradas em [Fakhrahmad e Sami, (2009)] e em

([Oliveira, (2006)] e [Leal et al., (2009)]) para estimacao de esforco de software.

Aqui, um conjunto de dados do tipo intervalo e construıdo a partir dos 13 projetos

do repositorio da NASA http://mdp.ivv.nasa.gov/ que sao amplamente utilizados na

literatura da estimativa de software [Jiang et al., (2008)].

Cada projeto e formado por um conjunto de dados de modulos de software e as

variaveis que descrevem projetos de software que variam em tamanho, complexidade,

linguagens de programacao, processos de desenvolvimento, etc. Assim, cada modulo de

um projeto e descrito por 21 variaveis.

A fim de descrever intervalos simbolicos para esses projetos atraves do conhecimento a

priori do especialista em estimativa de software, tres variaveis foram escolhidas: numero

de operadores (NO), numero de operandos (NOR) e numero de linhas de codigo (NL).

Um processo de generalizacao para os modulos de cada projeto foi realizado, considerando

que os intervalos sao calculados por valores mınimo e maximo das variaveis classicas do

repositorio NASA.

A Tabela 2.2 ilustra parte do projeto 1 do repositorio da NASA. Cada linha desta

tabela corresponde a um modulo de software descrito pelas variaveis NO, NOR e NL.

Tabela 2.2 Parte dos modulos de software do projeto 1.

Numero de linhas Numero de operadores Numero de operandos

(NL) (NO) (NOR)

41 590 111

14 0 1

100 180 345

0 0 678

. . . . . . . . .

602 1144 435

110 530 1641

350 126 899

Em relacao a Tabela 2.2, uma descricao intervalar para o projeto 1 pode ser dada pelos

valores de mınimo e maximo das variaveis NL, NO e NOR que sao, respectivamente,

[0, 602], [0, 1144] e [1, 1641].

No capıtulo 1 a Tabela 1.1 mostra o conjunto de dados do tipo intervalo resultante da

aplicacao do processo de generalizacao, onde cada linha desta tabela descreve conceitos

de projeto de software, considerando a variacao interna.

Sabe-se que na analise de dados simbolicos, as variaveis assumem um unico valor ou

categoria para um dado indivıduo. Entretanto, as variaveis simbolicas podem assumir

para um dado indivıduo (ou classe): conjunto de categorias, intervalos, histograma, etc.

Como nos dados classicos, os dados simbolicos tambem sao classificados segundo o

tipo de variavel simbolica que descreve os objetos, etapas por sua vez sao definidas de

acordo com seu domınio. De acordo com [Bock e Diday, (2000)], as variaveis simbolicas

sao classificados em dois grandes grupos: nao modais e modais.

2.2.1 Variavel simbolica do tipo modal

Uma variavel simbolica modal descreve um objeto usando par(c,π), onde c e o conjunto

de categorias que a variavel assume e π e um vetor de frequencia, pesos ou probabilidades

correspondentes as categorias do conjunto c.

Por exemplo, seja Y a distribuicao de agencias bancarias em k cidades. Para uma

cidade t, tem -se: Y (t) = BB (0,5), Bradesco (0,4) e Caixa (0,1).

2.2.2 Variavel simbolica do tipo nao modal

As variaveis nao modais sao: multivaloradas e do tipo intervalo. As variaveis multivalo-

rada sao definidas como: categorica e quantitativa.

Uma variavel multivalorada nominal assume, ao descrever um objeto, um conjunto

de categorias nao ordenadas. Por exemplo, seja Y = Tipo de Passagem de um

grupo k de indivıduos, entao Yk =Terrestre, Aerea;

Um variavel multivalorada ordinal assume um conjunto de categorias ordenados.

Por exemplo, seja Y = nıvel de escolaridade e k um grupo de indivıduos de uma

cidade, entao Yk = fundamental, medio, graducao;

Uma variavel multivalorada quantitativa assume um conjunto de valores nao orde-

nados. Por exemplo, seja Y = o numero de alunos aprovados no vestibular das tres

2.3 ESTATISTICA DESCRITIVA 14

principais escolas particulares de uma cidade e k um grupo de indivıduos de uma

cidade, entao Yk = 10, 9, 20;

No caso classico, todos esses exemplos apresentados, as variaveis so poderiam assu-

mir um unico valor ao descrever cada indivıduo.

Uma variavel Y e do tipo intervalo se ela representa uma realizacao ξ = [a : b] ⊂ ℜ1,

com a ≤ b e a, b ∈ ℜ1. No exemplo da Tabela 1.1, os intervalos sao gerados como

resultado da agregacao (generalizacao) de dados classicos [Jiang et al., (2008)]. Os valores

auj e buj do intervalo [auj : buj] referentes a variavel j na categoria wu sao dados por:

auj = mini∈Ωu

buj = maxi∈Ωu

onde Ωu e o conjunto dos i − esimos valores (i ∈ Ω) que compoem a categoria wu.

Exemplos dessa definicao podem ser obtidos do conjunto de dados simbolicos da Tabela

2.3 ESTATISTICA DESCRITIVA

Apesar dos metodos de mineracao de dados inicialmente terem sido elaborados sob os

alicerces dos dados classicos, e possıvel adaptar seus conceitos e metodos para dados

simbolicos.

Carvalho (1995) introduziu a nocao de histogramas para dados simbolicos booleanos.

Bertrand e Goupil (2000) introduziram metodos para calcular a distribuicao de frequencia

para uma variavel simbolica e estenderam, para cada tipo de variavel, os conceitos de

media, desvio padrao e mediana.

Billiard e Diday (2000), (2002) estenderam os conceitos de funcao de correlacao e

covariancia, proporcionando a obtencao de uma equacao de regressao linear multipla para

dados simbolicos de natureza intervalar. Nesse mesmo contexto, em [Billard, (2004)] sao

abordados media, variancia e histograma para dados do tipo intervalo e multivalorado.

Nos trabalhos [Lauro e Gioia, (2006)] e [Billard, (2004)], sao introduzidos metodos

para analisar a interdependencia e dependencia entre variaveis com valores intervala-

res. Os metodos de regressao para dados simbolicos do tipo intervalo serao descritos em

detalhes na secao 2.4.

Uma ilustracao disso, e a adaptacao da estatıstica descritiva para dados simbolicos

do tipo intervalar. Sao exemplos de metodos da estatıstica descritiva a construcao histo-

grama, calculo da media e variancia. Antes de ser explicado como esses metodos foram

adaptados, e necessario definir o que e uma descricao individual e uma descricao virtual.

Descricao individual e o valor de uma variavel de um objeto simbolico. O calculo da

frequencia de um histograma simbolico envolve contar o numero de descricoes individuais

que tornam verdadeira uma determinada dependencia logica nos dados.

Uma dependencia logica pode ser representada pela equacao (2.1), tal que x ∈ X (X

e o conjunto de todas as descricoes individuais presentes na tabela) e A ⊆ D,B ⊆ D. Em

que, v retornara um valor binario, isto e, ”0”, se a dependencia logica nao for verdadeira

para x, ou ”1” se for verdadeira [Billard e Diday, (2006)].

v : [x ∈ A] ⇒ [x ∈ B]. (2.1)

Ja a descricao virtual de um vetor e um conjunto de todos os elementos x presentes

que satisfazem todas as dependencias logicas em X . Ela e representada pela equacao 2.2

como vir(d) sendo Vx todas regras presentes em X .

vir(d) = x ∈ D; v(x) = 1, ∀v ∈ Vx. (2.2)

Deste modo, supondo que ha interesse em uma variavel Yj ≡ Z e o valor observado

para o objeto u nessa variavel e um intervalo Z(u) = [au, bu], para u ∈ E = 1, ..., m e

que os vetores de descricao individuais x ∈ vir(du) sao distribuıdos uniformemente sobre

o intervalo Z(u), temos para cada ξ:

P x ≤ ξ|x ∈ vir(du) =

0, se ξ ≤ au;

ξ−auau−bu

, se au ≤ ξ ≤ bu;

1, caso contrario.

O vetor de descricao individual x vai ter valores globalmente em⋃u∈E vir(du) e cada

um desses objetos vai ter a mesma probabilidade de ser observado com p = 1m.

Funcao de Distribuicao Empırica Intervalar

Obtem-se, entao, que a funcao empırica de distribuicao, FZ(ξ), que e uma funcao de

distribuicao de m distribuicoes uniformes nos m intervalos Z(u) = [au, bu] para u ∈ E .

Portanto, da equacao (2.3):

FZ(ξ) =1

P x ≤ ξ|x ∈ vir(du), (2.4)

ξ∈Z(u)

(ξ − aubu − au

)+ |u|ξ ≥ bu|

Funcao de Densidade Empırica Intervalar

Caso seja derivada a equacao (2.4) em funcao de ξ, sera encontrada a funcao empırica

de densidade de Z.

f(ξ) =1

u:ξ∈Z(u)

bu − au. (2.5)

Como na equacao (2.5) o somatorio e apenas sobre objetos u, para os quais ξ ∈ Z(u),

e possıvel escreve-la de outra forma:

f(ξ) =1

Iu(ξ)

||Z(u)|| , ξ ∈ ℜ, (2.6)

onde Iu(ξ) e uma funcao que indica se ξ esta ou nao em Z(u), quando afirmativo,

retornara 1, caso contrario, 0. E ||Z(u)|| e a amplitude do intervalo Z(u) ∈ E, onde

||Z(u)|| = bu − au.

Media Intervalar

Agora se torna possıvel encontrar a media para dados simbolicos intervalares, pois se

sabe que a media empırica Z em termos da funcao de densidade empırica e:

∫ ∞

−∞

ξf(ξ)dξ.

Substituindo da equacao (2.6):

∫ ∞

−∞

Iu(ξ)

||Z(u)||ξdξ,

bu − au

ξ∈Z(u)

ξdξ,

b2u − a2ubu − au

bu + au2

. (2.7)

Variancia Amostral Intervalar

De maneira analoga e possıvel encontrar a variancia para dados simbolicos intervalares

atraves da variancia empırica s em termos da funcao de densidade empırica pode ser

definido por

∫ ∞

−∞

(ξ − z)2f(ξ)dξ.

Agora computa-se s2, considerando que a equacao anterior e equivalente a

∫ ∞

−∞

(ξ2)f(ξ)dξ − (z)2.

Usando o segundo momento

∫ ∞

−∞

(ξ2)f(ξ)dξ,

∫ ∞

−∞

||Z(u)||dξ,

(bu)3 − (au)

3 ||Z(u)|| ,

[(bu)2 + (bu)(au) + (au)

2]. (2.8)

Conforme [Bock e Diday, (2000)], a variancia intervalar(S2) e dada por:

(b2u + buau + a2u

)− 1

bu + au

. (2.9)

Histograma Intervalar

Para construir um histograma de dados simbolicos intervalares, e preciso tomar o intervalo

I =[minau|u∈E, maxbu|u∈E

]em que todos os possıveis valores de Z estao contidos, e

considerar uma particao de I em r subintervalos Ig = [ξg−1, ξg), g = 1, ..., r − 1 e Ir =

[ξr−1, ξr] com g=r. Entao, o histograma para Z e a representacao grafica da distribuicao

de frequencia (Ig, pg) g = 1, ..., r onde:

||Z(u) ∩ Ig||||Z(u)|| . (2.10)

Nesse caso pg, para g = 1, . . . , r, representa a area da barra vertical da base de qual e o

intervalo de Ig pertencente ao eixo horizontal do histograma. Portanto, pg e probabilidade

de um descricao individual u esta no intervalo Ig.

Considerando uma variavel Z com valores intervalares definida no conjunto ξ =

1, . . . , 8 de n = 8 objetos basicos definidos como:

Z(E) = [0 : 2]; [1 : 3]; [1, 5 : 2, 5]; [2 : 4]; [3, 5 : 5]; [4, 5 : 5, 5]; [5 : 7]; [6.5; 7.5]

A Figura 2.1 representa o histograma intervalar das classes definidas para cada ele-

mento do vetor. Com isso, as oito classes defindas contem os intervalos obtidos dentra de

cada faixa definida. Assim, quanto mais intervalos existirem maiores serao as frequencias

das respectivas classes.

2.4 METODOSDE REGRESSAO SIMBOLICA SEM SUPOSICAO DE DISTRIBUICAO PARAOS ERROS19

Figura 2.1 Histograma para dados intervalares.

Usando as equacoes (2.7) e (2.8), computam-se os valores media e variancia intervalar de

Z, como, respectivamente:

Z = 18(1 + 2 + 3 + 3 + (8, 5/2) + 5 + 6 + 7) ≃ 3, 78125

S2 =√

443,524

− 3, 7812 ≃ 2, 044826

2.4 METODOS DE REGRESSAO SIMBOLICA SEM SUPOSICAO DE DISTRIBUICAO

PARA OS ERROS

Ao contrario dos metodos classicos para tratamento de dados que foram desenvolvidos

ao longo de mais de um seculo, os metodos para tratamento de dados simbolicos estao

crescendo a cada dia. Esta secao apresentara alguns metodos de regressao para dados

simbolicos do tipo intervalo baseados no metodo dos mınimos quadrados sem fazer su-

posicao de distribuicao de probabilidade para os erros.

Os tres principais metodos de regressao linear para dados simbolicos do tipo intervalo

sao: metodo do centro, metodo dos mınimos e maximos e metodo do centro e da amplitude

do intervalo. O processo de estimacao dos parametros da regressao linear dos tres metodos

e baseado na minimizacao de criterios predeterminados.

2.4.1 Metodo do centro

O metodo do centro, proposto por [Billard e Diday, (2000)], consiste em ajustar um mo-

delo de regressao linear ao centro dos intervalos assumidos pelas variaveis simbolicas, e

em seguida aplicar esse modelo aos limites inferior (inf) e superior (sup) dos intervalos das

variaveis preditoras para prever, respectivamente, o limite inferior e superior da variavel

resposta. Assim, o metodo do centro consiste em minimizar a soma dos quadrados dos

erros do centro dos intervalos.

O metodo do centro para variaveis simbolicas do tipo intervalo pode ser formalmente

definido do seguinte modo: Seja E = e1, e2, . . . , en um conjunto de exemplos descritos

por p + 1 variaveis simbolicas do intervalo: Y,X1, X2, . . . , Xn. Alem disso, seja cada

exemplo de ei ∈ E(i = 1, . . . , n) representado por um vetor de intervalos zi = (xi, yi),

onde xi = (xi1, xi2, . . . , xij, . . . , xip), xij = ξij = [aij : bij ] ∈ Ω = [a : b] : a ≤ b; a, b ∈ℜ1(j = 1, . . . , p) e yi = [yinfi : ysupi ] ∈ Ω, caracterizando, os valores observados de Xj e

Considere o conjunto de variaveis X1, X2, . . . , Xp como variaveis preditoras relaciona-

das linearmente com uma variavel resposta Y atraves do modelo:

yinfi = β0 + β1ai1 + β2ai2 + . . .+ βpaip + εinfi ,

ysupi = β0 + β1bi1 + β2bi2 + . . .+ βpbip + εsupi . (2.11)

A partir das Equacoes (2.11), pode-se encontrar os estimadores minimizando a soma

de quadrados dos erros do centro dado por:

(εinfi + εsupi )2 =n∑

(yinfi − β0 − β1ai1 − . . .− βpaip +

+ ysupi − β0 − β1bi1 − . . .− βpbip)2, (2.12)

que representa a soma dos quadrados dos erros dos limites inferior e superior.

O estimador de mınimos quadrados para β que minimiza a soma dos quadrados dos

erros da Equacao 2.12 para este metodo e a solucao do sistema de p+1 equacoes normais.

Em notacao matricial, a expressao resulta em:

β = (A)−1b (2.13)

em que A e uma matriz (p+ 1)× (p+ 1) e b e um vetor (p+ 1)× 1, dados por:

i xci1 . . .

∑i x

cip∑

i xci1

∑i(x

2 . . .∑

i xcipx

......

......∑n

i xcip

∑i x

cip . . .

∑i(x

e b = (∑

i yci ,∑

i ycixi)

A expressao (2.13) pode ser representada de uma forma mais interessante por:

β = (XT

cXc)−1XT

cyc, (2.14)

onde, Xc tem posto completo p + 1 ≤ n, yc = (yc1, . . . , ycn)T, Xc = (xT

c1, . . . ,xT

cn)T,xT

(1, xci, . . . , xcip)eβ = (β0, . . . , βp). Com xcij = (aij + bij)/2 e yci = (yinfi + ysupi )/2.

Assim, ao aplicar o modelo para predizer Y a partir de um conceito w, descrito por

z = (x, y), onde x = (x1, x2, . . . , xp) com xj = [aj : bj ], (j = 1, 2, . . . , p), os valores dos

limites do intervalo relativo a variavel resposta y serao dados por:

y = [yinf : ysup], com,

yinf = (xinf)Tβ e ysup = (xsup)Tβ, (2.15)

em que (xinf)T = (1, a1, a2, . . . , ap) e (xsup)T = (1, b1, b2, . . . , bp).

Desta forma, o metodo do centro consiste em um modelo de regressao dos centros

da variavel resposta do tipo intervalo Y sobre os centros das variaveis preditoras do

tipo intervalo Xj. Entretanto, e importante ressaltar que este metodo nao garante que

yinfi ≤ ysupi .

2.4.2 Metodo do mınimo e maximo

Diferente do metodo do centro descrito na Secao 2.4.1, o metodo do mınimo e maximo

proposto por [Billard e Diday, (2002)] ajusta dois modelos independentes de regressao

linear para os limites inferiores e superiores das variaveis simbolicas.

Considere o conjunto de variaveis X1, X2, . . . , Xp como variaveis regressoras relacio-

nadas linearmente com uma variavel resposta Y atraves do modelo:

yinfi = βinf0 + βinf1 ai1 + . . .+ βinfp aip + εinfi ,

ysupi = βsup0 + βsup1 bi1 + . . .+ βsupp bip + εsupi . (2.16)

A partir da equacao (2.16), pode-se deduzir a soma dos quadrados dos erros no metodo

dos limites mınimo e maximo, que sao:

(εinfi

(εsupi )2 =n∑

(yinfi − βinf0 − βinf1 ai1 − . . .− βinfp aip

(ysupi − βsup0 − βsup1 bi1 − . . .− βsupp bip

)2. (2.17)

Essa equacao representa a soma dos quadrados dos resıduos dos limites inferiores e

dos limites superiores de forma independente, considerando tambem independentes os

vetores de parametros β utilizados para predicao dos limites da variavel resposta Y.

Os estimadores de mınimos quadrados de βinf0 , βinf1 , . . . , βinfp e βsup0 , βsup1 , . . . , βsupp que

minimizam a equacao (2.17) podem ser escritas na notacao matricial por:

β =(βinf0 , βinf1 , . . . , βinfp , βsup0 , βsup1 , . . . , βsupp

. (2.18)

onde A e uma matriz 2(p+ 1)× 2(p+ 1) e b e um vetor 2(p+ 1)× 1, denotados por:

i ai1 . . .∑

i aip 0 . . . 0∑i ai1

∑i(ai1)

2 . . .∑

i aipai1 0 . . . 0...

......

∑i aip

∑i ai1aip . . .

∑i(aip)

2 0 . . . 0

0 0 . . . 0 n . . .∑

0 0 . . . 0∑

i bi1 . . .∑

i bipbi1...

......

0 0 . . . 0∑

i bi1bip . . .∑

i(bip)2

e b =(∑

i yinfi ,

∑i y

infi ai1, . . . ,

∑i y

infi aip,

∑i y

supi ,

∑i y

supi bi1, . . . ,

∑i y

supi bip

Aplicando o modelo para predizer Y a partir de um conceito w, descrito por z = (x, y),

onde x = (x1, x2, . . . , xp) com xj = [aj : bj ], (j = 1, 2, . . . , p), os valores preditos dos

limites inferiores e superiores y = [yinf , ysup] da variavel resposta Y sao dados por:

yinf = (xinf)Tβinf e ysup = (xsup)Tβsup, (2.19)

(xinf )T = (1, a1, ..., ap), (xsup)T = (1, b1, ..., bp),

= (βinf0 , βinf1 , . . . , βinfp )T e βsup

= (βsup0 , βsup1 , . . . , βsupp )T.

2.4.3 Metodo do centro e da amplitude

Lima Neto e de Carvalho (2008) propuseram um novo metodo de regressao simbolica

levando em consideracao o centro e a amplitude das variaveis intervalares. Esse metodo

estabelece o criterio de minimizacao para estimacao dos parametros, considerando a soma

dos quadrados dos erros relativos do centro e da amplitude dos intervalos de modo inde-

pendente.

A expectativa e de que com a inclusao de informacoes da amplitude dos intervalos

haja uma melhoria na predicao do modelo. O ajuste dos limites inferiores e superiores

da variavel resposta e realizado atraves da aplicacao do vetor de parametros β ao centro

e amplitude das variaveis regressoras.

Sejam yc e xcj com (j = 1, 2, . . . , p), variaveis quantitativas relativas ao centro dos

intervalos das variaveis simbolicas y e xj com (j = 1, 2, . . . , p). Alem disso, considere

yr exrj(j = 1, 2, . . . , p) variaveis quantitativas que assumem como valores a metade da am-

plitude (ou meia-amplitude) dos intervalos das variaveis simbolicas y e xj(j = 1, 2, . . . , p).

Considere yc e yr como variaveis resposta e xcj e xrj(j = 1, 2, . . . , p) um conjunto de

variaveis regressoras relacionadas por:

yci = βc0 + βc1xci1 + . . .+ βcpx

cip + εci ,

yri = βr0 + βr1xri1 + . . .+ βrpx

rip + εri . (2.20)

Neste metodo, os vetores de parametros β = ((βc)T, (β

r)T)T sao estimados de forma

independente para o centro e a amplitude dos intervalos. Portanto, a soma dos quadrados

dos erros e dada por:

[(εci)

2 + (εri )2] =

(yci − βc0 − βc1x

ci1 − . . .− βcpx

(yri − βr0 − βr1x

ri1 − . . .− βrpx

)2. (2.21)

Os estimadores de mınimos quadrados de βc0, βc1, . . . , β

cp e β

r0 , β

r1, . . . , β

rp que minimizam

a equacao (2.21) podem ser escritas em notacao matricial por:

β =(βc0, β

c1, . . . , β

cp, β

r0, β

r1, . . . , β

= (A)−1b, (2.22)

em que A e uma matriz 2(p+ 1)× 2(p+ 1) e b e um vetor 2(p+ 1)× 1, denotados por:

i xci1 . . .

∑i x

cip 0 . . . 0

∑i x

∑i(x

2 . . .∑

i xcipx

ci1 0 . . . 0

......

...∑

i xcip

∑i x

cip . . .

∑i(x

2 0 . . . 0

0 0 . . . 0 n . . .∑

i xrip

0 0 . . . 0∑

i xri1 . . .

∑i x

......

0 0 . . . 0∑

i xri1x

rip . . .

∑i(x

e b =(∑

i yci ,∑

i ycix

ci1, . . . ,

∑i y

ri ,∑

i yri x

ri1, . . . ,

∑i y

Os estimadores de mınimos quadrados de βc0, βc1, . . . , β

cp e β

r0 , β

r1, . . . , β

rp que minimizam

a Equacao (2.21) podem ser re-escritas de forma mais representativa por:

βc = (XT

cXc)−1XT

cyc, (2.23)

βr = (XT

rXr)−1XT

ryr, (2.24)

onde Xc e Xr tem posto completo p+ 1 ≤ n, com

yc = (yc1, . . . , ycn)T,Xc = [(xc1)

T, . . . , (xcn)T]T,(xci)

T = (1, xci, . . . , xcip), β = (β0, . . . , βp).

E yr = (yr1, . . . , yrn)T, Xr = ((xr1)

T, . . . , (xrn)T)T,(xri)

T = (1, xri, . . . , xrip), β =

(β0, . . . , βp). Assim, xcij = (aij + bij)/2 e yci = (yinfi + ysupi )/2.

Aplicando o metodo do centro e da amplitude para predizer y a partir de um conceito

w, descrito por z = (x, y), c = (xc, yc) e r = (xr, yr), onde x = (x1, x2, . . . , xp) com

xj = [aj : bj ](j = 1, 2, . . . , p), xc = (xc1, . . . , xcp) com xcj = (aj + bj)/2 e xr = (xr1, . . . , x

com xrj = (bj − aj)/2 (j = 1, . . . , p). O valor y = [yinf , ysup] sera predito a partir dos

valores yc e yr, estimados de yc e yr, respectivamente, como mostrado a seguir:

yinf = yc − yr e ysup = yc + yr, (2.25)

yc = (xc)Tβc e yr = (xr)Tβr,

(xc)T = (1, xc1, ..., xcp) e (xr)T = (1, xr1, ..., x

βc = (βc0, βc1, . . . , β

T e βr = (βr0 , βr1 . . . , β

2.4.4 Metodos com Restricoes

Um resumo sobre dados simbolicos do tipo intervalo foi apresentado na Secao 2.2. Esse

tipo de dado simbolico e definido por uma realizacao simbolica ξ = [a : b], com a, b ∈ ℜ1,

a e b, variaveis quantitativas, representando, respectivamente, o limite inferior e o limite

superior de um intervalo, onde necessariamente a condicao (a ≤ b) deve ser atendida.

Pode-se demonstrar que, em alguns cenarios, nao ha garantia de que os intervalos pre-

ditos pelos metodos apresentados nesta secao contemplem a definicao dos dados simbolicos

do tipo intervalo, por exemplo, mantendo a estimativa do limite inferior do intervalo pre-

dito menor do que a estimativa do limite superior deste intervalo para qualquer observacao

intervalar xi.

Alguns metodos foram propostos para resolver esse problema [Lima Neto e De Carvalho, (2010)].

A ideia basica e impor restricoes quanto aos valores estimados dos parametros dos mode-

los do metodo do centro, metodo do centro e da amplitude, e do metodo dos mınimos e

maximos. O modelo estabelece uma relacao linear entre a variavel resposta e as variaveis

regressoras, impondo restricoes aos parametros do vetor β, da seguinte forma:

yinfi = β0 + β1ai1 + . . .+ βpaip + εinfi ,

ysupi = β0 + β1bi1 + . . .+ βpbip + εsupi , (2.26)

restritos a βj ≥ 0, j = 0, 1, . . . , p.

2.5 METODOS DE REGRESSAO SIMBOLICA COM DISTRIBUICAO PARA OS ERROS 26

A estimacao dos parametros β do modelo com restricoes segue os mesmos passos

dos metodos simbolicos descritos nas secoes anteriores. Entretanto, o uso de restricoes

no vetor de parametros β restringe o espaco de possıveis solucoes que minimiza a soma

de quadrados dos erros, podendo ocasionar uma perda de desempenho de predicao se

comparado com os metodos sem restricao descritos nas secoes 2.4.1, 2.4.2 e 2.4.3. Desta

forma, sugere-se usar, inicialmente, o modelo sem restricao, com o intuito de obter as

estimativas dos parametros que minimizam a soma dos quadrados dos erros. Contudo,

caso sejam identificadas observacoes onde os valores estimados para os limites inferior e

superior estejam incoerentes, recomenda-se a abordagem correspondente com restricoes

para re-estimar apenas aquelas observacoes que apresentam problemas.

2.5 METODOS DE REGRESSAO SIMBOLICA COM DISTRIBUICAO PARA OS

Os modelos de regressao apresentados na secao 2.4 para dados simbolicos representam

um avanco em ADS, ainda que existam pontos de pesquisa para serem investigados. Por

exemplo, esses modelos nao consideram nenhuma suposicao probabilıstica para mode-

lar a variavel resposta e nao tratam conjuntos de dados intervalares contaminados com

observacoes discrepantes (outliers).

As estimativas de mınimos quadrados sao sensıveis a presenca de outliers entre os da-

dos. Dessa forma, alguns analistas preferem descartar essas observacoes antes de estimar

o modelo que melhor ajusta os dados investigados, outros preferem a busca de modelos

menos sensıveis a essa presenca.

2.5.1 Modelo Simetrico

No contexto de modelos de regressao para dados simbolicos do tipo intervalo que assu-

mem distribuicoes de probabilidade para os erros, [Domingues et al., (2010)] propuseram

uma metodologia de analise de dados intervalares baseados na regressao linear com er-

ros simetricos. Nesta abordagem ajustam-se dois modelos independentes de regressao

linear simetrica sobre o centro e a amplitude dos intervalos assumidos pelas variaveis no

conjunto de treinamento.

Portanto, alguns metodos foram propostos para amenizar as desvantagens da uti-

lizacao do metodo dos mınimos quadrados quando o conjunto de dados contem ob-

servacoes atıpicas [Huber, 1964]. Metodos robustos para dados classicos tem sido uti-

lizados para reduzir o efeito das observacoes que influenciam fortemente o modelo de

regressao linear.

Assim, [Domingues et al., (2010)] apresentaram um metodo de regressao linear para

predicao menos sensıvel a presenca de dados intervalares outliers utilizando uma aborda-

gem parametrica, permitindo com isso, a construcao de intervalos de confianca e testes

de hipoteses.

O metodo de regressao linear simetrica para dados simbolicos do tipo intervalo tem

como principal caracterıstica ser menos suscetıvel a presenca de dados intervalares atıpicos.

Nesse contexto, um dado simbolico intervalar e representado por um par de observacoes

independentes (centro e amplitude) obtidos a partir dos limites inferiores e superiores do

intervalo.

Equacoes de regressao

O metodo regressao linear simetrica simbolica para dados intervalares (RLSS-DI) e

definido de acordo com duas equacoes independentes de regressao:

yci = (zci)Tβc + εci e yri = (zri )

Tβr + εri (2.27)

sendo zci = (1,xci)T e zri = (1,xri )

T e βc = (βc0, . . . , βcp) o vetor de parametros desconhecidos

para o ajuste dos pontos medios da variavel resposta, ǫci ∼ S(0, φ, g) e (zci)T (i = 1, . . . , n)

e o vetor das variaveis regressoras relativo aos seus respectivos pontos medios (centro);

βr = (βr0, . . . , βrp) e o vetor de parametros desconhecidos para o ajuste da amplitude da

variavel resposta, ǫri ∼ S(0, φ, g) e (zri )T (i = 1, . . . , n) e o vetor das variaveis regressoras

relativo as suas amplitudes.

Assumiu-se a distribuicao t-Student para os erros relativos ao ajuste dos centros dos

intervalos e a distribuicao normal para os erros relativos ao ajuste das amplitudes dos

intervalos. A predicao dos limites inferiores e superiores do i − esimo intervalo yi =

[yinfi , ysupi ] e baseada na predicao de yic and yi

Alem disso, os valores preditos sao menos suscetıveis a presenca de dados intervalares

outliers porque o metodo considera distribuicoes de cauda pesada para os erros quando

estima os parametros do modelo. Outro aspecto importante desse metodo e possibilitar a

construcao de intervalos de confianca e testes de hipoteses sobre os parametros estimados

do modelo.

2.5.2 Modelo Bivariado

Variaveis intervalares tornaram-se muito comuns em analises de dados. Ate agora, muitos

modelos de regressao simbolica deste tipo de dados a partir de um ponto de vista da

otimizacao nao consideram os aspectos probabilısticos dos modelos, nem as relacoes nao-

lineares entre a variavel resposta e variavel preditora intervalares.

Segundo [Lima Neto et al., (2011)], variaveis intervalares sao formuladas como vetores

aleatorios bivariados, introduzindo o modelo de regressao bivariada simbolico baseado na

teoria de modelos lineares generalizados (MLG).

Os modelos propostos por [Billard e Diday, (2000)] e [Lima Neto e De Carvalho, (2008)]

de regressao simbolica nao garantem a coerencia matematica para os valores previstos dos

limites do intervalo (yinf ≤ ysup). A fim de resolver este problema Lima Neto et al. (2011)

propuseram modelos bivariados de regressao simbolicos (MBRS) baseado na abordagem

MLG com a componente aleatoria, tendo a famılia de distribuicao exponencial bivariada

e funcoes de ligacao que garantem a coerencia matematica para os limites do intervalo.

No MRSB e possıvel escolher funcoes de ligacao diferentes. Algumas funcoes dis-

ponıveis: a identidade, logarıtmico, potencia, inversa, entre outras. No entanto, algumas

funcoes de ligacao possuem propriedades particulares e pode ser preferıvel em algumas

situacoes. Por exemplo, se considera-se a metade da amplitude dos intervalos no compo-

nente aleatorio, a funcao de ligacao logarıtima garantira a positividade para os valores

preditos do yri (yri ≥ 0) e seu resultado implica que yinfi ≤ ysupi .

Com isso, foi proposto por [Lima Neto et al., (2011)] uma nova classe de modelos

MRSB que podem ser uteis na analise estatıstica dos dados intervalares. Esta nova

classe de modelos segue a abordagem MLG. Assume-se que a distribuicao conjunta da

variavel resposta intervalar Y = (Y1, Y2) pertence a famılia de distribuicao exponencial

bivariada. Esta famılia estende a teoria MLG para o caso de variaveis aleatorias. O

componente aleatorio do MRSB pode ser representado em termos de centro e amplitude

dos intervalos ou em termos dos limites inferiores e superiores dos intervalos ou qualquer

outro par que caracterize o intervalo.

2.5.3 Modelo Logıstico

Ainda nesse contexto, Souza et al. (2011) introduziram diferentes classificadores de

padroes para dados simbolicos do tipo de intervalo baseados na metodologia de regressao

logıstica. Quatro abordagens sao consideradas. Estas abordagens diferem de acordo com

a forma de representar os intervalos.

2.6 COMENTARIOS FINAIS 29

O primeiro classificador considera que cada intervalo e representados pelo centro dos

intervalos e executa uma regressao logıstica classica sobre os centros dos intervalos. A

segunda abordagem parte do princıpio de que cada intervalo e um par de variaveis quan-

titativas e executa uma regressao logıstica conjunta classica sobre essas variaveis. O

terceiro considera que cada intervalo e representado por seus vertices e uma regressao

logıstica classica sobre os vertices dos intervalos. A ultima abordagem parte do princıpio

de cada intervalo e um par de variaveis quantitativas e realiza duas regressoes classicas

separadas sobre estas variaveis, combinando o resultado em alguma forma apropriada.

Nesse contexto, duas etapas principais estao envolvidas na construcao destes classi-

ficadores. Na etapa de treinamento, as funcoes lineares para modelar a probabilidade a

posteriori das classes do conjunto de treinamento sao construıdos. No passo de alocacao,

novos exemplos sao afetados a uma classe de acordo com a probabilidade a posteriori

estimada.

A ideia e usar a funcao de distribuicao logıstica classica e introduzir uma analise de

regressao logıstica de multiplas classes para dados simbolicos do tipo intervalo na qual

cada classe tem uma saıda binaria contra as outras classes. Este modelo de multiplas

classes tem sido relacionado usualmente com tecnicas de aprendizagem de maquina, tais

como redes neurais e maquina de vetor de suporte.

Os classificadores iniciam com a construcao de funcoes lineares que modelam proba-

bilidade posteriori das classes, baseados na distribuicao logıstica e usando estas probabi-

lidades para classificar novos padroes para uma das classes. Representacoes diferentes da

informacao contida no intervalo de dados sao considerados.

A precisao dos resultados fornecidos pelos classificadores foi avaliada pela taxa de

erros de classificacao e o melhor resultado foi obtido com o classificador que executa duas

regressoes logısticas separadas nos limites inferiores e superiores dos intervalos e a media

da probabilidade a posteriori obtida com a probabilidade a posteriori combinada.

Comparado com um classificador dos k vizinhos mais proximos e um discriminante

linear para os dados simbolicos do tipo intervalo introduzido na literatura da ADS, este

metodo proposto forneceu o melhor o desempenho utilizando conjuntos de dados do tipo

intervalo reais e simulados [Lima Neto et al., (2011)].

2.6 COMENTARIOS FINAIS

Nas primeiras secoes deste capıtulo foi apresentado um resumo sobre analise de dados

simbolicos. Esse resumo foi necessario para contextualizar as definicoes discutidas nos

modelos de regressao linear para dados simbolicos do tipo intervalo apresentados na secao

2.6 COMENTARIOS FINAIS 30

Os metodos de regressao para dados simbolicos do tipo intervalo utilizaram o metodo

dos mınimos quadrados. Esse processo consiste em encontrar um conjunto de parametros

para o modelo dos dados que minimize a soma dos quadrados dos erros desse modelo.

Os parametros encontrados nao sao viesados, contudo sao fortemente influenciados

pela presenca de dados discrepantes. Essa desvantagem e importante porque os metodos

de regressao simbolica, ate entao propostos e apresentados neste capıtulo, utilizam os

mınimos quadrados como tecnica para estimacao dos parametros do modelo.

Por serem baseados nos mınimos quadrados, os tres metodos de regressao linear

simbolica apresentados nao propoem suposicoes de distribuicao de probabilidades para o

modelo dos erros.

Alem disso, dado que um determinado modelo foi ajustado a um conjunto de dados,

verificou-se que em alguns casos o modelo poderia predizer um intervalo para a variavel

resposta cujo limite inferior seria maior do que o limite superior, violando a definicao de

dado simbolico do tipo intervalo.

CAPITULO 3

REGRESSAO ROBUSTA PARA DADOS SIMBOLICOS

DO TIPO INTERVALO

Este capıtulo introduz a metodologia de regressao linear robusta para dados intervalares.

A principal caracterıstica desse modelo e que os parametros do modelo sao estimados

atraves do metodo dos mınimos quadrados reponderados, alem de ser menos susceptıvel

a presenca de observacoes discrepantes (outliers).

3.1 INTRODUCAO

A analise de dados atraves de regressao linear e uma tecnica largamente utilizada na

engenharia, gestao e em areas onde realiza-se estimativas. A ampla utilidade de regressao

tem expandido no ultimos anos. O principal objetivo deste capıtulo e propor um modelo

de regressao robusta para dados simbolicos do tipo intervalo.

Quando no modelo de regressao linear y = Xβ + ε e considerada distribuicao normal

para a variavel resposta, o metodo dos mınimos quadrados e um bom procedimento para

estimacao dos parametros do vetor β, com boas propriedades estatısticas. Entretanto,

existem muitas situacoes em que a distribuicao da variavel resposta pode nao ser normal

e/ou ainda a existencia de outliers que afetam o modelo de regressao. Portanto, a pre-

senca de um ou mais outliers nos dados e um problema frequentemente encontrado nas

aplicacoes de regressao.

Os outliers fornecem informacoes valiosas sobre a qualidade do ajuste do modelo e

sao indicativos fortes de fenomenos atıpicos. Observacoes outliers sao pontos incomuns

no conjunto de dados e diferem significativamente das demais observacoes do conjunto

de dados. Tais dados podem ter uma forte influencia sobre a analise de regressao, parti-

cularmente em modelos de regressao baseados nos estimadores de mınimos quadrados.

O metodo de regressao robusta minimiza o efeito das observacoes que deveriam ser

altamente influenciadas, caso o metodo dos mınimos quadrados fosse utilizado. O objetivo

da estimacao robusta e buscar estimadores eficientes sob certo modelo de modo que

pequenas perturbacoes na distribuicao da amostra produzam pequenas alteracoes nas

estimativas. Portanto, quando a distribuicao e normal e nao existem outliers, o metodo

3.2 CONSTRUCAO DO MODELO E REGRA DE PREDICAO 32

de estimacao robusto produz os mesmos resultados que o metodo dos mınimos quadrados.

Em vista do impacto potencial, a identificacao dessas observacoes e uma preocupacao

importante do processo de construcao do modelo de regressao. Isto e, algumas observacoes

tem efeito sobre a precisao da estimativa do parametro, e/ou a capacidade de previsao

do modelo.

Os metodos de regressao robusta sao tecnicas que potencialmente podem ser usadas

quando outliers estao presentes. Existem varios tipos de outliers que ocorrem no con-

texto de modelos de regressao. Uma classificacao [Montgomery et al., (2006)] comum e

a seguinte:

1. Regressao outlier e um ponto que desvia da relacao linear que e determinada pelas

n− 1 observacoes;

2. Residual outlier ocorre quando existe um ponto que tem um grande resıduo studen-

tizado ou padronizado quando e usado na amostra de n observacoes para ajustar o

modelo;

3. Outlier no espaco de X , ocorre quando existe uma observacao que e remota a uma

ou mais coordenadas de X ;

4. Outlier no espaco de Y , ocorre quando ha uma observacao que tem uma coordenada

de Y nao usual;

5. Outlier no espaco de X e Y , ocorre quando existem observacoes que estao fora de

ambas as coordenadas de X e Y .

A regressao robusta e uma alternativa importante para analisar os dados na presenca

de outliers. Esta tecnica tem sido desenvolvida como uma alternativa para estimativa do

metodo dos mınimos quadrados na presenca de outliers.

3.2 CONSTRUCAO DO MODELO E REGRA DE PREDICAO

Na metodologia apresentada por [Lima Neto e De Carvalho, (2008)] verificou-se que a

informacao do centro e da amplitude dos intervalos sao importantes para ajustar o modelo

de regressao. Neste modelo, o processo de estimacao e baseado no metodo dos mınimos

quadrados, o qual nao assume suposicao probabilıstica sobre a distribuicao dos erros. No

entanto, este modelo sofre forte influencia quando ha outliers do tipo intervalo.

O modelo de regressao robusta para dados simbolicos do tipo intervalo proposto neste

trabalho, considera duas regressoes lineares robustas independentes para o centro e a

amplitude dos intervalos do conjunto de dados simbolicos, respectivamente. A predicao

dos limites inferiores e superiores dos novos intervalos e baseada nas estimativas do centro

e da amplitude desses intervalos.

Seja Ω = 1, . . . , n um conjunto de dados de n objetos simbolicos do tipo intervalo, des-

critos pela variavel resposta intervalar Y e p variaveis intervalares preditoras (X1, . . . , Xp).

Cada objeto i de Ω e representado por um vetor de caracterıstica intervalar zi=(xi, yi),

xi = (xi1, . . . , xip) em que xij = [aij , bij ] ∈ ℑ = [a, b] : a, b ∈ ℜ, a ≤ b (j = 1, . . . , p) e

yi = [αi, λi] ∈ ℑ.Seja Y c , Xc

j , Y r e Xrj , respectivamente, variaveis quantitativas que descrevem o

centro e a amplitude dos intervalos yi ∈ Y e xij ∈ Xj (j = 1, 2, . . . , p). Isso significa

que cada exemplo Ω = 1, . . . , n e representado pelo par vi = (xci , yci ) e ri = (xri , y

ri ) com

xci = (xci0, xci1, . . . , x

T e xri = (xri0, xri1, . . . , x

T em que xci0 = xri0 = 1, xcij = [aij + bij ]/2,

xrij = bij − aij , yci = [αi+ λi]/2 e yri = λi−αi sao, respectivamente, os valores observados

de Xcj , X

rj , Y

c e Y r para j = 1, . . . , p.

Considere βc = (βc0, βc1, . . . , β

T e βr = (βr0, βr1, . . . , β

T como sendo dois vetores de

p+1 parametros e εc= (εc1, εc2, . . . , ε

T , εr= (εr1, εr2, . . . , ε

T como sendo dois vetores de

n erros desconhecidos no centro e na amplitude dos intervalos. Dois modelos de regressao

lineares, nos valores do centro (yci ) e da amplitude (yri ), respectivamente, sao dados por:

yci = x′ci β

c + εci ,

yri = x′ri β

r + εri . (3.1)

Os vetores βc = (βc0, βc1, . . . , β

T e βr = (βr0 , βr1, . . . , β

T sao estimados, minimizando

uma funcao criterio baseada na funcao ρ para ambos os erros εci = yci − xc,Ti βc e εri =

yri−xr,Ti βr. Aqui, ambos os erros sao variaveis aleatorias independentes. A funcao criterio

e dada por

(εcis

(εris

). (3.2)

onde s e um estimador nao viesado de σ (estimador robusto) e ρ e uma funcao particular.

Segundo [Montgomery et al., (2006)], uma escolha popular para s e dada por:

s =mediana |εi −mediana (εi)|

0, 6745. (3.3)

Minimizar a equacao (3.2) e equivalente a termos dois problemas de minimizacao:

1. para encontrar βc, o valor de βc que minimiza

ρ(yci − x

c,Ti βc

s); (3.4)

2. para encontrar βr, o valor de βr que minimiza

ρ(yri − x

r,Ti βr

s). (3.5)

Para obter as expressoes para βc e βr, alguns procedimentos iterativos podem ser usa-

dos como: metodos de Newton Raphson, de BFGS (Broyden Fletcher Goldfarb Shannon),

de Scoring Fisher, entre outros. Nessa area, o metodo de Scoring Fisher (mınimos quadra-

dos reponderados com uma variavel resposta modificada) e o mais usado ([Beaton e Tukey, (1974)]).

O metodo Scoring Fisher pode ser facilmente aplicado para obter βc e βr. O processo

iterativo para βc e βr e dado pelo algoritmo 1.

Algoritmo 1 Mınimos Quadrados Reponderados.Requerer t = 0

1: Inicialize um valor para s e um vetor de valores para os coeficientes βc0 e βr0 pelo

metodo dos mınimos quadrados

2: Defina ψ(x) = ρT(x)

3: Para todo i igual 1 ≤ i ≤ n faca

4: Computar os pesos wcit e writ

wcit =

ψ[(yi−xc,Ti βc

t)/s](yci−x

c,Ti βc

t)/s, if yci 6= x

c,Ti βct

1, if yci = xc,Ti β

writ =

ψ[(yri −xr,Ti β

t)/s](yri −x

′ri βr

t)/s, if yri 6= x

r,Ti βrt

1, if yri = xr,Ti β

5: Computar o passo t dos estimadores dos mınimos quadrados reponderados

t+1 =(X

′cWct+1X

c)−1

X′cWc

t+1yc β

t+1 =(X

′rWrt+1X

r)−1

X′rWr

t+1yr.

Inicie Wc e Wr com duas matrizes diagonais com elementos dados por wcit e writ,

respectivamente..

6: fim para

7: Se ∣∣∣∣∣

∣∣∣∣∣βc

t+1 − βc

∣∣∣∣∣

∣∣∣∣∣ ≤ ǫ e

∣∣∣∣∣

∣∣∣∣∣ˆβrt+1 − βrt

∣∣∣∣∣

∣∣∣∣∣ ≤ ǫ

e ǫ < 0.0001 pare. Senao, faca t = t+ 1 e va para o passo 3.

Existem varias funcoes de criterios associadas ao metodo de regressao robusta que e ca-

racterizado pela funcao ψ que controla os pesos dado a cada

resıduo ([Huber e Ronchetti, (2009)], [Rousseau e Leroy, (1987)]).

Por exemplo, a funcao criterio Tukey’s biweight ρ(x) tem como funcao monotona

ψ(x) = ρT(x), ponderando os resıduos grandes com pesos pequenos diferentemente do

metodo dos mınimos quadrados. A funcao Tukey’s biweight ρ(x) , sua funcao correspon-

dente ψ(x) e sua funcao de peso w(x) sao dados por, respectivamente:

ρ(x) =

6(1− [1− (x/c)2]3)

ψ(x) =

x[1− (x/c)2]2

para|x| ≤ c

para|x| > c

3.3 DEFINICAO DE OUTLIER SIMBOLICO DO TIPO INTERVALO 36

w(x) =

[1− (x/c)2]2 para |x| ≤ c

0 se |x| > c.

Figura 3.2 destaca a funcao Tukey’s biweight (ψ(x)) onde x e obtido de uma distri-

buicao uniforme [−5, 5] e c = 4, 685 com (ψ(x)) = Y .

−4 −2 0 2 4

−1.0

−0.5

Figura 3.1 Funcao de Tukey’s Biweight.

Regra de Predicao

A i-esima predicao dos limites inferiores e superiores yi = [αi, λi] de um novo exemplo

e baseada nas predicoes yci e yri . Dado um vetor de intervalo xi = ([ai1, bi1], . . . , [aip, bip])

com xcij = (aij+bij)/2 e xrij = bij−aij (i = 1, . . . , n) (j = 1, . . . , p), o intervalo yi = [αi, λi]

e obtido da seguinte forma:

αi = yci − yri /2 e λi = yci + yri /2,

onde yci = xc,Ti β

ce yri = x

r,Ti β

rcom x

c,Ti = (1, xci1, . . . , x

cip) e x

r,Ti = (1, xri1, . . . , x

3.3 DEFINICAO DE OUTLIER SIMBOLICO DO TIPO INTERVALO

Em regressao linear classica, uma observacao residual e definida como a diferenca entre

o valor predito baseado na equacao de regressao e o valor observado. Um outlier e uma

observacao com altos valores residuais estudentizados (∆i).

Altos resıduos estudentizados sao aqueles com valores maiores que 2, 0 e devem ser

investigados como potencial outlier, conforme [Montgomery et al., (2006)]. Aqui, tres

tipos de outliers intervalares sao definidos no contexto de regressao linear para dados

3.4 EXPERIMENTOS COM SIMULACAO MONTE CARLO 37

simbolicos do tipo intervalo.

3.3.1 Definicao de outlier intervalar no centro

Um outlier intervalar (xi, yi) no centro refere-se a um objeto i de Ω que tem | ∆ci |≥ 2

(resıduo grande) no centro da coordenada de yci , onde

∆ci =

yci − yciσci√

1− hcii, (3.6)

e hcii = xci(XT,cXc)−1x

T,ci , onde Xc = (xc1,x

c2, . . . ,x

3.3.2 Definicao de outlier intervalar na amplitude

Um outlier intervalar (xi, yi) na amplitude refere-se a um objeto i de Ω que tem | ∆ri |≥ 2

(resıduo grande) na amplitude da coordenada de yri , onde

∆ri =

yri − yriσri√1− hrii

e hrii = xri (XT,rXr)−1x

T,ri , onde Xr = (xr1,x

r2, . . . ,x

3.3.3 Definicao de outlier intervalar no centro e na amplitude

Um outlier intervalar (xi, yi) no centro e na amplitude refere-se a um objeto de Ω que

tem | ∆ci |≥ 2 e | ∆r

i |≥ 2 com ∆ci e ∆

ri definidos como nas equacoes (3.6) e (.), respec-

tivamente.

3.4 EXPERIMENTOS COM SIMULACAO MONTE CARLO

Para ilustrar o metodo de regressao robusta intervalar (RRI) proposto neste trabalho

chamado de (RRI), experimentos de simulacao com um conjunto de dados intervalar de

375 intervalos em ℜ3 sao apresentados.

O objetivo e comparar esse metodo com o metodo de regressao linear intervalar (RLI)

introduzido por [Lima Neto e De Carvalho, (2008)] chamado de (RLI) que tem sido lar-

gamente utilizado na predicao de dados intervalares. O desempenho destas abordagens

sera avaliado em termos da magnitude do erro medio relativo que e estimado pelo metodo

hold out, segundo [Billard e Diday, (2006)].

A magnitude do erro medio relativo (MMRE), e dada por:

MMRE =1

∣∣∣∣αi − αiαi

∣∣∣∣ +∣∣∣∣∣λi − λiλi

∣∣∣∣∣

. (3.8)

OMMRE e calculado para cada configuracao do conjunto de dados contendo outliers

intervalares em relacao aos metodos RRI e RLI. A cada iteracao da simulacao de Monte

Carlo, um modelo de regressao para o conjunto de treinamento com dados simbolicos do

tipo intervalo e ajustado.

3.4.1 Simulacao Monte Carlo

Os experimentos consistem de uma sequencia de algoritmos organizados no metodo de

simulacao Monte Carlo com 5000 repeticoes. Essa simulacao inicia com a geracao dos

conjuntos de dados intervalares contendo outliers e a aplicacao dos metodos para esses

conjuntos. Tres diferentes cenarios de dados contendo outliers intervalares sao estabe-

lecidos. Para cada cenario, cinco porcentagens diferentes (2%, 3% ,5%, 10% e 15%) de

outliers intervalares sao adotados no conjunto de treinamento. O metodo de simulacao

Monte Carlo e descrito no algoritmo 2.

Algoritmo 2 Simulacao Monte Carlo.Requerer n = 100

1: Para todo j igual 1 ≤ j ≤ 50 faca

2: Definir que cada coeficiente bk (k = 0, 1, 2) e obtido de uma distribuicao uniforme

com valores mınimo e maximo: 0 e 10, respectivamente.

4: Gerar um conjunto de dados intervalar baseado no processo gaussiano, de acordo

com o algoritmo 3.

5: Particionar aleatoriamente o conjunto de dados intervalar gerado no conjunto

de treinamento (75% do conjunto de dados) e no conjunto de teste (25% do

conjunto de dados).

6: Obter intervalos outliers no conjunto de treinamento de acordo com o algoritmo

7: Construir modelos de regressao para o centro e a amplitude, respectivamente,

de acordo com a subsecao 3.2.

8: Aplicar a regra de predicao para o conjunto de teste de acordo com a subsecao

9: ComputarMMREi (magnitude do erro medio relativo) usando a equacao (3.8).

10: fim para

11: Computar a media e o desvio padrao dos erros MMREj.12: fim para

Algoritmo 3 Geracao de um conjunto de dados intervalar.Requerer n = 375

2: Definir que o erro εi e obtido de uma distribuicao normal com media 0 e desvio

padrao 1.

3: Definir que o preditor de ponto xij (j = 1, 2) e gerado de uma distribuicao uni-

forme com valores mınimo e maximo: 20 e 40 ([Lima Neto e De Carvalho, (2008)]),

respectivamente.

4: Computar uma resposta de ponto yi = b0 + xi1b1 + xi2b2 + εi.

5: fim para

7: Obter uma amostra de 50 pontos no ℜ3, de acordo com uma distribuicao normal

multivariada com vetor de media µ = (xi1, xi2, yi) e a matriz diagonal de covariancia

Σ com σjj = 9 (j = 1, 2, 3).

8: Computar os intervalos preditores [ai1 = l1, bi1 = u1] , [a12 = l2, bi2 = u2] e a

resposta intervalar [αi = l3, λi = u3] onde lj e uj (j = 1, 2, 3) sao, respectivamente,

os valores mınimo e maximo da amostra obtida no passo 7.

9: fim para

Algoritmo 4 Geracao dos outliers intervalares

1: Definir que no e o numero de outliers intervalares e sao selecionados no utilizando as

seguintes porcentagem do conjunto de dados de tamanho n: 2%n, 3%n, 5%n, 10%n

e 15%n.

2: Escolher um cenario de 1, 2, 3, 4, 5.3: Computar os conjuntos de dados (yci ,x

ci) e (yri ,x

ri ) (i = 1, . . . , n), a partir do con-

junto de dados intervalares gerado no algoritmo 3.

4: Se cenario 1 (Figura 3.2) e considerado, obter outliers de centro como segue: selecione

o centro do conjunto de dados (yci ,xci) (i = 1, . . . , n) em ordem decrescente e obtenha

o primeiro elemento no ordenado do centro do conjunto de dados. Compute outliers

de centro por yci = yci + 9Syc com (i = 1, . . . , no) onde Syc e o desvio padrao do

conjunto (yc1, . . . , ycn).

5: Se cenario 2 (Figura 3.3) e considerado, obtenha outliers de centro da seguinte forma:

defina to e bo tal que to+ bo = no. Selecione o centro do conjunto de dados em ordem

decrescente (yci ,xci) (i = 1, . . . , n), obtenha o primeiro elemento to e compute outlier

de centro por yci = yci + 9Syc com (i = 1, . . . , to). Obtenha o ultimo elemento bo

desse conjunto selecionado e compute outliers de centro por yci = yci − 9Syc com

(i = 1, . . . , bo).

6: Se cenario 3 (Figura 3.4) e considerado, obtenha o outlier de amplitude como se-

guinte: selecione elementos no aleatoriamente do conjunto de dados e compute outli-

ers de amplitude por yri = yri 9Syc com (i = 1, . . . , no).

7: Se cenario 4 (Figura 3.5) e considerado, obtenha outliers de centro e de amplitude

como seguinte: selecione o centro do conjunto de dados (yci ,xci) (i = 1, . . . , n) em

ordem decrescente e obtenha o primeiro elemento no dos selecionados no centro dos

conjuntos de dados. Compute outlier de centro por yci = yci+9Syc com (i = 1, . . . , n0).

Selecionado aleatoriamente uma amostra de 30%no elementos do conjunto de outliers

de centro e compute outliers de amplitude por yri = yri 9Syc com (i = 1, . . . , (30%no)).

8: Se cenario 5 (Figura 3.6) e considerado, obtenha outliers de centro e amplitude como

segue: selecione o centro do conjunto de dados (yci ,xci) (i = 1, . . . , n) em ordem decres-

cente e obtenha o primeiro elemento 70%no em ordem decrescente dos selecionados

no centro do conjunto de dados. Compute outliers de centro por yci = yci + 9Syc com

(i = 1, . . . , (70%no)). Selecione 30%no elementos aleatoriamente do conjunto de dados

intervalar e compute outliers de amplitude por yri = yri 9Syc with (i = 1, . . . , (30%no)).

Outliers intervalares em ℜ3 sao criados baseados no centro e na amplitude do conjunto

de dados (yci , xci) e (y

ri , x

ri ) (i = 1, . . . , n), respectivamente. E importante perceber que um

hipercubo outlier precisa ser muito mais do que um simples ponto. As Figuras 3.2 a 3.6

ilustram o conjunto de dados intervalares dos cenarios 1 a 5 com diferentes porcentagens

e tipos de outliers intervalares. Conforme descrito abaixo:

No cenario 1: a Figura 3.2(a) e mostrada uma alta variabilidade no centro dos

hipercubos. Assim, observa-se na Figura 3.2(b) a presenca de outliers na parte

superior do centro dos intervalos.

No cenario 2: a Figura 3.3(a) e mostrada uma alta variabilidade no centro dos

hipercubos. Observando na Figura 3.3(b) a presenca de outliers na parte superior

e inferior do centro dos intervalos.

No cenario 3: a Figura 3.4(a) mostra uma situacao de alta variabilidade na ampli-

tude dos hipercubos. Logo, observa-se na Figura 3.4(c)a presenca de outliers na

parte superior da amplitude dos intervalos.

No cenario 4: a Figura 3.5(a) representa um cenario mais complexo onde as si-

tuacoes de alta variabilidade ocorrem simultaneamente no centro e na amplitude

dos hipercubos. Desta forma, percebe-se na Figura 3.5(b) a presenca de outliers

na parte superior do centro dos intervalos e desses mesmos outliers de centro sao

selecionados 30% para serem tambem outliers de amplitude dos intervalos conforme

Figura 3.5(c).

No cenario 5: a Figura 3.6(a) representa um cenario mais complexo com situacoes de

alta variabilidade no centro e na amplitude dos hipercubos. Deste modo, seleciona

aleatoriamente 70% de n0 para serem os outliers do centro dos intervalos conforme

Figura 3.6(b). Posteriormente, sao selecionados 30% de n0 para serem representados

como outliers de amplitude, ilustrado na Figura 3.6(c).

Os cenarios 4 e 5 apresentam situaoes mais complexas de outliers intervalares que

podem surgir em aplicacoes reais. Para tais situacoes, ratifica-se a eficiencia do

modelo proposto em relacao ao existente na literatura de ADS.

(a) Intervalar

(b) Centro (c) Amplitude

Figura 3.2 Cenario 1.: Alta variabilidade na parte superior do centro dos hipercubos.

(a) Intervalar

Figura 3.3 Cenario 2.:Alta variabilidade na parte superior e inferior do centro dos hipercubos.

(a) Intervalar

Figura 3.4 Cenario 3.: Alta variabilidade na parte superior da amplitude dos hipercubos.

(a) Intervalar

Figura 3.5 Cenario 4.:Alta variabilidade no centro e na amplitude dos hipercubos conjunta-

mente.

(a) Intervalar

Figura 3.6 Cenario 5.:Alta variabilidade n centro e na amplitude dos hipercubos separada-

mente.

3.4.2 Analise de Desempenho

A avaliacao de desempenho do metodo proposto e baseda na magnitude do erro medio

relativo (MMRE), definido na equacao (3.8). Com isso, o modelo ajustado e aplicado

para predizer os valores intervalares de cada variavel intervalar dependente na simulacao

do conjunto de teste. Para cada 100 repeticoes, a media e o desvio padrao do MMRE

sao calculados.

As Tabelas 3.1 e 3.2 fornecem os valores da media e do desvio padrao (entre parenteses)

do MMRE obtido pelos metodos (RRI,RLI) nos cenarios 1 a 5, respectivamente, em

relacao aos coeficientes b0 = 4, 12, b1 = 3, 79 e b2 = 1, 95 pelo algoritmo 2 e os valores

de t0 e b0 definidos no algoritmo 4. O metodo RRI supera o metodo RLI em todas as

situacoes com diferentes porcentagens de outliers apresentados nos cenarios 1 a 5.

A fim de avaliar o desempenho desses metodos com conjuntos de dados intervalares

sem outliers, um experimento foi realizado e a media e o desvio padrao (entre parenteses)

do MMRE para os metodos RLI e RRI sao, respectivamente: (0,03440 , (0,00235)) e

(0,03441 , (0,00236)). Esses resultados mostram claramente que os modelos RRI e RLI

obtiveram desempenhos similares.

Os resultados de MMRE para o metodo RRI e RLI sao apresentados nas Tabelas 3.1

e 3.2. E importante verificar que nos cenarios 1, 2, 3 e 4 o desempenho do metodo RRI

nao degrada quando o numero de outliers aumenta. O contrario e registrado no metodo

RLI. Ja no cenario 2, quando os outliers sao colocados na parte superior e inferior da

nuvem de intervalos percebe-se que o metodo RRI degrada para mais de 5% de outlier e

apresentaram resultado similar em relacao ao resultado do metodo RLI.

Tabela 3.1 Media e Desvio Padrao (entre parentesis) do MMRE para os metodos RRI e RLI

nos cenarios 1 e 2.

Cenario 1 Cenario 2

t0 = 2, 5% e b0 = 2, 5% t0 = 3, 5% e b0 = 1, 5%

Quantidade (%) RLI RRI RLI RRI RLI RRI

Outlier Metodo Metodo Metodo Metodo Metodo Metodo

2 % 0, 0621 0, 0343 0, 0812 0, 0345 0, 1462 0, 0346

(0, 0072) (0, 0022) (0, 0062) (0, 0021) (0, 0116) (0, 0022)

3 % 0, 0880 0, 0344 0, 1458 0.0346 0, 2077 0, 0344

(0, 0087) (0, 0023) (0, 0122) (0, 0022) (0, 0176) (0, 0023)

5 % 0, 2560 0, 0340 2, 5502 2, 5238 2, 6467 2, 5599

(0, 0273) (0, 0024) (0, 1200) (0, 1075) (0, 1099) (0, 0965)

10 % 0, 4202 0, 0310 2, 7095 2, 6392 2, 6677 2, 5093

(0, 0445) (0, 0023) (0.1327) (0.1009) (0, 1221) (0, 0915)

15% 0, 6247 0, 0331 2, 5699 2, 4800 2, 8624 2, 5982

(0, 0596) (0, 0024) (0, 1478) (0, 0955) (0, 1655) (0, 1006)

Tabela 3.2 Media e Desvio Padrao (entre parenteses) do MMRE para os metodos RRI e

RLI nos cenarios 3, 4 e 5.

Cenario 3 Cenario 4 Cenario 5

Quantidade (%) RLI RRI RLI RRI RLI RRI

Outlier Metodo Metodo Metodo Metodo Metodo Metodo

2 % 0, 4764 0, 0347 0,0621 0,0346 0,0556 0,0340

(0, 0598) (0, 0023) (0,0056) (0,0024) (0,0062) (0,0024)

3 % 0, 7422 0, 0345 0,0870 0,0347 0,0699 0,0344

(0, 0572) (0, 0023) (0,0081) (0,0026) (0,0079) (0,0025)

5 % 0, 0806 0, 0334 0,2448 0,0324 0,1633 0,0312

(0, 0051) (0, 0027) (0,0223) (0,0026) (0,0165) (0,0027)

10 % 0, 1285 0, 0329 0,4273 0,0303 0,3341 0,0356

(0, 0083) (0, 0025) (0,0400) 0,0028 (0,0297) (0,0028)

15% 0, 17869 0, 0317 0,6743 0,0361 0,4620 0,0336

(0, 0120) (0, 0026) (0,0753) (0,0032) (0,0397) (0,0027)

O ganho relativo (GR) e utilizado neste trabalho para descrever a reducao do erro

de previsao do modelo proposto. Assim, o GR foi apresentado para ratificar a eficiencia

do modelo proposto (RRI) em relacao ao modelo da literatura (RLI). Esse ganho e

calculado pela relacao do MMRE dos metodos RLI e RRI de acordo com a equacao

GR = 100(MMRERLI −MMRERRI

MMRERLI). (3.9)

Note que na Tabela 3.3 , o ganho relativo e melhorado quando a quantidade de outliers

intervalares aumenta nos cenarios propostos. Como esperado, valores pequenos do ganho

relativo sao observados nas situacoes do cenario 2 em que existem dois grupos de outliers

de intervalo no centro que estao acima e abaixo da superfıcie ajustada, respectivamente.

Os valores mais elevados sao obtidos nas situacoes com altos percentuais de outliers

dos cenarios 1 a 5. No cenario 1 existem apenas outliers intervalares no centro, ja no

cenario 5 existem outliers intervalares no centro, mas alguns deles sao tambem outliers

intervalares de amplitude.

3.5 APLICACAO A DADOS REAIS 49

Tabela 3.3 Comparacao entre modelos de regressao de acordo com o ganho relativo (%) do

Quantidade MMRE(%)

Outlier Cenario 1. Cenario 2. Cenario 3. Cenario 4. Cenario 5.

2% 44, 76% 57, 51% 76, 33% 92, 71% 44, 28% 38, 84%

3% 60, 90% 76, 26% 83, 43% 95, 35% 60, 11% 50, 78%

5 % 86, 71% 1, 03% 3, 27% 58, 56% 86, 76% 80, 89%

10 % 92, 62% 2, 59% 5, 93% 74, 39% 92, 90% 89, 34%

15 % 94, 70% 3, 49% 9, 23% 82, 25% 94, 64% 92, 72%

O teste estatıstico unilateral Wilcoxon [Montgomery e Ruger, (2003)] para amostras

emparelhadas foi aplicado na media do MMRE na simulacao Monte Carlo com 100

repeticoes, a fim de comparar os modelos RRI e RLI.

Alem disso, para manter a consistencia dos resultados, esse procedimento foi repe-

tido considerando 50 valores diferentes para o vetor de parametros (b0, b1, b2)′

de acordo

com o algoritmo 2. Entao a taxa de rejeicao da hipotese nula foi observada, signifi-

cando que o modelo RRI e melhor do que o modelo RLI em termos do MMRE. Para

tal, considerando-se um nıvel de significancia de 5%, obteve-se uma taxa de rejeicao da

hipotese nula de 100% para todas as situacoes e cenarios. Este resultado indica a su-

perioridade do modelo RRI em comparacao com o modelo RLI na presenca de outliers

intervalares.

3.5 APLICACAO A DADOS REAIS

Os modelos RRI e RLI sao aplicados nos conjuntos de dados intervalares: cardiologia,

carro, cogumelo, futebol e repositorio da NASA descritos no apendice A deste trabalho.

Para cada conjunto de dados intervalar, oMMRE e estimado, pelo metodo leave-one-out.

Para validar os resultados encontrados, foi realizado um teste estatıstico de Wilco-

xon para amostras pareadas com nıvel de significancia de 5%, sendo entao avaliada a

comparacao dos modelos, conforme na Tabela 3.5.

3.5.1 Conjunto de Dados: Cardiologia

O conjunto de dados intervalar cardiologia consiste de 59 pacientes descritos por tres

variaveis intervalares. Duas variaveis intervalares independente que sao: Pressao Arterial

Sistolica e Pressao Arterial Diastolica, as quais sao utilizadas para predizer o intervalo da

variavel dependente (Taxa de pulso), conforme Figura 3.7. Esse conjunto de dados foi co-

letado pelo Departamento de Nefrologia do Hospital del Valle Naln, na cidade de Langreo,

Espanha, sendo apresentados em alguns trabalhos como [Lima Neto e De Carvalho, (2008)]

e [Gil et al., (2007)].

50 100 150 200 250 300

100120

Figura 3.7 Grafico 3D: Pressao Sistolica (X), Pressao Diastolica (Z) e Taxa Pulso (Y ).

As Figuras 3.8(a) e 3.8(b) apresentam os conjuntos de centro e amplitude do conjunto

cardiologia, respectivamente. Depois do ajuste da modelo de regressao linear, os resıduos

de acordo com as definicoes (3.6) e (3.7) sao calculados. Nos resultados, percebe-se

que as observacoes intervalares 24, 28, 35 e 51 sao potenciais outliers de centro com

rc24 = 2, 24, rc28 = 2, 10, rc35 = −2, 46, rc51 = 2, 47 e as observacoes intervalares 3, 19 e 41

sao potenciais outliers na amplitude com valores rr3 = 2, 73, rr19 = 2, 93 e rr41 = 2, 25. Ou

seja, esse conjunto apresenta 7 observacoes intervalares que sao potenciais outliers.

(a) (b)

Figura 3.8 (a) Centro e (b) Amplitude do conjunto de dados intervalar Cardiologia.

3.5.2 Conjunto de Dados: Carro

O conjunto de dados simbolicos Carros consiste de 33 modelos descritos por oito variaveis

intervalares, duas variaveis categoricas e uma variavel nominal. Neste trabalho, apenas

tres variaveis intervalares foram consideradas, duas variaveis independentes descritas por:

velocidade maxima e cilindrada do motor, e uma variavel dependente: preco, conforme

ilustra Figura 3.9. Esse conjunto tem sido utilizado largamente na area de analise de

dados simbolicos, como por exemplo [Carvalho et al., (2007)], [Carvalho et al., (2006)],

[De Souza et. al., (2006)] e [Silva e Brito, (2006)].

0 1000 2000 3000 4000 5000 6000

Figura 3.9 Grafico 3D: Cilindrada do Motor (X), Velocidade Maxima (Z) e Preco (Y ).

As Figuras 3.10(a) e 3.10(b) apresentam os conjuntos de centro e amplitude do con-

junto carro , respectivamente, e potenciais outliers em destaque. Apos o ajuste do modelo

de regressao linear para esse conjunto de dados, observa-se que as observacoes intervalares

11 e 15 sao potenciais outliers de centro com rc11 = 2, 03 , rc15 = 2, 24 e as observacoes

4, 22 e 23 sao pontos extremos na amplitude com rc4 = 4, 64, rr22 = 2, 42 e rr23 = 2, 25.

Portanto, esse conjunto tem 5 observacoes intervalares que sao outliers candidatos.

(a) (b)

Figura 3.10 (a) Centro e (b) Amplitude do conjunto de dados intervalar Carro.

3.5.3 Conjunto de Dados: Cogumelo

O conjunto de dados intervalar cogumelo consiste de 23 especies descritas por 3 variaveis

intervalares. Nesta aplicacao, X1 e o comprimento do stipe, X2 e a espessura do stipe e

Y e o largura do pıleo, conforme Figura 3.11. Essas especies de cogumelo sao membros

do genero Agaricies. A extracao dos valores para essas variaveis podem ser encontra-

das em (http : //www.mykoweb.com/CAF/species index.html) e foi apresentada em

[Billard e Diday, (2006)].

0 5 10 15 20

Figura 3.11 Grafico 3D: Largura do Pıleo (Y ), Comprimento do Stipe (X) e Espessura do

Stipe(Z).

As Figuras 3.12(a) e 3.12(b) mostram o centro e a amplitude do conjunto de dados os

resultados dos resıduos, apos o ajuste do modelo de regressao linear para esse conjunto

de dados, observa-se que a observacao intervalar 2 e um potencial outlier de centro com

rc2 = 2, 26 e a observacao 4 e um potencial outlier no centro e na amplitude com rc4 = 2, 15

e rr4 = 2, 12, respectivamente.

(a) (b)

Figura 3.12 (a) Centro e (b) Amplitude do conjunto de dados intervalar Cogumelo.

3.5.4 Conjunto de Dados: Futebol

O conjunto de dados futebol (Figura 3.13) prover formacoes sobre os jogadores profis-

sonais de futebol de 20 times da Franca. Cada jogador e descrito por duas variaveis

independentes: altura e idade, e uma variavel dependente: peso. O conjunto pode ser

obtido no endereco (http : //www.ceremade.dauphine. fr/ touati/foot2.htm) e foi uti-

lizado em [Billard e Diday, (2006)].

160 165 170 175 180 185 190 195 200

Figura 3.13 Grafico 3D: Altura (X), Idade (Z) e Peso (Y ).

As Figuras 3.14(a) e 3.14(b) ilustram o centro e a amplitude desse conjunto de dados.

Depois do ajuste do modelo de regressao linear para esse conjunto de dados, os resıduos

sao calculados e um outlier intervalar no centro com valor de rc14 = 2, 49 e identificado.

(a) (b)

Figura 3.14 (a) Centro e (b) Amplitude do conjunto de dados intervalar futebol.

3.5.5 Conjunto de Dados: NASA

A MDP (Metrics Data Program) e uma base que reune metricas de 13 projetos de soft-

ware e gera um repositorio dessas informacoes foram apresentados em [Oliveira, (2006)]

e [Braga et al., 2007]. Cada projeto de software consiste de um produto associado a 33

metricas de softwares. Um processo de generalizacao que transforma dados pontuais em

dados simbolicos do tipo intervalo atraves da utilizacao da biblioteca (ISDA.R) desen-

volvido neste trabalho.

Por fim, foram gerados 13 objetos simbolicos do tipo intervalo e foram escolhidas

tres variaveis intervalares. Sendo, duas variaveis intervalares independentes: numero

de operandos (X) e numero de operadores (Z), as quais sao utilizadas para predizer o

tamanho do software (Numero de Linhas, Y ), conforme ilustra Figura 3.15.

0 2000 4000 6000 8000 10000 12000

10001500

20002500

30003500

Figura 3.15 Grafico 3D: Numero de Operandos (X), Numero de Operadores (Z) e Tamanho

do Software (Y ).

As Figuras 3.16(a) e 3.16(b) ilustram o centro e a amplitude desse conjunto de dados e

os pontos extremos em destaque. Apos o ajuste do modelo de regressao robusta intervalar

para esse conjunto de dados, os resıduos sao calculados. Percebe-se que as observacoes

intervalares 6 e 10 sao pontos extremos tanto de centro quanto de amplitude, com rc6 =

2, 97 , rc10 = 2, 82, rr6 = 2, 94 e rr10 = 2, 85, respectivamente.

3.6 ANALISE DOS RESULTADOS 56

(a) (b)

Figura 3.16 (a) Centro e (b) Amplitude do conjunto de dados intervalar dos Projetos da

3.6 ANALISE DOS RESULTADOS

Uma analise de desempenho dos metodos de regressao para os conjuntos de dados reais

apresentados na secao 3.5 e realizada para avaliar o metodo introduzido neste trabalho.

A partir dos resultados da Tabela 3.4, observa-se que o desempenho do modelo RRI

em termos de MMRE, e superior ao desempenho do modelo RLI, pois conforme mos-

trado na secao 3.5 as bases de dados analisadas possuem outliers o que desfavorece o uso

do metodo dos mınimos quadrados.

Tabela 3.4 Media e Desvio Padrao (entre parenteses) doMMRE para os metodos de regressao

(RRI e RLI).

Base de Dados Conjunto de Teste

RLI RRI

Metodo Metodo

Cardiologia 0,1517 0,1425

(0,1086) (0,1062)

Carro 0,4502 0,3862

(0,4275) (0,3663)

Cogumelo 0,2338 0,1919

(0,1877) 0,1404

Futebol 0,0262 0,02161

(0,0179) (0,0162)

NASA 2,1245 0,4623

(2,3970) (0,3528)

A comparacao entre os metodos de regressao (RRI e RLI) e obtida atraves da

aplicacao do teste estatıstico de Wilcoxon [Montgomery e Ruger, (2003)] para amostras

emparelhadas com nıvel de significancia de 5%.

Portanto, µ1 e µ2 sao as medias do MMRE para os metodos RRI e RLI, respecti-

vamente. As hipoteses nula e alternativa sao:

H0 : µ1 = µ2

H1 : µ1 < µ2.

A Tabela 3.5 mostra os p-values fornecidos pelo teste estatıstico, observa-se que a

taxa de rejeicao da hipotese nula (H0) e de 100% no conjunto de teste para todas as

bases de dados. Novamente, confirma-se que o metodo RRI introduzido neste trabalho

supera o metodo RLI quando o conjunto de dados intervalar possui potencial outliers.

Tabela 3.5 Comparacao entre os modelos (RRI) e (RLI).

Base de Dados p-value

Conjunto de Teste

Cardiologia 1, 0558x10−7

Carro 1, 3297x10−2

Cogumelo 8, 3446x10−7

Futebol 1, 3351x10−5

NASA 6, 1035x10−4

3.6.1 Analise Grafica dos Resıduos Intervalares

Na secao 3.3 e dada um definicao de potencial outlier usando o calculo de resıduos de

centro e amplitude, respectivamente. Aqui, uma analise grafica de resıduos intervalares

e dada atraves de uma representacao intervalar definida para os resıduos como:

∆i = [(yci − yci)− 1/2(yri − yri), (yci − yci) + 1/2(yri − yri)]. (3.10)

onde yci, yri representam valores observados e yci, yri sao valores ajustados de centro e

amplitude. Assim, o resıduo pode ser visto como o desvio entre a resposta e a resposta

ajustada ou como uma medida de variabilidade da variavel resposta nao explicada pelo

modelo de regressao.

De acordo com a Figura 3.17(a), 3.17(c) e 3.17(b), observa-se a presenca de outliers

no centro e na amplitude. Ja na Figura 3.17(d), observam-se pontos extremos

apenas no centro dos intervalos.

Por fim, na Figura 3.17(e) ilustra-se duas observacoes discrepantes de centro e de

amplitude, simultaneamente. Essa representacao grafica foi ratificada atraves do

calculo dos resıduos studentizados obtidos na Secao 3.5.

Justifica-se que o modelo foi bem ajustado, como todas as bases de dados contem

valores discrepantes, a aplicacao do metodo de regressao robusta e mais indicada,

conforme foram apresentados resultados da Tabela 3.4.

−3 −2 −1 0 1 2 3

−2−1

Intervalo

(a) Cardiologia

−3 −2 −1 0 1 2 3

−2−1

Intervalo

(b) Cogumelo

−2 −1 0 1 2

Intervalo

(c) Carro

−2 −1 0 1 2 3 4

Intervalo

(d) Futebol

−1 0 1 2 3 4

Intervalo

(e) NASA

Figura 3.17 Grafico Residual Intervalar dos conjuntos de dados simbolicos reais.

De acordo com a Figura 3.18(a), 3.18(b) e 3.18(c), observa-se que os resıduos

distribuiem-se ao redor da media zero, ou seja, apresentam uma certa simetria.

Assim, inferi-se que realacao entre Y e seus regressores e aproximadamente linear

e os erros podem ser normalmente distribuıdos.

Ja na Figura 3.18(d) e 3.18(e), observam-se que os resıduos nao distribuem-se ao

redor da media zero, apresentando uma certa assimetria.

Residuos

−3 −2 −1 0 1 2 3

(a) Cardiologia

Residuos

−2 −1 0 1 2

(b) Carro

Residuos

−3 −2 −1 0 1 2 3

(c) Cogumelo

3.7 CONSIDERACOES FINAIS 61

Residuos

−2 −1 0 1 2 3 4

(d) Futebol

Residuos

−1 0 1 2 3 4

(e) NASA

3.7 CONSIDERACOES FINAIS

O metodo de regressao linear robusta para dados simbolicos do tipo intervalo foi apresen-

tado neste trabalho. Para isso, diferentes tipos de outliers intervalares foram definidos de

acordo com a presenca de pontos aberrantes no centro e/ou na amplitude dos intervalos.

O desempenho do metodo e avaliado atraves da magnitude do erro medio relativo para

os dados simbolicos do tipo intervalo.

Experimentos de simulacao de Monte Carlo, usando varios cenarios de dados simbolicos

intervalares contendo outliers intervalares, e aplicacoes com varios conjuntos de dados

simbolicos reais, demonstraram a robustez deste metodo em comparacao com um modelo

de regressao linear para dados simbolicos intervalares que usa a abordagem do metodo

dos mınimos quadrados.

Portanto, o metodo de regressao robusta proposto e uma importante alternativa para

o uso do metodo dos mınimos quadrados, uma vez que fornecem respostas similares a

regressao por mınimos quadrados quando existe relacao linear entre as variaveis, porem

diferem significativamente dos ajustes de mınimos quadrados quando os dados contem

outliers.

CAPITULO 4

REGRESSAO KERNEL PARA DADOS SIMBOLICOS

DO TIPO INTERVALO

Este capıtulo introduz a metodologia de regressao baseada em kernel para dados simbolicos

do tipo intervalo. Esse modelo e mais uma alternativa viavel quando as suposicoes acerca

da distribuicao dos erros e/ou da forma funcional dos modelos parametricos nao se veri-

ficarem.

4.1 INTRODUCAO

A ideia em regressao nao parametrica e estimar a relacao entre a variavel resposta e

um conjunto de variaveis independentes diretamente dos dados, ao inves de estimar

parametros.

Os modelos de regressao nao parametricos tem recebido consideravel atencao nas

ultimas decadas de pesquisadores de diversas areas e vem se mostrando bastante eficazes

em problemas de predicao, quando as suposicoes necessarias aos modelos parametricos

nao se verificam [Dias, (2011)].

Tais modelos trazem consigo a vantagem da exibilidade por nao estarem restritos a

uma forma funcional especıfica, permitindo maior flexibilidade, pois asssume-se que a

curva de regressao pertence a uma colecao infinita de funcoes.

Consequentemente, para construir um modelo de regressao nao parametrica precisa-se

apenas escolher o espaco de funcoes apropriado, ao qual acredita-se que a funcao pertenca.

Esta escolha e motivada pelo grau de suavidade que a funcao de regressao pode ter.

Note que o caso parametrico e mais restrito, pois nele assume-se que a funcao pertence

a uma especıfica famılia de curvas. Daı, as tecnicas de regressao nao parametrica usam

muito mais as informacoes provindas dos dados para estimar a funcao de regressao do

que as tecnicas parametricas.

O objetivo do metodo de regressao e produzir uma analise para a funcao desconhecida

de regressao nao parametrica m, na qual para n pontos do conjunto de dados (Yi, Xi) e

erros observados (εi), a relacao pode ser modelada como

4.2 REGRESSAO KERNEL SIMBOLICA 63

Yi = m(Xi) + εi, i = 1, . . . , n. (4.1)

O metodo de regressao Kernel e, de fato um ajuste nao parametrico que tem sido

amplamente utilizado em muitas ciencias e areas da engenharia, tais como, inteligencia

computacional e reconhecimento de padroes. A regressao do kernel depende apenas de

dados locais para determinar a estrutura do modelo sem qualquer parametro a que se

refere, principalmente a metodos livres de distribuicao [Hardle (1994)].

Dentre os metodos de regressao nao parametrica, tem-se os estimadores por splines,

a regressao via kernel (ou estimador de Nadaraya-Watson) e os modelos generalizados

aditivos. O estimador de Nadaraya-Watson, considerado nesse trabalho, parte de uma

ideia simples, baseada na estimacao da esperanca condicional da variavel resposta atraves

de funcoes kernel.

4.2 REGRESSAO KERNEL SIMBOLICA

A regressao kernel [Montgomery et al., (2006)] e um metodo de regressao nao parametrica

e nao-linear bem estabelecido no qual o valor da variavel resposta para um ponto de teste

e estimado, usando a media ponderada dos pontos ao redor das amostras de treinamento.

O peso e tipicamente obtido atraves da aplicacao de uma funcao de distancia baseada

em kernel para cada amostra, o que pressupoe a existencia de uma metrica de distancia

bem definida.

A ideia essencial deste metodo e que na estimativa de um kernel suave e desejavel

fornecer maior peso para as observacoes do conjunto de treinamento que estao proximas

do ponto escolhido. As vantagens da utilizacao desse metodo sao: ajudar a investigar

a relacao entre o conjunto de variaveis preditoras e uma variavel resposta sem assumir

qualquer suposicao parametrica na forma da funcao, oferecendo uma alternativa quando

um ou mais pontos do conjunto sao pontos ruıdosos (ruıdos).

Esta secao apresenta quatro modelos de regressao multipla de kernel para dados do

tipo intervalo, considerando duas famılias de modelos. A primeira famılia estima os limi-

tes dos intervalos considerando uma relacao nao parametrica com o centro dos intervalos

(primeiro modelo), ja o segundo modelo considera uma relacao nao parametrica para o

centro e amplitude dos intervalos para estimar os seus limites. A segunda famılia realiza

as estimativas dos intervalos baseados em misturas de regressao. Estas misturas assu-

mem relacao nao parametrica para o centro dos intervalos e uma funcao linear baseada em

mınimos quadrados para a amplitude dos intervalos (terceiro modelo). O quarto modelo

utiliza uma funcao linear baseada em mınimos quadrados para o centro dos intervalos e

uma funcao nao parametrica para a amplitude dos intervalos (quarto modelo).

A predicao dos limites inferior e superior dos novos intervalos e baseada nas in-

formacoes das estimativas do centro e/ou da amplitude. Uma vantagem adicional na

utilizacao da metodologia de regressao kernel para a amplitude e garantir que a esti-

mativa do limite superior seja maior do que a estimativa do limite inferior para cada

intervalo gerado na variavel resposta.

Seja Ω = 1, . . . , n um conjunto de dados de n objetos descritos pelo intervalo de valores

da variavel resposta Y e p variaveis preditoras intervalares com valor de X = (x1, . . . , xp).

Cada objeto i de Ω e representado como um vetor de caracterısticas intervalar zi = (xi, yi)

, xi = (xi1, . . . , xip) onde xij = [aij , bij ] ∈ ℑ = [a, b] : a, b ∈ ℜ, a ≤ b (j = 1, . . . , p) e

yi = [αi, λi] ∈ ℑ.

4.2.1 Regressao Kernel Intervalar baseado na informacao do centro RKI:C

A ideia deste metodo e utilizar a informacao do centro dos intervalos para construir uma

relacao nao linear entre a variavel resposta intervalar Y e o vetor de variaveis preditoras

intervalares x = (x1, . . . , xp)T .

4.2.1.1 Representacao dos Intervalos Considere que a variavel resposta intervalar

Y e representada por um par de variaveis quantitativas (Y α, Y λ) onde Y α e Y λ descrevem

os limites inferior e superior desta variavel, respectivamente. Cada variavel preditora

intervalar Xj e representada por uma variavel quantitativa Xcj que descreve o centro

desta variavel intervalar. Assim, X e representado por Xc.

Neste metodo de regressao, para explorar Y por X e equivalente a explorar Y α por

Xc e Y λ por Xc, separadamente.

4.2.1.2 Modelando a relacao A relacao nao linear entre Y e X e dada como:

E(Y/X) = [E(Y α/Xc), E(Y λ/Xc)], (4.2)

= [mα(Xc), mλ(Xc)],

onde mα e mλ sao funcoes desconhecidas, xc = (xc1, . . . , xcp)T com xcj = (aj + bj)/2.

Baseado no estimador proposto por Nadaraya-Watson (1964), a funcao de ponderacao

para o centro dos intervalos e determinada por

mα(xc) =n∑

ωciαi e mλ(xc) =n∑

ωciλi (4.3)

onde o peso ωci e definido usando um kernel K como

ωci =K(d(xc,xci))∑ni=1K(d(xc,xci))

. (4.4)

Em particular, uma funcao de kernel gaussiana para o centro dos intervalos e dada

K(d(xc,xci)) =1

(√2π)1/p

−d(xc,xci )

2h2 (4.5)

onde d(xc,xci) e a raiz quadrada da distancia euclideana entre xc e a localizacao de

interesse xci , dada por:

d(xc,xci) =√

(xc − xci)T (xc − xci) (4.6)

Nesta funcao de kernel, a largura de banda h e o desvio padrao de uma distribuicao

normal centrada em xcij (j = 1, . . . , p).

O procedimento do metodo RKI:C e descrito a seguir:

(1. Entrada de Dados )

Seja Ω = 1, . . . , n um conjunto de dados de n objetos descritos por um vetor inter-

valar (xi, yi) como xi = ([ai1, bi1], . . . , [aip, bip])T ; yi = [αi, λi].

Compute o vetor quantitativo para cada elemento de Ω, respectivamente, (xci , yci ),

onde: xci =

(ai1+bi1

2, . . . ,

aip+bip2

)Te yci = αi+λi

(2. Obtendo os Pesos)

Considere x = ([a1, b1], . . . , [ap, bp])T a ser estimado. Compute xc = [(a1 +

b1)/2, . . . , (ap + bp)/2]T .

Compute a funcao de kernel Gaussiana para o centro dos intervalos

K(d(xc,xci )) =

−d(xc,xci)

onde d(xc,xci ) e a distancia euclideana entre xc, definida por d(xc,xc

i ) =√(xc − xc

i )T (xc − xc

i ) e a localizacao de interesse xci e a largura de banda h

e definda previamente.

Compute o peso ωci =

K(d(xc,xci ))∑

K(d(xc,xci)).

(3. Estimando o Intervalo)

Baseado no estimador Nadaraya-Watson compute a funcao

E(Y/X) =[mα(xc), mλ(xc))

[∑ni=1 ω

ciαi,

∑ni=1 ω

4.2.2 Regressao Kernel Intervalar baseado na informacao do centro e da ampli-

tude RKI:CA

Este metodo tem como objetivo encontrar uma relacao suave e nao linear entre a variavel

resposta intervalar Y e o vetor de variaveis preditoras intervalar X = (X1, . . . , Xp)T

usando a informacao do centro e amplitude dos intervalos.

4.2.2.1 Representando intervalos A variavel resposta intervalar [αi, λi] pode ser

reescrita por:

yi = [αi, λi] = [yci − yri /2, yci + yri /2].

Assumindo o resultado acima, a variavel resposta intervalar e representada por um par

de variaveis quantitativas (Y c, Y r) que descrevem o centro e a amplitude dos intervalos,

respectivamente.

Considere tambem que cada variavel que descreve a variavel preditora intervalar Xj

e representada por um par de variaveis quantitativas (Xcj , X

rj ) que descreve o centro e a

amplitude desta variavel intervalar. Assim, X e representada por (Xc,Xr).

Neste metodo de regressao, explorar Y por X e equivalente a explorar Y c por Xc e

Y r por Xr, separadamente.

4.2.2.2 Modelando a relacao Uma relacao nao linear entre Y e X e dada como:

E(Y/X) = [E(Y c/Xc)− 1

2E(Y r/Xr), E(Y c/Xc) +

2E(Y r/Xr)], (4.7)

= [mc(Xc)− 1

2mr(Xr), mc(Xc) +

2mr(Xr)],

onde mc e mr sao funcoes desconhecidas, xc = (xc1, . . . , xcp)T onde xcj = (aj + bj)/2 e

xr = (xr1, . . . , xrp)T com xrj = (bj − aj). Outra vez usando o estimador proposto por

Nadaraya-Watson (1964), duas funcoes ponderadas resposta intervalar sao:

mc(xc) =

ωciyci e mr(xr) =

ωri yri , (4.8)

onde o peso ωci e definido na Equacao (4.4) e o peso ωri e definido tambem usando um

kernel K como

ωri =K(d(xr,xri ))∑ni=1K(d(xr,xri ))

. (4.9)

A funcao de kernel Gaussiana para centro e apresentada na Equacao (4.5) e para

amplitude e dada por:

K(d(xr,xri )) =1

(√2π)1/p

−d(xr,xri )

2h2, (4.10)

onde d(xr,xri ) e quadrado da distancia euclideana entre xr e a localizacao de interesse

xri , dada por:

d(xr,xri ) =√

(xr − xri )T (xr − xri ) (4.11)

Nesta funcao kernel, a largura de banda h e o desvio padrao da distribuicao normal

centrada em xrij (j = 1, . . . , p).

O procedimento do metodo RKI:CA e descrito a seguir.

Considere Ω = 1, . . . , n sendo um conjunto de dados de n objetos descritos por um

vetor intervalar (xi, yi) como xi = ([ai1, bi1], . . . , [aip, bip])T ; yi = [αi, λi].

Compute os vetores quantitativos (xci , yci ) e (xri , y

ri ) onde: xc

i = (ai1+bi12

, . . . ,aip+bip

2)T , yci = αi+λi

i = (bi1 − ai1, . . . , bip − aip)T e yri = (λi − αi).

(2. Obtendo os pesos)

Considere x = ([a1, b1], . . . , [ap, bp])T a ser estimado. Compute xc = [(a1 + b1)/2,

. . . , (ap + bp)/2]T e xr = [(b1 − a1), . . . , (bp − ap)]T .

Compute a funcao de kernel Gaussiana para o centro dos intervalos:

K(d(xc,xci )) =

−d(xc,xci)

onde d(xc,xci ) e a distancia euclideana entre xc e a localizacao de interesse xc

definida como: d(xc,xci ) =

√(xc − xc

i )T (xc − xc

i ) e a largura de banda h e

definida previamente.

Compute os pesos ωci =

K(d(xc,xci ))∑

K(d(xc,xci)).

Compute a funcao de kernel para a amplitude dos intervalos:

K(d(xr ,xri )) =

−d(xr,xri)

onde d(xr ,xri ) e a distancia euclideana entre xr e a localizacao de interesse xr

definida como: d(xr,xri ) =

√(xr − xr

i )T (xr − xr

i ) e a largura de banda h e

definida previamente.

Compute o peso ωri =

K(d(xr,xri ))∑

ni=1 K(d(xr ,xr

(3. Estimando o intervalo)Baseado no estimador on Nadaraya-Watson compute a funcao E(Y/X) =[

mc(xc)− mr(xr)2

, mc(xc) + mr(xr)2

[∑ni=1 ω

ci −

∑ni=1 ωr

2,∑n

i=1 ωci y

∑ni=1 ωr

4.2.3 Mistura de Regressao Intervalar

A analise de regressao convencional assume implicitamente que um conjunto comum

de estimativas de parametros de regressao e obtida pelas caracterısticas representadas

na amostra. Em algumas situacoes, no entanto, esta suposicao pode nao ser realista,

e a amostra pode conter varias subpopulacoes. Nestes casos, os modelos de regressao

convencionais podem fornecer estimativas tendenciosas, uma vez que as estimativas dos

parametros sao restringidas a ser as mesmas em subpopulacoes. Esta secao descreve

aplicacoes de modelos de mistura de regressao, que e mais flexıvel do que as convencionais.

Como foi mencionado neste trabalho, cada intervalo e representado pelos dados de

centro e de amplitude separadamente. Sob a suposicao que a amostra intervalar contem

duas subpopulacoes, dois modelos de regressao de mistura para intervalos sao considera-

A regressao misturada ocorre quando uma relacao de regressao e conhecida e a outra

e desconhecida. Aqui, a forma linear sem suposicao de distribuicao de probabilidade para

os parametros e adotada como relacao de regressao conhecida. A mistura de regressao

intervalar e mais flexıvel do que a analise convencional de regressao intervalar da literatura

Alem disso, a forma nao parametrica assumida para a amplitude garante que a esti-

mativa do limite superior seja maior do que a estimativa para o limite inferior para cada

intervalo da variavel resposta.

4.2.3.1 Mistura de Regressao Intervalar: Centro Linear + Amplitude Kernel

RMI:CL+AK

Este metodo assume uma forma parametrica linear para o centro e uma abordagem

de forma livre para modelar a amplitude dos intervalos. Considere βc = (βc0, βc1, . . . , β

como sendo um vetor de p + 1 parametros. Uma relacao de mistura entre a variavel

resposta intervalar Y e o vetor de variaveis preditoras intervalares X = (X1, . . . , Xp)T

pode ser escrito como:

E(Y/X) = [E(Y c/Xc)−E(Y r/Xr), E(Y c/Xc) + E(Y r/Xr)], (4.12)

= [mc(Xc)− 1

2mr(Xr), mc(Xc) +

2mr(Xr)],

onde mr e uma funcao desconhecida e mc e uma funcao conhecida dada por:

mc(Xc) = (xc)Tβc. (4.13)

Com xc = (1, xc1, . . . , xcp)T e xcj = (aj+bj)/2. Utilizando o estimador dos mınimos qua-

drados, a funcao de regressao para centro dos intervalos e dada pelo vetor de parametros

do centro definido como:

mc(Xc) = xcT[(XcT

Xc)−1

onde Xc = xci e uma matriz de entrada n× (p+1) para o conjunto de dados intervalar

para o centro com xci = (1, xci1, . . . , xcip)

T e xcij = (aij + bij)/2.

onde Xc e a matriz de entrada de n× p do conjunto de dados intervalar para centro.

Mais uma vez utilizando o estimador proposto por Nadaraya-Watson (1964), a funcao

de ponderacao para a amplitude e dada por

mr(Xr) =n∑

ωri yri ,

onde o peso ωri e definido na equacao (4.9).

O procedimento do metodo RMI:CL+AK e descrito abaixo.

ri ) onde: xc

i = (ai1+bi12

, . . . ,aip+bip

2)T , yci = αi+λi

i = (bi1 − ai1, . . . , bip − aip)T and yri = (λi − αi).

(2. Obtendo os pesos e parametros)

Considere x = ([a1, b1], . . . , [ap, bp])T a ser estimado. Compute xr = [(b1 −

a1), . . . , (bp − ap)T ].

Compute usindo o estimador dos mınimos quadrados, o vetor de paramentros para

o centro do intervalos βc= ((Xc)TX

c)−1(Xc)T yc onde Xc = xc

i e um n x (p+1)

matriz para o centro dos dados da entrada do conjunto de dados intervalar.

Compute a funcao de kernel Gaussiana para a amplitude dos intervalos:

K(d(xr ,xri )) =

−d(xr,xri)

onde d(xr ,xri ) e a distancia euclideana entre xr e a localizacao de intresse xr

i , de-

finida como: d(xr ,xri ) =

√(xr − xr

i )T (xr − xr

i ) e a largura de banda h e definida

previamente.

K(d(xr,xri ))∑

ni=1 K(d(xr ,xr

(3. Estimando o intervalo)Baseado nos estimados de Nadaraya-Watson e dos

mınimos quadrados compute a funcao E(Y/X) =[mc(xc)−

mr(xr)2

, mc(xc) +mr(xr)

[(xc)T βc −

∑ni=1 ωr

2, (xc)T βc +

∑ni=1 ωr

4.2.3.2 Mistura de Regressao Intervalar: Centro Kernel + Amplitude Linear

RMI:CK+AL

Este metodo assume uma forma nao-parametrica para o centro e uma forma linear

para modelar a amplitude dos intervalos. Considere βr = (βr0, βr1, . . . , β

rp)T como sendo

um vetor de p+1 parametros. Uma relacao de mistura entre a variavel resposta intervalar

Y e o vetor de variaveis preditoras intervalar X = (X1, . . . , Xp)T pode ser escrito como:

E(Y/X) = [E(Y c/Xc)−E(Y r/Xr), E(Y c/Xc) + E(Y r/Xr)], (4.14)

= [mc(Xc)− 1

2mr(Xr), mc(Xr) +

2mr(Xr)],

onde mc e uma funcao desconhecida e mr e uma funcao conhecida dada por:

mr(Xr) = (xr)Tβr. (4.15)

Novamente utilizando o estimador dos mınimos quadrados, o vetor de parametros da

amplitude e definido como:

mr(Xr) = (XrTXr)−1

XrTyr,

onde Xr = xri e a matriz de entrada n× (p + 1) do conjunto de dados intervalar para

a amplitude com xri = (1, xri1, . . . , xrip)

T and xrij = (bij − aij).

Mais uma vez usando o estimador proposto em Nadaraya-Watson (1964), a funcao de

ponderacao para centro e dada por

mc(Xc) =n∑

ωciyci ,

onde o peso ωci e definido na equacao (4.4).

4.3 APLICACAO DOS MODELOS COM DADOS REAIS DO TIPO INTERVALO 73

O procedimento do metodo RMI:CK+AL e descrito abaixo.

(1. Entrada dos Dados )

ri ) onde: xc

i = (ai1+bi12

, . . . ,aip+bip

2)T , yci = αi+λi

i = (bi1 − ai1, . . . , bip − aip)T and yri = (λi − αi).

(2. Obtendo os pesos e os parametros )

Considere x = ([a1, b1], . . . , [ap, bp])T a ser estimado. Compute xc = [(a1 +

b1)/2, . . . , (ap + bp)/2]T .

Compute usando o estimador dos mınimos quadrados, o vetor de parametros para

a amplitude dos intervalos βr

= ((Xr)TXr)−1(Xr)Tyc onde Xr = xr

i e um n x

(p+1) matriz para o centro dos dados da entrada do conjunto de dados intervalar.

Compute a funcao de kernel Gaussiana para o centro dos intervalos:

K(d(xc,xci )) =

−d(xc,xci)

onde d(xc,xci ) e a distancia euclideana entre xc e a localizacao de interesse xc

definida como: d(xc,xci ) =

√(xc − xc

i )T (xc − xc

i ) e largura de banda h e definida

previamente.

K(d(xc,xci ))∑

ni=1 K(d(xc,xc

(3. Estimando o intervalo)Baseado nos estimadores de Nadaraya-Watson e dos

mınimos quadrados compjute a funcao E(Y/X) =[mc(xc)− mr(xr)

2, mc(xc) + mr(xr)

[∑ni=1 ω

ci − (xr)T βr

2,∑n

i=1 ωci y

ci + (xr)T βr

4.3 APLICACAO DOS MODELOS COM DADOS REAIS DO TIPO INTERVALO

Os modelos introduzidos neste trabalho sao aplicados a cinco conjuntos de dados reais

intervalares e uma analise de desempenho e realizada. Alem disso, a fim de realizar um

estudo comparativo com outros metodos de regressao livres de distribuicao da literatura

ADS, o modelo linear baseado na informacao do centro (RLI:C) [Billard e Diday, (2000)] e

o modelo linear baseado na informacao do centro e da amplitude (RLI:CA) [Lima Neto e De Carvalho, (2008)

sao tambem aplicados a esses conjuntos de dados.

A precisao da predicao dos modelos e mensurada pela magnitude media de erro relativo

MMRE definido na equacao (3.8) e estimada pelo metodo leave one out. Os experimentos

sao realizados usando a Linguagem R http://www.r-project.org/.

A constante h (largura de banda) controla o grau de suavizacao aplicado aos dados:

se h → 0, tem-se uma curva com muito ruıdo; por outro lado, se h → 1, tem-se uma

curva suave. Em outras palavras, com h muito pequeno a curva tendera a interpolar

perfeitamente os dados, implicando em vies pequeno e grande variancia, enquanto que

com h muito grande tem-se perda de detalhes na curvatura dos dados, implicando em

vies grande e pequena variancia. Claramente, ha necessidade de que a escolha de h seja

feita considerando um equilibrio entre vies e variancia. Aqui, uma largura de banda h

apropriada e definida atraves do estudo do comportamento do MMRE para diferentes

valores de h. Assim, a largura de banda e escolhida baseada no valor mais baixo do

MMRE, que e 0, 3 conforme Tabela abaixo.

Largura de Banda(h) Regressao Kernel

h = 0, 1 0,2012 ± 0,1805

h = 0, 2 0,1905 ± 0,1807

h = 0, 3 0,1768 ± 0,1776

h = 0, 4 0,1767 ± 0,1767

h = 0, 5 0,1766 ± 0,1715

h = 0, 6 0,1766 ± 0,1715

4.3.1 Resultados e diagnosticos dos modelos

A comparacao entre os metodos de regressao baseada nos resultados do MMRE das

Tabelas 4.2, 4.4, 4.6, 4.9, 4.11 e 4.13, foi obtida atraves da aplicacao do teste estatıstico

de Wilcoxon [Montgomery e Ruger, (2003)] para amostras emparelhados com nıvel de

significancia de 5% . Portanto, µ1 e µ2 sao as medias do MMRE para os metodos e a

hipotese nula e alternativa sao:

H0 : µ

(.) = µ(∗)

H1 : µ(.) < µ(∗).

A Tabela 4.14 apresenta os valores do MMRE para os modelos RLI:C, RKI:C,

RKI:CA, RLI:CA, RMI:CL+AK e RMI:CK+AL. Como esperado, os metodos basea-

dos em informacao apenas no centro tem o pior desempenho. O modelo RKI:C supera o

modelo RLI:C introduzido em [Billard e Diday, (2000)] para todos os conjuntos de dados.

Para ratificar esses resultados os testes de hipotese sao ilustrados na Tabela 4.2.

No que diz respeito aos metodos baseados na informacao do centro e da amplitude,

tres observacoes sao consideradas:

1. Para os conjuntos de dados de Cardiologia, Cogumelo e Carro, o metodo de re-

gressao RKI:CA proposto neste trabalho apresentou o melhor desempenho segundo

MMRE. Este modelo e tao bom quanto o metodo RMI: CK + AL. Para os conjuntos

de dados Futebol e NASA, o metodo RMI:CK + AL supera os metodos RLI:CA,

RMI: CL + AK e RKI:CA. Assim, o uso do kernel no centro e importante uma vez

que o desempenho da predicao degrada com o uso de relacao linear. A amplitude

pode ser ajustada com kernel ou regressao linear;

2. Para o conjunto Futebol e importante o uso de regressao linear na amplitude. O

centro pode ser ajustado por linear ou kernel. Ja no conjunto NASA o desempneho

melhora com kernel no centro. Nao importa a escolha de linear ou centro para

amplitude.

3. Os modelos baseados na mistura de regressao apresentam bons resultados deMMRE.

No entanto, o uso de regressao kernel com informacao no centro melhora o desem-

penho para todos os conjuntos de dados considerados;

4. Os modelos propostos neste trabalho sao melhores do que alguns modelos lineares da

literatura ADS em termos de precisao, medidos pelo MMRE. Dentre os modelos

propostos, o modelo RKI:CA e a melhor opcao na maioria dos conjuntos de dados

utilizados.

Tabela 4.1 Media e Desvio Padrao (em parentesis) do MMRE para conjunto de dados reais

intervalar.

Conjuntos deMetodos baseados no Centro Metodos baseados no Centro e Amplitude

Dados RLI:C RKI:C RLI:CARKI:CARMI:CL+AKRMI:CK+AL

Cardiologia 43, 274 9, 237 0, 180 0, 175 0, 179 0, 176

(11, 909) (0, 104) (0, 108) (0, 107) (0, 108) (0, 108)

Cogumelo 14, 425 4, 038 0, 139 0, 134 0, 143 0, 136

(7, 914) (0, 084) (0, 076) (0, 087) (0, 073) (0, 083)

Carro 11, 423 5, 467 0, 071 0, 065 0, 071 0, 066

(12, 920) (0, 168) (0, 048) (0, 081) (0, 051) (0, 065)

Futebol 13, 720 3, 690 0, 172 0, 188 0, 188 0, 166

(5, 932) (0, 144) (0, 112) (0, 124) (0, 117) (0, 113)

NASA 6, 915 2, 329 0, 208 0, 176 0, 220 0, 169

(5, 491) (0, 251) (0, 173) (0, 171) (0, 171) (0, 171)

Tabela 4.2 Teste de Wilcoxon: p-value

Comparacao Cardiologia Cogumelo Carro Futebol NASA

µ(RKI : C)× µ(RLI : C) 1, 22x10−11 2, 38x10−7 3, 49x10−10 9, 53x10−7 1, 22x10−4

µ(RKI : CA)× µ(RLI : CA) 4, 84x10−2 3, 68x10−2 2, 02x10−2 4, 58x10−2 2, 93x10−2

µ(RKI : CA)× µ(RMI : CL+AK) 4, 86x10−2 2, 13x10−2 3, 69x10−2 5, 21x10−2 2, 93x10−2

µ(RKI : CA)× µ(RMI : CK +AL) 4, 50x10−2 4, 61x10−2 4, 37x10−2 5, 82x10−2 5, 88x10−2

µ(RLI : CA)× µ(RMI : CL+AK) 5, 41x10−2 7, 06x10−2 6, 71x10−2 5, 34x10−2 5, 18x10−2

µ(RLI : CA)× µ(RMI : CK +AL) 7, 18x10−2 5, 59x10−2 6, 88x10−2 5, 70x10−2 8, 78x10−2

A fim de verificar ajuste dos modelos propostos neste trabalho atraves de graficos,

Figuras 4.1(f), 4.1(g), 4.1(h), 4.2(a) e 4.2(b) apresentam os graficos dos intervalos estima-

dos versus intervalos reais. Figuras 4.1(f), 4.1(g) e 4.1(h) mostram intervalos estimados

pelo metodo RKI:CA. Figuras 4.2(a) e 4.2(b) exibem intervalos estimados pelo metodo

RMI:CK+AL.

Algumas observacoes podem ser extraıdas desses graficos:

1. Nestas figuras sao descritas uma relacao linear entre os intervalos estimados e reais

da variavel resposta (Y ). Essa relacao linear indica que os modelos propostos tem

bom ajuste e a informacao baseada no centro contribui para este resultado;

2. Em termos de informacao na amplitude, observa-se que a presenca de muitos qua-

drados no conjunto de dados pode significar bom ajuste do modelo;

3. A presenca de retangulos atıpicos pode significar a presenca de intervalos outliers

em termos de informacao no centro e/ou na amplitude. Por exemplo, a Figura

4.2(b) mostra que o conjunto de dados da NASA tem um intervalo outlier em

termos de informacao no centro e outro em termos de informacao no centro e na

amplitude, como foi previsto no capıtulo 3 na secao 3.5.

0.0 0.2 0.4 0.6 0.8 1.0

Y_Real

(f) Cardiologia

0.0 0.2 0.4 0.6 0.8 1.0

Y_Real

(g) Cogumelo

0.0 0.2 0.4 0.6 0.8 1.0

Y_Real

(h) Carro

Figura 4.1 Y Estimado versus Y Real baseado no metodo RKI:CA.

0.0 0.2 0.4 0.6 0.8 1.0

Y_Real

(a) Futebol

0.0 0.2 0.4 0.6 0.8 1.0

Y_Real

(b) Nasa

Figura 4.2 Y Estimado versus Y Real baseado no metodo RMI:CK+AL.

4.4 AVALIACAO EXPERIMENTAL 78

4.4 AVALIACAO EXPERIMENTAL

Para avaliar os metodos de regressao propostos no presente trabalho com conjuntos de

dados simulados do tipo intervalo, experimentos Monte Carlo foram considerados. Os

conjuntos representam cenarios em ℜ2, cada um de tamanho 330.

Os metodos propostos sao comparados com os metodos de regressao linear intervalar

introduzidos em [Lima Neto e De Carvalho, (2008)] e [Billard e Diday, (2000)]. A ava-

liacao do desempenho destas abordagens e mensurada em termos de MMRE e estimado

pelo metodo hold out.

Os experimentos consistem de uma sequencia de algoritmos organizados na simulacao

de Monte Carlo com 100 repeticoes. Dois casos de simulacao sao definidos. No caso A,

dados do tipo intervalo sao simulados assumindo uma distribuicao de probabilidade para

as variaveis do centro e da amplitude.

No caso B, conjuntos de dados reais sao considerados e dados intervalares da variavel

resposta sao simulados a partir de uma relacao, a priori, definida entre as variaveis pre-

ditoras e a variavel resposta. A ideia caso B e avaliar os modelos de regressao com dados

intervalares da variavel resposta gerados a partir dos dados intervalares reais preditos.

4.4.1 Simulacao Monte Carlo: Caso A.

Nesta simulacao Monte Carlo, dois algoritmos para geracao dos conjuntos de dados inter-

valares sao considerados. O primeiro algoritmo gera conjuntos de dados contendo ruıdos

e o segundo sem ruıdos.

Tres cenarios com configuracao de dados diferentes sao estabelecidos para cada algo-

ritmo. Para cada cenario com ruıdos e adotado que 10% do tamanho de cada conjunto

de dados de entrada correspondem aos ruıdos. Essa simulacao Monte Carlo e descrita

como segue.

Algoritmo 5 Simulacao Monte Carlo caso ARequerer MC = 100

1: Defina que cada coeficiente bk (k = 0, 1) e obtido de uma distribuicao uniforme com

valores mınimo e maximo:0 e 1, respectivamente.

2: Para todo i de 1 ≤ g ≤ MC faca

3: Gere um conjunto de dados do tipo intervalo de acordo com o algoritmo 6 ou 7.

4: Particione aleatoriamente a geracao do conjunto de dados do tipo intervalo em

conjunto de treinamento (75% do conjunto de dados) e de teste (25% do conjunto

de dados).

5: Construa metodos de regressao para centro e/ou amplitude do conjunto de dados

de treinamento, respectivamente, de acordo com a subsecao 4.2.

6: Aplique a regra de predicao para o conjunto de teste de acordo com o metodo

escolhido no passo 5.

7: Calcule MMREg (magnitude media do erro relativo) usando equacao (3.8).

8: fim para

9: Calcule a media e desvio padrao dos erros MMREg.

Algoritmo 6 Geracao do conjunto de dados sem ruıdos.Requerer n = 375

1: Para todo i de 1 ≤ i ≤ n faca

2: Defina que o erro εci e obtido de uma distribuicao normal com media 0, 1 e desvio

padrao 0, 3.

3: Defina que o erro εri e obtido de uma distribuicao normal com media 0, 01 e desvio

padrao 0, 03.

4: Defina que a variavel preditora xci e obtida de uma distribuicao uniforme de

parametros [−1, 1].

5: Escolha um cenario de 1, 2, 36: Se cenario 1 (Figura 4.3) e considerado, defina que a variavel preditora xri e

obtida de uma distribuicao uniforme de parametro [0, 1 : 0, 3]. Obtenha um valor

aleatorio para a amplitude de uma distribuicao uniforme de parametro [0, 4 : 0, 6]

e calcule o valor do centro como segue: yci = sin(xciπ) + 10 + εci .

7: Se cenario 2 (Figura 4.4) e considerado, defina que a variavel preditora xri1 e

obtida de uma distribuicao uniforme de parametro [0, 4 : 0, 6], obtenha o valor

da amplitude como segue: yri = b0 + xri b1 + εri e calcule o valor do centro como:

yci = sin(xciπ) + 1 + εci .

8: Se cenario 3 (Figura 4.5) e considerado, defina que a variavel preditora xri e

obtida de uma distribuicao uniforme de parametro [−1, 1]. Obtenha o parte de

valores para o centro e a amplitude como segue: yci = sin(xciπ) + 10 + εci e yri =

sin(xriπ) + 1 + εri , respectivamente.

9: Calcule o intervalo referente as variaveis preditoras [ai, bi] que sao os valores

mınimo e maximo, respectivamente, com ai = yci −yri2e bi = yci +

10: Calcule o intervalo referente a variavel resposta [αi, λi] que sao, respectivamente,

valores mınimo e maximo com αi = yci −yri2e λi = yci +

11: fim para

Algoritmo 7 Geracao do conjunto de dados com ruıdos.Requerer n = 375

1: Para todo i de 1 ≤ i ≤ n faca

2: Defina que o erro εci e obtido de uma distribuicao normal com media 0 e desvio

padrao 0, 1.

3: Defina que o erro εri e obtido de uma distribuicao normal com media 0 e desvio

padrao 0, 01.

4: Defina que a variavel preditora xci1 e obtida de uma distibuicao uniforme de

parametro [−1 : 1].

5: Defina que no e o numero de intervalos ruıdosos calculados como 10% de n.

6: Escolha um cenario de 4, 5, 67: Se cenario 4 (Figura 4.6) e considerado, defina que o preditor xri1 e obtido de uma

distribuicao uniforme de parametro [0.1, 0.5]. Obtenha os intervalos ruıdosos de

centro como segue: selecione no elementos aleatoriamente do conjunto de dados do

tipo intervalo e calcule os ruıdos de centro por yci = sin(xciπ) + no + εci e obtenha

os valores da amplitude de distribuicao uniforme de parametro [0, 1 : 0, 5].

8: Se cenario 5 (Figura 4.7) e considerado, defina que o preditor xri e obtido de uma

distribuicao uniforme de parametro [0, 1 : 0, 5]. Obtenha os intervalos ruıdosos de

amplitude como segue: selecione no elementos aleatoriamente de conjunto de dados

do tipo intervalo e calcule os ruıdos de amplitude por yri = b0 + xri1b1 + εri .

9: Se cenario 6 (Figura 4.8) e considerado, defina que o preditor xri e obtido de

uma distribuicao uniformde de parametro [−1 : 1]. Obtenha os de centro e de

amplitude como segue: selecione no elementos aletoriamente de conjunto de dados

do tipo intervalo e calcule os intervalos ruıdosos de centro e deamplitude por yci =

sin(xciπ) + no + εci e yri = sin(xriπ) + no + εri .

10: Calcule o intervalo preditor [ai, bi] que sao os valores mınimo e maximo, respecti-

vamente, com ai = yci −yri2e bi = yci +

11: Calcule o intervalo resposta [αi, λi] que sao, respectivamente, os valores mınimo e

maximo com αi = yci −yri2e λi = yci +

12: fim para

Figuras 4.3 a 4.8 ressaltam dados simulados do tipo intervalo de acordo com seis

diferentes cenarios. Cada conjunto de dados e construıdo baseado em duas relacoes

predefinidas: uma entre os centros da variavel resposta (yc) e da preditora (xc) e outra

entre as amplitudes da variavel resposta (yr) e da preditora (xr) dos intervalos. Os

cenarios 4, 5 e 6 mostram os ruıdos intervalares presentes no conjunto de dados do tipo

intervalo.

Todos os cenarios sao descritos abaixo:

Cenario 1 e 4 (Figura 4.3 e 4.6) consiste uma relacao baseada na forma do seno

entre yc e xc (Figuras 4.3(a) e 4.6(a)) e uma relacao arbitraria entre yr e xr (Figuras

4.3(b) e 4.6(b));

Cenario 2 e 5 (Figuras 4.4 e 4.7) consiste uma relacao, baseada na forma do seno

entre yc e xc (Figuras 4.4(a) e 4.7(a)) e uma relacao linear entre yr e xr (Figuras

4.4(b) e 4.7(b));

Cenario 3 e 6 (Figuras 4.5 e 4.8) consiste uma relacao baseada na forma do seno

entre yc e xc (Figura 4.5(a) e 4.8(a)) e uma relacao baseada na forma do seno entre

yr e xr (Figuras 4.5(b) e 4.8(b)).

−1.0 −0.5 0.0 0.5 1.0

(a) Centro

0.10 0.15 0.20 0.25 0.30

(b) Amplitude

−1.0 −0.5 0.0 0.5 1.0

(c) Intervalar

Figura 4.3 Cenario 1.:Relacoes nao linear para o centro e aleatoria para amplitude.

−1.0 −0.5 0.0 0.5 1.0

(a) Centro

0.1 0.2 0.3 0.4 0.5

(b) Amplitude

−1.0 −0.5 0.0 0.5 1.0

9.09.5

(c) Intervalar

Figura 4.4 Cenario 2.: Relacao nao linear para o centro e relacao linear para amplitude.

−1.0 −0.5 0.0 0.5 1.0

−0.5

0.00.5

(a) Centro

−1.0 −0.5 0.0 0.5 1.0

−0.5

0.00.5

(b) Amplitude

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.00.5

1.01.5

(c) Intervalar

Figura 4.5 Cenario 3.: Relacoes nao linear para centro e amplitude.

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.00.5

(a) Centro

0.1 0.2 0.3 0.4 0.5

0.10.2

0.30.4

(b) Amplitude

−1.0 −0.5 0.0 0.5 1.0

−2−1

(c) Intervalar

Figura 4.6 Cenario 4.:Relacoes nao linear para o centro e aleatoria para amplitude na presenca

de ruıdos.

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.00.5

(a) Centro

0.1 0.2 0.3 0.4 0.5

(b) Amplitude

−1.0 −0.5 0.0 0.5 1.0

−2−1

(c) Intervalar

Figura 4.7 Cenario 5.:Relacoes nao linear para o centro e linear para amplitude na presenca

de ruıdos.

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.00.5

(a) Centro

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.00.5

(b) Amplitude

−1.0 −0.5 0.0 0.5 1.0 1.5

−2−1

(c) Intervalar

Figura 4.8 Cenario 6.:Relacoes nao linear para centro e amplitude na presenca de ruıdos.

4.4.2 Avaliacao de desempenho

O MMRE e calculado para cada conjunto de dados do tipo intervalo. Em cada iteracao

da simulacao Monte Carlo, um modelo de regressao para um conjunto de dados de entrada

e ajustado. Assim, este modelo e usado para predizer valores do intervalo da variavel

dependente do conjunto de teste. Para cada 100 repeticoes, a media e o desvio padrao

do MMRE sao calculados.

A fim de gerar os dados a amplitude variavel resposta com uma relacao linear com am-

plitude das variaveis preditoras, os coeficientes b0 = 1, b1 = 1, 2 sao considerados para os

cenarios 2 e 5 dos algoritmos 6 e 7, respectivamente. Esses valores de parametros tambem

foram usados nos trabalhos [Fagundes et al. (2013)] e [Lima Neto e De Carvalho, (2008)].

A largura de banda do kernel gaussiano e escolhida baseada no menor valor do

MMRE. Para todos os metodos baseados em kernel neste estudo o parametro h e

igual a 0, 1.

Largura de Banda(h) Regressao Kernel

h = 0, 0001 0,312 ± 0,2805

h = 0, 001 0,2905 ± 0,2807

h = 0, 01 0,2768 ± 0,2776

h = 0, 1 0,1767 ± 0,2767

h = 0, 2 0,1766 ± 0,2715

h = 0, 3 0,1766 ± 0,2715

A Tabela 4.3 apresenta os valores da media e desvio padrao (entre parentesis) do

MMRE para os metodos propostos: IKR:C, IKR:CA, IRM:CK+AL e IRM:CL+AK, e

os metodos ILC e ILR:CA da literatura de SDA para os cenarios 1 a 3.

Para cenario 1

1. Os metodos RKI:CA e RMI:CK+AL apresentam melhor desempenho e es-

ses metodos sao estatisticamente similares. Este resultado destaca que, neste

cenario, a escolha da funcao para modelar a amplitude dos dados nao altera a

acuracia da predicao.

2. Como esperado, os metodos RLI:CA e RMI:CL+AK mostram predicoes infe-

riores as dos metodos RKI:CA e RMI:CK+AL, pois eles assumem uma forma

parametrica para modelar os dados do centro. De acordo com o teste de

hipotese, nao existe diferenca entre os metodos RLI:CA e RMI:CL+AK em

termos de MMRE.

3. Embora o metodo RKI:C assuma uma forma nao parametrica para centro de

dados do modelo, este metodo possui um desempenho inferior aos metodos

RKI:CA e RMI:CK+AL. Este resultado mostra que modelagem da amplitude

dos dados e necessaria na abordagem usando kernel.

Para os cenarios 2 e 3

1. Os metodos baseados em funcoes suaves (nao linear) para modelar dados do

centro (RKI:C, RKI:CA e RMI:CK+AL) tem desempenho similar baseados

no teste. Eles sao as melhores opcoes para estes cenarios.

2. Os metodos baseados na forma linear para modelar os dados do centro (RLI:CA

e RMI:CL+AK) tem desempenho inferior comparado com aqueles metodos

baseados em funcao nao linear para modelar os dados do centro. Eles sao

estatisticamente similares com significancia de 5%.

Para consolidar os resultados apresentados conforme Tabela 4.4, o metodo RLI:C da

literatura SDA tem o pior desempenho entre todos os metodos de regressao uma vez que

este metodo assume uma forma linear para modelar os dados do centro e nao modela os

dados da amplitude dos intervalos. O metodos RKI:C e RKI:CA devem ser preferidos,

pois eles tem um bom desempenho e suas estimativas nao violam a coerencia matematica

dos intervalos. No entanto, este estudo de simulacao mostrou que o metodo RKI:CA e

mais eficaz do que o metodo RKI:C, um vez que nao e possıvel determinar uma forma

parametrica explıcita para modelar os dados da amplitude dos intervalos (ver cenario 1).

Tabela 4.3 Media e Desvio Padrao (em parentesis) do MMRE para cenarios (1, 2 e 3) sem

ruıdos.

Cenario Metodos baseados no Centro Metodos baseados no Centro e Amplitude

RLI:C RKI:C RLI:CA RKI:CA RMI:CL+AK RMI:CK+AL

1 69, 921 5, 524 7, 299 2, 682 7, 298 2, 683

(43, 790) (0, 440) (0, 554) (0, 350) (0, 555) (0, 350)

2 69, 641 5, 418 7, 160 5, 449 7, 170 5, 429

(43, 786) (0, 431) (0, 544) (0, 425) (0, 541) (0, 428)

3 129, 895 5, 382 14, 781 5, 387 14, 781 5, 384

(89, 658) (0, 544) (0, 808) (0, 544) (0, 807) (0, 544)

Comparacao Cenario 1 Cenario 2 Cenario 3

µ(RKI : C)× µ(RLI : C) 1, 05x10−16 1, 97x10−18 6, 09x10−18

µ(RKI : CA)× µ(RLI : CA) 0, 97x10−18 1, 68x10−18 1, 02x10−18

µ(RKI : CA)× µ(RMI : CL+AK) 7, 90x10−17 1, 28x10−16 2, 03x10−18

µ(RKI : CA)× µ(RMI : CK +AL) 1 1 1

µ(RLI : CA)× µ(RMI : CL+AK) 0, 99 0, 94 0, 95

µ(RLI : CA)× µ(RMI : CK +AL) 1 1 1

Tabela 4.5 apresenta a media e o desvio-padrao do MMRE para os metodos RLI:C,

RLI:CA, RKI:C, RKI:CA, RMI:CK+AL e RMI:CL+AK e os cenarios com ruıdos 4 a 6.

A comparacao entre os metodos e ilustrada na Tabela 4.6. A partir dos valores obtidos

algumas observacoes sao extraıdas.

Os metodos RKI:C, RMI:CK+LA e RKI:CA tem desempenhos semelhantes e o teste

de igualdade das medias ratifica este resultado. Alem disso, este estudo demonstra

que a utilizacao de uma relacao para modelar os dados da amplitude do intervalo

nao melhora a precisao da acuracia na presenca de ruıdos.

Os metodos RKI:C e RKI:CA devem ser preferidos, porque eles garantem a coerencia

matematica para a predicao dos intervalos. Entretanto, o metodo RKI:C e mais

simples do que o metodo RKI:CA.

Novamente, o metodo RLI:C da literatura de SDA tem o pior desempenho entre

todos os metodos de regressao.

Tabela 4.5 Media e Desvio Padrao (em parentesis) do MMRE para cenarios (4, 5 e 6) com

ruıdos.

Cenario Metodos baseados no Centro Metodos baseados no Centro e Amplitude

RLI:C RKI:C RLI:CA RKI:CA RMI:CL+AK RMI:CK+AL

4 144, 454 4, 640 8, 600 4, 723 8, 601 4, 722

(79, 821) (0, 472) (0, 523) (0, 460) (0, 523) (0, 460)

5 144, 445 4, 640 8, 563 4, 644 8, 564 4, 640

(79, 819) (0, 472) (0, 529) (0, 471) (0, 529) (0, 472)

6 144, 442 4, 639 8, 572 4, 751 8, 598 4, 656

(79, 819) (0, 472) (0, 528) (0, 458) (0, 524) (0, 470)

Comparacao Cenario 4 Cenario 5 Cenario 6

µ(RKI : C)× µ(RLI : C) 4, 56x10−17 3, 03x10−17 4, 09x10−17

µ(RKI : CA)× µ(RLI : CA) 1, 97x10−18 1, 28x10−18 1, 62x10−18

µ(RKI : CA)× µ(RMI : CL+AK) 1, 90x10−18 4, 52x10−18 1, 97x10−18

µ(RKI : CA)× µ(RMI : CK +AL) 1 1 1

µ(RLI : CA)× µ(RMI : CL+AK) 0, 96 0, 94 0, 93

µ(RLI : CA)× µ(RMI : CK +AL) 1 1 1

A fim de avaliar o ganho relativo (GR) entre os valores de MMRE para dois modelos

em cada cenario, uma metrica e considerada neste estudo e dada como:

GR = 100(MMREv −MMREh

MMREv), (4.16)

onde Tv e Th sao valores de MMRE para dois modelos, respectivamente.

Tabela 4.7 mostra os valores de GR para todos os cenarios. Esses resultados enfatizam

os seguintes pontos:

De fato, o metodo RKI:C (h) tem melhor desempenho doque o metodo RLI:C (v)

para todos os cenarios.

Nao existe ganho relativo entre os metodos que consideram um relacao linear para

os dados do centro dos intervalos (RLI:CA e RMI:CL+AK) para todos os cenarios.

Nestas situacoes, os dados de amplitude dos intervalos podem ser modelados por

qualquer funcao. Assim, o metodo RMI:CL+AK deve ser preferido, pois nao viola

a coerencia matematica.

O valor do ganho relativo para o metodo RLI:CA× RKI:CA e RLI:CA× RMI:CK+AL

diminui na presenca de ruidos e estes nao mudam para os cenarios 4 a 6. Para o

cenario 2 estes valores de ganho relativo e baixo. Pois, e considerado forma pa-

rametrica para simulacao dos dados de amplitude dos intervalos e sabe-se, que a

regressao do kernel nao obtem uma boa acuracia nesta situacao.

Tabela 4.7 Comparacao entre modelos regressao de acordo com o ganho relativo (%) do

Cenario RLI:C (v) × RLI:CA (v) × RLI:CA (v) × RLI:CA (v) ×RKI:C (h) RKI:CA (h) RMI:CL+AK (h) RMI:CK+AL (h)

modelos modelos modelos modelos

1 92, 09% 63, 25% 0% 63, 24%

2 92, 22% 23, 89% 0% 24, 17%

3 95, 85% 63, 55% 0% 63, 57%

4 96, 78% 45, 08% 0% 45, 09%

5 96, 78% 45, 76% 0% 45, 81%

6 96, 78% 45, 57% 0% 45, 68%

4.4.3 Simulacao Monte Carlo : Caso B

Nessa simulacao Monte Carlo dados de respostas intervalares, sao simulados a partir de

uma relacao linear com dados de preditores intervalares reais. Para isso, foram conside-

rados os conjunto de dados reais: Cardiologia, Cogumelo, Carro, Futebol e Nasa.

Os experimentos consistem de uma sequencia de algoritmos organizados na simulacao

Monte Carlo com 100 repeticoes. Essa simulacao teve como objetivo realizar a geracao de

dados do tipo intervalo da variavel resposta e a aplicacao dos metodos para o conjunto de

dados reais, usando a simulacao para os dados do tipo intervalo para variavel resposta.

Tres cenarios diferentes para calcular os dados do tipo intervalo da variavel resposta

sao considerados. A simulacao Monte Carlo e descrita a seguir.

Algoritmo 8 Simulacao Monte Carlo: Caso B.Requerer MC = 100

1: Defina que cada coeficiente bk (k = 0, 1) e obtido de uma distribuicao uniforme com

valores de mınimo e maximo: 0 e 1, respectivamente.

2: Para todo i de 1 ≤ j ≤MC faca

3: Gere dado intervalar para variavel resposta de acordo com o algoritmo 9.

4: Particione aleatoriamente a geracao de dados do tipo intervalo usando o metodo

leave one out no teste (um elemento) e no treinamento (o resto dos elementos) dos

conjuntos de dados reais.

5: Construa metodos de regressao para os conjunto de dados de treinamento para

centro e/ou amplitude, respectivamente, de acordo com Secao 3.

6: Aplique a regra de predicao para o conjunto de teste, de acordo com o metodo

escolhido no passo 5.

7: Calcule MMREj (magnitude media do erro relativo) usando a equacao (3.8).

8: fim para

9: Calcule a media e o desvio padrao dos erros MMREj.

Algoritmo 9 Geracao do conjunto de dados reais do tipo intervalo.

1: Defina n e tamanho do conjunto de dados real (aqui, Cardiologia, Cogumelo, Carro,

Fotebol ou NASA).

2: Para todo i do 1 ≤ i ≤ n faca

3: Defina que dados de centro (xci1,xci2) e dados de amplitude (xri1,x

ri2) sao obtidos

de um conjunto de dados real (aqui, Cardiologia, Cogumelo, Carro, Futebol ou

NASA).

4: Escolha um cenario de 7, 8, 95: Se cenario 7, defina que os erros εci e ε

ri sao obtidos de duas distribuicoes normal

padrao, respectivamente. Obtenha a amplitude da variavel resposta como segue:

yri = b0+xri1b1+ ε

ri e o centro da variavel resposta como segue: yci = b0+x

ci1b1+ ε

6: Se cenario 8, defina que os erros εci e εri sao obtidas de duas distribuicoes normal

padrao, respectivamente. Obtenha dados da amplitude como: yri1 de uma dis-

tribuicao uniforme de parametro [0, 1 : 0, 5]. Obtenha os dados do centro como:

yci = b0 + xci1b1 + εci .

7: Se cenario 9, defina que os erros εci e εri sao obtidos de duas distribuicoes normais

com media 0 e desvio psdrao 0, 0001, respectivamente. Obtenha dados da ampli-

tude como segue: yri = sin(2π × xri1)sin(3π × xri2) + εri e os dados do centro como

segue: yci = sin(2π × xci1) + sin(3π × xci2) + εci .

8: Calcule o intervalo da variavel resposta [αi, λi] como, respectivamente, os valores

mınimo e maximo com αi = yci −yri2e λi = yci +

9: fim para

Tabela 4.8 apresenta os resultados de MMRE para todos os modelos de regressao

referente ao cenario 7. Este cenario assume relacao linear entre a variavel resposta e

os preditores para o centro e a amplitude, respectivamente. A partir desta tabela e da

Tabela 4.9, pode-se observar que o modelo RKI:C tem melhor precisao do que o modelo

RLI:C e algumas observacoes podem ser extraıdas.

1. No conjunto de dados Cardiologia e Carro, os modelos RLI:CA, RKI:CA, RMI:CL+AK

e RMI:CK+AL possuem desempenhos similares. Entretanto, os modelos RMI:CL+AK

e RKI:CA devem ser preferidos, uma vez que as suas estimativas de intervalos nao

violam a suposicao de que o limite superior e maior do que o limite inferior de cada

intervalo estimado;

2. Nos conjuntos de dados Cogumelo, Futebol e NASA, os modelos RKI:CA e RMI:CK+AL

apresentam melhor desempenhos em termos de MMRE.

Tabela 4.8 Media e Desvio Padrao (em parentesis) do MMRE assumindo relacao linear para

centro e amplitude, respectivamente, da variavel resposta intervalar.

Conjunto Metodos baseados no Centro Metodos baseados no Centro e Amplitude

Dados Intervalar RLI:C RKI:C RLI:CA RKI:CA RMI:CL+AK RMI:CK+AL

Cardiologia 59, 191 45, 707 0, 908 0, 907 0, 907 0, 908

(5, 819) (3, 626) (0, 084) (0, 080) (0, 083) (0, 080)

Cogumelo 23, 492 17, 259 0, 936 0, 912 0, 926 0, 923

(2, 911) (2, 040) (0, 126) (0, 112) (0, 126) (0, 112)

Carro 33, 615 25, 871 0, 930 0, 922 0, 936 0, 937

(3, 385) (2, 638) (0, 107) (0, 099) (0, 109) (0, 098)

Futebol 20, 214 15, 068 0, 951 0, 918 0, 948 0, 921

(2, 206) (1, 864) (0, 148) (0, 134) (0, 148) (0, 136)

NASA 13, 522 9, 771 1, 020 0, 955 1, 022 0, 974

(1, 841) (1, 582) (0, 207) (0, 183) (0, 205) (0, 184)

µ(RLI : CA)× µ(RMI : CL+AK) 0, 92 0, 89 0, 78 0, 87 0, 91

µ(RLI : CA)× µ(RMI : CK +AL) 0, 96 0, 99 0, 81 0, 97 0, 92

Tabela 4.10 apresenta os valores de MMRE para o cenario 8 que assume uma forma

arbitraria entre a variavel resposta e as preditoras para a amplitude e uma forma linear

entre a variavel resposta e as preditoras para o centro. Estes valores ressaltam que os pares

de modelos (RKI:CA, RMI:CK+AL) e os modelos (RLI:CA, RMI:CL+AK) possuem

desempenho similar, a fim de consolidar esses resultados um teste de comparacao entre

os metodos e ilustrado na Tabela 4.11.

Aqui, pode ser concluido que a amplitude e necessaria para a predicao dos intervalos

e esta pode ser modelada por qualquer funcao. Alem disso, ao contrario do esperado, a

forma linear assumida para os dados de centro e bem modelada por uma regressao kernel.

Tabela 4.10 Media e Desvio Padrao (em parentesis) do MMRE assumindo uma forma ar-

bitraria para a amplitude e uma relacao linear para o centro da variavel resposta intervalar.

Conjunto Metdos baseados no Centro Metodos baseados no Centro e Amplitude

Cardiologia 59, 031 25, 992 0, 815 0, 813 0, 815 0, 813

(4, 187) (2, 444) (0, 079) (0, 084) (0, 079) (0, 084)

Cogumelo 30, 018 9, 756 0, 841 0, 828 0, 841 0, 828

(2, 455) (1, 496) (0, 159) (0, 141) (0, 159) (0, 141)

Carro 33, 453 14, 178 0, 812 0, 814 0, 812 0, 814

(3, 089) (1, 513) (0, 099) (0, 097) (0, 099) (0, 097)

Futebol 19, 784 8, 486 0, 871 0, 842 0, 870 0, 842

(1, 750) (1, 245) (0, 155) (0, 135) (0, 155) (0, 135)

NASA 13, 693 5, 043 0, 859 0, 812 0, 859 0, 812

(1, 802) (1, 053) (0, 224) (0, 190) (0, 224) (0, 190)

µ(RKI : CA)× µ(RMI : CK +AL) 0, 98 0, 96 0, 99 0, 99 0, 98

µ(RLI : CA)× µ(RMI : CL+AK) 0, 99 0, 99 0, 99 0, 99 0, 98

µ(RLI : CA)× µ(RMI : CK +AL) 1 1 1 1 1

Tabela 4.12 apresenta os resultados do MMRE referente ao cenario 8 que assume

forma nao linear entre a variavel resposta e preditoras para centro e amplitude, respecti-

vamente, da variavel resposta intervalar.

Entre os modelos baseados na informacao do centro e da amplitude, o modelo RKI:CA

e a melhor opcao e o modelo RMI:CK+AL e a pior alternativa. Essa afirmativa e confir-

mada atraves dos testes de hipoteses observados na Tabela 4.13.

Tabela 4.12 Media e Desvio Padrao (em parentesis) do MMRE assumindo relacao nao linear

para centro e amplitude, respectivamente, da variavel resposta intervalar.

Conjunto Metodos baseados no Centro Metodos baseados no Centro e na Amplitude

Cardiologia 57, 033 12, 600 0, 615 0, 423 0, 605 1, 356

(21, 468) (0, 098) (0, 406) (0, 194) (0, 398) (0, 715)

Cogumelo 26, 465 5, 268 0, 844 0, 546 0, 835 1, 187

(10, 325) (0, 117) (0, 512) (0, 335) (0, 519) (0, 657)

Carro 54, 438 7, 429 0, 698 0, 400 0, 695 0, 976

(15, 260) (0, 130) (0, 483) (0, 223) (0, 484) (0, 663)

Futebol 17, 602 4, 847 0, 774 0, 573 0, 755 1, 243

(7, 368) (0, 115) (0, 581) (0, 470) (0, 578) (0, 595)

NASA 14, 086 3, 130 0, 900 0, 455 0, 791 1, 074

(5, 414) (0, 134) (0, 350) (0, 267) (0, 438) (0, 392)

µ(RLI : CA)× µ(RMI : CL+AK) 0, 99 0, 98 0, 96 0, 99 0, 92

µ(RLI : CA)× µ(RMI : CK +AL) 4, 18x10−2 3, 59x10−2 2, 88x10−2 4, 70x10−2 2, 78x10−2

4.5 COMPARACAO ENTRE OS METODOS PROPOSTOS 97

4.5 COMPARACAO ENTRE OS METODOS PROPOSTOS

Esta secao consiste em comparar os cinco metodos de regressao propostos neste Tese para

dados simbolicos do tipo intervalo, a fim de verificar qual modelo melhor se adapta para

os problemas apresentados. Na Tabela 4.5 apresenta os valor doMMRE para o conjunto

de dados reais intervalar para os metodos propostos. De acordo com esses resultados,

algumas observacoes sao consideradas:

1. O modelo baseado na regressao de kernel para os conjuntos de dados Cogumelo,

Carro e NASA apresentam melhor desempenho, pois esses dados intervalares foram

bem modelados atraves de uma relacao nao parametrica entre as variaveis explica-

tivas e a variavel resposta. O metodo de regressao RKI : CA deve ser preferido,

pois nao a suposicao matematica de que o limite superior seja menor que o limite

inferir.

2. O modelo baseado na regressao robusta para os conjuntos Cardiologia e Futebol

apresentam o melhor desempenho, visto que essss dados intervalares foram bem

modelados atravaes de uma relacao parametrica entre as variaveis explicativas e

variavel resposta, alem de conter dados outliers favorecendo a utilizacao do metodo

de regressao RRI que e um metodo menos suceptıvel aos outliers.

Tabela 4.14 Media e Desvio Padrao (em parentesis) do MMRE para conjunto de dados reais

intervalar considerando os metodos de Centro de Amplitude.

Conjuntos de Metodos baseados no Centro e Amplitude

Dados RLI:CARKI:CARMI:CL+AKRMI:CK+AL RRI

Cardiologia 0, 180 0, 175 0, 179 0, 176 0, 1454

(0, 108) (0, 107) (0, 108) (0, 108) (0, 1062)

Cogumelo 0, 139 0, 134 0, 143 0, 136 0, 1919

(0, 076) (0, 087) (0, 073) (0, 083) (0, 1404)

Carro 0, 071 0, 065 0, 071 0, 066 0, 3862

(0, 048) (0, 081) (0, 051) (0, 065) (0, 3663)

Futebol 0, 172 0, 188 0, 188 0, 166 0, 02161

(0, 112) (0, 124) (0, 117) (0, 113) (0, 0162)

NASA 0, 208 0, 176 0, 220 0, 169 0, 4623

(0, 173) (0, 171) (0, 171) (0, 171) (0, 3528)

Portanto, quando os problemas reais apresentam uma nuvem de intervalos formando

uma relacao parametrica entre as variaveis explicativas e a variavel resposta na presencao

de outliers, o modelo indicado e RRI. Caso, essa nuvem de intervalos forma uma relacao

nao parametrica entre as variaveis explicativas e a variavel resposta os modelos que uti-

lizam regressao com kernel sao indicados.

4.6 CONSIDERACOES FINAIS

Neste trabalho, os modelos regressao kernel e os modelos de mistura de regressao usando

funcoes lineares e kernel para conjunto de dados do tipo intervalo sao introduzidos. Estes

modelos sao construıdos baseados nos dados de centro e nos dados de centro e amplitude

das variaveis intervalares. O desempenho dos modelos e avaliado atraves da magnitude

media do erro relativo para intervalos proposta neste trabalho. As escolhas para realizacao

dos experimentos, como por exemplo, o tipo de kernel, a condicao de parada dos algorit-

mos sao utilizadas em artigos de simulacao com kernel em [Gonen e Alpaydin, (2010)] e

[Wang et. al, (2006)].

Experimentos baseados na simulacao Monte Carlo em relacao a varios cenarios de

conjuntos de dados foram simulados com e sem ruıdos. Aplicacoes com dados reais de-

monstram a robustez dos modelos propostos em comparacao com outros modelos de

regressao linear para os dados do tipo intervalo que usam o metodo dos mınimos quadra-

dos. Assim, a regressao kernel prove um metodo versatil para explorar a relacao entre

as variaveis intervalares, alem de fornecer boas predicoes para dados intervalares sem

utilizar um modelo com parametros fixos.

No entanto, na abordagem parametrica e possıvel especificar-se uma famılia de formas

funcionais para m de maneira errada. Este problema, possivelmente desastroso para a

abordagem parametrica, inexiste no enfoque nao-parametrico. Alem disso, a adocao de

abordagens flexıveis para a estimacao de m pode levar a descoberta de caracterısticas

consideradas insuspeitas quando da adocao de um modelo parametrico. Por esta razao, e

de interesse explorar o que se pode aprender sobre a funcao m sem restringi-la a modelos

estabelecidos a priori.

O objetivo da regressao nao-parametrica e aproximar m, que pode pertencer a uma

classe bastante vasta, sendo a unica restricao imposta de que seja uma funcao continua-

mente diferenciavel ate determinada ordem. Cabe comentar, no entanto, que existe um

preco a pagar pela flexibilidade da modelagem nao-parametrica. O tamanho da amos-

tra para conseguir-se a mesma eficiencia sera maior no caso nao-parametrico do que no

parametrico, quando o modelo parametrico especificado for correto, devido as taxas de

convergencia dos estimadores nao-parametricos serem mais lentas do que a dos estima-

dores parametricos.

CAPITULO 5

CONCLUSOES

Este capıtulo apresenta as principais contribuicoes produzidas durante os quatro anos de

pesquisa para o desenvolvimento desta Tese de doutorado e a comparacao entre eles. Os

principais resultados foram compilados em artigos e publicados em conferencias nacio-

nais e internacionais. Um artigo referente aos resultados apresentados no Capıtulo 3 foi

publicado no periodico Engineering Applications of Artificial Intelligence. Os resultados

do Capıtulo 4 foram publicados na Neurocomputing. Por fim, serao descritos os trabalhos

que poderao dar seguimento ao que foi proposto nesta Tese.

5.1 CONSIDERACOES

Neste trabalho apresentam-se novos metodos para ajustar um modelo de regressao linear

utillizando metodos parametricos e nao parametricos para dados simbolicos do tipo in-

tervalo. As duas abordagens propostas foram: metodo regressao robusta e metodo de

regressao baseada em kernel.

A primeira abordagem e um metodo que tolera a presenca de dados atıpicos (outli-

ers). Esta tecnica foi desenvolvida como uma alternativa para estimativa do metodo dos

mınimos quadrados na presenca de outliers.

A segunda abordagem e um metodo que pode se constituir como uma alternativa

viavel quando as suposicoes acerca da distribuicao dos erros e/ou da forma funcional dos

modelos parametricos nao se verificarem.

A avaliacao dos metodos propostos baseou-se na estimativa do comportamento da

magnitude media do erro relativo utilizando simulacao Monte Carlo atraves do metodo

hold out para dados simbolicos simulados e o metodo leave one out para dados simbolicos

reais. Com isso, observou-se que houve uma melhoria na previsao dos limites dos interva-

los, em relacao ao metodo posposto por [Lima Neto e De Carvalho, (2008)]. Alem disso,

destacam-se os seguintes pontos identificados na fase experimental:

5.1 CONSIDERACOES 101

5.1.1 Comparacao entre os metodos

A seguir propoe-se uma comparacao entre os metodos, pois para cada cenarios apresen-

tado indica-se um modelo que melhor se adapta a realidade dos dados. Assim, quando os

dados da amplitude nao precisa ser modelado, foram apresentados dois modelos: RLI : C

e RKI : C, as seguintes observacoes sao elencadas:

O modelo RLI : C proposto por [Billard e Diday, (2000)] deve ser indicado quando

existir uma relacao parametrica entre a variavel explicativa e variavel reposta.

o modelo RKI : C proposto nesta Tese deve ser preferido quando existir uma

relacao nao parametrica entre a variavel explicativa e variavel resposta, ou quando

existir um relacao parametrica entre essas variaveis e alem disso a presenca de

outliers ou ruıdos, pois apresenta melhor desempenho para modelar esses dados;

Com a inclusao da modelagem de informacoes da amplitude, o metodo RLI : CA

proposto por [Lima Neto e De Carvalho, (2008)] apresenta uma melhoria na predicao do

modelo em relacao ao metodo RLI : C. Com isso, descreve-se sobre as caracterısticas

dos modelos consideram o centro e amplitude das informacoes dos intervalos, sao elas:

O modelo RRI e indicado quando existe uma relacao parametrica entre as variaveis

explicativas e a variavel resposta na presenca de outlier intervalar no conjunto de

dados.

O modelo RKI : CA e indicado quando existe uma relacao nao parametrica entre

as variaveis explicativas e a variavel resposta com ou sem ruıdos no conjunto de

dados intervalar. Alem de garantir a coerencia matematica de que o limite superior

e maior que o limite inferior.

o modelo de mistura RMI : CL+ AK e RMI : CK + AL foram proposto, pois o

custo computacional dos metodos que utilizam kernel sao maiores. As taxas de con-

vergencia dos estimadores nao parametricos sao mais lentas do que os estimadores

parameticos.

O modelo de mistura RMI : CL+AK deve ser indicado quando existir uma relacao

parametrica que modela as informacoes do centro dos intervalos e um relacao nao

parametrica qaundo modelo as informacao da amplitude dos intervalos do conjunto

de dados. Alem de garantir a coerencia matematica de que o limite superior seja

maior que o limite inferior.

5.1 CONSIDERACOES 102

O modelo de mistura RMI : CK+AL deve ser indicado quando existir uma relacao

nao parametrica que modela as informacoes do centro dos intervalos e um relacao

parametrica qaundo modelo as informacao da amplitude dos intervalos do conjunto

de dados.

Em relacao aos metodos propostos as seguintes informacoes foram concluıdas:

1. O metodo de regressao linear robusta para dados simbolicos do tipo intervalo de-

monstrou robustez em comparacao com um modelo de regressao linear para dados

simbolicos intervalares que usam a abordagem do metodo dos mınimos quadra-

dos, para diferentes tipos de outliers intervalares (no centro e/ou na amplitude dos

intervalos);

2. A analise dos resıduos intervalares baseados em tecnicas de diagnostico dos resıduos

studentizados e dos graficos, considerando os intervalos gerados pelo metodo de

regressao robusta para dados simbolicos do tipo intervalo;

3. O modelo regressao kernel para conjunto de dados do tipo intervalo introduzido

e uma alternativa quando nao precisa usar parametro fixo para o modelo, como

tambem, forneceu boas predicoes para dados intervalares;

4. Os modelos mistura de regressao usando funcoes lineares e funcoes de kernel, os

modelos RMI : CL+ AK e RKI : CA devem ser preferidos, uma vez que as suas

estimativas de intervalos nao violam a suposicao de que o limite superior e maior

do que o limite inferior de cada intervalo estimado;

5. Assim, nos modelos de mistura de regressao quando os dados da amplitude sao

necessarios para a predicao dos intervalos. Estes dados podem ser modelados por

qualquer funcao.

Em parceria com um aluno de iniciacao cientıfica, foi desenvolvida uma biblioteca

para manipular dados simbolicos do tipo intervalo. A ideia desse pacote foi a construcao

de operacoes que manipulem dados simbolicos do tipo intervalo. Esse pacote ISDA.R

engloba as seguintes funcoes:

Estatıstica descritiva: media, variancia, desvio padrao e moda;

Transformacoes de dados classicos para dados simbolicos do tipo intervalo atraves

dos valores mınimo e maximo;

5.2 PUBLICACOES 103

Tecnicas de visualizacao: histograma e grafico em 3D;

Modelo de regressao linear atraves da utilizacao do metodo do mınimo e maximo.

Atualmente, esse pacote (ISDA.R) encontra-se disponıvel gratuitamente no repo-

sitorio oficial da linguagem R-Cran [ISDA.R, (2012)].

5.2 PUBLICACOES

Esta secao divide-se em tres etapas de publicacao decorrentes dos metodos propostos no

decorrer da construcao desta Tese. A primeira elenca os artigos que foram apresentados

e publicados em conferencias. A segunda enumera os artigos que foram publicados em

periodicos (revistas) internacionais.

A primeira etapa apresenta os congressos nacionais e internacionais em que foram

apresentados artigos decorrentes dos metodos propostos neste trabalho:

1. Fagundes, R.A.A. ; de Souza, R.M.C.R. ; Cysneiros, F.J.A. A Robust Prediction

Method for Interval Symbolic Data. In: International Conference on Intelligent

Systems Design and Applications, 2009, Pisa. Proceedings of the International

Conference on Intelligent Systems Design and Applications ISDA’09, 2009. p. 1019-

2. Fagundes, R.A.A. ; de Souza, R.M.C.R. ; Cysneiros, F.J.A. . A Kernel Regression

Method using Interval Data: An Application to Estimate of Software Size. In: XX

Simposio Nacional de Probabilidade e Estatıstica, SINAPE 2012, Joao Pessoa-PB.

Resumos. 2012. 30-3 Agosto.

3. Fagundes, R.A.A. ; de Souza, R.M.C.R. ; Cysneiros, F.J.A. . A Robust Regression

Method for Large Data Sets using a Symbolic Approach. In: XII Escola de Modelos

de Regressao, 2011, Fortaleza-CE. Resumos. Sao Paulo: Associacao Brasileira de

Estatıstica, 2011. v. 1. p. 10-10

4. Cysneiros, F.J.A. ; Fagundes, R.A.A. ; de Souza, R.M.C.R. . A Symbolic Robust

Regression Model. In: IWSM 2011 - 26th International Workshop on Statisti-

cal Modelling, 2011, Valencia - Espanha. Proceedings of the 26th International

Workshop on Statistical Modelling, 2011. p. 160-163.

5. Fagundes, R.A.A. ; Souza, R. M. C. R. . Software Defect Estimation using Support

Vector Regression. In: 2010 International Conference on Software Engineering and

5.3 TRABALHOS FUTUROS 104

Knowledge Engineering (SEKE, 2010, Sao Francisco - California. Proceedings of

the International Conference on Software Engineering and Knowledge Engineering.

Sao Francisco: IEEE, 2010. p. 265-268.

6. Leal, L. Q. ; Fagundes, R.A.A. ; Souza, R. M. C. R. ; Moura, H. P. ; Gusmao,

C. M. . Nearest-Neighborhood Linear Regression in an Application with Software

Effort Estimation. In: 2009 IEEE International Conference on Systems, Man, and

Cybernetics, 2009, San Antonio Texas, USA.. SMC Proceeding, 2009.

7. Fagundes, R.A.A. ; de Souza, R.M.C.R. Queiroz, R.F. e Cysneiros, F.J.A. An

Interval Nonparametric Regression Method. In: International Joint Conference on

Neural Networks, 2013.

A segunda enumera as revistas internacionais em que se encontra publicada os metodos

propostos nesta Tese:

1. Fagundes, R.A.A. ; de Souza, R.M.C.R. ; Cysneiros, F.J.A. Robust Regression

with Application to Symbolic Interval Data. Engineering Applications of Artificial

Intelligence, v. 26, p. 564-9, 2013.

2. Fagundes, R.A.A. ; de Souza, R.M.C.R. ; Cysneiros, F.J.A. Interval Kernel Regres-

sion. NeuroComputing, v. 128, p. 371-388, 2014.

5.3 TRABALHOS FUTUROS

Os conhecimentos obtidos atraves do desenvolvimento desta Tese podem ser consideravel-

mente ampliados a problemas de predicao atraves do uso dos modelos proposto dados do

tipo intervalo na presenca de outliers e ruıdos. A seguir serem elencados alguns trabalhos

futuros decorrente desta Tese.

1. Propor um metodo para otimizar a escolha da largura de banda(h) para utilizacao

dos metodos de regressao baseados em kernel;

2. Propor novos cenarios para a validacao experimental das solucoes propostas na tese,

inserindo novas medidas de dignostico;

3. Empregar e avaliar as tecnicas propostas nesta tese em outros tipos de dados

simbolicos, como os dados simbolicos do tipo histograma;

5.3 TRABALHOS FUTUROS 105

4. Avaliar o desempenho dos metodos propostos a partir da analise de resıduos oriun-

dos de modelos com outros tipos de regressao simbolica

5. Implementar cenarios para dados simbolicos cuja representacao intervalar utilize

variaveis com algum grau de dependencia;

6. A expansao do pacote ISDA.R para suportar outros metodos de data mining, como

por exemplo: clustering, medidas de dissimilaridade, outros metodos de regressao

e etc.

REFERENCIAS

[Arroyo et al., (2011)] ARROYO, J.; GONZAEZ-RIVERA, G.; MATE, C. e SAN RO-

QUE, A.M. Smoothing methods for histogram-valued time series: an application to

value-at-risk, Statistical Analysis and Data Mining, Wiley Online Library, 4, 2, 216-

228, 2011.

[Beaton e Tukey, (1974)] BEATON, A.E. e TUKEY, J.W. The fitting of power Series,

Meaning Polynomials, Illustrated on Band-Spectroscopic Data, Technometrics, 16,

147-185, 1974.

[Belson, (1959)] BELSON, W. A. Matching and prediction on the principle of biological

classification. Applied Statistics 8, 2(June 1959), 65-75.

[Bertrand e Goupil, (2000)] BERTRAND, P. e GOUPIL, F. Descriptive statistic for sym-

bolic data. In: Bock, H., Diday, E. Analysis of Symbolic Data: Exploratory Methods

for Extracting Statistical Information from Complex Data. Springer, Heidelberg, 106-

124, 2000.

[Bielak, (2000)] BIELAK, J. Improving size estimates using historical data, 27-35, 2000.

[Billard e Diday, (2000)] BILLIARD, L. e DIDAY, E. Regression Analysis for Interval-

Valued Data. In: Data Analysis, Classification and Related Methods: Proceedings

of the Seventh Conference of the International Federation of Classification Societies

(IFCS’00), Springer-Verlag, Belgium, 369-374, 2000.

[Billard e Diday, (2002)] BILLIARD, L. e DIDAY, E. Symbolic Regression Analysis. In:

Classification, Clustering and Data Analysis: Proceedings of the Eighenth Conference

of the International Federation of Classification Societies (IFCS’02), Springer, Poland,

281-288, 2002.

[Billard e Diday, (2003)] BILLIARD, L. e DIDAY E. From the statistics of data to the

statistics of knowledge: symbolic data analysis. Journal of the American Statistical

Association, Vol 98, 470-487, 2003.

REFERENCIAS 107

[Billard, (2004)] BILLIARD, L. Dependencies in bivariate interval-valued symbolic data,

Classification, Clustering, and Data Mining Applications, 319-324, 2004, Springer.

[Billard e Diday, (2006)] BILLIARD, L. e DIDAY, E. Symbolic Data Analysis: Concep-

tual Statistics and Data Mining, Wiley, West Sussex, England, 2006.

[Billiard e Xu, (2012)] BILLIARD, L. e XU, W. An Overview of Some Regression Models

for Interval-valued Symbolic Data. In: 3rd Workshop in Symbolic Data Analysis, 7-9

Novembro 2012, Madrid.

[Bock e Diday, (2000)] BOCK, H.H. e DIDAY, E. Analysis of Symbolic Data. Studies

in Classification. Data Analysis and Knowledge Organization. Springer, Heidelberg,

[Boente et al., (2007)] BOENTE, A. N. P.; OLIVEIRA, F. S. G. e ROSA, J. L. A. Uti-

lizacao de Ferramenta de KDD para Integracao de Aprendizagem e Tecnologia em

Busca da Gestao Estrategica do Conhecimento na Empresa. Anais do Simposio de

Excelencia em Gestao e Tecnologia, 1, 123-132, 2007.

[Braga et al., 2007] BRAGA, L. P.; OLIVEIRA, I. L. A.; RIBEIRO,T. H. G. e MEIRA,

L. R. S. Bagging Predictors for Estimation of software project effort. In Proceedings

of International Joint Conference on Neural Networks, Orlando, Florida, USA, 12-17,

[Bezerra e De Carvalho, (2004)] BEZERRA, B.L.D. e DE CARVALHO, F.A.T. A sym-

bolic approach for content-based information filtering. Information Processing Letters,

92, 45-52, 2004.

[China, (1998)] CISL: RDA Dataset Numbering System. http://dss.ucar.edu/datasets/.

Ultima visita em 01/05/2012.

[Carvalho et al., (2006)] CARVALHO, F. D.; BRITO, P. e BOCK, H. H. Dynamic Clus-

tering for Interval Data Based on L2 Distance. Computational Statistics (Zeitschrift),

2006, 231-250.

[Carvalho, (1995)] CARVALHO, F.D. Histograms in symbolic data analysis, Annals of

Operations Research, 55, 299-322, 1995, Springer.

[Carvalho et al., (2007)] CARVALHO, F. D.; PIMENTEL, J., BEZERRA, L. e SOUZA,

R.M.C.R. Clustering symbolic interval data based on a single adaptive Hausdorff

REFERENCIAS 108

distance. In IEEE International Conference on Systems, Man and Cybernetics (SMC),

451-455, 2007.

[De Carvalho et al., (2004)] DE CARVALHO F.A.T.; LIMA NETO, E.A. e TENORIO,

C.P. A new method to fit a linear regression model for interval-valued data. In Lec-

ture Notes in Computer Science, KI2004 Advances in Artificial Inteligence. Springer-

Verlag, 295-306, 2004.

[Costa et al., (2013)] COSTA, F.B.F. A.; PIMENTEL, A.B. e SOUZA, R.C.M.R. Clus-

tering interval data through kernel induced feature space. Journal Intelligent System,

40, 190-140, 2013.

[Almeida et al., (2013)] DANTAS, C.W.; SOUZA, R.C.M.R e CANDEIAS, A.L.B. Fuzzy

Kohonen clustering networks for interval data. Neurocomputing, 65-75 ,2103.

[Dias, (2011)] DIAS, R. Nonparametric Estimation: Smoothing andData Visualization.

Relatorio Tecnico. UNICAMP, 2011.

[De Carvalho e De Souza, (2010)] DE CARVALHO, F.A.T e DE SOUZA, R. M. C. R.

Unsupervised pattern recognition models for mixed feature-type symbolic data. Pat-

tern Recognition Letters, 31, 2010, 430-443.

[De Souza et. al., (2006)] SOUZA, R.M.C.R; CARVALHO, F. D. e PIZZATO, D. A Par-

titioning Method for Mixed Feature-Type Symbolic Data using a Squared Euclidean

Distance. 29th Annual German Conference on Artificial Intelligence (KI2006), 260 -

273, 2006.

[Diday, (1987)] DIDAY, E. The symbolic approach in clustering and related methods of

data analysis. In Classification and Related Methods of Data Analysis. North-Holland,

[Diday, (1988)] DIDAY, E. The symbolic approach in Clustering and related Methods of

data Analysis. Classification and Related methods of Data Analysis, In: Proceedings

of the first Conference of the Federation of the classification societies. North Holland,

[Diday, (1989)] DIDAY, E. Introduction a l’analyse des donnees symboliques, 1989.

[Diday, (1991)] DIDAY, E. Des objets de l’analyse des donnees a ceux de l’analyse des

connaissances, Induction Symbolique et Numerique a partir de donnees, Kodratoff Y.

et Diday E. Eds., CEPADUES, 1991.

REFERENCIAS 109

[Diday e Brito, (1989)] DIDAY, E. e BRITO, P. Symbolic Cluster Analysis. Spring-

Verlag, 1989, 45-84.

[Diday e Noirhomme-Fraiture, (2008)] DIDAY, E. e NOIRHOMME-FRAITURE, M.

Symbolic Data Analysis and the SODAS Software, Wiley, 2008.

[Domingues et al., (2010)] DOMINGUES, M.A.O.; SOUZA, R.M.C.R e CYSNEIROS,

F.J.A. A robust method for linear regression of symbolic interval data. Pattern Re-

cognition Letters, 31, 1991-1996, 2010.

[Fagundes et al. (2013)] FAGUNDES, R.A.A.; SOUZA, R.M.C.R. e CYSNEIROS,

F.J.A. Robust regression with application to symbolic interval data. Engineering Ap-

plications of Artificial Intelligence, 26, 1, 564-573, 2013.

[Fakhrahmad e Sami, (2009)] FAKHRAHMAD, S.M. e SAMI, A. Effective Estimation of

Modules Metrics in Software Defect Prediction Proceedings of the World Congress on

Engineering ,Vol. I, WCE, London, U.K, 2009.

[Gil et al., (2007)] GIL, A.M., GONZLEZ-RODRIGUEZ G. e MONTENEGRO M. Tes-

ting linear independence in linear models with interval-valued data, Computing Sta-

tistic and Data Analysis 51,2007,3002-3015.

[Gordon, (2000)] GORDON, A.D. An iteractive relocation algorithm for classifying sym-

bolic data. In: W. G. et al, editor, Data Analysis : Scientific Modeling and Practical

Application, Berlin, Springer-Verlag, 17-23, 2000.

[Huber, 1964] HUBER, P.J. Robust Estimation of a Location Parameter. In: Annals of

Mathematical Statistics 35, 73-101, 1964.

[Hardle (1994)] HARDLE, W. Applied Nonparametric Regression,Institut fur Statistik

und Okonometrie, Berlin, 1994.

[ISDA.R, (2012)] Interval Symbolic Data Analysis for R. http://cran.r-

project.org/web/packages/ISDA.R/index.html. Ultima visita 10/03/2013.

[Ichino et al., (1996)] ICHINO, M.; YAGUCHI, H. e DIDAY, E. A fuzzy symbolic pattern

classifer In:Ordinal and Symbolic Data Analysis. Springer, Berlin, 92- 102, 1996.

[Iwasaki e Tsubaki, (2005)] IWASAKI, M. e TSUBAKI, H. A new bivariate distribution

in natural exponential family, Metrika 61, 323-336, 2005.

REFERENCIAS 110

[Jiang et al., (2008)] JIANG Y.; CUKIC B. e MA Y. Techniques for evaluating fault

prediction models, Empirical Software Engineering Journal, 561-595, 2008.

[Lauro e Gioia, (2006)] LAURO, C. e GIOIA, F. Dependence and interdependence analy-

sis for interval-valued variables, Data Science and Classification, 171-183, 2006, Sprin-

[Leal et al., (2009)] LEAL,L.Q.; FAGUNDES R.A.A.; SOUZA, R.M.C.R.; GUSMAO,

C.M.G. e MOURA, H.P. Nearest-Neighborhood Linear Regression in an Application

with Software Effort Estimation, SMC, 2009.

[Lechevallier et al., (2008)] LECHEVALLIER, Y.; GOLLI, A. e HEBRAIL, G., 2008.

Improved Generation of Symbolic Objects from Relational Databases. In: Symbolic

Data Analysis and the SODAS Software.45-59. Wiley, West Sussex, England.

[Lima Neto e De Carvalho, (2008)] LIMA NETO, E.A. e DE CARVALHO, F.A.T. Cen-

tre and Range method for fitting a linear regression model to symbolic interval data.

Computational Statistics and Data Analysis, 52, 1500-1515, 2008.

[Lima Neto e De Carvalho, (2010)] LIMA NETO, E.A. e DE CARVALHO, F.A.T. Cons-

trained linear regression models for symbolic interval-valued variables. Computational

Statistics and Data Analysis, 54, 333-347, 2010.

[Lima Neto et al., (2011)] LIMA NETO, E.A.; CORDEIRO, G.M. e DE CARVALHO,

F.A.T. Bivariate Symbolic Regression Models for Interval-Valued Variables. Jounal

of Statistical Computation and Simulation, 81, 1727-1744, 2011.

[Lima Neto et al., (2005)] LIMA NETO, E.A.; DE CARVALHO F.A.T. e FREIRE, E.S.

Applying constrained linear aggression models to predict interval-valued data. In Lec-

ture Notes in Computer Science, KI: Advances in Artificial Inteligence (ed. U. Fur-

bach). Springer-Verlag, Brelin, 92-106, 2005.

[Le-Rademacher e Billiard, (2011)] LE-RADEMACHER, J. e BILLARD, L. Likelihood

functions and some maximum likelihood estimators for symbolic data, In: Journal of

Statistical Planning and Inference, 141, 4, 1593-1602, 2011, Elsevier.

[Maia et al., (2008)] MAIA, A.L.S.; DE CARVALHO, F.A.T. e LUDERMIR, T.B. Fore-

casting models for interval-valued time series. Neurocomputing, 71, 3344-3352, 2008.

REFERENCIAS 111

[Maia e De Carvalho, (2008)] MAIA, A.L.S. e DE CARVALHO, F.A.T. Fitting a Least

Absolute Deviation Regression Model on Interval-Valued Data, SBIA 2008, 207-216,

[Morgan e Sonquist, (1963)] MORGAN,J. N. e SONQUIST,J. A. Problem in the analysis

of survey data and proposal. 415-434, 1963.

[Michalski et al., (1981)] MICHALSKI, R. S.; STEEP, R. E. e DIDAY, E. A recent ad-

vances in data analysis: clustering objects in to classes characterized by conjunctive

concepts. In Progress Pattern Recognition. Kanal A. Rosendfeld, 1981, 33-46.

[Montgomery et al., (2006)] MONTGOMERY D.C.; PECK, E.A. e VINING,G. G. In-

troduction to Linear Regression Analysis, Wisley-Interscince, 2006.

[Montgomery e Ruger, (2003)] MONTGOMERY C. Douglas e RUNGER C. George. Es-

tatıstica Aplicada e Probabilidade para Engenheiros Quarta Edicao, Editora LTC,

[Noirhomme-Fraiture e Brito, (2011)] NOIRHOMME-FRAITURE, M. e BRITO, P. Far

beyond the classical data models: Symbolic data analysis. Statistical Analysis and

Data Mining, 4, 157-170, 2011.

[Oliveira, (2006)] OLIVEIRA, A.L.I. Estimation of software projects effort with support

vector regression. Neurocomputing, 69, 2006, 1749-1753.

[Huber e Ronchetti, (2009)] HUBER, J.P. e RONCHETTI, E.M. Robust Statistics. Se-

cond Edition, Wiley, 2009.

[Prudencio et al., (2004)] PRUDENCIO, R.B.C.; LUDERMIR, T.B. e DE CARVALHO,

F.A.T. A modal symbolic classifier for selectiong time series model. Pattern Recogni-

tion Letters, 25, 911-921, 2004.

[Rousseau e Leroy, (1987)] ROUSSEEUW, P.J. e LEROY, A.M. Robust Regression and

Outlier Detection. Wiley, USA, 1987.

[Russel e Norvig, (2003)] RUSSEL, S. J. e NORVIG, P. Artificial Inteligence: A modern

Approach. Pearson Education, 2003.

[Silva e Brito, (2006)] SILVA, A. P. D. e BRITO, P. Linear Discriminant Analysis for

Interval Data. Computational Statistics, 21, 2006, 289-308.

REFERENCIAS 112

[Sneath e Sokal, (1973)] SNEATH, P. e SOKAL, R.Numerical Taxonomy. The Principles

and Pratice of Numerical Classification. Freeman, 1973.

[Souza et al., (2011)] SOUZA, R.M.C.R.; QUEIROZ, D.C.F. e CYSNEIROS, F.J.A. Lo-

gistic Regression-Based Pattern Classifiers for Symbolic Logistic Regression-Based

Pattern Classifiers for Symbolic Interval Data 14, 273-282, 2011.

[Witten et. al, (2011)] WITTEN, I. H.; FRANK, E. e HALL, M. A. Data Mining: Prac-

tical Machine Learning Tools and Techniques, Third Edition, Editora: Morgan Kauf-

mann, 2011.

[Gonen e Alpaydin, (2010)] GONEN M. e ALPAYDIN E. Localized Multiple Kernel Re-

gression, International Conference on Pattern Recognition, 2010.

[Wang et. al, (2006)] WANG M.; HUA X.S; SONG Y.; DAI L.R. e ZHANG H.J. Semi-

Supervised Kernel Regression, Proceedings of the Sixth International Conference on

Data Mining, 2006.

APÊNDICE A 113

APÊNDICE A

Tabela 1 Conjunto de Dados: Cardiologia (Range dos intervalos do pulso, pressão

sistólica e pressão diastólica dos pacientes).

Pacientes Variáveis Simbólicas

Pulso Pressão Sistólica Pressão Diastólica

1 [58:90] [63:102] [63:102]

2 [47:68] [71:118] [71:118]

3 [32:114] [131:186] [58:113]

4 [61:110] [105:157] [62:118]

5 [62:89] [120:179] [59:94]

6 [63:119] [101:194] [48:116]

7 [51:95] [109:174] [60:119]

8 [49:78] [128:210] [76:125]

9 [43:67] [94:145] [47:104]

10 [55:102] [148:201] [88:130]

11 [64:107] [111:192] [52:96]

12 [54:84] [116:201] [74:133]

13 [47:95] [102:167] [39:84]

14 [56:90] [104:161] [55:98]

15 [44:108] [106:167] [45:95]

16 [63:109] [112:162] [62:116]

17 [62:95] [136:201] [67:122]

18 [48:107] [90:177] [52:104]

19 [26:109] [116:168] [58:109]

20 [61:108] [98:157] [50:111]

21 [54:78] [98:160] [47:108]

22 [53:103] [97:154] [60:107]

23 [47:86] [87:150] [47:86]

24 [70:132] [141:256] [77:158]

25 [63:115] [108:147] [62:107]

26 [47:83] [115:196] [65:117]

27 [56:103] [99:172] [42:86]

28 [71:121] [113:176] [57:95]

29 [68:91] [114:186] [46:103]

30 [62:100] [145:210] [100:136]

31 [52:78] [119:212] [47:93]

32 [55:84] [122:178] [73:105]

33 [61:101] [127:189] [74:125]

34 [65:92] [113:213] [52:112]

35 [38:66] [141:205] [69:133]

36 [48:73] [99:169] [53:109]

37 [59:98] [126:191] [60:98]

38 [59:87] [99:201] [55:121]

39 [49:82] [88:221] [37:94]

40 [48:77] [113:183] [55:85]

41 [56:133] [94:176] [56:121]

42 [37:75] [102:156] [50:94]

43 [61:94] [103:159] [52:95]

44 [44:110] [102:185] [63:118]

45 [46:83] [111:199] [57:113]

46 [52:98] [130:180] [64:121]

47 [56:84] [103:161] [55:97]

48 [54:92] [125:192] [59:101]

49 [53:120] [97:182] [54:104]

50 [49:88] [124:226] [57:101]

51 [75:124] [120:180] [59:90]

52 [58:99] [100:161] [54:104]

53 [59:78] [159:214] [99:127]

54 [55:89] [138:221] [70:118]

55 [55:80] [87:152] [50:95]

56 [70:105] [120:188] [53:105]

57 [40:80] [95:166] [54:100]

58 [56:97] [92:173] [45:107]

59 [37:86] [83:140] [45:91]

APÊNDICE A 114

Tabela 2 Conjunto de Dados: Carro Range dos intervalos do preço, motor e velocidade máxima do conjunto de dados carro.

Variáveis Simbólicas

Preço Motor Velocidade Máxima

1 [27806:33596] [1370:1910] [185:211]

2 [41593:62291] [1598:2492] [200:227]

3 [64499:88760] [1970:2959] [204:211]

4 [260500:460000] [5935:5935] [298:306]

5 [40230:68838] [1595:1781] [189:238]

6 [68216:140205] [1781:4172] [216:250]

7 [123849:171417] [2771:4172] [232:250]

8 [45407:76392] [1796:2979] [201:247]

9 [70292:198792] [2171:4398] [226:250]

10 [104892:276792] [2793:5397] [228:240]

11 [240292:391692] [3586:5474] [295:298]

12 [19229:30885] [1242:1910] [155:170]

13 [19242:24742] [1242:1753] [155:170]

14 [27492:34092] [1596:1753] [185:193]

15 [205242:215242] [2977:3179] [260:270]

16 [413000:423000] [5992:5992] [335:335]

17 [19837:29034] [1242:1242] [158:174]

18 [58806:81306] [1998:2959] [212:220]

19 [155000:159500] [3217:3217] [280:290]

20 [132800:262500] [2799:5987] [232:250]

21 [55902:115248] [1998:3199] [210:250]

22 [69243:389405] [1998:5439] [222:250]

23 [128202:394342] [3199:5786] [210:240]

24 [18492:24192] [998:1348] [150:164]

25 [19212:30612] [973:1796] [155:202]

26 [36492:49092] [1598:2171] [193:207]

27 [147704:246412] [3387:3600] [280:305]

28 [16992:23492] [1149:1149] [151:168]

29 [21492:33042] [1119:1994] [160:185]

30 [50490:65399] [1796:2497] [195:210]

31 [19519:32686] [1397:1896] [157:183]

32 [27419:48679] [1585:1896] [190:191]

33 [39676:63455] [1595:2496] [192:220]

APÊNDICE A 115

Tabela 3 Conjunto de Dados: Cogumelo Range dos intervalos do píleo, comprimento e espessura do estipe dos cogumelos do gênero Agricies.

Família Agricies

Largura Píleo

Comprimento Estipe

Espessura Estipe

1 [3.0:8.0] [4.0:9.0] [0.50:2.50]

2 [6.0:21.0] [4.0:14.0] [1.00:3.50]

3 [4.0:8.0] [5.0:11.0] [1.00:2.00]

4 [6.0:7.0] [4.0:7.0] [3.00:4.50]

5 [5.0:12.0] [2.0:5.0] [1.50:2.50]

6 [5.0:15.0] [4.0:10.0] [2.00:4.00]

7 [4.0:11.0] [3.0:7.0] [0.40:1.00]

8 [5.0:10.0] [3.0:6.0] [1.00:2.00]

9 [2.5:4.0] [3.0:5.0] [0.40:0.70]

10 [2.5:6.0] [1.5:3.5] [1.00:1.50]

11 [1.5:2.5] [3.0:6.0] [0.25:0.35]

12 [4.0:15.0] [4.0:15.0] [1.50:2.50]

13 [3.5:8.0] [4.0:10.0] [1.00:2.00]

14 [7.0:14.0] [8.0:14.0] [1.50:2.50]

15 [8.0:20.0] [9.0:19.0] [3.00:5.00]

16 [2.5:4.0] [2.5:4.5] [0.40:0.70]

17 [7.0:19.0] [8.0:15.0] [2.00:3.50]

18 [5.0:15.0] [6.0:15.0] [2.50:3.50]

19 [8.0:12.0] [6.0:12.0] [1.50:2.00]

20 [2.0:6.0] [3.0:7.0] [0.40:0.80]

21 [6.0:12.0] [6.0:12.0] [1.50:2.00]

22 [6.0:12.0] [6.0:16.0] [1.00:2.00]

23 [5.0:17.0] [4.0:14.0] [1.00:3.50]

APÊNDICE A 116

Tabela 4 Conjunto de Dados: Futebol Range dos intervalos do peso, altura e idade dos jogadores de futebol de times da França.

Jogadores de Futebol

Peso Altura Idade

A [58:85] [164:192] [21:35]

B [67:84] [171:190] [20:30]

C [65:88] [170:186] [18:36]

D [60:83] [162:188] [19:31]

E [60:84] [170:189] [18:34]

F [67:83] [173:190] [18:36]

G [69:90] [176:193] [19:34]

H [65:85] [170:193] [19:31]

I [63:84] [168:188] [18:34]

J [58:88] [167:197] [19:35]

K [62:86] [164:191] [18:34]

L [62:80] [168:189] [19:35]

M [63:85] [167:190] [18:31]

N [65:95] [168:196] [20:35]

O [63:83] [170:187] [18:35]

P [60:87] [170:197] [18:37]

Q [67:85] [168:190] [18:32]

R [62:83] [169:192] [18:35]

S [63:84] [172:192] [18:33]

T [63:85] [169:194] [20:34]

METODOS DE REGRESS´ AO ROBUSTA E˜ KERNEL ......Federal de Pernambuco, sob o título “Métodos de...

Documents

T-Kernel Specification (1.00.00) - tron.org · T-Kernel/OS.....? T-Kernel? • • • • 1

Kernel Oopsing

Uma Fundamentação para Sinais e Sistemas Intervalares · Uma Fundamentação para Sinais e Sistemas Intervalares Fabiana T. Santana Tese de Doutorado aprovada em 02 de dezembro

Kernel bootstrap

Kernel Indo

#DigitalAgriBusiness #Kernel

Kernel ext4

Kernel senlik2007

Cafe Robusta

Kernel vm13lt

Algoritmos para el problema de árbol de expansión mínima robusto con datos intervalares

Biendich Kernel

Linux Kernel Porting Overview - blu.org · Linux Kernel Porting Overview PART 1 ... Adding your own kernel module /* * hello.c An example kernel ... STACK off 0x00000000 vaddr 0x00000000

Uma Fundamentação Intervalar Aplicada à Morfologia Matemática · 5.4 Morfologia sobre imagens binárias intervalares ... 6.3.2 Dilatação e erosão para imagens intervalares

Bruno Quaresma Bastos Previsões Pontuais e Intervalares de

AGRUPAMENTO DE DADOS INTERVALARES ... - … · Agrupamento de dados Intervalares usando uma abordagem não linear Di sse rtação apresentada ao Programa de Pós - Graduação em

Windows Kernel, Kernel Driver-y · Kernel, Executive, Drivery • Windows kernel –jadro OS –časť Ntoskrnl.exe –nízkoúrovňové funkcie: thread scheduling, interrupt & exception

Windows kernel

ESTIMATOR KERNEL EPANECHNIKOV DAN KERNEL …etheses.uin-malang.ac.id/2895/1/11610008.pdf · estimator kernel epanechnikov dan kernel triangle pada data rata-rata bulanan bilangan

Linux Kernel