View
10
Download
0
Category
Preview:
Citation preview
Universidade Federal da Pernambuco
Centro de Informatica
Pos-graduacao em Ciencia da Computacao
METODOS DE REGRESSAO ROBUSTA E
KERNEL PARA DADOS INTERVALARES
Roberta Andrade de Araujo Fagundes
TESE DE DOUTORADO
Recife - PE
16 Dezembro 2013
Universidade Federal da Pernambuco
Centro de Informatica
Roberta Andrade de Araujo Fagundes
METODOS DE REGRESSAO ROBUSTA E KERNEL PARA
DADOS INTERVALARES
Trabalho apresentado ao Programa de Pos-graduacao em
Ciencia da Computacao do Centro de Informatica da Uni-
versidade Federal da Pernambuco como requisito do grau
de Doutor em Ciencia da Computacao.
Orientadora: Profa. Dra. Renata Maria Cardoso Rodri-
gues de Souza
Co-orientador: Prof. Dr. Francisco Jose de Azevedo Cys-
neiros
Recife - PE
16 Dezembro 2013
Catalogação na fonte Bibliotecária Monick Raquel Silvestre da Silva, CRB4-1217
Fagundes, Roberta Andrade de Araújo Métodos de regressão robusta e kernel para dados intervalares / Roberta Andrade de Araújo Fagundes. - Recife: O Autor, 2013. xv, 116 f.: il., fig., tab. Orientadora: Renata Maria Cardoso Rodrigues de Souza.
Tese (doutorado) - Universidade Federal de Pernambuco. CIn, Ciência da Computação, 2013. Inclui referências e apêndices. 1. Inteligência computacional. 2. Inteligência artificial. 3. Análise de dados simbólicos. 4. Aprendizado de máquina I. Souza, Renata Maria Cardoso Rodrigues de (orientadora). II. Título. 006.3 CDD (23. ed.) MEI2014 – 022
Tese de Doutorado apresentada por Roberta Andrade de Araújo Fagundes à Pós-
Graduação em Ciência da Computação do Centro de Informática da Universidade
Federal de Pernambuco, sob o título “Métodos de Regressão Robusta e Kernel para
Dados Intervalares” orientada pela Profa. Renata Maria Cardoso Rodrigues de
Souza, co-orientada pelo Prof. Francisco José de Azevedo Cysneiros e aprovada
pela Banca Examinadora formada pelos professores:
______________________________________________
Prof. Adriano Lorena Inacio Oliveira
Centro de Informática / UFPE
______________________________________________
Prof. Cleber Zanchettin
Centro de Informática / UFPE
_______________________________________________
Prof. Getúlio José Amorim Amaral
Departamento de Estatística / UFPE
_____________________________________________
Prof. Carmelo Jose Albanez Bastos Filho
Escola Politécnica / UPE
____________________________________________
Prof. Byron Leite Dantas Bezerra
Escola Politécnica / UPE
Visto e permitida a impressão.
Recife, 16 de dezembro de 2013.
___________________________________________________
Profa. Edna Natividade da Silva Barros Coordenadora da Pós-Graduação em Ciência da Computação do
Centro de Informática da Universidade Federal de Pernambuco.
A Deus que me concedeu o privilégio sagrado da vida e da condição humana.
iii
AGRADECIMENTOS
Qualquer realizacao humana, mesmo que individual, e sempre o resultado de um conjunto
diversificado de contextos, de instituicoes e, especialmente de pessoas. A seguir, elicitarei
algumas pessoas:
Primeiramente a Deus; por todos os propositos que tem reservado para minha vida.
A minha avo. Euridice Andrade de Niz; sem ela nada disso teria sido possıvel.
Aos meus pais; eles foram a referencia da minha vida e responsaveis pela formacao
do meu carater.
A minha filha e ao meu marido; presenca constante, compreensao maxima, com-
panheiros de todas as horas.
A minha tia Marli, A minha sogra, Aos meus irmaos, As minhas cunhadas,
Aos meus sobrinhos e sobrinha ; que sempre me apoiaram incondicionalmente, que
apostaram em mim para vencer mais uma etapa da vida.
Aos meus orientadores; as pessoas mais importantes para a realizacao deste tra-
balho. Atraves de uma orientacao pautada no companheirismo, na motivacao do aluno,
na presenca constante e na honestidade, a Dra. Renata Souza e o Dr. Francisco Cys-
neiros proporcionaram as condicoes ideais de pesquisa, como tambem, ajudaram a ter a
persistencia necessaria para a conclusao do trabalho.
Aos outros participantes da pesquisa; Agradeco a todos que participaram direta
ou indiretamente da pesquisa nos diversos experimentos realizados. Fica aqui minha
gratidao aos colegas do grupo de analise de dados simbolicos (Marco, Carlos, Arthur,
Diego, Elaine, Telmo, Anderson e Ricardo).
iv
"A genealidade é feita de 10% de talento e 90% de esforço."
---Thomas Alva Edison
V
RESUMO
O processo de descoberta de conhecimento tem o objetivo de extrair de informacoes uteis
(conhecimento) em bases de dados. As abordagens usadas na execucao do processo de
extracao do conhecimento sao genericas e derivadas das diferentes areas de conhecimento,
tais como da estatıstica, aprendizagem de maquina e banco de dados. A Analise de Dados
Simbolicos (ADS) [Bock e Diday, (2000)] e introduzida como abordagem na area de des-
coberta automatica de conhecimento que visa desenvolver metodos para dados descritos
por variaveis atraves de conjuntos de categorias, lista de valores, intervalos ou distribuicao
de probabilidade. Dentre as tecnicas estatısticas, os modelos de regressao procuram prever
o comportamento da variavel resposta (dependente) a partir de informacoes provenientes
do conjunto de variaveis preditoras (independentes). O objetivo deste trabalho e propor
duas metodologias para analise de dados intervalares. A primeira metodologia aborda o
metodo robusto em regressao, que e uma alternativa para o uso do metodo dos mınimos
quadrados quando os dados contem outliers. Enquanto a segunda aborda regressao por
kernel, que e um metodo que prover uma relacao nao parametrica entre as variaveis, sem
utilizar um modelo com parametros fixos, mas as taxas de convergencias dos estimadores
nao parametricos sao mais lentas do que a dos estimadores parametricos. Experimentos
com conjuntos de dados simulados e aplicacoes com conjuntos de dados reais intervalares
indicam a funcionalidade e eficiencia dos metodos propostos.
Palavras-chave: Regressao Robusta. Regressao Kernel. Analise de Dados Simbolicos.
Dados simbolicos do tipo intervalo.
vi
ABSTRACT
The process of knowledge discovery is aimed at extracting useful information (knowledge)
in databases. The approaches used in the implementation of the knowledge extraction
process are generic and derived from different knowledge areas such as statistics, ma-
chine learning and database. The Symbolic Data Analysis (ADS) [Bock e Diday, (2000)]
is introduced as an approach in the field of automatic knowledge discovery aimed at de-
veloping methods for data described by sets of variables across categories, list of values,
ranges or probability distribution. Among the statistical techniques, regression models
seek to predict the behavior of the response variable (dependent) from information from
the set of (independent) predictors. The objective of this work is to propose two metho-
dologies for analysis of interval data. The first methodology addresses the robust method
in regression, which is an alternative to the use of the method of least squares when the
data contain outliers. While the second deals with kernel regression, which is a method to
provide a non-parametric relationship between the variables, without using a model with
fixed parameters, but the rates of convergence of nonparametric estimators are slower
than the parametric estimators. Experiments with simulated data sets and applicati-
ons with real data sets indicate intervallic functionality and efficiency of the proposed
methods.
Keywords: Robust Regression. Kernel Regression. Simbolic Data Analysis. Simbolic
Date of the interval
vii
LISTA DE FIGURAS
2.1 Histograma para dados intervalares. . . . . . . . . . . . . . . . . . . . . . 19
3.1 Funcao de Tukey’s Biweight. . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2 Cenario 1.: Alta variabilidade na parte superior do centro dos hipercubos. 43
3.3 Cenario 2.:Alta variabilidade na parte superior e inferior do centro dos
hipercubos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4 Cenario 3.: Alta variabilidade na parte superior da amplitude dos hipercubos. 44
3.5 Cenario 4.:Alta variabilidade no centro e na amplitude dos hipercubos
conjuntamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.6 Cenario 5.:Alta variabilidade n centro e na amplitude dos hipercubos se-
paradamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.7 Grafico 3D: Pressao Sistolica (X), Pressao Diastolica (Z) e Taxa Pulso (Y ). 50
3.8 (a) Centro e (b) Amplitude do conjunto de dados intervalar Cardiologia. 51
3.9 Grafico 3D: Cilindrada do Motor (X), Velocidade Maxima (Z) e Preco (Y ). 51
3.10 (a) Centro e (b) Amplitude do conjunto de dados intervalar Carro. . . . . 52
3.11 Grafico 3D: Largura do Pıleo (Y ), Comprimento do Stipe (X) e Espessura
do Stipe(Z). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.12 (a) Centro e (b) Amplitude do conjunto de dados intervalar Cogumelo. . 53
3.13 Grafico 3D: Altura (X), Idade (Z) e Peso (Y ). . . . . . . . . . . . . . . . 54
3.14 (a) Centro e (b) Amplitude do conjunto de dados intervalar futebol. . . . 54
3.15 Grafico 3D: Numero de Operandos (X), Numero de Operadores (Z) e
Tamanho do Software (Y ). . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.16 (a) Centro e (b) Amplitude do conjunto de dados intervalar dos Projetos
da Nasa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.17 Grafico Residual Intervalar dos conjuntos de dados simbolicos reais. . . . 59
4.1 Y Estimado versus Y Real baseado no metodo RKI:CA. . . . . . . . . . 77
4.2 Y Estimado versus Y Real baseado no metodo RMI:CK+AL. . . . . . . . 77
4.3 Cenario 1.:Relacoes nao linear para o centro e aleatoria para amplitude. 82
viii
LISTA DE FIGURAS
4.4 Cenário 2.: Relação não linear para o centro relação linear para amplitude. . . . . . .83
4.5 Cenário 3.: Relação não linear para o centro e a amplitude. . . . . . . . . . . . . . . . . . . 83
4.6 Cenário 4.: Relação não linear para o centro e aleatória para amplitude na
presença de ruídos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .84
4.7 Cenário 5.: Relação não linear para o centro e linear para amplitude na
presença de ruídos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .84
4.8 Cenário 6.: Relações não linear para o centro e amplitude na presença de
ruídos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
ix
LISTA DE TABELAS
1.1 Projetos de software do repositorio da NASA para estimacao de software
descritos por dados simbolicos do tipo intervalo. . . . . . . . . . . . . . . 4
2.1 Temperaturas mınimas e maxima registradas na China. . . . . . . . . . . 8
2.2 Parte dos modulos de software do projeto 1. . . . . . . . . . . . . . . . . 12
3.1 Media e Desvio Padrao (entre parentesis) do MMRE para os metodos
RRI e RLI nos cenarios 1 e 2. . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2 Media e Desvio Padrao (entre parenteses) do MMRE para os metodos
RRI e RLI nos cenarios 3, 4 e 5. . . . . . . . . . . . . . . . . . . . . . . 48
3.3 Comparacao entre modelos de regressao de acordo com o ganho relativo
(%) do MMRE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4 Media e Desvio Padrao (entre parenteses) do MMRE para os metodos de
regressao (RRI e RLI). . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.5 Comparacao entre os modelos (RRI) e (RLI). . . . . . . . . . . . . . . . 58
4.1 Media e Desvio Padrao (em parentesis) doMMRE para conjunto de dados
reais intervalar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2 Teste de Wilcoxon: p-value . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.3 Media e Desvio Padrao (em parentesis) do MMRE para cenarios (1, 2 e
3) sem ruıdos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.4 Teste de Wilcoxon: p-value . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.5 Media e Desvio Padrao (em parentesis) do MMRE para cenarios (4, 5 e
6) com ruıdos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.6 Teste de Wilcoxon: p-value . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.7 Comparacao entre modelos regressao de acordo com o ganho relativo (%)
do MMRE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.8 Media e Desvio Padrao (em parentesis) do MMRE assumindo relacao
linear para centro e amplitude, respectivamente, da variavel resposta in-
tervalar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
x
LISTA DE TABELAS
4.9 Teste de Wilcoxon: p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.10 Média e Desvio Padrão (em parêntesis) do MMRE assumindo uma forma
arbitrária para amplitude e uma relação linear para o centro da variável
resposta intervalar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .94
4.11 Teste de Wilcoxon: p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.12 Média e Desvio Padrão (em parêntesis) do MMRE assumindo uma relação
não linear para centro e amplitude, respectivamente, da variável resposta
intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .96
4.13 Teste de Wilcoxon: p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .96
4.14 Média e Desvio Padrão (em parêntesis) do MMRE para o conjunto de dados
reais intervalar considerando os métodos de Centro e Amplitude. . . . . . . . . . . . . . 97
1. Conjunto de Dados: Cardiologia (Range dos intervalos do pulso, pressão
sistólica e pressão diastólica dos pacientes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
2. Conjunto de Dados: Carro (Range dos intervalos do preço, motor e
velocidade máxima do conjunto de dados carro) . . . . . . . . . . . . . . . . . . . . . . . . . 115
3. Conjunto de Dados: Cogumelo (Range dos intervalos do píleo,
comprimento e espessura do estipe dos cogumelos do gênero Agricies . . . . . . . . 116
4. Conjunto de Dados: Futebol (Range dos intervalos do peso, altura e idade
dos jogadores de futebol de times da França) . . . . . . . . . . . . . . . . . . . . . . . . . . . .117
xi
LISTA DE ACRÔNIMOS
ADS Análise de Dados Simbólicos
KDD Knowledge Discovery in Databases
AID Automatic Interation Detector
KNN Kernel Nearest Neighbor
MRLC modelo de regressão linear clássico
NO número de operadores
NOR número de operandos
NL número de linhas de código
inf inferior
sup superior
MLG modelos lineares generalizados
MBRS modelos bivariados de regressão simbólicos
RRI regressão robusta intervalar
RLI regressão linear intervalar
GR ganho relativo
MMRE magnitude do erro médio relativo
RKI:C Regressão Kernel Intervalar baseado na informação do centro
RKI:CA Regressão Kernel Intervalar baseado na informação do centro e da amplitude
RMI:CL+AK Mistura de Regressão Intervalar: Centro Linear + Amplitude Kernel
RMI:CK+AL Mistura de Regressão Intervalar: Centro Kernel + Amplitude Linear
RLI:C modelo linear baseado na informação do centro
RLI:CA modelo linear baseado na informação do centro e da amplitude
xii
SUMARIO
Capıtulo 1—INTRODUCAO 1
1.1 Motivacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Organizacao da Tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Capıtulo 2—FUNDAMENTACAO TEORICA 7
2.1 Historico da Analise de Dados Simbolicos . . . . . . . . . . . . . . . . . . 7
2.1.1 Classificacao Nao Supervisionada, Classificacao Supervisionada e
Funcoes de Proximidade . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.2 Regressao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Dados Simbolicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Variavel simbolica do tipo modal . . . . . . . . . . . . . . . . . . 13
2.2.2 Variavel simbolica do tipo nao modal . . . . . . . . . . . . . . . . 13
2.3 Estatıstica Descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Metodos de Regressao Simbolica sem Suposicao de Distribuicao para os erros 19
2.4.1 Metodo do centro . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4.2 Metodo do mınimo e maximo . . . . . . . . . . . . . . . . . . . . 21
2.4.3 Metodo do centro e da amplitude . . . . . . . . . . . . . . . . . . 23
2.4.4 Metodos com Restricoes . . . . . . . . . . . . . . . . . . . . . . . 25
2.5 Metodos de Regressao Simbolica com Distribuicao para os erros . . . . . 26
2.5.1 Modelo Simetrico . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5.2 Modelo Bivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5.3 Modelo Logıstico . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6 Comentarios finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Capıtulo 3—REGRESSAO ROBUSTA PARA DADOS SIMBOLICOS DO TIPO
INTERVALO 31
xiii
SUMÁRIO
3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2 Construção do Modelo e Regra de Predição. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .32
3.3 Definição de outlier simbólico do tipo intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.1 Definição de outlier intervalar no centro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .37
3.3.2 Definição de outlier intervalar na amplitude. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .37
3.3.3 Definição de outlier intervalar no centro e na amplitude. . . . . . . . . . . . . . . . . . . . . . . . . . .37
3.4 Experimentos com Simulação Monte Carlo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4.1 Simulação Monte Carlo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .38
3.4.2 Análise de Desempenho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .46
3.5 Aplicação Dados Reais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .49
3.5.1 Conjunto de Dados: Cardiologia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .49
3.5.2 Conjunto de Dados: Carro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .51
3.5.3 Conjunto de Dados: Cogumelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .52
3.5.4 Conjunto de Dados: Futebol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .54
3.5.5 Conjunto de Dados: NASA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .55
3.6 Análise dos Resultados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.6.1 Análise Gráfica dos Resíduos Intervalares. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.7 Considerações Finais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .61
Capítulo 4 — REGRESSÃO KERNEL PARA DADOS SIMBÓLICOS DO TIPO
INTERVALO 62
4.1 Introdução. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .62
4.2 Regressão Kernel Simbólica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .63
4.2.1 Regressão Kernel Intervalar baseado na informação do centro (RKI:C) . . . . . . . . . 64
4.2.1.1 Representação dos Intervalos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.1.2 Modelando a relação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.2 Regressão Kernel Intervalar baseado na informação do centro e da amplitude
(RKI:CA) . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .66
4.2.2.1 Representando intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2.2.2 Modelando a relação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2.3 Mistura de Regressão Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
xiv
SUMÁRIO
4.2.3.1 Mistura de Regressão Intervalar: Centro Linear + Amplitude
Kernel (RMI:CL+AK) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.3.2 Mistura de Regressão Intervalar: Centro Kernel + Amplitude
Linear (RMI:CK+AL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .72
4.3 Aplicação dos modelos com dados reais do tipo intervalo. . . . . . . . . . . . . . . . . . . . . . . 73
4.3.1 Resultados e diagnósticos dos modelos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.4 Avaliação Experimental. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .78
4.4.1 Simulação Monte Carlo: Caso A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .78
4.4.2 Avaliação de desempenho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .85
4.4.3 Simulação Monte Carlo: Caso B. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .90
4.5 Comparação entre os métodos propostos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.6 Considerações Finais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
Capítulo 5 — CONCLUSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.1 Considerações. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.1.1 Comparação entre os métodos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .101
5.2 Publicações.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.3 Trabalhos Futuros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .104
REFERÊNCIAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .106
APÊNDICE A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
xv
CAPITULO 1
INTRODUCAO
Este capıtulo fundamenta a utilizacao da analise de dados simbolicos, expoe os objetivos
em relacao ao trabalho proposto e por fim, descreve a organizacao dos demais capıtulos.
1.1 MOTIVACAO
Recentemente mais operacoes ou processos sao automatizados, ou seja, para cada nova
transacao como compras pela internet, operacoes bancarias, entre outras, todos esses
registros sao armazenados em enormes bases de dados. Entretanto, apesar do poder
de processamento dos computadores atuais, o esforco computacional necessario para a
manipulacao de grandes conjuntos de dados ainda e um problema.
O problema de extracao de informacao tem atraıdo um interesse amplo em varias
comunidades de pesquisa, e tem sido conduzido por uma variedade de aplicacoes. Muitas
aplicacoes envolvem cada vez mais uma grande quantidade de dados estruturados. A
modelagem e descoberta de conhecimento para esses dados exigem tecnicas de aprendizado
de maquina, bem como formalismos para a extracao de informacao.
Como o ambiente esta em constante mudanca, tornam-se necessarias novas tecnicas
(ou ferramentas) que suportem a extracao de conhecimento util a partir de volumes
crescentes de dados. Essas tecnicas denominam-se descoberta de conhecimento em bases
de dados (Knowledge Discovery in Databases (KDD)). Essa area de pesquisa esta em
bastante evidencia e visa desenvolver meios automaticos para descobrir conhecimento em
grandes base de dados.
As tecnicas de KDD incluem: (i) estruturacao de banco de dados; (ii) selecao de
variaveis; (iii) preprocessamento, transformacao e reducao de dados; (iv) mineracao de
dados; (v) analise, avaliacao e interpretacao dos resultados e (vi) utilizacao do conhe-
cimento extraıdo. Segundo [Boente et al., (2007)] o processo de descoberta de conheci-
mento possui tres etapas importantes: pre-processamento, mineracao de dados e pos-
processamento.
No pre-processamento, e necessario efetuar a identificacao de quais informacoes
da base de dados existente devem ser efetivamente consideradas importantes para
1
1.1 MOTIVACAO 2
o domınio do problema.
A etapa de mineracao de dados consiste na aplicacao de algoritmos ou tecnicas
que extraem conhecimento a partir dos dados. Esses algoritmos ou tecnicas po-
dem ser de classificacao, regressao, agrupamento (clusterizacao), dentre outros, que
possibilitem a sintetizacao do conhecimento.
A etapa de pos-processamento compreende o processo de tratamento do conhe-
cimento adquirido por meio da mineracao de dados, com o intuito de facilitar a
interpretacao e avaliacao deste, para priorizar a utilidade do conhecimento des-
coberto atraves da elaboracao de graficos, diagramas e outros tipos de relatorios
demonstrativos.
Os algoritmos utilizados no processo de mineracao de dados sao de diferentes areas
de conhecimento, tais como: estatıstica, inteligencia computacional e banco de dados
[Witten et. al, (2011)]. Na estatıstica, essas tecnicas podem ser aplicadas para descobrir
estruturas ou associacoes em conjunto de dados, realizar previsoes, etc. Dentre elas,
destacam-se modelos de regressao, que sao modelo matematicos e tem como um dos
objetivos prever o valor da variavel dependente (Y ) a partir das informacoes provinientes
de um conjunto de variaveis independentes (X).
Adicionalmente, atraves desses modelos, e possıvel realizar previsoes sobre o compor-
tamento futuro de algum fenomeno da realidade, como, por exemplo, prever a populacao
futura de uma cidade, simulando a tendencia de crescimento da populacao no passado,
como tambem mensurar o quanto X influencia ou modifica o valor de Y .
Por exemplo, considere um paciente que tem sua pressao arterial acompanhada pelo
seu medico. Um paciente saudavel pode ter o valor de sua pressao oscilando no intervalo
[115, 118]. Um outro, tambem saudavel, poderia ter sua pressao oscilando no intervalo
[114, 116]. Uma analise classica utilizando o centro dos intervalos perderia a informacao
sobre a variacao de pressao no estado saudavel para cada paciente.
Em outra possibilidade, seria extremamente atıpico que o peso (kg) desse determinado
cliente, em todas as suas consultas fosse igual a 70kg. No entanto, observa-se que o peso
variou no intervalo [67, 75] e essa variacao poderia fazer diferenca no diagnostico mais
preciso.
Suponha tambem, que um determinado banco nao estaria interessado no valor mo-
netario da conta corrente de um certo cliente, mas na variacao desse valor ao longo do
ano para fornecer benefıcios relacionados a sua conta.
1.1 MOTIVACAO 3
Nesses casos citados, a representacao classica de dados nao e capaz de representar
informacoes mais complexas, como, por exemplo, intervalos, conjuntos, frequencias e
distribuicoes de probabilidade. Na representacao classica as variaveis podem ser repre-
sentadas como: variaveis quantitativas e qualitativas. As variaveis qualitativas denotam
caracterısticas individuais das unidades sob analise, tais como sexo, estado civil, natura-
lidade, raca, grau de instrucao. As variaveis quantitativas assumem valores numa escala
metrica definida por uma origem e uma unidade, por exemplo: idade, salario, peso.
Os dados presentes em bases de dados simbolicas representam um extensao das in-
formacoes contidas em bases de dados classicas, apresentando-as de forma agregada. Uma
base de dados simbolicos pode conter, em uma celula de sua matriz, informacoes expres-
sas como listas, intervalos, distribuicoes de frequencia, distribuicoes de probabilidade,
etc., diferentemente de uma base de dados classica em que cada celula assume apenas um
unico valor.
Diante desse pressuposto, e essencial um tipo de analise de dados que considere a
complexidade, imprecisao, incerteza ou variabilidade presentes na estrutura dos dados.
Com isso, surge a Analise de Dados Simbolicos (ADS) [Billard e Diday, (2006)].
Billiard e Diday (2003) atestam o crescimento de dados de natureza simbolica e aler-
tam a necessidade do desenvolvimento de novas metodologias estatısticas para o tra-
tamento de informacoes dessa natureza. Alem disso, com relacao aos poucos metodos
estatısticos disponıveis, faz-se necessario o estabelecimento de um maior suporte ma-
tematico e estatıstico a esses metodos, tais como: verificacao de propriedades estatısticas,
estimacao de erros padrao e distribuicoes teoricas, entre outros.
Os principais conceitos da analise de dados simbolica e alguns metodos estatısticos de-
senvolvidos para manipular dados desta natureza foram apresentados em [Bock e Diday, (2000)],
[Billard e Diday, (2006)] e [Diday e Noirhomme-Fraiture, (2008)].
Os dados simbolicos sao caracterizados por variaveis estruturadas que representam
intervalos, distribuicoes de peso e conjuntos. Por exemplo, a Tabela 1.1 apresenta um
problema de engenharia de software, em que se pretende prever o tamanho do software
a ser desenvolvido para, posteriormente, obter o custo e tempo de desenvolvimento do
mesmo.
Ainda nesta Tabela 1.1 observa-se que os dados simbolicos do tipo intervalo sao re-
presentados pelos valores mınimo e maximo das variaveis independentes (X): numero de
operandos (NO), numero de operadores (NOR) e variavel dependente (Y ): numero de
linhas (NL). Esses registros foram gerados pelos 13 projetos do repositorio da NASA
http://mdp.ivv.nasa.gov/.
1.1 MOTIVACAO 4
Tabela 1.1 Projetos de software do repositorio da NASA para estimacao de software descritos
por dados simbolicos do tipo intervalo.
Projetos Variaveis Intervalares
NL NO NOR
1 [0:602] [0:1144] [1:1641]
2 [0:663] [0:843] [0:1198]
3 [0:817] [0:4015] [1:5590]
4 [0:210] [0:1403] [0:1687]
5 [0:242] [0:556] [1:857]
6 [13:2571] [1:467] [1:19]
7 [2:503] [0:798] [1:1129]
8 [0:639] [0:2279] [0:2948]
9 [3:112] [2:396] [3:493]
10 [1:3442] [0:3021] [0:5420]
11 [1:288] [0:428] [0:687]
12 [1:365] [0:632] [1:864]
13 [0:2072] [0:5169] [0:10862]
Portanto, ADS pode ser utilizada como uma abordagem para representar os limites
de um conjunto de possıveis valores de um item ou a variacao interna de uma variavel
atraves da reducao de conjuntos de dados em um numero reduzido de pequenos grupos
de informacao. Dados simbolicos do tipo intervalo tambem sao relevantes no caso de
aplicacoes com dados confidenciais em que somente permite-se conhecer o intervalo dos
valores.
A ADS [Diday e Noirhomme-Fraiture, (2008)] e uma area, que nasceu da influencia
simultanea de varios campos de pesquisa como: analise de dados classica, inteligencia
artificial, aprendizagem de maquina e banco de dados. O principal objetivo de SDA e de-
senvolver modelos para o tratamento de dados mais complexos, como intervalos, conjuntos
e distribuicoes de probabilidades ou de pesos. Alem disso, ADS e capaz de generalizar os
metodos tradicionais com dados classicos para metodos com dados simbolicos atraves do
desenvolvimento exploratorios, estatısticos e representacoes graficas para esses tipos de
dados. Esta tese esta inserida neste contexto de generalizacao de tecnicas classicas para
dados simbolicos do tipo intervalo.
1.2 OBJETIVOS 5
1.2 OBJETIVOS
O objetivo principal desta tese e desenvolver um conjunto de solucoes teoricas e aplicadas
na area de regressao para dados simbolicos do tipo intervalo, cujos resultados sejam
qualitativamente superiores aos dos metodos atualmente utilizados. Mais especificamente
propomos:
1. Desenvolver um metodo de regressao robusta para dados simbolicos do tipo inter-
valo;
2. Propor analise grafica dos resıduos para dados simbolicos do tipo intervalo;
3. Desenvolver um metodo de regressao baseado em kernel para dados simbolicos do
tipo intervalo;
4. Desenvolver um metodo de regressao baseado em duas regressoes: via kernel e linear
para dados simbolicos do tipo intervalo, denominado de metodo de regressao mista;
5. Realizar estudos de simulacao para verificar o desempenho da predicao dos modelos
propostos;
6. Aplicar as solucoes propostas neste trabalho em conjuntos de dados simbolicos do
tipo intervalo em repositorios disponıveis para a validacao experimental das solucoes
propostas;
7. Comparar os modelos propostos atraves do erro estimado atraves da simulacao
Monte Carlo.
1.3 ORGANIZACAO DA TESE
Esta tese e composta deste capıtulo introdutorio e mais quatro capıtulos, a saber:
Capıtulo 2 - Fundamentacao Teorica
Neste capıtulo serao apresentados os conceitos fundamentais de analise de dados
simbolicos, assim como metodos de regressao que existem na literatura de dados simbolicos
do tipo intervalo.
Capıtulo 3 - Regressao Robusta para Dados Simbolicos do Tipo Intervalo
1.3 ORGANIZACAO DA TESE 6
Este capıtulo apresenta a proposicao do metodo de regressao robusta simbolica para
dados do tipo intervalo, e analise de resıduos para deteccao de potencias outliers, como
tambem, e apresentado um conjunto de resultados de experimentos com simulacoes e
dados reais realizados com o metodo proposto.
Capıtulo 4 - Regressao Kernel para Dados Simbolicos do Tipo Intervalo
Este capıtulo propoe duas abordagens de regressao para dados simbolicos. A primeira
abordagem e baseada na regressao kernel para dados simbolicos do tipo intervalo. A se-
gunda abordagem e baseada no modelo de regressao mista(regressao via kernel e linear).
Com as duas abordagens sao realizados experimentos utilizando simulacoes e dados reais.
Ao final, e conduzida uma analise grafica dos modelos que obtiveram melhor desempenho.
Capıtulo 5 - Conclusoes
Este capıtulo apresenta parte dos principais resultados e conclusoes obtidos neste tra-
balho, bem como, as contribuicoes na area de modelos de regressao para dados simbolicos
do tipo intervalo, alem de publicacoes dos resultados em revista e congressos, nacionais
e internacionais. Por fim sao apresentadas direcoes para trabalhos futuros.
CAPITULO 2
FUNDAMENTACAO TEORICA
Este capıtulo divide-se em duas partes: inicialmente serao descritas as principais ca-
racterısticas de analise de dados simbolicos, suas aplicacoes e uma revisao de diversos
trabalhos desenvolvidos os quais fundamentaram esta Tese. Alem disso, apresenta-se os
metodos regressao linear para dados simbolicos do tipo intervalo existentes na literatura
de ADS.
2.1 HISTORICO DA ANALISE DE DADOS SIMBOLICOS
A analise de dados simbolicos [Bock e Diday, (2000)] surgiu atraves da influencia simul-
tanea de tres areas. Analise Exploratoria de Dados [Beaton e Tukey, (1974)], Inteligencia
Artificial [Russel e Norvig, (2003)] e Taxonomia Numerica [Sneath e Sokal, (1973)]. As
primeiras tentativas de obter dados simbolicos a partir de dados classicos foram realizadas
por [Belson, (1959)], seguidos de [Morgan e Sonquist, (1963)] com o metodo Automatic
Interation Detector (AID). Os primeiros algoritmos, chamados de Conceptual Clustering,
foram apresentadas por [Michalski et al., (1981)].
ADS constitui uma extensao de alguns metodos utilizados para analise de dados
classicos. Os primeiros trabalhos com os princıpios basicos da abordagem simbolica apa-
receram no final dos anos 80 [Diday, (1987)], [Diday e Brito, (1989)]e, desde entao, varios
outros trabalhos foram realizados em diversas direcoes. Bock e Diday, (2000) apresen-
tam os principais conceitos de ADS e metodos estatısticos desenvolvidos para manipular
dados desta natureza. Os dados simbolicos podem ser obtidos atraves de:
1. Aplicacao de um algoritmo de classificacao nao supervisionado (cluster analysis)
para simplificar grandes conjuntos de dados e descrever, de uma maneira autoex-
plicativa as classes associadas ao grupo obtidas;
2. Do resultado da descricao de conceitos por especialistas;
3. De bases de dados relacionais para estudar conjuntos de unidades cuja descricao
necessita da fusao eventual de varias relacoes.
7
2.1 HISTORICO DA ANALISE DE DADOS SIMBOLICOS 8
Como os avancos das tecnologias tem sido comum, encontram-se registros de intervalos
em base de dados de aplicacoes oriundas de diversos lugares. Na Tabela 2.1 e ilustrada
parte de uma tabela de dados simbolico reais coletados na China. Nesta tabela, as linhas
sao cidades da China e as colunas sao variaveis do tipo intervalo contendo as temperaturas
mınima e maxima registradas mensalmente em 60 cidades [China, (1998)].
Tabela 2.1 Temperaturas mınimas e maxima registradas na China.
Cidades Temperatura da China ([min : max]) - Ano 1998
Janeiro Fevereiro . . . Novembro Dezembro
AnQuin [1,8:7,1] [5,2:11,2]... [7,8:17,9] [4,3:11,8]
BaoDuin [-5,8:1,4] [-2,2:3,2]... [4,8:10,1] [-4,3:1,8]
BeiJing [-12,8:2,0] [-11,2:2,5]... [2,5:5,1] [-8,3:0,3]
......
......
......
Zhijiang [2,7:8,4] [2,7:8,7] . . . [8,2:20,9] [5,1:13,3]
Com a Tabela 2.1 obtida, a fase posterior consiste em analisar, classificar, prever,
resumir ou visualizar informacoes contidas nesta tabela. Assim, ADS pode ser aplicada
para apoio a tomada de decisao.
A partir do final da decada de 80, analise de dados simbolicos deixou de ser restrita
a um pequeno grupo de pesquisadores para ser uma area de pesquisa bastante relevante
marcada por muitas publicacoes e conferencias [Noirhomme-Fraiture e Brito, (2011)].
Trabalhos pioneiros [Diday, (1987)], [Diday, (1988)], [Diday, (1989)] e [Diday, (1991)]
apresentam os princıpios basicos da analise de dados simbolicos. Com isso, iniciou-se um
crescente interesse nessa area de pesquisa.
Neste contexto, apresenta-se uma breve descricao de alguns trabalhos de ADS nas
areas de [Noirhomme-Fraiture e Brito, (2011)]: classificacao nao supervisionada e super-
visionada, funcoes de proximidades e regressao.
2.1 HISTORICO DA ANALISE DE DADOS SIMBOLICOS 9
2.1.1 Classificacao Nao Supervisionada, Classificacao Supervisionada e Funcoes
de Proximidade
Classificacao Nao Supervisionada
No que diz respeito aos metodos de classificacao nao supervisionada, [Gordon, (2000)]
apresentou um algoritmo de agrupamento de dados simbolicos que minimiza a soma do
potencial de descricao dos grupos. [De Carvalho e De Souza, (2010)] introduzem metodos
de agrupamento dinamicos para dados simbolicos intervalares com caracterısticas mistas,
baseadas na distancia euclidiana adaptativa quadratica.
[Almeida et al., (2013)] introduzem duas redes fuzzy kohonen clustering para partici-
onamento de dados intervalares. A primeira rede e baseada em uma distancia euclidiana
fixa para os intervalos e a segunda considera distancias ponderadas que mudam a cada
iteracao, e sao diferentes de um cluster para outro.
[Costa et al., (2013)] introduzem metodo de clustering baseado em kernel para dados
simbolicos do tipo intervalo, onde a distancia de um item e seu prototipo no espaco ca-
racterıstico e expandido usando dois componentes de kernel misturados para controlar os
intervalos. Alem disso, ferramentas para particionamento e interpretacao do cluster para
dados simbolicos do tipo intervalo tambem sao introduzidas.
Classificacao Supervisionada
No que diz respeito aos metodos de classificacao supervisionada, [Ichino et al., (1996)]
introduziram um classificador simbolico, baseado em uma abordagem geometrica cha-
mada regioes para dados simbolicos.
[Prudencio et al., (2004)] propuseram ummetodo de classificacao supervisionado, usando
dados simbolicos aplicados a um problema de selecao de modelos de series temporais.
[Bezerra e De Carvalho, (2004)] apresentaram uma abordagem para sistemas de reco-
mendacao, em que o perfil do usuario modelado e descrito por dados simbolicas modais.
[Arroyo et al., (2011)] analisam varios metodos de previsao para series temporais de da-
dos do tipo intervalo e histograma, sao adaptados filtros de suavizacao e metodos nao
parametricos (Kernel Nearest Neighbor (KNN), Redes Neurais).
Funcoes de Proximidade
Na literatura, diversas medidas de dissimilaridade [Bock e Diday, (2000)] tem sido
2.1 HISTORICO DA ANALISE DE DADOS SIMBOLICOS 10
propostas: sao extendidas as medidas de dissimilaridade para dados simbolicos.
[Le-Rademacher e Billiard, (2011)] propoem a funcao de verossimilhanca para dados
simbolicos, ilustrando sua aplicacao ao se encontrar os estimadores de maxima verossi-
milhanca da media e variancia para distribuicoes de dados do tipo intervalo e histograma.
2.1.2 Regressao
Varios modelos de regressao para dados simbolicos do tipo intervalo tem sido introdu-
zidos na literatura. A maioria destes modelos usam o metodo dos mınimos quadrados
para estimar seus parametros. [Billard e Diday, (2000)] apresentam uma abordagem para
estender o modelo de regressao linear classico (MRLC) para dados simbolicos do tipo
intervalo pelo ajuste do metodo dos mınimos quadrados para o centro dos intervalos.
[Billard e Diday, (2002)] propuseram outra abordagem que ajusta dois MRLC indepen-
dentes sobre os limites inferior e superior dos intervalos. [Billard e Diday, (2006)] tambem
incluiram variaveis explicativas, bem como a estrutura hierarquica da variavel em um
modelo de regressao simbolica. [Maia e De Carvalho, (2008)] apresentam um modelo de
regressao linear para dados simbolicos do tipo intervalo basedos na regressao L1.
[Lima Neto e De Carvalho, (2008)] propuseram o metodo do centro e da amplitude
para ajustar o MRLC para dados simbolicos do tipo intervalo com desempenho melhor
do que os metodos apresentados em [Billard e Diday, (2000)] e [Billard e Diday, (2002)].
[Maia et al., (2008)] apresentaram abordagem para previsao de series temporais para da-
dos simbolicos do tipo intervalo. [Lima Neto e De Carvalho, (2010)] propuseram uma
nova abordagem para ajustar o modelo de regressao linear com restricao no centro e
na amplitude dos intervalos, a fim de assegurar a coerencia matematica entre os valores
previstos dos limites inferior e superior do intervalo.
No contexto do modelo de regressao para os dados de intervalo que assumem distri-
buicoes de probabilidade para os erros, [Domingues et al., (2010)] propuseram uma meto-
dologia de analise de dados intervalares baseado no metodo de regressao linear simetrica.
[Lima Neto et al., (2011)] introduziram o modelo de regressao bivariada simbolico para
dados de intervalo, baseado na teoria de modelo linear generalizado. [Souza et al., (2011)]
introduziram modelos de regressao linear logıstica para os limites inferior e superior dos
intervalos, em conjunto e separadamente.
[Billiard e Xu, (2012)] consideram alguns metodos classicos baseados no modelo de
regressao multipla para dados simbolicos do tipo intervalo ([De Carvalho et al., (2004)] ,
[Lima Neto et al., (2005)] e [Lima Neto e De Carvalho, (2010)]). Em seguida, para com-
2.2 DADOS SIMBOLICOS 11
parar esses metodos, a correlacao simbolica entre os intervalos observados e os intervalos
preditos foi introduzida como uma metrica de desempenho.
Posteriormente, na secao 2.4 serao descritos alguns dos metodos de regressao para
dados simbolicos do tipo intervalo citados, os quais embasaram teoricamente o desenvol-
vimento dos metodos propostos nessa tese.
2.2 DADOS SIMBOLICOS
Os dados simbolicos podem descrever indivıduos levando em conta, ou nao, imprecisao
ou incerteza. Alem disso, podem descrever itens mais complexos, tais como grupo de
indivıduos. Por exemplo:
Considere Y uma variavel simbolica que descreve o tempo em horas de treinamento
de um indivıduo jogador de futebol em uma semana. A descricao de um indivıduo,
em particular, k, pode ser: Y (k) = [0, 6];
Considere Z uma variavel simbolica que descreve o grau de instrucao existente em
uma cidade (classe de indivıduos). A descricao da cidade k pode ser: Z(k) =Analfabeto,
Ensino Fundamento Incompleto, Ensino Fundamental Completo, Ensino Medio In-
completo, Ensino Medio Completo, Ensino Superior Incompleto, Ensino Superior
Completo, Pos-Graduacao (Mestrado) e Pos-Graduacao (Doutorado);
Outro cenario muito comum nas empresas ocorre quando existe a necessidade de
divulgacao de informacoes de carater sigiloso como faixas salariais, valores em in-
vestimentos de risco ou percentuais de acidentes de trabalho. Esse tipo de dado
pode ser expresso atraves de dados simbolicos, usando intervalos, distribuicoes de
frequencias ou distribuicoes de probabilidade.
Em uma tabela de dados simbolicos, as linhas correspondem aos indivıduos ou classes
e as colunas sao as variaveis simbolicas que caracterizam os individuos. Os cenarios
apresentados motivam a utilizacao dos dados simbolicos para representacao dos dados
complexos.
A representacao de dados simbolicos do tipo intervalo sera objeto de estudo deste
trabalho. A descricao dos outros tipos de dados simbolicos pode ser encontrada na
literatura pertinente [Billard e Diday, (2006)] e [Lechevallier et al., (2008)].
Os modelos da literatura de ADS apresentados na subsecao 2.1.2 podem ser aplica-
dos para resolver problemas de regressao em diferentes areas. Por exemplo, na area de
engenharia de software e comum estimar o tempo e/ou custo relacionado a um projeto de
2.2 DADOS SIMBOLICOS 12
software [Bielak, (2000)]. As estimativas sao as bases do planejamento e, particularmente,
elas sao uteis no desenvolvimento e na manutencao do software. A predicao baseada nos
dados do tipo intervalo leva em conta a variabilidade, tornando mais flexıvel ao fazer o
planejamento de um software. Algumas aplicacoes de modelo de regressao para estima-
tiva de defeito de software podem ser encontradas em [Fakhrahmad e Sami, (2009)] e em
([Oliveira, (2006)] e [Leal et al., (2009)]) para estimacao de esforco de software.
Aqui, um conjunto de dados do tipo intervalo e construıdo a partir dos 13 projetos
do repositorio da NASA http://mdp.ivv.nasa.gov/ que sao amplamente utilizados na
literatura da estimativa de software [Jiang et al., (2008)].
Cada projeto e formado por um conjunto de dados de modulos de software e as
variaveis que descrevem projetos de software que variam em tamanho, complexidade,
linguagens de programacao, processos de desenvolvimento, etc. Assim, cada modulo de
um projeto e descrito por 21 variaveis.
A fim de descrever intervalos simbolicos para esses projetos atraves do conhecimento a
priori do especialista em estimativa de software, tres variaveis foram escolhidas: numero
de operadores (NO), numero de operandos (NOR) e numero de linhas de codigo (NL).
Um processo de generalizacao para os modulos de cada projeto foi realizado, considerando
que os intervalos sao calculados por valores mınimo e maximo das variaveis classicas do
repositorio NASA.
A Tabela 2.2 ilustra parte do projeto 1 do repositorio da NASA. Cada linha desta
tabela corresponde a um modulo de software descrito pelas variaveis NO, NOR e NL.
Tabela 2.2 Parte dos modulos de software do projeto 1.
Numero de linhas Numero de operadores Numero de operandos
(NL) (NO) (NOR)
41 590 111
14 0 1
100 180 345
0 0 678
. . . . . . . . .
602 1144 435
110 530 1641
350 126 899
2.2 DADOS SIMBOLICOS 13
Em relacao a Tabela 2.2, uma descricao intervalar para o projeto 1 pode ser dada pelos
valores de mınimo e maximo das variaveis NL, NO e NOR que sao, respectivamente,
[0, 602], [0, 1144] e [1, 1641].
No capıtulo 1 a Tabela 1.1 mostra o conjunto de dados do tipo intervalo resultante da
aplicacao do processo de generalizacao, onde cada linha desta tabela descreve conceitos
de projeto de software, considerando a variacao interna.
Sabe-se que na analise de dados simbolicos, as variaveis assumem um unico valor ou
categoria para um dado indivıduo. Entretanto, as variaveis simbolicas podem assumir
para um dado indivıduo (ou classe): conjunto de categorias, intervalos, histograma, etc.
Como nos dados classicos, os dados simbolicos tambem sao classificados segundo o
tipo de variavel simbolica que descreve os objetos, etapas por sua vez sao definidas de
acordo com seu domınio. De acordo com [Bock e Diday, (2000)], as variaveis simbolicas
sao classificados em dois grandes grupos: nao modais e modais.
2.2.1 Variavel simbolica do tipo modal
Uma variavel simbolica modal descreve um objeto usando par(c,π), onde c e o conjunto
de categorias que a variavel assume e π e um vetor de frequencia, pesos ou probabilidades
correspondentes as categorias do conjunto c.
Por exemplo, seja Y a distribuicao de agencias bancarias em k cidades. Para uma
cidade t, tem -se: Y (t) = BB (0,5), Bradesco (0,4) e Caixa (0,1).
2.2.2 Variavel simbolica do tipo nao modal
As variaveis nao modais sao: multivaloradas e do tipo intervalo. As variaveis multivalo-
rada sao definidas como: categorica e quantitativa.
Uma variavel multivalorada nominal assume, ao descrever um objeto, um conjunto
de categorias nao ordenadas. Por exemplo, seja Y = Tipo de Passagem de um
grupo k de indivıduos, entao Yk =Terrestre, Aerea;
Um variavel multivalorada ordinal assume um conjunto de categorias ordenados.
Por exemplo, seja Y = nıvel de escolaridade e k um grupo de indivıduos de uma
cidade, entao Yk = fundamental, medio, graducao;
Uma variavel multivalorada quantitativa assume um conjunto de valores nao orde-
nados. Por exemplo, seja Y = o numero de alunos aprovados no vestibular das tres
2.3 ESTATISTICA DESCRITIVA 14
principais escolas particulares de uma cidade e k um grupo de indivıduos de uma
cidade, entao Yk = 10, 9, 20;
No caso classico, todos esses exemplos apresentados, as variaveis so poderiam assu-
mir um unico valor ao descrever cada indivıduo.
Uma variavel Y e do tipo intervalo se ela representa uma realizacao ξ = [a : b] ⊂ ℜ1,
com a ≤ b e a, b ∈ ℜ1. No exemplo da Tabela 1.1, os intervalos sao gerados como
resultado da agregacao (generalizacao) de dados classicos [Jiang et al., (2008)]. Os valores
auj e buj do intervalo [auj : buj] referentes a variavel j na categoria wu sao dados por:
auj = mini∈Ωu
xij ,
buj = maxi∈Ωu
xij ,
onde Ωu e o conjunto dos i − esimos valores (i ∈ Ω) que compoem a categoria wu.
Exemplos dessa definicao podem ser obtidos do conjunto de dados simbolicos da Tabela
1.1.
2.3 ESTATISTICA DESCRITIVA
Apesar dos metodos de mineracao de dados inicialmente terem sido elaborados sob os
alicerces dos dados classicos, e possıvel adaptar seus conceitos e metodos para dados
simbolicos.
Carvalho (1995) introduziu a nocao de histogramas para dados simbolicos booleanos.
Bertrand e Goupil (2000) introduziram metodos para calcular a distribuicao de frequencia
para uma variavel simbolica e estenderam, para cada tipo de variavel, os conceitos de
media, desvio padrao e mediana.
Billiard e Diday (2000), (2002) estenderam os conceitos de funcao de correlacao e
covariancia, proporcionando a obtencao de uma equacao de regressao linear multipla para
dados simbolicos de natureza intervalar. Nesse mesmo contexto, em [Billard, (2004)] sao
abordados media, variancia e histograma para dados do tipo intervalo e multivalorado.
Nos trabalhos [Lauro e Gioia, (2006)] e [Billard, (2004)], sao introduzidos metodos
para analisar a interdependencia e dependencia entre variaveis com valores intervala-
res. Os metodos de regressao para dados simbolicos do tipo intervalo serao descritos em
detalhes na secao 2.4.
Uma ilustracao disso, e a adaptacao da estatıstica descritiva para dados simbolicos
do tipo intervalar. Sao exemplos de metodos da estatıstica descritiva a construcao histo-
2.3 ESTATISTICA DESCRITIVA 15
grama, calculo da media e variancia. Antes de ser explicado como esses metodos foram
adaptados, e necessario definir o que e uma descricao individual e uma descricao virtual.
Descricao individual e o valor de uma variavel de um objeto simbolico. O calculo da
frequencia de um histograma simbolico envolve contar o numero de descricoes individuais
que tornam verdadeira uma determinada dependencia logica nos dados.
Uma dependencia logica pode ser representada pela equacao (2.1), tal que x ∈ X (X
e o conjunto de todas as descricoes individuais presentes na tabela) e A ⊆ D,B ⊆ D. Em
que, v retornara um valor binario, isto e, ”0”, se a dependencia logica nao for verdadeira
para x, ou ”1” se for verdadeira [Billard e Diday, (2006)].
v : [x ∈ A] ⇒ [x ∈ B]. (2.1)
Ja a descricao virtual de um vetor e um conjunto de todos os elementos x presentes
que satisfazem todas as dependencias logicas em X . Ela e representada pela equacao 2.2
como vir(d) sendo Vx todas regras presentes em X .
vir(d) = x ∈ D; v(x) = 1, ∀v ∈ Vx. (2.2)
Deste modo, supondo que ha interesse em uma variavel Yj ≡ Z e o valor observado
para o objeto u nessa variavel e um intervalo Z(u) = [au, bu], para u ∈ E = 1, ..., m e
que os vetores de descricao individuais x ∈ vir(du) sao distribuıdos uniformemente sobre
o intervalo Z(u), temos para cada ξ:
P x ≤ ξ|x ∈ vir(du) =
0, se ξ ≤ au;
ξ−auau−bu
, se au ≤ ξ ≤ bu;
1, caso contrario.
(2.3)
O vetor de descricao individual x vai ter valores globalmente em⋃u∈E vir(du) e cada
um desses objetos vai ter a mesma probabilidade de ser observado com p = 1m.
Funcao de Distribuicao Empırica Intervalar
Obtem-se, entao, que a funcao empırica de distribuicao, FZ(ξ), que e uma funcao de
distribuicao de m distribuicoes uniformes nos m intervalos Z(u) = [au, bu] para u ∈ E .
Portanto, da equacao (2.3):
2.3 ESTATISTICA DESCRITIVA 16
FZ(ξ) =1
m
∑
u∈E
P x ≤ ξ|x ∈ vir(du), (2.4)
=1
m
∑
ξ∈Z(u)
(ξ − aubu − au
)+ |u|ξ ≥ bu|
.
Funcao de Densidade Empırica Intervalar
Caso seja derivada a equacao (2.4) em funcao de ξ, sera encontrada a funcao empırica
de densidade de Z.
f(ξ) =1
m
∑
u:ξ∈Z(u)
1
bu − au. (2.5)
Como na equacao (2.5) o somatorio e apenas sobre objetos u, para os quais ξ ∈ Z(u),
e possıvel escreve-la de outra forma:
f(ξ) =1
m
∑
u∈E
Iu(ξ)
||Z(u)|| , ξ ∈ ℜ, (2.6)
onde Iu(ξ) e uma funcao que indica se ξ esta ou nao em Z(u), quando afirmativo,
retornara 1, caso contrario, 0. E ||Z(u)|| e a amplitude do intervalo Z(u) ∈ E, onde
||Z(u)|| = bu − au.
Media Intervalar
Agora se torna possıvel encontrar a media para dados simbolicos intervalares, pois se
sabe que a media empırica Z em termos da funcao de densidade empırica e:
Z =
∫ ∞
−∞
ξf(ξ)dξ.
2.3 ESTATISTICA DESCRITIVA 17
Substituindo da equacao (2.6):
Z =1
m
∑
u∈E
∫ ∞
−∞
Iu(ξ)
||Z(u)||ξdξ,
=1
m
∑
u∈E
1
bu − au
∫
ξ∈Z(u)
ξdξ,
=1
2m
∑
u∈E
b2u − a2ubu − au
,
=1
m
∑
u∈E
bu + au2
. (2.7)
Variancia Amostral Intervalar
De maneira analoga e possıvel encontrar a variancia para dados simbolicos intervalares
atraves da variancia empırica s em termos da funcao de densidade empırica pode ser
definido por
s2 =
∫ ∞
−∞
(ξ − z)2f(ξ)dξ.
Agora computa-se s2, considerando que a equacao anterior e equivalente a
s2 =
∫ ∞
−∞
(ξ2)f(ξ)dξ − (z)2.
Usando o segundo momento
M2 =
∫ ∞
−∞
(ξ2)f(ξ)dξ,
=1
m
∑
u∈E
∫ ∞
−∞
(ξ2)
||Z(u)||dξ,
=1
m
∑
u∈E
(bu)3 − (au)
3
3 ||Z(u)|| ,
=1
3m
∑
u∈E
[(bu)2 + (bu)(au) + (au)
2]. (2.8)
Conforme [Bock e Diday, (2000)], a variancia intervalar(S2) e dada por:
2.3 ESTATISTICA DESCRITIVA 18
S2 =1
3m
∑
u∈E
(b2u + buau + a2u
)− 1
4m2
[∑
u∈E
bu + au
]2
. (2.9)
Histograma Intervalar
Para construir um histograma de dados simbolicos intervalares, e preciso tomar o intervalo
I =[minau|u∈E, maxbu|u∈E
]em que todos os possıveis valores de Z estao contidos, e
considerar uma particao de I em r subintervalos Ig = [ξg−1, ξg), g = 1, ..., r − 1 e Ir =
[ξr−1, ξr] com g=r. Entao, o histograma para Z e a representacao grafica da distribuicao
de frequencia (Ig, pg) g = 1, ..., r onde:
pg =1
m
∑
u∈E
||Z(u) ∩ Ig||||Z(u)|| . (2.10)
Nesse caso pg, para g = 1, . . . , r, representa a area da barra vertical da base de qual e o
intervalo de Ig pertencente ao eixo horizontal do histograma. Portanto, pg e probabilidade
de um descricao individual u esta no intervalo Ig.
Considerando uma variavel Z com valores intervalares definida no conjunto ξ =
1, . . . , 8 de n = 8 objetos basicos definidos como:
Z(E) = [0 : 2]; [1 : 3]; [1, 5 : 2, 5]; [2 : 4]; [3, 5 : 5]; [4, 5 : 5, 5]; [5 : 7]; [6.5; 7.5]
A Figura 2.1 representa o histograma intervalar das classes definidas para cada ele-
mento do vetor. Com isso, as oito classes defindas contem os intervalos obtidos dentra de
cada faixa definida. Assim, quanto mais intervalos existirem maiores serao as frequencias
das respectivas classes.
2.4 METODOSDE REGRESSAO SIMBOLICA SEM SUPOSICAO DE DISTRIBUICAO PARAOS ERROS19
Figura 2.1 Histograma para dados intervalares.
Usando as equacoes (2.7) e (2.8), computam-se os valores media e variancia intervalar de
Z, como, respectivamente:
Z = 18(1 + 2 + 3 + 3 + (8, 5/2) + 5 + 6 + 7) ≃ 3, 78125
S2 =√
443,524
− 3, 7812 ≃ 2, 044826
2.4 METODOS DE REGRESSAO SIMBOLICA SEM SUPOSICAO DE DISTRIBUICAO
PARA OS ERROS
Ao contrario dos metodos classicos para tratamento de dados que foram desenvolvidos
ao longo de mais de um seculo, os metodos para tratamento de dados simbolicos estao
crescendo a cada dia. Esta secao apresentara alguns metodos de regressao para dados
simbolicos do tipo intervalo baseados no metodo dos mınimos quadrados sem fazer su-
posicao de distribuicao de probabilidade para os erros.
Os tres principais metodos de regressao linear para dados simbolicos do tipo intervalo
sao: metodo do centro, metodo dos mınimos e maximos e metodo do centro e da amplitude
do intervalo. O processo de estimacao dos parametros da regressao linear dos tres metodos
e baseado na minimizacao de criterios predeterminados.
2.4 METODOSDE REGRESSAO SIMBOLICA SEM SUPOSICAO DE DISTRIBUICAO PARAOS ERROS20
2.4.1 Metodo do centro
O metodo do centro, proposto por [Billard e Diday, (2000)], consiste em ajustar um mo-
delo de regressao linear ao centro dos intervalos assumidos pelas variaveis simbolicas, e
em seguida aplicar esse modelo aos limites inferior (inf) e superior (sup) dos intervalos das
variaveis preditoras para prever, respectivamente, o limite inferior e superior da variavel
resposta. Assim, o metodo do centro consiste em minimizar a soma dos quadrados dos
erros do centro dos intervalos.
O metodo do centro para variaveis simbolicas do tipo intervalo pode ser formalmente
definido do seguinte modo: Seja E = e1, e2, . . . , en um conjunto de exemplos descritos
por p + 1 variaveis simbolicas do intervalo: Y,X1, X2, . . . , Xn. Alem disso, seja cada
exemplo de ei ∈ E(i = 1, . . . , n) representado por um vetor de intervalos zi = (xi, yi),
onde xi = (xi1, xi2, . . . , xij, . . . , xip), xij = ξij = [aij : bij ] ∈ Ω = [a : b] : a ≤ b; a, b ∈ℜ1(j = 1, . . . , p) e yi = [yinfi : ysupi ] ∈ Ω, caracterizando, os valores observados de Xj e
Y .
Considere o conjunto de variaveis X1, X2, . . . , Xp como variaveis preditoras relaciona-
das linearmente com uma variavel resposta Y atraves do modelo:
yinfi = β0 + β1ai1 + β2ai2 + . . .+ βpaip + εinfi ,
ysupi = β0 + β1bi1 + β2bi2 + . . .+ βpbip + εsupi . (2.11)
A partir das Equacoes (2.11), pode-se encontrar os estimadores minimizando a soma
de quadrados dos erros do centro dado por:
n∑
(i=1)
(εinfi + εsupi )2 =n∑
(i=1)
(yinfi − β0 − β1ai1 − . . .− βpaip +
+ ysupi − β0 − β1bi1 − . . .− βpbip)2, (2.12)
que representa a soma dos quadrados dos erros dos limites inferior e superior.
O estimador de mınimos quadrados para β que minimiza a soma dos quadrados dos
erros da Equacao 2.12 para este metodo e a solucao do sistema de p+1 equacoes normais.
Em notacao matricial, a expressao resulta em:
2.4 METODOSDE REGRESSAO SIMBOLICA SEM SUPOSICAO DE DISTRIBUICAO PARAOS ERROS21
β = (A)−1b (2.13)
em que A e uma matriz (p+ 1)× (p+ 1) e b e um vetor (p+ 1)× 1, dados por:
A=
n∑
i xci1 . . .
∑i x
cip∑
i xci1
∑i(x
ci1)
2 . . .∑
i xcipx
ci1
......
......∑n
i xcip
∑i x
ci1x
cip . . .
∑i(x
cip)
2
e b = (∑
i yci ,∑
i ycixi)
A expressao (2.13) pode ser representada de uma forma mais interessante por:
β = (XT
cXc)−1XT
cyc, (2.14)
onde, Xc tem posto completo p + 1 ≤ n, yc = (yc1, . . . , ycn)T, Xc = (xT
c1, . . . ,xT
cn)T,xT
ci =
(1, xci, . . . , xcip)eβ = (β0, . . . , βp). Com xcij = (aij + bij)/2 e yci = (yinfi + ysupi )/2.
Assim, ao aplicar o modelo para predizer Y a partir de um conceito w, descrito por
z = (x, y), onde x = (x1, x2, . . . , xp) com xj = [aj : bj ], (j = 1, 2, . . . , p), os valores dos
limites do intervalo relativo a variavel resposta y serao dados por:
y = [yinf : ysup], com,
yinf = (xinf)Tβ e ysup = (xsup)Tβ, (2.15)
em que (xinf)T = (1, a1, a2, . . . , ap) e (xsup)T = (1, b1, b2, . . . , bp).
Desta forma, o metodo do centro consiste em um modelo de regressao dos centros
da variavel resposta do tipo intervalo Y sobre os centros das variaveis preditoras do
tipo intervalo Xj. Entretanto, e importante ressaltar que este metodo nao garante que
yinfi ≤ ysupi .
2.4.2 Metodo do mınimo e maximo
Diferente do metodo do centro descrito na Secao 2.4.1, o metodo do mınimo e maximo
proposto por [Billard e Diday, (2002)] ajusta dois modelos independentes de regressao
linear para os limites inferiores e superiores das variaveis simbolicas.
2.4 METODOSDE REGRESSAO SIMBOLICA SEM SUPOSICAO DE DISTRIBUICAO PARAOS ERROS22
Considere o conjunto de variaveis X1, X2, . . . , Xp como variaveis regressoras relacio-
nadas linearmente com uma variavel resposta Y atraves do modelo:
yinfi = βinf0 + βinf1 ai1 + . . .+ βinfp aip + εinfi ,
ysupi = βsup0 + βsup1 bi1 + . . .+ βsupp bip + εsupi . (2.16)
A partir da equacao (2.16), pode-se deduzir a soma dos quadrados dos erros no metodo
dos limites mınimo e maximo, que sao:
n∑
i=1
(εinfi
)2
+n∑
i=1
(εsupi )2 =n∑
i=1
(yinfi − βinf0 − βinf1 ai1 − . . .− βinfp aip
)2
+
n∑
i=1
(ysupi − βsup0 − βsup1 bi1 − . . .− βsupp bip
)2. (2.17)
Essa equacao representa a soma dos quadrados dos resıduos dos limites inferiores e
dos limites superiores de forma independente, considerando tambem independentes os
vetores de parametros β utilizados para predicao dos limites da variavel resposta Y.
Os estimadores de mınimos quadrados de βinf0 , βinf1 , . . . , βinfp e βsup0 , βsup1 , . . . , βsupp que
minimizam a equacao (2.17) podem ser escritas na notacao matricial por:
β =(βinf0 , βinf1 , . . . , βinfp , βsup0 , βsup1 , . . . , βsupp
)T
. (2.18)
onde A e uma matriz 2(p+ 1)× 2(p+ 1) e b e um vetor 2(p+ 1)× 1, denotados por:
A =
n∑
i ai1 . . .∑
i aip 0 . . . 0∑i ai1
∑i(ai1)
2 . . .∑
i aipai1 0 . . . 0...
......
......
......
∑i aip
∑i ai1aip . . .
∑i(aip)
2 0 . . . 0
0 0 . . . 0 n . . .∑
i bip
0 0 . . . 0∑
i bi1 . . .∑
i bipbi1...
......
......
......
0 0 . . . 0∑
i bi1bip . . .∑
i(bip)2
,
e b =(∑
i yinfi ,
∑i y
infi ai1, . . . ,
∑i y
infi aip,
∑i y
supi ,
∑i y
supi bi1, . . . ,
∑i y
supi bip
)T
.
2.4 METODOSDE REGRESSAO SIMBOLICA SEM SUPOSICAO DE DISTRIBUICAO PARAOS ERROS23
Aplicando o modelo para predizer Y a partir de um conceito w, descrito por z = (x, y),
onde x = (x1, x2, . . . , xp) com xj = [aj : bj ], (j = 1, 2, . . . , p), os valores preditos dos
limites inferiores e superiores y = [yinf , ysup] da variavel resposta Y sao dados por:
yinf = (xinf)Tβinf e ysup = (xsup)Tβsup, (2.19)
onde
(xinf )T = (1, a1, ..., ap), (xsup)T = (1, b1, ..., bp),
βinf
= (βinf0 , βinf1 , . . . , βinfp )T e βsup
= (βsup0 , βsup1 , . . . , βsupp )T.
2.4.3 Metodo do centro e da amplitude
Lima Neto e de Carvalho (2008) propuseram um novo metodo de regressao simbolica
levando em consideracao o centro e a amplitude das variaveis intervalares. Esse metodo
estabelece o criterio de minimizacao para estimacao dos parametros, considerando a soma
dos quadrados dos erros relativos do centro e da amplitude dos intervalos de modo inde-
pendente.
A expectativa e de que com a inclusao de informacoes da amplitude dos intervalos
haja uma melhoria na predicao do modelo. O ajuste dos limites inferiores e superiores
da variavel resposta e realizado atraves da aplicacao do vetor de parametros β ao centro
e amplitude das variaveis regressoras.
Sejam yc e xcj com (j = 1, 2, . . . , p), variaveis quantitativas relativas ao centro dos
intervalos das variaveis simbolicas y e xj com (j = 1, 2, . . . , p). Alem disso, considere
yr exrj(j = 1, 2, . . . , p) variaveis quantitativas que assumem como valores a metade da am-
plitude (ou meia-amplitude) dos intervalos das variaveis simbolicas y e xj(j = 1, 2, . . . , p).
Considere yc e yr como variaveis resposta e xcj e xrj(j = 1, 2, . . . , p) um conjunto de
variaveis regressoras relacionadas por:
yci = βc0 + βc1xci1 + . . .+ βcpx
cip + εci ,
yri = βr0 + βr1xri1 + . . .+ βrpx
rip + εri . (2.20)
Neste metodo, os vetores de parametros β = ((βc)T, (β
r)T)T sao estimados de forma
independente para o centro e a amplitude dos intervalos. Portanto, a soma dos quadrados
dos erros e dada por:
2.4 METODOSDE REGRESSAO SIMBOLICA SEM SUPOSICAO DE DISTRIBUICAO PARAOS ERROS24
n∑
i=1
[(εci)
2 + (εri )2] =
n∑
i=1
(yci − βc0 − βc1x
ci1 − . . .− βcpx
cip
)2
+
n∑
i=1
(yri − βr0 − βr1x
ri1 − . . .− βrpx
rip
)2. (2.21)
Os estimadores de mınimos quadrados de βc0, βc1, . . . , β
cp e β
r0 , β
r1, . . . , β
rp que minimizam
a equacao (2.21) podem ser escritas em notacao matricial por:
β =(βc0, β
c1, . . . , β
cp, β
r0, β
r1, . . . , β
rp
)T
= (A)−1b, (2.22)
em que A e uma matriz 2(p+ 1)× 2(p+ 1) e b e um vetor 2(p+ 1)× 1, denotados por:
A =
n∑
i xci1 . . .
∑i x
cip 0 . . . 0
∑i x
ci1
∑i(x
ci1)
2 . . .∑
i xcipx
ci1 0 . . . 0
......
......
......
...∑
i xcip
∑i x
ci1x
cip . . .
∑i(x
cip)
2 0 . . . 0
0 0 . . . 0 n . . .∑
i xrip
0 0 . . . 0∑
i xri1 . . .
∑i x
ripx
ri1
......
......
......
...
0 0 . . . 0∑
i xri1x
rip . . .
∑i(x
rip)
2
,
e b =(∑
i yci ,∑
i ycix
ci1, . . . ,
∑i y
cix
cip,
∑i y
ri ,∑
i yri x
ri1, . . . ,
∑i y
ri x
rip
)T
.
Os estimadores de mınimos quadrados de βc0, βc1, . . . , β
cp e β
r0 , β
r1, . . . , β
rp que minimizam
a Equacao (2.21) podem ser re-escritas de forma mais representativa por:
βc = (XT
cXc)−1XT
cyc, (2.23)
βr = (XT
rXr)−1XT
ryr, (2.24)
onde Xc e Xr tem posto completo p+ 1 ≤ n, com
yc = (yc1, . . . , ycn)T,Xc = [(xc1)
T, . . . , (xcn)T]T,(xci)
T = (1, xci, . . . , xcip), β = (β0, . . . , βp).
E yr = (yr1, . . . , yrn)T, Xr = ((xr1)
T, . . . , (xrn)T)T,(xri)
T = (1, xri, . . . , xrip), β =
2.4 METODOSDE REGRESSAO SIMBOLICA SEM SUPOSICAO DE DISTRIBUICAO PARAOS ERROS25
(β0, . . . , βp). Assim, xcij = (aij + bij)/2 e yci = (yinfi + ysupi )/2.
Aplicando o metodo do centro e da amplitude para predizer y a partir de um conceito
w, descrito por z = (x, y), c = (xc, yc) e r = (xr, yr), onde x = (x1, x2, . . . , xp) com
xj = [aj : bj ](j = 1, 2, . . . , p), xc = (xc1, . . . , xcp) com xcj = (aj + bj)/2 e xr = (xr1, . . . , x
rp)
com xrj = (bj − aj)/2 (j = 1, . . . , p). O valor y = [yinf , ysup] sera predito a partir dos
valores yc e yr, estimados de yc e yr, respectivamente, como mostrado a seguir:
yinf = yc − yr e ysup = yc + yr, (2.25)
onde
yc = (xc)Tβc e yr = (xr)Tβr,
(xc)T = (1, xc1, ..., xcp) e (xr)T = (1, xr1, ..., x
rp),
βc = (βc0, βc1, . . . , β
cp)
T e βr = (βr0 , βr1 . . . , β
rp)
T.
2.4.4 Metodos com Restricoes
Um resumo sobre dados simbolicos do tipo intervalo foi apresentado na Secao 2.2. Esse
tipo de dado simbolico e definido por uma realizacao simbolica ξ = [a : b], com a, b ∈ ℜ1,
a e b, variaveis quantitativas, representando, respectivamente, o limite inferior e o limite
superior de um intervalo, onde necessariamente a condicao (a ≤ b) deve ser atendida.
Pode-se demonstrar que, em alguns cenarios, nao ha garantia de que os intervalos pre-
ditos pelos metodos apresentados nesta secao contemplem a definicao dos dados simbolicos
do tipo intervalo, por exemplo, mantendo a estimativa do limite inferior do intervalo pre-
dito menor do que a estimativa do limite superior deste intervalo para qualquer observacao
intervalar xi.
Alguns metodos foram propostos para resolver esse problema [Lima Neto e De Carvalho, (2010)].
A ideia basica e impor restricoes quanto aos valores estimados dos parametros dos mode-
los do metodo do centro, metodo do centro e da amplitude, e do metodo dos mınimos e
maximos. O modelo estabelece uma relacao linear entre a variavel resposta e as variaveis
regressoras, impondo restricoes aos parametros do vetor β, da seguinte forma:
yinfi = β0 + β1ai1 + . . .+ βpaip + εinfi ,
ysupi = β0 + β1bi1 + . . .+ βpbip + εsupi , (2.26)
restritos a βj ≥ 0, j = 0, 1, . . . , p.
2.5 METODOS DE REGRESSAO SIMBOLICA COM DISTRIBUICAO PARA OS ERROS 26
A estimacao dos parametros β do modelo com restricoes segue os mesmos passos
dos metodos simbolicos descritos nas secoes anteriores. Entretanto, o uso de restricoes
no vetor de parametros β restringe o espaco de possıveis solucoes que minimiza a soma
de quadrados dos erros, podendo ocasionar uma perda de desempenho de predicao se
comparado com os metodos sem restricao descritos nas secoes 2.4.1, 2.4.2 e 2.4.3. Desta
forma, sugere-se usar, inicialmente, o modelo sem restricao, com o intuito de obter as
estimativas dos parametros que minimizam a soma dos quadrados dos erros. Contudo,
caso sejam identificadas observacoes onde os valores estimados para os limites inferior e
superior estejam incoerentes, recomenda-se a abordagem correspondente com restricoes
para re-estimar apenas aquelas observacoes que apresentam problemas.
2.5 METODOS DE REGRESSAO SIMBOLICA COM DISTRIBUICAO PARA OS
ERROS
Os modelos de regressao apresentados na secao 2.4 para dados simbolicos representam
um avanco em ADS, ainda que existam pontos de pesquisa para serem investigados. Por
exemplo, esses modelos nao consideram nenhuma suposicao probabilıstica para mode-
lar a variavel resposta e nao tratam conjuntos de dados intervalares contaminados com
observacoes discrepantes (outliers).
As estimativas de mınimos quadrados sao sensıveis a presenca de outliers entre os da-
dos. Dessa forma, alguns analistas preferem descartar essas observacoes antes de estimar
o modelo que melhor ajusta os dados investigados, outros preferem a busca de modelos
menos sensıveis a essa presenca.
2.5.1 Modelo Simetrico
No contexto de modelos de regressao para dados simbolicos do tipo intervalo que assu-
mem distribuicoes de probabilidade para os erros, [Domingues et al., (2010)] propuseram
uma metodologia de analise de dados intervalares baseados na regressao linear com er-
ros simetricos. Nesta abordagem ajustam-se dois modelos independentes de regressao
linear simetrica sobre o centro e a amplitude dos intervalos assumidos pelas variaveis no
conjunto de treinamento.
Portanto, alguns metodos foram propostos para amenizar as desvantagens da uti-
lizacao do metodo dos mınimos quadrados quando o conjunto de dados contem ob-
servacoes atıpicas [Huber, 1964]. Metodos robustos para dados classicos tem sido uti-
lizados para reduzir o efeito das observacoes que influenciam fortemente o modelo de
2.5 METODOS DE REGRESSAO SIMBOLICA COM DISTRIBUICAO PARA OS ERROS 27
regressao linear.
Assim, [Domingues et al., (2010)] apresentaram um metodo de regressao linear para
predicao menos sensıvel a presenca de dados intervalares outliers utilizando uma aborda-
gem parametrica, permitindo com isso, a construcao de intervalos de confianca e testes
de hipoteses.
O metodo de regressao linear simetrica para dados simbolicos do tipo intervalo tem
como principal caracterıstica ser menos suscetıvel a presenca de dados intervalares atıpicos.
Nesse contexto, um dado simbolico intervalar e representado por um par de observacoes
independentes (centro e amplitude) obtidos a partir dos limites inferiores e superiores do
intervalo.
Equacoes de regressao
O metodo regressao linear simetrica simbolica para dados intervalares (RLSS-DI) e
definido de acordo com duas equacoes independentes de regressao:
yci = (zci)Tβc + εci e yri = (zri )
Tβr + εri (2.27)
sendo zci = (1,xci)T e zri = (1,xri )
T e βc = (βc0, . . . , βcp) o vetor de parametros desconhecidos
para o ajuste dos pontos medios da variavel resposta, ǫci ∼ S(0, φ, g) e (zci)T (i = 1, . . . , n)
e o vetor das variaveis regressoras relativo aos seus respectivos pontos medios (centro);
βr = (βr0, . . . , βrp) e o vetor de parametros desconhecidos para o ajuste da amplitude da
variavel resposta, ǫri ∼ S(0, φ, g) e (zri )T (i = 1, . . . , n) e o vetor das variaveis regressoras
relativo as suas amplitudes.
Assumiu-se a distribuicao t-Student para os erros relativos ao ajuste dos centros dos
intervalos e a distribuicao normal para os erros relativos ao ajuste das amplitudes dos
intervalos. A predicao dos limites inferiores e superiores do i − esimo intervalo yi =
[yinfi , ysupi ] e baseada na predicao de yic and yi
r.
Alem disso, os valores preditos sao menos suscetıveis a presenca de dados intervalares
outliers porque o metodo considera distribuicoes de cauda pesada para os erros quando
estima os parametros do modelo. Outro aspecto importante desse metodo e possibilitar a
construcao de intervalos de confianca e testes de hipoteses sobre os parametros estimados
do modelo.
2.5 METODOS DE REGRESSAO SIMBOLICA COM DISTRIBUICAO PARA OS ERROS 28
2.5.2 Modelo Bivariado
Variaveis intervalares tornaram-se muito comuns em analises de dados. Ate agora, muitos
modelos de regressao simbolica deste tipo de dados a partir de um ponto de vista da
otimizacao nao consideram os aspectos probabilısticos dos modelos, nem as relacoes nao-
lineares entre a variavel resposta e variavel preditora intervalares.
Segundo [Lima Neto et al., (2011)], variaveis intervalares sao formuladas como vetores
aleatorios bivariados, introduzindo o modelo de regressao bivariada simbolico baseado na
teoria de modelos lineares generalizados (MLG).
Os modelos propostos por [Billard e Diday, (2000)] e [Lima Neto e De Carvalho, (2008)]
de regressao simbolica nao garantem a coerencia matematica para os valores previstos dos
limites do intervalo (yinf ≤ ysup). A fim de resolver este problema Lima Neto et al. (2011)
propuseram modelos bivariados de regressao simbolicos (MBRS) baseado na abordagem
MLG com a componente aleatoria, tendo a famılia de distribuicao exponencial bivariada
e funcoes de ligacao que garantem a coerencia matematica para os limites do intervalo.
No MRSB e possıvel escolher funcoes de ligacao diferentes. Algumas funcoes dis-
ponıveis: a identidade, logarıtmico, potencia, inversa, entre outras. No entanto, algumas
funcoes de ligacao possuem propriedades particulares e pode ser preferıvel em algumas
situacoes. Por exemplo, se considera-se a metade da amplitude dos intervalos no compo-
nente aleatorio, a funcao de ligacao logarıtima garantira a positividade para os valores
preditos do yri (yri ≥ 0) e seu resultado implica que yinfi ≤ ysupi .
Com isso, foi proposto por [Lima Neto et al., (2011)] uma nova classe de modelos
MRSB que podem ser uteis na analise estatıstica dos dados intervalares. Esta nova
classe de modelos segue a abordagem MLG. Assume-se que a distribuicao conjunta da
variavel resposta intervalar Y = (Y1, Y2) pertence a famılia de distribuicao exponencial
bivariada. Esta famılia estende a teoria MLG para o caso de variaveis aleatorias. O
componente aleatorio do MRSB pode ser representado em termos de centro e amplitude
dos intervalos ou em termos dos limites inferiores e superiores dos intervalos ou qualquer
outro par que caracterize o intervalo.
2.5.3 Modelo Logıstico
Ainda nesse contexto, Souza et al. (2011) introduziram diferentes classificadores de
padroes para dados simbolicos do tipo de intervalo baseados na metodologia de regressao
logıstica. Quatro abordagens sao consideradas. Estas abordagens diferem de acordo com
a forma de representar os intervalos.
2.6 COMENTARIOS FINAIS 29
O primeiro classificador considera que cada intervalo e representados pelo centro dos
intervalos e executa uma regressao logıstica classica sobre os centros dos intervalos. A
segunda abordagem parte do princıpio de que cada intervalo e um par de variaveis quan-
titativas e executa uma regressao logıstica conjunta classica sobre essas variaveis. O
terceiro considera que cada intervalo e representado por seus vertices e uma regressao
logıstica classica sobre os vertices dos intervalos. A ultima abordagem parte do princıpio
de cada intervalo e um par de variaveis quantitativas e realiza duas regressoes classicas
separadas sobre estas variaveis, combinando o resultado em alguma forma apropriada.
Nesse contexto, duas etapas principais estao envolvidas na construcao destes classi-
ficadores. Na etapa de treinamento, as funcoes lineares para modelar a probabilidade a
posteriori das classes do conjunto de treinamento sao construıdos. No passo de alocacao,
novos exemplos sao afetados a uma classe de acordo com a probabilidade a posteriori
estimada.
A ideia e usar a funcao de distribuicao logıstica classica e introduzir uma analise de
regressao logıstica de multiplas classes para dados simbolicos do tipo intervalo na qual
cada classe tem uma saıda binaria contra as outras classes. Este modelo de multiplas
classes tem sido relacionado usualmente com tecnicas de aprendizagem de maquina, tais
como redes neurais e maquina de vetor de suporte.
Os classificadores iniciam com a construcao de funcoes lineares que modelam proba-
bilidade posteriori das classes, baseados na distribuicao logıstica e usando estas probabi-
lidades para classificar novos padroes para uma das classes. Representacoes diferentes da
informacao contida no intervalo de dados sao considerados.
A precisao dos resultados fornecidos pelos classificadores foi avaliada pela taxa de
erros de classificacao e o melhor resultado foi obtido com o classificador que executa duas
regressoes logısticas separadas nos limites inferiores e superiores dos intervalos e a media
da probabilidade a posteriori obtida com a probabilidade a posteriori combinada.
Comparado com um classificador dos k vizinhos mais proximos e um discriminante
linear para os dados simbolicos do tipo intervalo introduzido na literatura da ADS, este
metodo proposto forneceu o melhor o desempenho utilizando conjuntos de dados do tipo
intervalo reais e simulados [Lima Neto et al., (2011)].
2.6 COMENTARIOS FINAIS
Nas primeiras secoes deste capıtulo foi apresentado um resumo sobre analise de dados
simbolicos. Esse resumo foi necessario para contextualizar as definicoes discutidas nos
modelos de regressao linear para dados simbolicos do tipo intervalo apresentados na secao
2.6 COMENTARIOS FINAIS 30
2.4.
Os metodos de regressao para dados simbolicos do tipo intervalo utilizaram o metodo
dos mınimos quadrados. Esse processo consiste em encontrar um conjunto de parametros
para o modelo dos dados que minimize a soma dos quadrados dos erros desse modelo.
Os parametros encontrados nao sao viesados, contudo sao fortemente influenciados
pela presenca de dados discrepantes. Essa desvantagem e importante porque os metodos
de regressao simbolica, ate entao propostos e apresentados neste capıtulo, utilizam os
mınimos quadrados como tecnica para estimacao dos parametros do modelo.
Por serem baseados nos mınimos quadrados, os tres metodos de regressao linear
simbolica apresentados nao propoem suposicoes de distribuicao de probabilidades para o
modelo dos erros.
Alem disso, dado que um determinado modelo foi ajustado a um conjunto de dados,
verificou-se que em alguns casos o modelo poderia predizer um intervalo para a variavel
resposta cujo limite inferior seria maior do que o limite superior, violando a definicao de
dado simbolico do tipo intervalo.
CAPITULO 3
REGRESSAO ROBUSTA PARA DADOS SIMBOLICOS
DO TIPO INTERVALO
Este capıtulo introduz a metodologia de regressao linear robusta para dados intervalares.
A principal caracterıstica desse modelo e que os parametros do modelo sao estimados
atraves do metodo dos mınimos quadrados reponderados, alem de ser menos susceptıvel
a presenca de observacoes discrepantes (outliers).
3.1 INTRODUCAO
A analise de dados atraves de regressao linear e uma tecnica largamente utilizada na
engenharia, gestao e em areas onde realiza-se estimativas. A ampla utilidade de regressao
tem expandido no ultimos anos. O principal objetivo deste capıtulo e propor um modelo
de regressao robusta para dados simbolicos do tipo intervalo.
Quando no modelo de regressao linear y = Xβ + ε e considerada distribuicao normal
para a variavel resposta, o metodo dos mınimos quadrados e um bom procedimento para
estimacao dos parametros do vetor β, com boas propriedades estatısticas. Entretanto,
existem muitas situacoes em que a distribuicao da variavel resposta pode nao ser normal
e/ou ainda a existencia de outliers que afetam o modelo de regressao. Portanto, a pre-
senca de um ou mais outliers nos dados e um problema frequentemente encontrado nas
aplicacoes de regressao.
Os outliers fornecem informacoes valiosas sobre a qualidade do ajuste do modelo e
sao indicativos fortes de fenomenos atıpicos. Observacoes outliers sao pontos incomuns
no conjunto de dados e diferem significativamente das demais observacoes do conjunto
de dados. Tais dados podem ter uma forte influencia sobre a analise de regressao, parti-
cularmente em modelos de regressao baseados nos estimadores de mınimos quadrados.
O metodo de regressao robusta minimiza o efeito das observacoes que deveriam ser
altamente influenciadas, caso o metodo dos mınimos quadrados fosse utilizado. O objetivo
da estimacao robusta e buscar estimadores eficientes sob certo modelo de modo que
pequenas perturbacoes na distribuicao da amostra produzam pequenas alteracoes nas
estimativas. Portanto, quando a distribuicao e normal e nao existem outliers, o metodo
31
3.2 CONSTRUCAO DO MODELO E REGRA DE PREDICAO 32
de estimacao robusto produz os mesmos resultados que o metodo dos mınimos quadrados.
Em vista do impacto potencial, a identificacao dessas observacoes e uma preocupacao
importante do processo de construcao do modelo de regressao. Isto e, algumas observacoes
tem efeito sobre a precisao da estimativa do parametro, e/ou a capacidade de previsao
do modelo.
Os metodos de regressao robusta sao tecnicas que potencialmente podem ser usadas
quando outliers estao presentes. Existem varios tipos de outliers que ocorrem no con-
texto de modelos de regressao. Uma classificacao [Montgomery et al., (2006)] comum e
a seguinte:
1. Regressao outlier e um ponto que desvia da relacao linear que e determinada pelas
n− 1 observacoes;
2. Residual outlier ocorre quando existe um ponto que tem um grande resıduo studen-
tizado ou padronizado quando e usado na amostra de n observacoes para ajustar o
modelo;
3. Outlier no espaco de X , ocorre quando existe uma observacao que e remota a uma
ou mais coordenadas de X ;
4. Outlier no espaco de Y , ocorre quando ha uma observacao que tem uma coordenada
de Y nao usual;
5. Outlier no espaco de X e Y , ocorre quando existem observacoes que estao fora de
ambas as coordenadas de X e Y .
A regressao robusta e uma alternativa importante para analisar os dados na presenca
de outliers. Esta tecnica tem sido desenvolvida como uma alternativa para estimativa do
metodo dos mınimos quadrados na presenca de outliers.
3.2 CONSTRUCAO DO MODELO E REGRA DE PREDICAO
Na metodologia apresentada por [Lima Neto e De Carvalho, (2008)] verificou-se que a
informacao do centro e da amplitude dos intervalos sao importantes para ajustar o modelo
de regressao. Neste modelo, o processo de estimacao e baseado no metodo dos mınimos
quadrados, o qual nao assume suposicao probabilıstica sobre a distribuicao dos erros. No
entanto, este modelo sofre forte influencia quando ha outliers do tipo intervalo.
O modelo de regressao robusta para dados simbolicos do tipo intervalo proposto neste
trabalho, considera duas regressoes lineares robustas independentes para o centro e a
3.2 CONSTRUCAO DO MODELO E REGRA DE PREDICAO 33
amplitude dos intervalos do conjunto de dados simbolicos, respectivamente. A predicao
dos limites inferiores e superiores dos novos intervalos e baseada nas estimativas do centro
e da amplitude desses intervalos.
Seja Ω = 1, . . . , n um conjunto de dados de n objetos simbolicos do tipo intervalo, des-
critos pela variavel resposta intervalar Y e p variaveis intervalares preditoras (X1, . . . , Xp).
Cada objeto i de Ω e representado por um vetor de caracterıstica intervalar zi=(xi, yi),
xi = (xi1, . . . , xip) em que xij = [aij , bij ] ∈ ℑ = [a, b] : a, b ∈ ℜ, a ≤ b (j = 1, . . . , p) e
yi = [αi, λi] ∈ ℑ.Seja Y c , Xc
j , Y r e Xrj , respectivamente, variaveis quantitativas que descrevem o
centro e a amplitude dos intervalos yi ∈ Y e xij ∈ Xj (j = 1, 2, . . . , p). Isso significa
que cada exemplo Ω = 1, . . . , n e representado pelo par vi = (xci , yci ) e ri = (xri , y
ri ) com
xci = (xci0, xci1, . . . , x
cip)
T e xri = (xri0, xri1, . . . , x
rip)
T em que xci0 = xri0 = 1, xcij = [aij + bij ]/2,
xrij = bij − aij , yci = [αi+ λi]/2 e yri = λi−αi sao, respectivamente, os valores observados
de Xcj , X
rj , Y
c e Y r para j = 1, . . . , p.
Considere βc = (βc0, βc1, . . . , β
cp)
T e βr = (βr0, βr1, . . . , β
rp)
T como sendo dois vetores de
p+1 parametros e εc= (εc1, εc2, . . . , ε
cn)
T , εr= (εr1, εr2, . . . , ε
rn)
T como sendo dois vetores de
n erros desconhecidos no centro e na amplitude dos intervalos. Dois modelos de regressao
lineares, nos valores do centro (yci ) e da amplitude (yri ), respectivamente, sao dados por:
yci = x′ci β
c + εci ,
yri = x′ri β
r + εri . (3.1)
Os vetores βc = (βc0, βc1, . . . , β
cp)
T e βr = (βr0 , βr1, . . . , β
rp)
T sao estimados, minimizando
uma funcao criterio baseada na funcao ρ para ambos os erros εci = yci − xc,Ti βc e εri =
yri−xr,Ti βr. Aqui, ambos os erros sao variaveis aleatorias independentes. A funcao criterio
e dada por
n∑
i=1
ρ
(εcis
)+ ρ
(εris
). (3.2)
onde s e um estimador nao viesado de σ (estimador robusto) e ρ e uma funcao particular.
Segundo [Montgomery et al., (2006)], uma escolha popular para s e dada por:
s =mediana |εi −mediana (εi)|
0, 6745. (3.3)
Minimizar a equacao (3.2) e equivalente a termos dois problemas de minimizacao:
3.2 CONSTRUCAO DO MODELO E REGRA DE PREDICAO 34
1. para encontrar βc, o valor de βc que minimiza
n∑
i=1
ρ(yci − x
c,Ti βc
s); (3.4)
2. para encontrar βr, o valor de βr que minimiza
n∑
i=1
ρ(yri − x
r,Ti βr
s). (3.5)
Para obter as expressoes para βc e βr, alguns procedimentos iterativos podem ser usa-
dos como: metodos de Newton Raphson, de BFGS (Broyden Fletcher Goldfarb Shannon),
de Scoring Fisher, entre outros. Nessa area, o metodo de Scoring Fisher (mınimos quadra-
dos reponderados com uma variavel resposta modificada) e o mais usado ([Beaton e Tukey, (1974)]).
O metodo Scoring Fisher pode ser facilmente aplicado para obter βc e βr. O processo
iterativo para βc e βr e dado pelo algoritmo 1.
3.2 CONSTRUCAO DO MODELO E REGRA DE PREDICAO 35
Algoritmo 1 Mınimos Quadrados Reponderados.Requerer t = 0
1: Inicialize um valor para s e um vetor de valores para os coeficientes βc0 e βr0 pelo
metodo dos mınimos quadrados
2: Defina ψ(x) = ρT(x)
3: Para todo i igual 1 ≤ i ≤ n faca
4: Computar os pesos wcit e writ
wcit =
ψ[(yi−xc,Ti βc
t)/s](yci−x
c,Ti βc
t)/s, if yci 6= x
c,Ti βct
1, if yci = xc,Ti β
c
t
writ =
ψ[(yri −xr,Ti β
r
t)/s](yri −x
′ri βr
t)/s, if yri 6= x
r,Ti βrt
1, if yri = xr,Ti β
r
t .
5: Computar o passo t dos estimadores dos mınimos quadrados reponderados
βc
t+1 =(X
′cWct+1X
c)−1
X′cWc
t+1yc β
r
t+1 =(X
′rWrt+1X
r)−1
X′rWr
t+1yr.
Inicie Wc e Wr com duas matrizes diagonais com elementos dados por wcit e writ,
respectivamente..
6: fim para
7: Se ∣∣∣∣∣
∣∣∣∣∣βc
t+1 − βc
t
βct
∣∣∣∣∣
∣∣∣∣∣ ≤ ǫ e
∣∣∣∣∣
∣∣∣∣∣ˆβrt+1 − βrt
βrt
∣∣∣∣∣
∣∣∣∣∣ ≤ ǫ
e ǫ < 0.0001 pare. Senao, faca t = t+ 1 e va para o passo 3.
Existem varias funcoes de criterios associadas ao metodo de regressao robusta que e ca-
racterizado pela funcao ψ que controla os pesos dado a cada
resıduo ([Huber e Ronchetti, (2009)], [Rousseau e Leroy, (1987)]).
Por exemplo, a funcao criterio Tukey’s biweight ρ(x) tem como funcao monotona
ψ(x) = ρT(x), ponderando os resıduos grandes com pesos pequenos diferentemente do
metodo dos mınimos quadrados. A funcao Tukey’s biweight ρ(x) , sua funcao correspon-
dente ψ(x) e sua funcao de peso w(x) sao dados por, respectivamente:
ρ(x) =
c2
6(1− [1− (x/c)2]3)
c2
6.
ψ(x) =
x[1− (x/c)2]2
0.
para|x| ≤ c
para|x| > c
3.3 DEFINICAO DE OUTLIER SIMBOLICO DO TIPO INTERVALO 36
w(x) =
[1− (x/c)2]2 para |x| ≤ c
0 se |x| > c.
Figura 3.2 destaca a funcao Tukey’s biweight (ψ(x)) onde x e obtido de uma distri-
buicao uniforme [−5, 5] e c = 4, 685 com (ψ(x)) = Y .
−4 −2 0 2 4
−1.0
−0.5
0.0
0.5
1.0
X
Y
Figura 3.1 Funcao de Tukey’s Biweight.
Regra de Predicao
A i-esima predicao dos limites inferiores e superiores yi = [αi, λi] de um novo exemplo
e baseada nas predicoes yci e yri . Dado um vetor de intervalo xi = ([ai1, bi1], . . . , [aip, bip])
com xcij = (aij+bij)/2 e xrij = bij−aij (i = 1, . . . , n) (j = 1, . . . , p), o intervalo yi = [αi, λi]
e obtido da seguinte forma:
αi = yci − yri /2 e λi = yci + yri /2,
onde yci = xc,Ti β
ce yri = x
r,Ti β
rcom x
c,Ti = (1, xci1, . . . , x
cip) e x
r,Ti = (1, xri1, . . . , x
rip).
3.3 DEFINICAO DE OUTLIER SIMBOLICO DO TIPO INTERVALO
Em regressao linear classica, uma observacao residual e definida como a diferenca entre
o valor predito baseado na equacao de regressao e o valor observado. Um outlier e uma
observacao com altos valores residuais estudentizados (∆i).
Altos resıduos estudentizados sao aqueles com valores maiores que 2, 0 e devem ser
investigados como potencial outlier, conforme [Montgomery et al., (2006)]. Aqui, tres
tipos de outliers intervalares sao definidos no contexto de regressao linear para dados
3.4 EXPERIMENTOS COM SIMULACAO MONTE CARLO 37
simbolicos do tipo intervalo.
3.3.1 Definicao de outlier intervalar no centro
Um outlier intervalar (xi, yi) no centro refere-se a um objeto i de Ω que tem | ∆ci |≥ 2
(resıduo grande) no centro da coordenada de yci , onde
∆ci =
yci − yciσci√
1− hcii, (3.6)
e hcii = xci(XT,cXc)−1x
T,ci , onde Xc = (xc1,x
c2, . . . ,x
cn).
3.3.2 Definicao de outlier intervalar na amplitude
Um outlier intervalar (xi, yi) na amplitude refere-se a um objeto i de Ω que tem | ∆ri |≥ 2
(resıduo grande) na amplitude da coordenada de yri , onde
∆ri =
yri − yriσri√1− hrii
(3.7)
e hrii = xri (XT,rXr)−1x
T,ri , onde Xr = (xr1,x
r2, . . . ,x
rn).
3.3.3 Definicao de outlier intervalar no centro e na amplitude
Um outlier intervalar (xi, yi) no centro e na amplitude refere-se a um objeto de Ω que
tem | ∆ci |≥ 2 e | ∆r
i |≥ 2 com ∆ci e ∆
ri definidos como nas equacoes (3.6) e (.), respec-
tivamente.
3.4 EXPERIMENTOS COM SIMULACAO MONTE CARLO
Para ilustrar o metodo de regressao robusta intervalar (RRI) proposto neste trabalho
chamado de (RRI), experimentos de simulacao com um conjunto de dados intervalar de
375 intervalos em ℜ3 sao apresentados.
O objetivo e comparar esse metodo com o metodo de regressao linear intervalar (RLI)
introduzido por [Lima Neto e De Carvalho, (2008)] chamado de (RLI) que tem sido lar-
gamente utilizado na predicao de dados intervalares. O desempenho destas abordagens
sera avaliado em termos da magnitude do erro medio relativo que e estimado pelo metodo
3.4 EXPERIMENTOS COM SIMULACAO MONTE CARLO 38
hold out, segundo [Billard e Diday, (2006)].
A magnitude do erro medio relativo (MMRE), e dada por:
MMRE =1
2n
n∑
i=1
∣∣∣∣αi − αiαi
∣∣∣∣ +∣∣∣∣∣λi − λiλi
∣∣∣∣∣
. (3.8)
OMMRE e calculado para cada configuracao do conjunto de dados contendo outliers
intervalares em relacao aos metodos RRI e RLI. A cada iteracao da simulacao de Monte
Carlo, um modelo de regressao para o conjunto de treinamento com dados simbolicos do
tipo intervalo e ajustado.
3.4.1 Simulacao Monte Carlo
Os experimentos consistem de uma sequencia de algoritmos organizados no metodo de
simulacao Monte Carlo com 5000 repeticoes. Essa simulacao inicia com a geracao dos
conjuntos de dados intervalares contendo outliers e a aplicacao dos metodos para esses
conjuntos. Tres diferentes cenarios de dados contendo outliers intervalares sao estabe-
lecidos. Para cada cenario, cinco porcentagens diferentes (2%, 3% ,5%, 10% e 15%) de
outliers intervalares sao adotados no conjunto de treinamento. O metodo de simulacao
Monte Carlo e descrito no algoritmo 2.
3.4 EXPERIMENTOS COM SIMULACAO MONTE CARLO 39
Algoritmo 2 Simulacao Monte Carlo.Requerer n = 100
1: Para todo j igual 1 ≤ j ≤ 50 faca
2: Definir que cada coeficiente bk (k = 0, 1, 2) e obtido de uma distribuicao uniforme
com valores mınimo e maximo: 0 e 10, respectivamente.
3: Para todo i igual 1 ≤ i ≤ n faca
4: Gerar um conjunto de dados intervalar baseado no processo gaussiano, de acordo
com o algoritmo 3.
5: Particionar aleatoriamente o conjunto de dados intervalar gerado no conjunto
de treinamento (75% do conjunto de dados) e no conjunto de teste (25% do
conjunto de dados).
6: Obter intervalos outliers no conjunto de treinamento de acordo com o algoritmo
4.
7: Construir modelos de regressao para o centro e a amplitude, respectivamente,
de acordo com a subsecao 3.2.
8: Aplicar a regra de predicao para o conjunto de teste de acordo com a subsecao
3.3.
9: ComputarMMREi (magnitude do erro medio relativo) usando a equacao (3.8).
10: fim para
11: Computar a media e o desvio padrao dos erros MMREj.12: fim para
3.4 EXPERIMENTOS COM SIMULACAO MONTE CARLO 40
Algoritmo 3 Geracao de um conjunto de dados intervalar.Requerer n = 375
1: Para todo i igual 1 ≤ i ≤ n faca
2: Definir que o erro εi e obtido de uma distribuicao normal com media 0 e desvio
padrao 1.
3: Definir que o preditor de ponto xij (j = 1, 2) e gerado de uma distribuicao uni-
forme com valores mınimo e maximo: 20 e 40 ([Lima Neto e De Carvalho, (2008)]),
respectivamente.
4: Computar uma resposta de ponto yi = b0 + xi1b1 + xi2b2 + εi.
5: fim para
6: Para todo i igual 1 ≤ i ≤ n faca
7: Obter uma amostra de 50 pontos no ℜ3, de acordo com uma distribuicao normal
multivariada com vetor de media µ = (xi1, xi2, yi) e a matriz diagonal de covariancia
Σ com σjj = 9 (j = 1, 2, 3).
8: Computar os intervalos preditores [ai1 = l1, bi1 = u1] , [a12 = l2, bi2 = u2] e a
resposta intervalar [αi = l3, λi = u3] onde lj e uj (j = 1, 2, 3) sao, respectivamente,
os valores mınimo e maximo da amostra obtida no passo 7.
9: fim para
3.4 EXPERIMENTOS COM SIMULACAO MONTE CARLO 41
Algoritmo 4 Geracao dos outliers intervalares
1: Definir que no e o numero de outliers intervalares e sao selecionados no utilizando as
seguintes porcentagem do conjunto de dados de tamanho n: 2%n, 3%n, 5%n, 10%n
e 15%n.
2: Escolher um cenario de 1, 2, 3, 4, 5.3: Computar os conjuntos de dados (yci ,x
ci) e (yri ,x
ri ) (i = 1, . . . , n), a partir do con-
junto de dados intervalares gerado no algoritmo 3.
4: Se cenario 1 (Figura 3.2) e considerado, obter outliers de centro como segue: selecione
o centro do conjunto de dados (yci ,xci) (i = 1, . . . , n) em ordem decrescente e obtenha
o primeiro elemento no ordenado do centro do conjunto de dados. Compute outliers
de centro por yci = yci + 9Syc com (i = 1, . . . , no) onde Syc e o desvio padrao do
conjunto (yc1, . . . , ycn).
5: Se cenario 2 (Figura 3.3) e considerado, obtenha outliers de centro da seguinte forma:
defina to e bo tal que to+ bo = no. Selecione o centro do conjunto de dados em ordem
decrescente (yci ,xci) (i = 1, . . . , n), obtenha o primeiro elemento to e compute outlier
de centro por yci = yci + 9Syc com (i = 1, . . . , to). Obtenha o ultimo elemento bo
desse conjunto selecionado e compute outliers de centro por yci = yci − 9Syc com
(i = 1, . . . , bo).
6: Se cenario 3 (Figura 3.4) e considerado, obtenha o outlier de amplitude como se-
guinte: selecione elementos no aleatoriamente do conjunto de dados e compute outli-
ers de amplitude por yri = yri 9Syc com (i = 1, . . . , no).
7: Se cenario 4 (Figura 3.5) e considerado, obtenha outliers de centro e de amplitude
como seguinte: selecione o centro do conjunto de dados (yci ,xci) (i = 1, . . . , n) em
ordem decrescente e obtenha o primeiro elemento no dos selecionados no centro dos
conjuntos de dados. Compute outlier de centro por yci = yci+9Syc com (i = 1, . . . , n0).
Selecionado aleatoriamente uma amostra de 30%no elementos do conjunto de outliers
de centro e compute outliers de amplitude por yri = yri 9Syc com (i = 1, . . . , (30%no)).
8: Se cenario 5 (Figura 3.6) e considerado, obtenha outliers de centro e amplitude como
segue: selecione o centro do conjunto de dados (yci ,xci) (i = 1, . . . , n) em ordem decres-
cente e obtenha o primeiro elemento 70%no em ordem decrescente dos selecionados
no centro do conjunto de dados. Compute outliers de centro por yci = yci + 9Syc com
(i = 1, . . . , (70%no)). Selecione 30%no elementos aleatoriamente do conjunto de dados
intervalar e compute outliers de amplitude por yri = yri 9Syc with (i = 1, . . . , (30%no)).
Outliers intervalares em ℜ3 sao criados baseados no centro e na amplitude do conjunto
de dados (yci , xci) e (y
ri , x
ri ) (i = 1, . . . , n), respectivamente. E importante perceber que um
3.4 EXPERIMENTOS COM SIMULACAO MONTE CARLO 42
hipercubo outlier precisa ser muito mais do que um simples ponto. As Figuras 3.2 a 3.6
ilustram o conjunto de dados intervalares dos cenarios 1 a 5 com diferentes porcentagens
e tipos de outliers intervalares. Conforme descrito abaixo:
No cenario 1: a Figura 3.2(a) e mostrada uma alta variabilidade no centro dos
hipercubos. Assim, observa-se na Figura 3.2(b) a presenca de outliers na parte
superior do centro dos intervalos.
No cenario 2: a Figura 3.3(a) e mostrada uma alta variabilidade no centro dos
hipercubos. Observando na Figura 3.3(b) a presenca de outliers na parte superior
e inferior do centro dos intervalos.
No cenario 3: a Figura 3.4(a) mostra uma situacao de alta variabilidade na ampli-
tude dos hipercubos. Logo, observa-se na Figura 3.4(c)a presenca de outliers na
parte superior da amplitude dos intervalos.
No cenario 4: a Figura 3.5(a) representa um cenario mais complexo onde as si-
tuacoes de alta variabilidade ocorrem simultaneamente no centro e na amplitude
dos hipercubos. Desta forma, percebe-se na Figura 3.5(b) a presenca de outliers
na parte superior do centro dos intervalos e desses mesmos outliers de centro sao
selecionados 30% para serem tambem outliers de amplitude dos intervalos conforme
Figura 3.5(c).
No cenario 5: a Figura 3.6(a) representa um cenario mais complexo com situacoes de
alta variabilidade no centro e na amplitude dos hipercubos. Deste modo, seleciona
aleatoriamente 70% de n0 para serem os outliers do centro dos intervalos conforme
Figura 3.6(b). Posteriormente, sao selecionados 30% de n0 para serem representados
como outliers de amplitude, ilustrado na Figura 3.6(c).
Os cenarios 4 e 5 apresentam situaoes mais complexas de outliers intervalares que
podem surgir em aplicacoes reais. Para tais situacoes, ratifica-se a eficiencia do
modelo proposto em relacao ao existente na literatura de ADS.
3.4 EXPERIMENTOS COM SIMULACAO MONTE CARLO 43
(a) Intervalar
(b) Centro (c) Amplitude
Figura 3.2 Cenario 1.: Alta variabilidade na parte superior do centro dos hipercubos.
3.4 EXPERIMENTOS COM SIMULACAO MONTE CARLO 44
(a) Intervalar
(b) Centro (c) Amplitude
Figura 3.3 Cenario 2.:Alta variabilidade na parte superior e inferior do centro dos hipercubos.
(a) Intervalar
(b) Centro (c) Amplitude
Figura 3.4 Cenario 3.: Alta variabilidade na parte superior da amplitude dos hipercubos.
3.4 EXPERIMENTOS COM SIMULACAO MONTE CARLO 45
(a) Intervalar
(b) Centro (c) Amplitude
Figura 3.5 Cenario 4.:Alta variabilidade no centro e na amplitude dos hipercubos conjunta-
mente.
3.4 EXPERIMENTOS COM SIMULACAO MONTE CARLO 46
(a) Intervalar
(b) Centro (c) Amplitude
Figura 3.6 Cenario 5.:Alta variabilidade n centro e na amplitude dos hipercubos separada-
mente.
3.4.2 Analise de Desempenho
A avaliacao de desempenho do metodo proposto e baseda na magnitude do erro medio
relativo (MMRE), definido na equacao (3.8). Com isso, o modelo ajustado e aplicado
para predizer os valores intervalares de cada variavel intervalar dependente na simulacao
do conjunto de teste. Para cada 100 repeticoes, a media e o desvio padrao do MMRE
sao calculados.
As Tabelas 3.1 e 3.2 fornecem os valores da media e do desvio padrao (entre parenteses)
do MMRE obtido pelos metodos (RRI,RLI) nos cenarios 1 a 5, respectivamente, em
relacao aos coeficientes b0 = 4, 12, b1 = 3, 79 e b2 = 1, 95 pelo algoritmo 2 e os valores
de t0 e b0 definidos no algoritmo 4. O metodo RRI supera o metodo RLI em todas as
situacoes com diferentes porcentagens de outliers apresentados nos cenarios 1 a 5.
A fim de avaliar o desempenho desses metodos com conjuntos de dados intervalares
sem outliers, um experimento foi realizado e a media e o desvio padrao (entre parenteses)
do MMRE para os metodos RLI e RRI sao, respectivamente: (0,03440 , (0,00235)) e
(0,03441 , (0,00236)). Esses resultados mostram claramente que os modelos RRI e RLI
obtiveram desempenhos similares.
3.4 EXPERIMENTOS COM SIMULACAO MONTE CARLO 47
Os resultados de MMRE para o metodo RRI e RLI sao apresentados nas Tabelas 3.1
e 3.2. E importante verificar que nos cenarios 1, 2, 3 e 4 o desempenho do metodo RRI
nao degrada quando o numero de outliers aumenta. O contrario e registrado no metodo
RLI. Ja no cenario 2, quando os outliers sao colocados na parte superior e inferior da
nuvem de intervalos percebe-se que o metodo RRI degrada para mais de 5% de outlier e
apresentaram resultado similar em relacao ao resultado do metodo RLI.
Tabela 3.1 Media e Desvio Padrao (entre parentesis) do MMRE para os metodos RRI e RLI
nos cenarios 1 e 2.
Cenario 1 Cenario 2
t0 = 2, 5% e b0 = 2, 5% t0 = 3, 5% e b0 = 1, 5%
Quantidade (%) RLI RRI RLI RRI RLI RRI
Outlier Metodo Metodo Metodo Metodo Metodo Metodo
2 % 0, 0621 0, 0343 0, 0812 0, 0345 0, 1462 0, 0346
(0, 0072) (0, 0022) (0, 0062) (0, 0021) (0, 0116) (0, 0022)
3 % 0, 0880 0, 0344 0, 1458 0.0346 0, 2077 0, 0344
(0, 0087) (0, 0023) (0, 0122) (0, 0022) (0, 0176) (0, 0023)
5 % 0, 2560 0, 0340 2, 5502 2, 5238 2, 6467 2, 5599
(0, 0273) (0, 0024) (0, 1200) (0, 1075) (0, 1099) (0, 0965)
10 % 0, 4202 0, 0310 2, 7095 2, 6392 2, 6677 2, 5093
(0, 0445) (0, 0023) (0.1327) (0.1009) (0, 1221) (0, 0915)
15% 0, 6247 0, 0331 2, 5699 2, 4800 2, 8624 2, 5982
(0, 0596) (0, 0024) (0, 1478) (0, 0955) (0, 1655) (0, 1006)
3.4 EXPERIMENTOS COM SIMULACAO MONTE CARLO 48
Tabela 3.2 Media e Desvio Padrao (entre parenteses) do MMRE para os metodos RRI e
RLI nos cenarios 3, 4 e 5.
Cenario 3 Cenario 4 Cenario 5
Quantidade (%) RLI RRI RLI RRI RLI RRI
Outlier Metodo Metodo Metodo Metodo Metodo Metodo
2 % 0, 4764 0, 0347 0,0621 0,0346 0,0556 0,0340
(0, 0598) (0, 0023) (0,0056) (0,0024) (0,0062) (0,0024)
3 % 0, 7422 0, 0345 0,0870 0,0347 0,0699 0,0344
(0, 0572) (0, 0023) (0,0081) (0,0026) (0,0079) (0,0025)
5 % 0, 0806 0, 0334 0,2448 0,0324 0,1633 0,0312
(0, 0051) (0, 0027) (0,0223) (0,0026) (0,0165) (0,0027)
10 % 0, 1285 0, 0329 0,4273 0,0303 0,3341 0,0356
(0, 0083) (0, 0025) (0,0400) 0,0028 (0,0297) (0,0028)
15% 0, 17869 0, 0317 0,6743 0,0361 0,4620 0,0336
(0, 0120) (0, 0026) (0,0753) (0,0032) (0,0397) (0,0027)
O ganho relativo (GR) e utilizado neste trabalho para descrever a reducao do erro
de previsao do modelo proposto. Assim, o GR foi apresentado para ratificar a eficiencia
do modelo proposto (RRI) em relacao ao modelo da literatura (RLI). Esse ganho e
calculado pela relacao do MMRE dos metodos RLI e RRI de acordo com a equacao
3.9.
GR = 100(MMRERLI −MMRERRI
MMRERLI). (3.9)
Note que na Tabela 3.3 , o ganho relativo e melhorado quando a quantidade de outliers
intervalares aumenta nos cenarios propostos. Como esperado, valores pequenos do ganho
relativo sao observados nas situacoes do cenario 2 em que existem dois grupos de outliers
de intervalo no centro que estao acima e abaixo da superfıcie ajustada, respectivamente.
Os valores mais elevados sao obtidos nas situacoes com altos percentuais de outliers
dos cenarios 1 a 5. No cenario 1 existem apenas outliers intervalares no centro, ja no
cenario 5 existem outliers intervalares no centro, mas alguns deles sao tambem outliers
intervalares de amplitude.
3.5 APLICACAO A DADOS REAIS 49
Tabela 3.3 Comparacao entre modelos de regressao de acordo com o ganho relativo (%) do
MMRE.
Quantidade MMRE(%)
Outlier Cenario 1. Cenario 2. Cenario 3. Cenario 4. Cenario 5.
2% 44, 76% 57, 51% 76, 33% 92, 71% 44, 28% 38, 84%
3% 60, 90% 76, 26% 83, 43% 95, 35% 60, 11% 50, 78%
5 % 86, 71% 1, 03% 3, 27% 58, 56% 86, 76% 80, 89%
10 % 92, 62% 2, 59% 5, 93% 74, 39% 92, 90% 89, 34%
15 % 94, 70% 3, 49% 9, 23% 82, 25% 94, 64% 92, 72%
O teste estatıstico unilateral Wilcoxon [Montgomery e Ruger, (2003)] para amostras
emparelhadas foi aplicado na media do MMRE na simulacao Monte Carlo com 100
repeticoes, a fim de comparar os modelos RRI e RLI.
Alem disso, para manter a consistencia dos resultados, esse procedimento foi repe-
tido considerando 50 valores diferentes para o vetor de parametros (b0, b1, b2)′
de acordo
com o algoritmo 2. Entao a taxa de rejeicao da hipotese nula foi observada, signifi-
cando que o modelo RRI e melhor do que o modelo RLI em termos do MMRE. Para
tal, considerando-se um nıvel de significancia de 5%, obteve-se uma taxa de rejeicao da
hipotese nula de 100% para todas as situacoes e cenarios. Este resultado indica a su-
perioridade do modelo RRI em comparacao com o modelo RLI na presenca de outliers
intervalares.
3.5 APLICACAO A DADOS REAIS
Os modelos RRI e RLI sao aplicados nos conjuntos de dados intervalares: cardiologia,
carro, cogumelo, futebol e repositorio da NASA descritos no apendice A deste trabalho.
Para cada conjunto de dados intervalar, oMMRE e estimado, pelo metodo leave-one-out.
Para validar os resultados encontrados, foi realizado um teste estatıstico de Wilco-
xon para amostras pareadas com nıvel de significancia de 5%, sendo entao avaliada a
comparacao dos modelos, conforme na Tabela 3.5.
3.5.1 Conjunto de Dados: Cardiologia
O conjunto de dados intervalar cardiologia consiste de 59 pacientes descritos por tres
variaveis intervalares. Duas variaveis intervalares independente que sao: Pressao Arterial
Sistolica e Pressao Arterial Diastolica, as quais sao utilizadas para predizer o intervalo da
3.5 APLICACAO A DADOS REAIS 50
variavel dependente (Taxa de pulso), conforme Figura 3.7. Esse conjunto de dados foi co-
letado pelo Departamento de Nefrologia do Hospital del Valle Naln, na cidade de Langreo,
Espanha, sendo apresentados em alguns trabalhos como [Lima Neto e De Carvalho, (2008)]
e [Gil et al., (2007)].
50 100 150 200 250 300
20
40
60
80
100
120
140
160
20 40
60 80
100120
140
X
Y
Z
Figura 3.7 Grafico 3D: Pressao Sistolica (X), Pressao Diastolica (Z) e Taxa Pulso (Y ).
As Figuras 3.8(a) e 3.8(b) apresentam os conjuntos de centro e amplitude do conjunto
cardiologia, respectivamente. Depois do ajuste da modelo de regressao linear, os resıduos
de acordo com as definicoes (3.6) e (3.7) sao calculados. Nos resultados, percebe-se
que as observacoes intervalares 24, 28, 35 e 51 sao potenciais outliers de centro com
rc24 = 2, 24, rc28 = 2, 10, rc35 = −2, 46, rc51 = 2, 47 e as observacoes intervalares 3, 19 e 41
sao potenciais outliers na amplitude com valores rr3 = 2, 73, rr19 = 2, 93 e rr41 = 2, 25. Ou
seja, esse conjunto apresenta 7 observacoes intervalares que sao potenciais outliers.
3.5 APLICACAO A DADOS REAIS 51
(a) (b)
Figura 3.8 (a) Centro e (b) Amplitude do conjunto de dados intervalar Cardiologia.
3.5.2 Conjunto de Dados: Carro
O conjunto de dados simbolicos Carros consiste de 33 modelos descritos por oito variaveis
intervalares, duas variaveis categoricas e uma variavel nominal. Neste trabalho, apenas
tres variaveis intervalares foram consideradas, duas variaveis independentes descritas por:
velocidade maxima e cilindrada do motor, e uma variavel dependente: preco, conforme
ilustra Figura 3.9. Esse conjunto tem sido utilizado largamente na area de analise de
dados simbolicos, como por exemplo [Carvalho et al., (2007)], [Carvalho et al., (2006)],
[De Souza et. al., (2006)] e [Silva e Brito, (2006)].
0 1000 2000 3000 4000 5000 6000
150
200
250
300
350
0e+00
1e+05
2e+05
3e+05
4e+05
5e+05
X
YZ
Figura 3.9 Grafico 3D: Cilindrada do Motor (X), Velocidade Maxima (Z) e Preco (Y ).
3.5 APLICACAO A DADOS REAIS 52
As Figuras 3.10(a) e 3.10(b) apresentam os conjuntos de centro e amplitude do con-
junto carro , respectivamente, e potenciais outliers em destaque. Apos o ajuste do modelo
de regressao linear para esse conjunto de dados, observa-se que as observacoes intervalares
11 e 15 sao potenciais outliers de centro com rc11 = 2, 03 , rc15 = 2, 24 e as observacoes
4, 22 e 23 sao pontos extremos na amplitude com rc4 = 4, 64, rr22 = 2, 42 e rr23 = 2, 25.
Portanto, esse conjunto tem 5 observacoes intervalares que sao outliers candidatos.
(a) (b)
Figura 3.10 (a) Centro e (b) Amplitude do conjunto de dados intervalar Carro.
3.5.3 Conjunto de Dados: Cogumelo
O conjunto de dados intervalar cogumelo consiste de 23 especies descritas por 3 variaveis
intervalares. Nesta aplicacao, X1 e o comprimento do stipe, X2 e a espessura do stipe e
Y e o largura do pıleo, conforme Figura 3.11. Essas especies de cogumelo sao membros
do genero Agaricies. A extracao dos valores para essas variaveis podem ser encontra-
das em (http : //www.mykoweb.com/CAF/species index.html) e foi apresentada em
[Billard e Diday, (2006)].
3.5 APLICACAO A DADOS REAIS 53
0 5 10 15 20
01
23
45
0
5
10
15
20
25
X
Y
Z
Figura 3.11 Grafico 3D: Largura do Pıleo (Y ), Comprimento do Stipe (X) e Espessura do
Stipe(Z).
As Figuras 3.12(a) e 3.12(b) mostram o centro e a amplitude do conjunto de dados os
resultados dos resıduos, apos o ajuste do modelo de regressao linear para esse conjunto
de dados, observa-se que a observacao intervalar 2 e um potencial outlier de centro com
rc2 = 2, 26 e a observacao 4 e um potencial outlier no centro e na amplitude com rc4 = 2, 15
e rr4 = 2, 12, respectivamente.
(a) (b)
Figura 3.12 (a) Centro e (b) Amplitude do conjunto de dados intervalar Cogumelo.
3.5 APLICACAO A DADOS REAIS 54
3.5.4 Conjunto de Dados: Futebol
O conjunto de dados futebol (Figura 3.13) prover formacoes sobre os jogadores profis-
sonais de futebol de 20 times da Franca. Cada jogador e descrito por duas variaveis
independentes: altura e idade, e uma variavel dependente: peso. O conjunto pode ser
obtido no endereco (http : //www.ceremade.dauphine. fr/ touati/foot2.htm) e foi uti-
lizado em [Billard e Diday, (2006)].
160 165 170 175 180 185 190 195 200
1520
2530
3540
50
60
70
80
90
100
X
Y
Z
Figura 3.13 Grafico 3D: Altura (X), Idade (Z) e Peso (Y ).
As Figuras 3.14(a) e 3.14(b) ilustram o centro e a amplitude desse conjunto de dados.
Depois do ajuste do modelo de regressao linear para esse conjunto de dados, os resıduos
sao calculados e um outlier intervalar no centro com valor de rc14 = 2, 49 e identificado.
(a) (b)
Figura 3.14 (a) Centro e (b) Amplitude do conjunto de dados intervalar futebol.
3.5 APLICACAO A DADOS REAIS 55
3.5.5 Conjunto de Dados: NASA
A MDP (Metrics Data Program) e uma base que reune metricas de 13 projetos de soft-
ware e gera um repositorio dessas informacoes foram apresentados em [Oliveira, (2006)]
e [Braga et al., 2007]. Cada projeto de software consiste de um produto associado a 33
metricas de softwares. Um processo de generalizacao que transforma dados pontuais em
dados simbolicos do tipo intervalo atraves da utilizacao da biblioteca (ISDA.R) desen-
volvido neste trabalho.
Por fim, foram gerados 13 objetos simbolicos do tipo intervalo e foram escolhidas
tres variaveis intervalares. Sendo, duas variaveis intervalares independentes: numero
de operandos (X) e numero de operadores (Z), as quais sao utilizadas para predizer o
tamanho do software (Numero de Linhas, Y ), conforme ilustra Figura 3.15.
0 2000 4000 6000 8000 10000 12000
0
1000
2000
3000
4000
5000
6000
0 500
10001500
20002500
30003500
X
Y
Z
Figura 3.15 Grafico 3D: Numero de Operandos (X), Numero de Operadores (Z) e Tamanho
do Software (Y ).
As Figuras 3.16(a) e 3.16(b) ilustram o centro e a amplitude desse conjunto de dados e
os pontos extremos em destaque. Apos o ajuste do modelo de regressao robusta intervalar
para esse conjunto de dados, os resıduos sao calculados. Percebe-se que as observacoes
intervalares 6 e 10 sao pontos extremos tanto de centro quanto de amplitude, com rc6 =
2, 97 , rc10 = 2, 82, rr6 = 2, 94 e rr10 = 2, 85, respectivamente.
3.6 ANALISE DOS RESULTADOS 56
(a) (b)
Figura 3.16 (a) Centro e (b) Amplitude do conjunto de dados intervalar dos Projetos da
Nasa.
3.6 ANALISE DOS RESULTADOS
Uma analise de desempenho dos metodos de regressao para os conjuntos de dados reais
apresentados na secao 3.5 e realizada para avaliar o metodo introduzido neste trabalho.
A partir dos resultados da Tabela 3.4, observa-se que o desempenho do modelo RRI
em termos de MMRE, e superior ao desempenho do modelo RLI, pois conforme mos-
trado na secao 3.5 as bases de dados analisadas possuem outliers o que desfavorece o uso
do metodo dos mınimos quadrados.
3.6 ANALISE DOS RESULTADOS 57
Tabela 3.4 Media e Desvio Padrao (entre parenteses) doMMRE para os metodos de regressao
(RRI e RLI).
Base de Dados Conjunto de Teste
RLI RRI
Metodo Metodo
Cardiologia 0,1517 0,1425
(0,1086) (0,1062)
Carro 0,4502 0,3862
(0,4275) (0,3663)
Cogumelo 0,2338 0,1919
(0,1877) 0,1404
Futebol 0,0262 0,02161
(0,0179) (0,0162)
NASA 2,1245 0,4623
(2,3970) (0,3528)
A comparacao entre os metodos de regressao (RRI e RLI) e obtida atraves da
aplicacao do teste estatıstico de Wilcoxon [Montgomery e Ruger, (2003)] para amostras
emparelhadas com nıvel de significancia de 5%.
Portanto, µ1 e µ2 sao as medias do MMRE para os metodos RRI e RLI, respecti-
vamente. As hipoteses nula e alternativa sao:
H0 : µ1 = µ2
H1 : µ1 < µ2.
A Tabela 3.5 mostra os p-values fornecidos pelo teste estatıstico, observa-se que a
taxa de rejeicao da hipotese nula (H0) e de 100% no conjunto de teste para todas as
bases de dados. Novamente, confirma-se que o metodo RRI introduzido neste trabalho
supera o metodo RLI quando o conjunto de dados intervalar possui potencial outliers.
3.6 ANALISE DOS RESULTADOS 58
Tabela 3.5 Comparacao entre os modelos (RRI) e (RLI).
Base de Dados p-value
Conjunto de Teste
Cardiologia 1, 0558x10−7
Carro 1, 3297x10−2
Cogumelo 8, 3446x10−7
Futebol 1, 3351x10−5
NASA 6, 1035x10−4
3.6.1 Analise Grafica dos Resıduos Intervalares
Na secao 3.3 e dada um definicao de potencial outlier usando o calculo de resıduos de
centro e amplitude, respectivamente. Aqui, uma analise grafica de resıduos intervalares
e dada atraves de uma representacao intervalar definida para os resıduos como:
∆i = [(yci − yci)− 1/2(yri − yri), (yci − yci) + 1/2(yri − yri)]. (3.10)
onde yci, yri representam valores observados e yci, yri sao valores ajustados de centro e
amplitude. Assim, o resıduo pode ser visto como o desvio entre a resposta e a resposta
ajustada ou como uma medida de variabilidade da variavel resposta nao explicada pelo
modelo de regressao.
De acordo com a Figura 3.17(a), 3.17(c) e 3.17(b), observa-se a presenca de outliers
no centro e na amplitude. Ja na Figura 3.17(d), observam-se pontos extremos
apenas no centro dos intervalos.
Por fim, na Figura 3.17(e) ilustra-se duas observacoes discrepantes de centro e de
amplitude, simultaneamente. Essa representacao grafica foi ratificada atraves do
calculo dos resıduos studentizados obtidos na Secao 3.5.
Justifica-se que o modelo foi bem ajustado, como todas as bases de dados contem
valores discrepantes, a aplicacao do metodo de regressao robusta e mais indicada,
conforme foram apresentados resultados da Tabela 3.4.
3.6 ANALISE DOS RESULTADOS 59
−3 −2 −1 0 1 2 3
−2−1
01
2
Intervalo
Cen
tro
(a) Cardiologia
−3 −2 −1 0 1 2 3
−2−1
01
2
Intervalo
Cen
tro
(b) Cogumelo
−2 −1 0 1 2
−10
12
Intervalo
Cen
tro
(c) Carro
−2 −1 0 1 2 3 4
−10
12
3
Intervalo
Cen
tro
(d) Futebol
−1 0 1 2 3 4
−10
12
3
Intervalo
Cen
tro
(e) NASA
Figura 3.17 Grafico Residual Intervalar dos conjuntos de dados simbolicos reais.
3.6 ANALISE DOS RESULTADOS 60
De acordo com a Figura 3.18(a), 3.18(b) e 3.18(c), observa-se que os resıduos
distribuiem-se ao redor da media zero, ou seja, apresentam uma certa simetria.
Assim, inferi-se que realacao entre Y e seus regressores e aproximadamente linear
e os erros podem ser normalmente distribuıdos.
Ja na Figura 3.18(d) e 3.18(e), observam-se que os resıduos nao distribuem-se ao
redor da media zero, apresentando uma certa assimetria.
Residuos
Freq
uenc
ia
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
(a) Cardiologia
Residuos
Freq
uenc
ia
−2 −1 0 1 2
0.0
0.1
0.2
0.3
0.4
(b) Carro
Residuos
Freq
uenc
ia
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
(c) Cogumelo
3.7 CONSIDERACOES FINAIS 61
Residuos
Freq
uenc
ia
−2 −1 0 1 2 3 4
0.0
0.1
0.2
0.3
0.4
(d) Futebol
Residuos
Freq
uenc
ia
−1 0 1 2 3 4
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
(e) NASA
3.7 CONSIDERACOES FINAIS
O metodo de regressao linear robusta para dados simbolicos do tipo intervalo foi apresen-
tado neste trabalho. Para isso, diferentes tipos de outliers intervalares foram definidos de
acordo com a presenca de pontos aberrantes no centro e/ou na amplitude dos intervalos.
O desempenho do metodo e avaliado atraves da magnitude do erro medio relativo para
os dados simbolicos do tipo intervalo.
Experimentos de simulacao de Monte Carlo, usando varios cenarios de dados simbolicos
intervalares contendo outliers intervalares, e aplicacoes com varios conjuntos de dados
simbolicos reais, demonstraram a robustez deste metodo em comparacao com um modelo
de regressao linear para dados simbolicos intervalares que usa a abordagem do metodo
dos mınimos quadrados.
Portanto, o metodo de regressao robusta proposto e uma importante alternativa para
o uso do metodo dos mınimos quadrados, uma vez que fornecem respostas similares a
regressao por mınimos quadrados quando existe relacao linear entre as variaveis, porem
diferem significativamente dos ajustes de mınimos quadrados quando os dados contem
outliers.
CAPITULO 4
REGRESSAO KERNEL PARA DADOS SIMBOLICOS
DO TIPO INTERVALO
Este capıtulo introduz a metodologia de regressao baseada em kernel para dados simbolicos
do tipo intervalo. Esse modelo e mais uma alternativa viavel quando as suposicoes acerca
da distribuicao dos erros e/ou da forma funcional dos modelos parametricos nao se veri-
ficarem.
4.1 INTRODUCAO
A ideia em regressao nao parametrica e estimar a relacao entre a variavel resposta e
um conjunto de variaveis independentes diretamente dos dados, ao inves de estimar
parametros.
Os modelos de regressao nao parametricos tem recebido consideravel atencao nas
ultimas decadas de pesquisadores de diversas areas e vem se mostrando bastante eficazes
em problemas de predicao, quando as suposicoes necessarias aos modelos parametricos
nao se verificam [Dias, (2011)].
Tais modelos trazem consigo a vantagem da exibilidade por nao estarem restritos a
uma forma funcional especıfica, permitindo maior flexibilidade, pois asssume-se que a
curva de regressao pertence a uma colecao infinita de funcoes.
Consequentemente, para construir um modelo de regressao nao parametrica precisa-se
apenas escolher o espaco de funcoes apropriado, ao qual acredita-se que a funcao pertenca.
Esta escolha e motivada pelo grau de suavidade que a funcao de regressao pode ter.
Note que o caso parametrico e mais restrito, pois nele assume-se que a funcao pertence
a uma especıfica famılia de curvas. Daı, as tecnicas de regressao nao parametrica usam
muito mais as informacoes provindas dos dados para estimar a funcao de regressao do
que as tecnicas parametricas.
O objetivo do metodo de regressao e produzir uma analise para a funcao desconhecida
de regressao nao parametrica m, na qual para n pontos do conjunto de dados (Yi, Xi) e
erros observados (εi), a relacao pode ser modelada como
62
4.2 REGRESSAO KERNEL SIMBOLICA 63
Yi = m(Xi) + εi, i = 1, . . . , n. (4.1)
O metodo de regressao Kernel e, de fato um ajuste nao parametrico que tem sido
amplamente utilizado em muitas ciencias e areas da engenharia, tais como, inteligencia
computacional e reconhecimento de padroes. A regressao do kernel depende apenas de
dados locais para determinar a estrutura do modelo sem qualquer parametro a que se
refere, principalmente a metodos livres de distribuicao [Hardle (1994)].
Dentre os metodos de regressao nao parametrica, tem-se os estimadores por splines,
a regressao via kernel (ou estimador de Nadaraya-Watson) e os modelos generalizados
aditivos. O estimador de Nadaraya-Watson, considerado nesse trabalho, parte de uma
ideia simples, baseada na estimacao da esperanca condicional da variavel resposta atraves
de funcoes kernel.
4.2 REGRESSAO KERNEL SIMBOLICA
A regressao kernel [Montgomery et al., (2006)] e um metodo de regressao nao parametrica
e nao-linear bem estabelecido no qual o valor da variavel resposta para um ponto de teste
e estimado, usando a media ponderada dos pontos ao redor das amostras de treinamento.
O peso e tipicamente obtido atraves da aplicacao de uma funcao de distancia baseada
em kernel para cada amostra, o que pressupoe a existencia de uma metrica de distancia
bem definida.
A ideia essencial deste metodo e que na estimativa de um kernel suave e desejavel
fornecer maior peso para as observacoes do conjunto de treinamento que estao proximas
do ponto escolhido. As vantagens da utilizacao desse metodo sao: ajudar a investigar
a relacao entre o conjunto de variaveis preditoras e uma variavel resposta sem assumir
qualquer suposicao parametrica na forma da funcao, oferecendo uma alternativa quando
um ou mais pontos do conjunto sao pontos ruıdosos (ruıdos).
Esta secao apresenta quatro modelos de regressao multipla de kernel para dados do
tipo intervalo, considerando duas famılias de modelos. A primeira famılia estima os limi-
tes dos intervalos considerando uma relacao nao parametrica com o centro dos intervalos
(primeiro modelo), ja o segundo modelo considera uma relacao nao parametrica para o
centro e amplitude dos intervalos para estimar os seus limites. A segunda famılia realiza
as estimativas dos intervalos baseados em misturas de regressao. Estas misturas assu-
mem relacao nao parametrica para o centro dos intervalos e uma funcao linear baseada em
4.2 REGRESSAO KERNEL SIMBOLICA 64
mınimos quadrados para a amplitude dos intervalos (terceiro modelo). O quarto modelo
utiliza uma funcao linear baseada em mınimos quadrados para o centro dos intervalos e
uma funcao nao parametrica para a amplitude dos intervalos (quarto modelo).
A predicao dos limites inferior e superior dos novos intervalos e baseada nas in-
formacoes das estimativas do centro e/ou da amplitude. Uma vantagem adicional na
utilizacao da metodologia de regressao kernel para a amplitude e garantir que a esti-
mativa do limite superior seja maior do que a estimativa do limite inferior para cada
intervalo gerado na variavel resposta.
Seja Ω = 1, . . . , n um conjunto de dados de n objetos descritos pelo intervalo de valores
da variavel resposta Y e p variaveis preditoras intervalares com valor de X = (x1, . . . , xp).
Cada objeto i de Ω e representado como um vetor de caracterısticas intervalar zi = (xi, yi)
, xi = (xi1, . . . , xip) onde xij = [aij , bij ] ∈ ℑ = [a, b] : a, b ∈ ℜ, a ≤ b (j = 1, . . . , p) e
yi = [αi, λi] ∈ ℑ.
4.2.1 Regressao Kernel Intervalar baseado na informacao do centro RKI:C
A ideia deste metodo e utilizar a informacao do centro dos intervalos para construir uma
relacao nao linear entre a variavel resposta intervalar Y e o vetor de variaveis preditoras
intervalares x = (x1, . . . , xp)T .
4.2.1.1 Representacao dos Intervalos Considere que a variavel resposta intervalar
Y e representada por um par de variaveis quantitativas (Y α, Y λ) onde Y α e Y λ descrevem
os limites inferior e superior desta variavel, respectivamente. Cada variavel preditora
intervalar Xj e representada por uma variavel quantitativa Xcj que descreve o centro
desta variavel intervalar. Assim, X e representado por Xc.
Neste metodo de regressao, para explorar Y por X e equivalente a explorar Y α por
Xc e Y λ por Xc, separadamente.
4.2.1.2 Modelando a relacao A relacao nao linear entre Y e X e dada como:
E(Y/X) = [E(Y α/Xc), E(Y λ/Xc)], (4.2)
= [mα(Xc), mλ(Xc)],
onde mα e mλ sao funcoes desconhecidas, xc = (xc1, . . . , xcp)T com xcj = (aj + bj)/2.
4.2 REGRESSAO KERNEL SIMBOLICA 65
Baseado no estimador proposto por Nadaraya-Watson (1964), a funcao de ponderacao
para o centro dos intervalos e determinada por
mα(xc) =n∑
i=1
ωciαi e mλ(xc) =n∑
i=1
ωciλi (4.3)
onde o peso ωci e definido usando um kernel K como
ωci =K(d(xc,xci))∑ni=1K(d(xc,xci))
. (4.4)
Em particular, uma funcao de kernel gaussiana para o centro dos intervalos e dada
por:
K(d(xc,xci)) =1
(√2π)1/p
1
hpe
−d(xc,xci )
2h2 (4.5)
onde d(xc,xci) e a raiz quadrada da distancia euclideana entre xc e a localizacao de
interesse xci , dada por:
d(xc,xci) =√
(xc − xci)T (xc − xci) (4.6)
Nesta funcao de kernel, a largura de banda h e o desvio padrao de uma distribuicao
normal centrada em xcij (j = 1, . . . , p).
4.2 REGRESSAO KERNEL SIMBOLICA 66
O procedimento do metodo RKI:C e descrito a seguir:
(1. Entrada de Dados )
Seja Ω = 1, . . . , n um conjunto de dados de n objetos descritos por um vetor inter-
valar (xi, yi) como xi = ([ai1, bi1], . . . , [aip, bip])T ; yi = [αi, λi].
Compute o vetor quantitativo para cada elemento de Ω, respectivamente, (xci , yci ),
onde: xci =
(ai1+bi1
2, . . . ,
aip+bip2
)Te yci = αi+λi
2.
(2. Obtendo os Pesos)
Considere x = ([a1, b1], . . . , [ap, bp])T a ser estimado. Compute xc = [(a1 +
b1)/2, . . . , (ap + bp)/2]T .
Compute a funcao de kernel Gaussiana para o centro dos intervalos
K(d(xc,xci )) =
1
[√
2π]p
1
hpe
−d(xc,xci)
2h2 .
onde d(xc,xci ) e a distancia euclideana entre xc, definida por d(xc,xc
i ) =√(xc − xc
i )T (xc − xc
i ) e a localizacao de interesse xci e a largura de banda h
e definda previamente.
Compute o peso ωci =
K(d(xc,xci ))∑
ni=1
K(d(xc,xci)).
(3. Estimando o Intervalo)
Baseado no estimador Nadaraya-Watson compute a funcao
E(Y/X) =[mα(xc), mλ(xc))
]=
[∑ni=1 ω
ciαi,
∑ni=1 ω
ciλi
].
4.2.2 Regressao Kernel Intervalar baseado na informacao do centro e da ampli-
tude RKI:CA
Este metodo tem como objetivo encontrar uma relacao suave e nao linear entre a variavel
resposta intervalar Y e o vetor de variaveis preditoras intervalar X = (X1, . . . , Xp)T
usando a informacao do centro e amplitude dos intervalos.
4.2.2.1 Representando intervalos A variavel resposta intervalar [αi, λi] pode ser
reescrita por:
yi = [αi, λi] = [yci − yri /2, yci + yri /2].
Assumindo o resultado acima, a variavel resposta intervalar e representada por um par
4.2 REGRESSAO KERNEL SIMBOLICA 67
de variaveis quantitativas (Y c, Y r) que descrevem o centro e a amplitude dos intervalos,
respectivamente.
Considere tambem que cada variavel que descreve a variavel preditora intervalar Xj
e representada por um par de variaveis quantitativas (Xcj , X
rj ) que descreve o centro e a
amplitude desta variavel intervalar. Assim, X e representada por (Xc,Xr).
Neste metodo de regressao, explorar Y por X e equivalente a explorar Y c por Xc e
Y r por Xr, separadamente.
4.2.2.2 Modelando a relacao Uma relacao nao linear entre Y e X e dada como:
E(Y/X) = [E(Y c/Xc)− 1
2E(Y r/Xr), E(Y c/Xc) +
1
2E(Y r/Xr)], (4.7)
= [mc(Xc)− 1
2mr(Xr), mc(Xc) +
1
2mr(Xr)],
onde mc e mr sao funcoes desconhecidas, xc = (xc1, . . . , xcp)T onde xcj = (aj + bj)/2 e
xr = (xr1, . . . , xrp)T com xrj = (bj − aj). Outra vez usando o estimador proposto por
Nadaraya-Watson (1964), duas funcoes ponderadas resposta intervalar sao:
mc(xc) =
n∑
i=1
ωciyci e mr(xr) =
n∑
i=1
ωri yri , (4.8)
onde o peso ωci e definido na Equacao (4.4) e o peso ωri e definido tambem usando um
kernel K como
ωri =K(d(xr,xri ))∑ni=1K(d(xr,xri ))
. (4.9)
A funcao de kernel Gaussiana para centro e apresentada na Equacao (4.5) e para
amplitude e dada por:
K(d(xr,xri )) =1
(√2π)1/p
1
hpe
−d(xr,xri )
2h2, (4.10)
onde d(xr,xri ) e quadrado da distancia euclideana entre xr e a localizacao de interesse
xri , dada por:
4.2 REGRESSAO KERNEL SIMBOLICA 68
d(xr,xri ) =√
(xr − xri )T (xr − xri ) (4.11)
Nesta funcao kernel, a largura de banda h e o desvio padrao da distribuicao normal
centrada em xrij (j = 1, . . . , p).
4.2 REGRESSAO KERNEL SIMBOLICA 69
O procedimento do metodo RKI:CA e descrito a seguir.
(1. Entrada de Dados )
Considere Ω = 1, . . . , n sendo um conjunto de dados de n objetos descritos por um
vetor intervalar (xi, yi) como xi = ([ai1, bi1], . . . , [aip, bip])T ; yi = [αi, λi].
Compute os vetores quantitativos (xci , yci ) e (xri , y
ri ) onde: xc
i = (ai1+bi12
, . . . ,aip+bip
2)T , yci = αi+λi
2, xr
i = (bi1 − ai1, . . . , bip − aip)T e yri = (λi − αi).
(2. Obtendo os pesos)
Considere x = ([a1, b1], . . . , [ap, bp])T a ser estimado. Compute xc = [(a1 + b1)/2,
. . . , (ap + bp)/2]T e xr = [(b1 − a1), . . . , (bp − ap)]T .
Compute a funcao de kernel Gaussiana para o centro dos intervalos:
K(d(xc,xci )) =
1
[√
2π]p
1
hpe
−d(xc,xci)
2h2 .
onde d(xc,xci ) e a distancia euclideana entre xc e a localizacao de interesse xc
i ,
definida como: d(xc,xci ) =
√(xc − xc
i )T (xc − xc
i ) e a largura de banda h e
definida previamente.
Compute os pesos ωci =
K(d(xc,xci ))∑
ni=1
K(d(xc,xci)).
Compute a funcao de kernel para a amplitude dos intervalos:
K(d(xr ,xri )) =
1
[√
2π]p
1
hpe
−d(xr,xri)
2h2 .
onde d(xr ,xri ) e a distancia euclideana entre xr e a localizacao de interesse xr
i ,
definida como: d(xr,xri ) =
√(xr − xr
i )T (xr − xr
i ) e a largura de banda h e
definida previamente.
Compute o peso ωri =
K(d(xr,xri ))∑
ni=1 K(d(xr ,xr
i)).
(3. Estimando o intervalo)Baseado no estimador on Nadaraya-Watson compute a funcao E(Y/X) =[
mc(xc)− mr(xr)2
, mc(xc) + mr(xr)2
]=
[∑ni=1 ω
ci y
ci −
∑ni=1 ωr
i yri
2,∑n
i=1 ωci y
ci +
∑ni=1 ωr
i yri
2
].
4.2.3 Mistura de Regressao Intervalar
A analise de regressao convencional assume implicitamente que um conjunto comum
de estimativas de parametros de regressao e obtida pelas caracterısticas representadas
na amostra. Em algumas situacoes, no entanto, esta suposicao pode nao ser realista,
e a amostra pode conter varias subpopulacoes. Nestes casos, os modelos de regressao
4.2 REGRESSAO KERNEL SIMBOLICA 70
convencionais podem fornecer estimativas tendenciosas, uma vez que as estimativas dos
parametros sao restringidas a ser as mesmas em subpopulacoes. Esta secao descreve
aplicacoes de modelos de mistura de regressao, que e mais flexıvel do que as convencionais.
Como foi mencionado neste trabalho, cada intervalo e representado pelos dados de
centro e de amplitude separadamente. Sob a suposicao que a amostra intervalar contem
duas subpopulacoes, dois modelos de regressao de mistura para intervalos sao considera-
dos.
A regressao misturada ocorre quando uma relacao de regressao e conhecida e a outra
e desconhecida. Aqui, a forma linear sem suposicao de distribuicao de probabilidade para
os parametros e adotada como relacao de regressao conhecida. A mistura de regressao
intervalar e mais flexıvel do que a analise convencional de regressao intervalar da literatura
ADS.
Alem disso, a forma nao parametrica assumida para a amplitude garante que a esti-
mativa do limite superior seja maior do que a estimativa para o limite inferior para cada
intervalo da variavel resposta.
4.2.3.1 Mistura de Regressao Intervalar: Centro Linear + Amplitude Kernel
RMI:CL+AK
Este metodo assume uma forma parametrica linear para o centro e uma abordagem
de forma livre para modelar a amplitude dos intervalos. Considere βc = (βc0, βc1, . . . , β
cp)T
como sendo um vetor de p + 1 parametros. Uma relacao de mistura entre a variavel
resposta intervalar Y e o vetor de variaveis preditoras intervalares X = (X1, . . . , Xp)T
pode ser escrito como:
E(Y/X) = [E(Y c/Xc)−E(Y r/Xr), E(Y c/Xc) + E(Y r/Xr)], (4.12)
= [mc(Xc)− 1
2mr(Xr), mc(Xc) +
1
2mr(Xr)],
onde mr e uma funcao desconhecida e mc e uma funcao conhecida dada por:
mc(Xc) = (xc)Tβc. (4.13)
Com xc = (1, xc1, . . . , xcp)T e xcj = (aj+bj)/2. Utilizando o estimador dos mınimos qua-
drados, a funcao de regressao para centro dos intervalos e dada pelo vetor de parametros
do centro definido como:
4.2 REGRESSAO KERNEL SIMBOLICA 71
mc(Xc) = xcT[(XcT
Xc)−1
XcTyc
],
onde Xc = xci e uma matriz de entrada n× (p+1) para o conjunto de dados intervalar
para o centro com xci = (1, xci1, . . . , xcip)
T e xcij = (aij + bij)/2.
onde Xc e a matriz de entrada de n× p do conjunto de dados intervalar para centro.
Mais uma vez utilizando o estimador proposto por Nadaraya-Watson (1964), a funcao
de ponderacao para a amplitude e dada por
mr(Xr) =n∑
i=1
ωri yri ,
onde o peso ωri e definido na equacao (4.9).
O procedimento do metodo RMI:CL+AK e descrito abaixo.
(1. Entrada de Dados )
Seja Ω = 1, . . . , n um conjunto de dados de n objetos descritos por um vetor inter-
valar (xi, yi) como xi = ([ai1, bi1], . . . , [aip, bip])T ; yi = [αi, λi].
Compute os vetores quantitativos (xci , yci ) e (xri , y
ri ) onde: xc
i = (ai1+bi12
, . . . ,aip+bip
2)T , yci = αi+λi
2, xr
i = (bi1 − ai1, . . . , bip − aip)T and yri = (λi − αi).
(2. Obtendo os pesos e parametros)
Considere x = ([a1, b1], . . . , [ap, bp])T a ser estimado. Compute xr = [(b1 −
a1), . . . , (bp − ap)T ].
Compute usindo o estimador dos mınimos quadrados, o vetor de paramentros para
o centro do intervalos βc= ((Xc)TX
c)−1(Xc)T yc onde Xc = xc
i e um n x (p+1)
matriz para o centro dos dados da entrada do conjunto de dados intervalar.
Compute a funcao de kernel Gaussiana para a amplitude dos intervalos:
K(d(xr ,xri )) =
1
[√
2π]p
1
hpe
−d(xr,xri)
2h2 .
onde d(xr ,xri ) e a distancia euclideana entre xr e a localizacao de intresse xr
i , de-
finida como: d(xr ,xri ) =
√(xr − xr
i )T (xr − xr
i ) e a largura de banda h e definida
previamente.
Compute o peso ωri =
K(d(xr,xri ))∑
ni=1 K(d(xr ,xr
i)).
(3. Estimando o intervalo)Baseado nos estimados de Nadaraya-Watson e dos
mınimos quadrados compute a funcao E(Y/X) =[mc(xc)−
mr(xr)2
, mc(xc) +mr(xr)
2
]=
[(xc)T βc −
∑ni=1 ωr
i yri
2, (xc)T βc +
∑ni=1 ωr
i yri
2
].
4.2 REGRESSAO KERNEL SIMBOLICA 72
4.2.3.2 Mistura de Regressao Intervalar: Centro Kernel + Amplitude Linear
RMI:CK+AL
Este metodo assume uma forma nao-parametrica para o centro e uma forma linear
para modelar a amplitude dos intervalos. Considere βr = (βr0, βr1, . . . , β
rp)T como sendo
um vetor de p+1 parametros. Uma relacao de mistura entre a variavel resposta intervalar
Y e o vetor de variaveis preditoras intervalar X = (X1, . . . , Xp)T pode ser escrito como:
E(Y/X) = [E(Y c/Xc)−E(Y r/Xr), E(Y c/Xc) + E(Y r/Xr)], (4.14)
= [mc(Xc)− 1
2mr(Xr), mc(Xr) +
1
2mr(Xr)],
onde mc e uma funcao desconhecida e mr e uma funcao conhecida dada por:
mr(Xr) = (xr)Tβr. (4.15)
Novamente utilizando o estimador dos mınimos quadrados, o vetor de parametros da
amplitude e definido como:
mr(Xr) = (XrTXr)−1
XrTyr,
onde Xr = xri e a matriz de entrada n× (p + 1) do conjunto de dados intervalar para
a amplitude com xri = (1, xri1, . . . , xrip)
T and xrij = (bij − aij).
Mais uma vez usando o estimador proposto em Nadaraya-Watson (1964), a funcao de
ponderacao para centro e dada por
mc(Xc) =n∑
i=1
ωciyci ,
onde o peso ωci e definido na equacao (4.4).
4.3 APLICACAO DOS MODELOS COM DADOS REAIS DO TIPO INTERVALO 73
O procedimento do metodo RMI:CK+AL e descrito abaixo.
(1. Entrada dos Dados )
Seja Ω = 1, . . . , n um conjunto de dados de n objetos descritos por um vetor inter-
valar (xi, yi) como xi = ([ai1, bi1], . . . , [aip, bip])T ; yi = [αi, λi].
Compute os vetores quantitativos (xci , yci ) e (xri , y
ri ) onde: xc
i = (ai1+bi12
, . . . ,aip+bip
2)T , yci = αi+λi
2, xr
i = (bi1 − ai1, . . . , bip − aip)T and yri = (λi − αi).
(2. Obtendo os pesos e os parametros )
Considere x = ([a1, b1], . . . , [ap, bp])T a ser estimado. Compute xc = [(a1 +
b1)/2, . . . , (ap + bp)/2]T .
Compute usando o estimador dos mınimos quadrados, o vetor de parametros para
a amplitude dos intervalos βr
= ((Xr)TXr)−1(Xr)Tyc onde Xr = xr
i e um n x
(p+1) matriz para o centro dos dados da entrada do conjunto de dados intervalar.
Compute a funcao de kernel Gaussiana para o centro dos intervalos:
K(d(xc,xci )) =
1
[√
2π]p
1
hpe
−d(xc,xci)
2h2 .
onde d(xc,xci ) e a distancia euclideana entre xc e a localizacao de interesse xc
i ,
definida como: d(xc,xci ) =
√(xc − xc
i )T (xc − xc
i ) e largura de banda h e definida
previamente.
Compute o peso ωri =
K(d(xc,xci ))∑
ni=1 K(d(xc,xc
i)).
(3. Estimando o intervalo)Baseado nos estimadores de Nadaraya-Watson e dos
mınimos quadrados compjute a funcao E(Y/X) =[mc(xc)− mr(xr)
2, mc(xc) + mr(xr)
2
]=
[∑ni=1 ω
ci y
ci − (xr)T βr
2,∑n
i=1 ωci y
ci + (xr)T βr
2
].
4.3 APLICACAO DOS MODELOS COM DADOS REAIS DO TIPO INTERVALO
Os modelos introduzidos neste trabalho sao aplicados a cinco conjuntos de dados reais
intervalares e uma analise de desempenho e realizada. Alem disso, a fim de realizar um
estudo comparativo com outros metodos de regressao livres de distribuicao da literatura
ADS, o modelo linear baseado na informacao do centro (RLI:C) [Billard e Diday, (2000)] e
o modelo linear baseado na informacao do centro e da amplitude (RLI:CA) [Lima Neto e De Carvalho, (2008)
sao tambem aplicados a esses conjuntos de dados.
A precisao da predicao dos modelos e mensurada pela magnitude media de erro relativo
MMRE definido na equacao (3.8) e estimada pelo metodo leave one out. Os experimentos
sao realizados usando a Linguagem R http://www.r-project.org/.
4.3 APLICACAO DOS MODELOS COM DADOS REAIS DO TIPO INTERVALO 74
A constante h (largura de banda) controla o grau de suavizacao aplicado aos dados:
se h → 0, tem-se uma curva com muito ruıdo; por outro lado, se h → 1, tem-se uma
curva suave. Em outras palavras, com h muito pequeno a curva tendera a interpolar
perfeitamente os dados, implicando em vies pequeno e grande variancia, enquanto que
com h muito grande tem-se perda de detalhes na curvatura dos dados, implicando em
vies grande e pequena variancia. Claramente, ha necessidade de que a escolha de h seja
feita considerando um equilibrio entre vies e variancia. Aqui, uma largura de banda h
apropriada e definida atraves do estudo do comportamento do MMRE para diferentes
valores de h. Assim, a largura de banda e escolhida baseada no valor mais baixo do
MMRE, que e 0, 3 conforme Tabela abaixo.
Largura de Banda(h) Regressao Kernel
h = 0, 1 0,2012 ± 0,1805
h = 0, 2 0,1905 ± 0,1807
h = 0, 3 0,1768 ± 0,1776
h = 0, 4 0,1767 ± 0,1767
h = 0, 5 0,1766 ± 0,1715
h = 0, 6 0,1766 ± 0,1715
4.3.1 Resultados e diagnosticos dos modelos
A comparacao entre os metodos de regressao baseada nos resultados do MMRE das
Tabelas 4.2, 4.4, 4.6, 4.9, 4.11 e 4.13, foi obtida atraves da aplicacao do teste estatıstico
de Wilcoxon [Montgomery e Ruger, (2003)] para amostras emparelhados com nıvel de
significancia de 5% . Portanto, µ1 e µ2 sao as medias do MMRE para os metodos e a
hipotese nula e alternativa sao:
H0 : µ
(.) = µ(∗)
H1 : µ(.) < µ(∗).
A Tabela 4.14 apresenta os valores do MMRE para os modelos RLI:C, RKI:C,
RKI:CA, RLI:CA, RMI:CL+AK e RMI:CK+AL. Como esperado, os metodos basea-
dos em informacao apenas no centro tem o pior desempenho. O modelo RKI:C supera o
modelo RLI:C introduzido em [Billard e Diday, (2000)] para todos os conjuntos de dados.
Para ratificar esses resultados os testes de hipotese sao ilustrados na Tabela 4.2.
No que diz respeito aos metodos baseados na informacao do centro e da amplitude,
tres observacoes sao consideradas:
4.3 APLICACAO DOS MODELOS COM DADOS REAIS DO TIPO INTERVALO 75
1. Para os conjuntos de dados de Cardiologia, Cogumelo e Carro, o metodo de re-
gressao RKI:CA proposto neste trabalho apresentou o melhor desempenho segundo
MMRE. Este modelo e tao bom quanto o metodo RMI: CK + AL. Para os conjuntos
de dados Futebol e NASA, o metodo RMI:CK + AL supera os metodos RLI:CA,
RMI: CL + AK e RKI:CA. Assim, o uso do kernel no centro e importante uma vez
que o desempenho da predicao degrada com o uso de relacao linear. A amplitude
pode ser ajustada com kernel ou regressao linear;
2. Para o conjunto Futebol e importante o uso de regressao linear na amplitude. O
centro pode ser ajustado por linear ou kernel. Ja no conjunto NASA o desempneho
melhora com kernel no centro. Nao importa a escolha de linear ou centro para
amplitude.
3. Os modelos baseados na mistura de regressao apresentam bons resultados deMMRE.
No entanto, o uso de regressao kernel com informacao no centro melhora o desem-
penho para todos os conjuntos de dados considerados;
4. Os modelos propostos neste trabalho sao melhores do que alguns modelos lineares da
literatura ADS em termos de precisao, medidos pelo MMRE. Dentre os modelos
propostos, o modelo RKI:CA e a melhor opcao na maioria dos conjuntos de dados
utilizados.
Tabela 4.1 Media e Desvio Padrao (em parentesis) do MMRE para conjunto de dados reais
intervalar.
Conjuntos deMetodos baseados no Centro Metodos baseados no Centro e Amplitude
Dados RLI:C RKI:C RLI:CARKI:CARMI:CL+AKRMI:CK+AL
Cardiologia 43, 274 9, 237 0, 180 0, 175 0, 179 0, 176
(11, 909) (0, 104) (0, 108) (0, 107) (0, 108) (0, 108)
Cogumelo 14, 425 4, 038 0, 139 0, 134 0, 143 0, 136
(7, 914) (0, 084) (0, 076) (0, 087) (0, 073) (0, 083)
Carro 11, 423 5, 467 0, 071 0, 065 0, 071 0, 066
(12, 920) (0, 168) (0, 048) (0, 081) (0, 051) (0, 065)
Futebol 13, 720 3, 690 0, 172 0, 188 0, 188 0, 166
(5, 932) (0, 144) (0, 112) (0, 124) (0, 117) (0, 113)
NASA 6, 915 2, 329 0, 208 0, 176 0, 220 0, 169
(5, 491) (0, 251) (0, 173) (0, 171) (0, 171) (0, 171)
4.3 APLICACAO DOS MODELOS COM DADOS REAIS DO TIPO INTERVALO 76
Tabela 4.2 Teste de Wilcoxon: p-value
Comparacao Cardiologia Cogumelo Carro Futebol NASA
µ(RKI : C)× µ(RLI : C) 1, 22x10−11 2, 38x10−7 3, 49x10−10 9, 53x10−7 1, 22x10−4
µ(RKI : CA)× µ(RLI : CA) 4, 84x10−2 3, 68x10−2 2, 02x10−2 4, 58x10−2 2, 93x10−2
µ(RKI : CA)× µ(RMI : CL+AK) 4, 86x10−2 2, 13x10−2 3, 69x10−2 5, 21x10−2 2, 93x10−2
µ(RKI : CA)× µ(RMI : CK +AL) 4, 50x10−2 4, 61x10−2 4, 37x10−2 5, 82x10−2 5, 88x10−2
µ(RLI : CA)× µ(RMI : CL+AK) 5, 41x10−2 7, 06x10−2 6, 71x10−2 5, 34x10−2 5, 18x10−2
µ(RLI : CA)× µ(RMI : CK +AL) 7, 18x10−2 5, 59x10−2 6, 88x10−2 5, 70x10−2 8, 78x10−2
A fim de verificar ajuste dos modelos propostos neste trabalho atraves de graficos,
Figuras 4.1(f), 4.1(g), 4.1(h), 4.2(a) e 4.2(b) apresentam os graficos dos intervalos estima-
dos versus intervalos reais. Figuras 4.1(f), 4.1(g) e 4.1(h) mostram intervalos estimados
pelo metodo RKI:CA. Figuras 4.2(a) e 4.2(b) exibem intervalos estimados pelo metodo
RMI:CK+AL.
Algumas observacoes podem ser extraıdas desses graficos:
1. Nestas figuras sao descritas uma relacao linear entre os intervalos estimados e reais
da variavel resposta (Y ). Essa relacao linear indica que os modelos propostos tem
bom ajuste e a informacao baseada no centro contribui para este resultado;
2. Em termos de informacao na amplitude, observa-se que a presenca de muitos qua-
drados no conjunto de dados pode significar bom ajuste do modelo;
3. A presenca de retangulos atıpicos pode significar a presenca de intervalos outliers
em termos de informacao no centro e/ou na amplitude. Por exemplo, a Figura
4.2(b) mostra que o conjunto de dados da NASA tem um intervalo outlier em
termos de informacao no centro e outro em termos de informacao no centro e na
amplitude, como foi previsto no capıtulo 3 na secao 3.5.
4.3 APLICACAO DOS MODELOS COM DADOS REAIS DO TIPO INTERVALO 77
0.0 0.2 0.4 0.6 0.8 1.0
0.2
0.4
0.6
0.8
1.0
Y_Real
Y_Es
timat
ed
(f) Cardiologia
0.0 0.2 0.4 0.6 0.8 1.0
0.2
0.4
0.6
0.8
Y_Real
Y_Es
timat
ed
(g) Cogumelo
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Y_Real
Y_Es
timat
ed
(h) Carro
Figura 4.1 Y Estimado versus Y Real baseado no metodo RKI:CA.
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
Y_Real
Y_Es
timat
ed
(a) Futebol
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
Y_Real
Y_Es
timat
ed
(b) Nasa
Figura 4.2 Y Estimado versus Y Real baseado no metodo RMI:CK+AL.
4.4 AVALIACAO EXPERIMENTAL 78
4.4 AVALIACAO EXPERIMENTAL
Para avaliar os metodos de regressao propostos no presente trabalho com conjuntos de
dados simulados do tipo intervalo, experimentos Monte Carlo foram considerados. Os
conjuntos representam cenarios em ℜ2, cada um de tamanho 330.
Os metodos propostos sao comparados com os metodos de regressao linear intervalar
introduzidos em [Lima Neto e De Carvalho, (2008)] e [Billard e Diday, (2000)]. A ava-
liacao do desempenho destas abordagens e mensurada em termos de MMRE e estimado
pelo metodo hold out.
Os experimentos consistem de uma sequencia de algoritmos organizados na simulacao
de Monte Carlo com 100 repeticoes. Dois casos de simulacao sao definidos. No caso A,
dados do tipo intervalo sao simulados assumindo uma distribuicao de probabilidade para
as variaveis do centro e da amplitude.
No caso B, conjuntos de dados reais sao considerados e dados intervalares da variavel
resposta sao simulados a partir de uma relacao, a priori, definida entre as variaveis pre-
ditoras e a variavel resposta. A ideia caso B e avaliar os modelos de regressao com dados
intervalares da variavel resposta gerados a partir dos dados intervalares reais preditos.
4.4.1 Simulacao Monte Carlo: Caso A.
Nesta simulacao Monte Carlo, dois algoritmos para geracao dos conjuntos de dados inter-
valares sao considerados. O primeiro algoritmo gera conjuntos de dados contendo ruıdos
e o segundo sem ruıdos.
Tres cenarios com configuracao de dados diferentes sao estabelecidos para cada algo-
ritmo. Para cada cenario com ruıdos e adotado que 10% do tamanho de cada conjunto
de dados de entrada correspondem aos ruıdos. Essa simulacao Monte Carlo e descrita
como segue.
4.4 AVALIACAO EXPERIMENTAL 79
Algoritmo 5 Simulacao Monte Carlo caso ARequerer MC = 100
1: Defina que cada coeficiente bk (k = 0, 1) e obtido de uma distribuicao uniforme com
valores mınimo e maximo:0 e 1, respectivamente.
2: Para todo i de 1 ≤ g ≤ MC faca
3: Gere um conjunto de dados do tipo intervalo de acordo com o algoritmo 6 ou 7.
4: Particione aleatoriamente a geracao do conjunto de dados do tipo intervalo em
conjunto de treinamento (75% do conjunto de dados) e de teste (25% do conjunto
de dados).
5: Construa metodos de regressao para centro e/ou amplitude do conjunto de dados
de treinamento, respectivamente, de acordo com a subsecao 4.2.
6: Aplique a regra de predicao para o conjunto de teste de acordo com o metodo
escolhido no passo 5.
7: Calcule MMREg (magnitude media do erro relativo) usando equacao (3.8).
8: fim para
9: Calcule a media e desvio padrao dos erros MMREg.
4.4 AVALIACAO EXPERIMENTAL 80
Algoritmo 6 Geracao do conjunto de dados sem ruıdos.Requerer n = 375
1: Para todo i de 1 ≤ i ≤ n faca
2: Defina que o erro εci e obtido de uma distribuicao normal com media 0, 1 e desvio
padrao 0, 3.
3: Defina que o erro εri e obtido de uma distribuicao normal com media 0, 01 e desvio
padrao 0, 03.
4: Defina que a variavel preditora xci e obtida de uma distribuicao uniforme de
parametros [−1, 1].
5: Escolha um cenario de 1, 2, 36: Se cenario 1 (Figura 4.3) e considerado, defina que a variavel preditora xri e
obtida de uma distribuicao uniforme de parametro [0, 1 : 0, 3]. Obtenha um valor
aleatorio para a amplitude de uma distribuicao uniforme de parametro [0, 4 : 0, 6]
e calcule o valor do centro como segue: yci = sin(xciπ) + 10 + εci .
7: Se cenario 2 (Figura 4.4) e considerado, defina que a variavel preditora xri1 e
obtida de uma distribuicao uniforme de parametro [0, 4 : 0, 6], obtenha o valor
da amplitude como segue: yri = b0 + xri b1 + εri e calcule o valor do centro como:
yci = sin(xciπ) + 1 + εci .
8: Se cenario 3 (Figura 4.5) e considerado, defina que a variavel preditora xri e
obtida de uma distribuicao uniforme de parametro [−1, 1]. Obtenha o parte de
valores para o centro e a amplitude como segue: yci = sin(xciπ) + 10 + εci e yri =
sin(xriπ) + 1 + εri , respectivamente.
9: Calcule o intervalo referente as variaveis preditoras [ai, bi] que sao os valores
mınimo e maximo, respectivamente, com ai = yci −yri2e bi = yci +
yri2.
10: Calcule o intervalo referente a variavel resposta [αi, λi] que sao, respectivamente,
valores mınimo e maximo com αi = yci −yri2e λi = yci +
yri2.
11: fim para
4.4 AVALIACAO EXPERIMENTAL 81
Algoritmo 7 Geracao do conjunto de dados com ruıdos.Requerer n = 375
1: Para todo i de 1 ≤ i ≤ n faca
2: Defina que o erro εci e obtido de uma distribuicao normal com media 0 e desvio
padrao 0, 1.
3: Defina que o erro εri e obtido de uma distribuicao normal com media 0 e desvio
padrao 0, 01.
4: Defina que a variavel preditora xci1 e obtida de uma distibuicao uniforme de
parametro [−1 : 1].
5: Defina que no e o numero de intervalos ruıdosos calculados como 10% de n.
6: Escolha um cenario de 4, 5, 67: Se cenario 4 (Figura 4.6) e considerado, defina que o preditor xri1 e obtido de uma
distribuicao uniforme de parametro [0.1, 0.5]. Obtenha os intervalos ruıdosos de
centro como segue: selecione no elementos aleatoriamente do conjunto de dados do
tipo intervalo e calcule os ruıdos de centro por yci = sin(xciπ) + no + εci e obtenha
os valores da amplitude de distribuicao uniforme de parametro [0, 1 : 0, 5].
8: Se cenario 5 (Figura 4.7) e considerado, defina que o preditor xri e obtido de uma
distribuicao uniforme de parametro [0, 1 : 0, 5]. Obtenha os intervalos ruıdosos de
amplitude como segue: selecione no elementos aleatoriamente de conjunto de dados
do tipo intervalo e calcule os ruıdos de amplitude por yri = b0 + xri1b1 + εri .
9: Se cenario 6 (Figura 4.8) e considerado, defina que o preditor xri e obtido de
uma distribuicao uniformde de parametro [−1 : 1]. Obtenha os de centro e de
amplitude como segue: selecione no elementos aletoriamente de conjunto de dados
do tipo intervalo e calcule os intervalos ruıdosos de centro e deamplitude por yci =
sin(xciπ) + no + εci e yri = sin(xriπ) + no + εri .
10: Calcule o intervalo preditor [ai, bi] que sao os valores mınimo e maximo, respecti-
vamente, com ai = yci −yri2e bi = yci +
yri2.
11: Calcule o intervalo resposta [αi, λi] que sao, respectivamente, os valores mınimo e
maximo com αi = yci −yri2e λi = yci +
yri2.
12: fim para
Figuras 4.3 a 4.8 ressaltam dados simulados do tipo intervalo de acordo com seis
diferentes cenarios. Cada conjunto de dados e construıdo baseado em duas relacoes
predefinidas: uma entre os centros da variavel resposta (yc) e da preditora (xc) e outra
entre as amplitudes da variavel resposta (yr) e da preditora (xr) dos intervalos. Os
cenarios 4, 5 e 6 mostram os ruıdos intervalares presentes no conjunto de dados do tipo
4.4 AVALIACAO EXPERIMENTAL 82
intervalo.
Todos os cenarios sao descritos abaixo:
Cenario 1 e 4 (Figura 4.3 e 4.6) consiste uma relacao baseada na forma do seno
entre yc e xc (Figuras 4.3(a) e 4.6(a)) e uma relacao arbitraria entre yr e xr (Figuras
4.3(b) e 4.6(b));
Cenario 2 e 5 (Figuras 4.4 e 4.7) consiste uma relacao, baseada na forma do seno
entre yc e xc (Figuras 4.4(a) e 4.7(a)) e uma relacao linear entre yr e xr (Figuras
4.4(b) e 4.7(b));
Cenario 3 e 6 (Figuras 4.5 e 4.8) consiste uma relacao baseada na forma do seno
entre yc e xc (Figura 4.5(a) e 4.8(a)) e uma relacao baseada na forma do seno entre
yr e xr (Figuras 4.5(b) e 4.8(b)).
−1.0 −0.5 0.0 0.5 1.0
9.5
10.0
10.5
11.0
XC
YC
(a) Centro
0.10 0.15 0.20 0.25 0.30
0.40
0.45
0.50
0.55
0.60
XR
YR
(b) Amplitude
−1.0 −0.5 0.0 0.5 1.0
9.0
9.5
10.0
10.5
11.0
11.5
X
Y
(c) Intervalar
Figura 4.3 Cenario 1.:Relacoes nao linear para o centro e aleatoria para amplitude.
4.4 AVALIACAO EXPERIMENTAL 83
−1.0 −0.5 0.0 0.5 1.0
9.510
.010
.511
.0
XC
YC
(a) Centro
0.1 0.2 0.3 0.4 0.5
0.14
0.16
0.18
0.20
0.22
XR
YR
(b) Amplitude
−1.0 −0.5 0.0 0.5 1.0
9.09.5
10.0
10.5
11.0
X
Y
(c) Intervalar
Figura 4.4 Cenario 2.: Relacao nao linear para o centro e relacao linear para amplitude.
−1.0 −0.5 0.0 0.5 1.0
−0.5
0.00.5
1.0
XC
YC
(a) Centro
−1.0 −0.5 0.0 0.5 1.0
−0.5
0.00.5
1.0
XR
YR
(b) Amplitude
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.00.5
1.01.5
X
Y
(c) Intervalar
Figura 4.5 Cenario 3.: Relacoes nao linear para centro e amplitude.
4.4 AVALIACAO EXPERIMENTAL 84
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.00.5
1.0
XC
YC
(a) Centro
0.1 0.2 0.3 0.4 0.5
0.10.2
0.30.4
0.5
XR
YR
(b) Amplitude
−1.0 −0.5 0.0 0.5 1.0
−2−1
01
2
X
Y
(c) Intervalar
Figura 4.6 Cenario 4.:Relacoes nao linear para o centro e aleatoria para amplitude na presenca
de ruıdos.
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.00.5
1.0
XC
YC
(a) Centro
0.1 0.2 0.3 0.4 0.5
0.10
0.12
0.14
0.16
0.18
0.20
XR
YR
(b) Amplitude
−1.0 −0.5 0.0 0.5 1.0
−2−1
01
2
X
Y
(c) Intervalar
Figura 4.7 Cenario 5.:Relacoes nao linear para o centro e linear para amplitude na presenca
de ruıdos.
4.4 AVALIACAO EXPERIMENTAL 85
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.00.5
1.0
XC
YC
(a) Centro
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.00.5
1.0
XR
YR
(b) Amplitude
−1.0 −0.5 0.0 0.5 1.0 1.5
−2−1
01
2
X
Y
(c) Intervalar
Figura 4.8 Cenario 6.:Relacoes nao linear para centro e amplitude na presenca de ruıdos.
4.4.2 Avaliacao de desempenho
O MMRE e calculado para cada conjunto de dados do tipo intervalo. Em cada iteracao
da simulacao Monte Carlo, um modelo de regressao para um conjunto de dados de entrada
e ajustado. Assim, este modelo e usado para predizer valores do intervalo da variavel
dependente do conjunto de teste. Para cada 100 repeticoes, a media e o desvio padrao
do MMRE sao calculados.
A fim de gerar os dados a amplitude variavel resposta com uma relacao linear com am-
plitude das variaveis preditoras, os coeficientes b0 = 1, b1 = 1, 2 sao considerados para os
cenarios 2 e 5 dos algoritmos 6 e 7, respectivamente. Esses valores de parametros tambem
foram usados nos trabalhos [Fagundes et al. (2013)] e [Lima Neto e De Carvalho, (2008)].
A largura de banda do kernel gaussiano e escolhida baseada no menor valor do
MMRE. Para todos os metodos baseados em kernel neste estudo o parametro h e
igual a 0, 1.
4.4 AVALIACAO EXPERIMENTAL 86
Largura de Banda(h) Regressao Kernel
h = 0, 0001 0,312 ± 0,2805
h = 0, 001 0,2905 ± 0,2807
h = 0, 01 0,2768 ± 0,2776
h = 0, 1 0,1767 ± 0,2767
h = 0, 2 0,1766 ± 0,2715
h = 0, 3 0,1766 ± 0,2715
A Tabela 4.3 apresenta os valores da media e desvio padrao (entre parentesis) do
MMRE para os metodos propostos: IKR:C, IKR:CA, IRM:CK+AL e IRM:CL+AK, e
os metodos ILC e ILR:CA da literatura de SDA para os cenarios 1 a 3.
Para cenario 1
1. Os metodos RKI:CA e RMI:CK+AL apresentam melhor desempenho e es-
ses metodos sao estatisticamente similares. Este resultado destaca que, neste
cenario, a escolha da funcao para modelar a amplitude dos dados nao altera a
acuracia da predicao.
2. Como esperado, os metodos RLI:CA e RMI:CL+AK mostram predicoes infe-
riores as dos metodos RKI:CA e RMI:CK+AL, pois eles assumem uma forma
parametrica para modelar os dados do centro. De acordo com o teste de
hipotese, nao existe diferenca entre os metodos RLI:CA e RMI:CL+AK em
termos de MMRE.
3. Embora o metodo RKI:C assuma uma forma nao parametrica para centro de
dados do modelo, este metodo possui um desempenho inferior aos metodos
RKI:CA e RMI:CK+AL. Este resultado mostra que modelagem da amplitude
dos dados e necessaria na abordagem usando kernel.
Para os cenarios 2 e 3
1. Os metodos baseados em funcoes suaves (nao linear) para modelar dados do
centro (RKI:C, RKI:CA e RMI:CK+AL) tem desempenho similar baseados
no teste. Eles sao as melhores opcoes para estes cenarios.
2. Os metodos baseados na forma linear para modelar os dados do centro (RLI:CA
e RMI:CL+AK) tem desempenho inferior comparado com aqueles metodos
baseados em funcao nao linear para modelar os dados do centro. Eles sao
estatisticamente similares com significancia de 5%.
4.4 AVALIACAO EXPERIMENTAL 87
Para consolidar os resultados apresentados conforme Tabela 4.4, o metodo RLI:C da
literatura SDA tem o pior desempenho entre todos os metodos de regressao uma vez que
este metodo assume uma forma linear para modelar os dados do centro e nao modela os
dados da amplitude dos intervalos. O metodos RKI:C e RKI:CA devem ser preferidos,
pois eles tem um bom desempenho e suas estimativas nao violam a coerencia matematica
dos intervalos. No entanto, este estudo de simulacao mostrou que o metodo RKI:CA e
mais eficaz do que o metodo RKI:C, um vez que nao e possıvel determinar uma forma
parametrica explıcita para modelar os dados da amplitude dos intervalos (ver cenario 1).
Tabela 4.3 Media e Desvio Padrao (em parentesis) do MMRE para cenarios (1, 2 e 3) sem
ruıdos.
Cenario Metodos baseados no Centro Metodos baseados no Centro e Amplitude
RLI:C RKI:C RLI:CA RKI:CA RMI:CL+AK RMI:CK+AL
1 69, 921 5, 524 7, 299 2, 682 7, 298 2, 683
(43, 790) (0, 440) (0, 554) (0, 350) (0, 555) (0, 350)
2 69, 641 5, 418 7, 160 5, 449 7, 170 5, 429
(43, 786) (0, 431) (0, 544) (0, 425) (0, 541) (0, 428)
3 129, 895 5, 382 14, 781 5, 387 14, 781 5, 384
(89, 658) (0, 544) (0, 808) (0, 544) (0, 807) (0, 544)
Tabela 4.4 Teste de Wilcoxon: p-value
Comparacao Cenario 1 Cenario 2 Cenario 3
µ(RKI : C)× µ(RLI : C) 1, 05x10−16 1, 97x10−18 6, 09x10−18
µ(RKI : CA)× µ(RLI : CA) 0, 97x10−18 1, 68x10−18 1, 02x10−18
µ(RKI : CA)× µ(RMI : CL+AK) 7, 90x10−17 1, 28x10−16 2, 03x10−18
µ(RKI : CA)× µ(RMI : CK +AL) 1 1 1
µ(RLI : CA)× µ(RMI : CL+AK) 0, 99 0, 94 0, 95
µ(RLI : CA)× µ(RMI : CK +AL) 1 1 1
4.4 AVALIACAO EXPERIMENTAL 88
Tabela 4.5 apresenta a media e o desvio-padrao do MMRE para os metodos RLI:C,
RLI:CA, RKI:C, RKI:CA, RMI:CK+AL e RMI:CL+AK e os cenarios com ruıdos 4 a 6.
A comparacao entre os metodos e ilustrada na Tabela 4.6. A partir dos valores obtidos
algumas observacoes sao extraıdas.
Os metodos RKI:C, RMI:CK+LA e RKI:CA tem desempenhos semelhantes e o teste
de igualdade das medias ratifica este resultado. Alem disso, este estudo demonstra
que a utilizacao de uma relacao para modelar os dados da amplitude do intervalo
nao melhora a precisao da acuracia na presenca de ruıdos.
Os metodos RKI:C e RKI:CA devem ser preferidos, porque eles garantem a coerencia
matematica para a predicao dos intervalos. Entretanto, o metodo RKI:C e mais
simples do que o metodo RKI:CA.
Novamente, o metodo RLI:C da literatura de SDA tem o pior desempenho entre
todos os metodos de regressao.
Tabela 4.5 Media e Desvio Padrao (em parentesis) do MMRE para cenarios (4, 5 e 6) com
ruıdos.
Cenario Metodos baseados no Centro Metodos baseados no Centro e Amplitude
RLI:C RKI:C RLI:CA RKI:CA RMI:CL+AK RMI:CK+AL
4 144, 454 4, 640 8, 600 4, 723 8, 601 4, 722
(79, 821) (0, 472) (0, 523) (0, 460) (0, 523) (0, 460)
5 144, 445 4, 640 8, 563 4, 644 8, 564 4, 640
(79, 819) (0, 472) (0, 529) (0, 471) (0, 529) (0, 472)
6 144, 442 4, 639 8, 572 4, 751 8, 598 4, 656
(79, 819) (0, 472) (0, 528) (0, 458) (0, 524) (0, 470)
4.4 AVALIACAO EXPERIMENTAL 89
Tabela 4.6 Teste de Wilcoxon: p-value
Comparacao Cenario 4 Cenario 5 Cenario 6
µ(RKI : C)× µ(RLI : C) 4, 56x10−17 3, 03x10−17 4, 09x10−17
µ(RKI : CA)× µ(RLI : CA) 1, 97x10−18 1, 28x10−18 1, 62x10−18
µ(RKI : CA)× µ(RMI : CL+AK) 1, 90x10−18 4, 52x10−18 1, 97x10−18
µ(RKI : CA)× µ(RMI : CK +AL) 1 1 1
µ(RLI : CA)× µ(RMI : CL+AK) 0, 96 0, 94 0, 93
µ(RLI : CA)× µ(RMI : CK +AL) 1 1 1
A fim de avaliar o ganho relativo (GR) entre os valores de MMRE para dois modelos
em cada cenario, uma metrica e considerada neste estudo e dada como:
GR = 100(MMREv −MMREh
MMREv), (4.16)
onde Tv e Th sao valores de MMRE para dois modelos, respectivamente.
Tabela 4.7 mostra os valores de GR para todos os cenarios. Esses resultados enfatizam
os seguintes pontos:
De fato, o metodo RKI:C (h) tem melhor desempenho doque o metodo RLI:C (v)
para todos os cenarios.
Nao existe ganho relativo entre os metodos que consideram um relacao linear para
os dados do centro dos intervalos (RLI:CA e RMI:CL+AK) para todos os cenarios.
Nestas situacoes, os dados de amplitude dos intervalos podem ser modelados por
qualquer funcao. Assim, o metodo RMI:CL+AK deve ser preferido, pois nao viola
a coerencia matematica.
O valor do ganho relativo para o metodo RLI:CA× RKI:CA e RLI:CA× RMI:CK+AL
diminui na presenca de ruidos e estes nao mudam para os cenarios 4 a 6. Para o
cenario 2 estes valores de ganho relativo e baixo. Pois, e considerado forma pa-
rametrica para simulacao dos dados de amplitude dos intervalos e sabe-se, que a
regressao do kernel nao obtem uma boa acuracia nesta situacao.
4.4 AVALIACAO EXPERIMENTAL 90
Tabela 4.7 Comparacao entre modelos regressao de acordo com o ganho relativo (%) do
MMRE.
Cenario RLI:C (v) × RLI:CA (v) × RLI:CA (v) × RLI:CA (v) ×RKI:C (h) RKI:CA (h) RMI:CL+AK (h) RMI:CK+AL (h)
modelos modelos modelos modelos
1 92, 09% 63, 25% 0% 63, 24%
2 92, 22% 23, 89% 0% 24, 17%
3 95, 85% 63, 55% 0% 63, 57%
4 96, 78% 45, 08% 0% 45, 09%
5 96, 78% 45, 76% 0% 45, 81%
6 96, 78% 45, 57% 0% 45, 68%
4.4.3 Simulacao Monte Carlo : Caso B
Nessa simulacao Monte Carlo dados de respostas intervalares, sao simulados a partir de
uma relacao linear com dados de preditores intervalares reais. Para isso, foram conside-
rados os conjunto de dados reais: Cardiologia, Cogumelo, Carro, Futebol e Nasa.
Os experimentos consistem de uma sequencia de algoritmos organizados na simulacao
Monte Carlo com 100 repeticoes. Essa simulacao teve como objetivo realizar a geracao de
dados do tipo intervalo da variavel resposta e a aplicacao dos metodos para o conjunto de
dados reais, usando a simulacao para os dados do tipo intervalo para variavel resposta.
Tres cenarios diferentes para calcular os dados do tipo intervalo da variavel resposta
sao considerados. A simulacao Monte Carlo e descrita a seguir.
4.4 AVALIACAO EXPERIMENTAL 91
Algoritmo 8 Simulacao Monte Carlo: Caso B.Requerer MC = 100
1: Defina que cada coeficiente bk (k = 0, 1) e obtido de uma distribuicao uniforme com
valores de mınimo e maximo: 0 e 1, respectivamente.
2: Para todo i de 1 ≤ j ≤MC faca
3: Gere dado intervalar para variavel resposta de acordo com o algoritmo 9.
4: Particione aleatoriamente a geracao de dados do tipo intervalo usando o metodo
leave one out no teste (um elemento) e no treinamento (o resto dos elementos) dos
conjuntos de dados reais.
5: Construa metodos de regressao para os conjunto de dados de treinamento para
centro e/ou amplitude, respectivamente, de acordo com Secao 3.
6: Aplique a regra de predicao para o conjunto de teste, de acordo com o metodo
escolhido no passo 5.
7: Calcule MMREj (magnitude media do erro relativo) usando a equacao (3.8).
8: fim para
9: Calcule a media e o desvio padrao dos erros MMREj.
4.4 AVALIACAO EXPERIMENTAL 92
Algoritmo 9 Geracao do conjunto de dados reais do tipo intervalo.
1: Defina n e tamanho do conjunto de dados real (aqui, Cardiologia, Cogumelo, Carro,
Fotebol ou NASA).
2: Para todo i do 1 ≤ i ≤ n faca
3: Defina que dados de centro (xci1,xci2) e dados de amplitude (xri1,x
ri2) sao obtidos
de um conjunto de dados real (aqui, Cardiologia, Cogumelo, Carro, Futebol ou
NASA).
4: Escolha um cenario de 7, 8, 95: Se cenario 7, defina que os erros εci e ε
ri sao obtidos de duas distribuicoes normal
padrao, respectivamente. Obtenha a amplitude da variavel resposta como segue:
yri = b0+xri1b1+ ε
ri e o centro da variavel resposta como segue: yci = b0+x
ci1b1+ ε
ci .
6: Se cenario 8, defina que os erros εci e εri sao obtidas de duas distribuicoes normal
padrao, respectivamente. Obtenha dados da amplitude como: yri1 de uma dis-
tribuicao uniforme de parametro [0, 1 : 0, 5]. Obtenha os dados do centro como:
yci = b0 + xci1b1 + εci .
7: Se cenario 9, defina que os erros εci e εri sao obtidos de duas distribuicoes normais
com media 0 e desvio psdrao 0, 0001, respectivamente. Obtenha dados da ampli-
tude como segue: yri = sin(2π × xri1)sin(3π × xri2) + εri e os dados do centro como
segue: yci = sin(2π × xci1) + sin(3π × xci2) + εci .
8: Calcule o intervalo da variavel resposta [αi, λi] como, respectivamente, os valores
mınimo e maximo com αi = yci −yri2e λi = yci +
yri2.
9: fim para
Tabela 4.8 apresenta os resultados de MMRE para todos os modelos de regressao
referente ao cenario 7. Este cenario assume relacao linear entre a variavel resposta e
os preditores para o centro e a amplitude, respectivamente. A partir desta tabela e da
Tabela 4.9, pode-se observar que o modelo RKI:C tem melhor precisao do que o modelo
RLI:C e algumas observacoes podem ser extraıdas.
1. No conjunto de dados Cardiologia e Carro, os modelos RLI:CA, RKI:CA, RMI:CL+AK
e RMI:CK+AL possuem desempenhos similares. Entretanto, os modelos RMI:CL+AK
e RKI:CA devem ser preferidos, uma vez que as suas estimativas de intervalos nao
violam a suposicao de que o limite superior e maior do que o limite inferior de cada
intervalo estimado;
2. Nos conjuntos de dados Cogumelo, Futebol e NASA, os modelos RKI:CA e RMI:CK+AL
apresentam melhor desempenhos em termos de MMRE.
4.4 AVALIACAO EXPERIMENTAL 93
Tabela 4.8 Media e Desvio Padrao (em parentesis) do MMRE assumindo relacao linear para
centro e amplitude, respectivamente, da variavel resposta intervalar.
Conjunto Metodos baseados no Centro Metodos baseados no Centro e Amplitude
Dados Intervalar RLI:C RKI:C RLI:CA RKI:CA RMI:CL+AK RMI:CK+AL
Cardiologia 59, 191 45, 707 0, 908 0, 907 0, 907 0, 908
(5, 819) (3, 626) (0, 084) (0, 080) (0, 083) (0, 080)
Cogumelo 23, 492 17, 259 0, 936 0, 912 0, 926 0, 923
(2, 911) (2, 040) (0, 126) (0, 112) (0, 126) (0, 112)
Carro 33, 615 25, 871 0, 930 0, 922 0, 936 0, 937
(3, 385) (2, 638) (0, 107) (0, 099) (0, 109) (0, 098)
Futebol 20, 214 15, 068 0, 951 0, 918 0, 948 0, 921
(2, 206) (1, 864) (0, 148) (0, 134) (0, 148) (0, 136)
NASA 13, 522 9, 771 1, 020 0, 955 1, 022 0, 974
(1, 841) (1, 582) (0, 207) (0, 183) (0, 205) (0, 184)
Tabela 4.9 Teste de Wilcoxon: p-value
Comparacao Cardiologia Cogumelo Carro Futebol NASA
µ(RKI : C)× µ(RLI : C) 1, 22x10−11 1, 19x10−7 1, 16x10−10 9, 53x10−7 1, 22x10−4
µ(RKI : CA)× µ(RLI : CA) 3, 04x10−2 2, 81x10−2 1, 02x10−2 3, 58x10−2 3, 93x10−2
µ(RKI : CA)× µ(RMI : CL+AK) 4, 86x10−2 2, 13x10−2 3, 69x10−2 5, 21x10−2 2, 93x10−2
µ(RKI : CA)× µ(RMI : CK +AL) 4, 98x10−2 3, 61x10−2 3, 37x10−2 2, 82x10−2 2, 88x10−2
µ(RLI : CA)× µ(RMI : CL+AK) 0, 92 0, 89 0, 78 0, 87 0, 91
µ(RLI : CA)× µ(RMI : CK +AL) 0, 96 0, 99 0, 81 0, 97 0, 92
Tabela 4.10 apresenta os valores de MMRE para o cenario 8 que assume uma forma
arbitraria entre a variavel resposta e as preditoras para a amplitude e uma forma linear
entre a variavel resposta e as preditoras para o centro. Estes valores ressaltam que os pares
4.4 AVALIACAO EXPERIMENTAL 94
de modelos (RKI:CA, RMI:CK+AL) e os modelos (RLI:CA, RMI:CL+AK) possuem
desempenho similar, a fim de consolidar esses resultados um teste de comparacao entre
os metodos e ilustrado na Tabela 4.11.
Aqui, pode ser concluido que a amplitude e necessaria para a predicao dos intervalos
e esta pode ser modelada por qualquer funcao. Alem disso, ao contrario do esperado, a
forma linear assumida para os dados de centro e bem modelada por uma regressao kernel.
Tabela 4.10 Media e Desvio Padrao (em parentesis) do MMRE assumindo uma forma ar-
bitraria para a amplitude e uma relacao linear para o centro da variavel resposta intervalar.
Conjunto Metdos baseados no Centro Metodos baseados no Centro e Amplitude
Dados Intervalar RLI:C RKI:C RLI:CA RKI:CA RMI:CL+AK RMI:CK+AL
Cardiologia 59, 031 25, 992 0, 815 0, 813 0, 815 0, 813
(4, 187) (2, 444) (0, 079) (0, 084) (0, 079) (0, 084)
Cogumelo 30, 018 9, 756 0, 841 0, 828 0, 841 0, 828
(2, 455) (1, 496) (0, 159) (0, 141) (0, 159) (0, 141)
Carro 33, 453 14, 178 0, 812 0, 814 0, 812 0, 814
(3, 089) (1, 513) (0, 099) (0, 097) (0, 099) (0, 097)
Futebol 19, 784 8, 486 0, 871 0, 842 0, 870 0, 842
(1, 750) (1, 245) (0, 155) (0, 135) (0, 155) (0, 135)
NASA 13, 693 5, 043 0, 859 0, 812 0, 859 0, 812
(1, 802) (1, 053) (0, 224) (0, 190) (0, 224) (0, 190)
4.4 AVALIACAO EXPERIMENTAL 95
Tabela 4.11 Teste de Wilcoxon: p-value
Comparacao Cardiologia Cogumelo Carro Futebol NASA
µ(RKI : C)× µ(RLI : C) 2, 33x10−10 5, 67x10−6 1, 92x10−8 5, 89x10−6 2, 90x10−4
µ(RKI : CA)× µ(RLI : CA) 4, 54x10−2 4, 78x10−2 4, 02x10−2 4, 88x10−2 4, 93x10−2
µ(RKI : CA)× µ(RMI : CL+AK) 4, 86x10−2 3, 13x10−2 3, 69x10−2 3, 21x10−2 2, 93x10−2
µ(RKI : CA)× µ(RMI : CK +AL) 0, 98 0, 96 0, 99 0, 99 0, 98
µ(RLI : CA)× µ(RMI : CL+AK) 0, 99 0, 99 0, 99 0, 99 0, 98
µ(RLI : CA)× µ(RMI : CK +AL) 1 1 1 1 1
Tabela 4.12 apresenta os resultados do MMRE referente ao cenario 8 que assume
forma nao linear entre a variavel resposta e preditoras para centro e amplitude, respecti-
vamente, da variavel resposta intervalar.
Entre os modelos baseados na informacao do centro e da amplitude, o modelo RKI:CA
e a melhor opcao e o modelo RMI:CK+AL e a pior alternativa. Essa afirmativa e confir-
mada atraves dos testes de hipoteses observados na Tabela 4.13.
4.4 AVALIACAO EXPERIMENTAL 96
Tabela 4.12 Media e Desvio Padrao (em parentesis) do MMRE assumindo relacao nao linear
para centro e amplitude, respectivamente, da variavel resposta intervalar.
Conjunto Metodos baseados no Centro Metodos baseados no Centro e na Amplitude
Dados Intervalar RLI:C RKI:C RLI:CA RKI:CA RMI:CL+AK RMI:CK+AL
Cardiologia 57, 033 12, 600 0, 615 0, 423 0, 605 1, 356
(21, 468) (0, 098) (0, 406) (0, 194) (0, 398) (0, 715)
Cogumelo 26, 465 5, 268 0, 844 0, 546 0, 835 1, 187
(10, 325) (0, 117) (0, 512) (0, 335) (0, 519) (0, 657)
Carro 54, 438 7, 429 0, 698 0, 400 0, 695 0, 976
(15, 260) (0, 130) (0, 483) (0, 223) (0, 484) (0, 663)
Futebol 17, 602 4, 847 0, 774 0, 573 0, 755 1, 243
(7, 368) (0, 115) (0, 581) (0, 470) (0, 578) (0, 595)
NASA 14, 086 3, 130 0, 900 0, 455 0, 791 1, 074
(5, 414) (0, 134) (0, 350) (0, 267) (0, 438) (0, 392)
Tabela 4.13 Teste de Wilcoxon: p-value
Comparacao Cardiologia Cogumelo Carro Futebol NASA
µ(RKI : C)× µ(RLI : C) 2, 02x10−17 1, 38x10−18 4, 49x10−18 1, 53x10−18 1, 92x10−18
µ(RKI : CA)× µ(RLI : CA) 2, 84x10−7 3, 68x10−6 2, 02x10−6 2, 58x10−7 2, 93x10−2
µ(RKI : CA)× µ(RMI : CL+AK) 1, 86x10−6 4, 13x10−6 1, 69x10−6 2, 21x10−6 1, 93x10−7
µ(RKI : CA)× µ(RMI : CK +AL) 10, 50x10−10 2, 61x10−8 3, 37x10−9 4, 82x10−10 2, 88x10−11
µ(RLI : CA)× µ(RMI : CL+AK) 0, 99 0, 98 0, 96 0, 99 0, 92
µ(RLI : CA)× µ(RMI : CK +AL) 4, 18x10−2 3, 59x10−2 2, 88x10−2 4, 70x10−2 2, 78x10−2
4.5 COMPARACAO ENTRE OS METODOS PROPOSTOS 97
4.5 COMPARACAO ENTRE OS METODOS PROPOSTOS
Esta secao consiste em comparar os cinco metodos de regressao propostos neste Tese para
dados simbolicos do tipo intervalo, a fim de verificar qual modelo melhor se adapta para
os problemas apresentados. Na Tabela 4.5 apresenta os valor doMMRE para o conjunto
de dados reais intervalar para os metodos propostos. De acordo com esses resultados,
algumas observacoes sao consideradas:
1. O modelo baseado na regressao de kernel para os conjuntos de dados Cogumelo,
Carro e NASA apresentam melhor desempenho, pois esses dados intervalares foram
bem modelados atraves de uma relacao nao parametrica entre as variaveis explica-
tivas e a variavel resposta. O metodo de regressao RKI : CA deve ser preferido,
pois nao a suposicao matematica de que o limite superior seja menor que o limite
inferir.
2. O modelo baseado na regressao robusta para os conjuntos Cardiologia e Futebol
apresentam o melhor desempenho, visto que essss dados intervalares foram bem
modelados atravaes de uma relacao parametrica entre as variaveis explicativas e
variavel resposta, alem de conter dados outliers favorecendo a utilizacao do metodo
de regressao RRI que e um metodo menos suceptıvel aos outliers.
Tabela 4.14 Media e Desvio Padrao (em parentesis) do MMRE para conjunto de dados reais
intervalar considerando os metodos de Centro de Amplitude.
Conjuntos de Metodos baseados no Centro e Amplitude
Dados RLI:CARKI:CARMI:CL+AKRMI:CK+AL RRI
Cardiologia 0, 180 0, 175 0, 179 0, 176 0, 1454
(0, 108) (0, 107) (0, 108) (0, 108) (0, 1062)
Cogumelo 0, 139 0, 134 0, 143 0, 136 0, 1919
(0, 076) (0, 087) (0, 073) (0, 083) (0, 1404)
Carro 0, 071 0, 065 0, 071 0, 066 0, 3862
(0, 048) (0, 081) (0, 051) (0, 065) (0, 3663)
Futebol 0, 172 0, 188 0, 188 0, 166 0, 02161
(0, 112) (0, 124) (0, 117) (0, 113) (0, 0162)
NASA 0, 208 0, 176 0, 220 0, 169 0, 4623
(0, 173) (0, 171) (0, 171) (0, 171) (0, 3528)
4.6 CONSIDERACOES FINAIS 98
Portanto, quando os problemas reais apresentam uma nuvem de intervalos formando
uma relacao parametrica entre as variaveis explicativas e a variavel resposta na presencao
de outliers, o modelo indicado e RRI. Caso, essa nuvem de intervalos forma uma relacao
nao parametrica entre as variaveis explicativas e a variavel resposta os modelos que uti-
lizam regressao com kernel sao indicados.
4.6 CONSIDERACOES FINAIS
Neste trabalho, os modelos regressao kernel e os modelos de mistura de regressao usando
funcoes lineares e kernel para conjunto de dados do tipo intervalo sao introduzidos. Estes
modelos sao construıdos baseados nos dados de centro e nos dados de centro e amplitude
das variaveis intervalares. O desempenho dos modelos e avaliado atraves da magnitude
media do erro relativo para intervalos proposta neste trabalho. As escolhas para realizacao
dos experimentos, como por exemplo, o tipo de kernel, a condicao de parada dos algorit-
mos sao utilizadas em artigos de simulacao com kernel em [Gonen e Alpaydin, (2010)] e
[Wang et. al, (2006)].
Experimentos baseados na simulacao Monte Carlo em relacao a varios cenarios de
conjuntos de dados foram simulados com e sem ruıdos. Aplicacoes com dados reais de-
monstram a robustez dos modelos propostos em comparacao com outros modelos de
regressao linear para os dados do tipo intervalo que usam o metodo dos mınimos quadra-
dos. Assim, a regressao kernel prove um metodo versatil para explorar a relacao entre
as variaveis intervalares, alem de fornecer boas predicoes para dados intervalares sem
utilizar um modelo com parametros fixos.
No entanto, na abordagem parametrica e possıvel especificar-se uma famılia de formas
funcionais para m de maneira errada. Este problema, possivelmente desastroso para a
abordagem parametrica, inexiste no enfoque nao-parametrico. Alem disso, a adocao de
abordagens flexıveis para a estimacao de m pode levar a descoberta de caracterısticas
consideradas insuspeitas quando da adocao de um modelo parametrico. Por esta razao, e
de interesse explorar o que se pode aprender sobre a funcao m sem restringi-la a modelos
estabelecidos a priori.
O objetivo da regressao nao-parametrica e aproximar m, que pode pertencer a uma
classe bastante vasta, sendo a unica restricao imposta de que seja uma funcao continua-
mente diferenciavel ate determinada ordem. Cabe comentar, no entanto, que existe um
preco a pagar pela flexibilidade da modelagem nao-parametrica. O tamanho da amos-
tra para conseguir-se a mesma eficiencia sera maior no caso nao-parametrico do que no
parametrico, quando o modelo parametrico especificado for correto, devido as taxas de
4.6 CONSIDERACOES FINAIS 99
convergencia dos estimadores nao-parametricos serem mais lentas do que a dos estima-
dores parametricos.
CAPITULO 5
CONCLUSOES
Este capıtulo apresenta as principais contribuicoes produzidas durante os quatro anos de
pesquisa para o desenvolvimento desta Tese de doutorado e a comparacao entre eles. Os
principais resultados foram compilados em artigos e publicados em conferencias nacio-
nais e internacionais. Um artigo referente aos resultados apresentados no Capıtulo 3 foi
publicado no periodico Engineering Applications of Artificial Intelligence. Os resultados
do Capıtulo 4 foram publicados na Neurocomputing. Por fim, serao descritos os trabalhos
que poderao dar seguimento ao que foi proposto nesta Tese.
5.1 CONSIDERACOES
Neste trabalho apresentam-se novos metodos para ajustar um modelo de regressao linear
utillizando metodos parametricos e nao parametricos para dados simbolicos do tipo in-
tervalo. As duas abordagens propostas foram: metodo regressao robusta e metodo de
regressao baseada em kernel.
A primeira abordagem e um metodo que tolera a presenca de dados atıpicos (outli-
ers). Esta tecnica foi desenvolvida como uma alternativa para estimativa do metodo dos
mınimos quadrados na presenca de outliers.
A segunda abordagem e um metodo que pode se constituir como uma alternativa
viavel quando as suposicoes acerca da distribuicao dos erros e/ou da forma funcional dos
modelos parametricos nao se verificarem.
A avaliacao dos metodos propostos baseou-se na estimativa do comportamento da
magnitude media do erro relativo utilizando simulacao Monte Carlo atraves do metodo
hold out para dados simbolicos simulados e o metodo leave one out para dados simbolicos
reais. Com isso, observou-se que houve uma melhoria na previsao dos limites dos interva-
los, em relacao ao metodo posposto por [Lima Neto e De Carvalho, (2008)]. Alem disso,
destacam-se os seguintes pontos identificados na fase experimental:
100
5.1 CONSIDERACOES 101
5.1.1 Comparacao entre os metodos
A seguir propoe-se uma comparacao entre os metodos, pois para cada cenarios apresen-
tado indica-se um modelo que melhor se adapta a realidade dos dados. Assim, quando os
dados da amplitude nao precisa ser modelado, foram apresentados dois modelos: RLI : C
e RKI : C, as seguintes observacoes sao elencadas:
O modelo RLI : C proposto por [Billard e Diday, (2000)] deve ser indicado quando
existir uma relacao parametrica entre a variavel explicativa e variavel reposta.
o modelo RKI : C proposto nesta Tese deve ser preferido quando existir uma
relacao nao parametrica entre a variavel explicativa e variavel resposta, ou quando
existir um relacao parametrica entre essas variaveis e alem disso a presenca de
outliers ou ruıdos, pois apresenta melhor desempenho para modelar esses dados;
Com a inclusao da modelagem de informacoes da amplitude, o metodo RLI : CA
proposto por [Lima Neto e De Carvalho, (2008)] apresenta uma melhoria na predicao do
modelo em relacao ao metodo RLI : C. Com isso, descreve-se sobre as caracterısticas
dos modelos consideram o centro e amplitude das informacoes dos intervalos, sao elas:
O modelo RRI e indicado quando existe uma relacao parametrica entre as variaveis
explicativas e a variavel resposta na presenca de outlier intervalar no conjunto de
dados.
O modelo RKI : CA e indicado quando existe uma relacao nao parametrica entre
as variaveis explicativas e a variavel resposta com ou sem ruıdos no conjunto de
dados intervalar. Alem de garantir a coerencia matematica de que o limite superior
e maior que o limite inferior.
o modelo de mistura RMI : CL+ AK e RMI : CK + AL foram proposto, pois o
custo computacional dos metodos que utilizam kernel sao maiores. As taxas de con-
vergencia dos estimadores nao parametricos sao mais lentas do que os estimadores
parameticos.
O modelo de mistura RMI : CL+AK deve ser indicado quando existir uma relacao
parametrica que modela as informacoes do centro dos intervalos e um relacao nao
parametrica qaundo modelo as informacao da amplitude dos intervalos do conjunto
de dados. Alem de garantir a coerencia matematica de que o limite superior seja
maior que o limite inferior.
5.1 CONSIDERACOES 102
O modelo de mistura RMI : CK+AL deve ser indicado quando existir uma relacao
nao parametrica que modela as informacoes do centro dos intervalos e um relacao
parametrica qaundo modelo as informacao da amplitude dos intervalos do conjunto
de dados.
Em relacao aos metodos propostos as seguintes informacoes foram concluıdas:
1. O metodo de regressao linear robusta para dados simbolicos do tipo intervalo de-
monstrou robustez em comparacao com um modelo de regressao linear para dados
simbolicos intervalares que usam a abordagem do metodo dos mınimos quadra-
dos, para diferentes tipos de outliers intervalares (no centro e/ou na amplitude dos
intervalos);
2. A analise dos resıduos intervalares baseados em tecnicas de diagnostico dos resıduos
studentizados e dos graficos, considerando os intervalos gerados pelo metodo de
regressao robusta para dados simbolicos do tipo intervalo;
3. O modelo regressao kernel para conjunto de dados do tipo intervalo introduzido
e uma alternativa quando nao precisa usar parametro fixo para o modelo, como
tambem, forneceu boas predicoes para dados intervalares;
4. Os modelos mistura de regressao usando funcoes lineares e funcoes de kernel, os
modelos RMI : CL+ AK e RKI : CA devem ser preferidos, uma vez que as suas
estimativas de intervalos nao violam a suposicao de que o limite superior e maior
do que o limite inferior de cada intervalo estimado;
5. Assim, nos modelos de mistura de regressao quando os dados da amplitude sao
necessarios para a predicao dos intervalos. Estes dados podem ser modelados por
qualquer funcao.
Em parceria com um aluno de iniciacao cientıfica, foi desenvolvida uma biblioteca
para manipular dados simbolicos do tipo intervalo. A ideia desse pacote foi a construcao
de operacoes que manipulem dados simbolicos do tipo intervalo. Esse pacote ISDA.R
engloba as seguintes funcoes:
Estatıstica descritiva: media, variancia, desvio padrao e moda;
Transformacoes de dados classicos para dados simbolicos do tipo intervalo atraves
dos valores mınimo e maximo;
5.2 PUBLICACOES 103
Tecnicas de visualizacao: histograma e grafico em 3D;
Modelo de regressao linear atraves da utilizacao do metodo do mınimo e maximo.
Atualmente, esse pacote (ISDA.R) encontra-se disponıvel gratuitamente no repo-
sitorio oficial da linguagem R-Cran [ISDA.R, (2012)].
5.2 PUBLICACOES
Esta secao divide-se em tres etapas de publicacao decorrentes dos metodos propostos no
decorrer da construcao desta Tese. A primeira elenca os artigos que foram apresentados
e publicados em conferencias. A segunda enumera os artigos que foram publicados em
periodicos (revistas) internacionais.
A primeira etapa apresenta os congressos nacionais e internacionais em que foram
apresentados artigos decorrentes dos metodos propostos neste trabalho:
1. Fagundes, R.A.A. ; de Souza, R.M.C.R. ; Cysneiros, F.J.A. A Robust Prediction
Method for Interval Symbolic Data. In: International Conference on Intelligent
Systems Design and Applications, 2009, Pisa. Proceedings of the International
Conference on Intelligent Systems Design and Applications ISDA’09, 2009. p. 1019-
1024.
2. Fagundes, R.A.A. ; de Souza, R.M.C.R. ; Cysneiros, F.J.A. . A Kernel Regression
Method using Interval Data: An Application to Estimate of Software Size. In: XX
Simposio Nacional de Probabilidade e Estatıstica, SINAPE 2012, Joao Pessoa-PB.
Resumos. 2012. 30-3 Agosto.
3. Fagundes, R.A.A. ; de Souza, R.M.C.R. ; Cysneiros, F.J.A. . A Robust Regression
Method for Large Data Sets using a Symbolic Approach. In: XII Escola de Modelos
de Regressao, 2011, Fortaleza-CE. Resumos. Sao Paulo: Associacao Brasileira de
Estatıstica, 2011. v. 1. p. 10-10
4. Cysneiros, F.J.A. ; Fagundes, R.A.A. ; de Souza, R.M.C.R. . A Symbolic Robust
Regression Model. In: IWSM 2011 - 26th International Workshop on Statisti-
cal Modelling, 2011, Valencia - Espanha. Proceedings of the 26th International
Workshop on Statistical Modelling, 2011. p. 160-163.
5. Fagundes, R.A.A. ; Souza, R. M. C. R. . Software Defect Estimation using Support
Vector Regression. In: 2010 International Conference on Software Engineering and
5.3 TRABALHOS FUTUROS 104
Knowledge Engineering (SEKE, 2010, Sao Francisco - California. Proceedings of
the International Conference on Software Engineering and Knowledge Engineering.
Sao Francisco: IEEE, 2010. p. 265-268.
6. Leal, L. Q. ; Fagundes, R.A.A. ; Souza, R. M. C. R. ; Moura, H. P. ; Gusmao,
C. M. . Nearest-Neighborhood Linear Regression in an Application with Software
Effort Estimation. In: 2009 IEEE International Conference on Systems, Man, and
Cybernetics, 2009, San Antonio Texas, USA.. SMC Proceeding, 2009.
7. Fagundes, R.A.A. ; de Souza, R.M.C.R. Queiroz, R.F. e Cysneiros, F.J.A. An
Interval Nonparametric Regression Method. In: International Joint Conference on
Neural Networks, 2013.
A segunda enumera as revistas internacionais em que se encontra publicada os metodos
propostos nesta Tese:
1. Fagundes, R.A.A. ; de Souza, R.M.C.R. ; Cysneiros, F.J.A. Robust Regression
with Application to Symbolic Interval Data. Engineering Applications of Artificial
Intelligence, v. 26, p. 564-9, 2013.
2. Fagundes, R.A.A. ; de Souza, R.M.C.R. ; Cysneiros, F.J.A. Interval Kernel Regres-
sion. NeuroComputing, v. 128, p. 371-388, 2014.
5.3 TRABALHOS FUTUROS
Os conhecimentos obtidos atraves do desenvolvimento desta Tese podem ser consideravel-
mente ampliados a problemas de predicao atraves do uso dos modelos proposto dados do
tipo intervalo na presenca de outliers e ruıdos. A seguir serem elencados alguns trabalhos
futuros decorrente desta Tese.
1. Propor um metodo para otimizar a escolha da largura de banda(h) para utilizacao
dos metodos de regressao baseados em kernel;
2. Propor novos cenarios para a validacao experimental das solucoes propostas na tese,
inserindo novas medidas de dignostico;
3. Empregar e avaliar as tecnicas propostas nesta tese em outros tipos de dados
simbolicos, como os dados simbolicos do tipo histograma;
5.3 TRABALHOS FUTUROS 105
4. Avaliar o desempenho dos metodos propostos a partir da analise de resıduos oriun-
dos de modelos com outros tipos de regressao simbolica
5. Implementar cenarios para dados simbolicos cuja representacao intervalar utilize
variaveis com algum grau de dependencia;
6. A expansao do pacote ISDA.R para suportar outros metodos de data mining, como
por exemplo: clustering, medidas de dissimilaridade, outros metodos de regressao
e etc.
REFERENCIAS
[Arroyo et al., (2011)] ARROYO, J.; GONZAEZ-RIVERA, G.; MATE, C. e SAN RO-
QUE, A.M. Smoothing methods for histogram-valued time series: an application to
value-at-risk, Statistical Analysis and Data Mining, Wiley Online Library, 4, 2, 216-
228, 2011.
[Beaton e Tukey, (1974)] BEATON, A.E. e TUKEY, J.W. The fitting of power Series,
Meaning Polynomials, Illustrated on Band-Spectroscopic Data, Technometrics, 16,
147-185, 1974.
[Belson, (1959)] BELSON, W. A. Matching and prediction on the principle of biological
classification. Applied Statistics 8, 2(June 1959), 65-75.
[Bertrand e Goupil, (2000)] BERTRAND, P. e GOUPIL, F. Descriptive statistic for sym-
bolic data. In: Bock, H., Diday, E. Analysis of Symbolic Data: Exploratory Methods
for Extracting Statistical Information from Complex Data. Springer, Heidelberg, 106-
124, 2000.
[Bielak, (2000)] BIELAK, J. Improving size estimates using historical data, 27-35, 2000.
[Billard e Diday, (2000)] BILLIARD, L. e DIDAY, E. Regression Analysis for Interval-
Valued Data. In: Data Analysis, Classification and Related Methods: Proceedings
of the Seventh Conference of the International Federation of Classification Societies
(IFCS’00), Springer-Verlag, Belgium, 369-374, 2000.
[Billard e Diday, (2002)] BILLIARD, L. e DIDAY, E. Symbolic Regression Analysis. In:
Classification, Clustering and Data Analysis: Proceedings of the Eighenth Conference
of the International Federation of Classification Societies (IFCS’02), Springer, Poland,
281-288, 2002.
[Billard e Diday, (2003)] BILLIARD, L. e DIDAY E. From the statistics of data to the
statistics of knowledge: symbolic data analysis. Journal of the American Statistical
Association, Vol 98, 470-487, 2003.
106
REFERENCIAS 107
[Billard, (2004)] BILLIARD, L. Dependencies in bivariate interval-valued symbolic data,
Classification, Clustering, and Data Mining Applications, 319-324, 2004, Springer.
[Billard e Diday, (2006)] BILLIARD, L. e DIDAY, E. Symbolic Data Analysis: Concep-
tual Statistics and Data Mining, Wiley, West Sussex, England, 2006.
[Billiard e Xu, (2012)] BILLIARD, L. e XU, W. An Overview of Some Regression Models
for Interval-valued Symbolic Data. In: 3rd Workshop in Symbolic Data Analysis, 7-9
Novembro 2012, Madrid.
[Bock e Diday, (2000)] BOCK, H.H. e DIDAY, E. Analysis of Symbolic Data. Studies
in Classification. Data Analysis and Knowledge Organization. Springer, Heidelberg,
2000.
[Boente et al., (2007)] BOENTE, A. N. P.; OLIVEIRA, F. S. G. e ROSA, J. L. A. Uti-
lizacao de Ferramenta de KDD para Integracao de Aprendizagem e Tecnologia em
Busca da Gestao Estrategica do Conhecimento na Empresa. Anais do Simposio de
Excelencia em Gestao e Tecnologia, 1, 123-132, 2007.
[Braga et al., 2007] BRAGA, L. P.; OLIVEIRA, I. L. A.; RIBEIRO,T. H. G. e MEIRA,
L. R. S. Bagging Predictors for Estimation of software project effort. In Proceedings
of International Joint Conference on Neural Networks, Orlando, Florida, USA, 12-17,
2007
[Bezerra e De Carvalho, (2004)] BEZERRA, B.L.D. e DE CARVALHO, F.A.T. A sym-
bolic approach for content-based information filtering. Information Processing Letters,
92, 45-52, 2004.
[China, (1998)] CISL: RDA Dataset Numbering System. http://dss.ucar.edu/datasets/.
Ultima visita em 01/05/2012.
[Carvalho et al., (2006)] CARVALHO, F. D.; BRITO, P. e BOCK, H. H. Dynamic Clus-
tering for Interval Data Based on L2 Distance. Computational Statistics (Zeitschrift),
2006, 231-250.
[Carvalho, (1995)] CARVALHO, F.D. Histograms in symbolic data analysis, Annals of
Operations Research, 55, 299-322, 1995, Springer.
[Carvalho et al., (2007)] CARVALHO, F. D.; PIMENTEL, J., BEZERRA, L. e SOUZA,
R.M.C.R. Clustering symbolic interval data based on a single adaptive Hausdorff
REFERENCIAS 108
distance. In IEEE International Conference on Systems, Man and Cybernetics (SMC),
451-455, 2007.
[De Carvalho et al., (2004)] DE CARVALHO F.A.T.; LIMA NETO, E.A. e TENORIO,
C.P. A new method to fit a linear regression model for interval-valued data. In Lec-
ture Notes in Computer Science, KI2004 Advances in Artificial Inteligence. Springer-
Verlag, 295-306, 2004.
[Costa et al., (2013)] COSTA, F.B.F. A.; PIMENTEL, A.B. e SOUZA, R.C.M.R. Clus-
tering interval data through kernel induced feature space. Journal Intelligent System,
40, 190-140, 2013.
[Almeida et al., (2013)] DANTAS, C.W.; SOUZA, R.C.M.R e CANDEIAS, A.L.B. Fuzzy
Kohonen clustering networks for interval data. Neurocomputing, 65-75 ,2103.
[Dias, (2011)] DIAS, R. Nonparametric Estimation: Smoothing andData Visualization.
Relatorio Tecnico. UNICAMP, 2011.
[De Carvalho e De Souza, (2010)] DE CARVALHO, F.A.T e DE SOUZA, R. M. C. R.
Unsupervised pattern recognition models for mixed feature-type symbolic data. Pat-
tern Recognition Letters, 31, 2010, 430-443.
[De Souza et. al., (2006)] SOUZA, R.M.C.R; CARVALHO, F. D. e PIZZATO, D. A Par-
titioning Method for Mixed Feature-Type Symbolic Data using a Squared Euclidean
Distance. 29th Annual German Conference on Artificial Intelligence (KI2006), 260 -
273, 2006.
[Diday, (1987)] DIDAY, E. The symbolic approach in clustering and related methods of
data analysis. In Classification and Related Methods of Data Analysis. North-Holland,
1987.
[Diday, (1988)] DIDAY, E. The symbolic approach in Clustering and related Methods of
data Analysis. Classification and Related methods of Data Analysis, In: Proceedings
of the first Conference of the Federation of the classification societies. North Holland,
1988.
[Diday, (1989)] DIDAY, E. Introduction a l’analyse des donnees symboliques, 1989.
[Diday, (1991)] DIDAY, E. Des objets de l’analyse des donnees a ceux de l’analyse des
connaissances, Induction Symbolique et Numerique a partir de donnees, Kodratoff Y.
et Diday E. Eds., CEPADUES, 1991.
REFERENCIAS 109
[Diday e Brito, (1989)] DIDAY, E. e BRITO, P. Symbolic Cluster Analysis. Spring-
Verlag, 1989, 45-84.
[Diday e Noirhomme-Fraiture, (2008)] DIDAY, E. e NOIRHOMME-FRAITURE, M.
Symbolic Data Analysis and the SODAS Software, Wiley, 2008.
[Domingues et al., (2010)] DOMINGUES, M.A.O.; SOUZA, R.M.C.R e CYSNEIROS,
F.J.A. A robust method for linear regression of symbolic interval data. Pattern Re-
cognition Letters, 31, 1991-1996, 2010.
[Fagundes et al. (2013)] FAGUNDES, R.A.A.; SOUZA, R.M.C.R. e CYSNEIROS,
F.J.A. Robust regression with application to symbolic interval data. Engineering Ap-
plications of Artificial Intelligence, 26, 1, 564-573, 2013.
[Fakhrahmad e Sami, (2009)] FAKHRAHMAD, S.M. e SAMI, A. Effective Estimation of
Modules Metrics in Software Defect Prediction Proceedings of the World Congress on
Engineering ,Vol. I, WCE, London, U.K, 2009.
[Gil et al., (2007)] GIL, A.M., GONZLEZ-RODRIGUEZ G. e MONTENEGRO M. Tes-
ting linear independence in linear models with interval-valued data, Computing Sta-
tistic and Data Analysis 51,2007,3002-3015.
[Gordon, (2000)] GORDON, A.D. An iteractive relocation algorithm for classifying sym-
bolic data. In: W. G. et al, editor, Data Analysis : Scientific Modeling and Practical
Application, Berlin, Springer-Verlag, 17-23, 2000.
[Huber, 1964] HUBER, P.J. Robust Estimation of a Location Parameter. In: Annals of
Mathematical Statistics 35, 73-101, 1964.
[Hardle (1994)] HARDLE, W. Applied Nonparametric Regression,Institut fur Statistik
und Okonometrie, Berlin, 1994.
[ISDA.R, (2012)] Interval Symbolic Data Analysis for R. http://cran.r-
project.org/web/packages/ISDA.R/index.html. Ultima visita 10/03/2013.
[Ichino et al., (1996)] ICHINO, M.; YAGUCHI, H. e DIDAY, E. A fuzzy symbolic pattern
classifer In:Ordinal and Symbolic Data Analysis. Springer, Berlin, 92- 102, 1996.
[Iwasaki e Tsubaki, (2005)] IWASAKI, M. e TSUBAKI, H. A new bivariate distribution
in natural exponential family, Metrika 61, 323-336, 2005.
REFERENCIAS 110
[Jiang et al., (2008)] JIANG Y.; CUKIC B. e MA Y. Techniques for evaluating fault
prediction models, Empirical Software Engineering Journal, 561-595, 2008.
[Lauro e Gioia, (2006)] LAURO, C. e GIOIA, F. Dependence and interdependence analy-
sis for interval-valued variables, Data Science and Classification, 171-183, 2006, Sprin-
ger.
[Leal et al., (2009)] LEAL,L.Q.; FAGUNDES R.A.A.; SOUZA, R.M.C.R.; GUSMAO,
C.M.G. e MOURA, H.P. Nearest-Neighborhood Linear Regression in an Application
with Software Effort Estimation, SMC, 2009.
[Lechevallier et al., (2008)] LECHEVALLIER, Y.; GOLLI, A. e HEBRAIL, G., 2008.
Improved Generation of Symbolic Objects from Relational Databases. In: Symbolic
Data Analysis and the SODAS Software.45-59. Wiley, West Sussex, England.
[Lima Neto e De Carvalho, (2008)] LIMA NETO, E.A. e DE CARVALHO, F.A.T. Cen-
tre and Range method for fitting a linear regression model to symbolic interval data.
Computational Statistics and Data Analysis, 52, 1500-1515, 2008.
[Lima Neto e De Carvalho, (2010)] LIMA NETO, E.A. e DE CARVALHO, F.A.T. Cons-
trained linear regression models for symbolic interval-valued variables. Computational
Statistics and Data Analysis, 54, 333-347, 2010.
[Lima Neto et al., (2011)] LIMA NETO, E.A.; CORDEIRO, G.M. e DE CARVALHO,
F.A.T. Bivariate Symbolic Regression Models for Interval-Valued Variables. Jounal
of Statistical Computation and Simulation, 81, 1727-1744, 2011.
[Lima Neto et al., (2005)] LIMA NETO, E.A.; DE CARVALHO F.A.T. e FREIRE, E.S.
Applying constrained linear aggression models to predict interval-valued data. In Lec-
ture Notes in Computer Science, KI: Advances in Artificial Inteligence (ed. U. Fur-
bach). Springer-Verlag, Brelin, 92-106, 2005.
[Le-Rademacher e Billiard, (2011)] LE-RADEMACHER, J. e BILLARD, L. Likelihood
functions and some maximum likelihood estimators for symbolic data, In: Journal of
Statistical Planning and Inference, 141, 4, 1593-1602, 2011, Elsevier.
[Maia et al., (2008)] MAIA, A.L.S.; DE CARVALHO, F.A.T. e LUDERMIR, T.B. Fore-
casting models for interval-valued time series. Neurocomputing, 71, 3344-3352, 2008.
REFERENCIAS 111
[Maia e De Carvalho, (2008)] MAIA, A.L.S. e DE CARVALHO, F.A.T. Fitting a Least
Absolute Deviation Regression Model on Interval-Valued Data, SBIA 2008, 207-216,
2008.
[Morgan e Sonquist, (1963)] MORGAN,J. N. e SONQUIST,J. A. Problem in the analysis
of survey data and proposal. 415-434, 1963.
[Michalski et al., (1981)] MICHALSKI, R. S.; STEEP, R. E. e DIDAY, E. A recent ad-
vances in data analysis: clustering objects in to classes characterized by conjunctive
concepts. In Progress Pattern Recognition. Kanal A. Rosendfeld, 1981, 33-46.
[Montgomery et al., (2006)] MONTGOMERY D.C.; PECK, E.A. e VINING,G. G. In-
troduction to Linear Regression Analysis, Wisley-Interscince, 2006.
[Montgomery e Ruger, (2003)] MONTGOMERY C. Douglas e RUNGER C. George. Es-
tatıstica Aplicada e Probabilidade para Engenheiros Quarta Edicao, Editora LTC,
2003.
[Noirhomme-Fraiture e Brito, (2011)] NOIRHOMME-FRAITURE, M. e BRITO, P. Far
beyond the classical data models: Symbolic data analysis. Statistical Analysis and
Data Mining, 4, 157-170, 2011.
[Oliveira, (2006)] OLIVEIRA, A.L.I. Estimation of software projects effort with support
vector regression. Neurocomputing, 69, 2006, 1749-1753.
[Huber e Ronchetti, (2009)] HUBER, J.P. e RONCHETTI, E.M. Robust Statistics. Se-
cond Edition, Wiley, 2009.
[Prudencio et al., (2004)] PRUDENCIO, R.B.C.; LUDERMIR, T.B. e DE CARVALHO,
F.A.T. A modal symbolic classifier for selectiong time series model. Pattern Recogni-
tion Letters, 25, 911-921, 2004.
[Rousseau e Leroy, (1987)] ROUSSEEUW, P.J. e LEROY, A.M. Robust Regression and
Outlier Detection. Wiley, USA, 1987.
[Russel e Norvig, (2003)] RUSSEL, S. J. e NORVIG, P. Artificial Inteligence: A modern
Approach. Pearson Education, 2003.
[Silva e Brito, (2006)] SILVA, A. P. D. e BRITO, P. Linear Discriminant Analysis for
Interval Data. Computational Statistics, 21, 2006, 289-308.
REFERENCIAS 112
[Sneath e Sokal, (1973)] SNEATH, P. e SOKAL, R.Numerical Taxonomy. The Principles
and Pratice of Numerical Classification. Freeman, 1973.
[Souza et al., (2011)] SOUZA, R.M.C.R.; QUEIROZ, D.C.F. e CYSNEIROS, F.J.A. Lo-
gistic Regression-Based Pattern Classifiers for Symbolic Logistic Regression-Based
Pattern Classifiers for Symbolic Interval Data 14, 273-282, 2011.
[Witten et. al, (2011)] WITTEN, I. H.; FRANK, E. e HALL, M. A. Data Mining: Prac-
tical Machine Learning Tools and Techniques, Third Edition, Editora: Morgan Kauf-
mann, 2011.
[Gonen e Alpaydin, (2010)] GONEN M. e ALPAYDIN E. Localized Multiple Kernel Re-
gression, International Conference on Pattern Recognition, 2010.
[Wang et. al, (2006)] WANG M.; HUA X.S; SONG Y.; DAI L.R. e ZHANG H.J. Semi-
Supervised Kernel Regression, Proceedings of the Sixth International Conference on
Data Mining, 2006.
APÊNDICE A 113
APÊNDICE A
Tabela 1 Conjunto de Dados: Cardiologia (Range dos intervalos do pulso, pressão
sistólica e pressão diastólica dos pacientes).
Pacientes Variáveis Simbólicas
Pulso Pressão Sistólica Pressão Diastólica
1 [58:90] [63:102] [63:102]
2 [47:68] [71:118] [71:118]
3 [32:114] [131:186] [58:113]
4 [61:110] [105:157] [62:118]
5 [62:89] [120:179] [59:94]
6 [63:119] [101:194] [48:116]
7 [51:95] [109:174] [60:119]
8 [49:78] [128:210] [76:125]
9 [43:67] [94:145] [47:104]
10 [55:102] [148:201] [88:130]
11 [64:107] [111:192] [52:96]
12 [54:84] [116:201] [74:133]
13 [47:95] [102:167] [39:84]
14 [56:90] [104:161] [55:98]
15 [44:108] [106:167] [45:95]
16 [63:109] [112:162] [62:116]
17 [62:95] [136:201] [67:122]
18 [48:107] [90:177] [52:104]
19 [26:109] [116:168] [58:109]
20 [61:108] [98:157] [50:111]
21 [54:78] [98:160] [47:108]
22 [53:103] [97:154] [60:107]
23 [47:86] [87:150] [47:86]
24 [70:132] [141:256] [77:158]
25 [63:115] [108:147] [62:107]
26 [47:83] [115:196] [65:117]
27 [56:103] [99:172] [42:86]
28 [71:121] [113:176] [57:95]
29 [68:91] [114:186] [46:103]
30 [62:100] [145:210] [100:136]
31 [52:78] [119:212] [47:93]
32 [55:84] [122:178] [73:105]
33 [61:101] [127:189] [74:125]
34 [65:92] [113:213] [52:112]
35 [38:66] [141:205] [69:133]
36 [48:73] [99:169] [53:109]
37 [59:98] [126:191] [60:98]
38 [59:87] [99:201] [55:121]
39 [49:82] [88:221] [37:94]
40 [48:77] [113:183] [55:85]
41 [56:133] [94:176] [56:121]
42 [37:75] [102:156] [50:94]
43 [61:94] [103:159] [52:95]
44 [44:110] [102:185] [63:118]
45 [46:83] [111:199] [57:113]
46 [52:98] [130:180] [64:121]
47 [56:84] [103:161] [55:97]
48 [54:92] [125:192] [59:101]
49 [53:120] [97:182] [54:104]
50 [49:88] [124:226] [57:101]
51 [75:124] [120:180] [59:90]
52 [58:99] [100:161] [54:104]
53 [59:78] [159:214] [99:127]
54 [55:89] [138:221] [70:118]
55 [55:80] [87:152] [50:95]
56 [70:105] [120:188] [53:105]
57 [40:80] [95:166] [54:100]
58 [56:97] [92:173] [45:107]
59 [37:86] [83:140] [45:91]
APÊNDICE A 114
Tabela 2 Conjunto de Dados: Carro Range dos intervalos do preço, motor e velocidade máxima do conjunto de dados carro.
Carro
Variáveis Simbólicas
Preço Motor Velocidade Máxima
1 [27806:33596] [1370:1910] [185:211]
2 [41593:62291] [1598:2492] [200:227]
3 [64499:88760] [1970:2959] [204:211]
4 [260500:460000] [5935:5935] [298:306]
5 [40230:68838] [1595:1781] [189:238]
6 [68216:140205] [1781:4172] [216:250]
7 [123849:171417] [2771:4172] [232:250]
8 [45407:76392] [1796:2979] [201:247]
9 [70292:198792] [2171:4398] [226:250]
10 [104892:276792] [2793:5397] [228:240]
11 [240292:391692] [3586:5474] [295:298]
12 [19229:30885] [1242:1910] [155:170]
13 [19242:24742] [1242:1753] [155:170]
14 [27492:34092] [1596:1753] [185:193]
15 [205242:215242] [2977:3179] [260:270]
16 [413000:423000] [5992:5992] [335:335]
17 [19837:29034] [1242:1242] [158:174]
18 [58806:81306] [1998:2959] [212:220]
19 [155000:159500] [3217:3217] [280:290]
20 [132800:262500] [2799:5987] [232:250]
21 [55902:115248] [1998:3199] [210:250]
22 [69243:389405] [1998:5439] [222:250]
23 [128202:394342] [3199:5786] [210:240]
24 [18492:24192] [998:1348] [150:164]
25 [19212:30612] [973:1796] [155:202]
26 [36492:49092] [1598:2171] [193:207]
27 [147704:246412] [3387:3600] [280:305]
28 [16992:23492] [1149:1149] [151:168]
29 [21492:33042] [1119:1994] [160:185]
30 [50490:65399] [1796:2497] [195:210]
31 [19519:32686] [1397:1896] [157:183]
32 [27419:48679] [1585:1896] [190:191]
33 [39676:63455] [1595:2496] [192:220]
APÊNDICE A 115
Tabela 3 Conjunto de Dados: Cogumelo Range dos intervalos do píleo, comprimento e espessura do estipe dos cogumelos do gênero Agricies.
Família Agricies
Variáveis Simbólicas
Largura Píleo
Comprimento Estipe
Espessura Estipe
1 [3.0:8.0] [4.0:9.0] [0.50:2.50]
2 [6.0:21.0] [4.0:14.0] [1.00:3.50]
3 [4.0:8.0] [5.0:11.0] [1.00:2.00]
4 [6.0:7.0] [4.0:7.0] [3.00:4.50]
5 [5.0:12.0] [2.0:5.0] [1.50:2.50]
6 [5.0:15.0] [4.0:10.0] [2.00:4.00]
7 [4.0:11.0] [3.0:7.0] [0.40:1.00]
8 [5.0:10.0] [3.0:6.0] [1.00:2.00]
9 [2.5:4.0] [3.0:5.0] [0.40:0.70]
10 [2.5:6.0] [1.5:3.5] [1.00:1.50]
11 [1.5:2.5] [3.0:6.0] [0.25:0.35]
12 [4.0:15.0] [4.0:15.0] [1.50:2.50]
13 [3.5:8.0] [4.0:10.0] [1.00:2.00]
14 [7.0:14.0] [8.0:14.0] [1.50:2.50]
15 [8.0:20.0] [9.0:19.0] [3.00:5.00]
16 [2.5:4.0] [2.5:4.5] [0.40:0.70]
17 [7.0:19.0] [8.0:15.0] [2.00:3.50]
18 [5.0:15.0] [6.0:15.0] [2.50:3.50]
19 [8.0:12.0] [6.0:12.0] [1.50:2.00]
20 [2.0:6.0] [3.0:7.0] [0.40:0.80]
21 [6.0:12.0] [6.0:12.0] [1.50:2.00]
22 [6.0:12.0] [6.0:16.0] [1.00:2.00]
23 [5.0:17.0] [4.0:14.0] [1.00:3.50]
APÊNDICE A 116
Tabela 4 Conjunto de Dados: Futebol Range dos intervalos do peso, altura e idade dos jogadores de futebol de times da França.
Jogadores de Futebol
Variáveis Simbólicas
Peso Altura Idade
A [58:85] [164:192] [21:35]
B [67:84] [171:190] [20:30]
C [65:88] [170:186] [18:36]
D [60:83] [162:188] [19:31]
E [60:84] [170:189] [18:34]
F [67:83] [173:190] [18:36]
G [69:90] [176:193] [19:34]
H [65:85] [170:193] [19:31]
I [63:84] [168:188] [18:34]
J [58:88] [167:197] [19:35]
K [62:86] [164:191] [18:34]
L [62:80] [168:189] [19:35]
M [63:85] [167:190] [18:31]
N [65:95] [168:196] [20:35]
O [63:83] [170:187] [18:35]
P [60:87] [170:197] [18:37]
Q [67:85] [168:190] [18:32]
R [62:83] [169:192] [18:35]
S [63:84] [172:192] [18:33]
T [63:85] [169:194] [20:34]
Recommended