Upload
danganh
View
213
Download
0
Embed Size (px)
Citation preview
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
CENTRO DE CIÊNCIAS EXATAS E DA TERRA
DEPARTAMENTO DE INFORMÁTICA E MATEMÁTICA APLICADA
PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO
Antonino Alves Feitosa Neto
Análise das Medidas de Boa e Má Diversidade na Construção de Comitês de
Classificadores Através de Metaheurísticas de Otimização Multiobjetivo
Natal – RN
2012
Antonino Alves Feitosa Neto
Análise das Medidas de Boa e Má Diversidade na Construção de Comitês de
Classificadores Através de Metaheurísticas de Otimização Multiobjetivo
Dissertação de mestrado submetida ao
Programa de Pós-Graduação em Sistema e
Computação do Departamento de Informática
e Matemática Aplicada da Universidade
Federal do Rio Grande do Norte como parte
dos requisitos para a obtenção do grau de
Mestre Sistemas e Computação (MSc).
Orientadora
Prof.ª Dr.ª Anne Magály de Paula Canuto
Natal – RN
2012
Catalogação da Publicação na Fonte. UFRN / SISBI / Biblioteca Setorial
Especializada do Centro de Ciências Exatas e da Terra – CCET.
Feitosa Neto, Antonino Alves.
Análise das medidas de boa e má diversidade na construção de comitês de
classificadores através de metaheurísticas de otimização multiobjetivo / Antonino
Alves Feitosa Neto. – Natal, RN, 2012.
101 f. : il.
Orientadora: Profa. Dra. Anne Magály de Paula Canuto.
Dissertação (Mestrado) – Universidade Federal do Rio Grande do Norte. Centro
de Ciências Exatas e da Terra. Departamento de Informática e Matemática Aplicada.
Programa de Pós-Graduação em Sistemas e Computação.
1. Computação – Dissertação. 2. Comitês de classificadores – Dissertação. 3.
Otimização Metaheurística – Dissertação. 4. Medidas de boa e má diversidade -
Dissertação. 4. Algoritmo - Dissertação. I. Canuto, Anne Magály de Paula. II.
Título.
RN/UF/BSE-CCET CDU 004
Resumo
Comitês de classificadores podem ser empregados para melhorar a acurácia de sistemas de classificação, ou seja,
diferentes classificadores aplicados à solução de um mesmo problema podem ser combinados gerando um
sistema de maior acurácia, denominado de comitês de classificadores. Para que se obtenha sucesso é necessário
que os classificadores apresentem erros em diferentes objetos do problema para que assim os erros de um
classificador sejam suprimidos pelo acerto dos demais na aplicação do método de combinação do comitê. A
característica dos classificadores de errarem em objetos diferentes é denominada de diversidade. No entanto, as
maiorias das medidas de diversidade não conseguiam descrever essa importância. Recentemente, foram
propostas duas medidas de diversidade (boa e má diversidade) as medidas de boa e má diversidade com o
objetivo de auxiliar a geração de comitês mais acurados. Este trabalho efetua uma análise experimental dessas
medidas aplicadas diretamente na construção de comitês de classificadores. O método de construção adotado é
modelado como um problema de busca pelo melhor conjunto de características das bases de dados do problema e
pelo melhor conjunto de membros do comitê a fim de encontrar o comitê de classificadores que apresente à
maior acurácia de classificação. Esse problema é resolvido através de técnicas de otimização metaheurísticas,
nas versões mono e multiobjetivo. São efetuadas análises estatísticas para verificar se usar ou adicionar as
medidas de boa e má diversidade como objetivos de otimização resulte comitês mais acurados. Assim, a
contribuição desse trabalho é determinar se as medidas de boa e má diversidade podem ser utilizadas em técnicas
de otimização mono e multiobjetivo como objetivos de otimização para construção de comitês de classificadores
mais acurados que aqueles construídos pelo mesmo processo, porém utilizando somente a acurácia de
classificação como objetivo de otimização.
Palavras Chave: Computação. Comitês de Classificadores. Otimização Metaheurística. Medidas de boa e má
Diversidade. Algoritmo.
Abstract
Committees of classifiers may be used to improve the accuracy of classification systems, in other words,
different classifiers used to solve the same problem can be combined for creating a system of greater accuracy,
called committees of classifiers. To that this to succeed is necessary that the classifiers make mistakes on
different objects of the problem so that the errors of a classifier are ignored by the others correct classifiers when
applying the method of combination of the committee. The characteristic of classifiers of err on different objects
is called diversity. However, most measures of diversity could not describe this importance. Recently, were
proposed two measures of the diversity (good and bad diversity) with the aim of helping to generate more
accurate committees. This paper performs an experimental analysis of these measures applied directly on the
building of the committees of classifiers. The method of construction adopted is modeled as a search problem by
the set of characteristics of the databases of the problem and the best set of committee members in order to find
the committee of classifiers to produce the most accurate classification. This problem is solved by metaheuristic
optimization techniques, in their mono and multi-objective versions. Analyzes are performed to verify if use or
add the measures of good diversity and bad diversity in the optimization objectives creates more accurate
committees. Thus, the contribution of this study is to determine whether the measures of good diversity and bad
diversity can be used in mono-objective and multi-objective optimization techniques as optimization objectives
for building committees of classifiers more accurate than those built by the same process, but using only the
accuracy classification as objective of optimization.
Keywords: Computing. Classifier Combination Systems. Metaheuristic Optimization. Good and Bad Diversity.
Algorithm.
Sumário
INTRODUÇÃO........................................................................................................................................ 9
1.1 JUSTIFICATIVA .............................................................................................................................. 11
1.2 OBJETIVOS ..................................................................................................................................... 11
1.3 ESTRUTURA DO TRABALHO ......................................................................................................... 12
FUNDAMENTOS TEÓRICOS .............................................................................................................. 13
2.1 APRENDIZADO DE MÁQUINA ....................................................................................................... 13
2.1.1 k-NN .............................................................................................................................................. 14
2.1.2 Comitês de Classificadores ............................................................................................................... 15
2.2 MÉTRICAS DE AVALIAÇÃO ........................................................................................................... 16
2.2.1 Avaliação de Acurácia ...................................................................................................................... 16
2.2.2 Avaliação de Diversidade ................................................................................................................. 17
2.2.3 Teste Estatístico de Mann-Whitney ................................................................................................... 18
2.2.4 Teste Estatístico Wilcoxon Signed-Rank ............................................................................................ 19
2.3 OTIMIZAÇÂO METAHEURÍSTICA ................................................................................................. 21
2.3.1 Técnica de Busca Tabu ..................................................................................................................... 22
2.3.2 Técnica de Algoritmos Genéticos ...................................................................................................... 24
2.3.3 Otimização Multiobjetivo ................................................................................................................. 25
2.3.3.1 Algoritmo MTS ............................................................................................................................. 26
2.3.3.2 Algoritmo NSGA II ........................................................................................................................ 27
TRABALHOS RELACIONADOS ......................................................................................................... 30
3.1 MEDIDAS DE DIVERSIDADE E CATEGORIAS DE CONSTRUÇÂO ............................................... 30
3.2 APLICAÇÔES DAS MEDIDAS DE BOA E MÁ DIVERSIDADE ....................................................... 33
CONSTRUÇÃO DOS COMITÊS ........................................................................................................... 35
4.1 MÉTODO DE CONSTRUÇÂO .......................................................................................................... 36
4.1.1 Representação das Soluções .............................................................................................................. 36
4.1.2 Avaliação das Soluções .................................................................................................................... 37
4.1.3 Algoritmos de Construção ................................................................................................................ 38
4.2 CONFIGURAÇÃO DOS MÉTODOS DE CONSTRUÇÂO .................................................................. 40
4.2.1 Soluções Iniciais .............................................................................................................................. 40
4.2.2 Parâmetros dos Métodos de Construção ............................................................................................. 40
4.2.3 Parâmetros da Avaliação das Soluções ............................................................................................... 42
4.3 RESULTADOS ESPERADOS ............................................................................................................ 44
4.3.1 Bases de Dados ................................................................................................................................ 44
4.3.2 Configuração dos Experimentos ........................................................................................................ 45
4.3.3 Comparação dos Algoritmos ............................................................................................................. 46
RESULTADOS ...................................................................................................................................... 48
5.1 Resultados Preliminares ..................................................................................................................... 48
5.2 Análise dos Resultados ....................................................................................................................... 53
5.2.1 Seleção dos Resultados..................................................................................................................... 54
5.2.1.1 Análise da Eficácia para 3 Classificadores Base ............................................................................... 55
5.2.1.2 Análise da Eficácia para 10 Classificadores Base ............................................................................. 62
5.2.2 Melhor Conjunto de Objetivos .......................................................................................................... 68
5.2.2.1 Melhor Conjunto de Objetivos nos Algoritmos de Busca Tabu para 3 Classificadores ......................... 69
5.2.2.2 Melhor Conjunto de Objetivos nos Algoritmos Genéticos para 3 Classificadores ................................ 70
5.2.2.3 Melhor Conjunto de Objetivos nos Algoritmos de Busca Tabu para 10 Classificadores ....................... 71
5.2.2.4 Melhor Conjunto de Objetivos nos Algoritmos Genéticos para 10 Classificadores .............................. 73
5.2.3 Correlação das Medidas de Diversidade ............................................................................................. 74
5.2.4 Quantidade Máxima de Classificadores Base...................................................................................... 77
5.2.5 Discussão dos Resultados ................................................................................................................. 78
CONSIDERAÇÕES FINAIS .................................................................................................................. 79
REFERÊNCIAS ..................................................................................................................................... 81
APÊNDICE A – Pré-processamento das bases de dados ......................................................................... 84
APÊNDICE B – Resultados das Variações dos Parâmetros .................................................................... 89
APÊNDICE C – Variações da quantidade máxima de classificadores ..................................................... 91
APÊNDICE D – Resultados dos Experimentos ....................................................................................... 95
9
CAPÍTULO 1 –
INTRODUÇÃO
Na área de classificação de padrões existe uma grande preocupação com a acurácia dos métodos
utilizados, isto é, deseja-se utilizar métodos que sejam os mais acurados possíveis. Em algumas situações o
emprego de comitês de classificadores gera resultados melhores que o uso de um único classificador
(KUNCHEVA, 2004). Um comitê de classificadores é um sistema de classificação composto por outros sistemas
de classificação e por um método de combinação. Os sistemas de classificação que o compõe são denominados
de classificadores base. A ideia do uso de comitês se baseia na diversidade dos classificadores base de modo que
eles não cometam erros coincidentes. Desse modo, as fraquezas de um classificador (erros de classificação) são
suprimidas pelos acertos dos demais e assim espera-se aumentar a acurácia de classificação do sistema (BROWN
et al, 2005; KUNCHEVA, 2004).
O trabalho de (BROWN et al, 2005) apresenta diferentes metodologias que podem ser empregadas para
geração de diversidade em comitês de classificação. Além disso, categoriza essas metodologias em termos do
uso de medidas de diversidade na construção dos comitês de classificação. Determina que uma metodologia de
geração de diversidade é explícita quando otimiza alguma medida de diversidade para construir o comitê de
classificação e que a metodologia é implícita quando isso não ocorre.
Existem diferentes metodologias implícitas para gerar comitês de classificação que apresentem
diversidade: usar diferentes técnicas para gerar cada classificador base; usar diferentes parâmetros nas técnicas
de geração dos classificadores base para que assim sejam retornados classificadores diferentes mesmo utilizando
a mesma técnica; usar diferentes conjuntos de exemplos em cada técnica de geração dos classificadores, isto é,
usar diferentes elementos do conjunto ou usar diferentes conjuntos de características dos elementos
(KUNCHEVA, 2004).
O conjunto de características dos elementos de um problema é denominado de conjunto atributos, onde
cada elemento é um atributo que caracteriza o problema definido por um especialista. No entanto, pode ocorrer
que alguns atributos não sejam importantes ou adicionem pouca informação para o objetivo de classificação
(WITTEN; FRANK, 2005). Um problema clássico deste contexto é a seleção do melhor subconjunto de
características que maximize uma medida de avaliação. Esse problema é classificado como um problema NP-
difícil e assim as técnicas existentes não são capazes de retornar uma solução ótima num tempo computacional
aceitável para a maioria dos problemas práticos (BIN; JIARONG; YADONG, 1997).
10
Problemas de otimização são problemas caracterizados pela presença de um conjunto de soluções em
que se deseja encontrar uma solução que seja a melhor possível (SOUZA, 2012). O problema deve apresentar
uma função que mapeia as soluções num valor real para assim determinar a qualidade de uma solução. O
objetivo de uma técnica para solucionar esse problema é encontrar uma solução que maximiza ou minimiza o
valor dessa função, dependendo das características do problema (SOUZA, 2012). As soluções são formadas por
variáveis. Quando essas variáveis são discretas e a combinação dos valores delas geram diferentes valores para
função do problema dizemos que é um problema de otimização combinatória (SOUZA, 2012).
Assim, o problema apresentado pode ser modelado como um problema de otimização combinatória que
pode ser resolvido pela aplicação de técnicas metaheurísticas para retornar uma solução aceitável num tempo
computacional razoável. Assim, podemos modelar a escolha dos parâmetros das metodologias implícitas de
geração de diversidade como um problema de otimização combinatória, isto é, escolha dos atributos dos
classificadores base e de quais classificadores são utilizados pelo comitê a fim de maximizar a acurácia de
classificação. Podemos utilizar como objetivo de otimização a acurácia de classificação do comitê. No entanto,
uma característica necessária aos comitês é a diversidade. Assim, podemos utilizar a diversidade como um dos
objetivos de otimização, porém, aumentar a diversidade do comitê pode comprometer a acurácia do mesmo.
Quando temos um problema de otimização com mais de um objetivo em que eles são conflitantes
dizemos que temos um problema de otimização multiobjetivo (DANOSO; FABREGAT, 2007; ZITZLER;
LAUMANNS; BLEULER, 2004). Assim, podemos modelar a escolha dos parâmetros das metodologias
implícitas de geração de diversidade como um problema de otimização multiobjetivo otimizando a acurácia do
comitê e uma medida de diversidade. Porém, uma medida padrão de diversidade para comitês de classificadores
ainda não foi adotada na literatura (BROWN et al, 2005; BROWN; KUNCHEVA, 2010; TANG et al, 2006).
Outro problema também é apresentado: usar explicitamente uma medida de diversidade no processo de
construção de comitês não compartilha o sucesso das metodologias implícitas (KUNCHEVA, 2004). Isto é,
utilizar o valor de uma medida de diversidade para influenciar o processo de construção de comitês não melhora
a acurácia dos mesmos quando comparado com as metodologias implícitas de geração de diversidade.
Recentemente foram propostas as medidas de boa e má diversidade (good e bad diversidade) definidas
por (BROWN; KUNCHEVA, 2010) em vista dos problemas apresentados. Podemos definir a boa diversidade
como a quantidade de votos incorretos quando o comitê apresenta um resultado correto. De modo análogo, a má
diversidade é definida como a quantidade de votos corretos quando o comitê apresenta uma saída incorreta.
Essas medidas são provenientes da decomposição do erro de classificação de comitês que utilizam como método
de combinação o voto majoritário. Nesse contexto ela pode ser utilizada de diferentes formas, por exemplo,
como elemento de decisão na escolha dos atributos dos classificadores base de um comitê.
No entanto, os estudos existentes não permitem concluir se na prática usar essas medidas diretamente na
construção de comitês de classificadores geram comitês mais acurados. Este trabalho realiza um estudo
experimental dessas medidas quando utilizadas como objetivos de otimização em técnicas mono e
multiobjetivos. Visa, desta forma, determinar se essas medidas podem ser usadas diretamente na construção de
comitês de classificadores melhorando a acurácia dos mesmos em relação a comitês construídos do mesmo
modo, mas utilizando somente a acurácia de classificação como objetivo.
11
1.1 JUSTIFICATIVA
Como já mencionado, não há um consenso na literatura sobre uma medida de diversidade padrão para
comitês de classificadores (BROWN et al, 2005; BROWN; KUNCHEVA, 2010; TANG et al, 2006). Muitas das
medidas existentes são ineficientes para o uso direto na construção de comitês (TANG et al, 2006). As medidas
de boa e má diversidade surgiram para suprir essa falta de medidas que possam analisar de maneira eficiente a
diversidade de um comitê. Assim, espera-se que a medidas de boa e má diversidade possam ser usadas para
construção de comitês de melhor acurácia de classificação. Os estudos existentes sobre essas medidas não são
suficientes para avaliar se elas realmente melhoram a acurácia dos comitês. Este trabalho apresenta três trabalhos
que empregam as medidas de boa e má diversidade de diferentes maneiras.
O primeiro trabalho faz as definições das medidas e realiza alguns estudos com dados experimentais
(BROWN; KUNCHEVA, 2010). Conclui que a acurácia do comitê é diretamente relacionada com a boa
diversidade e inversamente relacionada com a má diversidade quando o número de classificadores é suficiente
grande. Sugere que é possível o desenvolvimento de algoritmos que maximizem a boa diversidade enquanto
suprimem a má diversidade gerando comitês mais acurados. Porém, segundo os próprios autores, são necessários
maiores estudos aplicando essas medidas em problemas práticos.
O segundo trabalho objetiva avaliar como são alteradas a acurácia de classificação e a diversidade dos
comitês quando aplicadas diferentes métodos de geração de diversidade (NASCIMENTO et al, 2011). As
medidas de boa e má diversidade são empregadas para avaliar a diversidade final dos comitês gerados e para
efetuar uma comparação entre o emprego ou não de diferentes tipos de classificadores na composição dos
comitês. Ou seja, é feita uma comparação entre comitês homogêneos e heterogêneos quanto à acurácia e a
diversidade resultante. No entanto, não é apresentado nenhum resultado referente ao uso direto da medida de boa
e má diversidade para construção de comitês.
O terceiro trabalho consiste nos resultados de estudos preliminares deste trabalho apresentados em
(FEITOSA NETO et al, 2011). Conclui que existe uma correlação entre erro de classificação do comitê e a
medida de má diversidade mostrando que é possível a construção de comitês mais acurados quando utilizado
uma medida de diversidade no método de construção. No entanto, não mostra se isso realmente ocorre
comparando os resultados com comitês gerados do mesmo modo, porém otimizando a acurácia. Assim, ele não
realiza as comparações necessárias para mostrar que a hipótese deste trabalho é válida.
Os trabalhos citados mostram que é possível o desenvolvimento de comitês usando as medidas de boa e
má diversidade para melhorar seu desempenho. Isso justifica o desenvolvimento deste trabalho que ao final
permitirá concluir, considerando as restrições adotadas, se o uso de tais medidas melhora a acurácia de comitês
de classificação.
1.2 OBJETIVOS
O objetivo principal deste trabalho é analisar a eficiência das medidas de boa e má diversidade na
acurácia de comitês de classificadores quando empregadas diretamente na seleção dos atributos e dos
classificadores base. Para isso é empregado como técnica de construção abordagens baseadas em técnicas de
12
otimização metaheurísticas mono e multiobjetivo. São usados como objetivos de otimização a acurácia do
comitê e/ou as medidas de boa e má diversidade. Temos os seguintes objetivos específicos:
a) Verificar se o uso das medidas de boa e má diversidade, como um dos objetivos de otimização no
processo de construção de comitês de classificação, produz comitês mais acurados que comitês
construídos sem o emprego das medidas.
b) Verificar qual a relação dos componentes da medida de boa e má diversidade com a acurácia do comitê.
Isto é, analisar se é necessário utilizar as duas medidas como objetivos de otimização para melhorar a
acurácia do comitê.
c) Verificar se é possível utilizar somente uma ou as duas medidas como objetivo de otimização
descartando a acurácia do comitê como objetivo e ainda assim obter um comitê mais acurado.
O escopo deste trabalho abrange somente problemas de classificação em comitês onde os
classificadores base são dispostos em paralelo tendo como método de combinação o voto majoritário. Observe
que os resultados obtidos se limitam as bases de dados empregadas como também aos algoritmos e a forma em
que eles foram utilizados. No entanto, tais limitações não invalidam os resultados permitindo concluir se as
medidas de boa e má diversidade, quando usadas para guiar a construção de comitês de classificadores,
melhoram a acurácia dos mesmos.
O método de construção empregado é um processo de busca por um conjunto de classificadores e por
um conjunto de atributos para compor um comitê de classificadores de modo a maximizar a acurácia de
classificação. Neste trabalho são empregadas técnicas metaheurísticas de Busca Tabu e Algoritmo Genéticos
para solução deste problema otimizando a acurácia do comitê e as medidas de boa e má diversidade.
1.3 ESTRUTURA DO TRABALHO
O restante desse trabalho se organiza em cinco capítulos: o capitulo de fundamentos teóricos apresenta
os principais conceitos usados por esse trabalho, descrevendo as técnicas de classificação, de otimização e as
empregadas para avaliação dos resultados; o capítulo de trabalhos relacionados apresenta os principais trabalhos
relacionados quanto ao uso de técnicas de otimização mono e multiobjetivo na construção de comitês de
classificadores, quanto a medidas de diversidade em comitês de classificadores e quanto ao uso das medidas de
boa e má diversidade; o capítulo construção dos comitês apresenta o método empregado para realização dos
experimentos descrevendo quais algoritmos são gerados, como são configurados, executados, comparados e
associados às hipóteses deste trabalho para alcançar cada objetivo descrito; o capítulo resultados apresenta os
resultados obtidos; finalmente o capítulo de considerações finais apresenta as principais contribuições deste
trabalho como também suas limitações e possíveis trabalhos futuros.
13
CAPÍTULO 2 –
FUNDAMENTOS TEÓRICOS
O objetivo deste capítulo é revisar os principais fundamentos teóricos utilizados neste trabalho.
Descreve quais as técnicas utilizadas como também os principais conceitos necessários para uma revisão dos
temas abordados.
2.1 APRENDIZADO DE MÁQUINA
Este trabalho utiliza técnicas de aprendizado de máquina para tarefa de classificação de padrões. Os
comitês de classificadores são formados por classificadores gerados pela técnica k-NN (K-Nearest-Neighboor)
variando os atributos das bases de dados utilizadas por cada um. A avaliação da acurácia do comitê é efetuada
pela técnica de validação cruzada e a diferença entre os resultados de dois algoritmos é determinada pelo teste
estatístico Wilcoxon Signed-Rank. A seguir é descrito cada uma das técnicas citadas e a forma como elas são
empregadas nesse trabalho.
Na área de aprendizado de máquina é definido que um programa aprende a partir de uma experiência
em alguma classe de tarefas quando o seu desempenho, verificado por alguma medida, melhora com essa
experiência (MITCHEL, 1997). Algoritmos de aprendizado de máquina são empregados na tarefa de
classificação de padrões de modo que a experiência fornecida ao algoritmo é uma base de dados, isto é, uma
amostra do conjunto de instâncias possíveis do problema.
A base de dados é um conjunto de instâncias do problema rotuladas com a classe correta ao qual cada
instância pertence. Como as classes estão rotuladas dizemos que estamos empregando aprendizado
supervisionado, que é o caso deste trabalho. Quando isso não ocorre dizemos que estamos empregando
aprendizado não supervisionado. As instâncias são representadas por um conjunto de atributos que caracterizam
o problema (KUNCHEVA, 2004). Por exemplo, num problema de aprovação de crédito de um cliente, onde as
14
instâncias estão classificadas como aprovar ou não aprovar, um possível conjunto de atributos é a renda do
indivíduo, se ele já realizou alguma solicitação de crédito, sua idade, se é homem ou mulher, entre outros.
Os algoritmos de aprendizado de máquina utilizados neste trabalho para tarefa de classificação possuem
como entrada uma base de dados e apresentam como resultado uma função de classificação denominada de
classificador. Essa função possui como entrada uma instância do problema, composta pelo conjunto de atributos
de mesmo tipo que as do conjunto de atributos presente nas instâncias da base de dados. Apresenta como saída
uma das possíveis classes do problema. O processamento efetuado pelo algoritmo para criar a função de
classificação é referenciado no texto como treinamento (KUNCHEVA, 2004).
Na literatura existem diferentes técnicas de aprendizado de máquina destinadas à tarefa de classificação
baseadas em diferentes paradigmas. O paradigma estatístico baseia-se em estatística inferencial para classificar
as instâncias com base nas informações estatísticas fornecidas pela base de dados. Citamos como exemplo do
paradigma estatístico a técnica de Naive Bayes. O paradigma conexionista baseia-se em metáforas cerebrais em
como o cérebro funciona modelando neurônios e conexões entre eles. Citamos como exemplo do paradigma
conexionista as redes neurais artificiais com destaque para Multi Layer Perceptron. O paradigma simbólico
baseia-se em metáforas linguísticas apresentando como principal característica permitir que o usuário
compreenda como é realizada a classificação. Citamos como exemplos do paradigma simbólico as Árvores de
Decisão. Apresentamos ainda o paradigma baseado em instâncias onde a informações de cada instância da base
de dados são consideradas para efetuar as classificações. Citamos como exemplo do paradigma baseado em
instâncias o k-NN (k-Nearest-Neighbor) (MITCHEL, 1997).
A seguir apresentamos as técnicas de aprendizado de máquina empregadas neste trabalho.
2.1.1 k-NN
O k-NN (k-Nearest-Neighbor) é uma técnica de aprendizado baseado em instâncias. O seu treinamento
consiste em armazenar a base de dados fornecida como entrada. A base de dados é usada para avaliar a distância
de cada instância da base em relação a instância sendo classificada. Deve ser utilizada uma medida de distância
entre as instâncias do problema como parâmetro do algoritmo. Uma instância é classificada avaliando as
distâncias da instância para as instâncias presentes na base de dados, selecionando as instâncias mais próximas,
onde é um parâmetro do algoritmo. A classe da instância é determinada pelo processo de voto majoritário (ver
2.1.3) onde cada voto é o rótulo das instâncias mais próximas (WITTEN; FRANK, 2005).
Neste trabalho é utilizada a distância euclidiana como parâmetro do classificador. Para duas instâncias
e , onde todos os atributos são numéricos e é a quantidade de atributos, a
distância euclidiana é definida como (WITTEN; FRANK, 2005):
Outras medidas podem ser usadas dependendo das características dos dados para aumentar a influência
de pequenas distâncias ou de grandes diferenças (WITTEN; FRANK, 2005). Um problema da aplicação da
distância euclidiana é que atributos de diferentes escalas de valores podem influenciar o resultado, sendo assim
necessário um pré-processamento das bases de dados transformando as escalas dos atributos para uma comum
15
(WITTEN; FRANK, 2005). Este trabalho aplica um pré-processamento nas bases de dados, transformando as
escalas dos valores numéricos para o intervalo real de zero a um.
Como a distância euclidiana é uma medida aplicada a valores reais é necessário determinar como os
valores nominais e faltosos são tratados caso estejam presentes nas bases de dados. Este trabalho remove os
valores faltosos das bases de dados na etapa de pré-processamento (ver 4.1.1). O algoritmo utilizado neste
trabalho manipula os valores nominais do seguinte modo: caso os valores sejam iguais então não existe distância
entre eles e caso sejam diferentes então a distância é máxima (WITTEN; FRANK, 2005). Isto é, como os valores
numéricos estão na escala de zero a um, a ausência de distância entre os valores dos atributos corresponde ao
valor zero e a distância máxima corresponde ao valor um.
Essa técnica é sensível às instâncias. Instâncias com dados não acurados ou errados podem
comprometer o desempenho do método. No entanto, esse problema pode ser contornado com a seleção de um
valor adequado de (WITTEN; FRANK, 2005), porém, por motivos de desempenho em tempo de
processamento e para simplificar as análises dos dados, todos os classificadores são gerados com o valor de
, ou seja, somente a instância mais próxima é escolhida.
2.1.2 Comitês de Classificadores
Comitês de classificadores são sistemas de classificação compostos por um conjunto de sistemas de
classificação e por um método de combinação dos resultados. O conjunto de sistemas de classificação é chamado
de classificadores base. O objetivo desse sistema é melhorar o desempenho de classificação combinando as
decisões dos classificadores para tomar uma decisão mais acurada (KUNCHEVA, 2004).
A melhora na acurácia de classificação dos comitês de classificadores é diretamente relacionada com a
acurácia dos classificadores. Se todos os classificadores são iguais então o sistema pode ser substituído por
apenas um classificador. Ou seja, para que os comitês apresentem um melhora na acurácia de classificação é
necessário que os classificadores cometam erros em diferentes instâncias. Assim, o método de combinação dos
resultados ou não é ou é pouco influenciado por esse erro, fornecendo a saída correta no caso ideal
(KUNCHEVA, 2004).
Comitês são construídos de diferentes maneiras. De um modo geral, é fornecida uma base de dados para
o treinamento. Essa base de dados é distribuída entre os classificadores e os mesmos são treinados. Ao classificar
uma instância, ela é distribuída para cada classificador base, os quais avaliam e informam o seu resultado para o
método de combinação que então combina os resultados em uma resposta, a saída do comitê (KUNCHEVA,
2004).
Comitês são construídos tomando diferentes decisões sobre sua arquitetura. São construídos escolhendo
uma técnica de combinação dos resultados, usando ou mesmo tipo ou diferentes tipos de classificadores (sendo
classificado como homogêneo ou heterogêneo respectivamente). São construídos distribuindo diferentes bases de
dados aos classificadores ou a mesma base com diferentes conjuntos de atributos, ou construídos por uma
combinação de todos os métodos (KUNCHEVA, 2004).
Todas as técnicas de construção citadas são formas implícitas de geração de diversidade, isto é, não
otimizam uma medida de diversidade durante o processo de construção dos comitês de classificação (BROWN et
al, 2005). Essas técnicas apresentam bons resultados na geração de diversidade em comitês. No entanto, tentar
16
medir a diversidade e usá-la explicitamente no processo de construção do comitê não apresenta o mesmo
resultado que o uso das metodologias implícitas (KUNCHEVA, 2004).
As técnicas de combinação dos resultados dos classificadores podem ser categorizadas em técnicas
baseadas em seleção ou fusão dos valores. As técnicas de fusão dos valores assumem que cada classificador base
possui conhecimento sobre todo o espaço de características enquanto que as técnicas de seleção dos valores
assumem que cada classificador é especializado em determinadas características da base de dados. Assim,
técnicas baseadas em seleção costumam escolher um classificador para tomar a decisão baseado nas
características apresentadas pela instância sendo classificada (KUNCHEVA, 2004).
Neste trabalho usamos a técnica de fusão de valores de voto majoritário. Neste trabalho, ela é
empregada para combinar os resultados dos classificadores que compõem os comitês (KUNCHEVA, 2004). Essa
técnica assume como entrada um conjunto de votos de elementos onde cada um pode assumir um valor de
um conjunto discreto de valores. O objetivo é determinar qual elemento do conjunto discreto de valores aparece
com maior frequência no conjunto de votos (KUNCHEVA, 2004).
A técnica de voto majoritário determina que a classe do comitês corresponderá a moda dos votos, isto é,
o valor que apresentar a maior quantidade no conjunto é o valor vencedor e atribuído como classe da instância
sendo classifica. No caso de empates, o valor vencedor é determinado de forma aleatória entre os valores de
empate (KUNCHEVA, 2004).
2.2 MÉTRICAS DE AVALIAÇÃO
É utilizada a técnica de validação cruzada para avaliação da acurácia dos comitês de classificação. As
medidas de boa e má diversidade são utilizadas para aferir e guiar o processo de construção dos comitês. O teste
estatístico Wilcoxon Signed-Rank é utilizado para comparar os resultados de dois algoritmos de otimização,
comparando os resultados dos comitês gerados para determinar se os algoritmos geram comitês equivalentes ou
qual deles gera comitês de maior acurácia. A seguir é descrita cada técnica e como eles são empregadas nos
experimentos realizados.
2.2.1 Avaliação de Acurácia
Neste trabalho a técnica de validação cruzada é empregada para avaliar a acurácia de classificação dos
comitês. É uma técnica estatística de amostragem aplicada a um conjunto de amostras (WITTEN; FRANK,
2005). Ela é empregada quando a quantidade de instâncias da base de dados é limitada e se deseja estimar a
acurácia do comitê num conjunto de instâncias desconhecidas, isto é, que não foram usadas durante o
treinamento.
Neste caso, a técnica é aplicada a base de dados do comitê produzindo diferentes conjuntos de
instâncias, ou bases de dados que correspondem a amostragens da base de dados original. O comitê é então
treinado utilizando os conjuntos de instâncias gerados, porém sempre com exceção de um que será utilizado para
teste. Para cada conjunto utilizado como teste é avaliado a quantidade de acertos de classificação. A média
desses valores é uma estimativa da acurácia do comitê (WITTEN; FRANK, 2005).
17
Ao aplicar a validação cruzada, é fixado um número de partições que será usado para dividir a base de
dados. São criadas bases de dados correspondentes a cada partição e distribuídas às instâncias entre elas. Essa
divisão distribui as instâncias de forma aleatória em cada partição a fim de criar partições de tamanhos
aproximadamente iguais. Porém, pode ocorrer que uma partição não apresente exemplar de uma classe ou que a
quantidade seja pouco significativa. Assim, o processo tenta distribuir as instâncias de forma aleatória, porém
tentando manter a distribuição de uma mesma classe em cada partição o mais próximo possível da distribuição
apresentada pela base de dados original. O processo de distribuir as instâncias respeitando a distribuição das
classes presente na base de dados é denominado estratificação (stratification) (WITTEN; FRANK, 2005).
O comitê é treinado uma quantidade de vezes igual ao número de partições. Em cada treinamento é
selecionada uma das partições para avaliar a acurácia do comitê. As partições da base de dados são utilizadas
para o treinamento do comitê com exceção da partição selecionada para a avaliação. Após o treinamento e
avaliação de cada uma das partições teremos uma quantidade de estimativas da acurácia do comitê igual à
quantidade de partições fixada (WITTEN; FRANK, 2005).
Neste trabalho utilizamos a técnica de validação cruzada usando dez partições combinada com a
estratificação para gerar as partições. Dez partições são escolhidas por ser uma quantidade padrão para estimar a
acurácia de um comitê para uma determinada base de dados (WITTEN; FRANK, 2005).
Nos resultados, essa medida é apresentada como a taxa do erro de classificação. Isto é, após aplicar a
técnica de validação cruzada são obtidas dez estimativas da acurácia de classificação onde cada uma corresponde
à quantidade de erros de classificação efetuadas pelo comitê para correspondente partição de teste. Essas dez
estimativas são somadas e divididas pela quantidade de instâncias da correspondente base dados. Assim, o erro
de classificação é apresentado de modo percentual facilitando a analise dos resultados.
2.2.2 Avaliação de Diversidade
A avaliação da diversidade dos comitês de classificadores é realizada pelas medidas de boa e má
diversidade. Essas medidas são provenientes da decomposição do erro de classificação de comitês que utilizam
como método de combinação o voto majoritário. A boa diversidade é a quantidade de votos errados quando o
comitê apresenta uma classificação correta. A má diversidade é a quantidade de votos corretos quando o
comitê apresenta uma classificação errada. Elas são definidas da seguinte forma (BROWN; KUNCHEVA,
2010):
Onde é a quantidade de classificadores do comitê, é a quantidade de votos corretos da
classificação da instância no conjunto de instâncias que o comitê classificou incorretamente e é a
quantidade de votos incorretos da classificação da instância no conjunto de instâncias que o comitê
classificou corretamente.
18
Para facilitar a análise dos resultados os valores de boa e má diversidade são apresentados de modo
percentual. Para isso o valor de cada medida é dividido pelo valor máximo que cada medida pode atingir sendo
estes definidos em termos do problema sendo tratado (quantidade de instâncias e classes do problema) e das
características do comitê (quantidade de classificadores base e método de combinação utilizado). Esses valores
máximos são definidos nas equações abaixo, onde é o valor máximo que a boa diversidade pode atingir,
o valor máximo que a má diversidade pode atingir, o conjunto de instâncias da base dados, a quantidade
máxima de classificadores base do comitê e o conjunto de classes da base de dados:
Essas equações são definidas de acordo com as definições das medidas de boa e má diversidade
quando o comitê utiliza o método de combinação por voto majoritário. O valor máximo da má diversidade
ocorre quando o comitê classifica incorretamente todas as instâncias com o máximo de votos corretos na
classificação de cada instância. Por exemplo, para um problema de duas classes o máximo de votos corretos é a
metade da quantidade de classificadores , quando temos mais de duas classes podemos sempre supor que
ocorrerá um empate entre duas classes, maximizando a quantidade de votos corretos em cada classificação.
Porém, nesse caso ocorre um empate que é resolvido escolhendo aleatoriamente uma das classes como saída.
Como estamos avaliando o caso em que o valor da é máximo devemos supor que todos os empates são
resolvidos retornando a classe incorreta da instância, ou seja, o comitê classifica incorretamente a instância.
Assim, o valor máximo da corresponde à quantidade máxima de votos corretos vezes a quantidade de
instâncias classificadas incorretamente pelo comitê, isto é, todas as instâncias.
O valor máximo da boa diversidade ocorre quando o comitê classifica corretamente todas as
instâncias com o máximo de votos incorretos em cada classificação. A quantidade máxima de votos incorretos,
quando o comitê apresenta uma saída correta, é alcançado quando ocorre um empate entre ou todas ou quase
todas as classes do problema. Assim, o valor máximo da corresponde à quantidade máxima de votos
incorretos vezes a quantidade de instâncias classificadas corretamente pelo comitê, isto é, todas as instâncias.
2.2.3 Teste Estatístico de Mann-Whitney
Os resultados desse trabalho são verificados estatisticamente aplicando o teste de Mann-Whitney para
diferença de médias de duas amostras independentes. É um teste não paramétrico de modo que não é necessário
que as amostras sejam normalmente distribuídas. Pode ser aplicado em amostras de pequeno tamanho
(GIBBONS; CHAKRABORTI, 2003).
Assim, esse teste é adequado para verificação dos dados obtidos nos experimentos deste trabalho. Isto é,
não podemos afirmar que os dados obtidos são normalmente distribuídos e os mesmos possuem pequeno
tamanho, cerca de dez a quinze dados dependendo do tipo de experimento.
Nos testes é utilizada a hipótese nula de que os dois conjuntos de amostras são provenientes de uma
mesma população, isto é, que elas possuem a mesma média. A hipótese alternativa é que as amostras são
provenientes de populações diferentes, isto é, uma das amostras possui uma média dos valores maior que a outra.
Assim, consideramos o algoritmo que gera o conjunto de amostras com maior média melhor que o algoritmo que
19
gera o outro conjunto de amostras. Em todos os testes é adotado um nível de significância
(KNOWLES; THIELE; ZITZLER, 2006).
O teste Mann-Whitney é baseado na quantidade de observações da amostra e na ordem das amostras
correspondente a uma ordenação não decrescente. A magnitude das observações das amostras é utilizada para
determinar posição relativa de cada observação na ordenação. As observações da amostra são ordenadas de
modo não decrescente de acordo com a quantidade de observações de maior magnitude. Ou seja, o primeiro
elemento da ordenação é amostra de menor magnitude e o último elemento a amostra de maior magnitude. A
ordem de uma amostra corresponde a sua posição nessa ordenação (GIBBONS; CHAKRABORTI, 2003).
Caso existam amostras de igual magnitude a ordem correspondente a cada uma é definida de acordo
com o método de midranks, isto é, a ordem dessas amostras é substituída pela média de suas amostras
(GIBBONS; CHAKRABORTI, 2003). Por exemplo, se temos a amostra , teremos a ordenação e
a correspondente ordem (GIBBONS; CHAKRABORTI, 2003).
Para duas amostras pareadas e o teste de Mann-Whitney utiliza a
ordenação do conjunto união das amostras . Para cada uma das amostras é avaliado a soma das ordens
associadas aos valores dessa amostra e definido o valor de como o mínimo entre os valores avaliados das duas
amostras. Assim, para mostrar que as médias das amostras e são diferentes é necessário mostrar que
. Para amostras com mais de seis elementos o valor crítico pode ser calculado pela forma
assintótica do teste. Onde a estatística é aproximada por uma normal de média e variância (GIBBONS;
CHAKRABORTI, 2003):
Onde e sãos os tamanhos das amostras e respectivamente e o valor de é calculado como a
soma das ordens da amostra . Assim, a decisão pode ser tomada comparando o valor de com o valor crítico
de para o nível de significância adotado (GIBBONS; CHAKRABORTI, 2003):
2.2.4 Teste Estatístico Wilcoxon Signed-Rank
O teste estatístico de Wilcoxon Signed-Rank (WSR) é um teste de hipótese não paramétrico que pode
ser aplicado a amostras pareadas tendo como hipótese nula que elas são provenientes de uma mesma população e
como hipótese alternativa que elas possuem uma diferente medida de tendência central. Como é um teste não
paramétrico não precisa que as amostras obedeçam a uma distribuição normal e outra característica é que o teste
pode ser aplicado a amostras de pequeno tamanho (GIBBONS; CHAKRABORTI, 2003).
O teste WSR é baseado na magnitude de cada amostra e na ordem das amostras correspondente a uma
ordenação não decrescente. A magnitude das observações das amostras é utilizada para determinar posição
relativa de cada observação na ordenação. As observações da amostra são ordenadas de modo não decrescente de
20
acordo com a quantidade de observações de maior magnitude. Ou seja, o primeiro elemento da ordenação é
amostra de menor magnitude e o último elemento a amostra de maior magnitude. A ordem de uma amostra
corresponde a sua posição nessa ordenação (GIBBONS; CHAKRABORTI, 2003).
Caso existam amostras de igual magnitude a ordem correspondente a cada uma é definida de acordo
com o método de midranks, isto é, a ordem dessas amostras é substituída pela média de suas amostras
(GIBBONS; CHAKRABORTI, 2003). Por exemplo, se temos a amostra , teremos a ordenação e
a correspondente ordem . Como o teste assume que as diferenças não são nulas, todos os pares de
observações de igual magnitude são removidos diminuindo o tamanho da amostra de acordo com as remoções
(GIBBONS; CHAKRABORTI, 2003).
Para duas amostras pareadas e o teste WSR utiliza a ordenação das
diferenças absolutas assumindo que elas são diferentes e maiores que zero. Caso a amostra contenha pares de
observações de igual magnitude elas são removidas da amostra. A estatística WSR é definida como:
Onde corresponde à ordem da ordenação das diferenças absolutas das amostras
. A hipótese nula é rejeitada caso onde corresponde ao valor crítico tabelado
para o apropriado nível de significância bilateral adotado. Neste caso utilizamos o valor bilateral, pois caso a
hipótese nula seja rejeitada, a medida de tendência central de uma das amostras será maior ou menor que medida
da outra. A tabela 1 apresenta o valor de para nível de significância de 0.05 bilateral em função da
quantidade de observações .
Valores Críticos
7 2 10 8 13 17
8 3 11 10 14 21
9 5 12 13 15 25
Tabela 1: Valores críticos de em função da quantidade de observações da amostra para o nível de significância de 0.05
(adaptação de GIBBONS; CHAKRABORTI, 2003).
Para amostras com menos de 7 observações o teste não é capaz de rejeitar a hipótese nula para o nível
de significância adotado de 0.05 bilateral. Quando a quantidade de observações é maior que 15 podemos
aproximar por uma distribuição normal de média e variância :
Assim, podemos recorrer à estatística Z para tomada de decisão. A decisão é tomada comparando o
valor de com o valor crítico de para o nível de significância adotado (GIBBONS; CHAKRABORTI,
2003):
21
Caso a hipótese nula seja rejeitada não podemos afirmar que as amostras são provenientes de uma
mesma população, logo, uma das amostras é proveniente de uma população de maior ou menor medida de
tendência central. Neste trabalho na maioria dos casos estamos comparando as acurácia de classificação de
comitês gerados por dois algoritmos diferentes em observações pareadas em função da base de dados utilizada.
Assim, caso a hipótese nula não seja rejeitada a interpretação do teste é que os algoritmos geram comitês
equivalentes, isto é, os algoritmos são equivalentes, e caso ela seja rejeitada é interpretado que o algoritmo de
maior média de acurácia. Ou seja, o algoritmo correspondente à amostra de maior medida de tendência central é
melhor que o outro.
2.3 OTIMIZAÇÂO METAHEURÍSTICA
Problemas de otimização são problemas caracterizados pela presença de um conjunto de soluções em
que se deseja encontrar uma solução que seja a melhor possível (SOUZA, 2012). O problema deve apresentar
uma função que mapeia as soluções num valor real para assim determinar a qualidade de uma solução. O
objetivo de uma técnica para solucionar esse problema é encontrar uma solução que maximiza ou minimiza o
valor dessa função, dependendo das características do problema (SOUZA, 2012).
As soluções são formadas por variáveis. Quando essas variáveis são discretas e a combinação dos
valores delas geram diferentes valores para função do problema dizemos que é um problema de otimização
combinatória (SOUZA, 2012). Neste trabalho a construção de comitês de classificadores é tratada como um
problema de otimização combinatória. As variáveis das soluções são os atributos da base de dados utilizados por
cada classificador e a quantidade de classificadores.
Em (BIN; JIARONG; YADONG, 1997) é demonstrado que o problema de encontrar o menor
subconjunto de atributos que maximiza o desempenho de um sistema de classificação é classificado com NP-
difícil. O problema de otimização aqui descrito é uma extensão desse problema, isto é, encontrar o conjunto de
atributos que maximize o desempenho de um comitê de classificadores.
Os métodos exatos para solução de problemas deste tipo são inviáveis quanto ao tempo de
processamento. Assim, são aplicados métodos heurísticos para encontrar soluções “aceitáveis” num tempo
computacional viável. Uma heurística é uma técnica inspirada em processos intuitivos para encontrar uma
solução aceitável num tempo computacional viável. Ela não garante que a solução seja a melhor possível ou sua
proximidade em relação à solução ótima (SOUZA, 2012).
Em geral, heurísticas são muito especificas para o problema que visam resolver sendo desejado o uso de
heurísticas mais flexíveis aumentando a classe de problemas em que elas podem ser aplicadas. Assim, foram
desenvolvidos procedimentos heurísticos que apresentam uma estrutura teórica permitindo sua aplicação em
diferentes problemas. Esses procedimentos são conhecidos por metaheurísticas. As técnicas metaheurísticas para
problemas de otimização são chamadas de técnicas de otimização metaheurísticas (SOUZA, 2012).
22
Este trabalho utiliza duas técnicas de otimização metaheurísticas: a Busca Tabu e os Algoritmos
Genéticos. A técnica de Busca Tabu é uma metaheurística baseada na heurística de busca local enquanto que a
técnica de Algoritmos Genéticos é uma metaheurística baseada na teoria de seleção natural de Darwin.
A busca local é um procedimento baseado no conceito de vizinhança. A vizinhança é um conjunto de
soluções geradas por uma função que depende do problema onde é conjunto de todas as soluções
possíveis. Cada solução é denominada de vizinho de e a modificação que transforma em é
denominado de movimento (SOUZA, 2012).
As heurísticas baseadas na busca local são processos iterativos que a cada passo geram um conjunto de
soluções vizinhas. A melhor solução desse conjunto é escolhida como a solução de entrada do operador na
próxima iteração do algoritmo (SOUZA, 2012).
A Busca Tabu é uma metaheurística baseada na busca local. Assim, ela tenta encontrar a melhor
solução na região identificada pela solução inicial. Como veremos a seguir, essa metaheurística possui diferentes
mecanismos que a permite explorar diferentes regiões do espaço de busca como também escolher de maneira
mais eficiente qual a melhor solução de um conjunto de soluções vizinhas (SOUZA, 2012).
Diferente da Busca Tabu, a metaheurística de Algoritmos Genéticos baseia-se na teoria de seleção
natural de Darwin. É um processo iterativo que a cada passo manipula um conjunto de soluções que são
modificadas e combinadas para gerar um novo conjunto. De modo análogo à biologia, as soluções são indivíduos
de uma espécie e o conjunto de soluções em cada passo iterativo uma geração. Os indivíduos da geração corrente
reproduzem e sofrem mutações dando origem a uma nova geração que se espera ser melhor que a anterior
(SOUZA, 2012).
A seguir são detalhadas cada técnica metaheurística e algoritmos utilizados, tanto na versão mono
quanto na multiobjetivo.
2.3.1 Técnica de Busca Tabu
A Busca Tabu (BT) é um processo de busca local proposto por Fred Glover em (Glover, 1986).
Consiste em explorar o espaço de busca passando de uma solução para outra que seja o seu melhor vizinho,
porém, tentando evitar a análise de soluções que já tenham sido exploradas. Para evitar a reavaliação de espaços
de busca o processo mantém uma lista das soluções exploradas. Assim, ao gerar a vizinhança de uma solução
armazenamo-la na lista de exploradas e a removemos da vizinhança todos os vizinhos que já tenham sido
explorados. Mas, devido às limitações de memória não é viável manter uma lista de todas as soluções
exploradas.
A lista das soluções exploradas é simplificada para uma lista dos movimentos realizados no operador de
vizinhança para gerar a melhor solução da vizinhança em cada passo. Isto é, é uma lista dos movimentos que
levaram a gerar a solução corrente sendo explorada e desse modo restringindo os movimentos do operador
contidos nessa lista. No entanto, essa lista deve possuir um tamanho limitado, se não em algum momento
estariam presentes todos os movimentos possíveis e assim não seria possível gerar um novo vizinho. Logo,
temos como parâmetro do algoritmo o tamanho da lista de movimentos tabu (LEE; EL-SHARKAWI, 2008;
SOUZA, 2012).
23
Outra característica do algoritmo é uma função de aspiração. Ela é usada para determinar quando uma
solução obtida a partir de um movimento tabu deve ser considerada. Em alguns casos um movimento tabu pode
gerar uma solução que ainda não foi explorada, o objetivo da função de aspiração é identificar essas soluções
(LEE; EL-SHARKAWI, 2008; SOUZA, 2012).
Em geral, é usada como função de aspiração a comparação entre custo da melhor solução obtida pelo
algoritmo até o momento e o custo da solução gerada pela aplicação do movimento tabu. Caso o custo da
solução gerada seja menor (no caso de um problema de minimização), que o custo da melhor solução encontrada
pelo algoritmo até o momento, então ela atenderá ao critério. Nesse caso, podemos afirmar que o espaço de
busca dessa solução ainda não foi explorado, caso contrário ela seria a solução de menor custo (LEE; EL-
SHARKAWI, 2008; SOUZA, 2012).
O procedimento utilizado neste trabalho apresenta os seguintes parâmetros: uma função de custo que
avalia a qualidade das soluções; um operador de vizinhança sendo o conjunto de vizinhos de uma solução
gerados por ; uma função de aspiração ; uma solução inicial ; e o tamanho da lista tabu . O procedimento a
seguir ilustra como o algoritmo baseado na metaheurística de Busca Tabu pode ser implementado para um
problema de minimização mono-objetivo:
Adaptação de (SOUZA, 2012).
A atualização da lista tabu consiste em adicionar o movimento e remover a entrada mais antiga da
lista. Neste trabalho utilizamos uma lista de tamanho variável. Em vez de armazenar os movimentos tabus é
armazenada a quantidade de iterações que eles devem ser considerados como tabu, assim inserir um movimento
na lista consiste em atualizar a quantidade de iterações para a quantidade igual à iteração corrente mais o
tamanho da lista. Assim, para que o tamanho da lista seja variável basta que ao atualizar a lista seja atribuída
uma quantidade diferente cada iteração, o que pode ser feito pelo sorteio da quantidade de iterações em função
do tamanho da lista tabu. Logo, existe um parâmetro que indica em quantas posições o tamanho da lista pode ser
aumentado ou diminuído em relação ao tamanho inicial, isto é, o intervalo de sorteio da quantidade de iterações
24
que um movimento será considerado tabu. O objetivo disso é evitar a estagnação do método num mínimo local
(LEE; EL-SHARKAWI, 2008; SOUZA, 2012).
Neste trabalho o objetivo de otimização pode ser a maximização da acurácia do comitê, a maximização
da boa diversidade ou a minimização da má diversidade dependendo do experimento sendo realizado. Todos os
experimentos utilizam uma mesma estrutura de vizinhança (ver último parágrafo de 4.1.2) e a mesma função de
aspiração.
A função de aspiração utilizada consiste em comparar o custo de cada solução tabu com o custo da
melhor solução, isto é, comparar com a solução de menor custo encontrada pelo algoritmo. Caso alguma solução
tabu apresente custo menor então ela atenderá ao critério de aspiração. O critério de parada adotado consiste no
tempo máximo de execução do algoritmo.
2.3.2 Técnica de Algoritmos Genéticos
Algoritmos Genéticos (AG) é uma metaheurística inspirada em uma analogia com processos naturais de
evolução. O algoritmo trabalha com um conjunto de soluções denominado de indivíduos que representam a
população de uma espécie numa determinada época. Os indivíduos dessa população reproduzem e sofrem
mutação gerando uma nova população. Os melhores indivíduos são selecionados gerando uma nova geração.
Esse procedimento de modificar e selecionar se repete até que uma condição de parada seja alcançada (LEE; EL-
SHARKAWI, 2008; SOUZA, 2012).
As soluções ou indivíduos são representados por cromossomos. As soluções são compostas por um
conjunto de variáveis fixas representando os genes de um indivíduo. Os mecanismos de reprodução (ou
recombinação ou cruzamento) combinam os genes de dois indivíduos para formar indivíduos filhos, geralmente
dois. Os mecanismos de mutação consistem em alterar os genes de um indivíduo. Esses mecanismos possuem
uma probabilidade determinada de ocorrência. Geralmente os mecanismos de cruzamento com uma alta
probabilidade e os de mutação com uma baixa probabilidade (LEE; EL-SHARKAWI, 2008; SOUZA, 2012).
A metaheurística de Algoritmos Genéticos segue os seguintes passos (MITCHEL, 1997; SOUZA,
2012):
1) Gere uma população inicial;
2) Aplique o operador de cruzamento: selecione quais soluções são recombinadas e aplique o
operador sobre elas;
3) Aplique o operador de mutação: selecione quais soluções sofrerão mutação e aplique o operador;
4) Selecione os indivíduos: aplique uma técnica de seleção dos indivíduos que substituirão a
população atual;
5) Critério de parada: enquanto algum dos critérios de parada não for satisfeitos volte ao passo
tomando como população inicial a população gerada no passo .
O procedimento apresentado possui como parâmetros a quantidade de soluções de uma população, o
operador de cruzamento, o operador de mutação e o operador de seleção. Existem diferentes propostas de
25
operadores na literatura. Neste trabalho utilizamos o operador cruzamento de dois pontos, o operador de mutação
uniforme e seleção dos indivíduos por ordenação (MITCHEL, 1997).
Neste trabalho, a seleção dos indivíduos para aplicação do cruzamento é efetuada por meio de sorteio
uniforme entre os indivíduos da população, sorteando pares de diferentes indivíduos e aplicando o operador.
Esse procedimento se repete até que seja gerada uma quantidade de indivíduos equivalente à quantidade da
população. Todos os indivíduos gerados pelo cruzamento são verificados se devem sofrer mutação, sendo a
mesma aplicada caso o sorteio de um valor seja menor que a taxa de mutação.
O operador de dois pontos possui como entrada duas soluções que são combinadas produzindo duas
novas. Assume-se que o conjunto de componentes das soluções é ordenado. Sorteia-se um intervalo de posições
nessa ordenação que é usado para gerar as soluções. Uma solução é gerada possuindo os valores que estão nesse
intervalo provenientes de uma das soluções de entrada e os valores que não estão provenientes da outra solução.
A segunda solução é gerada invertendo as soluções de entrada (MITCHEL, 1997).
O operador de mutação uniforme possui como entrada um solução gerando uma correspondente a sua
mutação. Ele verifica se deve modificar cada componente da solução sorteando um valor. Caso esse valor seja
menor que a taxa de mutação então a componente será modificada sorteando um novo valor para a mesma
(SOUZA, 2012). As soluções geradas são unidas com o conjunto de soluções iniciais e ordenadas quanto ao
objetivo de otimização. As melhores soluções, segundo a ordenação, são selecionadas para compor a nova
população. A nova população possui uma quantidade de indivíduos igual à quantidade inicial da população.
Assim, o algoritmo utilizado neste trabalho apresenta os seguintes parâmetros: a quantidade de
indivíduos da população e a taxa de mutação. Como critério de parada é adotado o tempo de execução.
2.3.3 Otimização Multiobjetivo
Dizemos que um problema é um problema de otimização multiobjetivo quando ele for um problema de
otimização e apresentar dois ou mais objetivos conflitantes. Ou seja, o problema de otimização apresenta um
conjunto de funções conflitantes que devem ser maximizadas ou minimizadas (DANOSO; FABREGAT, 2007;
ZITZLER; LAUMANNS; BLEULER, 2004). O problema de otimização de encontrar o comitê de
classificadores que maximize a acurácia de classificação pode ser transformado num problema multiobjetivo
adicionando a maximização da boa diversidade e a minimização da má como objetivos.
Como os objetivos são conflitantes, comparar duas soluções para determinar qual é melhor é uma tarefa
complexa. Para isso é adotado o conceito de dominância de Pareto: num problema em que todos os objetivos são
de maximização, dizemos que um conjunto de objetivos de uma solução domina outro conjunto de uma
solução se nenhum objetivo de for menor que o correspondente objetivo em e ao menos um elemento for
maior. Assim, uma solução ótima é uma solução que não é dominada por nenhuma outra considerando o
conjunto de todas as possíveis soluções do problema. Ou seja, existem diferentes soluções ótimas representando
diferentes características dos objetivos (ZITZLER; LAUMANNS; BLEULER, 2004).
O objetivo de um algoritmo de otimização multiobjetivo é encontrar o conjunto de soluções ótimas ou
encontrar um conjunto de soluções não dominadas que seja o mais próximo possível do conjunto de soluções
ótimas. Assim como na versão mono-objetivo existem diferentes metaheurísticas para os problemas de
otimização multiobjetivo. Nesse trabalho utilizamos o algoritmo MTS (KULTUREL-KONAL; SMITH;
26
NORMAN, 2006), que é inspirado na metaheurística de Busca Tabu, e o algoritmo NSGA II (DEB, 2000), que é
inspirado na metaheurística de Algoritmos Genéticos.
2.3.3.1 Algoritmo MTS
Em cada passo de execução do algoritmo de Busca Tabu, ele seleciona uma solução, determina seus
vizinhos aplicando o operador de vizinhança, elimina as soluções tabus, adiciona as soluções que atendam ao
critério de aspiração e seleciona a melhor solução para a próxima iteração. Quando estamos no contexto de
otimização multiobjetivo é necessário tomar algumas decisões: como determinar qual é a melhor solução da
vizinhança. Pois, devido aos vários objetivos, uma solução pode ser melhor que outra num objetivo e pior em
outro. Do mesmo modo, é necessário determinar o critério de aspiração considerando os vários objetivos
presentes.
Na literatura podemos encontrar diferentes algoritmos resultantes da aplicação da metaheurística de
Busca Tabu para o contexto multiobjetivo (HERTZ et al, 1994; HANSEN, 1997; BAYKASOGLU et al, 1999).
O algoritmo MTS (Multinomial Tabu Search) é uma adaptação da metaheurística de Busca Tabu para o contexto
multiobjetivo (KULTUREL-KONAL; SMITH; NORMAN, 2006). Ele é utilizado neste trabalho por ser um
algoritmo simples e por apresentar um bom desempenho quando comparado com os outros algoritmos baseados
na adaptação da Busca Tabu para o contexto multiobjetivo (KULTUREL-KONAL; SMITH; NORMAN, 2006).
A cada iteração do algoritmo é selecionado um dos objetivos a ser otimizado. Essa seleção é feita
através de uma função de distribuição de probabilidade multinomial. Uma vez selecionado um objetivo, o
funcionamento do algoritmo é similar ao algoritmo clássico de Busca Tabu utilizado neste trabalho (ver 2.3.1),
com exceção do critério de aspiração, comparação da melhor solução e para os critérios de diversificação
empregados.
Uma função de distribuição de probabilidade multinomial é uma generalização de uma função de
distribuição de probabilidade binomial. Uma distribuição binomial determina que a ocorrência ou não ocorrência
de um evento em várias tentativas independentes possui a mesma probabilidade. Uma distribuição multinomial é
caracterizada por possuir categorias de tipos de ocorrência para o evento. Cada categoria possui uma
probabilidade de ocorrência que não necessita ser igual à probabilidade das demais. No entanto, numa tentativa
sempre ocorre um único tipo de ocorrência do evento tal que a soma das probabilidades de cada ocorrência seja
igual a 1 (LAVINE, 2012).
Assim, aplicando o conceito de distribuição de probabilidade multinomial temos que a cada passo do
algoritmo cada objetivo possui uma chance própria de ser escolhido. Essa chance pode ser atribuída de forma
que objetivos mais importantes sejam escolhidos com mais frequência. Os passos abaixo apresentam o
funcionamento do algoritmo MTS (KULTUREL-KONAL; SMITH; NORMAN, 2006):
1) Inicialização: crie uma lista tabu vazia e um conjunto de soluções não dominadas vazio. Crie uma
solução inicial é a adicione ao conjunto de soluções não dominadas. Determine a solução criada como a
solução de entrada do operador de vizinhança.
2) Selecione um objetivo: sorteie um objetivo de acordo com a probabilidade de escolha de cada um
indicada pela função de distribuição de probabilidade multinomial.
27
3) Aplique o operador de vizinhança: gere a vizinhança da solução de entrada. Escolha uma solução
candidata da vizinhança que não seja gerada por um movimento tabu ou que atenda o critério de
aspiração. A solução candidata deve ser a melhor solução de acordo com o objetivo selecionado no
passo .
4) Atualize o conjunto de soluções não dominadas: compare a solução candidata escolhida no passo com
cada solução presente no conjunto de soluções não dominadas. Remova do conjunto todas as soluções
que são dominadas pela solução candidata. Se nenhuma solução do conjunto domina a solução
candidata, então a adicione ao conjunto.
5) Atualize a lista tabu: adicione o movimento da vizinhança que gerou a solução candidata no passo . Se
a lista estiver cheia então remova a entrada mais antiga. Altere o tamanho da lista a cada número fixo de
iterações do algoritmo.
6) Aplique a diversificação: A cada número fixo de iterações do algoritmo reinicie o processo. Isto é,
esvazie a lista tabu e selecione uma solução do conjunto de soluções não dominadas como solução de
entrada do operador de vizinhança.
7) Critério de parada: volte ao passo até que um critério de parada seja satisfeito.
O critério de aspiração, citado no passo , consiste em verificar se a solução pode ser inserida no
conjunto de soluções não dominadas. Isto é, ela não pode ser dominada por nenhuma solução presente no
conjunto. Como critério de parada é adotado o tempo de execução do algoritmo que é determinado pelo tipo de
experimento sendo executado.
O procedimento descrito apresenta os seguintes parâmetros que são fixados antes de sua execução: uma
função de probabilidade multinomial que descreve a probabilidade de escolha de cada um dos objetivos; um
operador de vizinhança (5º parágrafo de 4.1.3); o tamanho da lista tabu; quantidade de iterações do processo em
que o tamanho da lista é alterado; e a quantidade de iterações do processo em que o mecanismo de diversificação
é aplicado.
Na implementação utilizada neste trabalho, à quantidade de iterações do processo em que o mecanismo
de diversificação é aplicado é definido em função do critério de parada. Assim, o parâmetro pode assumir um
valor inteiro positivo que representará os intervalos de tempo de execução em que o mecanismo de
diversificação será aplicado. Ou seja, para o valor um o mecanismo não é aplicado, para o valor dois o
mecanismo é aplicado na metade do tempo, para três a cada um terço do tempo de execução e assim por diante.
Portanto, o parâmetro indica a quantidade de vezes em que o mecanismo de diversificação será empregado. A
quantidade de soluções não dominadas armazenadas é ilimitada.
2.3.3.2 Algoritmo NSGA II
O algoritmo NSGA II (Non-dominated Sorting Genetic Algorthim II) é uma aplicação da metaheurística
de Algoritmos Genéticos para o contexto multiobjetivo. Seu funcionamento é baseado na ordenação das soluções
e seleção das melhores de acordo com essa ordem (DEB et al, 2000).
A cada passo do algoritmo é criado um novo conjunto de soluções. É tomado o conjunto corrente de
soluções e aplicado os operadores de mutação e cruzamento gerando um novo conjunto correspondente a
28
população da próxima geração. As populações da geração corrente e da próxima geração são unidas numa
mesma população, denominada de população corrente. Para cada indivíduo, ou solução, da população corrente é
atribuída uma pontuação de acordo com a quantidade de soluções da população que a domina. Os indivíduos de
mesma pontuação são atribuídos a um mesmo conjunto (DEB et al, 2000).
O algoritmo possui como parâmetro a quantidade máxima de indivíduos de uma população. A cada
iteração são criadas novas soluções a partir da população atual e selecionados o indivíduos que farão parte da
população da próxima iteração. Para cada indivíduo, os criados e os presentes na população, é avaliada a
quantidade de soluções que o domina e associado uma pontuação correspondente, isto é, as soluções não
dominadas recebem zero, as que são dominadas por uma solução apenas recebem um e assim por diante. A
população da próxima interação é formada adicionando os conjuntos formados pelas soluções de mesma
pontuação. A adição é feita de forma ordenada inserindo primeiro os conjuntos de menor pontuação até alcançar
ou ultrapassar a quantidade máxima de indivíduos. Caso o último conjunto a ser adicionado ultrapassar a
quantidade máxima de soluções da população, antes de sua inserção as soluções desse conjunto são ordenadas
pela crowding distance dos elementos presentes nesse conjunto. Os elementos de menor distância são inseridos
um a um até completar a quantidade de soluções da população. (DEB et al, 2000).
O algoritmo NSGA II é descrito pelo procedimento a seguir. Inicialmente são unidas a população
corrente e o conjunto de soluções geradas. A cada iteração é removido do conjunto de soluções as soluções não
dominadas e inseridas na população da próxima iteração. Caso a inserção ultrapasse a quantidade de soluções da
população, o conjunto de soluções não dominadas é ordenado pela crowding distance e inseridos na
população os elementos de menor distância. Uma vez formada a população são gerados novos indivíduos
aplicando os operadores de mutação e cruzamento aos indivíduos presentes.
Adaptação de (DEB, 2000).
A função criarNovaPopulação aplica os operadores de mutação e cruzamento ao conjunto de soluções
de entrada. A função atribui a crowding distance de cada elemento presente no
29
conjunto de entrada. A crowding distance de uma solução corresponde ao maior volume no espaço de objetivos
em que somente ela está presente. O procedimento a seguir mostra como ela pode ser avaliada, onde
corresponde a crowding distance da solução em e corresponde ao valor do objetivo do problema.
Adaptação de (DEB, 2000).
A ordem compara dois elementos quanto ao valor da crowding distance de modo que se
e somente se .
O procedimento apresenta os mesmos parâmetros que o algoritmo clássico de Algoritmos Genéticos (5º
parágrafo de 2.2.2.1). Como critério de parada é adotado o tempo de execução do algoritmo.
30
CAPÍTULO 3 –
TRABALHOS RELACIONADOS
Este capítulo apresenta os principais trabalhos relacionados a este. Citam os trabalhos que estudam
medidas de diversidade, como elas se relacionam com a acurácia de comitês de classificação, como comitês de
classificação podem ser construídos e como as medidas de diversidade podem ser utilizadas na construção de
comitês de classificadores. Conclui, citando os principais trabalhos que fazem uso das medidas de boa e má
diversidade em comitês de classificadores.
3.1 MEDIDAS DE DIVERSIDADE E CATEGORIAS DE CONSTRUÇÂO
Na literatura encontramos diferentes definições de medidas de diversidade para comitês de
classificadores, porém ainda não existe uma medida padrão (BROWN et al, 2005; BROWN; KUNCHEVA,
2010; KUNCHEVA; WHITAKER, 2003; TANG; SUGANTHAN; YAO, 2006).
O trabalho de (TANG; SUGANTHAN; YAO, 2006) realiza um estudo teórico e experimental de seis
medidas de diversidade: namely disagreement measure, double fault measure, KW variance, inter-rate
agreement, generalized diversity e measure of difficulty. Nos estudos experimentais, os comitês são construídos
gerando um conjunto de classificadores e selecionando um subconjunto de membros que maximize a diversidade
e minimize o erro de classificação do comitê através de um processo de busca guloso. Conclui que as medidas
estudadas são ineficientes para geração de comitês acurados quando o erro de classificação é minimizado e a
medida de diversidade maximizada. Os resultados são confirmados teoricamente mostrando que maximizar tais
medidas não implica em minimizar o erro de classificação de comitês de classificação.
O trabalho de (KUNCHEVA; WHITAKER, 2003) apresenta e categoriza diferentes medidas de
diversidade. Estuda a relação das mesmas com a acurácia de classificação em comitês que fazem uso do voto
31
majoritário como técnica de combinação. Realiza um estudo de dez medidas de diversidade concluindo que
otimizar uma dessas medidas em vez de minimizar o erro de classificação não gera comitês mais acurados. Cita
ainda, que não existe uma medida que faça isso de forma eficiente, aumentando a desempenho dos comitês, e
que ainda é necessária definir como uma medida de diversidade possa ser usada para construir comitês de
classificadores mais eficientes.
Em (BROWN et al, 2005) são apresentadas e categorizadas diferentes técnicas de construção de comitês
de classificadores que apresentem diversidade. Tais técnicas são categorizadas em: ponto inicial no espaço das
hipóteses (“starting point in hypothesis space”); conjunto limitado no espaço hipóteses (“set of accessible
hypothesis”); e percurso no espaço de hipóteses (“traversal of hypothesis space”). Estas categorias são definidas
levando em consideração como as hipóteses de classificação são geradas, isto é, como cada classificador base é
gerado.
Esse trabalho ainda define quando os métodos são construídos usando a diversidade de modo implícito
ou explícito. É definida quanto à consideração da diversidade na construção, isto é, um método de construção
usa a diversidade explicitamente se durante a construção do comitê for otimizada alguma métrica de diversidade
(BROWN et al, 2005). Porém, como citamos anteriormente, usar explicitamente a diversidade na construção de
comitês não compartilha o mesmo sucesso do uso de metodologias implícitas (KUNCHEVA, 2004).
A categoria de ponto inicial engloba os métodos de construção que consistem em variar os parâmetros
das técnicas de geração dos comitês de classificação. Exemplos dessa categoria são comitês de classificadores
onde cada classificador base é gerado por uma mesma técnica, utilizando um mesmo conjunto de dados para
cada um, porém variando os parâmetros da técnica. Por exemplo, podemos formar um comitê de classificadores
utilizando a técnica de k-NN para gerar cada classificador base usando um valor de diferente para cada um.
Esta categoria é a menos efetiva das três (BROWN et al, 2005).
Já a categoria de conjunto limitado engloba os métodos que constroem os classificadores limitando as
hipóteses de classificação que podem ser geradas pelas técnicas de classificação. Representantes desta categoria
são as técnicas que constroem os classificadores utilizando um conjunto de bases de dados diferente para cada ou
utilizando diferentes técnicas de geração dos classificadores. Assim, quando fornecemos diferentes bases de
dados limitamos as informações utilizadas para gerar os classificadores e consequentemente as técnicas não são
capazes de gerar classificadores que capturem as características representadas pelas informações ausentes. De
modo análogo, cada técnica de classificação captura diferentes informações das bases de dados e assim os
classificadores gerados por diferentes técnicas são diferentes entre si, isto é, apresentarão erros em instâncias de
diferentes tipos.
O trabalho de (LEE et al, 2008) é um exemplo da categoria de conjunto que gera diversidade
implicitamente. O comitê é gerado em duas etapas. Na primeira etapa é empregada a técnica de Algoritmos
Genéticos para maximizar a acurácia de um classificador modificando os atributos a serem utilizados no
treinamento. O classificador é gerado pela técnica de Análise de Discriminante Linear e a acurácia é definida
como uma combinação linear do acerto de classificação, da sensitividade e da especificidade do classificador.
Para cada execução da técnica de Algoritmos Genéticos é gerado um membro do comitê e o conjunto de
atributos que se repetem mais vezes nesses classificadores é selecionado como o melhor conjunto de atributos.
Na segunda etapa é aplicado o método de Seleção Aleatória de Subespaço sobre o conjunto dos melhores
atributos. Para cada base de dados dos classificadores é gerada uma base de dados que possui um subconjunto
32
das instâncias e dos melhores atributos como resultados da técnica de Seleção Aleatória de Subespaço. O comitê
é retornado utilizando classificadores gerados pelas bases de dados criadas utilizando um método de combinação
de voto majoritário.
Em (OLIVEIRA; CANUTO; SOUTO, 2009) é feita uma análise experimental de construção de comitês
de classificadores heterogêneos através da técnica de Algoritmos Genéticos usando explicitamente a medida de
diversidade de Yule s Q-Statistic. A técnica de Algoritmos Genéticos é empregada para selecionar os membros
do comitê, otimizando a acurácia, ou a diversidade ou a acurácia e a diversidade. Quando os dois objetivos são
utilizados é empregado o algoritmo Multi-Objective Genetic Algorithm (MOGA) que é um algoritmo
multiobjetivo baseado na técnica de Algoritmos Genéticos. Os algoritmos gerados são comparados para
execuções em três bases de dados concluindo que utilizar a acurácia mais a diversidade geram resultados
melhores que utilizar somente a acurácia ou somente a diversidade como objetivo de otimização. Porém os
resultados se limitam a medida de diversidade empregada, ao método de construção do comitê e as bases de
dados utilizadas para avaliação. O trabalho proposto fará uma análise similar essa, porém são utilizadas as
medidas de boa e má diversidade e os resultados são verificados com mais bases de dados.
O trabalho de (SANTANA et al, 2010) é um exemplo da categoria de conjunto que usa uma medida de
diversidade explicitamente na construção do comitê sem a otimização de uma medida de acurácia, isto é, a
acurácia é gerada implicitamente. São empregadas as técnicas de Algoritmos Genéticos e de Colônia de formigas
para selecionar os atributos utilizados por cada membro do comitê. A técnica de Colônia de Formigas é uma
técnica de otimização metaheurística. Como medida de diversidade é definida a medida de Intra Correlação que
consiste da média da correlação de cada atributo presente em relação ao atributo que representa as classes do
problema. A correlação é avaliada pela medida de Pearson s Product Moment Correlation Coefficient
(GIBBONS; CHAKRABORTI, 2003). Em alguns resultados é verificado que otimizar a medida de diversidade
gera comitês mais acurados que otimizar a acurácia de classificação. Assim como esse trabalho, desejamos
verificar se o mesmo ocorre para as medidas de boa e má diversidade, ou seja, verificar se é possível otimizar a
diversidade em vez da acurácia de classificação e ainda assim obter comitês mais acurados.
Citamos ainda o trabalho de (TAHIR; SMITH, 2010) em que é apresentado um comitê de
classificadores baseado no k-NN e na Busca Tabu. Os classificadores base são gerados pela técnica de k-NN
utilizando 1 como o valor de , porém cada classificador utiliza uma métrica de distância diferente. O operador
de vizinhança consiste em gerar um conjunto de classificadores para cada métrica de distância selecionando os
atributos baseado na distância de Hamming. O melhor classificador de cada conjunto é selecionado. A avaliação
é efetuada por validação cruzada utilizando dez partições. Cada combinação dos classificadores selecionados
corresponde a um vizinho do comitê e aquele que apresenta a maior diversidade é selecionado como melhor
vizinho. Então o conjunto de atributos de cada classificador base é utilizado para gerar os novos conjuntos de
classificadores de cada métrica. Assim, esse trabalho é categorizado como técnica baseada em ponto inicial e de
conjunto utilizando explicitamente a uma medida de diversidade.
A categoria de percurso engloba os métodos que constroem os classificadores de modo a ocuparem
diferentes posições no espaço de hipóteses. Isto é, são as técnicas que tentam construir classificadores
especialistas em cada característica do problema. Exemplos dessa categoria são as técnicas de construção
destinadas à geração de comitês que usem técnicas de combinação dos valores baseada em seleção.
33
Como exemplo desta categoria, apresentamos o trabalho de (CHEN et al, 2008) que apresenta um
método de construção de comitês heterogêneos. A diversidade neste trabalho é gerada implicitamente através da
escolha dos membros do comitê. Inicialmente é gerado um conjunto de classificadores base e atribuído a eles um
peso de importância na classificação. A metaheurística de Nuvens de Partículas é empregada para maximizar a
acurácia do comitê modificando o peso de cada classificador durante a otimização. Ao final do processo é
selecionado o conjunto de classificadores que apresentem os maiores valores dos pesos.
Outro exemplo desta categoria é o trabalho de (SOUTO et al, 2008), porém diferente do anterior ele
gera diversidade explicitamente. O método consiste em gerar um comitê de classificadores aplicando técnicas de
agrupamento sobre a base de dados gerando diferentes conjuntos de instâncias, ou grupos de instâncias, com
características em comum. Necessita de um conjunto inicial de classificadores que são selecionados para formar
o comitê. Para cada grupo de dados é selecionado o conjunto de classificadores que apresente as maiores
acurácias e em seguida selecionado nesse conjunto, o subconjunto que apresente as maiores diversidades. Então
é retornado um comitê formado pelos conjuntos de classificadores selecionados para cada grupo utilizando uma
técnica de fusão para combinação dos resultados.
Neste trabalho empregamos um método de construção que usa explicitamente uma medida de
diversidade e que é classificado como categoria de ponto inicial e de conjunto limitado. Durante a construção
dos comitês as técnicas de geração dos classificadores são modificadas, os atributos das bases de dados utilizadas
por cada técnica também são modificados assim como as técnicas usadas para gerar os classificadores. Caso os
resultados obtidos sejam favoráveis à utilização das medidas de boa e má diversidade em vez da acurácia como
objetivo de otimização, os resultados podem ser comparados com os resultados dos trabalhos aqui apresentados.
3.2 APLICAÇÔES DAS MEDIDAS DE BOA E MÁ DIVERSIDADE
Esta seção lista dois trabalhos relacionados a este quanto ao emprego das medidas de boa e má
diversidade. O primeiro trabalho realiza um estudo experimental com dados artificiais mostrando que é possível
o desenvolvimento de comitês mais acurados quando utilizado uma medida de diversidade para guiar seu
processo de construção (BROWN; KUNCHEVA, 2010). O segundo trabalho é uma aplicação das medidas de
boa e má diversidade na avaliação de comitês de classificadores (NASCIMENTO et al, 2011).
O trabalho de (BROWN; KUNCHEVA, 2010) faz a definição das medidas de boa e má diversidade.
Elas são definidas a partir da decomposição do erro de comitês de classificação que utilizam a técnica de voto
majoritário como combinação dos resultados. Esse trabalho também realiza experimentos utilizando uma base de
dados artificial utilizando comitês formados por diferentes quantidades de classificadores do mesmo tipo
(quantidades de um classificador até mil classificadores). Os resultados apresentados mostram que o valor da
diversidade é mais divergente em comitê de pequeno tamanho (na ordem de classificadores). Apresenta que
grandes valores de boa diversidade reduzem o erro de classificação enquanto que grandes valores de má
diversidade aumentam o erro.
Tanto este trabalho quanto o de (BROWN; KUNCHEVA, 2010) realiza testes experimentais para
mostrar que as medidas de boa e má diversidade podem ser usadas explicitamente para gerar comitês mais
acurados. Porém, este trabalho realiza experimentos em bases de dados reais verificando de modo prático se a
hipótese é válida.
34
O trabalho de (NASCIMENTO et al, 2011) efetua uma análise experimental da diversidade gerada em
comitês de classificadores baseados na técnica de Bagging. Analisa a acurácia e a diversidade de comitês
gerados por metodologias implícitas de geração de diversidade. A acurácia é avaliada pela técnica de validação
cruzada utilizando dez partições das bases de dados e a diversidade é avaliada pelas medidas de boa e má
diversidade.
As metodologias implícitas de geração de diversidade são baseadas na amostragem da base de dados,
provida pela técnica de Bagging, e pela seleção dos componentes do comitê através da técnica de otimização de
Algoritmos Genéticos. A técnica de Bagging consiste em gerar uma base de dados selecionando de forma
aleatória as instâncias presentes na base de dados original. A base gerada possui a mesma quantidade de
instâncias que a original, porém algumas instâncias não estão presentes e outras aparecem replicadas (WITTEN;
FRANK, 2005).
No trabalho de (NASCIMENTO et al, 2011) a técnica de Bagging é aplicada a uma base de dados após
a mesma sofrer um pré-processamento removendo alguns dos atributos. Esse subconjunto de atributos da base de
dados é selecionado por uma técnica heurística que utiliza critérios independentes da técnica de classificação a
ser empregada na base de dados. Tais técnicas são denominadas de filtros (WITTEN; FRANK, 2005). A técnica
de Bagging gera um conjunto de bases de dados que são fornecidas as diferentes técnicas de classificação
gerando diferentes classificadores.
Os classificadores gerados são selecionados pela técnica de otimização de Algoritmos Genéticos a fim
de formar um comitê que possua a maior acurácia possível. É utilizado como objetivo de otimização o erro de
classificação avaliado pela técnica de validação cruzada utilizando duas partições da base de dados em conjunto
com a estratificação dos dados. Neste passo é escolhido entre gerar comitês homogêneos ou heterogêneos,
selecionando somente comitês gerados pela mesma técnica de classificação ou por técnicas diferentes
respectivamente.
Os resultados obtidos são verificados estatisticamente pelo com um nível de significância de
0.05. Eles apresentam que a construção de comitês heterogêneos aumenta a acurácia, a boa diversidade e diminui
a má diversidade quando comparados com os comitês gerados do mesmo modo, porém utilizando somente
comitês homogêneos. Assim, o trabalho apresenta uma aplicação das medidas de boa e má diversidade, porém
não é o objetivo do trabalho fazer comparações quanto ao uso explicito das mesmas na construção dos comitês.
O trabalho proposto analisa um método de construção de comitês de classificadores heterogêneos
gerando explicitamente diversidade. Esse método é classificado na categoria de ponto inicial e na categoria de
conjunto limitado. São utilizadas as medidas de boa e má diversidade num processo de construção baseado em
metaheurísticas de otimização mono e multiobjetivo. O método é aplicado a vários problemas práticos clássicos
na literatura para verificar se o uso dessas medidas de diversidade gera comitês mais acurados, de acordo com
esse método de construção e método de avaliação adotado. Caso a hipótese se verifique válida os resultados são
comparados com os resultados dos trabalhos relacionados apresentados.
35
CAPÍTULO 4 –
CONSTRUÇÃO DOS COMITÊS
A principal hipótese desse trabalho é que o uso das medidas de boa e má diversidade melhora a acurácia
de comitês de classificação quando utilizadas explicitamente no processo de construção dos mesmos. Este
trabalho aplica técnicas de otimização metaheurísticas para construção dos comitês de classificadores. Tais
técnicas buscam por um comitê de classificação que apresente os melhores valores para os objetivos de
otimização entre a acurácia do comitê, a medida de boa diversidade e a medida de má diversidade. Assim, os
resultados das execuções das técnicas correspondem a comitês de classificação, isto é, o melhor comitê de
acordo com as restrições de execução do algoritmo e com os objetivos escolhidos. Estes comitês são usados para
comparar os algoritmos, diferentes quanto aos objetivos de otimização, para assim verificar se o uso das medidas
de boa e má diversidade melhora a acurácia de comitês de classificação para este método de construção. Este
capítulo descreve como os comitês de classificação são construídos, isto é, como as técnicas de otimização são
aplicadas para construção dos comitês de classificação, como elas são executadas e quais os resultados
esperados, estes serão usados em análises no próximo capítulo.
As seções seguir detalham estes tópicos: primeiro é apresentado como os comitês são representados e
gerados, ou seja, como eles são representados, como os objetivos de otimização são avaliados e quais algoritmos
de otimização são aplicados; em seguida é apresentado como os algoritmos descritos são executados, isto é,
como são geradas as soluções iniciais, como são determinados os parâmetros dos algoritmos de otimização e
quais os parâmetros empregados nas avaliações dos comitês; finalmente são apresentados os resultados
esperados dos experimentos, ou seja, quais execuções são efetuadas, quais os parâmetros utilizados e quais as
variáveis relacionadas às características dos comitês são obtidas para análise.
36
4.1 MÉTODO DE CONSTRUÇÂO
Os comitês de classificadores são construídos através de técnicas de otimização metaheurísticas mono e
multiobjetivo. As soluções das técnicas de otimização correspondem a comitês de classificação. O objetivo das
técnicas é selecionar a quantidade de classificadores do comitê e os atributos das bases de dados de cada um, de
modo a maximizar um subconjunto dos objetivos de otimização. Dependendo do experimento sendo realizado,
são otimizados a acurácia de classificação, a boa diversidade, a má diversidade (ver 2.2.2) ou uma combinação
deles.
As seções a seguir apresentam como os comitês são representados, como os objetivos de otimização são
avaliados e quais algoritmos de otimização são aplicados.
4.1.1 Representação das Soluções
A representação das soluções nos algoritmos de otimização corresponde à configuração de um comitê e
sua avaliação, isto é, quais os classificadores ativos, quais os atributos da base de dados utilizados por cada
classificador base e quais os valores dos objetivos de otimização.
As soluções apresentam um conjunto de variáveis dependentes, respectivas aos objetivos de otimização,
isto é, acurácia, boa diversidade e má diversidade do comitê, e um conjunto de variáveis independentes,
correspondentes à configuração do comitê.
Os comitês podem apresentar uma quantidade de classificadores entre 1 e , onde é um dos
parâmetros do comitê especificado antes da execução dos processos de otimização. As variáveis independentes
são representadas por um vetor de valores booleanos onde cada posição representa se um atributo é ou não
utilizado pelo correspondente classificador base. Assim, para uma base de dados de atributos, o vetor
booleano possui posições onde as posições correspondem ao primeiro classificador,
ao segundo classificador e assim por diante até representar os dados dos classificadores base do
comitê. A figura 1 apresenta como essas informações são dispostas no vetor.
Figura 1: representação das variáveis independentes num comitê de classificadores
base e uma base de dados de atributos.
Um classificador não é utilizado pelo comitê caso todos os seus atributos estejam desativados (iguais a
falso). Todos os classificadores do comitê são gerados pela técnica k-NN com . Essa técnica é escolhida
devido à sua simplicidade aumentando a eficiência em tempo de execução dos algoritmos de otimização.
Uma vez determinada as variáveis independentes, é fornecido para cada classificador uma cópia da base
de dados de entrada do comitê apresentando somente os atributos que eles devem utilizar. Os classificadores são
treinados e as variáveis dependentes são avaliadas pela técnica de validação cruzada e pelas medidas de boa e má
diversidade. A acurácia de classificação é representada nas soluções como a quantidade de erros do comitê,
assim os objetivos de acurácia (neste caso erro de classificação) e má diversidade são objetivos de minimização e
a boa diversidade um objetivo de maximização.
...
...
...
37
4.1.2 Avaliação das Soluções
Avaliar uma solução consiste em avaliar o comitê de classificação representado por ela quanto a sua
acurácia de classificação, a boa e má diversidade em relação à base de dados que o algoritmo de otimização está
executando. Para isso, é necessário treinar o comitê para a correspondente base de dados, isto é, treinar cada
classificador base que está ativo utilizando somente os atributos especificados pela solução.
O treinamento de um comitê consiste no treinamento dos classificadores base. É fornecida a cada
classificador base uma cópia da base de dados do comitê. Em cada cópia são removidos os atributos que não são
usados pelo classificador base correspondente e então este classificador é treinado com esta base. A figura 2
ilustra como esse processo ocorre.
Figura 2: Treinamento do comitê. A base de dados corrente é fornecida aos classificadores base removendo os
atributos que não são utilizados. Cada classificador é treinado com a base correspondente.
Os objetivos de otimização são avaliados pelos resultados de classificação do comitê. As instâncias
usadas para classificação são as instâncias presentes nas partições de teste determinadas pela técnica de
validação cruzada (ver 2.2.1) com 10 partições da base de dados. É fornecida uma cópia da instância para cada
classificador base. Essa instância é processada removendo os atributos que não são usados pelo classificador.
Após classificar a instância o classificador informa o resultado ao método de combinação do comitê que neste
trabalho emprega a técnica de voto majoritário (ver 2.1.3). O método efetua o seu processo e retorna a
classificação do comitê. A figura 3 ilustra como esse processo ocorre.
Remoção dos Atributos
Treinamento
Base de Dados 1
Comitê
Base Base
Classificador Classificador
38
Figura 3: Classificação de uma instância. Cada classificador recebe uma cópia da instância contendo somente os
atributos utilizados por ele. As cópias são classificadas e o resultado informado ao método de combinação. Os
resultados são combinados resultando numa das classes do problema.
Os resultados de cada classificador base e do comitê são utilizados para avaliação das medidas de boa e
má diversidade. O resultado de classificação do comitê, isto é, o erro ou acerto, é utilizado pela validação
cruzada para determinar seu desempenho.
4.1.3 Algoritmos de Construção
O método de construção dos comitês de classificação consiste na aplicação de técnicas de otimização
metaheurísticas mono e multiobjetivo de Busca Tabu (ver 2.3.1 e 2.3.3.1) e Algoritmos Genéticos (ver 2.3.2 e
2.3.3.2). Como citado anteriormente, queremos avaliar o desempenho da aplicação das medidas de diversidade
quando aplicadas explicitamente no processo de construção de comitês de classificação. Assim, as técnicas de
otimização são aplicadas utilizando diferentes conjuntos de objetivos de otimização. Os comitês gerados são
analisados para avaliar o comportamento dos mesmos em relação ao uso das medidas de diversidade.
Optamos pelo uso das técnicas de otimização metaheurísticas para construção dos comitês por permitir
a utilização de várias medidas para avaliar e aprimorar os comitês. Assim, é possível utilizar explicitamente as
medidas de boa e má diversidade para guiar a construção de um comitê. Porém, um problema associado a essa
escolha é o tempo computacional exigido para execução dos algoritmos de otimização, este é devido ao tempo
de processamento consumido para avaliação dos comitês de classificação, que depende da base de dados sendo
processada, isto é, da quantidade de atributos, da quantidade de instâncias e das técnicas utilizada para gerar os
classificadores base.
Cada algoritmo consiste na associação de uma técnica de otimização aos objetivos de otimização.
Quando otimizamos um único objetivo aplicamos as técnicas clássicas de Busca Tabu (ver 2.3.1) e Algoritmos
Genéticos (ver 2.3.2). De modo análogo, quando for empregado mais de um objetivo são utilizados os
algoritmos MTS (ver 2.3.3.1) e NSGA II (ver 2.3.3.2).
A tabela 2 determina como as técnicas de otimização são associadas aos objetivos de otimização.
Conforme descrito na tabela 2, são gerados os algoritmos e correspondentes às técnicas de Busca
Combinação
Remoção dos Atributos
Classificação
Instância 1
Comitê
Instância Instância
Classificador Classificador
Voto Majoritário
Resultado: Classe
39
Tabu (BT) e Algoritmos Genéticos (AG) para o objetivo de acurácia do comitê. De modo análogo são gerados os
algoritmos e para o objetivo de boa diversidade e os algoritmos e para o objetivo
de má diversidade.
Algoritmos Utilizados nos Experimentos
Algoritmo Técnica de Otimização Acurácia Boa Diversidade Má Diversidade
Alg.T1 BT x
Alg.T2 BT x
Alg.T3 BT x
Alg.G1 AG x
Alg.G2 AG x
Alg.G3 AG x
Alg.M1 MTS x x
Alg.M2 MTS x x
Alg.M3 MTS x x
Alg.M4 MTS x x x
Alg.N1 NSGA2 x x
Alg.N2 NSGA2 x x
Alg.N3 NSGA2 x x
Alg.N4 NSGA2 x x x
Tabela 2: Algoritmos utilizados nos experimentos onde a primeira coluna atribui um identificador ao algoritmo, a segunda identifica
a técnica de otimização utilizada, a terceira, quarta e quinta coluna indicam se os respectivos objetivos de acurácia, boa diversidade e
má diversidade são utilizados pelo correspondente algoritmo.
As técnicas multiobjetivo são associadas aos subconjuntos dos objetivos com mais de dois elementos
resultando em oito algoritmos. Assim, para o conjunto de objetivos composto pela acurácia do comitê, pela boa
diversidade e pela má diversidade são gerados os algoritmos e aplicando os algoritmos MTS e
NSGA II respectivamente. De modo análogo são gerados os algoritmos e para os objetivos de
acurácia e boa diversidade, os algoritmos e para os objetivos de acurácia e má diversidade e os
algoritmos e para os objetivos de boa e má diversidade.
Durante a execução dos processos de otimização as variáveis independentes são modificadas
dependendo da técnica de otimização sendo empregada, isto é, Busca Tabu ou Algoritmos Genéticos. As
técnicas modificam as variáveis da mesma forma, seja a versão mono-objetivo ou a multiobjetivo.
No caso de algoritmos desenvolvidos segundo a técnica de Algoritmos Genéticos, as variáveis
independentes são modificadas pelo operador de cruzamento de dois pontos e pelo operador de mutação
uniforme (4º parágrafo de 2.3.2).
No caso de algoritmos desenvolvidos segundo a técnica de Busca Tabu as variáveis independentes são
modificadas pelo operador (ver 2.3.1). O operador sorteia posições no vetor que representa as variáveis
independentes. Para cada posição sorteada é gerada uma solução idêntica à solução de entrada do operador,
porém modificando o valor da posição. Assim, é adicionado um parâmetro aos algoritmos baseados na técnica
de Busca Tabu correspondente a quantidade de posições a serem sorteadas, isto é, a quantidade de vizinhos a
serem gerados em cada iteração.
40
4.2 CONFIGURAÇÃO DOS MÉTODOS DE CONSTRUÇÂO
Metaheurísticas são ideias que podem ser aplicadas para o desenvolvimento de heurísticas para
diferentes problemas. Devido a essa flexibilidade, geralmente elas possuem um conjunto de parâmetros que
devem ser ajustados de acordo com o problema em que estão sendo empregadas. De modo análogo, os comitês
de classificação possuem parâmetros que devem ser especificados devido às técnicas e representação
empregadas. Esta seção apresenta como esses parâmetros são determinados, ou seja, como as soluções iniciais
dos algoritmos de otimização são geradas e como os parâmetros dos algoritmos de otimização e os parâmetros de
avaliação dos comitês são selecionados.
4.2.1 Soluções Iniciais
As técnicas de otimização utilizadas neste trabalho precisam de soluções iniciais para iniciar seu
processamento. Para as técnicas baseadas em Busca Tabu é necessário fornecer uma solução inicial, isto é, um
ponto de partida que será utilizada para gerar a estrutura de vizinhança e continuar o processamento deste ponto.
Para as técnicas baseadas em Algoritmos Genéticos é necessário fornecer um conjunto de soluções iniciais, isto
é, a população inicial a qual será aplicada os operadores de cruzamento e mutação para gerar uma nova
população e assim continuar o processamento do algoritmo.
Em ambos os casos, as soluções são geradas por um mesmo processo: para cada posição do vetor
booleano, que representa as variáveis independentes da solução, (ver 4.1.1) é sorteado, de modo uniforme, um
valor aleatório no intervalo atribuindo o valor verdadeiro a esta posição do vetor caso o valor sorteado
seja menor que 0,3 e falso em caso contrário. Assim, na maioria dos casos, uma solução inicial é um comitê de
classificação onde todos os classificadores base estão ativos e cada uma utiliza um conjunto diferente de
atributos da base de dados de quantidade próxima a 30% da quantidade total de atributos da base de dados.
Todas as soluções inicias geradas são válidas, isto é, possuem ao menos um classificador base ativo.
Para as técnicas baseadas em Busca Tabu é gerada uma única solução inicial e para as técnicas baseadas em
Algoritmos Genéticos é gerado um conjunto de soluções iniciais de cardinalidade igual ao tamanho da população
usada pelo algoritmo. No caso do conjunto de soluções iniciais não garantimos que todas sejam diferentes,
porém como as soluções são geradas por um processo estocástico é esperado que sejam diferentes.
4.2.2 Parâmetros dos Métodos de Construção
As técnicas de otimização utilizadas neste trabalho possuem diferentes parâmetros a serem ajustados, no
entanto optamos por ajustar somente os principais parâmetros devido ao tempo necessário para gerar e avaliar os
dados em função do tempo disponível para conclusão deste trabalho. Assim, para as técnicas baseadas em Busca
Tabu ajustamos o tamanho da lista tabu e para as técnicas baseadas em Algoritmos Genéticos ajustamos a
frequência em que o operador de mutação é aplicado.
A técnica de Busca Tabu mono-objetivo possui como parâmetros o tamanho da lista tabu, a quantidade
de unidades em que o tamanho da lista é variado e a quantidade de soluções geradas para vizinhança. A versão
41
multiobjetivo possui os mesmos parâmetros com a adição da quantidade de vezes em que o mecanismo de
diversificação é empregado. Em ambas as versões, a quantidade de soluções que o operador de vizinhança deve
gerar é fixado em 30.
A técnica de Algoritmos Genéticos mono-objetivo possui como parâmetros a quantidade de indivíduos
da população, a taxa de mutação e a taxa de cruzamento. A versão multiobjetivo possui os mesmos parâmetros.
Assim como na Busca Tabu, a quantidade de indivíduos da população é fixada em 30.
Devido ao grande consumo de tempo computacional necessário para execução dos algoritmos de
otimização utilizamos as bases de dados presentes na tabela 3 para realização desses experimentos (demoram
cerca de uma semana para obter os resultados devido a infra-estrutura disponível), isto é, ajuste do tamanho da
lista tabu e da frequência de aplicação do operador de mutação. Elas foram escolhidas de modo a representar as
bases de dados presentes na tabela 13 (ver 4.3.1) em função da quantidade de atributos, instâncias, classes e
presença de valores faltosos. Os parâmetros selecionados utilizando este subconjunto das bases de dados são
aplicados aos algoritmos utilizados nos experimentos finais.
Bases de Dados Usadas para Seleção de Parâmetros
Nº Base Quantidade de Atributos Quantidade de
Instâncias
Quantidade de
Classes
Valores
Faltosos
4 Car 6 (0/6) 1728 4 Não
6 Dermatology 34 (1/33) 366 6 Sim
13 Ionosphere 34 (34/0) 351 2 Não
14 Iris 4 (4/0) 150 3 Não
19 Protein 126 (126/0) 583 5 Não
20 Segment 19 (19/0) 1500 7 Não
22 Simulated 600 (600/0) 60 6 Não
24 Soybean 35 (0/35) 683 19 Sim
30 Wine 13 (13/0) 178 3 Não Tabela 3: Bases de dados utilizadas nos experimentos para determinação dos parâmetros dos algoritmos de otimização. A coluna
quantidade de atributos apresenta a quantidade de atributos na forma . Onde representa a quantidade total de
atributos, representa a quantidade de atributos numéricos e a quantidade de atributos nominais.
Foram realizados experimentos para os algoritmos baseadas em Busca Tabu a fim de selecionar o
melhor tamanho da lista tabu. Esses experimentos consistiram em 10 execuções de 3 minutos de cada algoritmo
(Alg.T1-T3 e Alg.M1-M4) em cada base de dados presente na tabela 3 variando o tamanho da lista tabu em
20%, 30% e 40% da quantidade de atributos da base com no mínimo de uma posição. Nenhuma das
comparações apresentou diferença significativa, isto é, todos os algoritmos são equivalentes para os valores
experimentados. Assim, adotamos o valor de 30% nos experimentos finais.
Foram realizados experimentos para os algoritmos baseados em Algoritmo Genéticos a fim de
selecionar a melhor taxa de mutação. Esses experimentos consistiram em 10 execuções de 3 minutos de cada
algoritmo (Alg.G1-G3 e Alg.N1-N4) em cada base de dados presente na tabela 3 variando a taxa de mutação 1%,
5% e 10% de aplicações. Somente o algoritmo o algoritmo Alg.N2 apresentou diferenças significativas nos
experimentos onde os resultados para os parâmetros de 10% e 5% são equivalentes e os resultados para os
parâmetros de 1% melhores (valor de probabilidade de 0.047 em relação aos resultados de 10% e 0.047 em
42
relação aos de 5%). Porém, como foram observadas diferentes somente neste algoritmo optamos por manter a
taxa de mutação em 10%.
O apêndice B deste trabalho apresenta a acurácia de cada algoritmo para cada base de dados nos casos
experimentais citados.
4.2.3 Parâmetros da Avaliação das Soluções
A representação das soluções necessita que uma quantidade máxima de classificadores que compõem o
comitê seja especificada antes da execução dos processos de otimização. O processo de otimização pode
escolher a quantidade de classificadores entre um e a quantidade máxima especificada. É esperado que a acurácia
dos comitês melhore com o aumento da quantidade de classificadores. Porém, quanto mais classificadores,
maiores são recursos consumidos, isto é, memória necessária de armazenamento e tempo de processamento para
treinar cada classificador.
Os experimentos realizados possuem como condição de parada o tempo de execução de 3 minutos ou a
quantidade máxima de 500 iterações. Aumentar a quantidade de classificadores significa aumentar o tempo
necessário para avaliar as soluções e assim, o algoritmo de otimização terá menos tempo para realizar a busca.
No pior caso, o algoritmo irá consumir todo o tempo de processamento na avaliação de uma única solução e, no
caso ideal, é desejado que o tempo gasto na avaliação não seja capaz de influenciar os resultados do algoritmo.
Assim, são executados experimentos para verificar como a quantidade de classificadores base influencia
a acurácia dos comitês gerados e qual a melhor quantidade a ser utilizada nos experimentos. Cada algoritmo
apresentado na tabela 2 é executado para as bases de dados presentes na tabela 3 variando a quantidade de
classificadores base entre 3, 5 e 10. Cada algoritmo é executado 10 vezes utilizando como critério de parada a
execução de 3 minutos ou 500 iterações.
Os resultados destes experimentos (APÊNDICE C) mostram que quase todos os algoritmos são
equivalentes em relação à acurácia com poucas exceções. A tabela 4 apresenta as comparações em que o teste
WSR verificou uma diferença significativa (valor de probabilidade menor que 0.05). Nos demais casos é
indiferente utilizar 3, 5 ou 10 classificadores como quantidade máxima em relação à acurácia dos comitês
gerados.
Diferenças dos Resultados Quanto a Quantidade Máxima de Classificadores
Algoritmo Comparação Valor-p Melhor Quantidade
Alg.T1 3 x 10 0.046 3 Classificadores
Alg.T2 3 x 5 0.012 5 Classificadores
Alg.M4 5 x 10 0.018 5 Classificadores
Alg.G2 3 x 5 0.012 5 Classificadores
Alg.G2 3 x 10 0.046 10 Classificadores Tabela 4: Diferenças significativas da acurácia dos comitês gerados em relação à quantidade máxima de classificadores base.
Os resultados mostram que os comitês fazem uso da quantidade máxima de classificadores com
exceção das bases de dados Soybean, Iris e Car (APÊNDICE C). Tais bases não utilizam a quantidade máxima
de classificadores base. Esse comportamento se verifica em quase todos os algoritmos. No entanto, na maioria
43
dos casos, a quantidade de classificadores aumenta em função do aumento da quantidade máxima de
classificadores base. A tabela 5 apresenta os resultados associados a essas bases.
Quantidade Média de Classificadores Utilizados
Car Soybean Iris
Algoritmo 3 5 10 3 5 10 3 5 10
Alg.T1 2.4 4.2 8.9 2 4.3 6 2.0 4 8.2
Alg.T2 3 5 9.2 3 5 10 3 5 10
Alg.T3 1.3 3.1 8.6 1 1 1 1 1 1
Alg.M1 2.603 4.758 9.3 3 5 9.967 2.333 4.4 9.94
Alg.M2 1.733 4.1 7.7 1 1.45 2.65 1.633 1.725 2.467
Alg.M3 2.501 4.477 9.233 2.2 2.745 5.6 2 3 7.899
Alg.M4 2.395 4.46 8.65 2.414 3.271 7.034 2 3.043 8.644
Alg.G1 2.8 5 9.3 3 4.8 8.7 2 4 9.4
Alg.G2 3 5 10 3 5 10 3 5 10
Alg.G3 1.3 3.8 8.7 1 1 1 1 1 1
Alg.N1 2.909 4.949 9.503 3 5 9.85 2.76 4.798 9.971
Alg.N2 2.558 4.632 8.987 1 1 3.179 1.3 1.7 2.334
Alg.N3 2.702 4.797 9.486 2.467 3.395 6.959 2.573 4.14 8.102
Alg.N4 2.838 4.85 9.38 2.77 3.437 7.447 2.275 4.356 8.253
Tabela 5: Quantidade média de classificadores utilizados para as execuções variando a quantidade máxima de classificadores base
entre 3, 5 e 10.
Outro fator observado é que em todos os experimentos se verifica uma diminuição da quantidade de
iterações proporcional ao aumento da quantidade máxima de classificadores base. A tabela 6 apresenta o
comportamento da quantidade de iterações do algoritmo Alg.T1 utilizando 3, 5 e 10 como quantidade máxima de
classificadores base. Os demais algoritmos apresentam comportamento semelhante (APÊNDICE C).
Iterações do Algoritmo Alg.T1
Base 3 5 10
Car 23.9 15.3 5
Dermatology 142.8 97.6 56.5
Ionosphere 104.7 67.6 33.5
Iris 500 500 440.2
Proteina 9.8 6.2 2.9
SegmentChallenge 10.4 5.8 2.8
Simulated 135.8 83.5 41.8
Soybean 159.2 104.6 51
Wine 500 349.9 180.2
Tabela 6: Quantidade de iterações do algoritmo Alg.T1 para as execuções utilizando 3, 5 e 10 como quantidade máxima de
classificadores base. A quantidade máxima de iterações nesses experimentos é 500.
Em vista dos resultados obtidos, não é possível determinar qual a melhor quantidade máxima de
classificadores base. Utilizar 3 classificadores base aumenta a quantidade de iterações dos algoritmos, porém,
pode ser uma quantidade muita pequena de classificadores que com o aumento do tempo de execução dos
algoritmos pode prejudicar o desempenho dos comitês gerados. Por outro lado, a quantidade de 10
44
classificadores diminui a quantidade de iterações, mas com o aumento do tempo de execução pode melhorar o
desempenho dos comitês. Como as quantidades de 3, 5 e 10 classificadores se mostraram equivalentes optamos
realizar duas análises experimentais: um caso experimental utilizando a quantidade máxima de 3 classificadores
base e outro utilizando 10.
4.3 RESULTADOS ESPERADOS
Está seção apresenta os resultados esperados das execuções dos algoritmos. Apresenta os parâmetros
utilizados para execução dos algoritmos e quais variáveis são analisadas. Os parâmetros de execução incluem as
bases de dados utilizadas, os parâmetros dos algoritmos de otimização e seus critérios de parada, os parâmetros
de avaliação das soluções e como os algoritmos em relação à execução de todos os algoritmos da tabela 2 em
cada base de dados presente na tabela 7 apresentada na próxima seção.
4.3.1 Bases de Dados
As bases de dados utilizadas nos experimentos deste trabalho foram obtidas do repositório UCI
(FRANK; ASUNCION, 2012). Dentre as bases presentes no repositório foram escolhidas aquelas
correspondentes a problemas de classificação de modo a gerar um conjunto heterogêneo em relação à quantidade
de instâncias, de classes e atributos do problema. Elas apresentam atributos numéricos, ou nominais ou ambos. A
tabela 7 apresenta as bases de dados e quais as características de cada uma.
É aplicado pré-processamento em todas as bases de dados a fim de remover valores faltosos,
transformar a escala dos atributos numéricos para escala e remover atributos irrelevantes (APÊNDICE
A). A presença de valores faltosos ou diferentes escalas entre os valores dos atributos pode influenciar o
processamento das técnicas de aprendizado de máquina utilizadas neste trabalho. A remoção de atributos
irrelevantes visa diminuir o processamento dos algoritmos, visto que numa aplicação real estes atributos seriam
identificados e removidos nesta fase de pré-processamento (WITTEN; FRANK, 2005).
A remoção dos atributos é feita da seguinte maneira: dividindo a base de dados em conjuntos de
instâncias de mesma classe, um atributo é removido quando apresentar uma quantidade de valores faltosos maior
ou igual a 90% da quantidade instâncias no conjunto. Caso o atributo não seja removido e ainda apresente
valores faltosos, os mesmos são substituídos dependendo do tipo do atributo. Em cada conjunto de instâncias de
mesma classe, os valores faltosos dos atributos numéricos (nominais) são substituídos pela média (moda) dos
valores no conjunto.
Um atributo também pode ser removido caso satisfaça algum dos critérios abaixo:
Ser categórico e possuir um valor diferente para cada instância;
Ser categórico ou numérico e possuir um único valor para todas as instâncias;
Possuir os mesmos valores em todas as instâncias quando comparado a algum dos outros atributos da
base de dados.
45
Bases de Dados Usadas nos Experimentos
Nº Base Quantidade de
Atributos
Quantidade de
Instâncias
Quantidade de
Classes
Valores
Faltosos
1 Arrhythmia 279 (279/0) 452 13 Sim
2 Balance 4 (0/4) 625 3 Não
3 BreastCancer 30 (30/0) 569 2 Não
4 Car 6 (0/6) 1728 4 Não
5 Crx 15 (6/9) 690 2 Sim
6 Dermatology 34 (1/33) 366 6 Sim
7 Ecoli 7 (7/0) 336 8 Não
8 Gaussian 600 (600/0) 60 3 Não
9 German 20 (7/13) 1000 2 Não
10 Glass 9 (9/0) 214 6 Não
11 HorseColic 22 (15/7) 368 2 Sim
12 Housevotes 16 (0/16) 435 2 Sim
13 Ionosphere 34 (34/0) 351 2 Não
14 Iris 4 (4/0) 150 3 Não
15 Jude 985 (985/0) 248 6 Não
16 KRKPA7 36 (0/36) 3196 2 Não
17 Labor 16 (8/8) 57 2 Sim
18 LungCancer 56 (0/56) 32 3 Sim
19 Protein 126 (126/0) 583 5 Não
20 Segment 19 (19/0) 1500 7 Não
21 Sick 29 (7/22) 3772 2 Sim
22 Simulated 600 (600/0) 60 6 Não
23 Sonar 60 (60/0) 208 2 Não
24 Soybean 35 (0/35) 683 19 Sim
25 SpamBase 57 (57/0) 4601 2 Não
26 Transfusion 4 (4/0) 748 2 Não
27 Vehicle 18 (18/0) 846 4 Não
28 Vowel 12 (10/2) 990 11 Não
29 Waveform 21 (21/0) 5000 3 Não
30 Wine 13 (13/0) 178 3 Não
Tabela 7: Bases de dados utilizadas nos experimentos. A coluna quantidade de atributos apresenta a quantidade de atributos na
forma . Onde representa a quantidade total de atributos, representa a quantidade de atributos numéricos e a
quantidade de atributos nominais.
4.3.2 Configuração dos Experimentos
Os experimentos consistem na execução dos algoritmos definidos na tabela 2 para todas as bases de
dados presentes na tabela 7. Cada algoritmo é executado 10 vezes utilizando como critério de parada 6 minutos
ou 1000 iterações. São efetuados dois experimentos variando a quantidade máxima de classificadores base do
comitê entre 3 e 10.
Em todos os algoritmos baseados na técnica de Busca Tabu são utilizados os seguintes parâmetros:
46
Tamanho da lista tabu: a quantidade de posições da lista tabu é atribuída como 30% da quantidade de
atributos da base de dados sendo o mínimo de uma posição.
Variação do tamanho da lista tabu: a cada iteração a quantidade de posições da lista tabu é alterada para
corresponder à quantidade inicial incrementada de um valor sorteado entre 1 e 10% da quantidade de
atributos da base de dados. Os valores são sorteados de modo uniforme.
Quantidade de soluções da vizinhança: a cada iteração o operador gera 30 soluções vizinhas.
Quantidade de aplicações da diversificação: a diversificação é aplicada duas vezes durante a execução,
isto é, a cada 333 iterações. Utilizado somente na versão multiobjetivo.
Em todos os algoritmos baseados na técnica de algoritmos genéticos são utilizados os seguintes
parâmetros:
Taxa de mutação: o operador de cruzamento é aplicado com uma taxa de 10%. O teste para aplicação
do operador é realizado efetuando um sorteio uniforme de um valor entre , caso ele seja
menor que 0.10 (valor da taxa de mutação), o operador é aplicado.
Tamanho da população: a quantidade de indivíduos da população é fixada em 30.
Todas as comparações são efetuadas de acordo com os tipos de técnicas de otimização, ou seja, as
validades das hipóteses são verificadas efetuando duas comparações: comparações dos algoritmos baseados em
Busca Tabu e comparações dos algoritmos baseados em Algoritmos Genéticos. Não são efetuadas comparações
entre diferentes técnicas de otimização.
Todo software necessário para execução dos experimentos foi implementado na linguagem JAVA 1.7
(JAVA, 2012), isto é, os algoritmos das técnicas de otimização, algoritmos das técnicas de aprendizado, os testes
estatísticos e a metodologia descrita.
4.3.3 Comparação dos Algoritmos
Os resultados das execuções dos algoritmos correspondem às características apresentadas pelos comitês
de classificação construídos. São analisadas as seguintes variáveis dependentes: erro percentual médio de
classificação (pode ser transformado em acurácia de classificação subtraindo o erro percentual por 1); a taxa da
boa diversidade; a taxa da má diversidade; a quantidade de classificadores base utilizada; a quantidade média de
atributos utilizados pelo comitê; e a quantidade de iterações executadas pelo algoritmo.
As técnicas multiobjetivo apresentam como resultado um conjunto de soluções não dominadas,
diferente das técnicas mono-objetivos que retornam apenas uma solução. Logo, é necessário definir qual o
melhor comitê desse conjunto, ou seja, escolher um representante desse conjunto para avaliação dos resultados.
Neste trabalho, utilizamos a solução não dominada de maior acurácia como solução representante. Isto é, dado
um conjunto de soluções não dominadas, a solução representante utilizada na avaliação dos resultados é a
solução que apresenta o maior valor de acurácia.
47
Para cada caso experimental (quantidade máxima de 3 ou 10 classificadores base) e para cada base de
dados presente na tabela 13, cada algoritmo presente na tabela 2 é executado 10 vezes. Assim, os valores das
variáveis são apresentadas como a média das 10 execuções.
Os resultados dos algoritmos são comparados aplicando os testes estatísticos de Mann-Whitney (ver
2.2.3) e de Wilcoxon (ver 2.2.4) e avaliando a correlação de Spearman (GIBBONS; CHAKRABORTI, 2003) de
acordo com a necessidade da comparação. Em ambos os testes estatísticos, são comparados pares de algoritmos
e avaliada uma variável dependente de cada vez. A hipótese nula é que os dois algoritmos apresentem a mesma
média para variável dependente e hipótese alternativa que apresentam médias diferentes. Em todos os testes, é
adotado o nível de significância de 0.05.
Quando estivermos comparando diferentes algoritmos para as execuções em uma mesma base de dados
as variáveis dependentes são comparadas aplicando o teste de Mann-Whitney, onde a amostra de cada algoritmo
corresponde aos valores das variáveis dependentes apresentadas em cada uma das 10 execuções. De modo
análogo, quando estivermos comparando diferentes bases de dados, aplicamos o teste de Wilcoxon ,onde a
amostra de cada algoritmo corresponde às médias das variáveis dependentes apresentas nas 10 execuções em
cada base de dados. A correlação de Pearson é aplicada somente a diferentes variáveis dependentes nas 10
execuções de um mesmo algoritmo numa mesma base de dados num mesmo caso experimental.
48
CAPÍTULO 5 –
RESULTADOS
Este capítulo apresenta os resultados obtidos por este trabalho. Efetua diferentes análises dos dados,
considerando os resultados obtidos individualmente da execução dos algoritmos em cada base de dados e
considerando as principais características dos resultados apresentadas das execuções no conjunto de bases de
dados utilizado neste trabalho.
Resultados preliminares são apresentados em (FEITOSA NETO, et al 2011). Tais resultados foram
importantes em escolhas relacionadas ao projeto dos algoritmos. Os resultados finais são comparados com os
resultados preliminares justificando essas escolhas.
A seguir são apresentados os resultados preliminares, apresentados e analisados os resultados obtidos
por este trabalho.
5.1 Resultados Preliminares
Os resultados preliminares obtidos são apresentados em (FEITOSA NETO et al, 2011). Porém o
objetivo do trabalho é a comparação entre o uso do algoritmo MTS e do NSGA II na construção de comitês de
classificadores otimizando a acurácia do comitê e as medidas de boa e má diversidade. Os resultados obtidos
servem para tomada de decisão sobre a implementação dos algoritmos MTS e NSGA II: como o critério de
parada adotado; a quantidade de soluções geradas pelos algoritmos em cada iteração dos mesmos.
Diferente do atual trabalho, os dados apresentados em (FEITOSA NETO et al, 2011) são obtidos da
execução dos algoritmos MTS e NSGA II otimizando o erro de classificação, a boa diversidade e a má
diversidade. A implementações são efetuadas conforme os algoritmos descritos neste trabalho (ver 2.3.3). A
quantidade máxima de classificadores base é fixada em cinco e todos os componentes dos comitês são gerados
pela técnica k-NN utilizando k igual a 1. Os dois algoritmos são executados 30 vezes para cada base de dados
presentes na tabela 8 e utilizam como critério de parada a quantidade máxima de 10 e 100 iterações para o
49
algoritmo NSGA II e MTS respectivamente. Assim como o presente trabalho, técnicas de otimização são
utilizadas para construir os comitês de classificação selecionando os atributos das bases de dados e a quantidade
de componentes do comitê.
Bases de Dados Usadas nos Experimentos Preliminares
Nº Base Quantidade de
Atributos
Quantidade de
Instâncias
Quantidade de
Classes
Valores
Faltosos
2 Balance 4 (0/4) 625 3 Não
3 BreastCancer 30 (30/0) 569 2 Não
4 Car 6 (0/6) 1728 4 Não
5 Crx 15 (6/9) 690 2 Sim
6 Dermatology 34 (1/33) 366 6 Sim
7 Ecoli 7 (7/0) 336 8 Não
9 German 20 (7/13) 1000 2 Não
10 Glass 9 (9/0) 214 6 Não
12 Housevotes 16 (0/16) 435 2 Sim
13 Ionosphere 34 (34/0) 351 2 Não
14 Iris 4 (4/0) 150 3 Não
17 Labor 16 (8/8) 57 2 Sim
18 LungCancer 56 (0/56) 32 3 Sim
20 Segment 19 (19/0) 1500 7 Não
24 Soybean 35 (0/35) 683 19 Sim
26 Transfusion 4 (4/0) 748 2 Não
27 Vehicle 18 (18/0) 846 4 Não
28 Vowel 12 (10/2) 990 11 Não
30 Wine 13 (13/0) 178 3 Não
Tabela 8: Bases de dados utilizadas nos experimentos de (FEITOSA NETO et al, 2011). A coluna quantidade de atributos
apresenta a quantidade de atributos na forma . Onde representa a quantidade total de atributos, representa a
quantidade de atributos numéricos e a quantidade de atributos nominais.
Uma análise dos dados obtidos se verificou que o principal problema era o tempo necessário para obter
os dados. Tal problema é proveniente do tempo necessário para gerar e avaliar um comitê de classificação que
dependendo do tamanho da base de dados (quantidade de atributos vezes a quantidade de instâncias) que pode
levar alguns minutos. A tabela 9 apresenta o tempo médio de execução e a quantidade média de iterações por
segundo nas 30 execuções dos algoritmos NSGA II e MTS. Observamos na tabela 9 que muitos dos algoritmos
levam alguns minutos para concluir suas execuções (isso se verifica nas bases 4, 9, 20 entre outras) e que a
quantidade média de iterações por segundo é muito baixa, isto é, a performance dos algoritmos em tempo de
execução muito baixa.
Verificamos também que o tempo médio de execução exigido pelo MTS é em alguns casos (bases 3, 9,
20 e 24 são os principais exemplos) muito maior que o tempo exigido pelo algoritmo NSGA II. Isto ocorre
devido à definição da estrutura de vizinhança do algoritmo MTS que dada uma solução toda solução que for
igual a esta, mas modificando um atributo (uso ou não dele pelo classificador base) é uma solução vizinha a ela.
Assim, a cada iteração o MTS avalia uma quantidade de soluções equivalente à quantidade de atributos da base
de dados vezes a quantidade máxima de classificadores base enquanto que o NSGA II avalia uma quantidade
fixa (16 soluções) de soluções.
50
Tempo de Execução dos Algoritmos
Nº
Base
NSGA II MTS
Tempo
Médio Iterações por Segundo Tempo Médio Iterações por Segundo
2 Balance 0,79 0,211 0,96 1,735
3 BreastCancer 2,30 0,073 40,50 0,041
4 Car 6,21 0,027 22,31 0,075
5 Crx 2,64 0,063 16,75 0,099
6 Dermatology 1,77 0,094 24,66 0,068
7 Ecoli 0,50 0,337 1,21 1,382
9 German 4,77 0,035 54,51 0,031
10 Glass 0,18 0,912 0,98 1,705
12 Housevotes 1,16 0,144 8,91 0,187
13 Ionosphere 0,81 0,205 20,35 0,082
14 Iris 0,04 4,688 0,10 16,667
17 Labor 0,04 4,545 0,45 3,690
18 LungCancer 0,05 3,571 3,03 0,550
20 SegmentChallenge 14,72 0,011 105,06 0,016
24 Soybean 4,59 0,036 65,11 0,026
26 Transfusion 1,66 0,100 2,43 0,685
27 Vehicle 3,92 0,042 35,42 0,047
28 Vowel 3,12 0,053 20,61 0,081
30 Wine 0,19 0,901 1,45 1,153
Tabela 9: Tempo médio de execução (em minutos) e quantidade de iterações por segundo dos algoritmos NSGA II e MTS.
Assim, efetuamos modificações referentes ao projeto da estrutura de vizinhança dos algoritmos
baseados na técnica de Busca Tabu, ao critério de parada, e referentes à implementação dos algoritmos a fim de
amenizar o principal problema apresentado, isto é, o tempo necessário para obter os dados das execuções dos
algoritmos.
Modificamos a estrutura de vizinhança dos algoritmos baseados em Busca Tabu para gerar uma
quantidade fixa de soluções vizinhas onde essa quantidade é um parâmetro fixo do algoritmo. Desse modo, os
algoritmos baseados em Busca Tabu passam a avaliar uma menor quantidade de soluções a cada iteração
aumentando a quantidade de iterações por segundo. Podemos ainda utilizar essa modificação para fazer com que
os algoritmos gerem uma mesma quantidade de soluções a cada iteração, ou seja, fornecer condições próximas
ou equivalentes de execução quanto à quantidade de soluções avaliadas.
Associado a isso, modificamos o critério de parada para corresponder a máximo entre a quantidade de
iteração e ao tempo de execução dos algoritmos. Assim, obtemos uma estimativa segura do tempo necessário
para gerar os dados e não favorecemos o uso das técnicas em função da quantidade de soluções avaliadas por
cada uma.
No entanto, ainda é necessário aumentar a performance dos algoritmos em tempo de execução, isto é,
aumentar a quantidade de iterações por segundo. Para isso modificamos as implementações dos algoritmos. A
implementação utilizada em (FEITOSA NETO et al, 2011) faz uso do framework WEKA (WITTEN; FRANK,
2005) para gerar e avaliar os comitês de classificação. O corrente trabalho substituiu o uso desse framework por
51
implementação própria aumentando a performance em tempo de execução. Esse aumento da performance em
tempo de execução pôde ser obtidos, pois o framework WEKA manipula bases de dados utilizando cópia dos
valores, ou seja, ao modificar os atributos de um classificador é gerada uma nova base de dados e copiado todos
os valores consumindo tempo de execução proporcional ao tamanho da base de dados (quantidade de atributos
vezes a quantidade de instâncias).
A tabela 10 apresenta a quantidade de iterações por segundos dos algoritmos implementados em
(FEITOSA NETO et al, 2011) comparando com a quantidade de iterações por segundo dos respectivos
algoritmos implementados e utilizados neste trabalho, ou seja, comparação da quantidade de iterações por
segundos dos algoritmos MTS e NSGA II com os respectivos Alg.M4 e Alg.N4. Utilizamos a quantidade de
iterações por segundo para efetuar as comparações, pois o critério de parada dos algoritmos nos dois trabalhos é
diferente, onde neste trabalho é utilizado a quantidade de iterações máximas e tempo de execução enquanto que
no outro é utilizado somente à quantidade máxima de iterações. É importante ressaltar que os resultados das duas
implementações são gerados no mesmo computador permitindo que essa comparação seja realizada. Analisando
a tabela 16 verificamos um aumento significativo da performance em tempo de execução permitindo concluir
que é melhor utilizar a versão implementada neste trabalho.
Iterações por Segundo
Base MTS Alg.M4 NSGA II Alg.N4
Balance 1,735 44,968 0,211 50,583
BreastCancer 0,041 15,017 0,073 14,050
Car 0,075 8,432 0,027 7,415
Crx 0,099 19,100 0,063 18,314
Dermatology 0,068 56,807 0,094 57,374
Ecoli 1,382 95,583 0,337 93,100
German 0,031 8,582 0,035 8,150
Glass 1,705 177,433 0,912 180,344
Housevotes 0,187 83,953 0,144 70,067
Ionosphere 0,082 38,267 0,205 37,667
Iris 16,667 504,796 4,688 565,931
Labor 3,690 2070,393 4,545 2267,574
LungCancer 0,550 2785,515 3,571 2481,390
SegmentChallenge 0,016 3,417 0,011 3,267
Soybean 0,026 62,188 0,036 58,468
Transfusion 0,685 27,500 0,100 27,233
Vehicle 0,047 10,500 0,042 9,917
Vowel 0,081 9,598 0,053 9,482
Wine 1,153 195,427 0,901 199,880
Tabela 10: Comparações da quantidade de iterações por segundo antes e depois das modificações.
Apesar dos problemas apresentados, os resultados permitem concluir que a má diversidade apresenta
uma alta correlação com o erro de classificação do comitê. Essa correlação é avaliada pela correlação de Pearson
(ver 2.2.5). Esses resultados são expressos nas figuras 4 e 5 que exibem a correlação da média do erro percentual
de classificação em relação à média da taxa das medidas de doa e má diversidade nas 30 execuções em base de
dados presente na tabela 14.
52
Figura 4: correlação entre o erro e a boa diversidade e entre o erro e a má diversidade para os resultados do
algoritmo MTS.
A correlação entre os valores é avaliada pela medida de correlação de Pearson. Como os algoritmos
retornam um conjunto de soluções às médias dos dados são avaliadas considerando somente a melhor solução de
cada conjunto em cada execução. A melhor solução de um conjunto é aquela que apresenta a menor taxa de erro
e caso exista mais de uma é considerada a que apresenta a maior taxa de boa diversidade. Se ainda permanecer o
empate é escolhida aleatoriamente uma solução dentre as que apresentarem o menor valor da taxa de má
diversidade.
Assim, o uso da má diversidade pode ser usada para guiar a construção de comitês de classificadores em
processos de otimização, porém ainda é necessário verificar se os comitês gerados são melhores ou equivalentes
aos comitês gerados otimizando somente a acurácia de classificação.
-1
-0,8
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
1
Bal
ance
Bre
astC
ance
r
Car
Crx
De
rmat
olo
gy
Eco
li
Ge
rman
Gla
ss
Ho
use
vote
s
Ion
osp
he
re
Iris
Lab
or
Lun
gCan
cer
Segm
en
t
Soyb
ean
Tran
sfu
sio
n
Ve
hic
le
Vo
we
l
Win
e
Co
rre
laçã
o d
e P
ear
son
Bases de Dados
MTS: Correlação do Erro
Erro x Boa Diversidade Erro x Má Diversidade
53
Figura 5: correlação entre o erro e a boa diversidade e entre o erro e a má diversidade para os
resultados do algoritmo NSGA II.
5.2 Análise dos Resultados
Esta seção apresenta e discute os resultados obtidos por este trabalho em cada base de dados presente na
tabela 7 obtidos das execuções dos algoritmos presentes na tabela 2 para os dois casos experimentais, isto é,
utilizando 3 e 10 como quantidade máxima de classificadores base. Efetua uma análise comparativa dos
algoritmos em relação aos padrões de resultados em todas as bases de dados. No primeiro momento é feita uma
análise individual dos dados em cada base e depois é feita uma análise global dos resultados dos algoritmos
relacionando os dados apresentados em todas as bases de dados. Todas as comparações são divididas de acordo
com a técnica de otimização e com a quantidade máxima de classificadores base utilizados, porém não é do
escopo deste trabalho comparar diferentes técnicas de otimização.
Os objetivos destas análises são: selecionar dados que permitam uma comparação válida entre os
algoritmos e justificar quando isso não for possível; verificar quais os melhores conjuntos de objetivos de
otimização para cada base de dados e para o conjunto de bases de dados; avaliar a correlação entre as medidas
de diversidade em relação ao erro de classificação em cada base de dados e para o conjunto de bases de dados;
avaliar se os resultados sofrem influência pela quantidade máxima de classificadores bases nos casos
experimentais com 3 e 10 classificadores base.
Quando estivermos comparando resultados numa mesma base de dados utilizamos o teste de Mann-
Whitney e quando estivermos comparando os resultados no conjunto das bases de dados utilizamos o teste de
Wilcoxon. Assim, as amostras utilizadas no teste de Mann-Whitney são compostas por dados obtidos por
execuções em uma única base de dados e as amostras no teste de Wilcoxon por dados obtidos no conjunto das
bases de dados. As correlações são efetuadas pelo coeficiente de Spearman. Escolhemos essas medidas para
avaliação dos resultados, pois não podemos que garantir que os mesmos obedeçam a uma distribuição normal,
assim, recorremos a técnica nãoparamétricas para avaliação dos resultados.
-1
-0,8
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
1
Bal
ance
Bre
astC
ance
r
Car
Crx
De
rmat
olo
gy
Eco
li
Ge
rman
Gla
ss
Ho
use
vote
s
Ion
osp
he
re
Iris
Lab
or
Lun
gCan
cer
Segm
en
t
Soyb
ean
Tran
sfu
sio
n
Ve
hic
le
Vo
we
l
Win
e
Co
rre
laçã
o d
e P
ear
son
Bases de Dados
NSGA II: Correlação do Erro
Erro x Boa Diversidade Erro x Má Diversidade
54
5.2.1 Seleção dos Resultados
Esta seção apresenta a análise da acurácia dos comitês gerados pelos métodos de otimização em
relação à acurácia dos comitês gerados pelo método de construção das soluções iniciais para os métodos de
construção deste trabalho. Esta análise permite verificar se os algoritmos empregados efetuam algum
processamento útil sobre as bases de dados, isto é, dada uma base de dados a análise verificará se cada um dos
algoritmos consegue gerar um solução de maior acurácia que a soluções ou soluções iniciais fornecidas para os
algoritmos de otimização. Essa verificação será efetuada pelo teste estatístico de Mann-Whitney, onde as
amostras utilizadas no teste são a acurácia de classificação de comitês gerados pelo algoritmo e a acurácia de
classificação de comitês gerados pelo processo de construção das soluções iniciais.
Também é verificado se os resultados gerados permitem distinguir diferenças entre eles. É necessário
que os resultados gerados permitam distinguir os algoritmos em relação à acurácia dos comitês gerados por eles
para que assim os objetivos deste trabalho possam ser verificados. Como em cada caso experimental, isto é, uma
técnica de otimização associada a uma quantidade máxima de classificadores base, temos um máximo de 7
experimentos distintos (7 algoritmos) e assumimos que um experimento é valido caso apresente até 5 algoritmos
que gerem comitês de acurácia não estatisticamente diferentes quanto ao teste de Mann-Whitney.
Com essas análises podemos validar os resultados obtidos pelos algoritmos e ainda identificar
possíveis problemas que possam inviabilizar os resultados nas análises futuras, isto é, nas análises do melhor
conjunto de objetivos, das correlações das medidas de diversidade e na análise da quantidade máxima de
classificadores base do comitê. Os possíveis problemas analisados são: encerramento prematuro do
processamento dos algoritmos de otimização; alcance do ótimo global; estagnação do algoritmo de otimização
num mínimo local.
O encerramento prematuro do processo dos algoritmos de otimização ocorre devido ao critério de
parada escolhido que é em função do tempo de processamento e da quantidade de iterações efetuadas. Assim, é
possível que o algoritmo encerre seu processamento por utilizar o tempo máximo de processamento disponível,
porém executando poucas iterações e consequentemente gerando soluções pouco otimizadas. Essa escolha da
condição de parada foi efetuada em função da infraestrutura disponível para execução dos experimentos que é
composta por apenas com computador.
Os problemas de ótimo global e estagnação do algoritmo num mínimo local podem ocorrer devido as
características das bases de dados. Isto é, é possível que o método de criação das soluções iniciais gerem comitês
que aprestem o ótimo global e do mesmo modo é possível que a bases de dados apresente um mínimo local que
algoritmos fiquem estagnados sendo este mínimo também gerado pelo método de geração das soluções iniciais.
Assim, as bases de dados que apresentam estes problemas não são úteis para a análise do melhor conjunto de
objetivos, já que todos os algoritmos serão equivalentes.
As seções subsequentes apresentam os resultados desta análise para os dois casos experimentais:
utilizando uma quantidade máxima de 3 classificadores base; e utilizando uma quantidade máxima de 10
classificadores base.
55
5.2.1.1 Análise da Eficácia para 3 Classificadores Base
Esta seção apresenta a análise dos resultados da comparação da acurácia dos comitês gerados pelos
métodos de otimização em relação à acurácia dos comitês gerados pelo processo de construção das soluções
iniciais para o caso experimental de um máximo de 3 classificadores base. Inicialmente verificamos quais os
algoritmos apresentam resultados que os permitam distinguir entre eles e em seguida verificamos se os mesmos
apresentam algum processamento útil quando comparados com resultados gerados pelas soluções iniciais dos
algoritmos de otimização.
De acordo com a análise proposta, verificamos que os resultados dos algoritmos para as bases de
dados presentes na tabela 11 e 12 não permitem distinguir diferenças entre os algoritmos baseados na técnica de
Busca Tabu e Algoritmos Genéticos respectivamente. Assim, essas bases de dados não serão utilizadas nas
análises subsequentes nos correspondentes casos experimentais. Estas tabelas ainda apresentam o erro percentual
médio de classificação dos comitês gerados para os diferentes algoritmos destacando os resultados que não são
estatisticamente diferentes.
Bases de Dados que Não Apresentam Distintos para Algoritmos de Técnica Busca Tabu
Alg.T1 Alg.T2 Alg.T3 Alg.M1 Alg.M2 Alg.M3 Alg.M4
Gaussian 0,0000 0,0050 0,0000 0,0050 0,0000 0,0000 0,0000
Jude 0,0133 0,0141 0,0137 0,0141 0,0141 0,0137 0,0141
Labor 0,0000 0,0561 0,0000 0,0000 0,0000 0,0000 0,0000
Protein 0,1789 0,1937 0,1823 0,1780 0,1743 0,1768 0,1772
Simulated 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
SpamBase 0,1545 0,1589 0,1627 0,1645 0,1506 0,1614 0,1511
Wine 0,0000 0,1191 0,0000 0,0000 0,0000 0,0000 0,0000
Tabela 11: Acurácias dos algoritmos baseados na técnica de Busca Tabu que não permitem distinguir diferenças significativas. Os
valores em negrito não são estatisticamente diferentes entre para os resultados numa mesma base de dados.
Esses resultados que não permitem distinguir diferenças entre os algoritmos podem ocorrer por
diferentes motivos em geral pela estrutura da base de dados e pela escolha das técnicas de otimização e
classificação escolhidas. Por isso, os resultados são diferentes para as duas técnicas de otimização escolhidas.
Bases de Dados que Não Apresentam Distintos para Algoritmos de Técnica Algoritmos Genéticos
Alg.G1 Alg.G2 Alg.G3 Alg.N1 Alg.N2 Alg.N3 Alg.N4
Gaussian 0,0000 0,0567 0,0000 0,0000 0,0000 0,0000 0,0000
Labor 0,0000 0,0491 0,0000 0,0053 0,0000 0,0035 0,0018
Simulated 0,0000 0,0067 0,0000 0,0000 0,0000 0,0000 0,0000
Tabela 12: Acurácias dos algoritmos baseados na técnica de Algoritmos Genéticos que não permitem distinguir diferenças
significativas. Os valores em negrito não são estatisticamente diferentes entre para os resultados numa mesma base de dados.
As análises seguintes consistem em investigar se as execuções dos algoritmos efetuam algum
processamento útil gerando comitês diferentes, possivelmente mais acurados, que os comitês utilizados como
soluções iniciais. Isto é, investiga a presença de problemas que façam com que as análises seguintes não sejam
válidas. Problema esses como: encerramento prematuro do processamento dos algoritmos de otimização; alcance
do ótimo global; estagnação do algoritmo de otimização num mínimo local. Somente 10 das 30 bases apresentam
56
uma diferença significativa entre a acurácia das soluções geradas pelo processo de construção das soluções
iniciais em relação à acurácia das soluções geradas pelos algoritmos de otimização. Assim, não apresentam
nenhum dos problemas relatados. A tabela 13 apresenta estas bases de dados.
Bases de Dados de Acurácia Diferente das Soluções Iniciais
Nº Base Quantidade de
Atributos Quantidade de Instâncias Quantidade de Classes
Valores
Faltosos
1 Arrhythmia 279 (279/0) 452 13 Sim
4 Car 6 (0/6) 1728 4 Não
6 Dermatology 34 (1/33) 366 6 Sim
9 German 20 (7/13) 1000 2 Não
11 HorseColic 22 (15/7) 368 2 Sim
12 Housevotes 16 (0/16) 435 2 Sim
13 Ionosphere 34 (34/0) 351 2 Não
18 LungCancer 56 (0/56) 32 3 Sim
19 Protein 126 (126/0) 583 5 Não
27 Vehicle 18 (18/0) 846 4 Não
28 Vowel 12 (10/2) 990 11 Não
Tabela 13: Bases de dados em que acurácia gerada pelos algoritmos de otimização é estatisticamente diferente e menor que a
acurácia de comitês geradas pelo processo de construção das soluções iniciais. A coluna quantidade de atributos apresenta a
quantidade de atributos na forma . Onde representa a quantidade total de atributos, representa a quantidade de
atributos numéricos e a quantidade de atributos nominais.
As bases de dados presentes na tabela 14 não apresentam diferenças significativas em alguns
algoritmos (máximo de 3 algoritmos). A tabela 15 apresenta o valor do teste de Mann-Whitney em relação à
acurácia de classificação dos comitês gerados e dos comitês das soluções iniciais. Assim, é possível identificar
em quais algoritmos a diferença não é verificada.
Bases de Dados de Acurácia Diferente das Soluções Iniciais na Maioria dos Casos
Nº Base Quantidade de
Atributos Quantidade de Instâncias Quantidade de Classes
Valores
Faltosos
3 BreastCancer 30 (30/0) 569 2 Não
5 Crx 15 (6/9) 690 2 Sim
7 Ecoli 7 (7/0) 336 8 Não
10 Glass 9 (9/0) 214 6 Não
16 KRKPA7 36 (0/36) 3196 2 Não
14 Iris 4 (4/0) 150 3 Não
20 Segment 19 (19/0) 1500 7 Não
23 Sonar 60 (60/0) 208 2 Não
26 Transfusion 4 (4/0) 748 2 Não
27 Vehicle 18 (18/0) 846 4 Não
30 Wine 13 (13/0) 178 3 Não
Tabela 14: Bases de dados em que acurácia gerada pelos algoritmos de otimização é estatisticamente diferente e menor que a
acurácia de comitês geradas pelo processo de construção das soluções iniciais na maioria dos casos. A coluna quantidade de atributos
apresenta a quantidade de atributos na forma . Onde representa a quantidade total de atributos, representa a
quantidade de atributos numéricos e a quantidade de atributos nominais.
57
Observando os resultados da tabela 15 verifica-se que otimizar somente a boa diversidade
(representado pelos algoritmos ALG.T2 e ALG.G2) gera comitês em que a acurácia não é melhor ou é próximas
acurácia dos comitês gerados pelo processo de construção das soluções iniciais deste trabalho. Isto é, para essas
bases de dados, com exceção da base Glass, considerando a metodologia e parâmetros utilizados nos
experimentos, otimizar somente a boa diversidade não gera comitês melhores ou necessita de um maior tempo de
processamento para gerar soluções estatisticamente diferentes das soluções geradas pelo processo de construção
das soluções inicias. No entanto, são necessários mais experimentos para analisar essas hipóteses. Apesar disso,
consideramos todos os resultados nas análises seguintes.
Teste de Mann-Whitney entre a Acurácia dos Comitês Gerados e dos Comitês Iniciais
Resultados dos Algoritmos Baseados em Busca Tabu
Base Alg.T1 Alg.T2 Alg.T3 Alg.M1 Alg.M2 Alg.M3 Alg.M4
BreastCancer 0,0002 0,3846 0,0002 0,0002 0,0002 0,0002 0,0002
Crx 0,0211 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
Ecoli 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
Glass 0,0002 0,0140 0,0002 0,0002 0,0002 0,0002 0,0002
Iris 0,0002 0,1124 0,0002 0,0007 0,0002 0,0002 0,0002
KRKPA7 0,1466 0,1294 0,0343 0,0002 0,0002 0,0002 0,0002
Segment 0,0002 0,1859 0,0002 0,0004 0,0002 0,0005 0,0002
Sonar 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
Transfusion 0,0004 0,4963 0,0025 0,0002 0,0002 0,0012 0,0002
Vehicle 0,0002 0,1405 0,0002 0,0002 0,0002 0,0002 0,0002
Wine 0,0002 0,0757 0,0002 0,0002 0,0002 0,0002 0,0002
Resultados dos Algoritmos Baseados em Algoritmos Genéticos
Base Alg.G1 Alg.G2 Alg.G3 Alg.N1 Alg.N2 Alg.N3 Alg.N4
BreastCancer 0,0002 0,1987 0,0002 0,0002 0,0002 0,0002 0,0002
Crx 0,0002 0,3257 0,0002 0,0002 0,0002 0,0002 0,0002
Ecoli 0,0002 1,0000 0,0002 0,0002 0,0002 0,0002 0,0002
Glass 0,0002 0,0015 0,0002 0,0028 0,0002 0,9698 0,0002
Iris 0,0002 0,0156 0,0025 0,0006 0,0191 0,0007 0,0025
KRKPA7 0,0000 0,0003 0,0002 0,0002 0,0032 0,0002 0,0002
Segment 0,0002 0,0413 0,0002 0,0002 0,0002 0,0002 0,0002
Sonar 0,0002 0,7337 0,0002 0,0002 0,0002 0,0002 0,0002
Transfusion 0,0233 0,0025 0,0588 0,0002 0,4727 0,0452 0,0015
Vehicle 0,0002 0,0002 0,0065 0,0002 0,0002 0,0113 0,0002
Wine 0,0002 0,3643 0,0002 0,0082 0,0002 0,0343 0,0036
Tabela 15: Teste de Mann-Whitney entre a acurácia dos comitês gerados pelos algoritmos de otimização em realação a acurácia dos
comitês gerados pelo método de construção das soluções iniciais. Cada célula apresenta o p-value bilateral do teste de Mann-
Whitney, onde os valores destacados em negrito não são estatisticamente diferentes para o nível de significância de 0,05.
As bases de dados presentes na tabela 16 não apresentam diferenças significativas na maioria dos
algoritmos baseados na técnica de Algoritmos Genéticos. Assim, para essas bases de dados, considerando a
metodologia e parâmetros utilizados nos experimentos, utilizar métodos de otimização baseados Algoritmos
Genéticos não gera comitês melhores que gerar comitês através de um processo randômico.
58
Bases de Dados de Acurácia não Diferente das Soluções Iniciais para os Algoritmos Genéticos
Nº Base Quantidade de
Atributos Quantidade de Instâncias Quantidade de Classes Valores Faltosos
2 Balance 4 (0/4) 625 3 Não
8 Gaussian 600 (600/0) 60 3 Não
15 Jude 985 (985/0) 248 6 Não
17 Labor 16 (8/8) 57 2 Sim
24 Soybean 35 (0/35) 683 19 Sim
Tabela 16: Bases de dados em que acurácia gerada pelos algoritmos de otimização baseados nos Algoritmos Genéticos não é
estatisticamente diferente que a acurácia de comitês geradas pelo processo de construção das soluções iniciais na maioria dos casos.
A coluna quantidade de atributos apresenta a quantidade de atributos na forma . Onde representa a quantidade total de
atributos, representa a quantidade de atributos numéricos e a quantidade de atributos nominais.
A tabela 17 o valor do teste de Mann-Whitney em relação à acurácia de classificação dos comitês
gerados e dos comitês das soluções iniciais para as bases de dados presentes na tabela 16. Observando esta tabela
verificamos que somente os algoritmos baseados na técnica de Algoritmos Genéticos não apresentam uma
diferença significativa, com exceção do Alg.T2 na base Jude e do Alg.M4 na base Labor. Desse modo, os
resultados dessas bases de dados dos algoritmos baseados na técnica de Algoritmos Genéticos não são
considerados nas análises finais.
Teste de Mann-Whitney entre a Acurácia dos Comitês Gerados e dos Comitês Iniciais
Resultados dos Algoritmos Baseados em Busca Tabu
Base Alg.T1 Alg.T2 Alg.T3 Alg.M1 Alg.M2 Alg.M3 Alg.M4
Balance 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
Gaussian 0,0082 0,0284 0,0002 0,0004 0,0002 0,0002 0,0025
Jude 0,0006 0,0679 0,001 0,0366 0,0019 0,0030 0,0430
Labor 0,0082 0,0002 0,0233 0,0082 0,0233 0,0233 0,2568
Soybean 0,0002 0,0233 0,0007 0,0002 0,0002 0,0002 0,0002
Resultados dos Algoritmos Baseados em Algoritmos Genéticos
Base Alg.G1 Alg.G2 Alg.G3 Alg.N1 Alg.N2 Alg.N3 Alg.N4
Balance 0,0002 0,0002 0,2568 0,0065 0,8206 0,1620 0,4963
Gaussian 0,7055 0,4727 1,0000 0,4497 0,4497 0,7055 0,7055
Jude 0,8259 0,0021 0,0387 0,5235 1,0000 1,0000 1,0000
Labor 1,0000 0,2123 1,0000 0,2568 1,0000 0,4497 0,7055
Soybean 0,0588 0,2568 0,0025 0,0082 0,0082 0,0058 0,4727
Tabela 17: Teste de Mann-Whitney entre a acurácia dos comitês gerados pelos algoritmos de otimização em realação a acurácia dos
comitês gerados pelo método de construção das soluções iniciais. Cada célula apresenta o p-value bilateral do teste de Mann-
Whitney, onde os valores destacados em negrito não são estatisticamente diferentes para o nível de significância de 0,05.
Isso ocorre em virtude de três causas possíveis: encerramento prematuro do processamento do
algoritmo que pode ser verificado pela quantidade de iterações efetuadas pelo mesmo; alcance do mínimo global
rapidamente que pode ser verificado pela acurácia apresentada pelas soluções iniciais, isto é, verificar se os
comitês gerados pelas soluções iniciais apresentam acurácia máxima; ou estagnação dos algoritmos num mínimo
local o que pode ser verificado comparando a acurácia das soluções iniciais com a acurácia das soluções iniciais.
A tabela 18 apresenta a quantidade de iterações efetuadas pelos algoritmos nas execuções das bases de dados
presentes na tabela 16.
59
Quantidade de Iterações dos Algoritmos
Iterações dos Algoritmos Baseados em Busca Tabu
Base Alg.T1 Alg.T2 Alg.T3 Alg.M1 Alg.M2 Alg.M3 Alg.M4
Balance 285,8 273,2 380 295,8 318,3 323,5 269,9
Gaussian 195,8 196,1 194,3 194,4 195,1 191,9 197,2
Jude 50 50 50 50 50 50 50
Labor 1000 1000 1000 1000 1000 1000 1000
Soybean 259,7 271,4 448,3 268,1 457,1 340,3 311
Iterações dos Algoritmos Baseados em Algoritmos Genéticos
Base Alg.G1 Alg.G2 Alg.G3 Alg.N1 Alg.N2 Alg.N3 Alg.N4
Balance 255,4 242,6 492,7 266,9 325,1 311,5 303,5
Gaussian 118,1 135 121,1 138,4 120,5 137,4 136,4
Jude 50 50 50 50 50 50 50
Labor 1000 1000 1000 1000 1000 1000 1000
Soybean 279 267,8 489,1 264,7 483,3 313,8 292,4
Tabela 18: Quantidade média de iterações efetuadas pelos algoritmos de otimização nas 10 execuções.
Observando a tabela 18 verificamos que os algoritmos baseados nas técnicas de Algoritmos Genéticos
efetuam uma quantidade de iterações semelhantes aos algoritmos baseados em Busca Tabu, porém não
conseguiram gerar comitês de acurácia diferente dos comitês das soluções iniciais. Isto é uma indicação, mas não
uma prova, que a quantidade de iterações não interferiu nos resultados dos algoritmos. Desse modo verificamos
a acurácia dos comitês gerados pelo método de construção inicial. A tabela 19 apresenta a acurácia expressa em
erro percentual médio dos comitês das soluções iniciais e dos comitês gerados pelos algoritmos.
Erro Percentual Médio dos Comitês Iniciais e dos Gerados pelos Algoritmos
Balance Gaussian Jude Labor Soybean
Inicial Gerada Inicial Gerada Inicial Gerada Inicial Gerada Inicial Gerada
Alg.T1 0,4374 0,2480 0,0300 0,0000 0,0190 0,0133 0,0211 0,0000 0,9242 0,6911
Alg.T2 0,4544 0,2672 0,0350 0,0050 0,0177 0,0141 0,0193 0,0561 0,9042 0,8111
Alg.T3 0,4814 0,3264 0,0550 0,0000 0,0196 0,0137 0,0211 0,0000 0,8788 0,6911
Alg.M1 0,4661 0,2480 0,0500 0,0050 0,0177 0,0141 0,0158 0,0000 0,8782 0,6911
Alg.M2 0,4693 0,2480 0,0683 0,0000 0,0187 0,0141 0,0228 0,0000 0,8821 0,6911
Alg.M3 0,4571 0,2480 0,0483 0,0000 0,0196 0,0137 0,0211 0,0000 0,9034 0,6911
Alg.M4 0,4056 0,2480 0,0333 0,0000 0,0171 0,0141 0,0070 0,0000 0,9010 0,6911
Alg.G1 0,3147 0,2480 0,0017 0,0000 0,0119 0,0117 0,0000 0,0000 0,7231 0,6911
Alg.G2 0,3710 0,2672 0,0683 0,0567 0,0155 0,0121 0,0404 0,0491 0,7988 0,8111
Alg.G3 0,3707 0,3264 0,0000 0,0000 0,0117 0,0097 0,0000 0,0000 0,7876 0,6911
Alg.N1 0,3123 0,2624 0,0033 0,0000 0,0123 0,0117 0,0000 0,0053 0,7373 0,6911
Alg.N2 0,3074 0,3094 0,0033 0,0000 0,0121 0,0121 0,0000 0,0000 0,7375 0,6911
Alg.N3 0,3232 0,3312 0,0017 0,0000 0,0121 0,0121 0,0000 0,0035 0,7435 0,7899
Alg.N4 0,3152 0,3066 0,0017 0,0000 0,0117 0,0117 0,0000 0,0018 0,7186 0,7113
Tabela 19: Erro percentual médio das 10 execuções de cada algoritmo de otimização.
Analisando a tabela 19 verificamos que a acurácia dos comitês das soluções iniciais são próximas
entre si e de maior magnitude nos algoritmos para os Algoritmos Genéticos. Isso ocorre, pois na Busca Tabu é
60
gerada somente uma solução inicial enquanto que nos Algoritmos Genéticos é gerado um conjunto de soluções.
Como utilizamos as soluções de melhor acurácia para representar um conjunto de soluções, existe uma maior
probabilidade das soluções iniciais dos Algoritmos Genéticos apresentarem maior acurácia. Desse modo, os
Algoritmos Genéticos, nessas bases de dados, apresentam uma maior dificuldade em gerar soluções
estatisticamente diferentes das soluções iniciais. Portanto, não consideramos os dados dos algoritmos gerados
para as bases de dados presentes na tabela 16 nas análises seguintes.
As bases de dados presentes na tabela 20 não apresentam diferenças significativas na maioria dos
algoritmos. Assim, para essas bases de dados, considerando a metodologia e parâmetros utilizados nos
experimentos, otimizar somente a boa diversidade não gera comitês melhores que gerar comitês através de um
processo randômico.
Bases de Dados Usadas nos Experimentos
Nº Base Quantidade de
Atributos Quantidade de Instâncias Quantidade de Classes Valores Faltosos
21 Sick 29 (7/22) 3772 2 Sim
22 Simulated 600 (600/0) 60 6 Não
25 SpamBase 57 (57/0) 4601 2 Não
29 Waveform 21 (21/0) 5000 3 Não
Tabela 20: Bases de dados em que acurácia gerada pelos algoritmos de otimização que não é estatisticamente diferente que a
acurácia de comitês geradas pelo processo de construção das soluções iniciais na maioria dos casos. A coluna quantidade de atributos
apresenta a quantidade de atributos na forma . Onde representa a quantidade total de atributos, representa a
quantidade de atributos numéricos e a quantidade de atributos nominais.
A tabela 21 apresenta o valor do teste de Mann-Whitney em relação à acurácia de classificação dos
comitês gerados e dos comitês das soluções iniciais. Verificando os dados observamos, que com poucas
exceções, os comitês gerados pelos métodos de otimização não apresentam soluções estatisticamente diferentes
dos comitês gerados pelo método de construção das soluções iniciais. Assim, os resultados dessas bases de dados
não são utilizados para comparação dos algoritmos, ou seja, não são incluídos nos resultados finais.
Teste de Mann-Whitney entre a Acurácia dos Comitês Gerados e dos Comitês Iniciais
Resultados dos Algoritmos Baseados em Busca Tabu
Base Alg.T1 Alg.T2 Alg.T3 Alg.M1 Alg.M2 Alg.M3 Alg.M4
Sick 0,4497 0,0963 0,1041 0,6776 0,0025 0,0091 0,0257
Simulated 0,2568 0,2568 0,4497 0,4497 0,4497 0,4497 0,1306
SpamBase 0,4963 0,3447 0,3847 0,0102 0,0009 0,0696 0,1306
Waveform 0,1306 0,4497 0,5205 0,7055 0,1736 0,1736 0,0191
Resultados dos Algoritmos Baseados em Algoritmos Genéticos
Base Alg.G1 Alg.G2 Alg.G3 Alg.N1 Alg.N2 Alg.N3 Alg.N4
Sick 0,0191 0,1306 0,0028 0,6501 0,0002 0,4274 0,9397
Simulated 1,0000 0,1306 1,0000 1,0000 1,0000 1,0000 1,0000
SpamBase 0,0233 0,0821 0,0588 0,0696 0,0002 0,0233 0,0032
Waveform 0,7055 0,9397 0,1988 0,0284 0,0002 0,3258 0,0007
Tabela 21: Teste de Mann-Whitney entre a acurácia dos comitês gerados pelos algoritmos de otimização em realação a acurácia dos
comitês gerados pelo método de construção das soluções iniciais. Cada célula apresenta o p-value bilateral do teste de Mann-
Whitney, onde os valores destacados em negrito não são estatisticamente diferentes para o nível de significância de 0,05.
61
A tabela 22 apresenta a quantidade de média das iterações efetuadas pelos algoritmos nas execuções
das bases de dados presentes na tabela 20. Analisando esta tabela, verificamos que as bases de dados, com
exceção da base Simulated, não executam uma quantidade de iterações suficientes para modifica as soluções
iniciais.
Teste de Mann-Whitney entre a Acurácia dos Comitês Gerados e dos Comitês Iniciais
Resultados dos Algoritmos Baseados em Busca Tabu
Base Alg.T1 Alg.T2 Alg.T3 Alg.M1 Alg.M2 Alg.M3 Alg.M4
Sick 2,8 3,2 2,6 2,7 2,6 2,8 2,3
Simulated 247,6 254,3 252 254,3 256,5 250,5 255,6
SpamBase 0 0,1 0,4 0,4 0,1 0,5 0,5
Waveform 0,8 0,9 0,6 1 0,7 0,8 0,4
Resultados dos Algoritmos Baseados em Algoritmos Genéticos
Base Alg.G1 Alg.G2 Alg.G3 Alg.N1 Alg.N2 Alg.N3 Alg.N4
Sick 1,6 1,7 1,9 1,5 1,5 1,3 1,5
Simulated 144,7 173,9 144,9 170,3 145,2 174,3 173,6
SpamBase 0 0 0 0 0 0 0
Waveform 0 0 0 0 0 0 0
Tabela 22: Quantidade média de iterações efetuadas pelos algoritmos de otimização nas 10 execuções.
A tabela 23 apresenta a acurácia expressa em erro percentual médio das bases de dados presentes na
tabela 20. Podemos verificar que a acurácia das soluções iniciais da base Simulated são ótimas ou próximas do
valor ótimo e desse modo não é possível que os algoritmos apresentem valores melhores. Assim, as bases de
dados presentes na tabela 20 não são incluídas nas análises finais.
Erro Percentual Médio
Sick Simulated SpamBase Waveform
Inicial Gerada Inicial Gerada Inicial Gerada Inicial Gerada
Alg.T1 0,0663 0,0622 0,0050 0,0000 0,1404 0,1545 0,3093 0,2720
Alg.T2 0,2185 0,0866 0,0067 0,0000 0,1380 0,1589 0,2956 0,3094
Alg.T3 0,0885 0,0650 0,0033 0,0000 0,1686 0,1627 0,2860 0,2755
Alg.M1 0,0636 0,0529 0,0050 0,0000 0,1773 0,1645 0,2967 0,2880
Alg.M2 0,0841 0,0294 0,0033 0,0000 0,1460 0,1506 0,2694 0,2735
Alg.M3 0,0884 0,0312 0,0050 0,0000 0,1640 0,1614 0,3063 0,2987
Alg.M4 0,0863 0,0447 0,0067 0,0000 0,1449 0,1511 0,2983 0,2919
Alg.G1 0,0257 0,0235 0,0000 0,0000 0,0932 0,0646 0,2383 0,2369
Alg.G2 0,0921 0,0653 0,0000 0,0067 0,1445 0,1676 0,3466 0,3393
Alg.G3 0,0262 0,0231 0,0000 0,0000 0,0946 0,0709 0,2414 0,2401
Alg.N1 0,0265 0,0259 0,0000 0,0000 0,0912 0,0919 0,2343 0,2538
Alg.N2 0,0259 0,0509 0,0000 0,0000 0,0947 0,2555 0,2376 0,3693
Alg.N3 0,0251 0,0267 0,0000 0,0000 0,0955 0,0951 0,2390 0,2241
Alg.N4 0,0270 0,0266 0,0000 0,0000 0,0961 0,1307 0,2358 0,2531
Tabela 23: Erro percentual médio das 10 execuções de cada algoritmo de otimização. Para cada base de dados é apresentado o erro
percentual médio de classificação de 10 soluções geradas pelo método de construção das soluções inicias na coluna "Inicial" e o erro
percentual médio de classificação dos comitês gerados pelos algoritmos na coluna "Gerada".
62
Em virtude dos resultados apresentados, excluímos das análises seguintes as bases de dados presentes
na tabela 24 para o caso experimental de algoritmos baseados na técnica de Busca Tabu com um máximo de 3
classificadores base.
Bases de Dados Não Usadas nos Experimentos
Nº Base Quantidade de Atributos Quantidade de Instâncias Quantidade de Classes Valores Faltosos
8 Gaussian 600 (600/0) 60 3 Não
15 Jude 985 (985/0) 248 6 Não
17 Labor 16 (8/8) 57 2 Sim
19 Protein 126 (126/0) 583 5 Não
21 Sick 29 (7/22) 3772 2 Sim
22 Simulated 600 (600/0) 60 6 Não
25 SpamBase 57 (57/0) 4601 2 Não
29 Waveform 21 (21/0) 5000 3 Não
30 Wine 13 (13/0) 178 3 Não
Tabela 24: Bases de dados que não são consideradas no caso experimental de 3 classificadores base para os algoritmos baseados na
técnica de Busca Tabu.
Também excluímos das análises seguintes as bases de dados presentes na tabela 25 para o caso
experimental de algoritmos baseados na técnica de Algoritmos Genéticos com um máximo de 3 classificadores
base.
Bases de Dados Não Usadas nos Experimentos
Nº Base Quantidade de Atributos Quantidade de Instâncias Quantidade de Classes Valores Faltosos
2 Balance 4 (0/4) 625 3 Não
8 Gaussian 600 (600/0) 60 3 Não
15 Jude 985 (985/0) 248 6 Não
17 Labor 16 (8/8) 57 2 Sim
21 Sick 29 (7/22) 3772 2 Sim
22 Simulated 600 (600/0) 60 6 Não
24 Soybean 35 (0/35) 683 19 Sim
25 SpamBase 57 (57/0) 4601 2 Não
29 Waveform 21 (21/0) 5000 3 Não
Tabela 25: Bases de dados que não são consideradas no caso experimental de 3 classificadores base para os algoritmos baseados na
técnica de Algoritmos Genéticos.
5.2.1.2 Análise da Eficácia para 10 Classificadores Base
Esta seção apresenta a análise dos resultados da comparação da acurácia dos comitês gerados pelos
métodos de otimização em relação à acurácia dos comitês gerados pelo processo de construção das soluções
iniciais para o caso experimental de um máximo de 10 classificadores base. Inicialmente verificamos quais os
algoritmos apresentam resultados que os permitam distinguir entre eles e em seguida verificamos se os mesmos
apresentam algum processamento útil quando comparados com resultados gerados pelas soluções iniciais dos
algoritmos de otimização.
63
De acordo com a análise proposta, verificamos que os resultados dos algoritmos para as bases de
dados presentes na tabela 26 e 27 não permitem distinguir diferenças entre os algoritmos baseados na técnica de
Busca Tabu e Algoritmos Genéticos respectivamente. Assim, essas bases de dados não serão utilizadas nas
análises subsequentes nos correspondentes casos experimentais. Estas tabelas ainda apresentam o erro percentual
médio de classificação dos comitês gerados para os diferentes algoritmos destacando os resultados que não são
estatisticamente diferentes. O valores representados por NaN indicam que não foram gerados resultados para as
execuções para as condições de parada escolhidas. Assim, esses resultados são descartados das análises.
Bases de Dados que Não Apresentam Distintos para Algoritmos de Técnica Busca Tabu
Base Alg.T1 Alg.T2 Alg.T3 Alg.M1 Alg.M2 Alg.M3 Alg.M4
Gaussian 0,0000 0,0017 0,0000 0,0000 0,0000 0,0017 0,0000
Jude 0,0149 0,0133 0,0141 0,0149 0,0129 0,0141 0,0141
Labor 0,0000 0,0140 0,0000 0,0000 0,0000 0,0000 0,0000
Sick 0,0392 0,0495 0,0467 0,0436 0,0367 0,0491 0,0535
Simulated 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
SpamBase 0,1039 0,0965 0,1024 NaN NaN NaN NaN
Waveform 0,2148 0,2206 0,2207 NaN NaN NaN NaN
Wine 0,0006 0,0449 0,0000 0,0000 0,0000 0,0000 0,0000
Tabela 26: Acurácias dos algoritmos baseados na técnica de Busca Tabu que não permitem distinguir diferenças significativas. Os
valores em negrito não são estatisticamente diferentes entre para os resultados numa mesma base de dados. O valores NaN indicam
que não foram gerados resultados para o critério de parada adotado.
Esses resultados que não permitem distinguir diferenças entre os algoritmos podem ocorrer por
diferentes motivos em geral pela estrutura da base de dados e pela escolha das técnicas de otimização e
classificação escolhidas. Por isso, os resultados são diferentes para as duas técnicas de otimização escolhidas.
Bases de Dados que Não Apresentam Distintos para Algoritmos de Técnica Algoritmos Genéticos
Base Alg.G1 Alg.G2 Alg.G3 Alg.N1 Alg.N2 Alg.N3 Alg.N4
Gaussian 0,0000 0,0050 0,0000 0,0000 0,0000 0,0000 0,0000
Labor 0,0000 0,0316 0,0000 0,0000 0,0000 0,0000 0,0000
Simulated 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
SpamBase 0,0419 0,1064 0,0383 NaN NaN NaN NaN
Waveform 0,0998 0,2248 0,1018 NaN NaN NaN NaN
Wine 0,0000 0,0848 0,0000 0,0000 0,0000 0,0000 0,0000
Tabela 27: Acurácias dos algoritmos baseados na técnica de Algoritmos Genéticos que não permitem distinguir diferenças
significativas. Os valores em negrito não são estatisticamente diferentes entre para os resultados numa mesma base de dados.
As análises seguintes consistem em investigar se as execuções dos algoritmos efetuam algum
processamento útil gerando comitês diferentes, possivelmente mais acurados, que os comitês utilizados como
soluções iniciais. Isto é, investiga a presença de problemas que façam com que as análises seguintes não sejam
válidas. Problema esses como: encerramento prematuro do processamento dos algoritmos de otimização; alcance
do ótimo global; estagnação do algoritmo de otimização num mínimo local. Somente 10 das 30 bases apresentam
uma diferença significativa entre a acurácia das soluções geradas pelo processo de construção das soluções
iniciais em relação à acurácia das soluções geradas pelos algoritmos de otimização. Assim, não apresentam
nenhum dos problemas relatados. A tabela 28 apresenta estas bases de dados.
64
Bases de Dados Usadas nos Experimentos
Nº Base Quantidade de
Atributos Quantidade de Instâncias Quantidade de Classes Valores Faltosos
2 Balance 4 (0/4) 625 3 Não
4 Car 6 (0/6) 1728 4 Não
7 Ecoli 7 (7/0) 336 8 Não
12 Housevotes 16 (0/16) 435 2 Sim
18 LungCancer 56 (0/56) 32 3 Sim
24 Soybean 35 (0/35) 683 19 Sim
Tabela 28: Bases de dados em que acurácia gerada pelos algoritmos de otimização é estatisticamente diferente e menor que a
acurácia de comitês geradas pelo processo de construção das soluções iniciais. A coluna quantidade de atributos apresenta a
quantidade de atributos na forma . Onde representa a quantidade total de atributos, representa a quantidade de
atributos numéricos e a quantidade de atributos nominais.
As bases de dados presentes na tabela 28 não apresentam diferenças significativas em alguns
algoritmos (máximo de 3 algoritmos). A tabela 29 apresenta o valor do teste de Mann-Whitney em relação à
acurácia de classificação dos comitês gerados e dos comitês das soluções iniciais. Assim, é possível identificar
em quais algoritmos a diferença não é verificada.
Bases de Dados Usadas nos Experimentos
Nº Base Quantidade de
Atributos Quantidade de Instâncias Quantidade de Classes
Valores
Faltosos
1 Arrhythmia 279 (279/0) 452 13 Sim
3 BreastCancer 30 (30/0) 569 2 Não
5 Crx 15 (6/9) 690 2 Sim
6 Dermatology 34 (1/33) 366 6 Sim
9 German 20 (7/13) 1000 2 Não
10 Glass 9 (9/0) 214 6 Não
11 HorseColic 22 (15/7) 368 2 Sim
13 Ionosphere 34 (34/0) 351 2 Não
14 Iris 4 (4/0) 150 3 Não
19 Protein 126 (126/0) 583 5 Não
20 Segment 19 (19/0) 1500 7 Não
23 Sonar 60 (60/0) 208 2 Não
26 Transfusion 4 (4/0) 748 2 Não
27 Vehicle 18 (18/0) 846 4 Não
28 Vowel 12 (10/2) 990 11 Não
30 Wine 13 (13/0) 178 3 Não
Tabela 29: Bases de dados em que acurácia gerada pelos algoritmos de otimização é estatisticamente diferente e menor que a
acurácia de comitês geradas pelo processo de construção das soluções iniciais na maioria dos casos. A coluna quantidade de atributos
apresenta a quantidade de atributos na forma . Onde representa a quantidade total de atributos, representa a
quantidade de atributos numéricos e a quantidade de atributos nominais.
Observando os resultados da tabela 29 verifica-se que otimizar somente a boa diversidade
(representado pelos algoritmos ALG.T2 e ALG.G2) gera comitês em que a acurácia não é melhor ou é próximas
acurácia dos comitês gerados pelo processo de construção das soluções iniciais deste trabalho. Isto é, para essas
bases de dados, com exceção da base Transfusion, considerando a metodologia e parâmetros utilizados nos
65
experimentos, otimizar somente a boa diversidade não gera comitês melhores ou necessita de um maior tempo de
processamento para gerar soluções estatisticamente diferentes das soluções geradas pelo processo de construção
das soluções inicias. No entanto, são necessários mais experimentos para analisar essas hipóteses. Apesar disso,
consideramos todos os resultados nas análises seguintes.
Teste de Mann-Whitney entre a Acurácia dos Comitês Gerados e dos Comitês Iniciais
Resultados dos Algoritmos Baseados em Busca Tabu
Base Alg.T1 Alg.T2 Alg.T3 Alg.M1 Alg.M2 Alg.M3 Alg.M4
Arrhythmia 0,0002 0,0002 0,0003 0,0002 0,0002 0,0002 0,0002
BreastCancer 0,0002 0,0890 0,0002 0,0002 0,0002 0,0002 0,0002
Crx 0,0002 0,0019 0,0002 0,0002 0,0002 0,0002 0,0002
Dermatology 0,0002 0,1041 0,0002 0,0002 0,0002 0,0002 0,0002
German 0,0002 0,0821 0,0004 0,0002 0,0002 0,0002 0,0002
Glass 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
HorseColic 0,0002 0,1509 0,0002 0,0002 0,0002 0,0002 0,0002
Ionosphere 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
Iris 0,0002 0,3643 0,0002 0,0002 0,0002 0,0002 0,0002
Protein 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
Segment 0,0284 0,0233 0,0065 0,0058 0,0004 0,0539 0,0002
Sonar 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
Transfusion 0,0009 0,0102 0,0002 0,0017 0,0002 0,0002 0,0002
Vehicle 0,0002 0,1306 0,0002 0,0002 0,0002 0,0002 0,0002
Vowel 0,0002 0,3258 0,0002 0,0003 0,0002 0,0010 0,0002
Wine 0,0002 0,3847 0,0002 0,0002 0,0002 0,0002 0,0002
Resultados dos Algoritmos Baseados em Algoritmos Genéticos
Base Alg.G1 Alg.G2 Alg.G3 Alg.N1 Alg.N2 Alg.N3 Alg.N4
Arrhythmia 0,0041 0,4963 0,1509 0,0102 0,0032 0,9698 0,0191
BreastCancer 0,0004 0,3847 0,0022 0,0102 0,0343 0,0013 0,0004
Crx 0,0002 0,9698 0,0002 0,0002 0,0002 0,0002 0,0002
Dermatology 0,0002 0,7913 0,0002 0,0002 0,0002 0,0002 0,0002
German 0,0002 0,0539 0,0007 0,0002 0,0002 0,0005 0,0002
Glass 0,0002 0,0963 0,0002 0,0002 0,0002 0,0002 0,0002
HorseColic 0,0002 0,0191 0,0002 0,0002 0,0008 0,0002 0,0002
Ionosphere 0,0002 0,5708 0,0003 0,0757 0,0494 0,0002 0,0041
Iris 0,0002 0,0002 0,0002 0,0082 0,0002 0,0002 0,0002
Protein 0,0002 0,0588 0,0002 0,0002 0,0002 0,0002 0,0002
Segment 0,0002 0,0890 0,0017 0,0041 0,5205 0,0452 0,0233
Sonar 0,0002 0,1620 0,0002 0,0052 0,0008 0,0002 0,0022
Transfusion 0,0002 0,0022 0,0640 0,0002 0,0002 0,0015 0,0002
Vehicle 0,0003 0,5205 0,0019 0,0008 0,0002 0,0003 0,0002
Vowel 0,0002 0,0588 0,0002 0,0002 0,0002 0,0002 0,0002
Wine 0,0002 0,0004 0,0002 0,0002 0,0002 0,0002 0,0002
Tabela 30: Teste de Mann-Whitney entre a acurácia dos comitês gerados pelos algoritmos de otimização em relação a acurácia dos
comitês gerados pelo método de construção das soluções iniciais. Cada célula apresenta o p-value bilateral do teste de Mann-
Whitney, onde os valores destacados em negrito não são estatisticamente diferentes para o nível de significância de 0,05.
Ainda analisado a tabela 29, especificamente os resultados gerados dos algoritmos Alg.T2 e Alg.G2,
verificamos que o algoritmo Alg.G2 gera mais comitês de acurácia não melhor que os comitês das soluções
66
iniciais que o algoritmo Alg.T2. Isso ocorre, pois, os algoritmos baseados em Algoritmo Genéticos utilizam um
conjunto de soluções como soluções iniciais, diferente dos baseados em Busca Tabu que utilizam uma única
solução. Desse modo, a probabilidade de gerar uma solução de menor acurácia como solução inicial é maior nos
algoritmos baseados em Algoritmos Genéticos, já que são construídas 30 soluções iniciais. Isso influencia os
resultados, pois a solução correspondente ao algoritmo, que fará parte da amostra do teste estatístico, é a solução
de maior acurácia.
As bases de dados presentes na tabela 30 não apresentam diferenças significativas na maioria dos
algoritmos. Assim, para essas bases de dados, considerando a metodologia e parâmetros utilizados nos
experimentos, otimizar somente a boa diversidade ou não gera comitês melhores que gerar comitês através de
um processo randômico.
Bases de Dados Usadas nos Experimentos
Nº Base Quantidade de
Atributos Quantidade de Instâncias Quantidade de Classes
Valores
Faltosos
8 Gaussian 600 (600/0) 60 3 Não
15 Jude 985 (985/0) 248 6 Não
16 KRKPA7 36 (0/36) 3196 2 Não
17 Labor 16 (8/8) 57 2 Sim
21 Sick 29 (7/22) 3772 2 Sim
22 Simulated 600 (600/0) 60 6 Não
25 SpamBase 57 (57/0) 4601 2 Não
29 Waveform 21 (21/0) 5000 3 Não
Tabela 31: Bases de dados em que acurácia gerada pelos algoritmos de otimização que não é estatisticamente diferente que a
acurácia de comitês geradas pelo processo de construção das soluções iniciais na maioria dos casos. A coluna quantidade de atributos
apresenta a quantidade de atributos na forma . Onde representa a quantidade total de atributos, representa a
quantidade de atributos numéricos e a quantidade de atributos nominais.
A tabela 31 apresenta o valor do teste de Mann-Whitney em relação à acurácia de classificação dos
comitês gerados e dos comitês das soluções iniciais. Verificando os dados observamos, que com poucas
exceções, os comitês gerados pelos métodos de otimização não apresentam soluções estatisticamente diferentes
dos comitês gerados pelo método de construção das soluções iniciais. Assim, os resultados dessas bases de dados
não são utilizados para comparação dos algoritmos, ou seja, não são incluídos nos resultados finais.
Teste de Mann-Whitney entre a Acurácia dos Comitês Gerados e dos Comitês Iniciais
Resultados dos Algoritmos Baseados em Busca Tabu
Base Alg.T1 Alg.T2 Alg.T3 Alg.M1 Alg.M2 Alg.M3 Alg.M4
Gaussian 0,1306 0,1212 0,1306 0,7055 0,2568 1,0000 0,2568
Jude 0,5975 0,4284 0,1706 0,5453 0,0494 0,1306 0,3447
KRKPA7 0,9397 0,3258 0,5967 0,4057 0,0032 0,0005 0,0284
Labor 0,0588 0,2568 0,1306 0,0588 0,0233 0,2568 0,1306
Sick 0,1988 0,7624 0,9097 0,4239 0,3105 0,4624 0,7353
Simulated 1,0000 0,7055 1,0000 1,0000 1,0000 0,7055 1,0000
SpamBase 0,8798 0,1988 0,0000 - - - -
Waveform 0,7624 0,0963 0,2899 - - - -
67
Resultados dos Algoritmos Baseados em Algoritmos Genéticos
Base Alg.G1 Alg.G2 Alg.G3 Alg.N1 Alg.N2 Alg.N3 Alg.N4
Gaussian 1,0000 0,7055 1,0000 1,0000 1,0000 1,0000 1,0000
Jude 0,8259 0,3012 0,0036 0,7055 0,7055 1,0000 1,0000
KRKPA7 0,0002 0,0002 0,0002 0,0156 0,1509 1,0000 0,0588
Labor 1,0000 0,0082 1,0000 1,0000 1,0000 1,0000 1,0000
Sick 0,0257 0,7337 0,7337 0,9646 0,0047 0,0112 0,0500
Simulated 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
SpamBase 0,0376 0,9397 0,0000 - - - -
Waveform 0,0003 0,3643 0,0010 - - - -
Tabela 32: Teste de Mann-Whitney entre a acurácia dos comitês gerados pelos algoritmos de otimização em relação a acurácia dos
comitês gerados pelo método de construção das soluções iniciais. Cada célula apresenta o p-value bilateral do teste de Mann-
Whitney, onde os valores destacados em negrito não são estatisticamente diferentes para o nível de significância de 0,05. Os valores '-
' indicam que não são gerados dados suficientes para aplicação do teste.
A tabela 33 apresenta a quantidade de média das iterações efetuadas pelos algoritmos nas execuções
das bases de dados presentes na tabela 31. Analisando esta tabela, verificamos que as bases de dados KRKPA7,
Sick, SpamBase e Waveform não executam uma quantidade de iterações suficientes para modifica as soluções
iniciais.
Teste de Mann-Whitney entre a Acurácia dos Comitês Gerados e dos Comitês Iniciais
Resultados dos Algoritmos Baseados em Busca Tabu
Base Alg.T1 Alg.T2 Alg.T3 Alg.M1 Alg.M2 Alg.M3 Alg.M4
Gaussian 63,9 62,9 63,2 64,7 64 63,2 64,3
Jude 50 50 50 50 50 50 50
KRKPA7 3 3 3 3 3 3 3
Labor 1000 1000 1000 1000 1000 1000 1000
Sick 0,6 0,7 0,5 0,8 0,3 0,5 0,3
Simulated 84,6 83,5 83,7 83,1 84,3 83,3 84,7
SpamBase 0 0 0 0 0 0 0
Waveform 0 0 0 0 0 0 0
Resultados dos Algoritmos Baseados em Algoritmos Genéticos
Base Alg.G1 Alg.G2 Alg.G3 Alg.N1 Alg.N2 Alg.N3 Alg.N4
Gaussian 36,1 46,4 36,5 46,9 38,3 47 46,4
Jude 50 50 50 50 50 50 50
KRKPA7 2 2 2 2 2 2 2
Labor 1000 1000 1000 1000 1000 1000 1000
Sick 0 0 0 0 0 0 0
Simulated 43,2 56 43 56,1 45,1 57,8 57,7
SpamBase 0 0 0 0 0 0 0
Waveform 0 0 0 0 0 0 0
Tabela 33: Quantidade média de iterações efetuadas pelos algoritmos de otimização nas 10 execuções.
A tabela 34 apresenta a acurácia expressa em erro percentual médio das bases de dados presentes na
tabela Gaussian, Jude, Labor e Simulated. Podemos verificar que a acurácia das soluções iniciais da base
Simulated são ótimas ou próximas do valor ótimo e desse modo não é possível que os algoritmos apresentem
valores melhores. Assim, estas bases de dados não são incluídas nas análises finais.
68
Erro Percentual Médio
Gaussian Jude Labor Simulated
Inicial Gerada Inicial Gerada Inicial Gerada Inicial Gerada
Alg.T1 0,0083 0,0000 0,0155 0,0149 0,0088 0,0000 0,0000 0,0000
Alg.T2 0,0100 0,0017 0,0143 0,0133 0,0088 0,0140 0,0017 0,0000
Alg.T3 0,0067 0,0000 0,0161 0,0141 0,0088 0,0000 0,0000 0,0000
Alg.M1 0,0017 0,0000 0,0157 0,0149 0,0105 0,0000 0,0000 0,0000
Alg.M2 0,0083 0,0000 0,0153 0,0129 0,0140 0,0000 0,0000 0,0000
Alg.M3 0,0017 0,0017 0,0161 0,0141 0,0053 0,0000 0,0017 0,0000
Alg.M4 0,0067 0,0000 0,0157 0,0141 0,0070 0,0000 0,0000 0,0000
Alg.G1 0,0000 0,0000 0,0119 0,0117 0,0000 0,0000 0,0000 0,0000
Alg.G2 0,0067 0,0050 0,0127 0,0117 0,0088 0,0316 0,0000 0,0000
Alg.G3 0,0000 0,0000 0,0121 0,0093 0,0000 0,0000 0,0000 0,0000
Alg.N1 0,0000 0,0000 0,0117 0,0121 0,0000 0,0000 0,0000 0,0000
Alg.N2 0,0000 0,0000 0,0117 0,0121 0,0000 0,0000 0,0000 0,0000
Alg.N3 0,0000 0,0000 0,0121 0,0121 0,0000 0,0000 0,0000 0,0000
Alg.N4 0,0000 0,0000 0,0121 0,0121 0,0000 0,0000 0,0000 0,0000
Tabela 34: Erro percentual médio das 10 execuções de cada algoritmo de otimização. Para cada base de dados é apresentado o erro
percentual médio de classificação de 10 soluções geradas pelo método de construção das soluções inicias na coluna "Inicial" e o erro
percentual médio de classificação dos comitês gerados pelos algoritmos na coluna "Gerada".
Em virtude dos resultados apresentados, excluímos das análises seguintes as bases de dados presentes
na tabela 35 para o caso experimental de algoritmos baseados na técnica de Busca Tabu e Algoritmos Genéticos
com um máximo de 10 classificadores base.
Bases de Dados Usadas nos Experimentos
Nº Base Quantidade de
Atributos
Quantidade de
Instâncias
Quantidade de
Classes
Valores
Faltosos
8 Gaussian 600 (600/0) 60 3 Não
15 Jude 985 (985/0) 248 6 Não
16 KRKPA7 36 (0/36) 3196 2 Não
17 Labor 16 (8/8) 57 2 Sim
21 Sick 29 (7/22) 3772 2 Sim
22 Simulated 600 (600/0) 60 6 Não
25 SpamBase 57 (57/0) 4601 2 Não
29 Waveform 21 (21/0) 5000 3 Não
30 Wine 13 (13/0) 178 3 Não
Tabela 35: Bases de dados utilizadas nos experimentos. A coluna quantidade de atributos apresenta a quantidade de atributos na
forma . Onde representa a quantidade total de atributos, representa a quantidade de atributos numéricos e a
quantidade de atributos nominais.
5.2.2 Melhor Conjunto de Objetivos
Esta seção apresenta qual o melhor conjunto de objetivos para cada base de dados. Os resultados são
agrupados de acordo com a quantidade máxima de classificadores base (3 ou 10 classificadores) e de acordo com
a técnica de otimização utilizada (Busca Tabu ou Algoritmos Genéticos). Para cada grupo de resultados são
69
apresentados os conjuntos de objetivos em que as bases de dados apresentaram o maior desempenho. Os
resultados apresentados nesta seção são resumidos com o objetivo de verificar as hipóteses deste trabalho.
Resultados detalhados, incluindo os valores de erro e das medidas de diversidade, podem ser obtidos no apêndice
D deste trabalho.
5.2.2.1 Melhor Conjunto de Objetivos nos Algoritmos de Busca Tabu para 3 Classificadores
A tabela 36 apresenta o erro percentual médio dos algoritmos para as bases de dados válidas para o
experimental de um máximo de 3 classificadores base. Essa tabela também indica quais algoritmos não geram
comitês de acurácia significativamente diferente (teste de Mann-Whitney para significância de 0.05).
Observando os dados, podemos verificar que na maioria dos casos o algoritmo Alg.T1 apresenta uma menor
acurácia, no entanto, também na maioria dos casos, seus resultados não são estatisticamente diferentes do
Alg.M2. Assim, quando utilizamos um máximo de 3 classificadores base obtemos comitês mais acurados se
otimizarmos o erro de classificação ou o erro de classificação e a boa diversidade.
Erro Percentual Médio dos Algoritmos Baseados na Técnica de Busca Tabu (3 Classificadores Base)
Base Alg.T1 Alg.T2 Alg.T3 Alg.M1 Alg.M2 Alg.M3 Alg.M4
Arrhythmia 0,3420 0,3646 0,3575 0,3454 0,3425 0,3405 0,3376
Balance 0,2480 0,2672 0,3264 0,2480 0,2480 0,2480 0,2480
BreastCancer 0,0148 0,0504 0,0125 0,0181 0,0158 0,0176 0,0165
Car 0,0894 0,2451 0,0909 0,0914 0,0898 0,0917 0,0906
Crx 0,0965 0,2201 0,1020 0,1109 0,1019 0,1103 0,1038
Dermatology 0,0046 0,0850 0,0046 0,0090 0,0038 0,0085 0,0055
Ecoli 0,1557 0,3274 0,1842 0,1565 0,1565 0,1878 0,1589
German 0,2300 0,3123 0,2288 0,2492 0,2268 0,2445 0,2400
Glass 0,1589 0,3028 0,2103 0,1654 0,1640 0,2136 0,1621
HorseColic 0,0052 0,0832 0,0046 0,0158 0,0052 0,0168 0,0106
Housevotes 0,0175 0,0694 0,0168 0,0223 0,0186 0,0241 0,0198
Ionosphere 0,0285 0,0741 0,0262 0,0345 0,0245 0,0328 0,0302
Iris 0,0333 0,0533 0,0400 0,0333 0,0340 0,0400 0,0333
KRKPA7 0,3301 0,3470 0,3067 0,1416 0,1243 0,1237 0,1058
LungCancer 0,0188 0,1000 0,0094 0,0406 0,0188 0,0344 0,0281
Segment 0,0202 0,1669 0,0224 0,0300 0,0187 0,0313 0,0223
Sonar 0,0188 0,0755 0,0082 0,0231 0,0125 0,0231 0,0082
Soybean 0,6911 0,8111 0,6911 0,6911 0,6911 0,6911 0,6911
Transfusion 0,3118 0,3801 0,3380 0,3070 0,3061 0,3094 0,3061
Vehicle 0,2242 0,3082 0,2324 0,2437 0,2261 0,2643 0,2351
Vowel 0,0014 0,0146 0,0011 0,0035 0,0009 0,0029 0,0028
Tabela 36: Erro percentual médio dos algoritmos de otimização. Valores em negrito indicam os resultados que são estatisticamente
diferentes quanto o teste de Mann-Whitney para um valor de significância de 0505 comparando todos os pares de algoritmos numa
mesma base de dados (resultados presentes numa mesma linha da tabela).
A tabela 37 apresenta o resultado do teste de Wilcoxon entre os diferentes pares de algoritmos para o
caso experimental de um máximo de 3 classificadores base utilizando a técnica de otimização de Busca Tabu.
Esses resultados são usados para determinar quais algoritmos são estatisticamente diferentes considerando como
70
amostras os resultados médios dos erros de classificação obtidos em cada base de dados. Observando os
resultados das tabelas 36 e 37, não podemos afirmar que o algoritmo Alg.M2 gera resultados estatisticamente
diferente dos algoritmos Alg.T1 e Alg.N2 que são os algoritmos de melhores resultados neste caso experimental
apresentando menor média de erro de classificação na maioria dos casos. Desse modo, concluímos que adicionar
a boa diversidade ou a boa e a má diversidade como objetivos de otimização auxilia os algoritmos de otimização
baseados na técnica de Busca Tabu a gerar comitês mais acurados para o método de construção apresentado.
Comparação Estatística dos Algoritmos
Alg.1 Alg.2 p-value Alg.1 Alg.2 p-value Alg.1 Alg.2 p-value
Alg.T1 Alg.T2 0,000 Alg.T2 Alg.M1 0,000 Alg.T3 Alg.M4 0,469
Alg.T1 Alg.T3 0,227 Alg.T2 Alg.M2 0,000 Alg.M1 Alg.M2 0,000
Alg.T1 Alg.M1 0,011 Alg.T2 Alg.M3 0,000 Alg.M1 Alg.M3 0,586
Alg.T1 Alg.M2 0,586 Alg.T2 Alg.M4 0,000 Alg.M1 Alg.M4 0,000
Alg.T1 Alg.M3 0,005 Alg.T3 Alg.M1 0,970 Alg.M2 Alg.M3 0,000
Alg.T1 Alg.M4 0,199 Alg.T3 Alg.M2 0,023 Alg.M2 Alg.M4 0,127
Alg.T2 Alg.T3 0,000 Alg.T3 Alg.M3 0,260 Alg.M3 Alg.M4 0,000
Tabela 37: p-value da comparação dos algoritmos Alg.1 contra Alg.2 do teste de Wilcoxon. Valores significantes (menor que 0,05)
são destacados em negrito.
5.2.2.2 Melhor Conjunto de Objetivos nos Algoritmos Genéticos para 3 Classificadores
A tabela 38 apresenta o erro percentual médio dos algoritmos para as bases de dados válidas para o
experimental de um máximo de 3 classificadores base. Essa tabela também indica quais algoritmos não geram
comitês de acurácia significativamente diferente (teste de Mann-Whitney para significância de 0.05). Analisando
essa tabela verificamos que otimizar o erro de classificação (algoritmos Alg.G1) gera comitês mais acurados em
todos os casos e, em alguns deles, não podemos afirmar que Alg.G1 gera comitês mais acurados que Alg.G3.
Assim, para o caso experimental com um máximo de 3 classificadores base para os algoritmos baseados na
técnica de Algoritmos Genéticos, adicionar as medidas de boa e má diversidade não auxilia o método de
construção para gerar comitês mais acurados.
A tabela 39 apresenta o resultado do teste de Wilcoxon entre os diferentes pares de algoritmos para o
caso experimental de um máximo de 3 classificadores base utilizando a técnica de otimização de Algoritmos
Genéticos. Esses resultados são usados para determinar quais algoritmos são estatisticamente diferentes.
Analisando essa tabela verificamos que todos os algoritmos apresentam resultados diferentes entre si. Desse
modo, podemos afirmar que o algoritmo Alg.G1 gera comitês mais acurados que o Alg.G3, confirmando que
adicionar as medidas de boa e má diversidade não auxilia o método de construção para gerar comitês mais
acurados. Assim, para esse caso experimental, os métodos implícitos apresentam melhor desempenho.
71
Erro Percentual Médio dos Algoritmos Baseados na Técnica de Algoritmos Genéticos (3 Classificadores Base)
Alg.G1 Alg.G2 Alg.G3 Alg.N1 Alg.N2 Alg.N3 Alg.N4
Arrhythmia 0,3622 0,3808 0,3704 0,3690 0,3675 0,3686 0,3657
BreastCancer 0,0206 0,0543 0,0195 0,0220 0,0236 0,0239 0,0234
Car 0,0881 0,2580 0,0909 0,0967 0,0903 0,1049 0,1006
Crx 0,1035 0,2562 0,1204 0,1133 0,1116 0,1135 0,1110
Dermatology 0,0066 0,1191 0,0082 0,0107 0,0109 0,0131 0,0115
Ecoli 0,1545 0,3214 0,1935 0,1818 0,1723 0,2122 0,1717
German 0,2439 0,3338 0,2454 0,2544 0,2554 0,2530 0,2496
Glass 0,1593 0,3262 0,2103 0,2051 0,1991 0,2593 0,2075
HorseColic 0,0114 0,0853 0,0114 0,0174 0,0177 0,0168 0,0152
Housevotes 0,0186 0,0671 0,0198 0,0234 0,0214 0,0221 0,0232
Ionosphere 0,0470 0,1048 0,0456 0,0519 0,0527 0,0533 0,0496
Iris 0,0333 0,0507 0,0400 0,0393 0,0373 0,0400 0,0367
KRKPA7 0,0461 0,1461 0,0494 0,0629 0,1036 0,0602 0,0599
LungCancer 0,1375 0,2625 0,1219 0,1813 0,1656 0,2000 0,1750
Protein 0,1931 0,2305 0,1988 0,2009 0,1986 0,2009 0,1981
Segment 0,0218 0,1017 0,0224 0,0237 0,0247 0,0243 0,0234
Sonar 0,0471 0,1351 0,0457 0,0611 0,0596 0,0611 0,0582
Transfusion 0,3061 0,3436 0,3623 0,3333 0,3230 0,3342 0,3263
Vehicle 0,2344 0,3135 0,2630 0,2430 0,2441 0,2684 0,2433
Vowel 0,0015 0,0202 0,0018 0,0025 0,0026 0,0017 0,0022
Wine 0,0000 0,1399 0,0000 0,0140 0,0000 0,0140 0,0084
Tabela 38: Erro percentual médio dos algoritmos de otimização. Valores em negrito indicam os resultados que são estatisticamente
diferentes quanto o teste de Mann-Whitney para um valor de significância de 0.05 comparando todos os pares de algoritmos numa
mesma base de dados (resultados presentes numa mesma linha da tabela).
Comparação Estatística dos Algoritmos
Alg.1 Alg.2 p-value Alg.1 Alg.2 p-value Alg.1 Alg.2 p-value
Alg.G1 Alg.G2 0,000 Alg.G2 Alg.N1 0,000 Alg.G3 Alg.N4 0,455
Alg.G1 Alg.G3 0,007 Alg.G2 Alg.N2 0,000 Alg.N1 Alg.N2 0,050
Alg.G1 Alg.N1 0,000 Alg.G2 Alg.N3 0,000 Alg.N1 Alg.N3 0,061
Alg.G1 Alg.N2 0,000 Alg.G2 Alg.N4 0,000 Alg.N1 Alg.N4 0,008
Alg.G1 Alg.N3 0,000 Alg.G3 Alg.N1 0,230 Alg.N2 Alg.N3 0,014
Alg.G1 Alg.N4 0,000 Alg.G3 Alg.N2 0,709 Alg.N2 Alg.N4 0,741
Alg.G2 Alg.G3 0,000 Alg.G3 Alg.N3 0,006 Alg.N3 Alg.N4 0,000
Tabela 39: p-value da comparação dos algoritmos Alg.1 contra Alg.2 do teste de Wilcoxon. Valores significantes (menor que 0,05)
são destacados em negrito.
5.2.2.3 Melhor Conjunto de Objetivos nos Algoritmos de Busca Tabu para 10 Classificadores
A tabela 40 apresenta o erro percentual médio doa algoritmos para as bases de dados válidas para o
experimental de um máximo de 10 classificadores base. Essa tabela também indica quais algoritmos não geram
comitês de acurácia significativamente diferente (teste de Mann-Whitney para significância de 0.05). Analisando
essa tabela verificamos que otimizar o erro de classificação e a boa diversidade (algoritmo Alg.M2) gera comitês
mais acurados, ou equivalentemente acurados, que os demais algoritmos. Quando observamos o contexto mono-
72
objetivo, verificamos que o algoritmo Alg.T1 e Alg.T3, ou seja, otimizar o erro de classificação ou a má
diversidade, gera os melhores resultados, porém em bases de dados distintas.
Erro Percentual Médio dos Algoritmos Baseados na Técnica de Busca Tabu (10 Classificadores Base)
Base Alg.T1 Alg.T2 Alg.T3 Alg.M1 Alg.M2 Alg.M3 Alg.M4
Arrhythmia 0,3429 0,3615 0,3580 0,3504 0,3365 0,3420 0,3425
Balance 0,2274 0,2445 0,2986 0,2234 0,2298 0,2235 0,2224
BreastCancer 0,0211 0,0332 0,0146 0,0214 0,0144 0,0172 0,0188
Car 0,1593 0,2285 0,1663 0,1608 0,0862 0,1523 0,1402
Crx 0,0975 0,1613 0,0980 0,1132 0,0880 0,1051 0,0971
Dermatology 0,0071 0,0519 0,0019 0,0090 0,0008 0,0068 0,0036
Ecoli 0,1256 0,1908 0,1503 0,1310 0,1241 0,1363 0,1268
German 0,2340 0,2820 0,2457 0,2507 0,2216 0,2428 0,2417
Glass 0,1112 0,2061 0,1341 0,1341 0,1164 0,1364 0,1224
HorseColic 0,0223 0,0799 0,0090 0,0364 0,0139 0,0299 0,0217
Housevotes 0,0262 0,1018 0,0161 0,0667 0,0163 0,0280 0,0230
Ionosphere 0,0399 0,0476 0,0242 0,0439 0,0313 0,0316 0,0345
Iris 0,0293 0,0680 0,0400 0,0300 0,0267 0,0287 0,0273
LungCancer 0,1094 0,1500 0,0125 0,1250 0,0094 0,0469 0,0406
Protein 0,1844 0,2007 0,1858 0,1792 0,1705 0,1794 0,1774
Segment 0,0331 0,0379 0,0379 0,0329 0,0231 0,0317 0,0264
Sick 0,0392 0,0495 0,0467 0,0436 0,0367 0,0491 0,0535
Sonar 0,0462 0,0548 0,0135 0,0500 0,0197 0,0279 0,0327
Soybean 0,6896 0,7057 0,6911 0,6896 0,6899 0,6903 0,6896
Transfusion 0,3235 0,3753 0,3567 0,3372 0,3091 0,3162 0,3106
Vehicle 0,2505 0,2694 0,2545 0,2420 0,2278 0,2524 0,2361
Vowel 0,0044 0,0697 0,0063 0,0103 0,0028 0,0115 0,0069
Tabela 40: Erro percentual médio dos algoritmos de otimização. Valores em negrito indicam os resultados que são estatisticamente
diferentes quanto o teste de Mann-Whitney para um valor de significância de 0.05 comparando todos os pares de algoritmos numa
mesma base de dados (resultados presentes numa mesma linha da tabela).
Comparação Estatística dos Algoritmos
Alg.1 Alg.2 p-value Alg.1 Alg.2 p-value Alg.1 Alg.2 p-value
Alg.T1 Alg.T2 0,000 Alg.T2 Alg.M1 0,000 Alg.T3 Alg.M4 0,200
Alg.T1 Alg.T3 0,338 Alg.T2 Alg.M2 0,000 Alg.M1 Alg.M2 0,000
Alg.T1 Alg.M1 0,004 Alg.T2 Alg.M3 0,000 Alg.M1 Alg.M3 0,023
Alg.T1 Alg.M2 0,000 Alg.T2 Alg.M4 0,000 Alg.M1 Alg.M4 0,000
Alg.T1 Alg.M3 0,858 Alg.T3 Alg.M1 0,664 Alg.M2 Alg.M3 0,000
Alg.T1 Alg.M4 0,046 Alg.T3 Alg.M2 0,001 Alg.M2 Alg.M4 0,000
Alg.T2 Alg.T3 0,000 Alg.T3 Alg.M3 0,833 Alg.M3 Alg.M4 0,004
Tabela 41: p-value da comparação dos algoritmos Alg.1 contra Alg.2 do teste de Wilcoxon. Valores significantes (menor que 0,05)
são destacados em negrito.
A tabela 41 apresenta o resultado do teste de Wilcoxon entre os diferentes pares de algoritmos para o
caso experimental de um máximo de 10 classificadores base utilizando a técnica de otimização de Busca Tabu.
Esses resultados são usados para determinar quais algoritmos são estatisticamente diferentes. Analisando os
resultados desta tabela, verificamos que o algoritmo Alg.M2 apresenta diferença significativa em todos os
73
algoritmos, ou seja, para esse caso experimental, otimizar o erro de classificação e a boa diversidade gera
comitês mais acurados que os demais algoritmos. Verificamos também que não podemos afirmar que exista uma
diferença significativa entre os algoritmos Alg.T1 e Alg.T3. Desse modo, quando estamos no contexto mono-
objetivo, otimizar o erro de classificação ou a má diversidade gera comitês mais acurados que otimizar a boa
diversidade.
5.2.2.4 Melhor Conjunto de Objetivos nos Algoritmos Genéticos para 10 Classificadores
A tabela 42 apresenta o erro percentual médio doa algoritmos para as bases de dados válidas para o
experimental de um máximo de 10 classificadores base. Essa tabela também indica quais algoritmos não geram
comitês de acurácia significativamente diferente (teste de Mann-Whitney para significância de 0.05).
Observando os dados dessa tabela, verificamos que otimizar o erro de classificação gera comitês mais acurados
que os demais casos. Verificamos também, que otimizar a má diversidade gerar comitês tão acurados quanto os
comitês gerados pela otimização do erro de classificação, porém, isso não se verifica em todos os casos.
Erro Percentual Médio dos Algoritmos Baseados na Técnica de Algoritmos Genéticos (10 Classificadores Base)
Base Alg.G1 Alg.G2 Alg.G3 Alg.N1 Alg.N2 Alg.N3 Alg.N4
Arrhythmia 0,3595 0,3834 0,3704 0,3686 0,3659 0,3719 0,3650
Balance 0,2254 0,2520 0,3200 0,2341 0,2424 0,2317 0,2325
BreastCancer 0,0216 0,0360 0,0227 0,0241 0,0260 0,0232 0,0234
Car 0,0923 0,1683 0,1036 0,0990 0,1334 0,1101 0,1119
Crx 0,1061 0,1907 0,1088 0,1116 0,1141 0,1126 0,1109
Dermatology 0,0074 0,0648 0,0066 0,0120 0,0117 0,0128 0,0115
Ecoli 0,1259 0,2274 0,1818 0,1339 0,1345 0,1488 0,1354
German 0,2342 0,2938 0,2424 0,2456 0,2460 0,2455 0,2394
Glass 0,1397 0,2509 0,1804 0,1528 0,1495 0,1706 0,1491
HorseColic 0,0443 0,1288 0,0418 0,0470 0,0519 0,0446 0,0459
Housevotes 0,0251 0,0793 0,0248 0,0303 0,0297 0,0301 0,0313
Ionosphere 0,0481 0,0635 0,0496 0,0527 0,0544 0,0521 0,0524
Iris 0,0280 0,0667 0,0400 0,0420 0,0353 0,0340 0,0333
LungCancer 0,2094 0,2813 0,2094 0,2563 0,2313 0,2625 0,2375
Protein 0,1937 0,2274 0,1973 0,1983 0,1986 0,1990 0,1986
Segment 0,0209 0,0432 0,0217 0,0230 0,0265 0,0225 0,0229
Sonar 0,0716 0,1072 0,0721 0,0798 0,0817 0,0798 0,0784
Soybean 0,6896 0,7059 0,6911 0,6896 0,6899 0,6898 0,6898
Transfusion 0,3082 0,3763 0,3326 0,3144 0,3132 0,3179 0,3130
Vehicle 0,2466 0,2939 0,2577 0,2526 0,2535 0,2535 0,2489
Vowel 0,0029 0,0807 0,0035 0,0043 0,0046 0,0047 0,0039
Tabela 42: Erro percentual médio dos algoritmos de otimização. Valores em negrito indicam os resultados que são estatisticamente
diferentes quanto o teste de Mann-Whitney para um valor de significância de 0.05 comparando todos os pares de algoritmos numa
mesma base de dados (resultados presentes numa mesma linha da tabela).
A tabela 43 apresenta o resultado do teste de Wilcoxon entre os diferentes pares de algoritmos para o
caso experimental de um máximo de classificadores base utilizando a técnica de otimização de Busca Tabu.
Esses resultados são usados para determinar quais algoritmos são estatisticamente diferentes. Analisando essa
74
tabela, verificamos que existe uma diferença significativa entre os algoritmos Alg.G1 e Alg.G3. Assim, para o
caso experimental de um máximo de 10 classificadores base para os algoritmos de otimização baseados em
Algoritmos Genéticos, otimizar o erro de classificação gera comitês mais acurados.
Comparação Estatística dos Algoritmos
Alg.1 Alg.2 p-value Alg.1 Alg.2 p-value Alg.1 Alg.2 p-value
Alg.G1 Alg.G2 0,000 Alg.G2 Alg.N1 0,000 Alg.G3 Alg.N4 0,590
Alg.G1 Alg.G3 0,001 Alg.G2 Alg.N2 0,000 Alg.N1 Alg.N2 0,297
Alg.G1 Alg.N1 0,000 Alg.G2 Alg.N3 0,000 Alg.N1 Alg.N3 0,145
Alg.G1 Alg.N2 0,000 Alg.G2 Alg.N4 0,000 Alg.N1 Alg.N4 0,018
Alg.G1 Alg.N3 0,000 Alg.G3 Alg.N1 0,848 Alg.N2 Alg.N3 0,765
Alg.G1 Alg.N4 0,000 Alg.G3 Alg.N2 0,566 Alg.N2 Alg.N4 0,006
Alg.G2 Alg.G3 0,001 Alg.G3 Alg.N3 0,664 Alg.N3 Alg.N4 0,023
Tabela 43: p-value da comparação dos algoritmos Alg.1 contra Alg.2 do teste de Wilcoxon. Valores significantes (menor que 0,05)
são destacados em negrito.
5.2.3 Correlação das Medidas de Diversidade
A tabela 44 apresenta a correlação de Spearman entre o erro médio de classificação e a medida de
diversidade para caso experimental de um máximo de 3 classificadores base em cada um dos algoritmos em cada
base de dados.
Correlação entre o Erro de Classificação e a Má Diversidade
Base Alg.T1 Alg.T2 Alg.T3 Alg.M1 Alg.M2 Alg.M3 Alg.M4
Arrhythmia 0,8455 0,6242 0,7727 0,5697 0,5455 0,3242 0,9364
BreastCancerWisconsin 0,9697 0,9970 0,9788 0,8515 0,9424 0,7909 0,9182
Car 0,6364 0,9879 1,0000 0,4425 0,6485 0,8545 -0,0303
Crx 0,9030 0,9606 0,9212 0,8061 0,9727 0,7818 0,8030
Dermatology 0,9818 0,9697 0,8818 0,8061 0,9091 0,8818 0,8364
Ecoli 0,0788 -0,5455 -0,6364 0,7576 -0,0667 0,2364 0,1152
German 0,7121 0,9394 0,9333 0,8545 0,2000 0,9515 0,9848
Glass 0,5667 1,0000 1,0000 0,0515 -0,5727 0,5879 0,0606
HorseColic 0,9455 0,9970 1,0000 0,9030 1,0000 0,9515 0,9879
Housevotes 0,8273 0,9424 0,9636 0,6788 0,5000 0,3636 0,7697
Ionosphere 0,8485 0,9879 0,8667 0,7848 0,9576 0,7909 0,8485
Iris 1,0000 0,4394 1,0000 1,0000 0,4545 0,6182 1,0000
LungCancer 0,9182 0,7606 1,0000 0,8061 0,9545 1,0000 0,8939
SegmentChallenge 0,9727 0,9485 0,9485 0,7939 0,8364 0,0091 0,7545
Sonar 0,9879 0,9909 0,9879 0,8970 0,9939 0,9515 0,9606
Soybean 0,6091 1,0000 1,0000 1,0000 1,0000 1,0000 0,6818
Transfusion 1,0000 1,0000 -0,5152 0,8636 1,0000 0,6364 1,0000
Vehicle 0,8394 0,8879 -0,4606 0,5303 0,4697 0,3424 0,3424
vowel 0,9212 0,9879 0,9606 0,7970 0,9909 0,6576 0,9273
Tabela 44: Correlação de Spearman entre o erro médio de classificação e a medida de má diversidade para o caso experimental de
um máximo de 3 classificadores bases para os algoritmos baseados na técnica de Busca Tabu. Valores acima de 0,7 são destacados
em negrito.
75
Observando os dados presentes na tabela 44 verificamos que existe uma correlação positiva alta em
quase todas as bases de dados. Esse comportamento é verificado em todos os casos experimentais, onde a tabela
45 apresenta os dados do mesmo caso experimental, mas para os algoritmos baseados na técnica de Algoritmos
Genéticos. As tabelas 46 e 47 apresentam os dados para o caso experimental de um máximo de 10
classificadores base para os algoritmos baseados nas técnicas de Busca Tabu e Algoritmos Genéticos
respectivamente.
Correlação entre o Erro de Classificação e a Má Diversidade
Base Alg.G1 Alg.G2 Alg.G3 Alg.N1 Alg.N2 Alg.N3 Alg.N4
Arrhythmia 0,3879 0,9242 0,2455 0,2515 -0,1242 -0,0636 0,5485
BreastCancerWisconsin 0,7970 0,9030 0,8182 0,9212 0,5879 0,8848 0,5848
Car 0,4545 1,0000 1,0000 0,7909 -0,1545 0,9879 0,6242
Crx 0,5333 0,9758 -0,5545 0,8394 0,7364 0,4818 0,6939
Dermatology 0,9273 0,9455 0,5212 0,8697 0,4909 0,5182 0,6788
Ecoli 0,3182 1,0000 1,0000 -0,2667 0,0182 0,2242 -0,3485
German 0,5424 0,8303 -0,0273 0,6636 0,8424 0,2818 0,7758
Glass 0,4394 0,9818 1,0000 0,6121 -0,3576 0,7121 -0,3970
HorseColic 0,8727 0,9788 0,9758 0,9000 0,6455 0,9727 0,8182
Housevotes 0,9364 0,9121 0,8515 0,9424 0,3000 0,6485 0,8879
Ionosphere 0,9152 0,8424 0,6182 0,5788 0,7000 0,7970 0,5606
Iris 1,0000 0,9818 1,0000 1,0000 -0,4545 0,7576 0,6212
LungCancer 0,6667 0,6818 0,8727 0,7515 0,6727 0,6061 0,7970
SegmentChallenge 0,4727 0,9758 0,4939 0,7364 0,9061 0,8636 0,9303
Sonar 0,9242 0,9879 0,7727 0,5697 0,1515 0,7242 0,8939
Soybean 0,5364 1,0000 1,0000 1,0000 1,0000 0,9697 0,3394
Transfusion 1,0000 1,0000 1,0000 1,0000 -0,2727 1,0000 0,9970
Vehicle 0,2182 0,9485 -0,5000 0,2939 0,6303 -0,4697 0,1970
vowel 0,9515 0,9939 0,7424 0,8970 0,7091 0,9818 0,7273
Tabela 45: Correlação de Spearman entre o erro médio de classificação e a medida de má diversidade para o caso experimental de
um máximo de 3 classificadores bases para os algoritmos baseados na técnica de Algoritmos Genéticos. Valores acima de 0,7 são
destacados em negrito.
Correlação entre o Erro de Classificação e a Má Diversidade
Base Alg.T1 Alg.T2 Alg.T3 Alg.M1 Alg.M2 Alg.M3 Alg.M4
Arrhythmia 0,4364 0,9273 0,8515 0,9333 0,9667 0,8455 0,9091
BreastCancerWisconsin 0,9485 0,9242 0,9818 0,9848 0,9364 0,9818 0,9636
Car 0,9515 0,9879 0,9636 0,9273 0,3788 0,9636 0,9152
Crx 0,9455 0,8636 0,8788 0,9364 0,8848 0,9182 0,9182
Dermatology 0,9333 0,9970 0,9970 0,9758 0,9879 0,9424 0,9152
Ecoli -0,1273 0,7424 -0,8636 0,7909 -0,4788 0,5333 -0,0758
German 0,5424 0,9394 0,8727 0,8545 0,6758 0,9242 0,8667
Glass 0,2818 0,9242 -0,9182 0,7848 -0,4152 0,6909 0,6606
HorseColic 0,9909 0,9030 0,9394 0,9333 0,9879 0,9848 0,9697
Housevotes 0,9576 0,9758 0,9667 0,9939 0,9394 0,9667 0,9545
Ionosphere 0,9848 0,9758 0,9879 0,9364 0,9485 0,9667 0,9606
Iris 0,6091 0,7788 1,0000 0,9697 1,0000 0,2152 0,4818
LungCancer 0,8970 0,9909 1,0000 0,9758 0,9879 0,8970 0,9515
76
SegmentChallenge 0,9758 0,9939 0,9939 0,9364 0,9909 0,9576 1,0000
Sonar 0,9939 0,9212 0,8970 0,9333 0,9788 0,9636 0,9727
Soybean 0,5152 1,0000 1,0000 0,7576 -0,1182 0,0455 0,5364
Transfusion 0,5758 0,6606 0,4545 0,7242 0,5818 0,7667 0,6788
Vehicle 0,7424 0,5061 0,7909 0,4667 0,7576 0,0424 0,7455
vowel 0,9636 0,9424 0,8000 0,9970 0,9273 0,9970 0,8606
Tabela 46: Correlação de Spearman entre o erro médio de classificação e a medida de má diversidade para o caso experimental de
um máximo de 10 classificadores bases para os algoritmos baseados na técnica de Busca Tabu. Valores acima de 0,7 são destacados
em negrito.
Correlação entre o Erro de Classificação e a Má Diversidade
Base Alg.G1 Alg.G2 Alg.G3 Alg.N1 Alg.N2 Alg.N3 Alg.N4
Arrhythmia 0,1212 0,6273 -0,0303 0,5333 0,6364 0,3909 0,6000
BreastCancerWisconsin 0,8576 0,9606 0,5939 0,8879 0,2030 0,8212 0,7030
Car 0,5273 0,9636 0,6485 0,5606 0,8303 0,8545 0,7333
Crx 0,7970 0,9212 0,4909 0,8455 0,5606 0,9606 0,8939
Dermatology 0,7636 0,9879 0,9152 0,5697 0,1030 0,9242 0,9333
Ecoli 0,3818 0,8303 -0,2909 0,3455 0,1424 0,4030 -0,0424
German 0,3485 0,9152 0,1121 0,2939 0,2697 0,9061 0,6667
Glass 0,3364 0,6788 -0,6364 0,4424 -0,0970 0,3030 0,1364
HorseColic 0,9182 0,9879 0,8303 0,9333 0,5182 0,7848 0,8182
Housevotes 0,8970 0,9848 0,7485 0,5576 0,4727 0,7818 0,8333
Ionosphere 0,8939 0,8939 0,9121 0,4758 0,6333 0,7242 0,4485
Iris 0,8091 1,0000 1,0000 0,9636 -0,6364 0,7273 0,8606
LungCancer 0,8333 0,7394 0,4394 0,7848 0,6606 0,5061 0,5091
SegmentChallenge 0,4606 0,9879 0,6848 0,9212 0,6606 0,8424 0,6152
Sonar 0,7909 0,9818 0,4545 0,8333 0,4515 0,8515 0,3667
Soybean 0,5030 0,8909 1,0000 0,5364 -0,1515 0,3182 0,2727
Transfusion 0,2667 0,9909 -0,2818 -0,1515 -0,2909 0,4424 0,1606
Vehicle 0,5697 0,9485 0,6182 0,5212 0,2030 0,5242 0,4909
vowel 0,8333 0,9879 0,7091 0,8242 0,4485 0,6636 0,6121
Tabela 47: Correlação de Spearman entre o erro médio de classificação e a medida de má diversidade para o caso experimental de
um máximo de 10 classificadores bases para os algoritmos baseados na técnica de Algoritmos Genéticos. Valores acima de 0,7 são
destacados em negrito.
A tabela 48 apresenta a correlação de Spearman entre a média do erro médio de classificação e das
medidas de boa e má diversidade obtidas nas 10 execuções dos algoritmos em cada base de dados no caso
experimental de um máximo de 3 classificadores base. Observando os dados, verificamos que existe uma forte
correlação entre a má diversidade e o erro médio de classificação.
Correlação entre o Erro de Classificação e as Medidas de Diversidade
Algoritmo Erro x Boa Diversidade Erro x Má Diversidade Boa Diversidade x Má Diversidade
Alg.T1 0,4022 0,9803 0,4544
Alg.T2 0,1667 0,9526 0,1526
Alg.T3 0,0329 0,9803 0,1211
Alg.M1 0,1088 0,9912 0,1579
Alg.M2 0,2807 0,9737 0,2632
Alg.M3 0,0105 0,9614 0,0544
77
Alg.M4 0,0649 0,9877 0,0965
Alg.G1 0,6298 0,9895 0,6667
Alg.G2 0,1754 0,9211 0,1719
Alg.G3 0,0873 0,9561 0,2899
Alg.N1 0,6509 0,9860 0,6895
Alg.N2 0,3877 0,9632 0,5404
Alg.N3 0,6491 0,9719 0,6860
Alg.N4 0,6522 0,9838 0,7263
Tabela 48: Correlação de Spearman entre as medidas de diversidade e o erro médio de classificação dos algoritmos em cada base de
dados para o caso experimental de um máximo de 3 classificadores base.
A tabela 49 apresenta a correlação de Spearman entre a média do erro médio de classificação e das
medidas de boa e má diversidade obtidas nas 10 execuções dos algoritmos em cada base de dados no caso
experimental de um máximo de 10 classificadores base. Assim como no caso experimental de um máximode 3
classificadores base, verificamos uma forte correlação entre o erro médio de classificação e má diversidade, no
entanto, verificamos que as outras correlações, entre o erro e boa diversidade e entre a boa e má diversidade,
começam a diminuir. Porém, são necessários experimentos com uma maior quantidade de classificadores para
mostrar se com o aumento de classificadores base a adição da boa diversidade prejudica a acurácia dos comitês
gerados.
Correlação entre o Erro de Classificação e as Medidas de Diversidade
Algoritmo Erro x Boa Diversidade Erro x Má Diversidade Boa Diversidade x Má Diversidade
Alg.T1 0,2060 0,9789 0,2286
Alg.T2 0,0301 0,9432 -0,0553
Alg.T3 -0,3019 0,8782 0,0305
Alg.M1 0,0150 0,9714 0,0511
Alg.M2 -0,1628 0,9744 -0,0650
Alg.M3 -0,1444 0,9489 -0,0466
Alg.M4 -0,0872 0,9726 -0,0989
Alg.G1 0,4707 0,9940 0,4722
Alg.G2 0,1252 0,9515 0,0436
Alg.G3 0,1387 0,8962 0,4237
Alg.N1 0,2857 0,9955 0,2827
Alg.N2 0,4000 0,9729 0,4782
Alg.N3 0,2602 0,9925 0,2677
Alg.N4 0,2541 0,9910 0,2647
Tabela 49: Correlação de Spearman entre as medidas de diversidade e o erro médio de classificação dos algoritmos em cada base de
dados para o caso experimental de um máximo de 10 classificadores base.
5.2.4 Quantidade Máxima de Classificadores Base
Esta análise consiste em verificar se com o aumento da quantidade de classificadores base ocorre
alguma variação nos valores das medidas de diversidade. A tabela 50 apresenta o resultado do teste de Wilcoxon
no conjunto de bases de dados comparando os resultados do erro médio de classificação e das medidas de
diversidade nos cenários com um máximo 3 e 10 classificadores base. Observando esta tabela podemos verificar
78
que não existe uma diferença significativa no erro médio de classificação, ou seja, aumentar a quantidade
máxima de classificadores base não alterou significativamente os valores de acurácia dos comitês gerados. No
entanto, verificamos uma diferença significativa nas medidas de diversidade. Assim, essas medidas são sensíveis
a quantidade de membros do comitê.
Teste de Wilcoxon
Algoritmo Erro Boa Diversidade Má Diversidade
Alg.T1 0,0418 0,0003 0,0352
Alg.T2 0,0615 0,1488 0,0005
Alg.T3 0,1961 0,0009 0,0075
Alg.M1 0,0557 0,0003 0,2274
Alg.M2 0,2659 0,0004 0,0007
Alg.M3 0,9811 0,0005 0,0049
Alg.M4 0,3088 0,0003 0,0056
Alg.G1 0,2097 0,0003 0,0016
Alg.G2 0,0615 0,4074 0,0008
Alg.G3 0,7174 0,0004 0,0086
Alg.N1 0,4074 0,0042 0,0008
Alg.N2 0,3318 0,0004 0,0036
Alg.N3 0,5862 0,0065 0,0008
Alg.N4 0,6909 0,0004 0,0012
Tabela 50: p-value do teste de Wilcoxon no conjunto de bases de dados comparando o erro de classificação e as medidas de
diversidade nos dois casos experimentais, com um máximo de 3 e 10 classificadores base. Valores significativos (menor que 0.05) são
destacados em negrito.
5.2.5 Discussão dos Resultados
As análises efetuadas permitem concluir que existe uma forte correlação entre o erro de classificação e a
medida de má diversidade. Verificamos ainda que em algumas situações, utilizar uma abordagem explícita de
construção dos comitês de classificação, gera comitês mais acurados quanto às abordagens implícitas.
Nos dois casos experimentais, com um máximo de 3 e 10 classificadores, quando utilizamos a técnica
de otimização de Busca Tabu para construção dos comitês de classificação, verificamos são gerados comitês
mais acurados quando otimizamos o erro de classificação e má diversidade (algoritmo Alg.M2). Porém, o
mesmo não se verifica quando utilizamos a técnica de otimização baseada em Algoritmos Genéticos, onde os
melhores resultados são obtidos na otimização do erro de classificação.
Assim, para o método de construção proposto, mostramos que podemos utilizar uma abordagem
explicita, otimizando o erro de classificação e a má diversidade, para gerar comitês mais acurados. Ou seja, a
medida de má diversidade auxilia a construção dos comitês de classificação aumentando a acurácia dos mesmos.
79
CAPÍTULO 6 –
CONSIDERAÇÕES FINAIS
Este trabalho apresenta uma forma de usar explicitamente medidas de diversidade para guiar o processo
de construção de comitês de classificadores tendo como método de combinação o voto majoritário. Utiliza
otimização metaheurística mono e multiobjetivo para construir os comitês variando os atributos e a quantidade
de classificadores que o compõe. Verifica se comitês gerados, utilizando explicitamente as medidas de boa e má
diversidade para guiar o processo de otimização, apresentam maior acurácia de classificação que comitês
gerados utilizando somente a acurácia de classificação.
Os principais problemas enfrentados durante a realização deste trabalho foram o tempo de avaliação da
qualidade dos comitês de classificação e a escolha de uma metodologia de comparação dos resultados. Foi
verificado que o uso do framework WEKA, que apesar de executar eficientemente os algoritmos de aprendizado
de máquina em relação ao tempo de execução, não é eficiente para manipulação de bases de dados. No entanto
esse problema pode ser resolvido modificando ou adicionando uma manipulação das bases de dados baseada em
referências dos valores. Neste trabalho foi verificado que o desempenho em tempo de execução para avaliação
dos comitês de classificação é significativamente melhorado aplicando tal modificação.
Parte do tempo utilizado para realização deste trabalho foi dedicado à escolha de uma metodologia de
comparação dos comitês de classificação em diferentes bases de dados. Isto é, para uma mesma base de dados o
comitê que apresenta melhor valor de acurácia é o melhor, porém é necessário definir como os comitês são
comparados quando temos mais de uma base de dados. Escolhemos o teste de hipótese de Wilcoxon Signed-
Rank por ser um teste não paramétrico e por comparar as observações das amostras de modo pareado, ou seja, a
tomada de decisão é tomada de acordo com as diferenças obtidas quanto aos resultados de uma mesma base de
dados. Desse modo é possível concluir qual o melhor comitê para um conjunto de bases de dados.
De acordo com a metodologia proposta, são enumeradas diferentes hipóteses quanto ao uso explícito
das medidas de boa e má diversidade a fim de melhorar a acurácia de classificação dos comitês gerados pelo
método de construção. Verificou-se que para a metodologia utilizada podemos afirmar que o uso explícito das
medidas de boa e má diversidade gera comitês mais acurados que os gerados pelos métodos implícitos de
geração de diversidade. Mais especificamente, utilizar um método de construção, conforme descrito neste
80
trabalho baseado em Busca Tabu, gera comitês mais acurados quando otimizamos a acurácia e a má diversidade,
isto é, quando usamos explicitamente a medida de má diversidade.
Assim, alcançamos os objetivos específicos deste trabalho, ou seja: verificamos que quando utilizamos
o método de construção baseado em Busca Tabu geramos comitês mais acurados otimizando a acurácia de
classificação e a medida de má diversidade; verificamos ainda que otimizar somente uma das medidas de
diversidade não é capaz de gerar comitês mais acurados que o método implícito, ou seja, é necessário que a
acurácia de classificação também seja otimizada para gerar comitês de boa qualidade.
Podemos citar como trabalhos futuros a seleção de bases de dados mais adequadas à condução dos
experimentos, isto é, bases de dados em que os resultados não corvejam rapidamente para um mínimo local. Os
resultados podem ser complementados com a realização de experimentos com comitês heterogêneos, utilização
de outras técnicas de otimização como também outras medidas de diversidade.
81
REFERÊNCIAS
BAYKASOLGU, A. OWEN, S. CINDY, N. A taboo search based approach to find the Pareto optimal set in
multiple objective optimization. Journal of Engineering Optimization, n. 31, p. 731-748.
BIN, C. JIARONG, H. YADONG, W. The Minimum Feature Subset Selection Problem. Journal of Computer
Science and Technology, v. 12, n. 2, p. 145-153. 1997.
BROWN, Gavin. KUNCHEVA, L. “good” and “bad” diversity in majority votes ensembles. Lectures Notes
in Computer Science. Berlin: Springer, v. 5997. p. 124-133. 2010.
BROWN, Gavin. WYATT, Jeremy. HARRIS, Rachel. YAO, Xin. Diversity Creation Methods: A Survey and
Categorisation. Journal of Information Fusion, v. 6, n. 1, p. 5-20, 2005. Special issue on Diversity Multiple
Classifier Systems.
CHEN, Y. CHEN, F. YANG, J. YANG, M. Ensemble Voting System for Multiclass Protein Fold
Recognition. International Journal of Pattern Recognition and Artificial Intelligence, v. 22, n. 4, p. 747–763,
2008.
DANOSO, Y. FABREGAT, R. Multi-Objective Optimization in Computer Metworks Using
Metaheuristics. Florida: Auerbach. 2007.
DEB, K. PRATAP, A. AGARWAL, S. MEYARIVAN T. A Fast Elitist Multi-Objective Genetic Algorithm:
NSGA-II. IEEE Transactions on Evolutionary Computation, v. 6, p. 182-197. 2000.
FEITOSA NETO, A. CANUTO, A. GOLDBARG, E. GOLDBARG, M. Optimization Techniques for the
Selection of Members and Attributes in Ensemble System. IEEE Proceedings of Congress on Evolutionary
Computation (CEC), 2011.
FRANK, A. ASUNCION, A. 2012. UCI Machine Learning Repository. Disponível em:
<http://archive.ics.uci.edu/ml>. Acesso em: 16 mar. 2012, 14:35:00. University of California, School of
Information and Computer Science.
GIBBONS, J. D. CHAKRABORTI, S. Nonparametric Statistical Inference. New York: Marcel Dekker, e. 4.
2003.
GLOVER, F. Future Paths for Integer Programming and links to Artificial Intelligence. Computers &
Operations Research, Elsevier, v. 13, n. 5, p. 533-549. 1986.
82
HASEN, M. Tabu search for multiobjective optimization: MOTS. 13th International Conference on Multi
Criteria Decision Making (MCDM 97). 1997.
HERTZ, A. JAUMARD, B. IBEIRO, C. FORMOSINHO FILHO, W. A multi-criteria tabu search approach
to cell formation problems in group technology with multiple objectives. Operations Research. n. 28, p. 303-
328. 1994.
JAVA. Disponível em: <http://www.java.com>. Acesso em: 16 mar. 2012, 9:00:00.
KNOWLES, L. THIELE, L. ZITZLER, E. A Tutorial on the Performance Assessment of the Stochastic
Multiobjective Optimizers. Zurich: TIK Report 214, Computer Engineering and Networks Laboratory (TIK).
2006.
KULTUREL-KONAL, S. SMITH, A. E. NORMAN, B. A. Multi-objective tabu search using a multinomial
probability mass function. Elsevier. European Journal of Operational Research, n. 169, p. 918-931. 2006.
KUNCHEVA, Ludmila I. WHITAKER, Christopher J. Measures of Diversity in Classifier Ensembles and
Their Relationship with the Ensemble Accuracy. Machine Learning, v. 51, p. 181-207, 2003.
KUNCHEVA, Ludmila I. Combining patterns classifiers: methods and algorithms. New Jersey: Wiley.
2004.
LAVINE, M. L. Introduction to Statistical Thought. 2012. Disponível em:
<http://www.math.umass.edu/~lavine/Book/book.pdf>. Acesso em: 16 mar. 2012, 14:30:00.
LEE, M. BOROCZKY, L. SUNGUR-STASIK, K. CANN, A. BORCZUK, A. KAWUT, S. POWELL, C. A
Two-Step Approach for Feature Selection and Classifier Ensemble Construction in Computer-Aided
Diagnosis. 21st IEEE International Symposium on Computer-Based Medical Systems, p. 548-553, 2008.
LEE, Kwang Y. EL-SHARKAWI, Mohamed A. ModernHeuristic Optimization Techniques: Theory and
Applications to Power Systems. New Jersey: Wiley. 2008.
MITCHEL, T. Machine Learning. Portland: McGraw-Hill. 1997
NASCIMENTO, C. CANUTO, A. SILVA, L. COELHO, A. Combining Different Ways to Generate
Diversity in Bagging Models: An Evolutionary Approach. IEEE Proceedings of International Conference on
Neural Networks, p. 2235-2242, 2011.
83
OLIVEIRA, D. CANUTO, A. SOUTO, M. Use of Multi-Objective Genetic Algorithms to Investigate the
Diversity/Accuracy Dilemma in Heterogeneous Ensembles. Proceedings of International Joint Conference on
Neural Networks, p. 2339-2346, 2009.
SANTANA, L. SILVA, S. CANUTO, A. PINTRO, F. VALE, K. A Comparative Analysis of Genetic
Algorithm and Ant Colony Optimization to Select Attributes for an Heterogeneous Ensemble of
Classifiers. IEEE Congress on Evolutionary Computation, p. 1-8, 2010.
SILVA, L. GOLDBARG, E. GOLDBARG, M. Ferramentas Estatísticas para Análise de Algoritmo. Escola
Potiguar de Computação e suas Aplicações (EPOCA), p. 43-68, 2009.
SOUTO, M. SOARES, R. SANTANA, A. CANUTO, A. Empirical Comparison of Dynamic Classifier
Selection Methods based on Diversity and Accuracy for Building Ensembles. IEEE International Joint
Conference on Neural Networks, p. 1480-1487, 2008.
SOUZA, M. J. F. Inteligência Computacional para Otimização. 2012. Disponível em:
<http://www.iceb.ufop.br/decom/prof/marcone/Disciplinas/
InteligenciaComputacional/InteligenciaComputacional.pdf >. Acesso em: 16 mar. 2012, 14:25:00.
TAHIR, Muhammad. SMITH, Jim. Creating Diverse Nearest-Neighbour EnsemblesUsing Simultaneous
Metaheuristic Feature Selection. Pattern Recognition Letters, v. 31, p. 1470-1480, 2010.
TANG, E. K. SUGANTHAN, P. N. YAO, X. An analysis of diversity measures. Machine Learning. Springer,
v. 65, n. 1, p. 247-271. 2006.
WITTEN, I. FRANK, E. Data Mining: pratical machine learning toolsand techniques. USA: Elsevier, e. 2.
2005.
ZITZLER, E. LAUMANNS, M. BLEULER, S. A Tutorial on Evolutionary Multiobjective Optimization.
Lecture Notes in Economics and Mathematical Systems. Springer. 2004. Metaheuristics fot Multiobjective
Optimisation.
84
APÊNDICE A – Pré-processamento das bases de dados
Este apêndice descreve as principais modificações efetuadas nas bases de dados utilizadas neste
trabalho. Indica quais atributos são removidos e quais valores são usados para substituir os valores faltosos. Um
atributo é removido caso seja igual a outro, caso seja irrelevante ou caso possua grande quantidade de valores
faltosos. Outro ponto importante são os valores utilizados para substituir os valores faltosos para os atributos que
possuem valores faltando, mas que não foram removidos.
A tabela 24 apresenta as bases de dados que apresentaram atributos iguais. Para cada base de dados é
apresentada duas colunas onde os atributos das mesmas linhas são iguais. Os atributos da coluna direita de cada
base são removidos da base de dados.
Bases de Dados com Atributos Iguais
LungCancer Proteina
Iguais Iguais
ATT31 ATT32 U2 Q4
ATT47 ATT48 L3 G5
M3 H5
N3 I5
O3 J5
P3 L5
Tabela 51: Atributos iguais nas bases de dados.
Atributos irrelevantes estão presentes nas bases de dados Arrhythmia, Ionosphere, SegmentChallenge
e Sick. Tais atributos são caracterizados por apresentar somente um valor todas às instâncias. Eles são removidos
das bases de dados, cada é listado a seguir:
Arrhythmia: att19, att67, att69, att83, att131, att132, att139, att141, att143, att145, att151, att156,
att157, att164, att204, att264, att274;
Ionosphere: att1;
SegmentChallenge: region-pixel-count;
Sick: TBG measured, TBG.
As bases de dados Arrhythmia, Sick e Soybean apresentam atributos com quantidade excedente de
valores faltosos, isto é, mais de 90% dos valores faltosos nas instâncias de mesma classe. As tabelas 25, 26 e 27
correspondentes às bases de dados Arrhythmia, Sick e Soybean apresentam quais atributos são removidos e em
que classes do problema a quantidade de valores faltosos excede os 90%.
Arrhythmia
taxa 1 2 3 4 5 6 7 8 10 14 15 16
85
att11 0,024 0,068 0,133 0,000 0,000 0,040 0,000 0,000 0,040 0,000 1,000 0,136
att13 0,910 0,568 0,667 0,933 0,846 0,960 1,000 0,500 0,840 0,750 0,400 0,818
Tabela 52: Taxa de valores faltosos nos atributos removidos da base de dados Arrhythmia onde as linhas correspondem aos
atributos e as linhas as classes.
Sick
taxa negative sick
TBG 1,000 1,000
Tabela 53: Taxa de valores faltosos nos atributos removidos da
base de dados Sick onde as linhas correspondem aos atributos e as
linhas as classes.
Soybean
taxa
ph
yto
ph
thora
-ro
t
dia
po
rth
e-p
od
-&-s
tem
-bli
gh
t
cyst
-nem
ato
de
2-4
-d-i
nju
ry
her
bic
ide-
inju
ry
plant-stand 0,000 0,400 1,000 1,000 0,000
precip 0,000 0,000 1,000 1,000 1,000
temp 0,000 0,000 1,000 1,000 0,000
hail 0,773 1,000 1,000 1,000 1,000
crop-hist 0,000 0,000 0,000 1,000 0,000
severity 0,773 1,000 1,000 1,000 1,000
seed-tmt 0,773 1,000 1,000 1,000 1,000
germination 0,773 0,400 1,000 1,000 1,000
plant-growth 0,000 0,000 0,000 1,000 0,000
leafspots-halo 0,625 1,000 1,000 0,000 0,000
leafspots-marg 0,625 1,000 1,000 0,000 0,000
leafspot-size 0,625 1,000 1,000 0,000 0,000
leaf-shread 0,625 1,000 1,000 1,000 0,000
leaf-malf 0,625 1,000 1,000 0,000 0,000
leaf-mild 0,625 1,000 1,000 1,000 1,000
stem 0,000 0,000 0,000 1,000 0,000
lodging 0,773 1,000 1,000 1,000 1,000
stem-cankers 0,000 0,000 1,000 1,000 1,000
canker-lesion 0,000 0,000 1,000 1,000 1,000
fruiting-bodies 0,773 0,000 1,000 1,000 1,000
external-decay 0,000 0,000 1,000 1,000 1,000
mycelium 0,000 0,000 1,000 1,000 1,000
int-discolor 0,000 0,000 1,000 1,000 1,000
86
sclerotia 0,000 0,000 1,000 1,000 1,000
fruit-pods 0,773 0,000 0,000 1,000 0,000
fruit-spots 0,773 0,000 1,000 1,000 1,000
seed 0,773 0,000 0,000 1,000 1,000
mold-growth 0,773 0,000 0,000 1,000 1,000
seed-discolor 0,773 0,000 1,000 1,000 1,000
seed-size 0,773 0,000 0,000 1,000 1,000
shriveling 0,773 0,000 1,000 1,000 1,000
roots 0,000 1,000 0,000 1,000 0,000 Tabela 54: Taxa de valores faltosos nos atributos removidos da base de dados Soybean onde as linhas correspondem aos atributos e
as linhas as classes.
Finalmente são apresentadas as bases de dados que apresentam valores faltosos. A tabela 28 lista essas
bases de dados e apresenta os valores utilizados para substituir cada um dos valores faltosos de acordo com o
atributo sendo substituído e a classe da instância. As colunas correspondem às classes das instâncias e as linhas
aos atributos. Valores representados por ‘-‘ indicam que para o correspondente atributo não existem instâncias
com valores faltosos para a respectiva classe.
Arrhythmia
Atributo x Classe 1 2 4 7 16
att10 36,414 14,744 38,857 - 39,571
att12 37,57 - - - -
att14 - - - 74,5 -
Crx
Atributo x Classe S N
ATT1 b b
ATT2 33,72 29,808
ATT4 u u
ATT5 g g
ATT6 c c
ATT7 v v
ATT14 164,422 199,699
Dermatology
Atributo x Classe 1 2 3 4 5
ATT34 39,378 35,467 39,958 35,271 36,667
HorseColic
Atributo x Classe yes no
surgery yes -
rectal_temperature 38,127 38,145
pulse 76,118 62,015
respiratory_rate 33,762 25,466
temp_extremities cool normal
peripheral_pulse reduced normal
mucous_membranes pale pink normal pink
capillary_refill_time <3 <3
pain depressed alert no pain
87
peristalsis hypomotile hypomotile
abdominal_distension moderate none
nasogastric_tube slight slight
nasogastric_reflux none none
nasogastric_reflux_PH 4,906 5,167
rectal_examination absent normal
abdomen distended large intestine normal
packed_cell_volume 47,187 43,069
total_protein 23,008 27,628
abdominocentesis_appearance serosanguinous clear
abdomcentesis_total_protein 3,072 2,713
outcome lived -
Housevotes
Atributo x Classe republican democrat
ATT1 n y
ATT2 y y
ATT3 n y
ATT4 y n
ATT5 y n
ATT6 y n
ATT7 n y
ATT8 n y
ATT9 n y
ATT10 y n
ATT11 n y
ATT12 y n
ATT13 y n
ATT14 y n
ATT15 n y
ATT16 y y
Labor
Atributo x Classe bad good
duration - 2,25
wage-increase-first-year - 4,419
wage-increase-second-year 2,967 4,458
wage-increase-third-year 2,15 4,555
cost-of-living-adjustment none none
working-hours 39,105 37,406
pension none empl_contr
standby-pay 2,5 11,4
shift-differential 2,444 5,864
education-allowance no yes
statutory-holidays - 11,515
vacation - generous
longterm-disability-assistance no yes
contribution-to-dental-plan none full
bereavement-assistance yes yes
contribution-to-health-plan none full
LungCancer
88
Atributo x Classe 1 2 3
ATT4 1 2 -
ATT38 - - 2
Sick
Atributo x Classe negative sick
age 50,941 -
sex F F
TSH 5,146 4,262
T3 2,106 0,892
TT4 109,417 -
T4U 1,006 0,835
FTI 110,439 110,91
Soybean
Atributo x Classe 2-4-d-injury
date april
area-damaged scattered
Figura 6: Valores utilizados na substituição dos valores faltosos. Cada entrada corresponde ao valor utilizado para substituir os
valores faltosos do atributo presente na linha onde a instância é classificada para classe da coluna.
89
APÊNDICE B – Resultados das Variações dos Parâmetros
As tabelas 4, 5 e 6 apresentam o erro percentual médio de classificação das 10 execuções dos
algoritmos baseados em Busca Tabu nas respectivas bases de dados.
Resultados das Variações do Tamanho da Lista Tabu
Base x Algoritmo Alg.T1 Alg.T2 Alg.T3
Base 20% 30% 40% 20% 30% 40% 20% 30% 40%
Car 0.102 0.103 0.090 0.152 0.166 0.179 0.102 0.092 0.100
Dermatology 0.005 0.005 0.006 0.077 0.092 0.072 0.004 0.005 0.005
Ionosphere 0.037 0.037 0.034 0.056 0.061 0.065 0.026 0.027 0.028
Iris 0.027 0.027 0.027 0.040 0.043 0.043 0.040 0.040 0.040
Proteina 0.227 0.228 0.231 0.232 0.225 0.230 0.231 0.228 0.233
SegmentChallenge 0.042 0.039 0.045 0.072 0.053 0.058 0.038 0.044 0.046
Simulated 0.000 0.002 0.000 0.002 0.000 0.000 0.000 0.000 0.000
Soybean 0.690 0.690 0.690 0.690 0.690 0.690 0.691 0.691 0.691
Wine 0.000 0.000 0.000 0.108 0.081 0.098 0.000 0.000 0.000 Tabela 55: Erro percentual médio de classificação dos algoritmos para o tamanho da lista tabu em 20%, 30% e 40%.
Resultados das Variações do Tamanho da Lista Tabu
Base x Algoritmo Alg.M1 Alg.M2
Base 20% 30% 40% 20% 30% 40%
Car 0.111 0.101 0.117 0.084 0.078 0.083
Dermatology 0.013 0.013 0.012 0.003 0.002 0.005
Ionosphere 0.040 0.041 0.041 0.028 0.032 0.033
Iris 0.029 0.029 0.031 0.029 0.033 0.031
Proteina 0.223 0.217 0.219 0.220 0.217 0.213
SegmentChallenge 0.034 0.039 0.038 0.025 0.026 0.022
Simulated 0.000 0.000 0.000 0.000 0.000 0.000
Soybean 0.690 0.690 0.690 0.690 0.691 0.691
Wine 0.000 0.000 0.000 0.000 0.000 0.000 Tabela 56: Erro percentual médio de classificação dos algoritmos para o tamanho da lista tabu em 20%, 30% e 40%.
Resultados das Variações do Tamanho da Lista Tabu
Base x Algoritmo Alg.M3 Alg.M4
Base 20% 30% 40% 20% 30% 40%
Car 0.110 0.114 0.126 0.091 0.090 0.099
Dermatology 0.013 0.011 0.010 0.005 0.006 0.005
Ionosphere 0.040 0.037 0.037 0.039 0.037 0.034
Iris 0.033 0.033 0.033 0.029 0.028 0.028
Proteina 0.221 0.224 0.223 0.216 0.217 0.222
SegmentChallenge 0.035 0.033 0.035 0.027 0.032 0.034
Simulated 0.000 0.000 0.000 0.000 0.000 0.000
Soybean 0.691 0.690 0.691 0.690 0.690 0.690
Wine 0.000 0.000 0.000 0.000 0.000 0.000 Tabela 57: Erro percentual médio de classificação dos algoritmos para o tamanho da lista tabu em 20%, 30% e 40%.
90
As tabelas 7, 8 e 9 apresentam a quantidade percentual média de erros das 10 execuções dos
algoritmos nas respectivas bases de dados.
Resultados das Variações da Taxa de Mutação
Base x Algoritmo Alg.G1 Alg.G2 Alg.G3
Base 1% 5% 10% 1% 5% 10% 1% 5% 10%
Car 0.085 0.093 0.088 0.208 0.200 0.176 0.105 0.109 0.110
Dermatology 0.004 0.005 0.008 0.073 0.121 0.105 0.002 0.005 0.010
Ionosphere 0.029 0.046 0.052 0.079 0.097 0.090 0.023 0.044 0.052
Iris 0.028 0.027 0.027 0.043 0.041 0.040 0.040 0.040 0.040
Proteina 0.202 0.201 0.208 0.245 0.256 0.239 0.205 0.208 0.210
SegmentChallenge 0.023 0.023 0.023 0.123 0.080 0.074 0.024 0.024 0.023
Simulated 0.000 0.000 0.000 0.002 0.005 0.000 0.000 0.000 0.000
Soybean 0.690 0.690 0.690 0.690 0.690 0.690 0.691 0.691 0.691
Wine 0.000 0.000 0.000 0.106 0.115 0.131 0.000 0.000 0.000 Tabela 58: Erro percentual médio de classificação dos algoritmos para as taxas de mutação de 1%, 5% e 10%.
Resultados das Variações da Taxa de Mutação
Base x Algoritmo Alg.N1 Alg.N2
Base 1% 5% 10% 1% 5% 10%
Car 0.105 0.101 0.101 0.097 0.128 0.115
Dermatology 0.009 0.011 0.015 0.001 0.009 0.014
Ionosphere 0.036 0.049 0.056 0.026 0.050 0.059
Iris 0.041 0.040 0.038 0.038 0.036 0.035
Proteina 0.209 0.215 0.214 0.214 0.216 0.221
SegmentChallenge 0.025 0.025 0.025 0.028 0.029 0.029
Simulated 0.000 0.000 0.000 0.000 0.000 0.000
Soybean 0.690 0.690 0.690 0.691 0.691 0.691
Wine 0.027 0.010 0.000 0.000 0.000 0.000 Tabela 59: Erro percentual médio de classificação dos algoritmos para as taxas de mutação de 1%, 5% e 10%.
Resultados das Variações da Taxa de Mutação
Base x Algoritmo Alg.N3 Alg.N4
Base 1% 5% 10% 1% 5% 10%
Car 0.095 0.102 0.097 0.097 0.104 0.097
Dermatology 0.009 0.011 0.013 0.008 0.010 0.014
Ionosphere 0.031 0.048 0.056 0.032 0.049 0.056
Iris 0.042 0.037 0.034 0.040 0.037 0.034
Proteina 0.215 0.214 0.214 0.211 0.213 0.212
SegmentChallenge 0.025 0.025 0.024 0.025 0.025 0.025
Simulated 0.000 0.000 0.000 0.000 0.000 0.000
Soybean 0.798 0.808 0.762 0.722 0.727 0.710
Wine 0.035 0.009 0.000 0.029 0.008 0.001 Tabela 60: Erro percentual médio de classificação dos algoritmos para as taxas de mutação de 1%, 5% e 10%.
91
APÊNDICE C – Variações da quantidade máxima de classificadores
Este apêndice apresenta os resultados parciais (ver 4.2.3) das execuções dos algoritmos utilizados
neste trabalho variando a quantidade máxima de classificadores base. São apresentados os resultados referentes
às seguintes variáveis: ao erro percentual médio de classificação, a média da quantidade de classificadores base
utilizada pelos comitês gerados e a média da quantidade de iterações dos algoritmos. Para cada variável é
apresentada o seu valor para correspondente base de dados e para o respectivo experimento, isto é, um valor
associado ao par base de dados, quantidade máxima de classificadores.
Alg.T1
Erro Classificadores Iterações
Base 3 5 10 3 5 10 3 5 10
Car 0.089 0.103 0.319 2.4 4.2 8.9 23.9 15.3 5
Dermatology 0.007 0.005 0.01 3 5 10 142.8 97.6 56.5
Ionosphere 0.036 0.037 0.046 3 5 10 104.7 67.6 33.5
Iris 0.033 0.027 0.033 2 4 8.2 500 500 440.2
Proteina 0.215 0.228 0.231 3 5 10 9.8 6.2 2.9
SegmentChallenge 0.033 0.039 0.035 3 5 10 10.4 5.8 2.8
Simulated 0 0.002 0 3 5 10 135.8 83.5 41.8
Soybean 0.691 0.69 0.69 2.1 4.3 6 159.2 104.6 51
Wine 0 0 0.002 3 5 9.8 500 349.9 180.2
Alg.T2
Erro Classificadores Iterações
Base 3 5 10 3 5 10 3 5 10
Car 0.263 0.166 0.419 3 5 9.2 21.8 13.7 6
Dermatology 0.109 0.092 0.053 3 5 10 210 146.9 66
Ionosphere 0.078 0.061 0.052 3 5 10 123.3 74.5 34.8
Iris 0.047 0.043 0.069 3 5 10 500 500 443.8
Proteina 0.242 0.225 0.232 3 5 10 10.2 6.4 3
SegmentChallenge 0.095 0.053 0.045 3 5 10 10.1 6.1 2.7
Simulated 0 0 0 3 5 10 134.2 83.7 41.6
Soybean 0.811 0.69 0.706 3 5 10 162.8 96 39.4
Wine 0.127 0.081 0.043 3 5 10 500 494.4 296.8
Alg.T3
Erro Classificadores Iterações
Base 3 5 10 3 5 10 3 5 10
Car 0.092 0.092 0.307 1.3 3.1 8.6 27 17 5.6
Dermatology 0.007 0.005 0.002 3 5 10 152.1 95.4 54
Ionosphere 0.028 0.027 0.04 3 5 10 117 72 33.3
Iris 0.04 0.04 0.04 1 1 1 500 500 500
Proteina 0.227 0.228 0.237 3 5 10 10.8 6.2 3
SegmentChallenge 0.032 0.044 0.037 3 5 10 10.4 5.9 2.5
Simulated 0 0 0 3 5 10 134.5 83 42.6
Soybean 0.691 0.691 0.691 1 1 1 255.6 232.6 165.9
Wine 0 0 0 3 5 10 500 375 205.4
Alg.M1
92
Erro Classificadores Iterações
Base 3 5 10 3 5 10 3 5 10
Car 0.16 0.122 0.282 2.603 4.758 9.3 23.8 13.4 5.3
Dermatology 0.027 0.028 0.02 3 5 10 189.3 129.4 57.4
Ionosphere 0.052 0.044 0.043 3 5 10 113.7 77.6 34.7
Iris 0.036 0.035 0.052 2.333 4.4 9.94 500 500 424.8
Proteina 0.218 0.218 0.227 3 5 10 10.6 6.5 2.9
SegmentChallenge 0.05 0.049 0.035 3 5 10 10.9 5.9 2.7
Simulated 0 0 0 3 5 10 131.8 82.8 41.9
Soybean 0.768 0.69 0.697 3 5 9.967 161.8 96.9 46.6
Wine 0.026 0.024 0.012 3 5 10 500 463.8 266.7
Alg.M2
Erro Classificadores Iterações
Base 3 5 10 3 5 10 3 5 10
Car 0.092 0.08 0.148 1.733 4.1 7.7 26.3 14.4 7
Dermatology 0.007 0.002 0.003 3 5 10 158.1 109.8 54.8
Ionosphere 0.028 0.032 0.038 3 5 10 121.1 72.3 34.6
Iris 0.036 0.035 0.032 1.633 1.725 2.467 500 500 500
Proteina 0.2 0.217 0.229 3 5 10 10.5 6.1 3
SegmentChallenge 0.021 0.026 0.034 3 5 10 10.7 6.1 2.8
Simulated 0 0 0 3 5 10 135.8 84.3 41.7
Soybean 0.691 0.691 0.698 1 1.45 2.65 264.8 225.1 115.4
Wine 0 0 0 3 5 9.926 500 366.7 215.2
Alg.M3
Erro Classificadores Iterações
Base 3 5 10 3 5 10 3 5 10
Car 0.157 0.132 0.219 2.501 4.477 9.233 24.3 14.4 5.8
Dermatology 0.034 0.028 0.011 3 5 10 185.5 129.1 57.3
Ionosphere 0.051 0.042 0.039 3 5 10 126 75.4 33.6
Iris 0.04 0.039 0.044 2 3 7.899 500 500 468.1
Proteina 0.221 0.225 0.229 3 5 10 10.5 6.3 3
SegmentChallenge 0.045 0.04 0.043 2.967 5 10 11.1 6.2 2.5
Simulated 0 0 0 3 5 10 135.8 84.1 42.2
Soybean 0.774 0.766 0.747 2.2 2.745 5.6 197 159.3 81.7
Wine 0.02 0.025 0.012 3 5 10 500 458 266.2
Alg.M4
Erro Classificadores Iterações
Base 3 5 10 3 5 10 3 5 10
Car 0.148 0.115 0.273 2.395 4.46 8.65 25.4 14.3 5.9
Dermatology 0.018 0.017 0.013 3 5 10 168 117.9 59.5
Ionosphere 0.043 0.042 0.043 3 5 10 115.6 71.4 33.3
Iris 0.037 0.036 0.044 2 3.043 8.644 500 500 454.5
Proteina 0.209 0.219 0.231 3 5 10 10.9 6.4 2.9
SegmentChallenge 0.046 0.038 0.039 3 5 10 10.4 6.1 2.5
Simulated 0.002 0 0 3 5 10 136.8 83.5 42
Soybean 0.753 0.739 0.722 2.414 3.271 7.034 203 132 54.8
Wine 0.018 0.018 0.009 3 5 10 500 426.6 249
Alg.G1
Erro Classificadores Iterações
93
Base 3 5 10 3 5 10 3 5 10
Car 0.089 0.088 0.135 2.8 5 9.3 20.9 12.6 4
Dermatology 0.009 0.008 0.008 3 5 10 129.5 84.6 42.3
Ionosphere 0.048 0.052 0.051 3 5 10 99.2 59.9 28.8
Iris 0.033 0.027 0.028 2 4 9.4 500 500 407.6
Proteina 0.203 0.208 0.21 3 5 10 7.6 4 1.7
SegmentChallenge 0.023 0.023 0.022 3 5 9.9 9.2 5 1.5
Simulated 0 0 0 3 5 10 73.3 44.9 22.9
Soybean 0.691 0.69 0.69 3 4.8 8.7 156.4 99.1 41.8
Wine 0 0 0.001 3 5 10 499.8 362.8 168.6
Alg.G2
Erro Classificadores Iterações
Base 3 5 10 3 5 10 3 5 10
Car 0.242 0.176 0.251 3 5 10 21.6 12.7 4
Dermatology 0.135 0.105 0.06 3 5 10 179.3 109.1 50.5
Ionosphere 0.103 0.09 0.07 3 5 10 109.4 65.2 30
Iris 0.045 0.04 0.067 3 5 10 500 500 423.4
Proteina 0.26 0.239 0.228 3 5 10 8 4 1.9
SegmentChallenge 0.09 0.074 0.054 3 5 10 8.9 4.9 1.4
Simulated 0 0 0 3 5 10 87.1 55.1 28.5
Soybean 0.811 0.69 0.706 3 5 10 163.7 97.2 38.5
Wine 0.149 0.131 0.074 3 5 10 500 495.2 249.3
Alg.G3
Erro Classificadores Iterações
base 3 5 10 3 5 10 3 5 10
Car 0.092 0.11 0.14 1.3 3.8 8.7 24 12.8 4.3
Dermatology 0.01 0.01 0.009 3 5 10 134.7 85.4 42.6
Ionosphere 0.05 0.052 0.053 3 5 10 103 62.3 29.2
Iris 0.04 0.04 0.04 1 1 1 500 500 500
Proteina 0.204 0.21 0.214 3 5 10 8 4 1.8
SegmentChallenge 0.022 0.023 0.023 3 5 9.9 9.5 4.7 1.5
Simulated 0 0 0 3 5 10 72.6 45.1 22.7
Soybean 0.691 0.691 0.691 1 1 1 298.9 218 89.4
Wine 0 0 0 3 5 10 500 364.7 197.4
Alg.N1
Erro Classificadores Iterações
Base 3 5 10 3 5 10 3 5 10
Car 0.163 0.157 0.246 2.897 4.953 9.503 21.5 12.6 3.6
Dermatology 0.045 0.048 0.038 3 5 10 154.5 102.4 49.7
Ionosphere 0.074 0.073 0.064 3 5 10 107.7 65.8 29.2
Iris 0.038 0.038 0.053 2.663 4.717 9.984 500 500 448.2
Proteina 0.236 0.235 0.234 3 5 10 7.9 4 1.5
SegmentChallenge 0.055 0.044 0.041 3 5 9.993 9.1 4.9 1.7
Simulated 0.001 0.002 0 3 5 10 87.9 55.3 28.9
Soybean 0.727 0.69 0.701 3 5 9.856 158 97 39.2
Wine 0.033 0.042 0.032 3 5 10 500 431.4 236.7
Alg.N2
Erro Classificadores Iterações
Base 3 5 10 3 5 10 3 5 10
94
Car 0.105 0.127 0.234 2.505 4.622 8.987 22.5 12.6 4.6
Dermatology 0.014 0.015 0.015 3 5 10 130.7 85.8 42.1
Ionosphere 0.058 0.061 0.058 3 5 10 102.9 62.7 29.4
Iris 0.038 0.035 0.034 1.3 1.7 2.243 500 500 500
Proteina 0.223 0.228 0.234 3 5 10 7.6 4 1.6
SegmentChallenge 0.03 0.031 0.037 3 5 10 9.3 4.9 1.6
Simulated 0 0 0 3 5 10 74.3 46.8 23.9
Soybean 0.691 0.691 0.735 1 1 3.123 293 212 62.8
Wine 0 0 0 3 5 9.99 500 350 198.3
Alg.N3
Erro Classificadores Iterações
Base 3 5 10 3 5 10 3 5 10
Car 0.182 0.148 0.245 2.708 4.801 9.486 21.8 12.8 4
Dermatology 0.046 0.045 0.035 3 5 10 158.7 101.6 48.4
Ionosphere 0.075 0.07 0.064 2.984 5 10 109.3 65.6 29.2
Iris 0.04 0.035 0.038 2.343 3.93 8.231 500 500 473.7
Proteina 0.239 0.237 0.235 3 5 10 8 4.1 1.6
SegmentChallenge 0.055 0.042 0.04 3 5 9.991 9 5 1.8
Simulated 0.002 0.001 0 3 5 10 88.1 55.7 29.2
Soybean 0.793 0.775 0.73 2.617 3.307 6.915 188 131.9 48.5
Wine 0.049 0.046 0.026 3 5 10 500 441.2 237.7
Alg.N4
Erro Classificadores Iterações
Base 3 5 10 3 5 10 3 5 10
Car 0.16 0.145 0.229 2.831 4.853 9.38 21.5 12.4 4.5
Dermatology 0.04 0.042 0.032 3 5 10 148.6 102.7 48.4
Ionosphere 0.073 0.069 0.061 2.994 5 10 111.4 65.3 29.5
Iris 0.04 0.035 0.04 2.073 4.207 8.261 500 500 465.5
Proteina 0.236 0.231 0.233 3 5 10 8 4 1.5
SegmentChallenge 0.047 0.043 0.042 3 5 9.994 9.5 4.8 1.5
Simulated 0.002 0.001 0 3 5 10 88.9 55.6 28.9
Soybean 0.77 0.756 0.722 2.783 3.307 7.447 180.6 130.1 50.5
Wine 0.039 0.037 0.026 3 5 9.994 500 437.6 238.5
Tabela 61: Resultados de cada algoritmo dos experimentos de variação da quantidade máxima de classificadores apresentando o
erro, a quantidade de classificadores base utilizados e a quantidade de iterações executadas para cada um dos casos de experimento.
95
APÊNDICE D – Resultados dos Experimentos
Este apêndice apresenta os valores dos objetivos de otimização obtidos das execuções dos algoritmos.
Devido a grande quantidade de dados apresentamos somente a média dos valores de cada algoritmo em cada
base de dados.
Variáveis Dependentes para 3 Classificadores Base
Alg.T1 Alg.T2 Alg.T3 Alg.M1
Error Good Bad Error Good Bad Error Good Bad Error Good Bad
Arrhythmia 0,342 0,550 2,385 0,365 0,566 2,462 0,358 0,522 2,339 0,345 0,584 2,374
Balance 0,248 0,220 0,483 0,267 0,261 0,539 0,326 0,000 0,326 0,248 0,220 0,483
BreastCancerWisconsin 0,015 0,061 0,041 0,050 0,333 0,113 0,013 0,065 0,032 0,018 0,082 0,046
Car 0,089 0,232 0,170 0,245 0,540 0,438 0,091 0,000 0,091 0,091 0,284 0,119
Crx 0,097 0,165 0,240 0,220 0,340 0,486 0,102 0,182 0,242 0,111 0,175 0,272
Dermatology 0,005 0,086 0,010 0,085 0,513 0,133 0,005 0,097 0,007 0,009 0,235 0,016
Ecoli 0,156 0,128 0,341 0,327 0,344 0,480 0,184 0,091 0,270 0,157 0,131 0,354
Gaussian 0,000 0,170 0,000 0,005 0,420 0,007 0,000 0,153 0,000 0,005 0,318 0,010
German 0,230 0,246 0,541 0,312 0,418 0,676 0,229 0,247 0,529 0,249 0,252 0,578
Glass 0,159 0,125 0,369 0,303 0,361 0,428 0,210 0,052 0,285 0,165 0,156 0,361
HorseColic 0,005 0,120 0,011 0,083 0,463 0,182 0,005 0,110 0,009 0,016 0,158 0,035
Housevotes 0,018 0,107 0,049 0,069 0,292 0,164 0,017 0,127 0,043 0,022 0,168 0,059
Ionosphere 0,029 0,112 0,076 0,074 0,253 0,173 0,026 0,125 0,062 0,035 0,154 0,087
Iris 0,033 0,013 0,060 0,053 0,260 0,128 0,040 0,000 0,040 0,033 0,013 0,060
Jude 0,013 0,034 0,107 0,014 0,044 0,118 0,014 0,028 0,103 0,014 0,044 0,114
KRKPA7 0,330 0,167 0,798 0,347 0,176 0,824 0,307 0,186 0,716 0,142 0,248 0,332
Labor 0,000 0,087 0,000 0,056 0,455 0,114 0,000 0,087 0,000 0,000 0,394 0,000
LungCancer 0,019 0,378 0,047 0,100 0,559 0,228 0,009 0,413 0,009 0,041 0,542 0,103
Proteina 0,179 0,548 1,213 0,194 0,581 1,289 0,182 0,501 1,174 0,178 0,573 1,206
SegmentChallenge 0,020 0,045 0,044 0,167 0,296 0,207 0,022 0,050 0,045 0,030 0,074 0,058
Sick 0,062 0,129 0,140 0,087 0,234 0,191 0,065 0,081 0,147 0,053 0,155 0,116
Simulated 0,000 0,020 0,000 0,000 0,073 0,000 0,000 0,017 0,000 0,000 0,063 0,000
Sonar 0,019 0,157 0,048 0,076 0,375 0,171 0,008 0,169 0,019 0,023 0,238 0,056
Soybean 0,691 0,019 1,288 0,811 0,114 1,349 0,691 0,000 0,691 0,691 0,107 1,558
SpamBase 0,155 0,154 0,346 0,159 0,172 0,363 0,163 0,193 0,357 0,165 0,177 0,369
Transfusion 0,312 0,155 0,618 0,380 0,321 0,828 0,338 0,081 0,505 0,307 0,139 0,531
Vehicle 0,224 0,150 0,491 0,308 0,284 0,533 0,232 0,161 0,443 0,244 0,178 0,503
vowel 0,001 0,018 0,004 0,015 0,314 0,021 0,001 0,036 0,002 0,004 0,169 0,007
Waveform 0,272 0,199 0,577 0,309 0,215 0,637 0,276 0,191 0,597 0,288 0,211 0,604
Wine 0,000 0,073 0,000 0,119 0,369 0,190 0,000 0,077 0,000 0,000 0,217 0,000
Tabela 62: Erro percentual médio de classificação, boa e má diversidade das execuções com um máximo de 3 classificadores base.
96
Variáveis Dependentes para 3 Classificadores Base
Alg.M2 Alg.M3 Alg.M4 Alg.G1
Error Good Bad Error Good Bad Error Good Bad Error Good Bad
Arrhythmia 0,343 0,549 2,285 0,341 0,589 2,284 0,338 0,577 2,291 0,362 0,446 2,512
Balance 0,248 0,220 0,483 0,248 0,220 0,483 0,248 0,220 0,483 0,248 0,220 0,483
BreastCancerWisconsin 0,016 0,069 0,041 0,018 0,128 0,044 0,017 0,100 0,042 0,021 0,049 0,052
Car 0,090 0,230 0,122 0,092 0,250 0,104 0,091 0,202 0,113 0,088 0,205 0,181
Crx 0,102 0,185 0,248 0,110 0,192 0,261 0,104 0,184 0,251 0,104 0,152 0,258
Dermatology 0,004 0,089 0,007 0,009 0,211 0,012 0,006 0,161 0,010 0,007 0,060 0,016
Ecoli 0,157 0,116 0,332 0,188 0,048 0,241 0,159 0,125 0,346 0,155 0,123 0,344
Gaussian 0,000 0,165 0,000 0,000 0,345 0,000 0,000 0,315 0,000 0,000 0,043 0,000
German 0,227 0,242 0,507 0,245 0,254 0,561 0,240 0,266 0,549 0,244 0,208 0,578
Glass 0,164 0,146 0,347 0,214 0,052 0,251 0,162 0,137 0,335 0,159 0,126 0,364
HorseColic 0,005 0,138 0,011 0,017 0,153 0,036 0,011 0,145 0,022 0,011 0,095 0,026
Housevotes 0,019 0,122 0,047 0,024 0,218 0,059 0,020 0,122 0,052 0,019 0,119 0,050
Ionosphere 0,025 0,118 0,065 0,033 0,162 0,079 0,030 0,131 0,080 0,047 0,089 0,116
Iris 0,034 0,012 0,058 0,040 0,159 0,074 0,033 0,013 0,060 0,033 0,013 0,060
Jude 0,014 0,028 0,108 0,014 0,039 0,106 0,014 0,037 0,113 0,012 0,023 0,106
KRKPA7 0,124 0,217 0,281 0,124 0,264 0,275 0,106 0,271 0,239 0,046 0,138 0,102
Labor 0,000 0,049 0,000 0,000 0,390 0,000 0,000 0,335 0,000 0,000 0,019 0,000
LungCancer 0,019 0,414 0,025 0,034 0,533 0,044 0,028 0,534 0,047 0,138 0,295 0,316
Proteina 0,174 0,517 1,141 0,177 0,586 1,136 0,177 0,557 1,165 0,193 0,332 1,385
SegmentChallenge 0,019 0,052 0,038 0,031 0,197 0,048 0,022 0,050 0,045 0,022 0,043 0,046
Sick 0,029 0,066 0,066 0,031 0,119 0,069 0,045 0,186 0,098 0,024 0,039 0,054
Simulated 0,000 0,017 0,000 0,000 0,065 0,000 0,000 0,044 0,000 0,000 0,005 0,000
Sonar 0,013 0,169 0,029 0,023 0,238 0,052 0,008 0,227 0,021 0,047 0,122 0,109
Soybean 0,691 0,000 0,691 0,691 0,000 0,691 0,691 0,032 0,951 0,691 0,053 1,659
SpamBase 0,151 0,175 0,325 0,161 0,192 0,355 0,151 0,175 0,335 0,065 0,099 0,143
Transfusion 0,306 0,137 0,531 0,309 0,142 0,531 0,306 0,137 0,531 0,306 0,136 0,531
Vehicle 0,226 0,166 0,470 0,264 0,274 0,460 0,235 0,166 0,481 0,234 0,131 0,514
vowel 0,001 0,024 0,002 0,003 0,160 0,004 0,003 0,138 0,005 0,002 0,016 0,004
Waveform 0,274 0,204 0,577 0,299 0,224 0,613 0,292 0,207 0,614 0,237 0,177 0,519
Wine 0,000 0,080 0,000 0,000 0,259 0,000 0,000 0,263 0,000 0,000 0,051 0,000
Tabela 63: Erro percentual médio de classificação, boa e má diversidade das execuções com um máximo de 3 classificadores base.
97
Variáveis Dependentes para 3 Classificadores Base
Alg.G2 Alg.G3 Alg.N1 Alg.N2
Error Good Bad Error Good Bad Error Good Bad Error Good Bad
Arrhythmia 0,381 0,514 2,523 0,370 0,483 2,425 0,369 0,426 2,567 0,368 0,434 2,614
Balance 0,267 0,261 0,539 0,326 0,000 0,326 0,262 0,240 0,526 0,309 0,106 0,438
BreastCancerWisconsin 0,054 0,312 0,123 0,020 0,052 0,047 0,022 0,049 0,057 0,024 0,046 0,061
Car 0,258 0,559 0,463 0,091 0,000 0,091 0,097 0,337 0,163 0,090 0,083 0,113
Crx 0,256 0,329 0,559 0,120 0,136 0,220 0,113 0,154 0,278 0,112 0,155 0,276
Dermatology 0,119 0,402 0,187 0,008 0,074 0,014 0,011 0,074 0,024 0,011 0,046 0,026
Ecoli 0,321 0,347 0,512 0,194 0,000 0,194 0,182 0,262 0,357 0,172 0,059 0,274
Gaussian 0,057 0,367 0,083 0,000 0,048 0,000 0,000 0,259 0,000 0,000 0,033 0,000
German 0,334 0,400 0,722 0,245 0,197 0,528 0,254 0,219 0,592 0,255 0,197 0,613
Glass 0,326 0,370 0,444 0,210 0,000 0,210 0,205 0,207 0,389 0,199 0,072 0,292
HorseColic 0,085 0,444 0,185 0,011 0,102 0,023 0,017 0,086 0,040 0,018 0,092 0,042
Housevotes 0,067 0,291 0,155 0,020 0,089 0,049 0,023 0,127 0,063 0,021 0,098 0,057
Ionosphere 0,105 0,223 0,245 0,046 0,093 0,107 0,052 0,095 0,132 0,053 0,082 0,141
Iris 0,051 0,260 0,116 0,040 0,000 0,040 0,039 0,235 0,090 0,037 0,005 0,048
Jude 0,012 0,049 0,104 0,010 0,032 0,082 0,012 0,039 0,105 0,012 0,024 0,093
KRKPA7 0,146 0,285 0,323 0,049 0,154 0,109 0,063 0,099 0,142 0,104 0,199 0,235
Labor 0,049 0,439 0,109 0,000 0,032 0,000 0,005 0,404 0,011 0,000 0,000 0,000
LungCancer 0,263 0,409 0,550 0,122 0,327 0,197 0,181 0,258 0,413 0,166 0,278 0,400
Proteina 0,231 0,516 1,453 0,199 0,416 1,284 0,201 0,351 1,397 0,199 0,339 1,412
SegmentChallenge 0,102 0,334 0,122 0,022 0,044 0,045 0,024 0,040 0,049 0,025 0,032 0,054
Sick 0,065 0,580 0,134 0,023 0,042 0,053 0,026 0,027 0,060 0,051 0,082 0,117
Simulated 0,007 0,072 0,008 0,000 0,004 0,000 0,000 0,051 0,000 0,000 0,000 0,000
Sonar 0,135 0,308 0,302 0,046 0,129 0,105 0,061 0,120 0,142 0,060 0,108 0,150
Soybean 0,811 0,114 1,349 0,691 0,000 0,691 0,691 0,107 1,558 0,691 0,000 0,691
SpamBase 0,168 0,215 0,366 0,071 0,101 0,159 0,092 0,106 0,207 0,256 0,178 0,592
Transfusion 0,344 0,323 0,555 0,362 0,000 0,362 0,333 0,250 0,546 0,323 0,095 0,480
Vehicle 0,314 0,278 0,543 0,263 0,145 0,469 0,243 0,124 0,535 0,244 0,125 0,545
vowel 0,020 0,336 0,028 0,002 0,015 0,003 0,003 0,029 0,006 0,003 0,008 0,006
Waveform 0,339 0,250 0,663 0,240 0,189 0,521 0,254 0,169 0,561 0,369 0,224 0,747
Wine 0,140 0,381 0,202 0,000 0,062 0,000 0,014 0,265 0,029 0,000 0,040 0,000
Tabela 64: Erro percentual médio de classificação, boa e má diversidade das execuções com um máximo de 3 classificadores base.
98
Variáveis Dependentes para 3 Classificadores Base
Alg.N3 Alg.N4
Error Good Bad Error Good Bad
Arrhythmia 0,369 0,460 2,507 0,366 0,447 2,521
Balance 0,331 0,159 0,502 0,307 0,165 0,506
BreastCancerWisconsin 0,024 0,059 0,058 0,023 0,050 0,058
Car 0,105 0,407 0,134 0,101 0,304 0,170
Crx 0,114 0,182 0,270 0,111 0,160 0,272
Dermatology 0,013 0,108 0,022 0,012 0,075 0,024
Ecoli 0,212 0,200 0,304 0,172 0,127 0,342
Gaussian 0,000 0,266 0,000 0,000 0,258 0,000
German 0,253 0,213 0,569 0,250 0,216 0,583
Glass 0,259 0,324 0,351 0,208 0,213 0,371
HorseColic 0,017 0,105 0,036 0,015 0,099 0,034
Housevotes 0,022 0,143 0,058 0,023 0,133 0,063
Ionosphere 0,053 0,117 0,125 0,050 0,100 0,120
Iris 0,040 0,073 0,067 0,037 0,020 0,060
Jude 0,012 0,030 0,095 0,012 0,034 0,095
KRKPA7 0,060 0,136 0,133 0,060 0,112 0,136
Labor 0,004 0,386 0,007 0,002 0,392 0,004
LungCancer 0,200 0,270 0,356 0,175 0,283 0,394
Proteina 0,201 0,403 1,342 0,198 0,369 1,355
SegmentChallenge 0,024 0,039 0,049 0,023 0,040 0,048
Sick 0,027 0,041 0,061 0,027 0,031 0,063
Simulated 0,000 0,051 0,000 0,000 0,054 0,000
Sonar 0,061 0,132 0,137 0,058 0,126 0,131
Soybean 0,790 0,097 1,230 0,711 0,086 1,542
SpamBase 0,095 0,101 0,216 0,131 0,109 0,309
Transfusion 0,334 0,262 0,548 0,326 0,213 0,542
Vehicle 0,268 0,191 0,494 0,243 0,135 0,523
vowel 0,002 0,026 0,004 0,002 0,025 0,005
Waveform 0,224 0,166 0,492 0,253 0,172 0,560
Wine 0,014 0,298 0,021 0,008 0,234 0,017
Tabela 65: Erro percentual médio de classificação, boa e má diversidade das execuções com um máximo de 3 classificadores base.
99
Variáveis Dependentes para 10 Classificadores Base
Alg.T1 Alg.T2 Alg.T3 Alg.M1
Error Good Bad Error Good Bad Error Good Bad Error Good Bad
Arrhythmia 0,343 0,163 0,476 0,362 0,170 0,496 0,358 0,155 0,465 0,350 0,170 0,484
Balance 0,227 0,179 0,190 0,245 0,284 0,301 0,299 0,056 0,108 0,223 0,267 0,267
BreastCancerWisconsin 0,021 0,080 0,035 0,033 0,162 0,048 0,015 0,102 0,023 0,021 0,138 0,035
Car 0,159 0,366 0,146 0,229 0,495 0,220 0,166 0,334 0,146 0,161 0,420 0,146
Crx 0,098 0,349 0,142 0,161 0,479 0,214 0,098 0,341 0,136 0,113 0,415 0,157
Dermatology 0,007 0,200 0,010 0,052 0,523 0,045 0,002 0,196 0,002 0,009 0,340 0,010
Ecoli 0,126 0,294 0,155 0,191 0,441 0,183 0,150 0,112 0,091 0,131 0,342 0,137
Gaussian 0,000 0,179 0,000 0,002 0,332 0,001 0,000 0,195 0,000 0,000 0,275 0,000
German 0,234 0,398 0,318 0,282 0,508 0,355 0,246 0,449 0,315 0,251 0,472 0,325
Glass 0,111 0,268 0,140 0,206 0,471 0,185 0,134 0,177 0,095 0,134 0,362 0,148
HorseColic 0,022 0,203 0,033 0,080 0,526 0,105 0,009 0,221 0,011 0,036 0,359 0,051
Housevotes 0,026 0,230 0,043 0,102 0,352 0,153 0,016 0,232 0,024 0,067 0,314 0,102
Ionosphere 0,040 0,159 0,069 0,048 0,225 0,079 0,024 0,182 0,037 0,044 0,200 0,075
Iris 0,029 0,087 0,049 0,068 0,331 0,089 0,040 0,000 0,008 0,030 0,287 0,047
Jude 0,015 0,008 0,024 0,013 0,014 0,022 0,014 0,009 0,022 0,015 0,011 0,024
KRKPA7 0,412 0,148 0,653 0,408 0,161 0,643 0,409 0,147 0,638 0,375 0,189 0,585
Labor 0,000 0,101 0,000 0,014 0,591 0,022 0,000 0,123 0,000 0,000 0,485 0,000
LungCancer 0,109 0,509 0,178 0,150 0,696 0,226 0,013 0,612 0,010 0,125 0,664 0,193
Proteina 0,184 0,153 0,254 0,201 0,171 0,264 0,186 0,156 0,237 0,179 0,171 0,243
SegmentChallenge 0,033 0,096 0,040 0,038 0,134 0,043 0,038 0,127 0,044 0,033 0,149 0,037
Sick 0,039 0,249 0,050 0,050 0,258 0,065 0,047 0,322 0,060 0,044 0,331 0,055
Simulated 0,000 0,020 0,000 0,000 0,043 0,000 0,000 0,018 0,000 0,000 0,038 0,000
Sonar 0,046 0,221 0,070 0,055 0,310 0,079 0,014 0,251 0,016 0,050 0,279 0,075
Soybean 0,690 0,088 0,664 0,706 0,154 0,864 0,691 0,000 0,138 0,690 0,142 0,928
SpamBase 0,104 0,259 0,137 0,097 0,255 0,129 0,102 0,264 0,133 NaN NaN NaN
Transfusion 0,324 0,244 0,444 0,375 0,369 0,538 0,357 0,004 0,076 0,337 0,318 0,532
Vehicle 0,251 0,241 0,307 0,269 0,306 0,294 0,255 0,249 0,295 0,242 0,304 0,274
vowel 0,004 0,250 0,005 0,070 0,512 0,045 0,006 0,234 0,005 0,010 0,372 0,008
Waveform 0,215 0,322 0,264 0,221 0,337 0,268 0,221 0,337 0,269 NaN NaN NaN
Wine 0,001 0,178 0,001 0,045 0,559 0,045 0,000 0,200 0,000 0,000 0,469 0,000
Tabela 66: Erro percentual médio de classificação, boa e má diversidade das execuções com um máximo de 10 classificadores base.
100
Variáveis Dependentes para 10 Classificadores Base
Alg.M2 Alg.M3 Alg.M4 Alg.G1
Error Good Bad Error Good Bad Error Good Bad Error Good Bad
Arrhythmia 0,337 0,168 0,447 0,342 0,179 0,459 0,343 0,173 0,462 0,360 0,134 0,507
Balance 0,230 0,139 0,152 0,224 0,257 0,254 0,222 0,266 0,266 0,225 0,261 0,266
BreastCancerWisconsin 0,014 0,094 0,024 0,017 0,145 0,027 0,019 0,121 0,030 0,022 0,072 0,036
Car 0,086 0,297 0,062 0,152 0,448 0,137 0,140 0,404 0,115 0,092 0,326 0,094
Crx 0,088 0,356 0,129 0,105 0,414 0,145 0,097 0,406 0,136 0,106 0,307 0,153
Dermatology 0,001 0,189 0,001 0,007 0,344 0,006 0,004 0,298 0,004 0,007 0,124 0,009
Ecoli 0,124 0,231 0,123 0,136 0,311 0,129 0,127 0,290 0,134 0,126 0,211 0,170
Gaussian 0,000 0,212 0,000 0,002 0,281 0,001 0,000 0,257 0,000 0,000 0,085 0,000
German 0,222 0,458 0,287 0,243 0,488 0,308 0,242 0,481 0,311 0,234 0,345 0,324
Glass 0,116 0,237 0,122 0,136 0,327 0,125 0,122 0,305 0,132 0,140 0,206 0,186
HorseColic 0,014 0,219 0,018 0,030 0,363 0,039 0,022 0,348 0,029 0,044 0,184 0,060
Housevotes 0,016 0,233 0,025 0,028 0,319 0,041 0,023 0,288 0,035 0,025 0,162 0,041
Ionosphere 0,031 0,160 0,051 0,032 0,202 0,052 0,035 0,187 0,057 0,048 0,132 0,082
Iris 0,027 0,010 0,021 0,029 0,168 0,035 0,027 0,138 0,034 0,028 0,057 0,053
Jude 0,013 0,010 0,021 0,014 0,012 0,022 0,014 0,011 0,022 0,012 0,007 0,021
KRKPA7 0,335 0,208 0,524 0,325 0,219 0,502 0,356 0,197 0,563 0,166 0,318 0,229
Labor 0,000 0,128 0,000 0,000 0,479 0,000 0,000 0,394 0,000 0,000 0,049 0,000
LungCancer 0,009 0,607 0,010 0,047 0,725 0,050 0,041 0,689 0,041 0,209 0,404 0,314
Proteina 0,171 0,160 0,225 0,179 0,178 0,233 0,177 0,172 0,234 0,194 0,102 0,275
SegmentChallenge 0,023 0,108 0,027 0,032 0,177 0,035 0,026 0,142 0,030 0,021 0,075 0,026
Sick 0,037 0,247 0,044 0,049 0,359 0,063 0,054 0,371 0,067 0,016 0,193 0,020
Simulated 0,000 0,021 0,000 0,000 0,047 0,000 0,000 0,035 0,000 0,000 0,005 0,000
Sonar 0,020 0,239 0,025 0,028 0,286 0,038 0,033 0,267 0,046 0,072 0,151 0,103
Soybean 0,690 0,038 0,384 0,690 0,056 0,398 0,690 0,092 0,606 0,690 0,107 0,883
SpamBase NaN NaN NaN NaN NaN NaN NaN NaN NaN 0,042 0,126 0,054
Transfusion 0,309 0,157 0,282 0,316 0,172 0,258 0,311 0,166 0,293 0,308 0,172 0,462
Vehicle 0,228 0,256 0,276 0,252 0,306 0,272 0,236 0,295 0,264 0,247 0,209 0,306
vowel 0,003 0,260 0,003 0,012 0,378 0,008 0,007 0,335 0,006 0,003 0,076 0,004
Waveform NaN NaN NaN NaN NaN NaN NaN NaN NaN 0,100 0,154 0,122
Wine 0,000 0,189 0,000 0,000 0,466 0,000 0,000 0,415 0,000 0,000 0,127 0,000
Tabela 67: Erro percentual médio de classificação, boa e má diversidade das execuções com um máximo de 10 classificadores base.
101
Variáveis Dependentes para 10 Classificadores Base
Alg.G2 Alg.G3 Alg.N1 Alg.N2
Error Good Bad Error Good Bad Error Good Bad Error Good Bad
Arrhythmia 0,383 0,154 0,512 0,370 0,142 0,486 0,369 0,127 0,517 0,366 0,134 0,524
Balance 0,252 0,283 0,309 0,320 0,030 0,084 0,234 0,242 0,285 0,242 0,225 0,265
BreastCancerWisconsin 0,036 0,169 0,052 0,023 0,078 0,035 0,024 0,077 0,038 0,026 0,072 0,042
Car 0,168 0,515 0,166 0,104 0,323 0,089 0,099 0,297 0,097 0,133 0,341 0,146
Crx 0,191 0,447 0,247 0,109 0,307 0,151 0,112 0,298 0,160 0,114 0,240 0,170
Dermatology 0,065 0,313 0,062 0,007 0,130 0,007 0,012 0,161 0,014 0,012 0,122 0,014
Ecoli 0,227 0,428 0,217 0,182 0,104 0,099 0,134 0,215 0,176 0,135 0,191 0,177
Gaussian 0,005 0,264 0,004 0,000 0,085 0,000 0,000 0,222 0,000 0,000 0,076 0,000
German 0,294 0,508 0,369 0,242 0,397 0,318 0,246 0,348 0,337 0,246 0,325 0,344
Glass 0,251 0,422 0,229 0,180 0,153 0,127 0,153 0,251 0,175 0,150 0,221 0,185
HorseColic 0,129 0,442 0,167 0,042 0,174 0,053 0,047 0,204 0,062 0,052 0,177 0,073
Housevotes 0,079 0,328 0,113 0,025 0,185 0,040 0,030 0,175 0,048 0,030 0,163 0,047
Ionosphere 0,064 0,174 0,100 0,050 0,142 0,081 0,053 0,133 0,088 0,054 0,132 0,092
Iris 0,067 0,344 0,081 0,040 0,000 0,008 0,042 0,294 0,058 0,035 0,003 0,011
Jude 0,012 0,014 0,021 0,009 0,009 0,017 0,012 0,012 0,022 0,012 0,007 0,019
KRKPA7 0,180 0,328 0,248 0,187 0,305 0,263 0,268 0,198 0,414 0,295 0,209 0,479
Labor 0,032 0,426 0,042 0,000 0,042 0,000 0,000 0,348 0,000 0,000 0,022 0,000
LungCancer 0,281 0,447 0,374 0,209 0,409 0,248 0,256 0,359 0,374 0,231 0,387 0,338
Proteina 0,227 0,152 0,290 0,197 0,116 0,260 0,198 0,107 0,273 0,199 0,098 0,283
SegmentChallenge 0,043 0,239 0,044 0,022 0,115 0,025 0,023 0,069 0,028 0,027 0,060 0,035
Sick 0,071 0,653 0,087 0,026 0,321 0,032 0,033 0,085 0,043 0,068 0,409 0,091
Simulated 0,000 0,042 0,000 0,000 0,004 0,000 0,000 0,032 0,000 0,000 0,000 0,000
Sonar 0,107 0,231 0,138 0,072 0,168 0,096 0,080 0,164 0,113 0,082 0,151 0,121
Soybean 0,706 0,154 0,867 0,691 0,000 0,138 0,690 0,135 0,909 0,690 0,041 0,385
SpamBase 0,106 0,298 0,140 0,038 0,101 0,050 NaN NaN NaN NaN NaN NaN
Transfusion 0,376 0,452 0,594 0,333 0,032 0,099 0,314 0,221 0,514 0,313 0,194 0,413
Vehicle 0,294 0,315 0,311 0,258 0,254 0,288 0,253 0,193 0,319 0,254 0,185 0,331
vowel 0,081 0,508 0,052 0,004 0,112 0,004 0,004 0,152 0,005 0,005 0,072 0,006
Waveform 0,225 0,359 0,268 0,102 0,155 0,124 NaN NaN NaN NaN NaN NaN
Wine 0,085 0,483 0,083 0,000 0,126 0,000 0,000 0,259 0,000 0,000 0,109 0,000
Tabela 68: Erro percentual médio de classificação, boa e má diversidade das execuções com um máximo de 10 classificadores base.
102
Variáveis Dependentes para 10 Classificadores Base
Alg.N3 Alg.N4
Error Good Bad Error Good Bad
Arrhythmia 0,372 0,138 0,503 0,365 0,132 0,515
Balance 0,232 0,211 0,232 0,233 0,225 0,255
BreastCancerWisconsin 0,023 0,078 0,036 0,023 0,078 0,037
Car 0,110 0,323 0,111 0,112 0,327 0,115
Crx 0,113 0,322 0,158 0,111 0,301 0,161
Dermatology 0,013 0,170 0,013 0,012 0,159 0,013
Ecoli 0,149 0,294 0,149 0,135 0,262 0,165
Gaussian 0,000 0,222 0,000 0,000 0,220 0,000
German 0,246 0,388 0,326 0,239 0,352 0,327
Glass 0,171 0,289 0,161 0,149 0,245 0,173
HorseColic 0,045 0,171 0,057 0,046 0,190 0,062
Housevotes 0,030 0,178 0,046 0,031 0,201 0,049
Ionosphere 0,052 0,135 0,085 0,052 0,133 0,088
Iris 0,034 0,285 0,045 0,033 0,309 0,048
Jude 0,012 0,011 0,020 0,012 0,012 0,020
KRKPA7 0,291 0,196 0,435 0,278 0,209 0,440
Labor 0,000 0,351 0,000 0,000 0,358 0,000
LungCancer 0,263 0,363 0,325 0,238 0,369 0,338
Proteina 0,199 0,116 0,265 0,199 0,112 0,274
SegmentChallenge 0,023 0,075 0,028 0,023 0,068 0,029
Sick 0,050 0,092 0,068 0,046 0,096 0,060
Simulated 0,000 0,032 0,000 0,000 0,032 0,000
Sonar 0,080 0,173 0,108 0,078 0,167 0,112
Soybean 0,690 0,100 0,620 0,690 0,095 0,636
SpamBase NaN NaN NaN NaN NaN NaN
Transfusion 0,318 0,234 0,341 0,313 0,190 0,379
Vehicle 0,254 0,236 0,301 0,249 0,202 0,312
vowel 0,005 0,190 0,005 0,004 0,129 0,005
Waveform NaN NaN NaN NaN NaN NaN
Wine 0,000 0,275 0,000 0,000 0,280 0,000
Tabela 69: Erro percentual médio de classificação, boa e má diversidade das execuções com um máximo de 10 classificadores base.