Upload
eben-alberto
View
217
Download
0
Embed Size (px)
DESCRIPTION
Trabalho
Citation preview
1
Introduo
comum ouvirmos empresrios preocupados com as bolsas de valores, a cincia com as doenas,
suas pesquisas e avanos tecnolgicos, entre outras situaes. A flexibilidade de resposta dada a
essas situaes deve-se a informaes teis e no evidentes que residem em grandes bases de
dados. Estas informaes podem ser automaticamente extraidas atravs da Minerao de Dados e
interpretadas de modo a constituir conhecimento especializado e til para a tomada de deciso.
Sendo assim comea uma breve abordagem de Minerao de Dados atravs de rvores de Deciso
(ID3).
O que uma rvore de deciso?
comum ao pesquisar em diferentes literaturas deparar-se com o termo ID-3 sendo apresentado
de duas formas diferentes (Iteractive Dichotomiser 3 ou Induction Decision Tree que em traduo
literal refere-se a induo de rvores de deciso).
Segundo (Pichiliani,(2008) rvore de deciso uma tcnica que, a partir de uma massa de dados
(Data Mart e Data Warehouse), cria e organiza regras de classifio e deciso em formato de
diagrama de rvores, que iro classificar suas observaes ou predizer resultados futuros. Se seus
dados estiverem divididos em classes dicotmicas (busca entre duas altenativas), por exemplo,
infectados contra no-intectados uma rvore de deciso pode ser construida para criar regras que
classifiquem casos j existentes ou casos novos, com preciso.
Comea com um nico grupo que rene todos os casos em estudo. Na medida em que a rvore vai
se expandindo, esta base dividida em mdulos que representam categorias das variveis
analisadas. Cada galho da rvore formado por esses ndulos que vo se abrindo em subgrupos
mutuamente exclusivos.Cada ndulo e cada galho apresentam uma proporo de obteno da
resposta em estudo.
A titlo de exemplo de modo a elusidar a explicao, abaixo apresenta-se uma tabela e a respectiva
rvore de deciso, do clssico exemplo da partida de tnis baseada no dia, temperatura, umidade e
vento de modo a se apurar se a partida poder ou no ocorrer. Os maiores detalhes em relao a
criaco da rvore de deciso sero abordados ao longo do presente trabalho.
2
Tabela do Tempo
Dia Temperatura Umidade Vento Partida
Ensolarado Elevada Alta Falso No
Ensolarado Elevada Alta Verdadeiro No
Nublado Elevada Alta Falso Sim
Chuvoso Amena Alta Falso Sim
Chuvoso Baixa Normal Falso Sim
Chuvoso Baixa Normal Verdadeiro No
Nublado Baixa Normal Verdadeiro Sim
Ensolarado Amena Alta Falso No
Ensolarado Baixa Normal Falso Sim
Chuvoso Amena Normal Falso Sim
Ensolarado Amena Normal Verdadeiro Sim
Nublado Amena Alta Verdadeiro Sim
Nublado Elevada Normal Falso Sim
Chuvoso Amena Alta Verdadeiro No
Representao grfica da rvore de deciso
3
As rvores de deciso podem ser subdivididas em duas categorias que so: rvore de deciso
compacta e no compacta. A primeira categoria de rvores referente a construo de arvores
baseando-se em tecnicas de melhor desempenho e esconha de melhor com menos passos, enquanto
que a segunda categoria no segue um princpio exaustivo, ou seja, no procura especificar que
caminhos levam para a soluo do problema, limitando-se apenas a resolve-lo.
Sendo que o foco de presente texto tratar da primeira categoria (rvore de deciso compacta)
pois trata-se de uma categoria de rvore digamos que intelectual em sua criao, como podemos
notar na estrutura da rvore acima representada.
Como estamos interessados em construir uma rvore compacta, dentre os quarto atributos
candidatos para n raiz, o atributo Dia parece o mais promissor porque dentre as trs arestas que
teremos de colocar neste n (Ensolarado, Nublado e Chuvoso), a aresta para Nublado tem
todos seus elementos pertencentes mesma classe Sim e, portanto, esta aresta da rvore de
Deciso temina aqui com um n folha Sim.
Visto que as ramificaes dos valores Ensolarado e Chuvoso h elementos tanto da classe
Sim como da classe No, outro atributo deve ser escolhido para cada ramificao, e assim
sucessivamente deve ocorrer at que todos os elementos de um ramo pertenam a uma mesma
classe. Como restam os atributos Temperatura, Humidade e Vento.
Aps as combinaes terem sido testadas percebeu-se que Humidade parece ser a escolha mais
promissora porque todos os elementos com Humidade = Alta correspondem classe No e
todos os elementos de Humidade = Normal pertencem classe Sim. Portanto, temos mais dois
ns folhas aqui, favorecendo a construo de uma rvore mais compacta.
Agora restando apenas duas altenativas Temperatura e Vento pode-se efectuar algumas
combinaes para descobrir a mais interessante. Visto que a tabela acima mostrou o atributo
Vento o mais indicado para esta iterao porque todos os elementos de Vento = Verdadeiro
esto classificados como Sim e todos os elementos de Vento = Verdadeiro esto classificados
como No. Portanto estas duas ramificaes da rvore de Deciso terminam com um n folha
cada. Nesta iterao o algoritmo termina, pois todos os Exemplos da tabela foram avaliados e
classificados em suas respectivas classes. Porm algumas consideraes podem ser feitas.
4
Como determinar o Ganho de informao?
Por trs do critrio de seleco de atributos aqui apresentado de forma intuitiva, h uma slida
justificao matemtica introduzida por (QUINLAN, 1986), baseada na Teoria das Informao de
Claude Shannon, capaz de avaliar a quantidade de informao do melhor atributo dentre os
candidatos para teste em um determinado n.
O ganho de informao mede a eficcia, ou eficincia, de um atributo em classificar os dados de
treino, ou seja, a reduo esperada na entropia causada por particionar os exemplos de acordo
com este atributo.
A entropia um dado importante para calcular o ganho de informao. A Entropia uma medida
que caracteriza a aleatoriedade (impureza) de uma coleco arbitrria de exemplos.
De acordo com Shannon a entropia pode ser determinada atravs da seguinte frmula:
( ) =
=1
2
Onde a proporo de Sims e Nos associados a um atributo (o ganho de informao ou
entropia medida em bits, ou fraces de bits). Para o caso da tabela acima representada temos
duas classes (Sim e No), sendo que dos 14 exemplos, 9 pertencem classe Sim e 5 classe
No. Portanto, o ganho de informao associado a tabela pode ser calculada da seguinte forma:
() = (9
142
9
14) + (
5
142
5
14) = 0,94
Aps esse clculo agora pode-se efectuar o grau de impureza do atributo Dia. Esse atributo esta
subdividido em trs alternativas possveis, com as seguintes propores de Sims e No:
Ensolarado (2 Sim / 3No), Nublado (4 Sim / 0 No) e Chuvoso (3 Sim/ 2
No). Portanto, seu grau de impuresa ,
() = (2
52
2
5) + (
3
52
3
5) = 0,97
() = (4
42
4
4) + (
0
42
0
4) = 0,00
() = (3
52
3
5) + (
2
52
2
5) = 0,97
5
Fazendo a soma ponderada de cada uma dessas altenativas sobre os 14 Exemplos,
resulta,
() = 0,97 5
14+ 0
4
14+
5
14= 0,69
Aplicando-se o mesmo raciocnio para os atributos Temperatura, Humidade e Vento obtm-
se os seguintes valores,
() = 0,91
() = 0,79
() = 0,89
Aps a determinao da entropia recorre-se a seguinte frmula para determinar o valor do Ganho
de Informao:
Onde: S o conjunto de exemplo de treino;
O ganho obtido seguindo a frmula acima e os dados da tabela acima descrita so os
seguintes seguintes;
Ganho (S, Umidade) = 0,057; Ganho (S, Vento) = 0,048; Ganho (S, Temperatura) = 0,029
Ganho (S, Tempo) = 0,247
Portanto, dos quatro atributos possiveis na primeira iterao, o atributo Dia que tem o grau
mais baixo de impureza, e, portanto, o mais promissor para construir uma rvore de Deciso
Compacta.
H muitos calculos matematicos envolvido que no foram mencionados, e outros detalhes
importantes do algoritmo ID3 precisariam ser abordados se nossa inteno fosse explicar seu
6
funcionamento. Porm o que pretendemos aqui apenas dar uma ideia terica e clara para que ao
nos depararmos com uma ferramenta que implemente este algoritmo se possvel entender o
resultado de seus clculos.
Overfitting e Pruning
Sem necessariamente entrar em muitos detalhes sobre as rvores no compactas, ao trabalhar com
elas podemos nos deparar em situaes que precisa-se tratar a rvore de modo a torna-la mais
simples de interpretar. A forma de superajustar os ramos de uma rvore de Deciso de modo a
atingir o objectivo desejado denomina-se Overfitting. Porm ao optar-se por superajutar a rvore
incorre-se ao risco deste conjunto de treinamento incluir ruido ou outliers o que pode levar a
estrutura resultante da rvore de Deciso a no reflectir s relaes essenciais entre os atributos
da Base de dados.
Para evitar com que a rvore sofra Overfitting muitos algoritmos se valem da tcnica conhecida
como Poda ou pruning, que consiste em eliminar alguns ramos da rvore de Deciso com base
em medidas estatisticas, deste modo constroi-se uma rvore clara e de fcil interpretao.
Referncias Bibliograficas
Extrao de rvores de Deciso com a Ferramenta de Data Mining Weka. (sem data). Obtido 12 de
Setembro de 2015, de http://www.devmedia.com.br/extracao-de-arvores-de-decisao-com-a-
ferramenta-de-data-mining-weka/3388
Extrao de rvores de Deciso com a Ferramenta de Data Mining Weka. (sem data). Obtido 22 de
Setembro de 2015, http://www.dct.ufms.br/~mzanusso/DataMining/pdfs/aula2.pdf
http://web.tecnico.ulisboa.pt/ana.freitas/bioinformatics.ath.cx/bioinformatics.ath.cx/indexf23d.html?id
=199
Brito, P. Q. (1999). O futuro da Internet: estado da arte e tendncias de evoluo. Centro Atlantico.
Quilici-Gonzalez, J. A., & Zampirolli, F. de A. (2015). Sistemas Inteligentes e Minerao de Dados.