Você Já Parou Para Pensar Na Quantidade e Variedade de Dados Que Geramos e Armazenamos a Cada Dia

1

Introduo

comum ouvirmos empresrios preocupados com as bolsas de valores, a cincia com as doenas,

suas pesquisas e avanos tecnolgicos, entre outras situaes. A flexibilidade de resposta dada a

essas situaes deve-se a informaes teis e no evidentes que residem em grandes bases de

dados. Estas informaes podem ser automaticamente extraidas atravs da Minerao de Dados e

interpretadas de modo a constituir conhecimento especializado e til para a tomada de deciso.

Sendo assim comea uma breve abordagem de Minerao de Dados atravs de rvores de Deciso

(ID3).

O que uma rvore de deciso?

comum ao pesquisar em diferentes literaturas deparar-se com o termo ID-3 sendo apresentado

de duas formas diferentes (Iteractive Dichotomiser 3 ou Induction Decision Tree que em traduo

literal refere-se a induo de rvores de deciso).

Segundo (Pichiliani,(2008) rvore de deciso uma tcnica que, a partir de uma massa de dados

(Data Mart e Data Warehouse), cria e organiza regras de classifio e deciso em formato de

diagrama de rvores, que iro classificar suas observaes ou predizer resultados futuros. Se seus

dados estiverem divididos em classes dicotmicas (busca entre duas altenativas), por exemplo,

infectados contra no-intectados uma rvore de deciso pode ser construida para criar regras que

classifiquem casos j existentes ou casos novos, com preciso.

Comea com um nico grupo que rene todos os casos em estudo. Na medida em que a rvore vai

se expandindo, esta base dividida em mdulos que representam categorias das variveis

analisadas. Cada galho da rvore formado por esses ndulos que vo se abrindo em subgrupos

mutuamente exclusivos.Cada ndulo e cada galho apresentam uma proporo de obteno da

resposta em estudo.

A titlo de exemplo de modo a elusidar a explicao, abaixo apresenta-se uma tabela e a respectiva

rvore de deciso, do clssico exemplo da partida de tnis baseada no dia, temperatura, umidade e

vento de modo a se apurar se a partida poder ou no ocorrer. Os maiores detalhes em relao a

criaco da rvore de deciso sero abordados ao longo do presente trabalho.

2

Tabela do Tempo

Dia Temperatura Umidade Vento Partida

Ensolarado Elevada Alta Falso No

Ensolarado Elevada Alta Verdadeiro No

Nublado Elevada Alta Falso Sim

Chuvoso Amena Alta Falso Sim

Chuvoso Baixa Normal Falso Sim

Chuvoso Baixa Normal Verdadeiro No

Nublado Baixa Normal Verdadeiro Sim

Ensolarado Amena Alta Falso No

Ensolarado Baixa Normal Falso Sim

Chuvoso Amena Normal Falso Sim

Ensolarado Amena Normal Verdadeiro Sim

Nublado Amena Alta Verdadeiro Sim

Nublado Elevada Normal Falso Sim

Chuvoso Amena Alta Verdadeiro No

Representao grfica da rvore de deciso

3

As rvores de deciso podem ser subdivididas em duas categorias que so: rvore de deciso

compacta e no compacta. A primeira categoria de rvores referente a construo de arvores

baseando-se em tecnicas de melhor desempenho e esconha de melhor com menos passos, enquanto

que a segunda categoria no segue um princpio exaustivo, ou seja, no procura especificar que

caminhos levam para a soluo do problema, limitando-se apenas a resolve-lo.

Sendo que o foco de presente texto tratar da primeira categoria (rvore de deciso compacta)

pois trata-se de uma categoria de rvore digamos que intelectual em sua criao, como podemos

notar na estrutura da rvore acima representada.

Como estamos interessados em construir uma rvore compacta, dentre os quarto atributos

candidatos para n raiz, o atributo Dia parece o mais promissor porque dentre as trs arestas que

teremos de colocar neste n (Ensolarado, Nublado e Chuvoso), a aresta para Nublado tem

todos seus elementos pertencentes mesma classe Sim e, portanto, esta aresta da rvore de

Deciso temina aqui com um n folha Sim.

Visto que as ramificaes dos valores Ensolarado e Chuvoso h elementos tanto da classe

Sim como da classe No, outro atributo deve ser escolhido para cada ramificao, e assim

sucessivamente deve ocorrer at que todos os elementos de um ramo pertenam a uma mesma

classe. Como restam os atributos Temperatura, Humidade e Vento.

Aps as combinaes terem sido testadas percebeu-se que Humidade parece ser a escolha mais

promissora porque todos os elementos com Humidade = Alta correspondem classe No e

todos os elementos de Humidade = Normal pertencem classe Sim. Portanto, temos mais dois

ns folhas aqui, favorecendo a construo de uma rvore mais compacta.

Agora restando apenas duas altenativas Temperatura e Vento pode-se efectuar algumas

combinaes para descobrir a mais interessante. Visto que a tabela acima mostrou o atributo

Vento o mais indicado para esta iterao porque todos os elementos de Vento = Verdadeiro

esto classificados como Sim e todos os elementos de Vento = Verdadeiro esto classificados

como No. Portanto estas duas ramificaes da rvore de Deciso terminam com um n folha

cada. Nesta iterao o algoritmo termina, pois todos os Exemplos da tabela foram avaliados e

classificados em suas respectivas classes. Porm algumas consideraes podem ser feitas.

4

Como determinar o Ganho de informao?

Por trs do critrio de seleco de atributos aqui apresentado de forma intuitiva, h uma slida

justificao matemtica introduzida por (QUINLAN, 1986), baseada na Teoria das Informao de

Claude Shannon, capaz de avaliar a quantidade de informao do melhor atributo dentre os

candidatos para teste em um determinado n.

O ganho de informao mede a eficcia, ou eficincia, de um atributo em classificar os dados de

treino, ou seja, a reduo esperada na entropia causada por particionar os exemplos de acordo

com este atributo.

A entropia um dado importante para calcular o ganho de informao. A Entropia uma medida

que caracteriza a aleatoriedade (impureza) de uma coleco arbitrria de exemplos.

De acordo com Shannon a entropia pode ser determinada atravs da seguinte frmula:

( ) =

=1

2

Onde a proporo de Sims e Nos associados a um atributo (o ganho de informao ou

entropia medida em bits, ou fraces de bits). Para o caso da tabela acima representada temos

duas classes (Sim e No), sendo que dos 14 exemplos, 9 pertencem classe Sim e 5 classe

No. Portanto, o ganho de informao associado a tabela pode ser calculada da seguinte forma:

() = (9

142

9

14) + (

5

142

5

14) = 0,94

Aps esse clculo agora pode-se efectuar o grau de impureza do atributo Dia. Esse atributo esta

subdividido em trs alternativas possveis, com as seguintes propores de Sims e No:

Ensolarado (2 Sim / 3No), Nublado (4 Sim / 0 No) e Chuvoso (3 Sim/ 2

No). Portanto, seu grau de impuresa ,

() = (2

52

2

5) + (

3

52

3

5) = 0,97

() = (4

42

4

4) + (

0

42

0

4) = 0,00

() = (3

52

3

5) + (

2

52

2

5) = 0,97

5

Fazendo a soma ponderada de cada uma dessas altenativas sobre os 14 Exemplos,

resulta,

() = 0,97 5

14+ 0

4

14+

5

14= 0,69

Aplicando-se o mesmo raciocnio para os atributos Temperatura, Humidade e Vento obtm-

se os seguintes valores,

() = 0,91

() = 0,79

() = 0,89

Aps a determinao da entropia recorre-se a seguinte frmula para determinar o valor do Ganho

de Informao:

Onde: S o conjunto de exemplo de treino;

O ganho obtido seguindo a frmula acima e os dados da tabela acima descrita so os

seguintes seguintes;

Ganho (S, Umidade) = 0,057; Ganho (S, Vento) = 0,048; Ganho (S, Temperatura) = 0,029

Ganho (S, Tempo) = 0,247

Portanto, dos quatro atributos possiveis na primeira iterao, o atributo Dia que tem o grau

mais baixo de impureza, e, portanto, o mais promissor para construir uma rvore de Deciso

Compacta.

H muitos calculos matematicos envolvido que no foram mencionados, e outros detalhes

importantes do algoritmo ID3 precisariam ser abordados se nossa inteno fosse explicar seu

6

funcionamento. Porm o que pretendemos aqui apenas dar uma ideia terica e clara para que ao

nos depararmos com uma ferramenta que implemente este algoritmo se possvel entender o

resultado de seus clculos.

Overfitting e Pruning

Sem necessariamente entrar em muitos detalhes sobre as rvores no compactas, ao trabalhar com

elas podemos nos deparar em situaes que precisa-se tratar a rvore de modo a torna-la mais

simples de interpretar. A forma de superajustar os ramos de uma rvore de Deciso de modo a

atingir o objectivo desejado denomina-se Overfitting. Porm ao optar-se por superajutar a rvore

incorre-se ao risco deste conjunto de treinamento incluir ruido ou outliers o que pode levar a

estrutura resultante da rvore de Deciso a no reflectir s relaes essenciais entre os atributos

da Base de dados.

Para evitar com que a rvore sofra Overfitting muitos algoritmos se valem da tcnica conhecida

como Poda ou pruning, que consiste em eliminar alguns ramos da rvore de Deciso com base

em medidas estatisticas, deste modo constroi-se uma rvore clara e de fcil interpretao.

Referncias Bibliograficas

Extrao de rvores de Deciso com a Ferramenta de Data Mining Weka. (sem data). Obtido 12 de

Setembro de 2015, de http://www.devmedia.com.br/extracao-de-arvores-de-decisao-com-a-

ferramenta-de-data-mining-weka/3388

Extrao de rvores de Deciso com a Ferramenta de Data Mining Weka. (sem data). Obtido 22 de

Setembro de 2015, http://www.dct.ufms.br/~mzanusso/DataMining/pdfs/aula2.pdf

http://web.tecnico.ulisboa.pt/ana.freitas/bioinformatics.ath.cx/bioinformatics.ath.cx/indexf23d.html?id

=199

Brito, P. Q. (1999). O futuro da Internet: estado da arte e tendncias de evoluo. Centro Atlantico.

Quilici-Gonzalez, J. A., & Zampirolli, F. de A. (2015). Sistemas Inteligentes e Minerao de Dados.

Documents

Você Já Parou Para Pensar Na Quantidade e Variedade de Dados Que Geramos e Armazenamos a Cada Dia