Descoberta de Conhecimento Em Banco de Dados

UNIVERSIDADE FEDERAL DO PARÁ

INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS

FACULDADE DE COMPUTAÇÃO

CURSO DE BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO

DANIEL DIAS DE CARVALHO

MAXWEL MACEDO DIAS

DESCOBERTA DE CONHECIMENTO EM AMBIENTES VIRTUAIS DE APRENDIZAGEM : UM ESTUDO DE CASO NO LABSQL

Belém – PA 2008

MAXWEL MACEDO DIAS

Orientador: Professor Dr. Eloi Luiz Favero

Belém – PA 2008

Trabalho de Conclusão de Curso apresentado como requisito para obtenção do grau de Bacharel em Ciência da Computação, Universidade Federal da Pará.

MAXWEL MACEDO DIAS

Data de defesa: 18 de Novembro de 2008.

Conceito: EXCELENTE

Banca Examinadora

Prof. Dr. Eloi Luiz Favero

Faculdade de Computação /UFPA - Orientador

Prof. Dr. Antônio Morais da Silveira

Faculdade de Computação / UFPA – Membro

Prof. Dr. Edson Marcos Leal Soares Ramos

Faculdade de Estatística /UFPA - Membro

Trabalho de Conclusão de Curso apresentado para obtenção do grau de Bacharel em Ciência da Computação, Universidade Federal do Pará.

AGRADECIMENTOS

Agradeço primeiramente a Deus, por me demonstrar de uma forma bem particular os

caminhos da vida.

Aos meus pais, Carlos e Raimunda, por me ensinarem os valores mais importantes e que

carregarei por toda a minha vida. A eles devo toda minha gratidão quanto pessoa.

Aos meus irmãos, Rafael e Gabriel, pelos momentos marcantes que passamos ao longo da

À minha afilhada, Karen Letícia, que apesar da distância sempre foi uma das minhas

maiores fontes de inspiração.

À toda a minha família que sempre me apoiou nos melhores e nos piores momentos.

Aos meus amigos do Curso de Bacharelado em Ciência da Computação, Adeilson

Pinheiro, Bernardo Lobato, Clodoaldo Estumano, Deivid Tinoco, Fábio Braga, Rafael

Takashima e Lis Kanashiro, pelo companheirismo estabelecido no decorrer do curso.

À toda equipe Web do Centro de Tecnologia da Informação e Comunicação da UFPA,

Jñane Neiva, Marcelo Silva, Yossef Castelo, Marcus Badi, Larissa Chagas, além dos já

citados amigos de curso, por proporcionarem uma ambiente de trabalho mais agradável

possível.

Aos meus velhos amigos, Silvio Porto, Gabriel Victor, Marcus Pinheiro, Anderson

Virino, Emanuel Rocha e Anderson José, por todos esses anos de amizade.

Gostaria de citar o nome das várias pessoas que permaneceram comigo e me ajudaram a

dar prosseguimento a etapa da minha vida, mas fica aqui pra aqueles que não citei o meu

sincero e profundo agradecimento.

Daniel Dias de Carvalho

AGRADECIMENTOS

Agradeço a Deus por tudo o que tem feito por mim até hoje. Por ter iluminado os

meus caminhos e me ajudado a vencer grandes obstáculos.

À minha mãe Elizabeth, e ao meu pai Jairo que sempre deram o melhor de si em

favor de mim. A quem devo toda a minha gratidão enquanto pessoa.

Aos meus tios Jackson e Nazaré, a minha irmã Marília e as minhas primas Juliana e

Luciana que me deram total apoio durante essa jornada.

Aos meus grandes amigos do Curso de Bacharelado em Ciência da Computação,

Robson Aguiar e Alessandra Caroline pelos momentos bons que compartilhamos. Esses

momentos ficarão marcados por toda vida.

Aos meus grandes e prestativos amigos do GEPEC, Luiz Alberto, Franklim dos

Santos, Paula Daniele, Tácio Vinícius, Monique Kelly e Vanessa Mayara, que sempre

estiveram ao meu lado durante essa jornada. Meu muito obrigado a todos.

Gostaria de citar o nome das várias pessoas que permaneceram comigo e me

ajudaram a dar prosseguimento a esta etapa da minha vida, mas fica aqui para aqueles que eu

não citei o meu sincero e profundo agradecimento.

Maxwel Macedo Dias

AGRADECIMENTOS

Agradecemos ao nosso orientador, o professor Eloi Luiz Favero, pelo empenho com que

conduziu a orientação deste trabalho.

A todos os professores da Universidade Federal do Pará que contribuíram direta ou

indiretamente para a nossa formação. Em especial aos professores da Faculdade de

Computação e Estatística, em especial ao professor Edson Marcos Leal Soares Ramos.

SUMÁRIO

LISTA DE FIGURAS ....................................................................................................... x

LISTA DE TABELAS ................................................................................................... xiii

LISTA DE SIGLAS ........................................................................................................ xv

RESUMO ....................................................................................................................... xvii

ABSTRACT .................................................................................................................. xviii

1. INTRODUÇÃO ........................................................................................................ 1

1.1. Motivação ..............................................................................................................................1

1.2. Justificativa ...........................................................................................................................1

1.3 Trabalhos Relacionados .........................................................................................................3

1.4. Objetivos ...............................................................................................................................4

1.4.1 Objetivos Gerais ........................................................................................................................... 4

1.4.2 Objetivos Específicos ................................................................................................................... 4

1.5. Procedimentos Metodológicos e Técnicas ............................................................................5

1.6. Organização do Trabalho ......................................................................................................5

2. EDUCAÇÃO A DISTÂNCIA .................................................................................. 7

2.1 Ambientes Virtuais de Aprendizagem ...................................................................................7

2.1.1 TelEduc ........................................................................................................................................ 7

2.1.2 MOODLE ................................................................................................................................... 10

2.1.3 LabSQL ...................................................................................................................................... 12

3. DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS .................... 17

3.1. Dados, Informação e Conhecimento ...................................................................................17

3.2. Etapas da Descoberta de Conhecimento .............................................................................20

3.2.1 Seleção de Dados ........................................................................................................................ 20

3.2.2 Pré-processamento e Limpeza .................................................................................................... 21

3.2.3 Transformação ............................................................................................................................ 21

3.2.4 Mineração de Dados (MD) ......................................................................................................... 21

3.2.5 Interpretação ............................................................................................................................... 22

4. MINERAÇÃO DE DADOS ................................................................................... 23

4.1. Tarefas de Mineração de Dados ..........................................................................................23

4.1.1 Classificação ............................................................................................................................... 23

4.1.2 Associação .................................................................................................................................. 24

4.1.3 Estimativas ................................................................................................................................. 24

4.1.4 Sumarização ............................................................................................................................... 25

4.1.5 Agrupamento .............................................................................................................................. 25

4.2. Tarefa de Classificação .......................................................................................................25

4.2.1. Árvore de Decisão ..................................................................................................................... 26

4.2.2. Representação de uma Árvore de Decisão ................................................................................ 27

4.2.3. Entropia ..................................................................................................................................... 28

4.2.4. Overfitting e Underfitting .......................................................................................................... 29

4.2.5. Podagem .................................................................................................................................... 30

4.2.6. Algoritmos de Árvore de Decisão ............................................................................................. 30

4.2.6.1. Algoritmo ID3 ................................................................................................................... 30

4.2.6.2. Algoritmo C4.5 .................................................................................................................. 31

4.2.6.3. Algoritmo CART (Classification and Regression Trees) .................................................. 32

4.2.7. Redes Bayesianas ...................................................................................................................... 32

4.2.8. Vantagens das Redes Bayesianas .............................................................................................. 36

4.3. Ferramentas de Mineração de Dados ..................................................................................37

4.3.1. WEKA ....................................................................................................................................... 38

4.3.1.1. Arquivos ARFF ................................................................................................................. 39

4.3.2. Bayesware Discoverer ............................................................................................................... 41

5. ESTUDO DE CASO: MINERAÇÃO DO LABSQL ........................................... 45

5.1 O processo de KDD .............................................................................................................45

5.1.1. Seleção dos Dados ..................................................................................................................... 46

5.1.2. Pré-processamento e Limpeza dos Dados ................................................................................. 46

5.1.3. Transformação dos Dados ......................................................................................................... 47

5.1.4. Mineração de Dados ............................................................................................................. 49

5.1.4.1 Aplicação de Redes Bayesianas .......................................................................................... 49

5.1.4.2 Aplicação de Árvore de Decisão ......................................................................................... 50

5.1.5. Análise dos Resultados e Interpretações .............................................................................. 50

5.1.5.1 Análise dos Resultados e Interpretações das Redes Bayesianas ......................................... 50

5.1.5.2 Análise dos Resultados e Interpretações da Árvore de Decisão ......................................... 56

5.2 Análise Comparativa entre um Modelo de Classificação de Árvore de Decisão e um de

Rede Bayesiana ..................................................................................................................................61

6. CONCLUSÃO ......................................................................................................... 64

6.1. Considerações Finais ...........................................................................................................64

6.2. Trabalhos Futuros ................................................................................................................65

REFERÊNCIAS .............................................................................................................. 66

APÊNDICE A – DESCRIÇÃO COMPLETA DOS 59 ATRIBUTOS

TRABALHADOS ............................................................................................................ 71

APÊNDICE B – ANÁLISE DESCRITIVA DOS DADOS COLETADOS NO

LABSQL .......................................................................................................................... 75

APÊNDICE C – MINERAÇÃO DE DADOS: PASSO A PASSO NA

FERRAMENTA BAYESWARE DISCOVERER ....................................................... 85

APÊNDICE D – MINERAÇÃO DE DADOS: PASSO A PASSO NA

FERRAMENTA WEKA ................................................................................................ 89

ANEXO A – METODOLOGIA PARA O TESTE DE HIPÓTESES PAR A

PROPORÇÕES ............................................................................................................... 92

LISTA DE FIGURAS

Figura 2.1 Organização Lógica das Ferramentas do TelEduc. (ROCHA, 2002, apud

OEIRAS, 2005) .................................................................................................................. 9

Figura 2.2 Visão Geral da Arquitetura do LabSQL, LINO et al., (2007). ................. 13

Figura 2.3 Organização dos Módulos no LabSQL (LINO, 2007). .............................. 15

Figura 3.1 Relacionamento Entre Dados, Informação e Conhecimento (KOCK JR.

et al., 1996, apud REZENDE et al., 2003 ). .................................................................... 18

Figura 3.2 Etapas do KDD (FAYYAD et al., 1996). ..................................................... 20

Figura 4.1 Representação de Uma Árvore de Decisão. ............................................... 28

Figura 4.2 Um Grafo Dirigido Acíclico. ........................................................................ 34

Figura 4.3 Rede Bayesiana para o Domínio 1 (RUSSEL, 1995). ................................ 34

Figura 4.4 Rede Bayesiana do Domínio 1 com a Probabilidade de cada Variável

(Adaptado de RUSSEL, 1995). ...................................................................................... 36

Figura 4.5 Interface da Ferramenta WEKA. ............................................................... 39

Figura 4.6 Exemplo de um Arquivo ARFF. ................................................................. 40

Figura 4.7 Visão Geral da Interface Gráfica do Bayesware Discoverer

(BAYESWARE, 2000). ................................................................................................... 42

Figura 4.8 Visão da Network Window (BAYESWARE, 2000). ................................... 43

Figura 5.1 Representação dos Dados no Formato Separado por Tabulação. ........... 48

Figura 5.2 Representação dos Dados no Formato ARFF. ........................................... 49

Figura 5.3 Rede Bayesiana para Análise da Demora para Inscrição na Turma. ..... 51

Figura 5.4 Tabelas de Probabilidade para Análise da Demora para Inscrição dos

Usuários no Ambiente LabSQL (demora_para_inscricao_turma). ............................. 52

Figura 5.5 Tabelas de Probabilidade e Rede Bayesiana para Análise do

Coordenador da Turma. ................................................................................................ 53

Figura 5.6 Rede Bayesiana para Análise dos Usuários que estão, ou não, Acima da

Média de Pontos em Questões de Programação SQL nos Exercícios e Avaliações

(atributo acima_media_de_total_pontos_sql). ............................................................... 54

Figura 5.7 Tabelas de Probabilidade para Análise dos Usuários que estão, ou não,

Acima da Média de Pontos em Questões de Programação SQL nos Exercícios e

Avaliações (atributo acima_media_de_total_pontos _sql). ........................................... 55

Figura 5.8 Resultado do Teste de Validação Cruzada Executado pelo Bayesware. . 55

Figura 5.9 Regras de Classificação para Análise dos Usuários que estão, ou não,

Acima da Média de Acessos ao Ambiente LabSQL (atributo acima_qtd_acessos). .. 58

Figura 5.10 Regras de Classificação para Análise dos Usuários que estão, ou não,

Acima da Média de Acessos ao SQL-Livre (atributo acima_qtd_acessos_sql_livre). 59

Figura 5.11 Árvore de Decisão para Análise dos Usuários que estão, ou não, Acima

da Média de Tentativas de Programação SQL nas Avaliações (atributo

acima_media_de_tentativas_sql_avaliacao). .................................................................. 60

Figura 5.12 Rede Bayesiana para Análise dos Usuários que estão, ou não, Acima da

Média de Pontos em Questões de Programação SQL nas Avaliações (Atributo

Acima_media_Pontos_SQL_Avaliação). ........................................................................ 61

Figura 5.13 Árvore de Decisão na forma de Regras de Classificação para Análise

dos Usuários que estão, ou não, Acima da Média de Pontos em Questões de

Programação SQL nas Avaliações (Atributo Acima_media_Pontos_SQL_Avaliação).

........................................................................................................................................... 62

Figura B.1.1 Percentual de Usuários que Utilizaram o LabSQL, no Ano de 2007 e

no 1º Semestre de 2008, por Gênero. ............................................................................. 75

no 1º Semestre de 2008, por Acesso ao SQL Livre. ...................................................... 79

no 1º Semestre de 2008, por Acesso ao SQL-Livre e Identificação da Turma. ......... 80

Figura B.5.3 Percentual de Acessos ao SQL-Livre pelos Usuários que Utilizaram o

LabSQL, no Ano de 2007 e no 1º Semestre de 2008, por Identificação da Turma. .. 81

Figura B.6.1 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no

Ano de 2007 e no 1º Semestre de 2008, por Acesso ao Material de Apoio. ............... 82

Figura B.6.2 Percentual de Usuários que Utilizaram o Ambiente LabSQL, no Ano

de 2007 e no 1º Semestre de 2008, por Acesso ao Material de Apoio e Identificação

da Turma. ........................................................................................................................ 83

Figura B.6.3 Percentual de Acessos ao Material de Apoio pelos Usuários que

Utilizaram o Ambiente LabSQL, no Ano de 2007 e no 1º Semestre de 2008, por

Identificação da Turma. ................................................................................................. 84

Figura C.1 Tela Inicial do Bayesware Discoverer. ....................................................... 85

Figura C.2 Visualização do Banco de Dados Carregado no Bayesware Discoverer. 86

Figura C.3 Opção para Discretização de Atributos Contínuos. ................................ 87

Figura D.1 Tela do Modo Explorer no WEKA. ........................................................... 89

Figura D.2 Algoritmos Disponíveis no WEKA. ............................................................ 90

Figura D.3 Execução do Algoritmo J48 no WEKA ..................................................... 91

LISTA DE TABELAS

Tabela 4.1 TPC para a Variável Alarme ...................................................................... 35

Tabela 5.1 Resultados do Teste para a Diferença de Duas Proporções, ao nível de

significância α = 0,05 ou 5%........................................................................................... 63

Tabela B.1.1 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no

Ano de 2007 e no 1º Semestre de 2008, por Gênero. .................................................... 75

Ano de 2007 e no 1º Semestre de 2008, por Curso. ...................................................... 76

Ano de 2007 e no 1º Semestre de 2008, por Identificação da Turma. ........................ 77

Tabela B.4.1 Média de Acesso dos Usuários que Utilizaram o LabSQL, no Ano de

2007 e no 1º Semestre de 2008, por Identificação da Turma. ..................................... 78

Ano de 2007 e no 1º Semestre de 2008, por Acesso ao SQL-Livre. ............................ 78

Ano de 2007 e no 1º Semestre de 2008, por Acesso ao SQL-Livre e Identificação da

Turma. .............................................................................................................................. 79

Tabela B.5.3 Quantidade e Percentual de Acessos ao SQL-livre pelos Usuários que

Utilizaram o LabSQL, no Ano de 2007 e no 1º Semestre de 2008, por Identificação

da Turma. ........................................................................................................................ 80

Ano de 2007 e no 1º Semestre de 2008, por Acesso ao Material de Apoio. ............... 81

Tabela B.6.2 Quantidade e Percentual de Usuários que Utilizaram o Ambiente

LabSQL, no Ano de 2007 e no 1º Semestre de 2008, por Acesso ao Material de

Apoio e Identificação da Turma. ................................................................................... 82

Tabela B.6.3 Quantidade e Percentual de Acessos ao Material de Apoio pelos

Usuários que Utilizaram o Ambiente LabSQL, no Ano de 2007 e no 1º Semestre de

2008, por Identificação da Turma. ................................................................................ 83

LISTA DE SIGLAS

AG Algoritmos Genéticos

ARFF Attribute-Relation File Format

AVA Ambiente Virtual de Aprendizagem

BD Banco de Dados

CART Classification and Regression Trees

CHAID Chi-squared Automatic Interation Detector

DCL Data Control Language

DDL Data Definition Language

DM Data Mining

DW Data Warehouse

EaD Educação a Distância

GPL GNU General Public License

ID3 Iterative Dichotomizer 3

IP Internet Protocol

KDD Knowledge Discovery in Databases

LabSQL Laboratório para Ensino de SQL On-Line

MD Mineração de Dados

MOODLE Modular Object-Oriented Dynamic Learning

PDF Portable Document Format

RNA Redes Neurais Artificiais

SGBD Sistema Gerenciador de Banco de Dados

SQL Linguagem de Consulta Estruturada (Structured Query Language)

TPC Tabela de Probabilidades Condicionais

Unicamp Universidade Estadual de Campinas

WEKA Waikato Environment for Knowledge Analysis

RESUMO

A utilização do Ensino a Distância a partir da Internet tem crescido bastante nos últimos

anos, no entanto, uma das maiores dificuldades está em acompanhar o aprendizado dos

estudantes. Nesse contexto, este trabalho tem o objetivo de analisar os dados de um Ambiente

Virtual de Aprendizagem a partir da aplicação de técnicas de Mineração de Dados para

descobrir informações relevantes sobre o perfil dos envolvidos com relação à utilização dessa

tecnologia. Para isso, foram aplicadas as técnicas de Mineração de Dados denominadas

Árvore de Decisão e Redes Bayesianas para a descoberta de conhecimento em relação ao

processo de ensino-aprendizagem no ambiente virtual de aprendizagem denominado LabSQL.

Palavras-Chave:

Mineração de Dados, Redes Bayesianas, Árvore de Decisão, Ensino a Distância, LabSQL.

ABSTRACT

Using Distance Learning from the Internet has grown greatly in recent years, however, is

one of the greatest difficulties in tracking the learning of students. In that context, this study

aims to analyze the data of a Virtual Learning Environment from the implementation of Data

Mining to find relevant information about the profile of those involved with respect to the use

of this technology. To do this, we applied the techniques of Data Mining called Decision Tree

and Bayesian Networks for the knowledge discovery regarding the process of teaching-

learning in the LabSQL.

Key words:

Data mining, Bayesian Networks, Decision Tree, Distance Learning, LabSQL.

1. INTRODUÇÃO

Para uma melhor análise e compreensão do tema deste trabalho, será apresentada a

motivação do trabalho, a justificativa, os trabalhos relacionados, os objetivos gerais e

específicos a serem alcançados, os procedimentos metodológicos e técnicas e, finalmente, a

forma como foi estruturado esse trabalho.

1.1. MOTIVAÇÃO

Após cursar a disciplina de Informática na Educação, em que se tem a oportunidade de

aprender alguns conceitos e realizar algumas leituras sobre Educação a Distância (EaD),

entende-se que ela que surge como alternativa complementar ao ensino tradicionalmente

presencial, possibilitando que indivíduos, independente do lugar onde moram ou tempo

disponível, tenham oportunidade de iniciar ou complementar seus estudos. As possibilidades

de se proporcionar a EaD têm sido ampliadas devido à rápida evolução das tecnologias de

informação e comunicação, assim como das possibilidades oferecidas pelas mesmas. A

Internet é uma das ferramentas que desempenham um importante papel na EaD, uma vez que

facilita o acesso a grandes repositórios de informação, materiais e possibilita uma intensa

interação entre pessoas a partir de Ambientes Virtuais de Aprendizagem (AVA).

1.2. JUSTIFICATIVA

A utilização da Internet tem crescido demasiadamente nos últimos anos, proporcionando

a disseminação dos mais variados tipos de informações e serviços, como por exemplo,

comércio eletrônico, sites de relacionamentos, bibliotecas digitais, educação a distância,

dentre outros. A acessibilidade e a facilidade do uso de ferramentas para manipular os

recursos da web tem tornado esta tecnologia uma escolha para EaD (MACHADO e BECKER,

2002).

Segundo Souza (2007), a EaD é uma forma de organização de ensino-aprendizagem na

qual alunos estudam, quer em grupo, quer individualmente em seus lares, locais de trabalho

ou outros lugares com materiais auto-instrutivos distribuídos por meios de comunicação,

possibilitando a comunicação com docentes, monitores ou outros alunos.

Os Ambientes Virtuais de Aprendizagem (AVA) têm o objetivo de apoiar classes de

usuários a partir da Internet, sendo útil para usuários que não residem perto de instituições de

ensino, ou não dispõem de horários regulares para estudar. Além de servir como uma

importante ferramenta complementar para os cursos presenciais.

Os sistemas de aprendizagem baseados na Web contam com os servidores Web para

fornecer acesso aos recursos e aplicações. Os servidores Web armazenam os acessos de todas

as atividades em um arquivo de log (registro) na forma de transações. Cada transação indica

quais páginas Web ou scripts foram requisitados e o status da requisição, o momento da

solicitação, o endereço IP de onde partiu a solicitação, possivelmente a identificação dos

usuários, dentre outros (COOLEY et al., 1999). Do ponto de vista técnico, as dificuldades de

se construir um curso baseado na Web são mínimas, principalmente após o aparecimento de

ferramentas que subtraem do professor à necessidade de conhecer a tecnologia das redes,

deixando para ele a única e grande responsabilidade de se preocupar com o conteúdo de sua

disciplina.

Os educadores deste novo processo de aprendizagem utilizam estes ambientes e

ferramentas para disponibilizar informações online, porém possuem pouco suporte para

avaliar e discriminar os diferentes comportamentos das ações dos alunos sobre o AVA e a

forma de execução das atividades online propostas durante a realização dos cursos (ZAIANE

e LUO, 2001). Portanto, um dos grandes problemas da Educação a Distância está na

dificuldade de acompanhar o aprendizado dos alunos à distância. Esta dificuldade se justifica,

entre outros, pela falta de contato presencial entre professores e alunos. Sendo assim, faz-se

necessário o desenvolvimento de técnicas computacionais que analisem essa grande

quantidade de dados e que possam mostrar padrões comportamentais dos alunos dentro desses

ambientes (DIAS, 2008a; DIAS, 2008b).

Sendo, dessa forma, de grande importância a realização de pesquisas nessa área, de modo

que os educadores deste novo processo tenham cada vez mais informações a fim de avaliar e

discriminar os diferentes comportamentos dos alunos sobre o AVA na Educação a Distância.

A Mineração de Dados (MD), definida como a descoberta de conhecimento não-trivial e

útil em grandes bases de dados (GOLDSCHMIDT e PASSOS, 2005), apresenta variedade de

aplicabilidade de suas técnicas e tarefas a partir dos bancos de dados dos ambientes de EaD.

Tais dados são provenientes, geralmente, do histórico dos acessos aos recursos do sistema

pelos alunos, suas avaliações, comunicação (chat e e-mail) entre alunos e entre alunos e

professores, tempo utilizando o sistema, dentre outros.

1.3 TRABALHOS RELACIONADOS

Alguns trabalhos foram realizados, mostrando como técnicas de Mineração de Dados

podem auxiliar na análise de um sistema de ensino a distância na Internet. Apresentando,

dessa forma, novos mecanismos para analisar os atributos envolvidos na análise do

desempenho dos aprendizes em um curso de ensino a distância.

Machado e Becker (2002) propõem um estudo de caso, para acompanhar uma aplicação

voltada ao processo de ensino-aprendizagem a distância, onde se busca descobrir e analisar,

através da mineração Web, as interações destes usuários com o ambiente de ensino baseado na

Web. Mais especificamente, busca-se estabelecer um modelo de Mineração do Uso da Web

pertinente para a descoberta de conhecimento aplicado a ambientes de ensino a distância a

partir da análise de navegação dos usuários enquanto interagem neste ambiente, a fim de

prover recursos de comparação entre os projetos atuais de um site educativo e seu uso real.

Lopes e Schiel (2004) propõem uma estratégia para o acompanhamento do aprendizado

na educação a distância baseada nas práticas de acompanhamento do ensino presencial,

acrescida da técnica de análise de dados. Estes fatores permitem verificar a aprendizagem de

forma mais elaborada. Estes dados foram gerados com ferramentas de Mineração de Dados.

Wang e Meinel (2007) descobriram mudanças interessantes no aprendizado dos

estudantes que usam os AVA’s. Seu trabalho foi implementado em um ambiente de ensino a

distância denominado tele-TASK. Os resultados da mineração foram úteis para ajudar os

professores a conhecer seus estudantes e ajustar o programa de ensino de maneira mais eficaz.

Desta forma, o presente trabalho está centrado na pesquisa de técnicas e ferramentas

computacionais que podem auxiliar os educadores no processo de ensino-aprendizado,

fornecendo suporte para avaliar e discriminar os diferentes comportamentos dos alunos sobre

o AVA denominado LabSQL, utilizado na Educação a Distância da Universidade Federal do

Pará.

1.4. OBJETIVOS

Para um melhor entendimento dos objetivos a serem alcançados por esta pesquisa, foi

realizada a divisão deste tópico em objetivos gerais e objetivos específicos.

1.4.1 Objetivos Gerais

Este trabalho tem por objetivo geral analisar os dados obtidos a partir do Banco de Dados

de um AVA, aplicando técnicas de Mineração de Dados para descobrir informações

relevantes sobre o perfil dos envolvidos – alunos e professores - com relação à utilização

dessa tecnologia e ao processo de ensino-aprendizagem. Dessa forma, são avaliadas as

informações obtidas a partir do AVA denominado LabSQL com objetivo de gerar

informações que possam apoiar os educadores no processo de ensino-aprendizagem. Para a

obtenção desses resultados, são utilizadas as técnicas de Mineração de Dados denominadas

Árvore de Decisão e Redes Bayesianas.

1.4.2 Objetivos Específicos

i. Analisar os dados disponíveis no LabSQL e identificar as principais dificuldades

para a realização da Mineração de Dados nessa base de dados;

ii. Realizar os tratamentos dos dados obtidos para uma melhor aplicação das técnicas

de Mineração de Dados baseadas nas Árvores de Decisão e Redes Bayesianas;

iii. Utilizar a Mineração de Dados para a descoberta de conhecimento, proporcionando

aos educadores mais mecanismos para planejar a utilização do ambiente virtual de

aprendizagem LabSQL no processo de ensino-aprendizagem;

iv. Apresentar um estudo de caso utilizando o ambiente de ensino-aprendizagem

LabSQL.

1.5. PROCEDIMENTOS METODOLÓGICOS E TÉCNICAS

i. Pesquisa bibliográfica acerca das técnicas de Mineração de Dados que podem ser

utilizadas para a realização da análise e acompanhamento do aprendizado em um

ii. Pesquisa bibliográfica acerca das ferramentas computacionais que podem auxiliar

no processo de Mineração de Dados;

iii. Pesquisa bibliográfica acerca das técnicas computacionais e estatísticas que vão

orientar na análise e interpretação dos dados;

iv. Estudos exploratórios acerca da utilização do AVA LabSQL;

v. Desenvolver um estudo de caso com o objetivo de analisar o AVA LabSQL a partir

da aplicação de técnicas de Mineração de Dados a fim de descobrir novos padrões e

regras que possam auxiliar neste processo;

vi. Coletar dados estruturados acerca das atividades desenvolvidas em um AVA

utilizando a linguagem de consulta estruturada SQL;

vii. Utilizar de técnicas de Mineração de Dados denominadas Árvore de Decisão e

Redes Bayesianas para realização da descoberta de conhecimento no processo de

aprendizado na EaD.

1.6. ORGANIZAÇÃO DO TRABALHO

O presente trabalho foi dividido em seis capítulos, além deste Capitulo introdutório, este

trabalho está organizado como segue:

No Capítulo 2 são apresentados os conceitos de Ensino a Distância e uma visão geral dos

AVAs, sendo enfatizado o ambiente LabSQL;

No Capítulo 3 são apresentados os conceitos Descoberta de Conhecimento em Base de

Dados (KDD), bem como a descrição de cada uma das etapas desse processo;

No Capítulo 4 são discutidas a Mineração de Dados, suas tarefas, técnicas e algoritmos.

Além da apresentação das ferramentas Bayesware Discovery e WEKA. Detalhando-se ainda

as técnicas de Mineração de Dados utilizada neste trabalho denominadas Árvore de Decisão e

Redes Bayesianas;

No Capítulo 5 é apresentado o estudo de caso realizado a partir do LabSQL, em que são

mostrados as etapas e os resultados da aplicação das técnicas de Mineração de Dados;

Finalmente, no Capítulo 6 apresenta-se as considerações finais e as propostas de trabalhos

futuros.

2. EDUCAÇÃO A DISTÂNCIA

A educação moderna se preocupa com o aluno na elaboração do saber, sendo

caracterizada de uma forma mais pessoal, respeitando o ritmo individual de cada estudante

(LOLLINI, 2001). O professor deixa de ser um mero distribuidor de conhecimento e os

alunos apenas receptores passivos. O acesso à Internet permite ao estudante navegar em um

mar de informações em tempo real, aumentando de forma exponencial a sua experiência com

o conhecimento. A partir de então, o termo EaD (Educação a Distância) passa a ser difundido,

amadurecido e implementado em larga escala.

A EaD vem se tornando um novo paradigma de aprendizado, aliada a toda infra-estrutura

e todo o aparato tecnológico disponível, crescente a cada dia. Atualmente, não é preciso muito

esforço para encontrar atividades que vão de cursos supletivos a programas de pós-graduação,

cursados totalmente ou parcialmente a distância. Diversas ferramentas computacionais,

conhecidas como Ambientes Virtuais de Aprendizagem, já existem e outras estão sendo

criadas a cada dia com o objetivos de dar apoio a EaD.

2.1 AMBIENTES VIRTUAIS DE APRENDIZAGEM

O ambiente de aprendizagem ou Ambiente de Educação a Distância é um sistema que

fornece suporte a qualquer tipo de atividade realizada pelo aluno, isto é, um conjunto de

ferramentas que são utilizadas em diferentes situações do processo de aprendizagem. Estes

ambientes têm o objetivo de apoiar classes de usuários por meio da Internet, sendo útil para

usuários que não residem perto de instituições de ensino, ou não dispõem de horários

regulares para estudar (MARTINS e CAMPESTRINI, 2004).

As Subseções 2.1.1, 2.1.2 e 2.1.3 apresentam os AVA’s TelEduc, MOODLE e, em mais

detalhes o LabSQL, respectivamente.

2.1.1 TelEduc

O TelEduc é um AVA desenvolvido na Universidade Estadual de Campinas (Unicamp)

em uma parceria entre o Instituto de Computação (IC) e o Núcleo de Informática Aplicada à

Educação (Nied). OEIRAS (2005) comenta que começou a ser implementado no ano de 1997

e teve como objetivo inicial apoiar cursos de formação docente na utilização de computadores

como ferramenta pedagógica, porém, com o passar dos anos, a ferramenta rompeu as

fronteiras da Unicamp e atualmente mais de 4 mil instituições em todo o país e no exterior

estão cadastradas para o uso, inclusive a Universidade Federal do Pará (UFPA).

O TelEduc é um software que está sob os termos da GNU General Public License (GPL),

portanto, pode ser livremente copiado, distribuído, utilizado e modificado (GNU, 2008). Foi

desenvolvido nas linguagens de programação Java1 e PHP2 e utiliza o gerenciador de banco

de dados MySQL.

O ambiente disponibiliza diversos recursos de acordo com o perfil do usuário que o

acessa: alunos ou professores (formadores). A Figura 2.1 demonstra a organização lógicas das

ferramentas disponíveis no TelEduc.

1 Java é uma linguagem de programação orientada a objetos, multi-plataforma e de propósito geral. 2 PHP é uma linguagem de programação interpretada, que foi desenvolvida especialmente para a implementação de

aplicativos Web.

Figura 2.1 Organização Lógica das Ferramentas do TelEduc. (ROCHA, 2002, apud OEIRAS, 2005)

Dentre os recursos disponíveis no ambiente TelEduc, destacam-se:

i. Dinâmica do Curso: contém informações sobre a metodologia e a organização do

curso;

ii. Atividades: atividades a serem realizadas durante o curso;

iii. Material de Apoio: informações úteis relacionadas à temática do curso,

subsidiando o desenvolvimento das atividades propostas;

iv. Leituras: artigos relacionados à temática do curso e algumas sugestões de revistas,

jornais, endereços na web;

v. Perguntas Freqüentes: relação das perguntas realizadas com maior freqüência

durante o curso e suas respectivas respostas;

vi. Correio: correio eletrônico interno do ambiente;

vii. Grupos: grupos de pessoas para facilitar a distribuição de tarefas;

viii. Portfólio : ferramenta onde os participantes do curso podem armazenar textos e

arquivos a serem utilizados ou desenvolvidos durante o curso, bem como endereços

da Internet; esses dados podem ser particulares ou compartilhados; se

compartilhados, podem receber comentários;

ix. Intermap : que permite aos docentes visualizar a interação dos participantes do

curso;

x. Administração: disponibilizar materiais nas diversas ferramentas do ambiente,

bem como configurar opções em algumas delas; permite também gerenciar as

pessoas que participam do curso.

2.1.2 MOODLE

O MOODLE (Modular Object-Oriented Dynamic Learning) foi desenvolvido pelo

educador e cientista computacional australiano Martin Dougiamos, no ano de 1999. Segundo

MOODLE (2008), está disponível em mais de 75 idiomas e é utilizado por instituições de

todo o mundo, contendo uma comunidade com mais de 200 mil usuários em 193 países.

Assim como, o TelEduc, está sob os termos da GPL, de forma que pode ser modificado,

copiado e redistribuído seguindo suas especificações. É implementado na linguagem PHP e

utiliza o gerenciador de banco de dados MySQL. Possui uma vasta documentação em vários

idiomas disponível no site oficial3.

O MOODLE é baseado em uma filosofia particular de aprendizado, a chamada

“Pedagogia social construtivista”. Esta filosofia é baseada em quatro conceitos principais, que

3 http://moodle.org

regem todo o processo de aprendizado no ambiente. são eles: o construtivismo, o

construcionismo, o construcionismo social e o Connected and separate (MOODLE, 2008).

Dentre os recursos disponíveis no ambiente MOODLE, destacam-se:

i. Fóruns: são utilizados para discussões sobre os mais variados temas pelos

participantes cadastrados em um curso. São importantes por tratar-se de um espaço

onde os alunos e professores trocam idéias e reflexões. Uma característica

importante é que as mensagens podem incluir anexos;

ii. Chats: a ferramenta de chat permite uma comunicação síncrona, com feedback4

imediato entre os professores e estudantes. É bastante útil para o esclarecimento de

dúvidas;

iii. Diálogos: uma forma simples de comunicação entre dois alunos ou entre um aluno

e um professor participante da disciplina;

iv. Testes: os testes podem ser para os alunos responderem entre verdadeiro e falso,

múltipla escolha, valores específicos, dentre outras formas. A correção é feita

automaticamente e, portanto, os alunos têm um feedback imediato;

v. Trabalhos: espaço reservado para os alunos submeterem matérias, tais como

apresentações. Os professores fazem comentários e atribuem notas aos trabalhos;

vi. Wikis: essa ferramenta permite a construção colaborativa de conteúdos multimídia.

Os participantes podem acrescentar conteúdo de forma incremental e as versões

serão guardadas para uma posterior comparação entre elas;

vii. Glossários: com os glossários, os participantes podem formar uma base de termos

com seus respectivos significados;

viii. Livros: simulam um livro de forma on-line, onde é possível encadear páginas e

organizá-las em capítulos e sub-capítulos;

4 Resposta sobre algo feito, para verificar se foi adequadamente executado.

ix. Referendos: esta ferramenta permite definir as opções, em que os participantes

podem votar escolhendo uma das alternativas disponíveis. O referendo pode ser

anônimo ou público, podendo ser ocultado o resultado até que seja colocada uma

resposta;

x. Questionários: permitem construir inquéritos para os participantes inscritos no

sistema ou, até mesmo, para participantes que não estão inscritos. Existe a opção de

manter o anonimato.

2.1.3 LabSQL

O LabSQL é um ambiente interativo para auxiliar os alunos no aprendizado da linguagem

SQL e pode ser utilizado como ferramenta de apoio ao mediador para realizar

automaticamente as avaliações nas atividades de laboratório (LINO et al., 2007). As

principais vantagens são, para os alunos, recebem feedback imediatamente. para os

professores, tem a vantagem de deixar de corrigir manualmente todos os exercícios dos

alunos.

No ambiente de aprendizagem de SQL, o aprendiz visualiza o texto didático

acompanhado de exemplos executáveis. Juntamente com o conteúdo são apresentadas listas

de exercícios para que o aprendiz treine suas habilidades. Existem três tipos de exercícios:

objetivos de múltipla escolha (ou V/F); não objetivos descritivos e exercícios de programação.

No momento em que o aprendiz interage com o sistema, enviando sua consulta SQL, o

sistema executa e avalia a complexidade desta consulta em relação à consulta do mediador.

Dessa forma, o aprendiz pode receber um retorno automático, contendo: o resultado da

consulta, permitindo avaliar se a resposta está correta ou não; a avaliação automática da

resposta do aprendiz, levando em consideração o resultado da execução e o grau de

complexidade comparado com a resposta do mediador; o número de tentativas e a avaliação

global da prova ou exercício.

Na Figura 2.2, está representada a arquitetura geral do LabSQL. Nela, observa-se a

interface de mediação, que é utilizada pelo professor para definir as avaliações e questões e

algumas soluções associadas. As questões podem ser disponibilizadas apenas para

treinamento ou para a avaliação formal dos alunos e a seleção das mesmas pode ser feita

previamente pelo professor ou a partir de um sorteio entre as questões armazenas da base de

avaliações e questões, que é feito isoladamente para cada aluno. No segundo caso, cada aluno

terá uma alta probabilidade de ter uma lista de questões bastante distinta dos demais alunos.

Figura 2.2 Visão Geral da Arquitetura do LabSQL, LINO et al., (2007).

A interface de aprendizagem é utilizada pelos alunos para resolver as questões

selecionadas anteriormente. Ao enviar uma questão, a requisição passa pelo executor de

avaliações, que por sua vez aciona o interpretador SQL. O interpretador SQL retorna o

resultado da consulta feita pelo aluno e a compara com a base de testes daquele aluno. Caso as

consultas retornem os mesmos resultados, a consulta do aluno é avaliada automaticamente

pelo executor de métricas. Todos os erros e acertos de cada aluno são registrados nas bases

com a trilha e desempenho dos aprendizes. Na base de dados institucionais do AVA persistem

informações referentes aos cursos, alunos e professores.

Além do feedback para o aprendiz, é gerado um relatório detalhado para o mediador,

contendo as informações de cada aprendiz e da turma em geral; permite visualizar a avaliação

de cada questão resolvida por aprendiz e identificar os aprendizes com dificuldade de concluir

os exercícios. Por exemplo, o ambiente mostra os alunos que já tentaram mais de 10 vezes. A

partir dessa interface, o mediador pode enviar comentários associados às questões de cada

aprendiz.

No relatório de acompanhamento de avaliação, o mediador tem uma visão geral do

andamento da turma em relação às avaliações cadastradas (listas de exercícios e provas). Este

relatório tem como objetivo visualizar um ranking dos aprendizes por turma; facilitar o

planejamento do tempo necessário para os aprendizes concluírem os exercícios e identificar

grupos de aprendizes mais (ou menos) adiantados para propor exercícios em grupos.

O conteúdo do LabSQL é apresentado em 5 módulos, onde o grau de dificuldade aumenta

do primeiro para o quinto. Porém, o ambiente promove bastante flexibilidade em relação à

seqüência de apresentação do conteúdo, pois os alunos não são obrigados a segui-lo em ordem

pré-estabelecida. O Módulo I introduz os conceitos básicos de bancos de dados e da

linguagem SQL; o Módulo II introduz o comando select e os operadores aritméticos e lógicos

utilizados na linguagem; o Módulo III apresenta os conceitos da DDL e DCL; o Módulo IV

apresenta as funções de agregação; o Módulo V apresenta o conceito de sub-consultas. Os

módulos estão dispostos na interface de aprendizagem em formato de árvore, como mostrado

na Figura 2.3.

Figura 2.3 Organização dos Módulos no LabSQL (LINO, 2007).

O LabSQL apresenta um grande número de recursos para os estudantes e professores

cadastrados no sistema, possibilitando uma interação intensa entre os usuários e o sistema. Os

seguintes recursos presentes no ambiente se destacam:

i. Fórum: permite uma comunicação entre todos os participantes do LabSQL;

ii. Analisar resultado: exibe o desempenho do aprendiz quanto à realização das listas

de exercícios, participação, freqüência e aproveitamento nas provas;

iii. Administrar Questão: relatório que contém questões cadastradas por grupo e

disponível no formato PDF para impressão;

iv. Administrar Usuário : esse recurso permite ao aprendiz editar seus dados

cadastrais;

v. Material de Apoio: materiais disponíveis para os aprendizes que são inseridos pelo

professor. Atualmente contém um arquivo compactado com várias apresentações de

BD e links para o conteúdo no formato PDF e o vídeo de introdução ao sistema;

vi. Relatório de Desempenho/Acessos: o aprendiz tem a opção de visualizar os

seguintes relatórios gráficos: acesso por usuário e usuário on-line, apresenta a

mesma funcionalidade da área do professor; desempenho do aluno, identifica seu

progresso na avaliação a partir do gráfico de Gantt5 interativo;

vii. Avaliação: é apresentada ao aprendiz quando existe uma prova ou lista de

exercício;

viii. Exercício: fica disponível quando o professor associa questões a uma determinada

sessão;

ix. Agenda: fornece um espaço para o aprendiz realizar qualquer anotação, funciona

como um caderno no qual o aprendiz tem a liberdade de escrever, reescrever ou

apagar uma informação.

5 Gráfico de Gantt é uma ferramenta simples, inventada em 1917 por Henry L. Gantt (1861-1919), que representa o tempo a partir de barras horizontais.

3. DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS

Historicamente, a noção de encontrar padrões úteis em dados em seu estado bruto tem

recebido diversos nomes, inclusive a Descoberta de Conhecimento em Base de Dados (KDD

– Knowledge Discovery in Database), sendo definido como a descoberta de novos

conhecimentos, sejam padrões, tendências, relações, associações, probabilidades ou fatos, que

não são óbvios ou de fácil identificação.

Carvalho (1999) mostra a abrangência do KDD ao afirmar que é interdisciplinar e

envolve diversas áreas, entre elas, estatística e matemática banco de dados aprendizado de

máquina, sistemas especialistas e reconhecimento de padrões. O processo KDD combina

técnicas, algoritmos e definições de todas as áreas com o objetivo principal de extrair

conhecimento a partir de grandes bases de dados (CARVALHO, 1999).

O processo de descoberta de conhecimento deve obedecer a uma determinada

seqüência\etapa para que se consiga atingir o resultado esperado. Neste capítulo é mostrada

cada uma dessas etapas, bem como a definição de alguns termos que são fundamentais para o

melhor entendimento do restante desse trabalho.

3.1. DADOS, INFORMAÇÃO E CONHECIMENTO

Segundo Rezende et al. (2003), os conceitos de dados, informação e conhecimento estão

interligados. Na Figura 3.1 é mostrada uma representação gráfica do relacionamento entre

dados, informação e conhecimento, em função da capacidade de entendimento e da

independência de contexto que cada um destes conceitos implica.

Antes de se estabelecer qualquer ligação desses conceitos com as diferentes tecnologias

para seu registro e processamento, faz-se necessária a realização de uma distinção entre

dados, informação e conhecimento.

O dado é um elemento puro, quantificável sobre um determinado evento. Dados são

fatos, números, texto ou qualquer mídia que possa ser processada pelo computador. Ressalta-

se que o dado, por si só, não oferece embasamento para o entendimento da situação.

A informação é o dado analisado e contextualizado. Envolve a interpretação de um

conjunto de dados, ou seja, a informação é constituída por padrões, associações ou relações

que todos aqueles dados acumulados podem proporcionar. Por exemplo, a análise do

quantitativo de acesso dos usuários pode fornecer informação acerca de quais usuários estão

ou não utilizando o ambiente virtual de aprendizagem.

Enquanto que a informação é descritiva, o conhecimento é utilizado fundamentalmente

para fornecer uma base de previsão com um determinado grau de certeza. O conhecimento

refere-se à habilidade de criar um modelo mental que descreva o objeto e indique as ações e

decisões a serem tomadas.

Dados Entendimento

Informação

Conhecimento

Inteligência

Compreensão dos

relacionamentos

Compreensão dos

padrões

Compreensão

dos princípios

Independência de

contexto

Figura 3.1 Relacionamento Entre Dados, Informação e Conhecimento (KOCK JR. et

al., 1996, apud REZENDE et al., 2003 ).

Uma decisão é o uso explícito de um conhecimento. O conhecimento pode ser

representado como uma combinação de estruturas de dados e procedimentos interpretáveis

que levam a um comportamento conhecido. Este comportamento fornece informações que

podem ser utilizadas para planejar e decidir.

Analisando as relações entre dados, informação e conhecimento, pode-se afirmar que o

entendimento, a análise e as ações fundamentais para a tomada de decisões são realizadas a

partir do nível do conhecimento, não tendo menos importância as demais relações, uma vez

que são correlacionadas e dependentes entre si.

Não é necessário que uma organização somente possua uma grande quantidade de dados

que revelam suas ações, mas é necessário utilizar técnicas e ferramentas computacionais para

transformar esses dados em informação e essa informação em conhecimento.

No processo de descoberta de conhecimento, o conceito de informação relevante precisa

ser destacado, uma vez que a afirmação de que um determinado dado é ou não relevante tende

a ser subjetivo, ou seja, uma informação pode representar uma descoberta de conhecimento

útil para uma pessoa e para outra não. Isso porque informação relevante é aquela informação

que o usuário necessita em determinado momento para a realização de uma determinada

atividade, ou seja, ela deve estar no contexto que o usuário quer e no momento certo.

Tem-se ainda o fator tempo, pois determinado documento pode não ser relevante a uma

consulta em determinado momento e tornar a ser em outro (MIZZARO, 1997). Além disso,

ainda é importante o processo de envio dessa informação para um especialista. Essa pessoa

precisa ter um notório conhecimento das atividades que envolvem um determinado problema,

a fim de que tome decisões eficazes e saiba retirar o máximo de informações das consultas

realizadas nas bases de dados.

Porém, esse processo de descoberta de conhecimento não é realizado de forma

desorganizada e sem seguir nenhum padrão, pelo contrário, seguir etapas predefinidas é de

fundamental importância para alcançar o resultado desejado. As etapas que devem ser

seguidas para a realização do processo de descoberta de conhecimento em base de dados são

apresentadas na Subseção 3.2.

3.2. ETAPAS DA DESCOBERTA DE CONHECIMENTO

O processo de KDD é o conjunto de atividades contínuas que compartilham o

conhecimento descoberto a partir de bases de dados. O KDD é composto pelas etapas de

seleção de dados, pré-processamento e limpeza, transformação, Mineração de Dados e

interpretação, conforme a Figura 3.2 A descrição de cada uma dessas etapas será detalhada

nas próximas seções. No processo de KDD, geralmente cada fase possui uma interseção com

as demais. Desse modo, os resultados produzidos numa fase podem ser utilizados para

melhorar os resultados das próximas fases. Indicando que este processo é iterativo, buscando

sempre aprimorar os resultados a cada iteração. Na execução do processo de KDD o usuário

analisa as informações geradas em cada fase e procura incorporar sua experiência de analista

de dados para obter, cada vez mais, melhores resultados.

Figura 3.2 Etapas do KDD (FAYYAD et al., 1996).

3.2.1 Seleção de Dados

Uma vez definido o domínio sobre o qual se pretende executar o processo de descoberta,

o próximo passo é selecionar e coletar o conjunto de dados ou variáveis necessárias para

representar o domínio. Nesta etapa pode ser necessário integrar e compatibilizar as bases de

dados.

3.2.2 Pré-processamento e Limpeza

Na atividade de limpeza de dados, da etapa de pré-processamento, as informações

consideradas desnecessárias são removidas. Adotam-se estratégias para manusear dados

faltantes ou inconsistentes (REFAAT, 2007).

A fase de pré-processamento tem como objetivo consolidar e trabalhar com as

informações relevantes, buscando reduzir a complexidade do problema. Este objetivo é

alcançado fazendo uma seleção para escolher apenas atributos relevantes de um conjunto de

atributos do banco de dados, onde as escolhas destes subconjuntos estarão disponíveis para

serem usados no algoritmo do KDD de acordo com a finalidade proposta. Uma motivação

para esta seleção é otimizar o tempo de processamento do algoritmo, visto que ele apenas

trabalhará com um subconjunto de atributos, deste modo, diminuindo o seu espaço de busca,

fazendo com que a velocidade dos algoritmos seja maior (BATISTA, 2003).

3.2.3 Transformação

Após a fase de pré-processamento, em que nem todos os dados presentes em um banco de

dados são informativos ou úteis em um processo de aquisição de conhecimento e nem sempre

estão em um formato adequado para os algoritmos os utilizarem, torna-se necessário que esses

dados sejam transformados.

O motivo destas transformações nos dados é superar quaisquer limitações existentes nos

algoritmos empregados para extração de padrões, que dependem dos algoritmos utilizados na

fase de Mineração de Dados. Existem alguns tipos de transformações mais comuns como:

normalização, discretização (que transforma um atributo contínuo da base de dados em um

atributo discreto) de atributos quantitativos, transformações de atributos qualitativos em

quantidades, entre outros (WIVES, 1998).

3.2.4 Mineração de Dados (MD)

Considerada como a principal etapa no processo de KDD, onde é realizada a extração e a

descoberta de padrões propriamente dita. A Mineração de Dados envolve um conjunto de

técnicas e ferramentas computacionais usadas para a identificação desses padrões

(conhecimentos) embutidos em grandes massas de dados.

Aplicam-se algoritmos para extrair padrões dos dados ou gerar regras que descrevam o

comportamento da base de dados (BERRY, 1997).

De acordo com Fayyad et al. (1996), a busca é realizada em três etapas: primeiramente,

decide-se se o processo será de classificação, agrupamento ou sumarização; em seguida,

escolhe-se um dos métodos a serem utilizados na busca por padrões; e, por último, efetua-se o

processo de busca ou a mineração dos dados.

Esta etapa será bem mais detalhada no Capítulo 4, onde são abordadas as principais

técnicas, métodos, tarefas e algoritmos de Mineração de Dados aplicados à descoberta de

conhecimento.

3.2.5 Interpretação

Após a fase de Mineração de Dados, o processo de KDD entra na fase de avaliação e

interpretação dos resultados que consiste em avaliar o conhecimento extraído das bases de

dados, identificar padrões e interpretá-los, transformando-os em conhecimentos que possam

apoiar as decisões (DILLY, 1995).

No KDD, o resultado do processo deve ser compreensível para os tomadores de decisão,

os quais são responsáveis por validar o conhecimento adquirido, verificando se os resultados

são aplicáveis para descoberta de novos padrões, para sugestão de melhores atributos e

refinamento do conhecimento. Dessa forma, observa-se a importância do trabalho em

conjunto do analista com o usuário, a fim de que os resultados do processo de descoberta de

conhecimento sejam cada vez mais relevantes e alcancem a confiabilidade desejada.

Se, porventura, os resultados obtidos não forem satisfatórios, torna-se necessário a

repetição de todas ou de algumas etapas do KDD. Nesse sentido, pode-se dizer que somente

após a interpretação e avaliação dos dados, haverá a descoberta de conhecimento

propriamente dita.

4. MINERAÇÃO DE DADOS

A Mineração de Dados (Data Mining) consiste de um conjunto de técnicas reunidas da

Estatística e da Inteligência Artificial com o objetivo de descobrir conhecimento novo, útil,

relevante e não-trivial que porventura esteja escondido em uma grande massa de dados

(GOLDSCHMIDT e PASSOS, 2005). Atualmente têm-se exemplos de sua utilização em

áreas como o Marketing, a Economia, a Engenharia e até a Medicina (CARVALHO, 2001).

Um conjunto de dados somado à técnica de Mineração de Dados resulta em informação

(ou conjunto de informações) útil. Descobrir padrões e tendências escondidos em grandes

massas de dados não é processo trivial. Em Mineração de Dados esse processo envolve o uso

de diversas tarefas (FAYYAD et al., 1996).

4.1. TAREFAS DE MINERAÇÃO DE DADOS

Tarefa, no contexto da Mineração de Dados, é um tipo de problema de descoberta de

conhecimento a ser solucionado. Pode-se destacar as tarefas de classificação, agrupamento,

estimativas, sumarização e associação, que podem ser resolvidas de forma individual ou

combinadas. A escolha da tarefa mais adequada depende da natureza da aplicação que se

pretende desenvolver.

4.1.1 Classificação

A tarefa de classificação é uma função de aprendizado que mapeia dados de entrada, ou

conjuntos de dados de entrada, em um número finito de categorias. Nela, cada exemplo

pertence a uma classe, entre um conjunto predefinido de classes (GOLDSCHMIDT e PASSO,

2005). Os exemplos consistem de um conjunto de atributos e um atributo-meta discreto. O

objetivo de um algoritmo de classificação é encontrar algum relacionamento entre os atributos

e uma classe, de modo que o processo de classificação possa usar esse relacionamento para

predizer a classe de um exemplo novo e desconhecido.

Assim, a classificação consiste em obter um modelo baseado em um conjunto de

exemplos que descrevem uma função não-conhecida. Esse modelo é então utilizado para

predizer o valor do atributo-meta de novos exemplos.

4.1.2 Associação

Uma transação em um banco de dados é um conjunto de atributos que ocorrem

simultaneamente. A tarefa de descoberta de associações tem como objetivo encontrar padrões

de atributos verificados em uma mesma transação. Como resultado, obtém-se uma série de

regras no formato se x então y, onde x e y são conjuntos de atributos. A ocorrência de x,

antecedente, implica na ocorrência de y, conseqüente, e a interseção do conjunto de atributos x

com o conjunto de atributos y é vazio.

A freqüência de uma regra é o número de vezes em que o antecedente e o conseqüente

ocorrem simultaneamente. O suporte é o resultado da divisão entre a freqüência da regra e o

total de transações. A confiança de uma regra é obtida a partir de uma divisão cujo numerador

é a freqüência em que o antecedente e o conseqüente ocorrem simultaneamente e o

denominador é a freqüência em que somente o antecedente ocorre.

A tarefa de associação pode ser considerada uma tarefa bem definida, determinística e

relativamente simples, que não envolve a predição da mesma forma que a tarefa de

classificação (WIVES, 1998).

4.1.3 Estimativas

A estimativa é usada para definir o valor para alguma variável contínua desconhecida,

como, por exemplo, receita, altura, saldo de cartão de crédito. Pode ser usada para executar

uma tarefa de classificação, convencionando-se que diferentes faixas (intervalos) de valores

contínuos correspondam a diferentes classes. Estimativa é aprender uma função que mapeia

um item de dado para uma variável de predição real estimada (FAYYAD et al., 1996).

Como exemplo de uso das técnicas de estimativas, tem-se estimar o número de filhos de

uma família, estimar a renda total de uma família, estimar o valor em tempo de vida de um

cliente, estimar a probabilidade de que um cliente morrerá baseando-se no conjunto de

diagnósticos médicos, prever a demanda de um consumidor para um novo produto, dentre

outros.

4.1.4 Sumarização

Segundo Fayyad et al. (1996), a tarefa de sumarização envolve métodos para encontrar

uma descrição compacta para um subconjunto de dados. Um simples exemplo dessa tarefa

poderia ser tabular o significado e desvio padrão para todos os itens de dados. Métodos mais

sofisticados envolvem a derivação de regras de sumarização.

4.1.5 Agrupamento

O agrupamento é o processo de partição de uma população heterogênea em vários

subgrupos ou clusters mais homogêneos. No agrupamento não há classes pré-definidas, os

registros são agrupados de acordo com a semelhança, o que diferencia da tarefa de

classificação.

Normalmente, a tarefa de agrupamento é realizada antes de alguma outra forma de

Mineração de Dados. Por exemplo, em uma aplicação de segmentação de mercado, pode-se

dividir primeiro os clientes em grupos que tenham comportamento de compra similar ou que

pertençam a uma mesma região do país.

No contexto do processo de aprendizagem na EaD, este trabalho propõe obter

conhecimento relevante para o entendimento do perfil dos alunos na utilização do ambiente

LabSQL. A tarefa de Mineração de Dados mais adequada e viável para responder perguntas

de interesse neste segmento é a tarefa de classificação, pois esta tarefa pode ser considerada

preditiva, permitindo, dessa forma, prever o desempenho obtido pelos alunos. Na Seção 4.2,

são apresentados os principais conceitos e técnicas empregados na tarefa de classificação.

4.2. TAREFA DE CLASSIFICAÇÃO

Classificação consiste em examinar as características de um objeto ou situação e atribuir

a ele uma classe pré-definida, ou seja, esta tarefa tem como objetivo a construção de modelos

que permitam agrupamento de dados em classes (GOLDSCHMIDT e PASSOS, 2005). Esta

tarefa é considerada preditiva, pois uma vez que as classes são definidas, ela pode prever

automaticamente a classe de um novo dado. Os modelos de classificação possuem atributos

de dois tipos: os preditivos e os objetivos. Geralmente, um atributo objetivo corresponde a

uma variável categórica que representa as classes previamente definidas. Os atributos

preditivos são os utilizados pela técnica para inferir a que classe um novo objeto pertence.

Existem diferentes técnicas para a realização desta tarefa, como Redes Neurais,

Algoritmos Genéticos, Métodos Bayesianos, Árvores de Decisão, entre outras. Dentre estas,

utiliza-se neste trabalho Árvore de Decisão e Redes Bayesianas. Tais técnicas são utilizadas,

pois, a partir das Redes Bayesianas, é possível contabilizar as relações de dependência entre

as ações envolvidas no processo de aprendizagem e o desempenho obtido pelos alunos. As

principais vantagens da utilização das Árvores de Decisão são que elas fazem decisões

levando em consideração os atributos que são mais representativos, além de serem

compreensíveis para a maioria das pessoas. Ao escolher e apresentar as regras em ordem de

importância, as árvores de decisão permitem aos usuários observarem quais fatores mais

influenciam os seus trabalhos. Nas Subseções 4.2.1 e 4.2.11, são detalhadas as técnicas

Árvore de Decisão e Redes Bayesianas, respectivamente.

4.2.1. Árvore de Decisão

A Árvore de Decisão consiste de uma hierarquia de nós internos e externos que são

conectados por ramos. Uma das principais características de uma Árvore de Decisão é o seu

tipo de representação: uma estrutura hierárquica que traduz uma árvore invertida a qual se

desenvolve da raiz para as folhas. A estrutura hierárquica traduz uma progressão da análise de

dados no sentido de desempenhar uma tarefa de previsão/classificação.

A aprendizagem por árvore de decisão é um dos métodos mais usados e práticos para a

inferência indutiva. A indução mediante árvores de decisão é uma das formas mais simples de

algoritmos de aprendizagem e de maior sucesso. Recebe como entrada um objeto ou uma

situação descrita por um conjunto de propriedades ou atributos, e retorna como saída uma

decisão. Em termos de árvore de decisão, um exemplo é descrito pelos valores dos atributos e

pelo predicado meta. O valor do predicado meta é chamado classificação do exemplo. Para

cada um dos possíveis valores de atributos, tem-se um ramo para outra árvore de decisão

(sub-árvore). Cada sub-árvore contém a mesma estrutura de uma árvore.

Uma árvore de decisão é formada por um conjunto de regras de classificação. Cada

caminho da raiz até uma folha representa uma destas regras. Cada percurso da árvore de

decisão, desde um nó raiz até um nó folha, é convertido em uma regra, onde a classe do nó

folha corresponde à classe prevista pelo conseqüente (parte “Então” da regra) e as condições

ao longo do caminho correspondem às condições do antecedente (parte “Se” da regra).

De acordo com Fayyad et al. (1996), as regras de classificação que resultam da

transformação de árvores de decisão podem ter as seguintes vantagens:

i. São uma forma de representação do conhecimento amplamente utilizadas em

sistemas especialistas;

ii. Em geral são de fácil interpretação pelo ser humano;

iii. Geralmente melhoram a precisão preditiva pela eliminação das ramificações que

expressam peculiaridades do conjunto de treinamento que são pouco generalizáveis

para os dados do teste.

É importante que as regras sejam acompanhadas de medidas relativas à sua precisão (ou

confiança) e a sua cobertura. A precisão informa o quanto a regra é correta, ou seja, qual a

porcentagem de casos que, se o antecedente é verdadeiro, então o conseqüente é verdadeiro.

Uma alta precisão indica uma regra com uma forte dependência entre o antecedente e o

conseqüente da regra.

4.2.2. Representação de uma Árvore de Decisão

A Figura 4.1 representa uma árvore de decisão onde cada nó de decisão contém um teste

para algum atributo, cada ramo descendente corresponde a um possível valor deste atributo, o

conjunto de ramos é distinto, cada folha está associada a uma classe e, cada percurso da

árvore, da raiz à folha corresponde uma regra de classificação.

Figura 4.1 Representação de Uma Árvore de Decisão.

O critério utilizado para realizar as partições é o da utilidade do atributo para a

classificação. Aplica-se, por este critério, um determinado ganho de informação a cada

atributo. O atributo escolhido como atributo teste para o corrente nó é aquele que possui o

maior ganho de informação. A partir desta aplicação, inicia-se um novo processo de partição.

Nos casos em que a árvore é usada para classificação, os critérios de partição mais

conhecidos são baseados na entropia.

4.2.3. Entropia

Entropia é o cálculo do ganho de informação baseado em uma medida utilizada na teoria

da informação. A entropia caracteriza a pureza ou impureza dos dados: em um conjunto de

dados, é uma medida da falta de homogeneidade dos dados de entrada em relação a sua

classificação. Por exemplo, a entropia é máxima (igual a 1) quando o conjunto de dados é

heterogêneo (OVERVIEW, 2005).

Dado um conjunto de entrada (S) que pode ter c classes distintas, a entropia de S será

dada pela Equação 4.1, como,

,log)(1

iii ppsEntropia (4.1)

onde pi é a proporção de dados em S que pertencem à classe i.

O ganho de informação para um atributo A de um conjunto de dados S nos dá a medida

da diminuição da entropia esperada quando se utiliza o atributo A para fazer a partição do

conjunto de dados.

Seja P(A) o conjunto dos valores que A pode assumir; seja x um elemento deste conjunto

e seja Sx o subconjunto de S formado pelos dados em que A = x; a entropia que se obtém ao

particionar S em função do atributo A é dada pela Equação 4.2, como

).()()(

X SEntropiaS

SAE ∑

∈= (4.2)

O ganho de informação é dado pela Equação 4.3, como

ganho (S, A) = Entropia (S) – E (A) (4.3)

onde Entropia(S) é uma medida de (não) homogeneidade do conjunto S e P(A) é uma medida

de (não) homogeneidade estimada para o conjunto S caso utilize o atributo A para fazer a

próxima partição.

A construção de uma árvore de decisão tem três objetivos: diminuir a entropia (a

aleatoriedade da variável objetivo), ser consistente com o conjunto de dados e possuir o

menor número de nós.

4.2.4. Overfitting e Underfitting

Tem-se o fenômeno do underfitting quando devido a uma amostra muito pouco

representativa, elementos de grande participação/importância são desconsiderados ou tem

menor peso que o ideal fazendo assim que o classificador cubra uma extensão menor que a

adequada.

O fenômeno do overfitting ocorre devido à consideração excessiva de um ruído (dados

em branco ou inconsistente) na amostra ou de simplesmente uma amostra anômala,

acarretando com que o classificador decida considerar uma extensão maior de amostras que a

ideal (GOLDSCHMIDT e PASSOS, 2005).

4.2.5. Podagem

Geralmente uma árvore construída pelo algoritmo C4.5 (apresentado na Subseção

4.2.6.2) deve ser podada, a fim de reduzir o excesso de ajustes (overfitting) aos dados de

treinamento.

Existem duas possibilidades de podagem em árvore de decisão: parar com o crescimento

da árvore mais cedo (pré-poda) ou crescer uma árvore completa e, em seguida, podar a árvore

(pós-poda) (CARVALHO, 1999). Porém, verifica-se que a pós-poda é mais lenta, porém mais

confiável que a pré-poda (QUILAN, 1986).

Para entender o mecanismo de podagem, precisa-se antes entender o conceito de taxa de

estimativa de erro, a qual pode ser obtida da seguinte forma: se N exemplos são cobertos por

determinado nó folha e E dentre estes N são classificados de forma incorreta, então a taxa de

estimativa de erro dessa folha é E/N (BERSON e SMITH, 1997).

As características descritas acima são comuns a todas as técnicas baseadas em árvores de

decisão, no entanto, o algoritmo para a construção da árvore em si pode variar, além de outros

detalhes como a forma de realizar a decisão do melhor caminho em um nó ou até mesmo fazer

o tratamento de atributos contínuos.

4.2.6. Algoritmos de Árvore de Decisão

Esta subseção apresenta os principais algoritmos de árvore de decisão: ID3 (QUILAN,

1986), C4.5 (QUILAN, 1986) e CART (ÁRVORES DE DECISÃO, 2007).

4.2.6.1. Algoritmo ID3

O algoritmo ID3, Iterative Dichotomizer 3, foi desenvolvido por Ross Quinlan

(QUILAN, 1986). Esse algoritmo consiste em um processo de indução de árvores de decisão

e tem como finalidade avaliar a informação contida nos atributos segundo a sua entropia, que

mede quanto esse espaço é homogêneo, ou por outro lado, quanto maior for a entropia maior

será a desordem. O atributo mais importante é colocado na raiz e, de forma top-down, a árvore

é construída recursivamente, com o objetivo de sempre escolher o melhor atributo para

determinado nó.

Uma das grandes vantagens do ID3 é a sua simplicidade, o seu processo de construção

torna relativamente simples a compreensão do seu funcionamento.

A maior desvantagem desse algoritmo é que a árvore de decisão produzida por ele é

praticamente imutável, o que implica que não se pode eficientemente reutilizar a árvore sem

reconstruí-la.

4.2.6.2. Algoritmo C4.5

O algoritmo C4.5 é um método melhorado a partir do ID3. Seu principal objetivo é suprir

as deficiências apresentadas pelo algoritmo ID3.

Este algoritmo segue um princípio orientador que é o princípio de Occam (Occam´s

Razor), criado por William Occam, que dá preferência à escolha de hipóteses menos

complexas, compatíveis com a realidade observada (QUILAN, 1986).

O algoritmo C4.5 adota o estratégia pós-poda. Podar uma árvore neste contexto, significa

reduzir algumas sub-árvores a folhas, ou de outra forma, um ramo de árvore, a partir de

determinado nó é cortado (ou seja, transformado em folha). O corte de um ramo da árvore é

guiado por um teste estatístico que leva em conta os erros em um nó e soma dos erros nos nós

que descendem desse nó. Sendo assim, para cada nó da árvore, a poda só se concretiza se o

desempenho da árvore não diminuir consideravelmente (QUILAN, 1986).

Outra vantagem desse algoritmo é a capacidade que o mesmo possui de gerar regras de

decisão a partir de árvores e de as compararem entre si independentemente das árvores

construídas.

Um dos mecanismos de poda utilizados por este algoritmo é baseado na comparação das

taxas de estimativas de erro de cada sub-árvore e do nó folha. São processados sucessivos

testes a partir do nó raiz da árvore, se a estimativa de erro indicar que a árvore será mais

precisa se os nós descendentes (filhos) de um determinado nó forem eliminados, então estes

nós descendentes serão eliminados e o nó n passará a ser o novo nó folha (CARVALHO,

1999).

4.2.6.3. Algoritmo CART (Classification and Regression Trees)

O algoritmo CART gera sua árvore de decisão realizando particionamentos binários no

domínio dos atributos, gerando nós com apenas dois caminhos a seguir: sim ou não. Da

mesma forma que o algoritmo C4.5, o CART é recursivo e pode lidar com dados ausentes e

diversos tipos numéricos (contínuos, categóricos, booleanos, etc.). Entretanto, por realizar

particionamentos binários, esse algoritmo apresenta dificuldades de trabalhar com atributos

que podem assumir mais de duas classes (por exemplo, baixo, médio e alto). Nesses casos,

podem existir dois ou mais nós para representar o mesmo atributo, gerando árvores maiores e

mais complexas (MARTINHAGO, 2005).

As árvores obtidas a partir do algoritmo CART têm normalmente muitos níveis, o que

pode tornar pouco eficiente a apresentação dos resultados tornando as conclusões obtidas a

partir de sua estrutura, pouco confiáveis. O algoritmo, apesar de flexível, é complexo

tornando o cálculo dos resultados muito demorados para grande conjunto de dados.

Segundo Martinhago (2005), as principais vantagens do algoritmo CART são:

i. Pode utilizar variáveis independentes de diferentes tipos, desde contínuas, ordinais

e nominais;

ii. Não obriga a realização de transformações de variáveis iniciais independentes

(como a logaritmização ou a normalização), pois o método tem bom

comportamento para qualquer tipo de dado;

iii. Pode usar a mesma variável em diferentes estágios do modelo, permitindo

reconhecer efeitos que certas variáveis produzem sobre outras;

iv. Não necessita satisfazer qualquer condição de aplicabilidade do modelo, o que não

acontece nos modelos paramétricos.

4.2.7. Redes Bayesianas

A noção fundamental da Estatística Bayesiana é a Probabilidade Condicional, definida

por P (H|E) no qual H é a hipótese e E é a evidência. Para computar a probabilidade de uma

hipótese H, é necessário levar em consideração o valor da evidência E. Quando não existir

evidências, tem-se a probabilidade incondicional P(H) (RUSSELL e NORVIG, 2004).

O cálculo é feito a partir da Equação 4.4, dada por

EHPEHP

∩= (4.4)

onde o denominador é a probabilidade de E e H ocorrerem simultaneamente e o numerador é

a probabilidade de ocorrer H isoladamente, ou probabilidade incondicional.

A formulação do teorema de Bayes envolve estas probabilidades. A Equação 4.5

apresenta o teorema formulado por Bayes,

)()|()|(

HPHEPEHP =

As Redes Bayesianas são modelos gráficos representados por grafos acíclicos e

direcionados, mostrando as relações de causalidade entre as variáveis de um problema

(RUSSEL, 1995). Nestes grafos, os vértices representam as variáveis e as arestas representam

os relacionamentos de influência direta entre os atributos. A ausência de aresta entre dois

vértices supõe uma independência condicional.

Por exemplo, considerando o grafo representado pela Figura 4.2, pode-se observar que a

ocorrência de A ou B são prováveis causas direta da ocorrência de C, assim como, a

ocorrência de C é uma provável causa das ocorrências de D e E. A e B são pais de C, que por

sua vez é pai de D e E. Como A e B não têm pai, são considerados nós raízes da rede.

Figura 4.2 Um Grafo Dirigido Acíclico.

O seguinte problema, que chamar-se-á de domínio 1 para facilitar futuras referências, é

exemplificado por Russel (1995), para um melhor entendimento sobre os conceitos de uma

Rede Bayesiana, com a representação gráfica demonstrada a partir da Figura 4.3.

Você possui um novo alarme contra ladrões em casa. Este alarme é

muito confiável na detecção de ladrões, entretanto, ele também pode disparar

caso ocorra um terremoto. Você tem dois vizinhos, João e Maria, os quais

prometeram telefonar-lhe no trabalho caso o alarme dispare. João sempre

liga quando ouve o alarme, entretanto, algumas vezes confunde o alarme

com o telefone e também liga nestes casos. Maria, por outro lado, gosta de

ouvir música alta e às vezes não escuta o alarme.

Figura 4.3 Rede Bayesiana para o Domínio 1 (RUSSEL, 1995).

O modelo gráfico proposto na Figura 4.3 trata-se de uma simplificação do domínio 1,

pois alguns fatos, como Maria ouvindo música alta e João escutando o barulho do telefone,

estão implícitos. Se a Rede Bayesiana considerasse todos os fatos possíveis de ocorrer em um

domínio, tornaria o modelo muito complexo e algumas variáveis podem não ser relevantes

(RUSSEL, 1995).

Estabelecida a topologia da rede, é necessário quantificar as ligações entre as variáveis a

partir da construção de uma Tabela de Probabilidades Condicionais (TPC) para cada variável.

Para isso, é necessária a identificação de todas as combinações de possíveis valores das suas

variáveis pais e, também, os possíveis valores que a variável em questão pode assumir. A

Equação 4.6 demonstra como são feitos os cálculos das probabilidades para cada variável,

)),(|()(),...,,()(1

21 AipaAPUPAAAPUPn

iin ∏

=== (4.6)

onde P(U) é a probabilidade conjunta para a rede e )),(|( ii ApaAP são as probabilidades

condicionais de A em relação aos seus pais. Assim, a Tabela 4.1 descreve a TPC para a variável alarme.

Tabela 4.1 TPC para a Variável Alarme

Ladrão Terremoto P(Alarme|Ladrão, Terremoto)

Verdadeiro Falso

Verdadeiro Verdadeiro 0,95 0,050

Verdadeiro Falso 0,95 0,050

Falso Verdadeiro 0,29 0,710

Falso Falso 0,001 0,999

Na Figura 4.4 temos a representação da Rede Bayesiana do domínio 1 com as respectivas

probabilidades condicionais de cada variável. A letras L, T, A, J e M representam Ladrão,

Terremoto, Alarme, João_Liga e Maria_Liga, respectivamente.

Figura 4.4 Rede Bayesiana do Domínio 1 com a Probabilidade de cada Variável (Adaptado de

RUSSEL, 1995).

A partir dos cálculos estatísticos, cada variável terá uma tabela de valores de

probabilidades para que suas possíveis ações sejam realizadas. Dessa forma, para cada

variável A do problema, com pais B1, B2, ..., Bn, existe uma tabela P(A|B1, B2, ..., Bn).

Com a utilização de uma ferramenta de análise de Redes Bayesianas é possível definir

hipóteses sobre um determinado atributo, tendo respostas sobre as influências dele de acordo

com as ligações existentes entre os outros atributos.

4.2.8. Vantagens das Redes Bayesianas

Para Luna (2004) existem muitos pontos positivos de se utilizar Redes Bayesianas, dentre

suas principais características destacam-se:

i. Permite expressar as assertivas de independência de forma visual e fácil de

perceber;

ii. Torna o processo de inferência eficiente computacionalmente;

iii. Permitem analisar grandes quantidades de dados;

iv. Pode ser utilizada em vários domínios.

4.3. FERRAMENTAS DE MINERAÇÃO DE DADOS

Atualmente existem diversas ferramentas capazes de lidar com os diversos algoritmos de

Mineração de Dados. Muitas delas são genéricas da Inteligência Artificial ou da comunidade

de estatística. Tais ferramentas operam separadamente da fonte de dados, requerendo uma

quantidade significativa de tempo gasto com exportação e importação de dados, pré e pós-

processamento e transformações de dados. Entretanto, a conexão entre a ferramenta de

descoberta de conhecimentos e a base de dados analisadas, utilizando o suporte do SGBD

(Sistema de Gerenciamento de Banco de Dados) existente, é extremamente desejável. Para

Goebel e Gruenwald (1999 apud ESCOVAR, 2004), as características a serem consideradas

na escolha de uma ferramenta de descoberta de conhecimento devem ser:

i. A habilidade de acesso a uma variedade de fontes de dados, de uma forma on-line e

off-line;

ii. A capacidade de incluir modelos de dados orientados a objetos ou modelos não

padronizados (tal como multimídia, espacial ou temporal);

iii. A capacidade de processamentos com relação ao número máximo de

tabelas/tuplas/atributos;

iv. A capacidade de processamento com relação ao tamanho do banco de dados;

v. A variedade do tipo de atributos que a ferramenta pode manipular; e

vi. O tipo de linguagem da consulta.

As ferramentas de Mineração de Dados utilizadas neste trabalho foram o software livre

WEKA, para aplicação da técnica de Árvore de Decisão e o software Bayesware Discoverer,

para geração das Redes Bayesianas.

A principal justificativa para a utilização do WEKA consiste do fato desta ferramenta ser

um software livre amplamente utilizado para Mineração de Dados e com bastantes referências

de sua utilização. Por outro lado, apesar de ser um software proprietário versão para estudante

com limitações na capacidade de processamento com relação ao tamanho do banco de dados,

o Bayesware Discoverer foi utilizado devido à grande facilidade em sua utilização,

principalmente durante a interpretação e análise dos resultados obtidos a partir das Redes

Bayesianas geradas.

As Subseções 4.3.1 e 4.3.2 apresentam as ferramentas de Mineração de Dados utilizadas

neste trabalho.

4.3.1. WEKA

A ferramenta WEKA (Waikato Environment for Knowledge Analysis), tem sido bastante

utilizada na realização da etapa de Mineração de Dados, por ser de domínio público e prover

um conjunto de algoritmos que implementam diversas técnicas para resolver problemas reais

de Mineração de Dados.

Esta ferramenta foi implementada na linguagem Java e desenvolvida no meio acadêmico

da Universidade de Waikato, na Nova Zelândia, em 1999. Suas principais características são

herdadas do fato de ser uma ferramenta desenvolvida em Java, uma linguagem multi-

plataforma orientada a objetos.

A portabilidade da linguagem Java permite ao WEKA rodar em diversas plataformas

diferentes, e sua orientação a objetos produz vantagens como modularidade, polimorfismo,

encapsulamento, reutilização de código entre outras.

O WEKA é composto por dois pacotes que podem ser embutidos em outros programas

escritos em Java, permitindo que um desenvolvedor possa criar seu próprio ambiente de

Mineração de Dados. O primeiro pacote possui interfaces para a manipulação interativa de

algoritmos de Mineração de Dados e o segundo possui classes Java responsáveis pelo

“encapsulamento” desses algoritmos. A Figura 4.5 apresenta uma das principais interfaces da

ferramenta WEKA.

Figura 4.5 Interface da Ferramenta WEKA.

O principal tipo de arquivo utilizado pelo WEKA é o ARFF - Attribute-Relation File

Format.

4.3.1.1. Arquivos ARFF

ARFF é um formato desenvolvido na University of Waikato para ser utilizado no projeto

Weka Machine Learning Project. São arquivos de texto na codificação ASCII que descrevem

as relações e seus atributos (ATTRIBUTE-RELATION, 2008).

Na primeira parte do arquivo, conhecida como header, são declaradas as relações e os

atributos, onde a declaração das relações sequem o formato: @relation <nome-da-relação>, e

a declaração dos atributos sequem o formato: @attribute <nome-do-atributo> <tipo>. Os tipos

podem ser:

i. numeric: usado para números reais e inteiros;

ii. <nominal-specification>: especifica uma lista pré-definida de valores possíveis

separados por vírgula. Por exemplo: {amarelo, vermelho, azul};

iii. string: tipo que contém valores textuais;

iv. date: usado para datas.

Na segunda parte do arquivo são declaradas as instâncias, seguindo o formato: @data

<valor-atributo-1>, <valor-atributo-2>, ..., <valor-atributo-n>, conforme mostrado na Figura

Figura 4.6 Exemplo de um Arquivo ARFF.

4.3.2. Bayesware Discoverer

O Bayesware Discoverer é um programa computacional proprietário, disponível apenas

para a plataforma Windows, específico para a análise de Redes Bayesianas. Existem quatro

versões disponíveis atualmente no mercado (BAYESWARE, 2008):

i. Professional Edition: provê uma série de funcionalidades para se trabalhar com

Redes Bayesianas e a integração com outros sistemas, tais como Microsoft Excel

97/2000, Microsoft Access 97/2000 e Mathsoft S-Plus 2000;

ii. Enterprise Edition: inclui todas as funcionalidades da versão Professional Edition

e, adicionalmente, provê a possibilidade de importação e exportação de consultas

SQL em uma rede de computadores;

iii. Academic Edition: versão utilizada para pesquisas e por instituições acadêmicas.

Possui as mesmas funcionalidades do Professional Edition, porém o preço sofre um

desconto. Está incluído nessa versão um ano de suporte;

iv. Student Edition: uma versão que pode ser livremente usada para fins de pesquisa e

por instituições acadêmicas. Possui a limitação de trabalhar com bases de dados

com no máximo 500 registros.

A interface gráfica do Bayesware Discoverer está separada em três elementos principais:

Database Browser, Database Window e Network Window. O Database Browser provê acesso

a todos os bancos de dados disponíveis e, cada banco pode ser visualizado em uma Database

Window. Além disso, para o mesmo banco, podem ser associadas diversas redes, que são

visualizadas na Network Window. A visão geral da interface gráfica está demonstrada na

Figura 4.7.

Figura 4.7 Visão Geral da Interface Gráfica do Bayesware Discoverer (BAYESWARE, 2000).

A Network Window é a visão principal do programa. Nela estão localizadas todas as

funcionalidades para a modelagem, exploração e análise das Redes Bayesianas. Na Figura 4.8

temos uma visão da Network Window e cada componente será brevemente explicado

posteriormente.

Figura 4.8 Visão da Network Window (BAYESWARE, 2000).

1. Network Menu Bar: contém os comandos básicos para a manipulação da janela,

tais como abrir um novo arquivo, fechar a janela, ajuda, etc;

2. Network Tool Bar: é composta por um conjunto de ícones que representam atalhos

para os principais comandos do Network Menu Bar;

3. Network Node Bar: contém uma lista de todos os nós definidos na Network Panel.

Clicando sobre cada um dos nós, são exibidas informações mais detalhadas;

4. Network Panel: nesse componente a Rede Bayesiana pode ser visualizada

graficamente a partir de um grafo dirigido;

5. Network Help Line: descreve brevemente ações que podem ser executadas, como

clicar com o botão direito do mouse;

6. Network Progress Indicator: exibe uma barra de progresso de alguma atividade

sendo executada.

5. ESTUDO DE CASO: MINERAÇÃO DO LABSQL

Este capítulo apresenta uma aplicação de técnicas de Mineração de Dados no processo de

aprendizagem na educação a distância. O objetivo deste estudo de caso é analisar os dados

obtidos a partir do ambiente virtual de aprendizagem LabSQL, aplicando as técnicas de

Mineração de Dados denominadas Árvore de Decisão e Redes Bayesianas para descobrir

informações relevantes sobre o desempenho dos alunos com relação à utilização dessa

tecnologia e ao processo de ensino-aprendizado. Este trabalho é do tipo exploratório, onde se

analisa os dados buscando relacionamentos novos e não previstos.

A aplicação das técnicas de mineração de dados utilizadas para alcançar os objetivos

deste estudo de caso foi realizada de acordo com as etapas do processo de KDD. A Subseção

5.1 apresenta cada uma dessas etapas realizadas neste estudo de caso.

5.1 O PROCESSO DE KDD

O contexto no qual o processo de KDD é utilizado consiste na análise dos dados obtidos a

partir do banco de dados do LabSQL, correspondentes a 11 turmas em um modelo de ensino-

aprendizagem semi-presencial, contendo, em média, 29 alunos cada, durante três semestres

letivos, da Universidade Federal do Pará, correspondentes ao ano de 2007 e ao primeiro

semestre de 2008, em que quatro turmas são de pós-graduação em especialização em Banco

de Dados e sete turmas de graduação: sendo três pertencentes ao curso de Ciência da

computação e quatro de Sistemas de Informação. No total, o sistema foi utilizado por

trezentos e dezenove usuários.

Para uma maior compreensão acerca do domínio dos dados, o Apêndice B apresenta uma

análise descritiva dos dados coletados no LabSQL.

Uma vez definido o domínio sobre o qual se pretende executar o processo de descoberta

de conhecimento, o próximo passo é selecionar e coletar o conjunto de dados ou variáveis

necessárias para representar o domínio.

5.1.1. Seleção dos Dados

Nesta etapa foi realizado um estudo da estrutura da base de dados do LabSQL com o

objetivo de compreender os relacionamentos entre as tabelas desse banco de dados, e

identificar os atributos relevantes e úteis para discriminar as diferentes ações e desempenhos

dos usuários do LabSQL.

O banco de dados do LabSQL possui cerca de 20 tabelas com informações associadas aos

seus usuários. Após estabelecer uma compreensão dos relacionamentos dessas tabelas, foram

implementadas vinte e uma consultas SQL para coletar os diferentes atributos utilizados neste

trabalho. Após a realização dessas consultas, obteve-se dados estruturados acerca do

desempenho das atividades desenvolvidas pelos usuários do ambiente LabSQL.

Dessa forma, dentre os atributos selecionados destaca-se: sexo do usuário (masculino ou

feminino); nome do curso (Ciência da Computação, Sistema de Informação ou Especialização

em Banco de Dados); nome do tipo de curso (graduação ou especialização); código da turma

(11 valores); código do coordenador da turma (2 valores); o tempo que o usuário levou para

se inscrever na turma após o início de inscrição (em dias); trabalhou em equipe (sim ou não);

usou agenda de anotações do sistema (sim ou não). O Apêndice A apresenta a descrição

completa dos 34 atributos primários obtidos durante a fase de Seleção dos Dados.

5.1.2. Pré-processamento e Limpeza dos Dados

Nesta etapa foram realizados alguns tratamentos nos dados obtidos para uma melhor

aplicação das técnicas de mineração de dados.

Dentre as atividades realizadas nesta etapa destacam-se:

i. A retirada de registros de usuários de testes cadastrados no ambiente LabSQL;

ii. O preenchimento manual de dados em branco, como o sexo do usuário, inferido a

partir do seu nome; Em seguida, os usuários foram renomeados para preservar a

privacidade das demais informações a eles associados, convencionando aluno_1,

aluno_2, etc.

Além disso, houve a definição de quais atributos são relevantes, baseando-se em

conversas e entrevistas com os professores que utilizam o ambiente. Nesse sentido, destacam-

se os atributos relacionados à Freqüência (quantidade) de acesso; aos acertos nos exercícios,

aos acertos nas provas, ao número de submissões (SQL-livre, exercícios), aos acertos na

prova (Nota), ao trabalho em grupos, e a utilização dos recursos disponíveis do ambiente,

como o SQL-livre e o material de apoio. Esses atributos são considerados relevantes, pois são

comumente utilizados pelos professores para avaliar o desempenho e atribuir as notas

(conceitos) finais dos alunos na disciplina.

5.1.3. Transformação dos Dados

Antes de realizar a etapa de extração de padrões, realizou-se um tratamento nos dados,

adequando o formato dos dados selecionados para o processo de extração de conhecimento. A

construção de uma árvore de decisão utilizando atributos contínuos exigiria a criação de um

ramo para cada valor distinto do atributo, tornando a árvore pouco generalista. Para evitar este

problema, é recomendado submeter os atributos contínuos a um processo de discretização

(FAYYAD, 1993). Assim, foi realizada a discretização de alguns atributos para a redução do

número de valores contínuos, agrupando-os em classes.

Além disso, criaram-se novos atributos a partir de outros, visando avaliar o desempenho

dos alunos, por exemplo, para avaliar se o aluno está abaixo ou acima da média de pontos ou

de acessos ou se o aluno usou ou não determinado recurso do ambiente LabSQL, como a

agenda e o trabalho em grupo.

Foi realizada, ainda, a transformação no formato de data de “mm/dd/aaaa” para

“dd/mm/aaaa” para viabilizar o cálculo do tempo que o usuário levou para se inscrever na

turma após o início de inscrição. Foi adicionado o símbolo “?” para representar as

informações desconhecidas de alguns usuários como a data de inscrição na disciplina. O

símbolo de interrogação é interpretado como dado desconhecido por ambas as ferramentas de

mineração de dados utilizadas neste trabalho, o WEKA e o Bayesware Discoverer.

Dessa forma, foram trabalhados com 59 atributos, dentre eles destaca-se; ficou acima da

média de pontos em questões de múltipla escolha nos exercícios e avaliações (sim ou não);

média de pontos em questões discursivas nos exercícios e avaliações (valor continuo); ficou

acima da média de acessos ao SQL-livre (sim ou não); ficou acima da média de acessos ao

material de apoio disponível no ambiente (sim ou não); ficou acima da média de problemas de

programação SQL resolvidos corretamente nos exercícios e avaliações (sim ou não); ficou

acima da média de pontos em questões de programação SQL nos exercícios e avaliações (sim

ou não); média do nível de dificuldades dos problemas resolvidos (valor continuo) e ficou

acima da média de acessos ao ambiente (sim ou não). O Apêndice A apresenta a descrição

completa dos 59 atributos trabalhados, sendo atributos primários e derivados obtidos a partir

dos atributos primários durante a fase de Transformação dos Dados.

Após as transformações descritas acima na etapa de pré-processamento, foi necessário

converter os dados resultantes da base de dados para os formatos específicos das ferramentas

de mineração de dados utilizadas. No caso da ferramenta Bayesware Discoverer, os dados

foram convertidos para o formato separado por tabulações, ilustrado na Figura 5.1. No caso da

ferramenta WEKA os dados foram convertidos para o formato ARFF, ilustrado na Figura 5.2.

Figura 5.1 Representação dos Dados no Formato Separado por Tabulação.

Figura 5.2 Representação dos Dados no Formato ARFF.

5.1.4. Mineração de Dados

Esta etapa apresenta a aplicação das técnicas de mineração de dados utilizadas neste

trabalho para a extração e a descoberta de padrões propriamente dita.

5.1.4.1 Aplicação de Redes Bayesianas

Para aplicação das Redes Bayesianas, após a conversão do banco de dados do LabSQL

para o formato separado por tabulação, utilizou-se a ferramenta Bayesware Discoverer versão

Student Edition 1.0, versão que pode ser livremente usada para fins de pesquisa e por

instituições acadêmicas. O Apêndice C apresenta a mineração de dados passo a passo na

ferramenta Bayesware Discoverer.

Após a geração da rede bayesiana nesta ferramenta, busca-se executar inferências na rede

para descobrir informações e padrões que podem ser úteis para gestores do domínio da

aplicação. Foram realizadas diferentes análises para as redes bayesianas geradas. Na Subseção

5.1.5.1 é mostrada como foi realizada as análises das redes bayesianas geradas, bem como os

resultados obtidos na fase de Mineração de dados.

5.1.4.2 Aplicação de Árvore de Decisão

Para aplicação da Árvore de Decisão, após a conversão do banco de dados do LabSQL

para o formato ARFF, utilizou-se a ferramenta WEKA (Waikato Environment for Knowledge

Analysis) (WEKA, 2008), versão 3.4, que executou a tarefa de classificação, utilizando o

algoritmo J48 em validação cruzada (cross validation) para a construção da Árvore de

Decisão. O método de validação cruzada 10-Fold-Cross-Validation foi utilizado a fim testar a

acurácia do modelo no mesmo conjunto de dados utilizado para construir o modelo. A

acurácia é uma métrica que avalia os modelos de classificação a partir da porcentagem de

predições corretas que o modelo executou sobre o total de predições realizadas. Ela é

importante, pois permite avaliar um classificador para determinar o quanto ele será eficiente

para predizer dados futuros, ou seja, qual a sua capacidade de generalização. O Apêndice D

apresenta a mineração de dados passo a passo na ferramenta WEKA.

No total, foram geradas cerca de 20 árvores de decisão para os atributos discretos do

banco de dados, sendo geradas muitas regras, cerca de 400, porém na Subseção 5.1.5 é

mostrada como foi realizada a análise dos resultados obtidos na fase de Mineração de dados.

5.1.5. Análise dos Resultados e Interpretações

Nesta seção são realizadas as análises dos resultados e interpretações visando identificar

padrões e interpretá-los a fim de que os resultados do processo de descoberta de

conhecimento sejam relevantes e compreensíveis para os professores, os quais são

responsáveis por validar o conhecimento adquirido sobre o desempenho dos alunos com

relação à utilização dessa tecnologia e ao processo de ensino-aprendizado.

5.1.5.1 Análise dos Resultados e Interpretações das Redes Bayesianas

A ferramenta Bayesware Discoverer construiu as redes a partir dos atributos do banco de

dados criado, exibindo as tabelas de probabilidade condicional ou incondicional de cada nó

(atributo). Dentre as ligações observadas na Figura 5.3, gerada após a execução do software,

destaca-se que a demora para inscrição (2) influência diretamente quais usuários estão, ou

não, acima da média de acessos ao ambiente (6), na utilização ou não da agenda (3) e na

média de pontos em questões de múltipla escolha nos exercícios e avaliações (5). Por outro

lado, a demora para inscrição é influenciada pelo curso (1). Além disso, observou-se que os

usuários que estão, ou não, acima da média de acessos ao ambiente (6) influenciam no total de

problemas resolvidos corretamente nas avaliações (7) e que o sexo do usuário (4) não

influencia nenhum outro atributo.

Figura 5.3 Rede Bayesiana para Análise da Demora para Inscrição na Turma.

Na Figura 5.4 é possível observar as tabelas de probabilidade dos nós da rede gerada. Em

cada tabela, tem-se a distribuição probabilística dos seus possíveis valores. Após realizar

algumas inferências, foi possível observar que ao colocar o atributo referente à demora para

inscrição (1) em 100% para a menor demora (0 a 6 dias), inferiu ao atributo acima da média

de acessos ao ambiente (4), um aumento de 0,388 (38,8% de probabilidades a priori) para

0,509 (50,9% de probabilidades a posteriori) em S (sim), ou seja, acima da media de acesso ao

ambiente. Da mesma forma, inferiu ao atributo referente à média de pontos em questões de

múltipla escolha nos exercícios (3) um aumento de 0,398 (39,8% de probabilidades a priori)

para 0,500 (50% de probabilidades a posteriori) em S (sim), ou seja, acima média de pontos

em questões de múltipla escolha nos exercícios.

Figura 5.4 Tabelas de Probabilidade para Análise da Demora para Inscrição dos Usuários no

Ambiente LabSQL (demora_para_inscricao_turma).

Portanto, os alunos que iniciam a disciplina mais cedo no ambiente, possuem um

desempenho elevado em relação à quantidade de acessos e ao total de pontos na resolução dos

exercícios de múltipla escolha. Desde o início, deve-se motivar a participação dos alunos na

utilização do ambiente para desenvolver melhor seu aprendizado, e criar outras possibilidades

para aproximar os alunos que estão atrasados em relação ao restante da turma.

Pode-se observar, ainda, que o atributo Usou_A_Agenda aumentou de 0,046 (4,6% de

probabilidade a priori) para 0,480 (48% de probabilidade a posteriori) em “S” (usou a

agenda). Portanto, os estudantes que iniciam mais cedo no ambiente exploraram mais as

funcionalidades do sistema. Dessa forma, para auxiliar os estudantes atrasados, faz-se

necessário criar uma espécie apoio na descoberta das funcionalidades do sistema.

Além disso, a Figura 5.5 apresenta uma Rede Bayesiana para análise do coordenador da

turma. Nela, destaca-se a influência que o coordenador da turma tem em relação à quantidade

de acesso dos usuários ao ambiente, o trabalho em equipe e o nível de dificuldade dos

problemas resolvidos pelos usuários. Dessa forma, observa-se que determinados

coordenadores de turma promovem uma maior utilização do ambiente em relação à

quantidade de acessos dos alunos do que outros coordenadores. Além disso, a partir da Rede

Bayesiana gerada é possível perceber diferenças de atitudes dos coordenadores em relação à

utilização dos recursos do ambiente durante o processo de aprendizado, como o nível de

dificuldade dos trabalhos oferecidos aos alunos e a opção de organizar trabalho em equipe.

Figura 5.5 Tabelas de Probabilidade e Rede Bayesiana para Análise do Coordenador da Turma.

A Figura 5.6 apresenta a Rede Bayesiana utilizada para análise dos usuários que estão, ou

não, acima da média de pontos em questões de programação SQL nos exercícios e avaliações.

Nela, observa-se que o atributo Acima_Media_Total_Pontos_Sql (1) tem dependência direta

dos atributos Acima_Media_Total_de_Tentativas_SQL (2) e do atributo

Acima_Media_Total_Pontos_Alternativas (3). Nesse sentido, os usuários que estão acima, ou

não, da média de pontos em questões de programação SQL nos exercícios e avaliações,

dependem se eles estão acima, ou não, da média de tentativas de programação SQL nos

exercícios e avaliações, e se eles estão acima, ou não, da média de pontos em questões de

múltipla escolha nos exercícios e avaliações.

Figura 5.6 Rede Bayesiana para Análise dos Usuários que estão, ou não, Acima da Média de Pontos

em Questões de Programação SQL nos Exercícios e Avaliações (atributo

acima_media_de_total_pontos_sql).

Após realizar algumas inferências, conforme observado na Figura 5.7 foi possível

observar que ao colocar o atributo Acima_Media_Total_de_Tentativas_SQL, com 100% para

o valor “sim” e o atributo Acima_Media_Total_Pontos_Alternativas, com 100% para o valor

“sim” , o atributo Acima_Media_Total_Pontos_Sql, aumentou de 0,722 (72,2% de

probabilidade a priori) para 0,875 (87,5% de probabilidade a posteriori) em “sim” . Dessa

forma, se o usuário está acima da média de tentativas de programação SQL nos exercícios e

avaliações, e se ele está acima da média de pontos em questões de múltipla escolha nos

exercícios e avaliações, então o usuário tem 15,3% de chance a mais de está acima da média

de pontos em questões de programação

Em seguida este modelo de classificação foi testado em validação cruzada (cross

validation) para o atributo meta Acima_Media_Total_Pontos_Sql. O método de validação

cruzada 10-Fold-Cross-Validation foi utilizado a fim testar a acurácia do modelo no mesmo

conjunto de dados utilizado para construir o modelo. A Figura 5.8 apresenta o resultado do

teste de validação cruzada executado no Bayesware Discoverer. Nela, observa-se que a

acurácia foi de aproximadamente, 77,43%, ou seja, foram classificados corretamente 247

instancias, das 319.

Figura 5.7 Tabelas de Probabilidade para Análise dos Usuários que estão, ou não, Acima da Média

de Pontos em Questões de Programação SQL nos Exercícios e Avaliações (atributo

acima_media_de_total_pontos _sql).

Figura 5.8 Resultado do Teste de Validação Cruzada Executado pelo Bayesware.

A Subseção 5.1.5.2 apresenta as análises dos resultados e interpretações da aplicação da

técnica de Árvore de Decisão sobre a mesma base de dados utilizada na aplicação da Rede

Bayesiana.

5.1.5.2 Análise dos Resultados e Interpretações da Árvore de Decisão

Após a fase de Mineração de Dados, foram selecionadas sete árvores de decisão, levando-

se em consideração a acurácia dos modelos de classificação e a relevância dos atributos para a

análise do desempenho dos usuários do LabSQL com relação à utilização dessa tecnologia e

ao processo de ensino-aprendizado. Dentre os atributos objetivos (ou atributo meta) dos

modelos de classificação selecionados, destacam-se:

i. acima_media_pontos_alternativas_exercicios, visando classificar os usuários que

estão, ou não, acima da média de pontos em questões de múltipla escolha nos

exercícios;

ii. acima_qtd_acessos, visando classificar os usuários que estão, ou não, acima da

média de acessos ao ambiente;

iii. acima_qtd_acessos_sql_livre, visando classificar os usuários que estão, ou não,

acima da média de acessos ao SQL-Livre;

iv. acima_media_de_tentativas_sql_avaliacao, visando classificar os usuários que

estão, ou não, acima da média de tentativas de programação SQL nas avaliações;

v. acima_media_pontos_sql_exercicios, visando classificar os usuários que estão, ou

não, acima da média de pontos em questões de programação SQL nos exercícios.

A média de acurácia dos modelos de classificação selecionados foi de aproximadamente,

80,24%. A partir das árvores de decisão geradas foram extraídas cerca de 80 regras, dentre as

quais, foram selecionadas as mais relevantes. Um dos critérios que podem ser utilizados para

medir a qualidade das regras geradas por um sistema de aprendizado é a precisão. A precisão

é o grau de confiabilidade das regras, geralmente representada a partir da taxa de erro.

Para Berson e Smith (1997), o conceito de taxa de estimativa de erro pode ser obtido a

partir da seguinte forma: se N exemplos são cobertos por determinado nó folha e E dentre

estes N são classificados de forma incorreta, então a taxa de estimativa de erro dessa folha é

E/N. O valor da classe (atributo-meta), que corresponde à parte “então” da regra, é

apresentado após o símbolo de dois-pontos (:).

Por exemplo, para a regra extraída da árvore de decisão: “nome_curso =

sistemas_de_informacao AND nivel_dificuldade_problemasResolvidos > 1,2 : sim (20/1)”,

tem-se dentro dos parênteses, respectivamente, que o peso das instâncias classificadas no nó

folha acima_media_pontos_alternativas_exercicios com valor “sim”, ou seja, acima da média

de pontos em questões de múltipla escolha nos exercícios, é 20 e que o número de instâncias

classificadas de forma incorreta para esse nó é 1. A partir da fórmula da estimativa de erro, a

taxa de erro será 0,05 (1/20). Dessa forma, a precisão para esta regra será 0,95 (1 - 0,05), ou

seja, aproximadamente 95% dos usuários do curso de Sistema de Informação que resolvem

problemas com nível de dificuldade em média de 1,2 (numa escala de 1 a 3) estão acima da

média de pontos em questões de múltipla escolha nos exercícios.

A Figura 5.9 apresenta a árvore de decisão, representada como regras de classificação,

gerada para exibir quais usuários estão, ou não, acima da média de acessos ao ambiente

LabSQL. Nela, destaca-se que em (1), aproximadamente 92,37% dos alunos que estão abaixo

(não estão acima) da média de acessos ao SQL-livre e abaixo da média de problemas de

programação SQL resolvidos corretamente nos exercícios, estão abaixo da média de acessos

ao ambiente (acima_qtd_acessos_sql_livre = nao AND acima_qtd_problema_sql_exercicios

= não: nao (118.0/9.0)) Além disso, observa-se que o atributo

“acima_qtd_acessos_sql_livre” é o mais representativo para classificação dos usuários que

estão, ou não, acima da média de acessos ao ambiente, por ser o nó raiz da árvore de decisão.

A acurácia deste modelo foi de, aproximadamente, 74,92% das instancias classificadas

corretamente.

Figura 5.9 Regras de Classificação para Análise dos Usuários que estão, ou não, Acima da Média de

Acessos ao Ambiente LabSQL (atributo acima_qtd_acessos).

A Figura 5.10 apresenta a árvore de decisão, representada como regras de classificação,

gerada para exibir quais usuários estão, ou não, acima da média de acessos ao SQL-live. Nela,

destaca-se que em (1), aproximadamente 88,43% dos alunos que estão abaixo da média de

acessos ao ambiente e abaixo da média de problemas de programação SQL resolvidos

corretamente nas avaliações, estão abaixo da média de acessos ao SQL-livre

(acima_qtd_acessos = nao AND acima_qtd_problema_sql_avaliacao = nao: nao

(121.0/14.0)) Além disso, observa-se que o atributo “acima_qtd_acessos” é o mais

representativo para classificação dos usuários que estão, ou não, acima da média de acessos

ao SQL-livre, por ser o nó raiz da árvore de decisão. A acurácia deste modelo foi de,

aproximadamente, 71,15% das instâncias classificadas corretamente.

Figura 5.10 Regras de Classificação para Análise dos Usuários que estão, ou não, Acima da Média de

Acessos ao SQL-Livre (atributo acima_qtd_acessos_sql_livre).

A Figura 5.11 apresenta a árvore de decisão gerada para exibir os usuários que estão, ou

não, acima da média de tentativas de programação SQL nas avaliações. Nela, destaca-se que

em (1), aproximadamente, 87,06% dos usuários que estão abaixo da média de tentativas de

programação SQL nos exercícios, estão abaixo da média de tentativas de programação SQL

nas avaliações ((acima_media_de_tentativas_sql_exercicios = nao: nao (201.0/26.0)). Além

disso, observa-se em (2), aproximadamente, 86,11% dos usuários que estão acima da média

de tentativas de programação SQL nos exercícios e não trabalham em Equipe, estão acima da

média de tentativas de programação SQL nas avaliações

((acima_media_de_tentativas_sql_exercicios = sim AND trabalhou_em_equipe = nao: sim

(108.0/15.0)) A acurácia deste modelo foi de, aproximadamente, 87,15% das instancias

classificadas corretamente.

Figura 5.11 Árvore de Decisão para Análise dos Usuários que estão, ou não, Acima da Média de

Tentativas de Programação SQL nas Avaliações (atributo acima_media_de_tentativas_sql_avaliacao).

Além dos resultados descritos anteriormente, foram feitas outras análises de regras

encontradas durante a mineração de dados utilizando-se a Árvore de Decisão. Dessa forma,

observa-se que 100% dos usuários que demoram menos de 30 dias para se inscrever estão

acima da média de pontos em questões de programação SQL nos exercícios

(demora_para_inscricao_turma <= 30: sim (20.0)). Portanto, os alunos mais interessados na

disciplina que buscam mais cedo iniciar a utilização da ferramenta, demonstram um

desempenho maior em relação à pontuação dos exercícios de programação SQL. Outro

exemplo de regra encontrado foi que 100% dos usuários que estão abaixo da média de pontos

em questões de programação SQL nos exercícios e possuem menos de 42 problemas de

múltipla escolha resolvidos corretamente nas avaliações, estão abaixo da média de acessos ao

ambiente (acima_media_pontos_sql_exercicios = nao AND

qtd_problemas_alternativas_avaliacao <= 42: nao (91.0)). Portanto deve-se incentivar cada

vez mais o acesso dos alunos no sistema.

Dessa forma, a partir da análise das regras de classificação encontradas é possível

verificar padrões referentes ao processo de aprendizado relacionado ao comportamento dos

alunos que podem ser aproveitados pelos gestores do domínio da aplicação.

5.2 ANÁLISE COMPARATIVA ENTRE UM MODELO DE CLASSIFI CAÇÃO

DE ÁRVORE DE DECISÃO E UM DE REDE BAYESIANA

Após a aplicação do processo de KDD, resolveu-se comparar dois modelos de

classificação, um de Rede Bayesiana e outro de Árvore de Decisão, com o objetivo de saber

se eles diferem ou não em relação à proporção de acertos nas predições das classes

correspondentes aos valores do atributo Acima_media_Pontos_SQL_Avaliação, que

determina se o usuários está, ou não, acima da média de pontos em questões de programação

SQL nas avaliações. Os Modelos de classificação comparados são:

i. A Rede Bayesiana (RB)

A Figura 5.12 apresenta a rede bayesiana para análise dos usuários que estão, ou não,

acima da média de pontos em questões de programação SQL nas avaliações. Nela, observa-se

que o atributo meta Acima_Media_Pontos_Sql_Avalacao (1) tem dependência direta dos

atributos Acima_Media_Pontos_Sql_Exercicios (2) e Trabalhou_Em_Equipe (3).

Figura 5.12 Rede Bayesiana para Análise dos Usuários que estão, ou não, Acima da Média de Pontos

em Questões de Programação SQL nas Avaliações (Atributo Acima_media_Pontos_SQL_Avaliação).

ii. A Árvore de Decisão (AD)

A Figura 5.13 apresenta a Árvore de Decisão na forma de Regras de Classificação para

análise dos usuários que estão, ou não, acima da média de pontos em questões de

programação SQL nas avaliações. Nela, observa-se que o atributo

“acima_media_pontos_sql_exercicios”, identificado por (1) e (2), é o mais representativo para

classificação dos usuários que estão, ou não, acima da média de pontos em questões de

programação SQL nas avaliações, por ser o nó raiz da árvore de decisão.

Figura 5.13 Árvore de Decisão na forma de Regras de Classificação para Análise dos Usuários que

estão, ou não, Acima da Média de Pontos em Questões de Programação SQL nas Avaliações (Atributo

Acima_media_Pontos_SQL_Avaliação).

Ambos os classificadores foram testados utilizando-se o método de validação cruzada 10-

Fold-Cross-Validation para obtenção da proporção de acertos (acurácia) dos referidos

classificadores.

Para realizar a referida comparação foi utilizado o Teste de Hipótese de Proporção

descrito no Anexo A. Neste caso, o pesquisador observa as proporções em dois grupos

distintos e as compara com o objetivo de saber se os grupos diferem ou não em relação à

resposta de interesse, sendo que, neste caso, o número de observações é o mesmo nas duas

amostras.

Dado o Teste de Hipótese:

• H0: p1 - p2 = 0 (O modelo de RB (p1) é igual ao modelo de AD (p2))

• H1: p1 - p2 ≠ 0 (O modelo de RB (p1) difere do modelo de AD (p2))

A Tabela 5.1 apresenta os resultados do teste para a diferença de duas proporções, ao

nível de significância α = 5%. A partir dela, pode-se verificar que o valor de p é 0,904, maior

que α = 0,05, ou seja, não há evidências para rejeitar a hipótese nula (H0: p1 - p2 = 0). Dessa

maneira, a proporção de acertos no teste de redes bayesiana não é diferente da proporção de

acertos do teste de árvore de decisão.

Tabela 5.1 Resultados do Teste para a Diferença de Duas Proporções, ao nível de significância α =

0,05 ou 5%.

Modelos Acertos Total % Acertos p (RB) 279 319 87,46 0,904 (AD) 280 319 87,77

RB – Modelo de Rede Bayesiana; AD – Modelo de Árvore de Decisão.

6. CONCLUSÃO

Neste capitulo são mostradas as considerações finais a respeito do trabalho desenvolvido,

bem como, são apresentadas propostas para trabalhos futuros nessa área.

6.1. CONSIDERAÇÕES FINAIS

A avaliação e o entendimento do processo de ensino-aprendizado é um tópico de pesquisa

importante devido ao crescente número de ambientes virtuais de aprendizagem disponíveis,

como o LabSQL. Neste estudo, as técnicas de Mineração de Dados mostraram-se eficientes

para analisar o comportamento dos estudantes e professores em um curso oferecido a partir de

um ambiente virtual de aprendizagem, como observado nos resultados obtidos.

Com as Redes Bayesianas permitiram-se contabilizar relações de dependência entre as

ações envolvidas no processo de aprendizagem e o desempenho obtido pelos alunos. E a partir

árvores de decisão permitiu-se perceber padrões referentes ao processo de aprendizado

relacionado ao comportamento dos alunos, levando em consideração as regras que são mais

relevantes, além de serem compreensíveis para a maioria das pessoas.

Além disso, as técnicas Árvores de Decisão e Redes Bayesianas demonstraram-se

equivalentes em relação à proporção de acertos nos testes realizados, de modo que, ambos os

modelos podem ser utilizados para discriminar o perfil dos estudantes e professores que

utilizam o ambiente LabSQL.

Assim, a partir da combinação das tecnologias de Mineração de Dados com ambientes de

EaD, é possível analisar e obter conclusões sobre as ações praticadas pelos usuários em

relação ao seu desempenho e aprendizado, beneficiando os envolvidos com a utilização e

evolução de ambientes virtuais de aprendizagem.

Dessa forma, dentre outros resultados, nota-se que os usuários que se inscrevem mais

tarde no ambiente demonstram deficiências na utilização dos recursos do ambiente LabSQL,

uma vez que, proporcionalmente, obtiveram uma menor pontuação na resolução das

atividades do ambiente LabSQL e conseqüentemente um desempenho inferior aos demais.

Além disso, observa-se que determinados coordenadores de turma promovem uma maior

utilização do ambiente em relação à quantidade de acessos dos alunos do que outros

coordenadores. Ainda é possível perceber diferenças de atitudes dos coordenadores em

relação à utilização dos recursos do ambiente durante o processo de aprendizado, como o

nível de dificuldade dos trabalhos oferecidos aos alunos e a opção de organizar trabalho em

equipe.

6.2. TRABALHOS FUTUROS

Como sugestão para trabalhos futuros, pode-se citar:

i. A integração das técnicas de Mineração de Dados avaliadas neste trabalho no

ambiente LabSQL, a fim de obter os resultados da aplicação dessas técnicas de

forma automática a partir do ambiente.

ii. Construir um data warehouse, um repositório de dados, com os dados do ambiente

LabSQL, a fim de ser utilizado para armazenar informações relativas aos atributos

presentes no banco de dados que expressem o comportamento dos usuários,

favorecendo a aplicação das técnicas de descoberta de conhecimento em base de

dados.

iii. Aplicação de outras técnicas de Mineração de Dados, como Regras de Associação,

Redes Neurais e Clusterização, sobre a base de dados do ambiente LabSQL.

REFERÊNCIAS

ÁRVORE DE DECISÃO . Disponível em: <http://www.maxwell.lambda.ele.puc-rio.br/cgi-bin/PRG_0599.EXE/3710_4.PDF?NrOcoSis=6894&CdLinPrg=pt>. Acesso em: 10 dez. 2007.

ATTRIBUTE-RELATION File Format (ARFF). Disponível em: <http://www.cs.waikato.ac.nz/~ml/weka/arff.html>. Acesso em: 02 nov. 2008.

BATISTA, G. E. A. P. A. Pré-Processamento de Dados em Aprendizado de Máquina Supervisionado. 2003. 232 f. Tese (Doutorado em Ciências de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003. Disponível em: < http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06102003-160219/>. Acesso em: 02 nov. 2008.

BAYESWARE. Bayesware Discoverer: User Manual. 2000. 113 p.

BAYESWARE Limited. Bayesware Discoverer, Disponível em: <http://www.bayesware.com>. Acesso em: 10 dez. 2008.

BERRY, M. J. A.; LINOFF, G. Data Mining Tehniques – for marketing, sales, and customer support. United States: Wiley Computer Publishing, 1997.

BERSON, A.; SMITH, S.J., Data Warehousing, Data Mining and OLAP. EUA. Mac-Graw-Hill. 1997.

BUSSAB, W. O., MORETIN, P. A. Estatística Básica. 4. ed. São Paulo: Atual, 1987.

CARVALHO, D. R. Data Minig através de Introdução de Regras e Algoritmos Genéticos, 1999. f Dissertação (Mestrado em Informática Aplicada) - Pontifícia Universidade Católica do Paraná - PUCPR, Curitiba, 1999.

CARVALHO, L. A. V. Datamining: a mineração de dados no marketing, medicina, economia, engenharia e administração. São Paulo: Érica, 2001.

COOLEY, R.; MOBASHER, B; SRIVASTAVA, J. Data Preparation for Mining World Wide Web Browsing Patterns. Journal of Knowledge and Information Systems, (1) 1, 1999.

DIAS, M. M.; SILVA FILHO, L. A.; LINO, A. D. P.; FAVERO, E. L.; RAMOS, E. M. L. S.. Aplicação de Técnicas de Mineração de Dados no Processo de

Aprendizagem na Educação a Distância. In: SIMPÓSIO BRASILEIRO DE INFORMÁTICA NA EDUCAÇÃO (SBIE 2008), 19º, 2008, Fortaleza - CE. Anais. Porto Alegre - RS: Sociedade Brasileira de Computação, 2008. p. 105-114.

DIAS, M. M.; SILVA FILHO, L. A. Acompanhamento do Aprendizado na Educação a Distância a partir da Aplicação de Técnicas de Mineração de Dados. In: CONGRESSO NACIONAL DE MATEMÁTICA APLICADA E COMPUTACIONAL, 31º, 2008, Belém.

DILLY, R. Data Mining Student Notes, v. 2.0. Queen’s University of Belfast Parallel Computer Centre. 1995. Disponível em: < http://www.pcc.qub.ac.uk/tec/courses/datamining/stu_notes/dm_book_1.html>. Acesso em: 19 dez. 2008.

ESCOVAR, E. L. G. Algoritmo SSDM para a mineração de dados semanticamente similares. 2004. 87 f. Dissertação (Mestrado em Ciência da Computação) – Centro de Ciências Exatas e de Tecnologia, Universidade Federal de São Carlos, São Carlos, 2004.

FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery: An overview. In: Advances in Knowledge Discovery and Data Mining, AAAI Press / The MIT Press, MIT, Cambridge, Massachusetts, and London, England, 1996, p.1-34.

FAYYAD, U. M. Multi-interval discretization of continuous valued atributes for classification learning. In: INT. JOINT CONF., 13ª, 1993, Alemanha.

GNU - The GNU General Public License - GNU Project - Free Software Foundation (FSF). Disponível em: <http://www.gnu.org/copyleft/gpl.html>. Acesso em: 06 nov. 2008.

GOEBEL, M.; GRUENWALD, L. A survey of data mining and knowledge discovery software tools. ACM SIGKDD, San Diego, v. 1, n. 1, p. 20-33, 1999.

GOLDSCHMIDT, R. R. ; PASSOS, E. P. L. Data Mining: Um Guia Prático - Conceitos, Técnicas, Ferramentas, Orientações e Aplicações. Rio de Janeiro: Editora Campus, 2005. v. 1. 250 p.

KOCK JR., N. F.; MCQUEEN, R. J.; BAKER, M. Learning and process improvement in knowledge organisations: A critical analysis of four contemporary myths. The Learning Organization, 1996. p. 31–40.

LINO, A. D. P.; SILVA, A. S.; FAVERO, E. L.; BRITO, S. R.; HARB, M. P. A. A. Avaliação automática de consultas SQL em ambiente virtual de ensino-

aprendizagem. In: CONFERÊNCIA IBÉRICA DE SISTEMAS E TECNOLOGIAS DE INFORMAÇÃO, 2ª, 2007, Porto.

LINO, A. P. LabSQL: Laboratório de Ensino de SQL. 2007. 74 f. Dissertação (Mestrado em Engenharia Elétrica) - Programa de Pós-Graduação em Engenharia Elétrica, Universidade Federal do Pará, Belém, 2007.

LOLLINI, P. Didática e computadores: quando e como a informática na escola. São Paulo: Loyola, 1991.

LOPES, C. C; SCHIEL, U. Uma Estratégia para Aplicar Mineração de Dados no Acompanhamento do Aprendizado na EaD. Seminário de Computação, 13°, Blumenau, 2004.

LUNA, J. E. O. Algoritmos EM para Aprendizagem de Redes Bayesianas a partir de Dados Incompletos. 2004. 120 f. Dissertação (Mestrado em Ciência da Computação) - Departamento de Computação e Estatística, Universidade Federal de Mato Grosso do Sul - UFMS, Campo Grande, 2004. Disponível em: <http://www.dct.ufms.br/~mzanusso/producao/EM_BayeNetwork.pdf>. Acesso em: 15 dez. 2008.

MACHADO, L. S.; BECKER, K. O Uso da Mineração de Dados na Web Aplicado a um Ambiente de Ensino a Distância. In: WORKSHOP DE TESES E DISSERTAÇÕES EM BANCO DE DADOS, 1°. SIMPÓSIO BRASILEIRO DE BANCO DE DADOS, 19º, 2002, Gramado.

MARTINHAGO, S. Descoberta de Conhecimento sobre o Processo Seletivo da UFPR. Dissertação (Mestrado em Métodos Numéricos em Engenharia) – Universidade Federal do Paraná, Curitiba. 2005.

MARTINS, J. G.; CAMPESTRINI, B. B. Ambiente virtual de aprendizagem favorecendo o processo ensino-aprendizagem em disciplinas na modalidade de educação a distância no ensino superior. Universidade do Vale do Itajaí, 2004. Disponível em: <http://www.abed.org.br/congresso2004/por/htm/072-TC-C2.htm>. Acesso em: 10 dez. 2008.

MIZZARO, S. Relevance: The Whole History. Journal of the American Society for Information Science, New York: John Wiley & Sons. v.48, n.9, p.810-832. 1997.

MOODLE - A free, open source course management system for online learning. Disponível em: <http://moodle.org>. Acesso em: 06 nov .2008.

OEIRAS, J. Y. Y. Design de ferramentas de comunicação para colaboração em ambientes de educação a distância. 2005. 174 f. Tese (Doutor em Ciência da

Computação) - Instituto de Computação, Universidade Estadual de Campinas, Campinas, 2005.

OVERVIEW DATA MINING: Curso de Inteligência Tecnológica - IME, Rio de Janeiro, 2005. 6 p.

QUILAN, J. R. Introduction of decision trees, Machine Learning, vol. 1 , pp.81- 106, 1986.

REFAAT, M. Data Preparation for Data Mining Usisg SAS. São Francisco: Elsevier, 2007.

REZENDE, S. O.; PUGLIESI, J. B.; MELANDA, E. A.; PAULA, M. F. Mineração de dados. In S. O. Rezende (Ed.), Sistemas Inteligentes – Fundamentos e Aplicações, Editora Manole, 2003.

ROCHA, H. V.; SILVA, C. G.; FREIRE, F. M. P. et al. Projeto TelEduc: Pesquisa e Desenvolvimento de Tecnologia para Educação a Distância. Trabalho vencedor da 1ª colocação no Prêmio ABED 2002 (categoria pesquisa). 2002.

RUSSEL, S. J.; NORVIG, P. Artificial Intelligence : A Modern Approach. Upper Saddle River, New Jersey: Prentice Hall, 1995.

RUSSELL, S. J.; NORVIG, P. Inteligência Artificial , 2ª Edição, Rio de Janeiro: Editora Elsevier, 2004.

SOUZA, E. P. Avaliação Formativa em Educação a Distância via Web. In: CONGRESSO INTERNACIONAL DE EDUCAÇÃO A DISTÂNCIA, 13º, Curitiba, 2007.

WANG, L.; MEINEL, C. Detecting the Changes of Web Students' Learning Interest. IEEE/WIC/ACM WI, 6º, 2007, Silicon Valley. Proceedings… Silicon Valley: IEEE Press, 2007, pp. 816 - 819.

WEKA. . Data Mining Software in Java. Disponível em <http://www.cs.waikato.ac.nz/ml/weka>. 2008. Acesso: 10 dez. 2008.

WIVES, L. K. Um Estudo sobre Agrupamento de Documentos Textuais em Processamento de Informações não Estruturadas Usando Técnicas de "Clustering" . Porto Alegre, 1998. 102p. Dissertação (Mestrado em Ciência da Computação) – PPGC, UFRGS, 1998.

ZAIANE, O.; LUO, J. Towards Evaluating Learners’ Behaviour in a Web-Based Distance Learning Environment. In: INTERNATIONAL CONFERENCE ON ADVANCED LEARNING TECHNOLOGIES, Madison , 2001.

APÊNDICE A – DESCRIÇÃO COMPLETA DOS 59

ATRIBUTOS TRABALHADOS

Classificação Nome do atributo Descrição

1 - AP sexo_usuario Sexo do usuário (masculino ou feminino)

2 - AP nome_curso Código do curso (Ciência da Computação, Sistema de Informação ou Especialização em Banco de Dados)

3 - AP nome_tipo_curso Código do tipo de curso (graduação ou especialização)

4 - AP cod_turma Código da turma (11 valores)

5 - AP cod_usuar_coord_turma Código do coordenador da turma (2 valores)

6 – AP media_pontos_alternativas_avaliacao Média de pontos em questões de múltipla escolha nas avaliações (valor continuo)

6.1 - AD acima_media_pontos_alternativas_avaliacao Ficou acima da média de pontos em questões de múltipla escolha nas avaliações (sim ou não)

7 – AP media_pontos_alternativas_exercicios Média de pontos em questões de múltipla escolha nos exercícios (valor continuo)

7.1 – AD acima_media_pontos_alternativas_exercicios Ficou acima da média de pontos em questões de múltipla escolha nos exercícios (sim ou não)

8 – AP media_total_pontos_alternativas Média de pontos em questões de múltipla escolha nos exercícios e avaliações (valor continuo)

8.1 – AD acima_media_total_pontos_alternativas Ficou acima da média de pontos em questões de múltipla escolha nos exercícios e avaliações (sim ou não)

9 – AP qtd_problemas_alternativas_avaliacao Quantidade de problemas de múltipla escolha resolvidos corretamente nas avaliações (valor continuo)

9.1 – AD acima_qtd_problemas_alternativas_avaliacao

Ficou acima da média de problemas de múltipla escolha resolvidos corretamente nas avaliações (sim ou não)

10 – AP qtd_problemas_alternativas_exercicios Quantidade de problemas de múltipla escolha resolvidos corretamente nos exercícios (valor continuo)

10.1 – AD acima_qtd_problemas_alternativas_exercicios

Ficou acima da média de problemas de múltipla escolha resolvidos corretamente nos exercícios (sim ou não)

11 – AP qtd_total_problemas_alternativas Quantidade de problemas de múltipla escolha resolvidos corretamente nos exercícios e avaliações (valor continuo)

11.1 – AD acima_qtd_total_problemas_alternativas

Ficou acima da média de problemas de múltipla escolha resolvidos corretamente nos exercícios e avaliações (sim ou não)

12 – AP media_pontos_discursivas_avaliacao Média de pontos em questões discursivas nas avaliações (valor continuo)

12.1 – AD acima_media_pontos_discursivas_avaliacao Ficou acima da média de pontos em questões discursivas nas avaliações (sim ou não)

13 – AP media_pontos_discursivas_exercicios Média de pontos em questões discursivas nos exercícios (valor continuo)

13.1 – AD acima_media_pontos_discursivas_exercicios Ficou acima da média de pontos em questões discursivas nos exercícios (sim ou não)

14 – AP media_total_pontos_discursivas Média de pontos em questões discursivas nos exercícios e avaliações (valor continuo)

14.1 – AD acima_media_total_pontos_discursivas Ficou acima da média de pontos em questões discursivas nos exercícios e avaliações (sim ou não)

15 – AP qtd_problemas_discursivas_avaliacao Quantidade de problemas discursivos resolvidos corretamente nas avaliações (valor continuo)

15.1 – AD acima_qtd_problemas_discursivas_avaliacao Ficou acima da média de problemas discursivos resolvidos corretamente nas avaliações (sim ou não)

16 – AP qtd_problemas_discursivas_exercicios Quantidade de problemas discursivos resolvidos corretamente nos exercícios (valor continuo)

16.1 – AD acima_qtd_problemas_discursivas_exercicios Ficou acima da média de problemas discursos resolvidos corretamente nos exercícios (sim ou não)

17 – AP qtd_total_problemas_discursivas Quantidade de problemas discursivos resolvidos corretamente nos exercícios e avaliações (valor continuo)

17.1 – AD acima_qtd_total_problemas_discursivas Ficou acima da média de problemas discursivas resolvidos corretamente nos exercícios e avaliações (sim ou não)

18 – AP media_pontos_sql_avaliacao Média de pontos de programação SQL nas avaliações (valor continuo)

18.1 – AD acima_media_pontos_sql_avaliacao Ficou acima da média de pontos em questões de programação SQL nas avaliações (sim ou não)

19 – AP media_pontos_sql_exercicios Média de pontos de programação SQL nos exercícios (valor continuo)

19.1 – AD acima_media_pontos_sql_exercicios Ficou acima da média de pontos em questões de programação SQL nos exercícios (sim ou não)

20 – AP media_total_pontos_sql Média de pontos de programação SQL nos exercícios e avaliações (valor continuo)

20.1 – AD acima_media_total_pontos_sql Ficou acima da média de pontos em questões de programação SQL nos exercícios e avaliações (sim ou não)

21 – AP media_de_tentativas_sql_avaliacao Média de tentativas de programação SQL nas avaliações (valor continuo)

21.1 – AD acima_media_de_tentativas_sql_avaliacao Ficou acima da média de tentativas de programação SQL nas avaliações (sim ou não)

22 – AP media_de_tentativas_sql_exercicios Média de tentativas de programação SQL nos exercícios (valor continuo)

22.1 – AD acima_media_de_tentativas_sql_exercicios Ficou acima da média de tentativas de programação SQL nos exercícios (sim ou não)

23 – AP media_total_de_tentativas_sql Média de tentativas de programação SQL nos exercícios e avaliações (valor continuo)

23.1 – AD acima_media_total_de_tentativas_sql Ficou acima da média de tentativas de programação SQL nos exercícios e avaliações (sim ou não)

24 – AP qtd_problema_sql_avaliacao

Quantidade de problemas de programação SQL respondidos corretamente nas avaliações (valor continuo)

24.1 – AD acima_qtd_problema_sql_avaliacao

Ficou acima da média de problemas de programação SQL resolvidos corretamente nas avaliações (sim ou não)

25 – AP qtd_problema_sql_exercicios

Quantidade de problemas de programação SQL respondidos corretamente nos exercícios (valor continuo)

25.1 – AD acima_qtd_problema_sql_exercicios

Ficou acima da média de problemas de programação SQL resolvidos corretamente nos exercícios (sim ou não)

26 – AP qtd_total_problema_sql

Quantidade de problemas de programação SQL respondidos corretamente nos exercícios e avaliações (valor continuo)

26.1 – AD acima_qtd_total_problema_sql

Ficou acima da média de problemas de programação SQL resolvidos corretamente nos exercícios e avaliações (sim ou não)

27 – AP trabalhou_em_equipe Trabalhou em equipe (sim ou não)

28 – AP usou_agenda Usou agenda de anotações do sistema (sim ou não)

29 – AP qtd_acessos Quantidade de acessos (valor continuo)

29.1 – AD acima_qtd_acessos Ficou acima da média de acessos ao ambiente (sim ou não)

30 – AP qtd_acessos_material_de_apoio Quantidade de acessos ao material de apoio (valor continuo)

30.1 – AD acima_qtd_acessos_material_de_apoio Ficou acima da média de acessos ao material de apoio disponível no ambiente (sim ou não)

31 – AP qtd_acessos_sql_livre Quantidade de acessos ao SQL-livre (valor continuo)

31.1 – AD acima_qtd_acessos_sql_livre Ficou acima da média de acessos ao SQL-livre (sim ou não)

32 – AP qtd_acoes Quantidade de ações executadas pelo usuário no LabSQL (valor continuo)

32.1 - AD acima_qtd_acoes Ficou acima da média do total de ações executadas no ambiente (sim ou não)

33 – AP nivel_dificuldade_problemasResolvidos Média do nível de dificuldades dos problemas resolvidos corretamente (valor continuo)

34 – AP demora _para_inscricao_turma O tempo que o usuário levou para se inscrever na turma após o início de inscrição (em dias)

AP – Atributo Primário obtido durante a fase de Seleção dos Dados; AD – Atributo Derivado obtido a partir de um Atributo Primário durante a fase de Transformação dos Dados. Nota: Para os Atributos Derivados, o valor de média que serve de referencia para avaliar o desempenho do aluno (acima ou abaixo) corresponde ao valor da média da turma do respectivo aluno.

APÊNDICE B – ANÁLISE DESCRITIVA DOS DADOS

COLETADOS NO LABSQL

B.1. GÊNERO DO USUÁRIO

A Tabela B.1.1 apresenta a quantidade e o percentual de usuários que utilizaram o

Ambiente LabSQL, no ano de 2007 e no 1º semestre de 2008, por gênero. Nela, verifica-se

que a maioria dos usuários é do gênero masculino, com 80,25% dos usuários. A Figura B.1.1

apresenta graficamente este percentual.

Tabela B.1.1 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no Ano de 2007 e no 1º

Semestre de 2008, por Gênero.

Gênero Quantidade Percentual Feminino 63 19,75 Masculino 256 80,25

Total 319 100,00

19,75%Feminino

80,25%Masculino

Figura B.1.1 Percentual de Usuários que Utilizaram o LabSQL, no Ano de 2007 e no 1º Semestre de

2008, por Gênero.

B.2. CURSO

Ambiente LabSQL, no ano de 2007 e no 1º semestre de 2008, por tipo de curso. Nela,

verifica-se que a maioria dos usuários é da graduação, com 56,43% e 43,57% são da

especialização, dentre os que fazem graduação 58,89% fazem sistema de informação e

41,11% fazem ciência da computação. Observa-se também que, 100,00% dos que fazem

especialização fazem especialização em banco de dados.

Semestre de 2008, por Curso.

Curso Total

Ciência da Computação 74 23,20

Especialização em Bancos de Dados 139 43,57

Sistemas de Informação 106 33,23

Total 319 100,00

B.3. IDENTIFICAÇÃO DA TURMA

Ambiente LabSQL, no ano de 2007 e no 1º semestre de 2008, por identificação da turma.

Nela, verifica-se que a maior parte dos usuários é da turma 7, com 11,59%, seguido da turma

5, com 11,29% dos usuários.

Semestre de 2008, por Identificação da Turma.

Turma Quantidade %

1 32 10,03

2 25 7,84

3 33 10,34

4 34 10,66

5 36 11,29

6 25 7,84

7 37 11,59

8 11 3,45

9 17 5,33

10 34 10,66

11 35 10,97

Total 319 100,00

B.4. ACESSO AO AMBIENTE LABSQL

A Tabela B.4.1 apresenta a média de acesso dos usuários que utilizaram o Ambiente

LabSQL, no ano de 2007 e no 1º semestre de 2008, por identificação da turma. Nela, verifica-

se que os usuários da turma 6 realizaram em média 74 acessos, seguido da turma 3 e 7 que

realizaram em média 65 e 46 acessos, respectivamente.

Tabela B.4.1 Média de Acesso dos Usuários que Utilizaram o LabSQL, no Ano de 2007 e no 1º

Semestre de 2008, por Identificação da Turma.

Turma Média 1 43

B.5. ACESSO AO SQL-LIVRE

Ambiente LabSQL, no ano de 2007 e no 1º semestre de 2008, por acesso ao SQL-livre. Nela,

observa-se que a maioria dos usuários acessou ao SQL-livre, com 96,24% dos usuários. A

Figura B.5.1 apresenta graficamente estes percentuais.

Semestre de 2008, por Acesso ao SQL-Livre.

Acesso ao SQL-livre Quantidade % Sim 307 96,24 Não 12 3,76

Total 319 100,00

96,24%

2008, por Acesso ao SQL Livre.

Ambiente LabSQL, no ano de 2007 e no 1º semestre de 2008, por acesso ao SQL-livre e

identificação da turma. Nela, verifica-se que, a maioria dos usuários que acessaram ao SQL-

livre são da turma 5 e 11, ambos com 14,64% dos usuários, seguidos dos usuários da turma

10, com 13,81%. A Figura B.5.2 apresenta graficamente estes percentuais.

Semestre de 2008, por Acesso ao SQL-Livre e Identificação da Turma.

Turma Quantidade % 1 32 13,39 2 21 8,79 3 32 13,39 4 32 13,39 5 35 14,64 6 25 10,46 7 37 12,07 8 9 3,77 9 16 6,69 10 33 13,81 11 35 14,64

Total 307 100,00

13,39 13,39

13,8114,64

1 2 3 4 5 6 7 8 9 10 11

Percentual

2008, por Acesso ao SQL-Livre e Identificação da Turma.

A Tabela B.5.3 apresenta a quantidade e o percentual de acessos ao SQL-livre pelos

usuários que utilizaram o Ambiente LabSQL, no ano de 2007 e no 1º semestre de 2008, por

identificação da turma. Nela, verifica-se que o maior percentual de acessos é da turma 4, com

18,46%, seguido da turma 10 com 17,45% dos acessos. A Figura B.5.3 apresenta

graficamente estes percentuais.

Tabela B.5.3 Quantidade e Percentual de Acessos ao SQL-livre pelos Usuários que Utilizaram o

LabSQL, no Ano de 2007 e no 1º Semestre de 2008, por Identificação da Turma.

Total 5330 100,00

15,5714,58

1 2 3 4 5 6 7 8 9 10 11

Percentual

Figura B.5.3 Percentual de Acessos ao SQL-Livre pelos Usuários que Utilizaram o LabSQL, no Ano

de 2007 e no 1º Semestre de 2008, por Identificação da Turma.

B.6. ACESSO AO MATERIAL DE APOIO

Ambiente LabSQL, no ano de 2007 e no 1º semestre de 2008, por acesso ao material de

apoio. Nela, observa-se que a maioria dos usuários acessou ao material de apoio, com 76,18%

dos usuários. A Figura B.6.1 apresenta graficamente estes percentuais.

Tabela B.6.1 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no Ano de 2007 e no

1º Semestre de 2008, por Acesso ao Material de Apoio.

Acesso ao Material de Apoio Quantidade % Sim 243 76,18 Não 76 23,82

Total 319 100,00

76,18%

23,82%

Figura B.6.1 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no Ano de 2007 e no

1º Semestre de 2008, por Acesso ao Material de Apoio.

Ambiente LabSQL, no ano de 2007 e no 1º semestre de 2008, por acesso ao material de apoio

e identificação da turma. Nela, verifica-se que, a maioria dos usuários que acessaram ao

material de apoio são da turma 5 e 10, ambos com 13,99% dos usuários, seguidos dos

usuários da turma 7 e 11, com 13,57% e 13,17% dos usuários. A Figura B.6.2 apresenta

Tabela B.6.2 Quantidade e Percentual de Usuários que Utilizaram o Ambiente LabSQL, no Ano de

2007 e no 1º Semestre de 2008, por Acesso ao Material de Apoio e Identificação da Turma.

Total 243 100,00

13,9913,17

1 2 3 4 5 6 7 8 9 10 11

Percentual

Figura B.6.2 Percentual de Usuários que Utilizaram o Ambiente LabSQL, no Ano de 2007 e no 1º

Semestre de 2008, por Acesso ao Material de Apoio e Identificação da Turma.

A Tabela B.6.3 apresenta a quantidade e o percentual de acessos ao material de apoio

pelos usuários que utilizaram o Ambiente LabSQL, no ano de 2007 e no 1º semestre de 2008,

por identificação da turma. Nela, verifica-se que o maior percentual de acessos são turma 10,

com 37,30%, seguido da turma 4 com 25,32% dos acessos. A Figura B.6.3 apresenta

Tabela B.6.3 Quantidade e Percentual de Acessos ao Material de Apoio pelos Usuários que

Utilizaram o Ambiente LabSQL, no Ano de 2007 e no 1º Semestre de 2008, por Identificação da Turma.

Total 1102 100,00

1 2 3 4 5 6 7 8 9 10 11

Percentual

Figura B.6.3 Percentual de Acessos ao Material de Apoio pelos Usuários que Utilizaram o Ambiente

LabSQL, no Ano de 2007 e no 1º Semestre de 2008, por Identificação da Turma.

APÊNDICE C – MINERAÇÃO DE DADOS: PASSO A PASSO

NA FERRAMENTA BAYESWARE DISCOVERER

Nesta Seção, são mostradas as etapas realizadas neste estudo de caso na ferramenta

Bayesware Discoverer para a geração dos resultados.

Inicialmente, carrega-se o arquivo labsql.txt (no formato separado por tabulação) a partir

da opção Load database no menu Data, localizado na barra de menu do Bayesware

Discoverer, sendo mostrada a tela como observado na Figura C.1.

Figura C.1 Tela Inicial do Bayesware Discoverer.

A Figura C.2 mostra a janela do Bayesware Discoverer com o banco de dados carregado.

A partir dela, pode-se observar:

1. O Ícone Generate para inicializar a geração da Rede Bayesiana.

2. A Lista de descrição dos atributos que são utilizados para a construção da Rede

Bayesiana.

3. A Visualização de todos os atributos do banco de dados carregado no Bayesware

Discoverer que são utilizados para a construção da Rede Bayesiana.

Figura C.2 Visualização do Banco de Dados Carregado no Bayesware Discoverer.

Antes de gerar a Rede Bayesiana, pode-se realizar, opcionalmente, a discretização de

atributos contínuos. A Figura C.3 mostra a opção que o Bayesware Discoverer disponibiliza

para a discretização automática de atributos contínuos. Os parâmetros de discretização podem

ser modificados.

Figura C.3 Opção para Discretização de Atributos Contínuos.

Em seguida, pressiona-se o ícone Generate para a construção da Rede Bayesiana. A

Figura C.4 mostra a Rede Bayesiana gerada. Pode-se visualizar, ainda, a tabela de

probabilidade de cada um dos atributos da rede bayesiana gerada.

Figura C.4 Rede Bayesiana Gerada no Bayesware Discoverer.

APÊNDICE D – MINERAÇÃO DE DADOS: PASSO A PASSO

NA FERRAMENTA WEKA

Nesta Seção, são mostradas as etapas realizadas neste estudo de caso na ferramenta

WEKA para a geração dos resultados.

Inicialmente, carrega-se o arquivo labsql.ARFF a partir do modo Explorer, que é a

principal interface do WEKA para a mineração de dados, sendo mostrada a tela como

observado na Figura D.1.

Figura D.1 Tela do Modo Explorer no WEKA.

A partir da Figura D.1 pode-se observar:

1. As tarefas de MD disponíveis: classificação, Clusterização e associação.

2. O número de instâncias de cada atributo presente na base de dados.

3. A quantidade de registros (instâncias) trabalhados.

4. A quantidade de atributos presentes na base de dados.

5. A listagem de todos os atributos presentes na base de dados.

6. Um histograma com informações sobre a distribuição dos exemplos para o atributo

selecionado.

Após carregar o arquivo, selecionou-se a aba Classify (classificação), tela onde é

realizada a escolha do algoritmo de classificação desejado. Conforme citado anteriormente,

utilizou-se o algoritmo J48 que gera árvore de decisão. Pode-se ver a partir da Figura D.2 que

o WEKA possui outros diversos algoritmos de classificação.

Figura D.2 Algoritmos Disponíveis no WEKA.

Para a execução deste algoritmo, alguns parâmetros podem ser configurados, conforme

observado na Figura D.3. Pode-se perceber que a partir desta ferramenta é possível a escolha

do método de validação que se deseja aplicar. Neste caso, foi escolhido o Cross-validation

(validação cruzada) (1), onde os dados de treinamento são misturados e reamostrados para

classificação com a árvore criada, a experiência é repetida 10 vezes.

Figura D.3 Execução do Algoritmo J48 no WEKA

Pode-se selecionar ainda o atributo meta escolhido (2), neste caso, selecionou-se o

atributo cod_usuar_coord_turma. Após a execução do algoritmo, são exibidas as regras de

classificação geradas a partir dos parâmetros selecionados (3).

ANEXO A – METODOLOGIA PARA O TESTE DE HIPÓTESES

PARA PROPORÇÕES

Definição: é uma regra de decisão utilizada para aceitar ou rejeitar uma hipótese

estatística com base em elementos amostrais. Nesse teste, os dados se apresentam na forma de

porcentagem (ou proporção) de elementos com uma determinada característica, que será

testada em relação à porcentagem alegada para a população (BUSSAB e MORETIN, 1987).

Neste trabalho, as proporções são as porcentagens de predições corretas feitas pelos modelos

de classificação.

Hipótese Nula -> H0: p = p0

Hipótese Alternativa -> H1: p ≠ p0

onde: p é a proporção para a primeira população e p0 é a proporção para a segunda população.

Teste estatístico: A Equação A.1 será utilizada para o cálculo do teste estatístico, Z.

)ˆ1(ˆ)ˆ1(ˆ

)ˆˆ(

−−= ,

onde 0d = diferença das hipóteses; 1̂P e 2P̂ = estimativas para as proporções populacionais;

1n e 2n = número de tentativas.

Descoberta de Conhecimento Em Banco de Dados

Documents

Aplicação da descoberta de conhecimento em textos para apoio à

Descoberta de Conhecimento com o uso de Text Mining: Cruzando

Descoberta de CONHECIMENTO em base de dados

Introdução à Descoberta de Conhecimento e Mineração de Dados

A Engenharia do Conhecimento e as novas possibilidades de descoberta e disseminação automática de serviços de conhecimento

O USO DA DESCOBERTA DE CONHECIMENTO EM BANCO … · identificação dos fatores de contribuição dos acidentes rodoviários em segmentos críticos na BR-381, é necessário a compreensão

TECNOLOGIAS DE DESCOBERTA DE CONHECIMENTO EM TEXTOS APLICADAS À INTELIGÊNCIA COMPETITIVA

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Algoritmos e Ferramentas de Descoberta de Conhecimento em ...vania/artigos/ti3-final.pdf · conhecimento, que permitam a manipulação dos dados espaciais e não-espaciais. A principal

Humanização e conhecimento: descoberta e significação ... · PDF fileHumanização e conhecimento: descoberta e significação dialógico-reflexiva de nós mesmos(as) e do mundo1

Descoberta de conhecimento em dados gerados por dispositivos móveis geo-referenciados

Big data: Descoberta de conhecimento em ambientes de big data e computação na nuvem - Cezar Taurion

% ˆ - UnBrepositorio.unb.br/bitstream/10482/965/2/ARTIGO_InteligenciaObtida... · Data Mining; Bibliometria, Análise bibliométrica, Teses francesas, Brasil, Descoberta de conhecimento,

Descoberta de Conhecimento em Big Data Usando Aprendizagem

VISÃO SISTÊMICA DO SÍTIO ARQUEOLÓGICO … · proeminente campo de pesquisa para a extração de conhecimento de dados – Descoberta de Conhecimento em Banco de Dados. Pela aplicação

DESCOBERTA AUTOMATICA DE ... - repositorio.ufpe.br · Pernambuco, sob o título "Descoberta Automática de Conhecimento em ... longas conversas, que come˘cavam s erias e centradas

Descoberta de Conhecimento :

Processo especializado de descoberta de conhecimento em … · 2013. 9. 4. · coberta de conhecimento em bases de dados, ou mineração de dados, com algumas tarefas especializadas

Banco Mundial Conhecimento e Inovação para a Competitividade Livro

Platão – A Filosofia na Psicologia. -Tales de Mileto – quebra do Mito Descoberta da capacidade cognoscitiva (capacidade de conhecimento) -Racionalidade