View
3.533
Download
5
Category
Preview:
Citation preview
UNIVERSIDADE FEDERAL DO PARÁ
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS
FACULDADE DE COMPUTAÇÃO
CURSO DE BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO
DANIEL DIAS DE CARVALHO
MAXWEL MACEDO DIAS
DESCOBERTA DE CONHECIMENTO EM AMBIENTES VIRTUAIS DE APRENDIZAGEM : UM ESTUDO DE CASO NO LABSQL
Belém – PA 2008
ii
UNIVERSIDADE FEDERAL DO PARÁ
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS
FACULDADE DE COMPUTAÇÃO
CURSO DE BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO
DANIEL DIAS DE CARVALHO
MAXWEL MACEDO DIAS
DESCOBERTA DE CONHECIMENTO EM AMBIENTES VIRTUAIS DE APRENDIZAGEM : UM ESTUDO DE CASO NO LABSQL
Orientador: Professor Dr. Eloi Luiz Favero
Belém – PA 2008
Trabalho de Conclusão de Curso apresentado como requisito para obtenção do grau de Bacharel em Ciência da Computação, Universidade Federal da Pará.
iii
UNIVERSIDADE FEDERAL DO PARÁ
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS
FACULDADE DE COMPUTAÇÃO
CURSO DE BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO
DANIEL DIAS DE CARVALHO
MAXWEL MACEDO DIAS
DESCOBERTA DE CONHECIMENTO EM AMBIENTES VIRTUAIS DE APRENDIZAGEM : UM ESTUDO DE CASO NO LABSQL
Data de defesa: 18 de Novembro de 2008.
Conceito: EXCELENTE
Banca Examinadora
Prof. Dr. Eloi Luiz Favero
Faculdade de Computação /UFPA - Orientador
Prof. Dr. Antônio Morais da Silveira
Faculdade de Computação / UFPA – Membro
Prof. Dr. Edson Marcos Leal Soares Ramos
Faculdade de Estatística /UFPA - Membro
Trabalho de Conclusão de Curso apresentado para obtenção do grau de Bacharel em Ciência da Computação, Universidade Federal do Pará.
iv
AGRADECIMENTOS
Agradeço primeiramente a Deus, por me demonstrar de uma forma bem particular os
caminhos da vida.
Aos meus pais, Carlos e Raimunda, por me ensinarem os valores mais importantes e que
carregarei por toda a minha vida. A eles devo toda minha gratidão quanto pessoa.
Aos meus irmãos, Rafael e Gabriel, pelos momentos marcantes que passamos ao longo da
vida.
À minha afilhada, Karen Letícia, que apesar da distância sempre foi uma das minhas
maiores fontes de inspiração.
À toda a minha família que sempre me apoiou nos melhores e nos piores momentos.
Aos meus amigos do Curso de Bacharelado em Ciência da Computação, Adeilson
Pinheiro, Bernardo Lobato, Clodoaldo Estumano, Deivid Tinoco, Fábio Braga, Rafael
Takashima e Lis Kanashiro, pelo companheirismo estabelecido no decorrer do curso.
À toda equipe Web do Centro de Tecnologia da Informação e Comunicação da UFPA,
Jñane Neiva, Marcelo Silva, Yossef Castelo, Marcus Badi, Larissa Chagas, além dos já
citados amigos de curso, por proporcionarem uma ambiente de trabalho mais agradável
possível.
Aos meus velhos amigos, Silvio Porto, Gabriel Victor, Marcus Pinheiro, Anderson
Virino, Emanuel Rocha e Anderson José, por todos esses anos de amizade.
Gostaria de citar o nome das várias pessoas que permaneceram comigo e me ajudaram a
dar prosseguimento a etapa da minha vida, mas fica aqui pra aqueles que não citei o meu
sincero e profundo agradecimento.
Daniel Dias de Carvalho
v
AGRADECIMENTOS
Agradeço a Deus por tudo o que tem feito por mim até hoje. Por ter iluminado os
meus caminhos e me ajudado a vencer grandes obstáculos.
À minha mãe Elizabeth, e ao meu pai Jairo que sempre deram o melhor de si em
favor de mim. A quem devo toda a minha gratidão enquanto pessoa.
Aos meus tios Jackson e Nazaré, a minha irmã Marília e as minhas primas Juliana e
Luciana que me deram total apoio durante essa jornada.
Aos meus grandes amigos do Curso de Bacharelado em Ciência da Computação,
Robson Aguiar e Alessandra Caroline pelos momentos bons que compartilhamos. Esses
momentos ficarão marcados por toda vida.
Aos meus grandes e prestativos amigos do GEPEC, Luiz Alberto, Franklim dos
Santos, Paula Daniele, Tácio Vinícius, Monique Kelly e Vanessa Mayara, que sempre
estiveram ao meu lado durante essa jornada. Meu muito obrigado a todos.
Gostaria de citar o nome das várias pessoas que permaneceram comigo e me
ajudaram a dar prosseguimento a esta etapa da minha vida, mas fica aqui para aqueles que eu
não citei o meu sincero e profundo agradecimento.
Maxwel Macedo Dias
vi
AGRADECIMENTOS
Agradecemos ao nosso orientador, o professor Eloi Luiz Favero, pelo empenho com que
conduziu a orientação deste trabalho.
A todos os professores da Universidade Federal do Pará que contribuíram direta ou
indiretamente para a nossa formação. Em especial aos professores da Faculdade de
Computação e Estatística, em especial ao professor Edson Marcos Leal Soares Ramos.
vii
SUMÁRIO
LISTA DE FIGURAS ....................................................................................................... x
LISTA DE TABELAS ................................................................................................... xiii
LISTA DE SIGLAS ........................................................................................................ xv
RESUMO ....................................................................................................................... xvii
ABSTRACT .................................................................................................................. xviii
1. INTRODUÇÃO ........................................................................................................ 1
1.1. Motivação ..............................................................................................................................1
1.2. Justificativa ...........................................................................................................................1
1.3 Trabalhos Relacionados .........................................................................................................3
1.4. Objetivos ...............................................................................................................................4
1.4.1 Objetivos Gerais ........................................................................................................................... 4
1.4.2 Objetivos Específicos ................................................................................................................... 4
1.5. Procedimentos Metodológicos e Técnicas ............................................................................5
1.6. Organização do Trabalho ......................................................................................................5
2. EDUCAÇÃO A DISTÂNCIA .................................................................................. 7
2.1 Ambientes Virtuais de Aprendizagem ...................................................................................7
2.1.1 TelEduc ........................................................................................................................................ 7
2.1.2 MOODLE ................................................................................................................................... 10
2.1.3 LabSQL ...................................................................................................................................... 12
3. DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS .................... 17
3.1. Dados, Informação e Conhecimento ...................................................................................17
3.2. Etapas da Descoberta de Conhecimento .............................................................................20
viii
3.2.1 Seleção de Dados ........................................................................................................................ 20
3.2.2 Pré-processamento e Limpeza .................................................................................................... 21
3.2.3 Transformação ............................................................................................................................ 21
3.2.4 Mineração de Dados (MD) ......................................................................................................... 21
3.2.5 Interpretação ............................................................................................................................... 22
4. MINERAÇÃO DE DADOS ................................................................................... 23
4.1. Tarefas de Mineração de Dados ..........................................................................................23
4.1.1 Classificação ............................................................................................................................... 23
4.1.2 Associação .................................................................................................................................. 24
4.1.3 Estimativas ................................................................................................................................. 24
4.1.4 Sumarização ............................................................................................................................... 25
4.1.5 Agrupamento .............................................................................................................................. 25
4.2. Tarefa de Classificação .......................................................................................................25
4.2.1. Árvore de Decisão ..................................................................................................................... 26
4.2.2. Representação de uma Árvore de Decisão ................................................................................ 27
4.2.3. Entropia ..................................................................................................................................... 28
4.2.4. Overfitting e Underfitting .......................................................................................................... 29
4.2.5. Podagem .................................................................................................................................... 30
4.2.6. Algoritmos de Árvore de Decisão ............................................................................................. 30
4.2.6.1. Algoritmo ID3 ................................................................................................................... 30
4.2.6.2. Algoritmo C4.5 .................................................................................................................. 31
4.2.6.3. Algoritmo CART (Classification and Regression Trees) .................................................. 32
4.2.7. Redes Bayesianas ...................................................................................................................... 32
4.2.8. Vantagens das Redes Bayesianas .............................................................................................. 36
4.3. Ferramentas de Mineração de Dados ..................................................................................37
4.3.1. WEKA ....................................................................................................................................... 38
4.3.1.1. Arquivos ARFF ................................................................................................................. 39
4.3.2. Bayesware Discoverer ............................................................................................................... 41
5. ESTUDO DE CASO: MINERAÇÃO DO LABSQL ........................................... 45
5.1 O processo de KDD .............................................................................................................45
5.1.1. Seleção dos Dados ..................................................................................................................... 46
5.1.2. Pré-processamento e Limpeza dos Dados ................................................................................. 46
5.1.3. Transformação dos Dados ......................................................................................................... 47
5.1.4. Mineração de Dados ............................................................................................................. 49
5.1.4.1 Aplicação de Redes Bayesianas .......................................................................................... 49
5.1.4.2 Aplicação de Árvore de Decisão ......................................................................................... 50
ix
5.1.5. Análise dos Resultados e Interpretações .............................................................................. 50
5.1.5.1 Análise dos Resultados e Interpretações das Redes Bayesianas ......................................... 50
5.1.5.2 Análise dos Resultados e Interpretações da Árvore de Decisão ......................................... 56
5.2 Análise Comparativa entre um Modelo de Classificação de Árvore de Decisão e um de
Rede Bayesiana ..................................................................................................................................61
6. CONCLUSÃO ......................................................................................................... 64
6.1. Considerações Finais ...........................................................................................................64
6.2. Trabalhos Futuros ................................................................................................................65
REFERÊNCIAS .............................................................................................................. 66
APÊNDICE A – DESCRIÇÃO COMPLETA DOS 59 ATRIBUTOS
TRABALHADOS ............................................................................................................ 71
APÊNDICE B – ANÁLISE DESCRITIVA DOS DADOS COLETADOS NO
LABSQL .......................................................................................................................... 75
APÊNDICE C – MINERAÇÃO DE DADOS: PASSO A PASSO NA
FERRAMENTA BAYESWARE DISCOVERER ....................................................... 85
APÊNDICE D – MINERAÇÃO DE DADOS: PASSO A PASSO NA
FERRAMENTA WEKA ................................................................................................ 89
ANEXO A – METODOLOGIA PARA O TESTE DE HIPÓTESES PAR A
PROPORÇÕES ............................................................................................................... 92
x
LISTA DE FIGURAS
Figura 2.1 Organização Lógica das Ferramentas do TelEduc. (ROCHA, 2002, apud
OEIRAS, 2005) .................................................................................................................. 9
Figura 2.2 Visão Geral da Arquitetura do LabSQL, LINO et al., (2007). ................. 13
Figura 2.3 Organização dos Módulos no LabSQL (LINO, 2007). .............................. 15
Figura 3.1 Relacionamento Entre Dados, Informação e Conhecimento (KOCK JR.
et al., 1996, apud REZENDE et al., 2003 ). .................................................................... 18
Figura 3.2 Etapas do KDD (FAYYAD et al., 1996). ..................................................... 20
Figura 4.1 Representação de Uma Árvore de Decisão. ............................................... 28
Figura 4.2 Um Grafo Dirigido Acíclico. ........................................................................ 34
Figura 4.3 Rede Bayesiana para o Domínio 1 (RUSSEL, 1995). ................................ 34
Figura 4.4 Rede Bayesiana do Domínio 1 com a Probabilidade de cada Variável
(Adaptado de RUSSEL, 1995). ...................................................................................... 36
Figura 4.5 Interface da Ferramenta WEKA. ............................................................... 39
Figura 4.6 Exemplo de um Arquivo ARFF. ................................................................. 40
Figura 4.7 Visão Geral da Interface Gráfica do Bayesware Discoverer
(BAYESWARE, 2000). ................................................................................................... 42
Figura 4.8 Visão da Network Window (BAYESWARE, 2000). ................................... 43
Figura 5.1 Representação dos Dados no Formato Separado por Tabulação. ........... 48
Figura 5.2 Representação dos Dados no Formato ARFF. ........................................... 49
Figura 5.3 Rede Bayesiana para Análise da Demora para Inscrição na Turma. ..... 51
Figura 5.4 Tabelas de Probabilidade para Análise da Demora para Inscrição dos
Usuários no Ambiente LabSQL (demora_para_inscricao_turma). ............................. 52
xi
Figura 5.5 Tabelas de Probabilidade e Rede Bayesiana para Análise do
Coordenador da Turma. ................................................................................................ 53
Figura 5.6 Rede Bayesiana para Análise dos Usuários que estão, ou não, Acima da
Média de Pontos em Questões de Programação SQL nos Exercícios e Avaliações
(atributo acima_media_de_total_pontos_sql). ............................................................... 54
Figura 5.7 Tabelas de Probabilidade para Análise dos Usuários que estão, ou não,
Acima da Média de Pontos em Questões de Programação SQL nos Exercícios e
Avaliações (atributo acima_media_de_total_pontos _sql). ........................................... 55
Figura 5.8 Resultado do Teste de Validação Cruzada Executado pelo Bayesware. . 55
Figura 5.9 Regras de Classificação para Análise dos Usuários que estão, ou não,
Acima da Média de Acessos ao Ambiente LabSQL (atributo acima_qtd_acessos). .. 58
Figura 5.10 Regras de Classificação para Análise dos Usuários que estão, ou não,
Acima da Média de Acessos ao SQL-Livre (atributo acima_qtd_acessos_sql_livre). 59
Figura 5.11 Árvore de Decisão para Análise dos Usuários que estão, ou não, Acima
da Média de Tentativas de Programação SQL nas Avaliações (atributo
acima_media_de_tentativas_sql_avaliacao). .................................................................. 60
Figura 5.12 Rede Bayesiana para Análise dos Usuários que estão, ou não, Acima da
Média de Pontos em Questões de Programação SQL nas Avaliações (Atributo
Acima_media_Pontos_SQL_Avaliação). ........................................................................ 61
Figura 5.13 Árvore de Decisão na forma de Regras de Classificação para Análise
dos Usuários que estão, ou não, Acima da Média de Pontos em Questões de
Programação SQL nas Avaliações (Atributo Acima_media_Pontos_SQL_Avaliação).
........................................................................................................................................... 62
Figura B.1.1 Percentual de Usuários que Utilizaram o LabSQL, no Ano de 2007 e
no 1º Semestre de 2008, por Gênero. ............................................................................. 75
Figura B.5.1 Percentual de Usuários que Utilizaram o LabSQL, no Ano de 2007 e
no 1º Semestre de 2008, por Acesso ao SQL Livre. ...................................................... 79
Figura B.5.2 Percentual de Usuários que Utilizaram o LabSQL, no Ano de 2007 e
no 1º Semestre de 2008, por Acesso ao SQL-Livre e Identificação da Turma. ......... 80
Figura B.5.3 Percentual de Acessos ao SQL-Livre pelos Usuários que Utilizaram o
LabSQL, no Ano de 2007 e no 1º Semestre de 2008, por Identificação da Turma. .. 81
xii
Figura B.6.1 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no
Ano de 2007 e no 1º Semestre de 2008, por Acesso ao Material de Apoio. ............... 82
Figura B.6.2 Percentual de Usuários que Utilizaram o Ambiente LabSQL, no Ano
de 2007 e no 1º Semestre de 2008, por Acesso ao Material de Apoio e Identificação
da Turma. ........................................................................................................................ 83
Figura B.6.3 Percentual de Acessos ao Material de Apoio pelos Usuários que
Utilizaram o Ambiente LabSQL, no Ano de 2007 e no 1º Semestre de 2008, por
Identificação da Turma. ................................................................................................. 84
Figura C.1 Tela Inicial do Bayesware Discoverer. ....................................................... 85
Figura C.2 Visualização do Banco de Dados Carregado no Bayesware Discoverer. 86
Figura C.3 Opção para Discretização de Atributos Contínuos. ................................ 87
Figura D.1 Tela do Modo Explorer no WEKA. ........................................................... 89
Figura D.2 Algoritmos Disponíveis no WEKA. ............................................................ 90
Figura D.3 Execução do Algoritmo J48 no WEKA ..................................................... 91
xiii
LISTA DE TABELAS
Tabela 4.1 TPC para a Variável Alarme ...................................................................... 35
Tabela 5.1 Resultados do Teste para a Diferença de Duas Proporções, ao nível de
significância α = 0,05 ou 5%........................................................................................... 63
Tabela B.1.1 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no
Ano de 2007 e no 1º Semestre de 2008, por Gênero. .................................................... 75
Tabela B.2.1 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no
Ano de 2007 e no 1º Semestre de 2008, por Curso. ...................................................... 76
Tabela B.3.1 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no
Ano de 2007 e no 1º Semestre de 2008, por Identificação da Turma. ........................ 77
Tabela B.4.1 Média de Acesso dos Usuários que Utilizaram o LabSQL, no Ano de
2007 e no 1º Semestre de 2008, por Identificação da Turma. ..................................... 78
Tabela B.5.1 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no
Ano de 2007 e no 1º Semestre de 2008, por Acesso ao SQL-Livre. ............................ 78
Tabela B.5.2 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no
Ano de 2007 e no 1º Semestre de 2008, por Acesso ao SQL-Livre e Identificação da
Turma. .............................................................................................................................. 79
Tabela B.5.3 Quantidade e Percentual de Acessos ao SQL-livre pelos Usuários que
Utilizaram o LabSQL, no Ano de 2007 e no 1º Semestre de 2008, por Identificação
da Turma. ........................................................................................................................ 80
Tabela B.6.1 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no
Ano de 2007 e no 1º Semestre de 2008, por Acesso ao Material de Apoio. ............... 81
xiv
Tabela B.6.2 Quantidade e Percentual de Usuários que Utilizaram o Ambiente
LabSQL, no Ano de 2007 e no 1º Semestre de 2008, por Acesso ao Material de
Apoio e Identificação da Turma. ................................................................................... 82
Tabela B.6.3 Quantidade e Percentual de Acessos ao Material de Apoio pelos
Usuários que Utilizaram o Ambiente LabSQL, no Ano de 2007 e no 1º Semestre de
2008, por Identificação da Turma. ................................................................................ 83
xv
LISTA DE SIGLAS
AG Algoritmos Genéticos
ARFF Attribute-Relation File Format
AVA Ambiente Virtual de Aprendizagem
BD Banco de Dados
CART Classification and Regression Trees
CHAID Chi-squared Automatic Interation Detector
DCL Data Control Language
DDL Data Definition Language
DM Data Mining
DW Data Warehouse
EaD Educação a Distância
GPL GNU General Public License
xvi
ID3 Iterative Dichotomizer 3
IP Internet Protocol
KDD Knowledge Discovery in Databases
LabSQL Laboratório para Ensino de SQL On-Line
MD Mineração de Dados
MOODLE Modular Object-Oriented Dynamic Learning
PDF Portable Document Format
RNA Redes Neurais Artificiais
SGBD Sistema Gerenciador de Banco de Dados
SQL Linguagem de Consulta Estruturada (Structured Query Language)
TPC Tabela de Probabilidades Condicionais
Unicamp Universidade Estadual de Campinas
WEKA Waikato Environment for Knowledge Analysis
xvii
RESUMO
A utilização do Ensino a Distância a partir da Internet tem crescido bastante nos últimos
anos, no entanto, uma das maiores dificuldades está em acompanhar o aprendizado dos
estudantes. Nesse contexto, este trabalho tem o objetivo de analisar os dados de um Ambiente
Virtual de Aprendizagem a partir da aplicação de técnicas de Mineração de Dados para
descobrir informações relevantes sobre o perfil dos envolvidos com relação à utilização dessa
tecnologia. Para isso, foram aplicadas as técnicas de Mineração de Dados denominadas
Árvore de Decisão e Redes Bayesianas para a descoberta de conhecimento em relação ao
processo de ensino-aprendizagem no ambiente virtual de aprendizagem denominado LabSQL.
Palavras-Chave:
Mineração de Dados, Redes Bayesianas, Árvore de Decisão, Ensino a Distância, LabSQL.
xviii
ABSTRACT
Using Distance Learning from the Internet has grown greatly in recent years, however, is
one of the greatest difficulties in tracking the learning of students. In that context, this study
aims to analyze the data of a Virtual Learning Environment from the implementation of Data
Mining to find relevant information about the profile of those involved with respect to the use
of this technology. To do this, we applied the techniques of Data Mining called Decision Tree
and Bayesian Networks for the knowledge discovery regarding the process of teaching-
learning in the LabSQL.
Key words:
Data mining, Bayesian Networks, Decision Tree, Distance Learning, LabSQL.
1
1. INTRODUÇÃO
Para uma melhor análise e compreensão do tema deste trabalho, será apresentada a
motivação do trabalho, a justificativa, os trabalhos relacionados, os objetivos gerais e
específicos a serem alcançados, os procedimentos metodológicos e técnicas e, finalmente, a
forma como foi estruturado esse trabalho.
1.1. MOTIVAÇÃO
Após cursar a disciplina de Informática na Educação, em que se tem a oportunidade de
aprender alguns conceitos e realizar algumas leituras sobre Educação a Distância (EaD),
entende-se que ela que surge como alternativa complementar ao ensino tradicionalmente
presencial, possibilitando que indivíduos, independente do lugar onde moram ou tempo
disponível, tenham oportunidade de iniciar ou complementar seus estudos. As possibilidades
de se proporcionar a EaD têm sido ampliadas devido à rápida evolução das tecnologias de
informação e comunicação, assim como das possibilidades oferecidas pelas mesmas. A
Internet é uma das ferramentas que desempenham um importante papel na EaD, uma vez que
facilita o acesso a grandes repositórios de informação, materiais e possibilita uma intensa
interação entre pessoas a partir de Ambientes Virtuais de Aprendizagem (AVA).
1.2. JUSTIFICATIVA
A utilização da Internet tem crescido demasiadamente nos últimos anos, proporcionando
a disseminação dos mais variados tipos de informações e serviços, como por exemplo,
comércio eletrônico, sites de relacionamentos, bibliotecas digitais, educação a distância,
dentre outros. A acessibilidade e a facilidade do uso de ferramentas para manipular os
recursos da web tem tornado esta tecnologia uma escolha para EaD (MACHADO e BECKER,
2002).
Segundo Souza (2007), a EaD é uma forma de organização de ensino-aprendizagem na
qual alunos estudam, quer em grupo, quer individualmente em seus lares, locais de trabalho
2
ou outros lugares com materiais auto-instrutivos distribuídos por meios de comunicação,
possibilitando a comunicação com docentes, monitores ou outros alunos.
Os Ambientes Virtuais de Aprendizagem (AVA) têm o objetivo de apoiar classes de
usuários a partir da Internet, sendo útil para usuários que não residem perto de instituições de
ensino, ou não dispõem de horários regulares para estudar. Além de servir como uma
importante ferramenta complementar para os cursos presenciais.
Os sistemas de aprendizagem baseados na Web contam com os servidores Web para
fornecer acesso aos recursos e aplicações. Os servidores Web armazenam os acessos de todas
as atividades em um arquivo de log (registro) na forma de transações. Cada transação indica
quais páginas Web ou scripts foram requisitados e o status da requisição, o momento da
solicitação, o endereço IP de onde partiu a solicitação, possivelmente a identificação dos
usuários, dentre outros (COOLEY et al., 1999). Do ponto de vista técnico, as dificuldades de
se construir um curso baseado na Web são mínimas, principalmente após o aparecimento de
ferramentas que subtraem do professor à necessidade de conhecer a tecnologia das redes,
deixando para ele a única e grande responsabilidade de se preocupar com o conteúdo de sua
disciplina.
Os educadores deste novo processo de aprendizagem utilizam estes ambientes e
ferramentas para disponibilizar informações online, porém possuem pouco suporte para
avaliar e discriminar os diferentes comportamentos das ações dos alunos sobre o AVA e a
forma de execução das atividades online propostas durante a realização dos cursos (ZAIANE
e LUO, 2001). Portanto, um dos grandes problemas da Educação a Distância está na
dificuldade de acompanhar o aprendizado dos alunos à distância. Esta dificuldade se justifica,
entre outros, pela falta de contato presencial entre professores e alunos. Sendo assim, faz-se
necessário o desenvolvimento de técnicas computacionais que analisem essa grande
quantidade de dados e que possam mostrar padrões comportamentais dos alunos dentro desses
ambientes (DIAS, 2008a; DIAS, 2008b).
Sendo, dessa forma, de grande importância a realização de pesquisas nessa área, de modo
que os educadores deste novo processo tenham cada vez mais informações a fim de avaliar e
discriminar os diferentes comportamentos dos alunos sobre o AVA na Educação a Distância.
3
A Mineração de Dados (MD), definida como a descoberta de conhecimento não-trivial e
útil em grandes bases de dados (GOLDSCHMIDT e PASSOS, 2005), apresenta variedade de
aplicabilidade de suas técnicas e tarefas a partir dos bancos de dados dos ambientes de EaD.
Tais dados são provenientes, geralmente, do histórico dos acessos aos recursos do sistema
pelos alunos, suas avaliações, comunicação (chat e e-mail) entre alunos e entre alunos e
professores, tempo utilizando o sistema, dentre outros.
1.3 TRABALHOS RELACIONADOS
Alguns trabalhos foram realizados, mostrando como técnicas de Mineração de Dados
podem auxiliar na análise de um sistema de ensino a distância na Internet. Apresentando,
dessa forma, novos mecanismos para analisar os atributos envolvidos na análise do
desempenho dos aprendizes em um curso de ensino a distância.
Machado e Becker (2002) propõem um estudo de caso, para acompanhar uma aplicação
voltada ao processo de ensino-aprendizagem a distância, onde se busca descobrir e analisar,
através da mineração Web, as interações destes usuários com o ambiente de ensino baseado na
Web. Mais especificamente, busca-se estabelecer um modelo de Mineração do Uso da Web
pertinente para a descoberta de conhecimento aplicado a ambientes de ensino a distância a
partir da análise de navegação dos usuários enquanto interagem neste ambiente, a fim de
prover recursos de comparação entre os projetos atuais de um site educativo e seu uso real.
Lopes e Schiel (2004) propõem uma estratégia para o acompanhamento do aprendizado
na educação a distância baseada nas práticas de acompanhamento do ensino presencial,
acrescida da técnica de análise de dados. Estes fatores permitem verificar a aprendizagem de
forma mais elaborada. Estes dados foram gerados com ferramentas de Mineração de Dados.
Wang e Meinel (2007) descobriram mudanças interessantes no aprendizado dos
estudantes que usam os AVA’s. Seu trabalho foi implementado em um ambiente de ensino a
distância denominado tele-TASK. Os resultados da mineração foram úteis para ajudar os
professores a conhecer seus estudantes e ajustar o programa de ensino de maneira mais eficaz.
4
Desta forma, o presente trabalho está centrado na pesquisa de técnicas e ferramentas
computacionais que podem auxiliar os educadores no processo de ensino-aprendizado,
fornecendo suporte para avaliar e discriminar os diferentes comportamentos dos alunos sobre
o AVA denominado LabSQL, utilizado na Educação a Distância da Universidade Federal do
Pará.
1.4. OBJETIVOS
Para um melhor entendimento dos objetivos a serem alcançados por esta pesquisa, foi
realizada a divisão deste tópico em objetivos gerais e objetivos específicos.
1.4.1 Objetivos Gerais
Este trabalho tem por objetivo geral analisar os dados obtidos a partir do Banco de Dados
de um AVA, aplicando técnicas de Mineração de Dados para descobrir informações
relevantes sobre o perfil dos envolvidos – alunos e professores - com relação à utilização
dessa tecnologia e ao processo de ensino-aprendizagem. Dessa forma, são avaliadas as
informações obtidas a partir do AVA denominado LabSQL com objetivo de gerar
informações que possam apoiar os educadores no processo de ensino-aprendizagem. Para a
obtenção desses resultados, são utilizadas as técnicas de Mineração de Dados denominadas
Árvore de Decisão e Redes Bayesianas.
1.4.2 Objetivos Específicos
i. Analisar os dados disponíveis no LabSQL e identificar as principais dificuldades
para a realização da Mineração de Dados nessa base de dados;
ii. Realizar os tratamentos dos dados obtidos para uma melhor aplicação das técnicas
de Mineração de Dados baseadas nas Árvores de Decisão e Redes Bayesianas;
iii. Utilizar a Mineração de Dados para a descoberta de conhecimento, proporcionando
aos educadores mais mecanismos para planejar a utilização do ambiente virtual de
aprendizagem LabSQL no processo de ensino-aprendizagem;
5
iv. Apresentar um estudo de caso utilizando o ambiente de ensino-aprendizagem
LabSQL.
1.5. PROCEDIMENTOS METODOLÓGICOS E TÉCNICAS
i. Pesquisa bibliográfica acerca das técnicas de Mineração de Dados que podem ser
utilizadas para a realização da análise e acompanhamento do aprendizado em um
AVA;
ii. Pesquisa bibliográfica acerca das ferramentas computacionais que podem auxiliar
no processo de Mineração de Dados;
iii. Pesquisa bibliográfica acerca das técnicas computacionais e estatísticas que vão
orientar na análise e interpretação dos dados;
iv. Estudos exploratórios acerca da utilização do AVA LabSQL;
v. Desenvolver um estudo de caso com o objetivo de analisar o AVA LabSQL a partir
da aplicação de técnicas de Mineração de Dados a fim de descobrir novos padrões e
regras que possam auxiliar neste processo;
vi. Coletar dados estruturados acerca das atividades desenvolvidas em um AVA
utilizando a linguagem de consulta estruturada SQL;
vii. Utilizar de técnicas de Mineração de Dados denominadas Árvore de Decisão e
Redes Bayesianas para realização da descoberta de conhecimento no processo de
aprendizado na EaD.
1.6. ORGANIZAÇÃO DO TRABALHO
O presente trabalho foi dividido em seis capítulos, além deste Capitulo introdutório, este
trabalho está organizado como segue:
No Capítulo 2 são apresentados os conceitos de Ensino a Distância e uma visão geral dos
AVAs, sendo enfatizado o ambiente LabSQL;
6
No Capítulo 3 são apresentados os conceitos Descoberta de Conhecimento em Base de
Dados (KDD), bem como a descrição de cada uma das etapas desse processo;
No Capítulo 4 são discutidas a Mineração de Dados, suas tarefas, técnicas e algoritmos.
Além da apresentação das ferramentas Bayesware Discovery e WEKA. Detalhando-se ainda
as técnicas de Mineração de Dados utilizada neste trabalho denominadas Árvore de Decisão e
Redes Bayesianas;
No Capítulo 5 é apresentado o estudo de caso realizado a partir do LabSQL, em que são
mostrados as etapas e os resultados da aplicação das técnicas de Mineração de Dados;
Finalmente, no Capítulo 6 apresenta-se as considerações finais e as propostas de trabalhos
futuros.
7
2. EDUCAÇÃO A DISTÂNCIA
A educação moderna se preocupa com o aluno na elaboração do saber, sendo
caracterizada de uma forma mais pessoal, respeitando o ritmo individual de cada estudante
(LOLLINI, 2001). O professor deixa de ser um mero distribuidor de conhecimento e os
alunos apenas receptores passivos. O acesso à Internet permite ao estudante navegar em um
mar de informações em tempo real, aumentando de forma exponencial a sua experiência com
o conhecimento. A partir de então, o termo EaD (Educação a Distância) passa a ser difundido,
amadurecido e implementado em larga escala.
A EaD vem se tornando um novo paradigma de aprendizado, aliada a toda infra-estrutura
e todo o aparato tecnológico disponível, crescente a cada dia. Atualmente, não é preciso muito
esforço para encontrar atividades que vão de cursos supletivos a programas de pós-graduação,
cursados totalmente ou parcialmente a distância. Diversas ferramentas computacionais,
conhecidas como Ambientes Virtuais de Aprendizagem, já existem e outras estão sendo
criadas a cada dia com o objetivos de dar apoio a EaD.
2.1 AMBIENTES VIRTUAIS DE APRENDIZAGEM
O ambiente de aprendizagem ou Ambiente de Educação a Distância é um sistema que
fornece suporte a qualquer tipo de atividade realizada pelo aluno, isto é, um conjunto de
ferramentas que são utilizadas em diferentes situações do processo de aprendizagem. Estes
ambientes têm o objetivo de apoiar classes de usuários por meio da Internet, sendo útil para
usuários que não residem perto de instituições de ensino, ou não dispõem de horários
regulares para estudar (MARTINS e CAMPESTRINI, 2004).
As Subseções 2.1.1, 2.1.2 e 2.1.3 apresentam os AVA’s TelEduc, MOODLE e, em mais
detalhes o LabSQL, respectivamente.
2.1.1 TelEduc
O TelEduc é um AVA desenvolvido na Universidade Estadual de Campinas (Unicamp)
em uma parceria entre o Instituto de Computação (IC) e o Núcleo de Informática Aplicada à
8
Educação (Nied). OEIRAS (2005) comenta que começou a ser implementado no ano de 1997
e teve como objetivo inicial apoiar cursos de formação docente na utilização de computadores
como ferramenta pedagógica, porém, com o passar dos anos, a ferramenta rompeu as
fronteiras da Unicamp e atualmente mais de 4 mil instituições em todo o país e no exterior
estão cadastradas para o uso, inclusive a Universidade Federal do Pará (UFPA).
O TelEduc é um software que está sob os termos da GNU General Public License (GPL),
portanto, pode ser livremente copiado, distribuído, utilizado e modificado (GNU, 2008). Foi
desenvolvido nas linguagens de programação Java1 e PHP2 e utiliza o gerenciador de banco
de dados MySQL.
O ambiente disponibiliza diversos recursos de acordo com o perfil do usuário que o
acessa: alunos ou professores (formadores). A Figura 2.1 demonstra a organização lógicas das
ferramentas disponíveis no TelEduc.
1 Java é uma linguagem de programação orientada a objetos, multi-plataforma e de propósito geral. 2 PHP é uma linguagem de programação interpretada, que foi desenvolvida especialmente para a implementação de
aplicativos Web.
9
Figura 2.1 Organização Lógica das Ferramentas do TelEduc. (ROCHA, 2002, apud OEIRAS, 2005)
Dentre os recursos disponíveis no ambiente TelEduc, destacam-se:
i. Dinâmica do Curso: contém informações sobre a metodologia e a organização do
curso;
ii. Atividades: atividades a serem realizadas durante o curso;
iii. Material de Apoio: informações úteis relacionadas à temática do curso,
subsidiando o desenvolvimento das atividades propostas;
iv. Leituras: artigos relacionados à temática do curso e algumas sugestões de revistas,
jornais, endereços na web;
10
v. Perguntas Freqüentes: relação das perguntas realizadas com maior freqüência
durante o curso e suas respectivas respostas;
vi. Correio: correio eletrônico interno do ambiente;
vii. Grupos: grupos de pessoas para facilitar a distribuição de tarefas;
viii. Portfólio : ferramenta onde os participantes do curso podem armazenar textos e
arquivos a serem utilizados ou desenvolvidos durante o curso, bem como endereços
da Internet; esses dados podem ser particulares ou compartilhados; se
compartilhados, podem receber comentários;
ix. Intermap : que permite aos docentes visualizar a interação dos participantes do
curso;
x. Administração: disponibilizar materiais nas diversas ferramentas do ambiente,
bem como configurar opções em algumas delas; permite também gerenciar as
pessoas que participam do curso.
2.1.2 MOODLE
O MOODLE (Modular Object-Oriented Dynamic Learning) foi desenvolvido pelo
educador e cientista computacional australiano Martin Dougiamos, no ano de 1999. Segundo
MOODLE (2008), está disponível em mais de 75 idiomas e é utilizado por instituições de
todo o mundo, contendo uma comunidade com mais de 200 mil usuários em 193 países.
Assim como, o TelEduc, está sob os termos da GPL, de forma que pode ser modificado,
copiado e redistribuído seguindo suas especificações. É implementado na linguagem PHP e
utiliza o gerenciador de banco de dados MySQL. Possui uma vasta documentação em vários
idiomas disponível no site oficial3.
O MOODLE é baseado em uma filosofia particular de aprendizado, a chamada
“Pedagogia social construtivista”. Esta filosofia é baseada em quatro conceitos principais, que
3 http://moodle.org
11
regem todo o processo de aprendizado no ambiente. são eles: o construtivismo, o
construcionismo, o construcionismo social e o Connected and separate (MOODLE, 2008).
Dentre os recursos disponíveis no ambiente MOODLE, destacam-se:
i. Fóruns: são utilizados para discussões sobre os mais variados temas pelos
participantes cadastrados em um curso. São importantes por tratar-se de um espaço
onde os alunos e professores trocam idéias e reflexões. Uma característica
importante é que as mensagens podem incluir anexos;
ii. Chats: a ferramenta de chat permite uma comunicação síncrona, com feedback4
imediato entre os professores e estudantes. É bastante útil para o esclarecimento de
dúvidas;
iii. Diálogos: uma forma simples de comunicação entre dois alunos ou entre um aluno
e um professor participante da disciplina;
iv. Testes: os testes podem ser para os alunos responderem entre verdadeiro e falso,
múltipla escolha, valores específicos, dentre outras formas. A correção é feita
automaticamente e, portanto, os alunos têm um feedback imediato;
v. Trabalhos: espaço reservado para os alunos submeterem matérias, tais como
apresentações. Os professores fazem comentários e atribuem notas aos trabalhos;
vi. Wikis: essa ferramenta permite a construção colaborativa de conteúdos multimídia.
Os participantes podem acrescentar conteúdo de forma incremental e as versões
serão guardadas para uma posterior comparação entre elas;
vii. Glossários: com os glossários, os participantes podem formar uma base de termos
com seus respectivos significados;
viii. Livros: simulam um livro de forma on-line, onde é possível encadear páginas e
organizá-las em capítulos e sub-capítulos;
4 Resposta sobre algo feito, para verificar se foi adequadamente executado.
12
ix. Referendos: esta ferramenta permite definir as opções, em que os participantes
podem votar escolhendo uma das alternativas disponíveis. O referendo pode ser
anônimo ou público, podendo ser ocultado o resultado até que seja colocada uma
resposta;
x. Questionários: permitem construir inquéritos para os participantes inscritos no
sistema ou, até mesmo, para participantes que não estão inscritos. Existe a opção de
manter o anonimato.
2.1.3 LabSQL
O LabSQL é um ambiente interativo para auxiliar os alunos no aprendizado da linguagem
SQL e pode ser utilizado como ferramenta de apoio ao mediador para realizar
automaticamente as avaliações nas atividades de laboratório (LINO et al., 2007). As
principais vantagens são, para os alunos, recebem feedback imediatamente. para os
professores, tem a vantagem de deixar de corrigir manualmente todos os exercícios dos
alunos.
No ambiente de aprendizagem de SQL, o aprendiz visualiza o texto didático
acompanhado de exemplos executáveis. Juntamente com o conteúdo são apresentadas listas
de exercícios para que o aprendiz treine suas habilidades. Existem três tipos de exercícios:
objetivos de múltipla escolha (ou V/F); não objetivos descritivos e exercícios de programação.
No momento em que o aprendiz interage com o sistema, enviando sua consulta SQL, o
sistema executa e avalia a complexidade desta consulta em relação à consulta do mediador.
Dessa forma, o aprendiz pode receber um retorno automático, contendo: o resultado da
consulta, permitindo avaliar se a resposta está correta ou não; a avaliação automática da
resposta do aprendiz, levando em consideração o resultado da execução e o grau de
complexidade comparado com a resposta do mediador; o número de tentativas e a avaliação
global da prova ou exercício.
Na Figura 2.2, está representada a arquitetura geral do LabSQL. Nela, observa-se a
interface de mediação, que é utilizada pelo professor para definir as avaliações e questões e
algumas soluções associadas. As questões podem ser disponibilizadas apenas para
13
treinamento ou para a avaliação formal dos alunos e a seleção das mesmas pode ser feita
previamente pelo professor ou a partir de um sorteio entre as questões armazenas da base de
avaliações e questões, que é feito isoladamente para cada aluno. No segundo caso, cada aluno
terá uma alta probabilidade de ter uma lista de questões bastante distinta dos demais alunos.
Figura 2.2 Visão Geral da Arquitetura do LabSQL, LINO et al., (2007).
A interface de aprendizagem é utilizada pelos alunos para resolver as questões
selecionadas anteriormente. Ao enviar uma questão, a requisição passa pelo executor de
avaliações, que por sua vez aciona o interpretador SQL. O interpretador SQL retorna o
resultado da consulta feita pelo aluno e a compara com a base de testes daquele aluno. Caso as
consultas retornem os mesmos resultados, a consulta do aluno é avaliada automaticamente
pelo executor de métricas. Todos os erros e acertos de cada aluno são registrados nas bases
com a trilha e desempenho dos aprendizes. Na base de dados institucionais do AVA persistem
informações referentes aos cursos, alunos e professores.
Além do feedback para o aprendiz, é gerado um relatório detalhado para o mediador,
contendo as informações de cada aprendiz e da turma em geral; permite visualizar a avaliação
de cada questão resolvida por aprendiz e identificar os aprendizes com dificuldade de concluir
os exercícios. Por exemplo, o ambiente mostra os alunos que já tentaram mais de 10 vezes. A
14
partir dessa interface, o mediador pode enviar comentários associados às questões de cada
aprendiz.
No relatório de acompanhamento de avaliação, o mediador tem uma visão geral do
andamento da turma em relação às avaliações cadastradas (listas de exercícios e provas). Este
relatório tem como objetivo visualizar um ranking dos aprendizes por turma; facilitar o
planejamento do tempo necessário para os aprendizes concluírem os exercícios e identificar
grupos de aprendizes mais (ou menos) adiantados para propor exercícios em grupos.
O conteúdo do LabSQL é apresentado em 5 módulos, onde o grau de dificuldade aumenta
do primeiro para o quinto. Porém, o ambiente promove bastante flexibilidade em relação à
seqüência de apresentação do conteúdo, pois os alunos não são obrigados a segui-lo em ordem
pré-estabelecida. O Módulo I introduz os conceitos básicos de bancos de dados e da
linguagem SQL; o Módulo II introduz o comando select e os operadores aritméticos e lógicos
utilizados na linguagem; o Módulo III apresenta os conceitos da DDL e DCL; o Módulo IV
apresenta as funções de agregação; o Módulo V apresenta o conceito de sub-consultas. Os
módulos estão dispostos na interface de aprendizagem em formato de árvore, como mostrado
na Figura 2.3.
15
Figura 2.3 Organização dos Módulos no LabSQL (LINO, 2007).
O LabSQL apresenta um grande número de recursos para os estudantes e professores
cadastrados no sistema, possibilitando uma interação intensa entre os usuários e o sistema. Os
seguintes recursos presentes no ambiente se destacam:
i. Fórum: permite uma comunicação entre todos os participantes do LabSQL;
ii. Analisar resultado: exibe o desempenho do aprendiz quanto à realização das listas
de exercícios, participação, freqüência e aproveitamento nas provas;
iii. Administrar Questão: relatório que contém questões cadastradas por grupo e
disponível no formato PDF para impressão;
16
iv. Administrar Usuário : esse recurso permite ao aprendiz editar seus dados
cadastrais;
v. Material de Apoio: materiais disponíveis para os aprendizes que são inseridos pelo
professor. Atualmente contém um arquivo compactado com várias apresentações de
BD e links para o conteúdo no formato PDF e o vídeo de introdução ao sistema;
vi. Relatório de Desempenho/Acessos: o aprendiz tem a opção de visualizar os
seguintes relatórios gráficos: acesso por usuário e usuário on-line, apresenta a
mesma funcionalidade da área do professor; desempenho do aluno, identifica seu
progresso na avaliação a partir do gráfico de Gantt5 interativo;
vii. Avaliação: é apresentada ao aprendiz quando existe uma prova ou lista de
exercício;
viii. Exercício: fica disponível quando o professor associa questões a uma determinada
sessão;
ix. Agenda: fornece um espaço para o aprendiz realizar qualquer anotação, funciona
como um caderno no qual o aprendiz tem a liberdade de escrever, reescrever ou
apagar uma informação.
5 Gráfico de Gantt é uma ferramenta simples, inventada em 1917 por Henry L. Gantt (1861-1919), que representa o tempo a partir de barras horizontais.
17
3. DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS
Historicamente, a noção de encontrar padrões úteis em dados em seu estado bruto tem
recebido diversos nomes, inclusive a Descoberta de Conhecimento em Base de Dados (KDD
– Knowledge Discovery in Database), sendo definido como a descoberta de novos
conhecimentos, sejam padrões, tendências, relações, associações, probabilidades ou fatos, que
não são óbvios ou de fácil identificação.
Carvalho (1999) mostra a abrangência do KDD ao afirmar que é interdisciplinar e
envolve diversas áreas, entre elas, estatística e matemática banco de dados aprendizado de
máquina, sistemas especialistas e reconhecimento de padrões. O processo KDD combina
técnicas, algoritmos e definições de todas as áreas com o objetivo principal de extrair
conhecimento a partir de grandes bases de dados (CARVALHO, 1999).
O processo de descoberta de conhecimento deve obedecer a uma determinada
seqüência\etapa para que se consiga atingir o resultado esperado. Neste capítulo é mostrada
cada uma dessas etapas, bem como a definição de alguns termos que são fundamentais para o
melhor entendimento do restante desse trabalho.
3.1. DADOS, INFORMAÇÃO E CONHECIMENTO
Segundo Rezende et al. (2003), os conceitos de dados, informação e conhecimento estão
interligados. Na Figura 3.1 é mostrada uma representação gráfica do relacionamento entre
dados, informação e conhecimento, em função da capacidade de entendimento e da
independência de contexto que cada um destes conceitos implica.
18
Antes de se estabelecer qualquer ligação desses conceitos com as diferentes tecnologias
para seu registro e processamento, faz-se necessária a realização de uma distinção entre
dados, informação e conhecimento.
O dado é um elemento puro, quantificável sobre um determinado evento. Dados são
fatos, números, texto ou qualquer mídia que possa ser processada pelo computador. Ressalta-
se que o dado, por si só, não oferece embasamento para o entendimento da situação.
A informação é o dado analisado e contextualizado. Envolve a interpretação de um
conjunto de dados, ou seja, a informação é constituída por padrões, associações ou relações
que todos aqueles dados acumulados podem proporcionar. Por exemplo, a análise do
quantitativo de acesso dos usuários pode fornecer informação acerca de quais usuários estão
ou não utilizando o ambiente virtual de aprendizagem.
Enquanto que a informação é descritiva, o conhecimento é utilizado fundamentalmente
para fornecer uma base de previsão com um determinado grau de certeza. O conhecimento
refere-se à habilidade de criar um modelo mental que descreva o objeto e indique as ações e
decisões a serem tomadas.
Dados Entendimento
Informação
Conhecimento
Inteligência
Compreensão dos
relacionamentos
Compreensão dos
padrões
Compreensão
dos princípios
Independência de
contexto
Figura 3.1 Relacionamento Entre Dados, Informação e Conhecimento (KOCK JR. et
al., 1996, apud REZENDE et al., 2003 ).
19
Uma decisão é o uso explícito de um conhecimento. O conhecimento pode ser
representado como uma combinação de estruturas de dados e procedimentos interpretáveis
que levam a um comportamento conhecido. Este comportamento fornece informações que
podem ser utilizadas para planejar e decidir.
Analisando as relações entre dados, informação e conhecimento, pode-se afirmar que o
entendimento, a análise e as ações fundamentais para a tomada de decisões são realizadas a
partir do nível do conhecimento, não tendo menos importância as demais relações, uma vez
que são correlacionadas e dependentes entre si.
Não é necessário que uma organização somente possua uma grande quantidade de dados
que revelam suas ações, mas é necessário utilizar técnicas e ferramentas computacionais para
transformar esses dados em informação e essa informação em conhecimento.
No processo de descoberta de conhecimento, o conceito de informação relevante precisa
ser destacado, uma vez que a afirmação de que um determinado dado é ou não relevante tende
a ser subjetivo, ou seja, uma informação pode representar uma descoberta de conhecimento
útil para uma pessoa e para outra não. Isso porque informação relevante é aquela informação
que o usuário necessita em determinado momento para a realização de uma determinada
atividade, ou seja, ela deve estar no contexto que o usuário quer e no momento certo.
Tem-se ainda o fator tempo, pois determinado documento pode não ser relevante a uma
consulta em determinado momento e tornar a ser em outro (MIZZARO, 1997). Além disso,
ainda é importante o processo de envio dessa informação para um especialista. Essa pessoa
precisa ter um notório conhecimento das atividades que envolvem um determinado problema,
a fim de que tome decisões eficazes e saiba retirar o máximo de informações das consultas
realizadas nas bases de dados.
Porém, esse processo de descoberta de conhecimento não é realizado de forma
desorganizada e sem seguir nenhum padrão, pelo contrário, seguir etapas predefinidas é de
fundamental importância para alcançar o resultado desejado. As etapas que devem ser
seguidas para a realização do processo de descoberta de conhecimento em base de dados são
apresentadas na Subseção 3.2.
20
3.2. ETAPAS DA DESCOBERTA DE CONHECIMENTO
O processo de KDD é o conjunto de atividades contínuas que compartilham o
conhecimento descoberto a partir de bases de dados. O KDD é composto pelas etapas de
seleção de dados, pré-processamento e limpeza, transformação, Mineração de Dados e
interpretação, conforme a Figura 3.2 A descrição de cada uma dessas etapas será detalhada
nas próximas seções. No processo de KDD, geralmente cada fase possui uma interseção com
as demais. Desse modo, os resultados produzidos numa fase podem ser utilizados para
melhorar os resultados das próximas fases. Indicando que este processo é iterativo, buscando
sempre aprimorar os resultados a cada iteração. Na execução do processo de KDD o usuário
analisa as informações geradas em cada fase e procura incorporar sua experiência de analista
de dados para obter, cada vez mais, melhores resultados.
Figura 3.2 Etapas do KDD (FAYYAD et al., 1996).
3.2.1 Seleção de Dados
Uma vez definido o domínio sobre o qual se pretende executar o processo de descoberta,
o próximo passo é selecionar e coletar o conjunto de dados ou variáveis necessárias para
representar o domínio. Nesta etapa pode ser necessário integrar e compatibilizar as bases de
dados.
21
3.2.2 Pré-processamento e Limpeza
Na atividade de limpeza de dados, da etapa de pré-processamento, as informações
consideradas desnecessárias são removidas. Adotam-se estratégias para manusear dados
faltantes ou inconsistentes (REFAAT, 2007).
A fase de pré-processamento tem como objetivo consolidar e trabalhar com as
informações relevantes, buscando reduzir a complexidade do problema. Este objetivo é
alcançado fazendo uma seleção para escolher apenas atributos relevantes de um conjunto de
atributos do banco de dados, onde as escolhas destes subconjuntos estarão disponíveis para
serem usados no algoritmo do KDD de acordo com a finalidade proposta. Uma motivação
para esta seleção é otimizar o tempo de processamento do algoritmo, visto que ele apenas
trabalhará com um subconjunto de atributos, deste modo, diminuindo o seu espaço de busca,
fazendo com que a velocidade dos algoritmos seja maior (BATISTA, 2003).
3.2.3 Transformação
Após a fase de pré-processamento, em que nem todos os dados presentes em um banco de
dados são informativos ou úteis em um processo de aquisição de conhecimento e nem sempre
estão em um formato adequado para os algoritmos os utilizarem, torna-se necessário que esses
dados sejam transformados.
O motivo destas transformações nos dados é superar quaisquer limitações existentes nos
algoritmos empregados para extração de padrões, que dependem dos algoritmos utilizados na
fase de Mineração de Dados. Existem alguns tipos de transformações mais comuns como:
normalização, discretização (que transforma um atributo contínuo da base de dados em um
atributo discreto) de atributos quantitativos, transformações de atributos qualitativos em
quantidades, entre outros (WIVES, 1998).
3.2.4 Mineração de Dados (MD)
Considerada como a principal etapa no processo de KDD, onde é realizada a extração e a
descoberta de padrões propriamente dita. A Mineração de Dados envolve um conjunto de
técnicas e ferramentas computacionais usadas para a identificação desses padrões
(conhecimentos) embutidos em grandes massas de dados.
22
Aplicam-se algoritmos para extrair padrões dos dados ou gerar regras que descrevam o
comportamento da base de dados (BERRY, 1997).
De acordo com Fayyad et al. (1996), a busca é realizada em três etapas: primeiramente,
decide-se se o processo será de classificação, agrupamento ou sumarização; em seguida,
escolhe-se um dos métodos a serem utilizados na busca por padrões; e, por último, efetua-se o
processo de busca ou a mineração dos dados.
Esta etapa será bem mais detalhada no Capítulo 4, onde são abordadas as principais
técnicas, métodos, tarefas e algoritmos de Mineração de Dados aplicados à descoberta de
conhecimento.
3.2.5 Interpretação
Após a fase de Mineração de Dados, o processo de KDD entra na fase de avaliação e
interpretação dos resultados que consiste em avaliar o conhecimento extraído das bases de
dados, identificar padrões e interpretá-los, transformando-os em conhecimentos que possam
apoiar as decisões (DILLY, 1995).
No KDD, o resultado do processo deve ser compreensível para os tomadores de decisão,
os quais são responsáveis por validar o conhecimento adquirido, verificando se os resultados
são aplicáveis para descoberta de novos padrões, para sugestão de melhores atributos e
refinamento do conhecimento. Dessa forma, observa-se a importância do trabalho em
conjunto do analista com o usuário, a fim de que os resultados do processo de descoberta de
conhecimento sejam cada vez mais relevantes e alcancem a confiabilidade desejada.
Se, porventura, os resultados obtidos não forem satisfatórios, torna-se necessário a
repetição de todas ou de algumas etapas do KDD. Nesse sentido, pode-se dizer que somente
após a interpretação e avaliação dos dados, haverá a descoberta de conhecimento
propriamente dita.
23
4. MINERAÇÃO DE DADOS
A Mineração de Dados (Data Mining) consiste de um conjunto de técnicas reunidas da
Estatística e da Inteligência Artificial com o objetivo de descobrir conhecimento novo, útil,
relevante e não-trivial que porventura esteja escondido em uma grande massa de dados
(GOLDSCHMIDT e PASSOS, 2005). Atualmente têm-se exemplos de sua utilização em
áreas como o Marketing, a Economia, a Engenharia e até a Medicina (CARVALHO, 2001).
Um conjunto de dados somado à técnica de Mineração de Dados resulta em informação
(ou conjunto de informações) útil. Descobrir padrões e tendências escondidos em grandes
massas de dados não é processo trivial. Em Mineração de Dados esse processo envolve o uso
de diversas tarefas (FAYYAD et al., 1996).
4.1. TAREFAS DE MINERAÇÃO DE DADOS
Tarefa, no contexto da Mineração de Dados, é um tipo de problema de descoberta de
conhecimento a ser solucionado. Pode-se destacar as tarefas de classificação, agrupamento,
estimativas, sumarização e associação, que podem ser resolvidas de forma individual ou
combinadas. A escolha da tarefa mais adequada depende da natureza da aplicação que se
pretende desenvolver.
4.1.1 Classificação
A tarefa de classificação é uma função de aprendizado que mapeia dados de entrada, ou
conjuntos de dados de entrada, em um número finito de categorias. Nela, cada exemplo
pertence a uma classe, entre um conjunto predefinido de classes (GOLDSCHMIDT e PASSO,
2005). Os exemplos consistem de um conjunto de atributos e um atributo-meta discreto. O
objetivo de um algoritmo de classificação é encontrar algum relacionamento entre os atributos
e uma classe, de modo que o processo de classificação possa usar esse relacionamento para
predizer a classe de um exemplo novo e desconhecido.
24
Assim, a classificação consiste em obter um modelo baseado em um conjunto de
exemplos que descrevem uma função não-conhecida. Esse modelo é então utilizado para
predizer o valor do atributo-meta de novos exemplos.
4.1.2 Associação
Uma transação em um banco de dados é um conjunto de atributos que ocorrem
simultaneamente. A tarefa de descoberta de associações tem como objetivo encontrar padrões
de atributos verificados em uma mesma transação. Como resultado, obtém-se uma série de
regras no formato se x então y, onde x e y são conjuntos de atributos. A ocorrência de x,
antecedente, implica na ocorrência de y, conseqüente, e a interseção do conjunto de atributos x
com o conjunto de atributos y é vazio.
A freqüência de uma regra é o número de vezes em que o antecedente e o conseqüente
ocorrem simultaneamente. O suporte é o resultado da divisão entre a freqüência da regra e o
total de transações. A confiança de uma regra é obtida a partir de uma divisão cujo numerador
é a freqüência em que o antecedente e o conseqüente ocorrem simultaneamente e o
denominador é a freqüência em que somente o antecedente ocorre.
A tarefa de associação pode ser considerada uma tarefa bem definida, determinística e
relativamente simples, que não envolve a predição da mesma forma que a tarefa de
classificação (WIVES, 1998).
4.1.3 Estimativas
A estimativa é usada para definir o valor para alguma variável contínua desconhecida,
como, por exemplo, receita, altura, saldo de cartão de crédito. Pode ser usada para executar
uma tarefa de classificação, convencionando-se que diferentes faixas (intervalos) de valores
contínuos correspondam a diferentes classes. Estimativa é aprender uma função que mapeia
um item de dado para uma variável de predição real estimada (FAYYAD et al., 1996).
Como exemplo de uso das técnicas de estimativas, tem-se estimar o número de filhos de
uma família, estimar a renda total de uma família, estimar o valor em tempo de vida de um
cliente, estimar a probabilidade de que um cliente morrerá baseando-se no conjunto de
25
diagnósticos médicos, prever a demanda de um consumidor para um novo produto, dentre
outros.
4.1.4 Sumarização
Segundo Fayyad et al. (1996), a tarefa de sumarização envolve métodos para encontrar
uma descrição compacta para um subconjunto de dados. Um simples exemplo dessa tarefa
poderia ser tabular o significado e desvio padrão para todos os itens de dados. Métodos mais
sofisticados envolvem a derivação de regras de sumarização.
4.1.5 Agrupamento
O agrupamento é o processo de partição de uma população heterogênea em vários
subgrupos ou clusters mais homogêneos. No agrupamento não há classes pré-definidas, os
registros são agrupados de acordo com a semelhança, o que diferencia da tarefa de
classificação.
Normalmente, a tarefa de agrupamento é realizada antes de alguma outra forma de
Mineração de Dados. Por exemplo, em uma aplicação de segmentação de mercado, pode-se
dividir primeiro os clientes em grupos que tenham comportamento de compra similar ou que
pertençam a uma mesma região do país.
No contexto do processo de aprendizagem na EaD, este trabalho propõe obter
conhecimento relevante para o entendimento do perfil dos alunos na utilização do ambiente
LabSQL. A tarefa de Mineração de Dados mais adequada e viável para responder perguntas
de interesse neste segmento é a tarefa de classificação, pois esta tarefa pode ser considerada
preditiva, permitindo, dessa forma, prever o desempenho obtido pelos alunos. Na Seção 4.2,
são apresentados os principais conceitos e técnicas empregados na tarefa de classificação.
4.2. TAREFA DE CLASSIFICAÇÃO
Classificação consiste em examinar as características de um objeto ou situação e atribuir
a ele uma classe pré-definida, ou seja, esta tarefa tem como objetivo a construção de modelos
que permitam agrupamento de dados em classes (GOLDSCHMIDT e PASSOS, 2005). Esta
26
tarefa é considerada preditiva, pois uma vez que as classes são definidas, ela pode prever
automaticamente a classe de um novo dado. Os modelos de classificação possuem atributos
de dois tipos: os preditivos e os objetivos. Geralmente, um atributo objetivo corresponde a
uma variável categórica que representa as classes previamente definidas. Os atributos
preditivos são os utilizados pela técnica para inferir a que classe um novo objeto pertence.
Existem diferentes técnicas para a realização desta tarefa, como Redes Neurais,
Algoritmos Genéticos, Métodos Bayesianos, Árvores de Decisão, entre outras. Dentre estas,
utiliza-se neste trabalho Árvore de Decisão e Redes Bayesianas. Tais técnicas são utilizadas,
pois, a partir das Redes Bayesianas, é possível contabilizar as relações de dependência entre
as ações envolvidas no processo de aprendizagem e o desempenho obtido pelos alunos. As
principais vantagens da utilização das Árvores de Decisão são que elas fazem decisões
levando em consideração os atributos que são mais representativos, além de serem
compreensíveis para a maioria das pessoas. Ao escolher e apresentar as regras em ordem de
importância, as árvores de decisão permitem aos usuários observarem quais fatores mais
influenciam os seus trabalhos. Nas Subseções 4.2.1 e 4.2.11, são detalhadas as técnicas
Árvore de Decisão e Redes Bayesianas, respectivamente.
4.2.1. Árvore de Decisão
A Árvore de Decisão consiste de uma hierarquia de nós internos e externos que são
conectados por ramos. Uma das principais características de uma Árvore de Decisão é o seu
tipo de representação: uma estrutura hierárquica que traduz uma árvore invertida a qual se
desenvolve da raiz para as folhas. A estrutura hierárquica traduz uma progressão da análise de
dados no sentido de desempenhar uma tarefa de previsão/classificação.
A aprendizagem por árvore de decisão é um dos métodos mais usados e práticos para a
inferência indutiva. A indução mediante árvores de decisão é uma das formas mais simples de
algoritmos de aprendizagem e de maior sucesso. Recebe como entrada um objeto ou uma
situação descrita por um conjunto de propriedades ou atributos, e retorna como saída uma
decisão. Em termos de árvore de decisão, um exemplo é descrito pelos valores dos atributos e
pelo predicado meta. O valor do predicado meta é chamado classificação do exemplo. Para
27
cada um dos possíveis valores de atributos, tem-se um ramo para outra árvore de decisão
(sub-árvore). Cada sub-árvore contém a mesma estrutura de uma árvore.
Uma árvore de decisão é formada por um conjunto de regras de classificação. Cada
caminho da raiz até uma folha representa uma destas regras. Cada percurso da árvore de
decisão, desde um nó raiz até um nó folha, é convertido em uma regra, onde a classe do nó
folha corresponde à classe prevista pelo conseqüente (parte “Então” da regra) e as condições
ao longo do caminho correspondem às condições do antecedente (parte “Se” da regra).
De acordo com Fayyad et al. (1996), as regras de classificação que resultam da
transformação de árvores de decisão podem ter as seguintes vantagens:
i. São uma forma de representação do conhecimento amplamente utilizadas em
sistemas especialistas;
ii. Em geral são de fácil interpretação pelo ser humano;
iii. Geralmente melhoram a precisão preditiva pela eliminação das ramificações que
expressam peculiaridades do conjunto de treinamento que são pouco generalizáveis
para os dados do teste.
É importante que as regras sejam acompanhadas de medidas relativas à sua precisão (ou
confiança) e a sua cobertura. A precisão informa o quanto a regra é correta, ou seja, qual a
porcentagem de casos que, se o antecedente é verdadeiro, então o conseqüente é verdadeiro.
Uma alta precisão indica uma regra com uma forte dependência entre o antecedente e o
conseqüente da regra.
4.2.2. Representação de uma Árvore de Decisão
A Figura 4.1 representa uma árvore de decisão onde cada nó de decisão contém um teste
para algum atributo, cada ramo descendente corresponde a um possível valor deste atributo, o
conjunto de ramos é distinto, cada folha está associada a uma classe e, cada percurso da
árvore, da raiz à folha corresponde uma regra de classificação.
28
Figura 4.1 Representação de Uma Árvore de Decisão.
O critério utilizado para realizar as partições é o da utilidade do atributo para a
classificação. Aplica-se, por este critério, um determinado ganho de informação a cada
atributo. O atributo escolhido como atributo teste para o corrente nó é aquele que possui o
maior ganho de informação. A partir desta aplicação, inicia-se um novo processo de partição.
Nos casos em que a árvore é usada para classificação, os critérios de partição mais
conhecidos são baseados na entropia.
4.2.3. Entropia
Entropia é o cálculo do ganho de informação baseado em uma medida utilizada na teoria
da informação. A entropia caracteriza a pureza ou impureza dos dados: em um conjunto de
dados, é uma medida da falta de homogeneidade dos dados de entrada em relação a sua
classificação. Por exemplo, a entropia é máxima (igual a 1) quando o conjunto de dados é
heterogêneo (OVERVIEW, 2005).
Dado um conjunto de entrada (S) que pode ter c classes distintas, a entropia de S será
dada pela Equação 4.1, como,
,log)(1
2∑=
−=c
iii ppsEntropia (4.1)
onde pi é a proporção de dados em S que pertencem à classe i.
29
O ganho de informação para um atributo A de um conjunto de dados S nos dá a medida
da diminuição da entropia esperada quando se utiliza o atributo A para fazer a partição do
conjunto de dados.
Seja P(A) o conjunto dos valores que A pode assumir; seja x um elemento deste conjunto
e seja Sx o subconjunto de S formado pelos dados em que A = x; a entropia que se obtém ao
particionar S em função do atributo A é dada pela Equação 4.2, como
).()()(
XAPX
X SEntropiaS
SAE ∑
∈= (4.2)
O ganho de informação é dado pela Equação 4.3, como
ganho (S, A) = Entropia (S) – E (A) (4.3)
onde Entropia(S) é uma medida de (não) homogeneidade do conjunto S e P(A) é uma medida
de (não) homogeneidade estimada para o conjunto S caso utilize o atributo A para fazer a
próxima partição.
A construção de uma árvore de decisão tem três objetivos: diminuir a entropia (a
aleatoriedade da variável objetivo), ser consistente com o conjunto de dados e possuir o
menor número de nós.
4.2.4. Overfitting e Underfitting
Tem-se o fenômeno do underfitting quando devido a uma amostra muito pouco
representativa, elementos de grande participação/importância são desconsiderados ou tem
menor peso que o ideal fazendo assim que o classificador cubra uma extensão menor que a
adequada.
O fenômeno do overfitting ocorre devido à consideração excessiva de um ruído (dados
em branco ou inconsistente) na amostra ou de simplesmente uma amostra anômala,
acarretando com que o classificador decida considerar uma extensão maior de amostras que a
ideal (GOLDSCHMIDT e PASSOS, 2005).
30
4.2.5. Podagem
Geralmente uma árvore construída pelo algoritmo C4.5 (apresentado na Subseção
4.2.6.2) deve ser podada, a fim de reduzir o excesso de ajustes (overfitting) aos dados de
treinamento.
Existem duas possibilidades de podagem em árvore de decisão: parar com o crescimento
da árvore mais cedo (pré-poda) ou crescer uma árvore completa e, em seguida, podar a árvore
(pós-poda) (CARVALHO, 1999). Porém, verifica-se que a pós-poda é mais lenta, porém mais
confiável que a pré-poda (QUILAN, 1986).
Para entender o mecanismo de podagem, precisa-se antes entender o conceito de taxa de
estimativa de erro, a qual pode ser obtida da seguinte forma: se N exemplos são cobertos por
determinado nó folha e E dentre estes N são classificados de forma incorreta, então a taxa de
estimativa de erro dessa folha é E/N (BERSON e SMITH, 1997).
As características descritas acima são comuns a todas as técnicas baseadas em árvores de
decisão, no entanto, o algoritmo para a construção da árvore em si pode variar, além de outros
detalhes como a forma de realizar a decisão do melhor caminho em um nó ou até mesmo fazer
o tratamento de atributos contínuos.
4.2.6. Algoritmos de Árvore de Decisão
Esta subseção apresenta os principais algoritmos de árvore de decisão: ID3 (QUILAN,
1986), C4.5 (QUILAN, 1986) e CART (ÁRVORES DE DECISÃO, 2007).
4.2.6.1. Algoritmo ID3
O algoritmo ID3, Iterative Dichotomizer 3, foi desenvolvido por Ross Quinlan
(QUILAN, 1986). Esse algoritmo consiste em um processo de indução de árvores de decisão
e tem como finalidade avaliar a informação contida nos atributos segundo a sua entropia, que
mede quanto esse espaço é homogêneo, ou por outro lado, quanto maior for a entropia maior
será a desordem. O atributo mais importante é colocado na raiz e, de forma top-down, a árvore
é construída recursivamente, com o objetivo de sempre escolher o melhor atributo para
determinado nó.
31
Uma das grandes vantagens do ID3 é a sua simplicidade, o seu processo de construção
torna relativamente simples a compreensão do seu funcionamento.
A maior desvantagem desse algoritmo é que a árvore de decisão produzida por ele é
praticamente imutável, o que implica que não se pode eficientemente reutilizar a árvore sem
reconstruí-la.
4.2.6.2. Algoritmo C4.5
O algoritmo C4.5 é um método melhorado a partir do ID3. Seu principal objetivo é suprir
as deficiências apresentadas pelo algoritmo ID3.
Este algoritmo segue um princípio orientador que é o princípio de Occam (Occam´s
Razor), criado por William Occam, que dá preferência à escolha de hipóteses menos
complexas, compatíveis com a realidade observada (QUILAN, 1986).
O algoritmo C4.5 adota o estratégia pós-poda. Podar uma árvore neste contexto, significa
reduzir algumas sub-árvores a folhas, ou de outra forma, um ramo de árvore, a partir de
determinado nó é cortado (ou seja, transformado em folha). O corte de um ramo da árvore é
guiado por um teste estatístico que leva em conta os erros em um nó e soma dos erros nos nós
que descendem desse nó. Sendo assim, para cada nó da árvore, a poda só se concretiza se o
desempenho da árvore não diminuir consideravelmente (QUILAN, 1986).
Outra vantagem desse algoritmo é a capacidade que o mesmo possui de gerar regras de
decisão a partir de árvores e de as compararem entre si independentemente das árvores
construídas.
Um dos mecanismos de poda utilizados por este algoritmo é baseado na comparação das
taxas de estimativas de erro de cada sub-árvore e do nó folha. São processados sucessivos
testes a partir do nó raiz da árvore, se a estimativa de erro indicar que a árvore será mais
precisa se os nós descendentes (filhos) de um determinado nó forem eliminados, então estes
nós descendentes serão eliminados e o nó n passará a ser o novo nó folha (CARVALHO,
1999).
32
4.2.6.3. Algoritmo CART (Classification and Regression Trees)
O algoritmo CART gera sua árvore de decisão realizando particionamentos binários no
domínio dos atributos, gerando nós com apenas dois caminhos a seguir: sim ou não. Da
mesma forma que o algoritmo C4.5, o CART é recursivo e pode lidar com dados ausentes e
diversos tipos numéricos (contínuos, categóricos, booleanos, etc.). Entretanto, por realizar
particionamentos binários, esse algoritmo apresenta dificuldades de trabalhar com atributos
que podem assumir mais de duas classes (por exemplo, baixo, médio e alto). Nesses casos,
podem existir dois ou mais nós para representar o mesmo atributo, gerando árvores maiores e
mais complexas (MARTINHAGO, 2005).
As árvores obtidas a partir do algoritmo CART têm normalmente muitos níveis, o que
pode tornar pouco eficiente a apresentação dos resultados tornando as conclusões obtidas a
partir de sua estrutura, pouco confiáveis. O algoritmo, apesar de flexível, é complexo
tornando o cálculo dos resultados muito demorados para grande conjunto de dados.
Segundo Martinhago (2005), as principais vantagens do algoritmo CART são:
i. Pode utilizar variáveis independentes de diferentes tipos, desde contínuas, ordinais
e nominais;
ii. Não obriga a realização de transformações de variáveis iniciais independentes
(como a logaritmização ou a normalização), pois o método tem bom
comportamento para qualquer tipo de dado;
iii. Pode usar a mesma variável em diferentes estágios do modelo, permitindo
reconhecer efeitos que certas variáveis produzem sobre outras;
iv. Não necessita satisfazer qualquer condição de aplicabilidade do modelo, o que não
acontece nos modelos paramétricos.
4.2.7. Redes Bayesianas
A noção fundamental da Estatística Bayesiana é a Probabilidade Condicional, definida
por P (H|E) no qual H é a hipótese e E é a evidência. Para computar a probabilidade de uma
33
hipótese H, é necessário levar em consideração o valor da evidência E. Quando não existir
evidências, tem-se a probabilidade incondicional P(H) (RUSSELL e NORVIG, 2004).
O cálculo é feito a partir da Equação 4.4, dada por
.)(
)()|(
EP
EHPEHP
∩= (4.4)
onde o denominador é a probabilidade de E e H ocorrerem simultaneamente e o numerador é
a probabilidade de ocorrer H isoladamente, ou probabilidade incondicional.
A formulação do teorema de Bayes envolve estas probabilidades. A Equação 4.5
apresenta o teorema formulado por Bayes,
.)(
)()|()|(
EP
HPHEPEHP =
(4.5)
As Redes Bayesianas são modelos gráficos representados por grafos acíclicos e
direcionados, mostrando as relações de causalidade entre as variáveis de um problema
(RUSSEL, 1995). Nestes grafos, os vértices representam as variáveis e as arestas representam
os relacionamentos de influência direta entre os atributos. A ausência de aresta entre dois
vértices supõe uma independência condicional.
Por exemplo, considerando o grafo representado pela Figura 4.2, pode-se observar que a
ocorrência de A ou B são prováveis causas direta da ocorrência de C, assim como, a
ocorrência de C é uma provável causa das ocorrências de D e E. A e B são pais de C, que por
sua vez é pai de D e E. Como A e B não têm pai, são considerados nós raízes da rede.
34
Figura 4.2 Um Grafo Dirigido Acíclico.
O seguinte problema, que chamar-se-á de domínio 1 para facilitar futuras referências, é
exemplificado por Russel (1995), para um melhor entendimento sobre os conceitos de uma
Rede Bayesiana, com a representação gráfica demonstrada a partir da Figura 4.3.
Você possui um novo alarme contra ladrões em casa. Este alarme é
muito confiável na detecção de ladrões, entretanto, ele também pode disparar
caso ocorra um terremoto. Você tem dois vizinhos, João e Maria, os quais
prometeram telefonar-lhe no trabalho caso o alarme dispare. João sempre
liga quando ouve o alarme, entretanto, algumas vezes confunde o alarme
com o telefone e também liga nestes casos. Maria, por outro lado, gosta de
ouvir música alta e às vezes não escuta o alarme.
Figura 4.3 Rede Bayesiana para o Domínio 1 (RUSSEL, 1995).
35
O modelo gráfico proposto na Figura 4.3 trata-se de uma simplificação do domínio 1,
pois alguns fatos, como Maria ouvindo música alta e João escutando o barulho do telefone,
estão implícitos. Se a Rede Bayesiana considerasse todos os fatos possíveis de ocorrer em um
domínio, tornaria o modelo muito complexo e algumas variáveis podem não ser relevantes
(RUSSEL, 1995).
Estabelecida a topologia da rede, é necessário quantificar as ligações entre as variáveis a
partir da construção de uma Tabela de Probabilidades Condicionais (TPC) para cada variável.
Para isso, é necessária a identificação de todas as combinações de possíveis valores das suas
variáveis pais e, também, os possíveis valores que a variável em questão pode assumir. A
Equação 4.6 demonstra como são feitos os cálculos das probabilidades para cada variável,
)),(|()(),...,,()(1
21 AipaAPUPAAAPUPn
iin ∏
=
=== (4.6)
onde P(U) é a probabilidade conjunta para a rede e )),(|( ii ApaAP são as probabilidades
condicionais de A em relação aos seus pais. Assim, a Tabela 4.1 descreve a TPC para a variável alarme.
Tabela 4.1 TPC para a Variável Alarme
Ladrão Terremoto P(Alarme|Ladrão, Terremoto)
Verdadeiro Falso
Verdadeiro Verdadeiro 0,95 0,050
Verdadeiro Falso 0,95 0,050
Falso Verdadeiro 0,29 0,710
Falso Falso 0,001 0,999
Na Figura 4.4 temos a representação da Rede Bayesiana do domínio 1 com as respectivas
probabilidades condicionais de cada variável. A letras L, T, A, J e M representam Ladrão,
Terremoto, Alarme, João_Liga e Maria_Liga, respectivamente.
36
Figura 4.4 Rede Bayesiana do Domínio 1 com a Probabilidade de cada Variável (Adaptado de
RUSSEL, 1995).
A partir dos cálculos estatísticos, cada variável terá uma tabela de valores de
probabilidades para que suas possíveis ações sejam realizadas. Dessa forma, para cada
variável A do problema, com pais B1, B2, ..., Bn, existe uma tabela P(A|B1, B2, ..., Bn).
Com a utilização de uma ferramenta de análise de Redes Bayesianas é possível definir
hipóteses sobre um determinado atributo, tendo respostas sobre as influências dele de acordo
com as ligações existentes entre os outros atributos.
4.2.8. Vantagens das Redes Bayesianas
Para Luna (2004) existem muitos pontos positivos de se utilizar Redes Bayesianas, dentre
suas principais características destacam-se:
i. Permite expressar as assertivas de independência de forma visual e fácil de
perceber;
ii. Torna o processo de inferência eficiente computacionalmente;
37
iii. Permitem analisar grandes quantidades de dados;
iv. Pode ser utilizada em vários domínios.
4.3. FERRAMENTAS DE MINERAÇÃO DE DADOS
Atualmente existem diversas ferramentas capazes de lidar com os diversos algoritmos de
Mineração de Dados. Muitas delas são genéricas da Inteligência Artificial ou da comunidade
de estatística. Tais ferramentas operam separadamente da fonte de dados, requerendo uma
quantidade significativa de tempo gasto com exportação e importação de dados, pré e pós-
processamento e transformações de dados. Entretanto, a conexão entre a ferramenta de
descoberta de conhecimentos e a base de dados analisadas, utilizando o suporte do SGBD
(Sistema de Gerenciamento de Banco de Dados) existente, é extremamente desejável. Para
Goebel e Gruenwald (1999 apud ESCOVAR, 2004), as características a serem consideradas
na escolha de uma ferramenta de descoberta de conhecimento devem ser:
i. A habilidade de acesso a uma variedade de fontes de dados, de uma forma on-line e
off-line;
ii. A capacidade de incluir modelos de dados orientados a objetos ou modelos não
padronizados (tal como multimídia, espacial ou temporal);
iii. A capacidade de processamentos com relação ao número máximo de
tabelas/tuplas/atributos;
iv. A capacidade de processamento com relação ao tamanho do banco de dados;
v. A variedade do tipo de atributos que a ferramenta pode manipular; e
vi. O tipo de linguagem da consulta.
As ferramentas de Mineração de Dados utilizadas neste trabalho foram o software livre
WEKA, para aplicação da técnica de Árvore de Decisão e o software Bayesware Discoverer,
para geração das Redes Bayesianas.
38
A principal justificativa para a utilização do WEKA consiste do fato desta ferramenta ser
um software livre amplamente utilizado para Mineração de Dados e com bastantes referências
de sua utilização. Por outro lado, apesar de ser um software proprietário versão para estudante
com limitações na capacidade de processamento com relação ao tamanho do banco de dados,
o Bayesware Discoverer foi utilizado devido à grande facilidade em sua utilização,
principalmente durante a interpretação e análise dos resultados obtidos a partir das Redes
Bayesianas geradas.
As Subseções 4.3.1 e 4.3.2 apresentam as ferramentas de Mineração de Dados utilizadas
neste trabalho.
4.3.1. WEKA
A ferramenta WEKA (Waikato Environment for Knowledge Analysis), tem sido bastante
utilizada na realização da etapa de Mineração de Dados, por ser de domínio público e prover
um conjunto de algoritmos que implementam diversas técnicas para resolver problemas reais
de Mineração de Dados.
Esta ferramenta foi implementada na linguagem Java e desenvolvida no meio acadêmico
da Universidade de Waikato, na Nova Zelândia, em 1999. Suas principais características são
herdadas do fato de ser uma ferramenta desenvolvida em Java, uma linguagem multi-
plataforma orientada a objetos.
A portabilidade da linguagem Java permite ao WEKA rodar em diversas plataformas
diferentes, e sua orientação a objetos produz vantagens como modularidade, polimorfismo,
encapsulamento, reutilização de código entre outras.
O WEKA é composto por dois pacotes que podem ser embutidos em outros programas
escritos em Java, permitindo que um desenvolvedor possa criar seu próprio ambiente de
Mineração de Dados. O primeiro pacote possui interfaces para a manipulação interativa de
algoritmos de Mineração de Dados e o segundo possui classes Java responsáveis pelo
“encapsulamento” desses algoritmos. A Figura 4.5 apresenta uma das principais interfaces da
ferramenta WEKA.
39
Figura 4.5 Interface da Ferramenta WEKA.
O principal tipo de arquivo utilizado pelo WEKA é o ARFF - Attribute-Relation File
Format.
4.3.1.1. Arquivos ARFF
ARFF é um formato desenvolvido na University of Waikato para ser utilizado no projeto
Weka Machine Learning Project. São arquivos de texto na codificação ASCII que descrevem
as relações e seus atributos (ATTRIBUTE-RELATION, 2008).
Na primeira parte do arquivo, conhecida como header, são declaradas as relações e os
atributos, onde a declaração das relações sequem o formato: @relation <nome-da-relação>, e
a declaração dos atributos sequem o formato: @attribute <nome-do-atributo> <tipo>. Os tipos
podem ser:
i. numeric: usado para números reais e inteiros;
40
ii. <nominal-specification>: especifica uma lista pré-definida de valores possíveis
separados por vírgula. Por exemplo: {amarelo, vermelho, azul};
iii. string: tipo que contém valores textuais;
iv. date: usado para datas.
Na segunda parte do arquivo são declaradas as instâncias, seguindo o formato: @data
<valor-atributo-1>, <valor-atributo-2>, ..., <valor-atributo-n>, conforme mostrado na Figura
4.6.
Figura 4.6 Exemplo de um Arquivo ARFF.
41
4.3.2. Bayesware Discoverer
O Bayesware Discoverer é um programa computacional proprietário, disponível apenas
para a plataforma Windows, específico para a análise de Redes Bayesianas. Existem quatro
versões disponíveis atualmente no mercado (BAYESWARE, 2008):
i. Professional Edition: provê uma série de funcionalidades para se trabalhar com
Redes Bayesianas e a integração com outros sistemas, tais como Microsoft Excel
97/2000, Microsoft Access 97/2000 e Mathsoft S-Plus 2000;
ii. Enterprise Edition: inclui todas as funcionalidades da versão Professional Edition
e, adicionalmente, provê a possibilidade de importação e exportação de consultas
SQL em uma rede de computadores;
iii. Academic Edition: versão utilizada para pesquisas e por instituições acadêmicas.
Possui as mesmas funcionalidades do Professional Edition, porém o preço sofre um
desconto. Está incluído nessa versão um ano de suporte;
iv. Student Edition: uma versão que pode ser livremente usada para fins de pesquisa e
por instituições acadêmicas. Possui a limitação de trabalhar com bases de dados
com no máximo 500 registros.
A interface gráfica do Bayesware Discoverer está separada em três elementos principais:
Database Browser, Database Window e Network Window. O Database Browser provê acesso
a todos os bancos de dados disponíveis e, cada banco pode ser visualizado em uma Database
Window. Além disso, para o mesmo banco, podem ser associadas diversas redes, que são
visualizadas na Network Window. A visão geral da interface gráfica está demonstrada na
Figura 4.7.
42
Figura 4.7 Visão Geral da Interface Gráfica do Bayesware Discoverer (BAYESWARE, 2000).
A Network Window é a visão principal do programa. Nela estão localizadas todas as
funcionalidades para a modelagem, exploração e análise das Redes Bayesianas. Na Figura 4.8
temos uma visão da Network Window e cada componente será brevemente explicado
posteriormente.
43
Figura 4.8 Visão da Network Window (BAYESWARE, 2000).
1. Network Menu Bar: contém os comandos básicos para a manipulação da janela,
tais como abrir um novo arquivo, fechar a janela, ajuda, etc;
2. Network Tool Bar: é composta por um conjunto de ícones que representam atalhos
para os principais comandos do Network Menu Bar;
3. Network Node Bar: contém uma lista de todos os nós definidos na Network Panel.
Clicando sobre cada um dos nós, são exibidas informações mais detalhadas;
4. Network Panel: nesse componente a Rede Bayesiana pode ser visualizada
graficamente a partir de um grafo dirigido;
5. Network Help Line: descreve brevemente ações que podem ser executadas, como
clicar com o botão direito do mouse;
44
6. Network Progress Indicator: exibe uma barra de progresso de alguma atividade
sendo executada.
45
5. ESTUDO DE CASO: MINERAÇÃO DO LABSQL
Este capítulo apresenta uma aplicação de técnicas de Mineração de Dados no processo de
aprendizagem na educação a distância. O objetivo deste estudo de caso é analisar os dados
obtidos a partir do ambiente virtual de aprendizagem LabSQL, aplicando as técnicas de
Mineração de Dados denominadas Árvore de Decisão e Redes Bayesianas para descobrir
informações relevantes sobre o desempenho dos alunos com relação à utilização dessa
tecnologia e ao processo de ensino-aprendizado. Este trabalho é do tipo exploratório, onde se
analisa os dados buscando relacionamentos novos e não previstos.
A aplicação das técnicas de mineração de dados utilizadas para alcançar os objetivos
deste estudo de caso foi realizada de acordo com as etapas do processo de KDD. A Subseção
5.1 apresenta cada uma dessas etapas realizadas neste estudo de caso.
5.1 O PROCESSO DE KDD
O contexto no qual o processo de KDD é utilizado consiste na análise dos dados obtidos a
partir do banco de dados do LabSQL, correspondentes a 11 turmas em um modelo de ensino-
aprendizagem semi-presencial, contendo, em média, 29 alunos cada, durante três semestres
letivos, da Universidade Federal do Pará, correspondentes ao ano de 2007 e ao primeiro
semestre de 2008, em que quatro turmas são de pós-graduação em especialização em Banco
de Dados e sete turmas de graduação: sendo três pertencentes ao curso de Ciência da
computação e quatro de Sistemas de Informação. No total, o sistema foi utilizado por
trezentos e dezenove usuários.
Para uma maior compreensão acerca do domínio dos dados, o Apêndice B apresenta uma
análise descritiva dos dados coletados no LabSQL.
Uma vez definido o domínio sobre o qual se pretende executar o processo de descoberta
de conhecimento, o próximo passo é selecionar e coletar o conjunto de dados ou variáveis
necessárias para representar o domínio.
46
5.1.1. Seleção dos Dados
Nesta etapa foi realizado um estudo da estrutura da base de dados do LabSQL com o
objetivo de compreender os relacionamentos entre as tabelas desse banco de dados, e
identificar os atributos relevantes e úteis para discriminar as diferentes ações e desempenhos
dos usuários do LabSQL.
O banco de dados do LabSQL possui cerca de 20 tabelas com informações associadas aos
seus usuários. Após estabelecer uma compreensão dos relacionamentos dessas tabelas, foram
implementadas vinte e uma consultas SQL para coletar os diferentes atributos utilizados neste
trabalho. Após a realização dessas consultas, obteve-se dados estruturados acerca do
desempenho das atividades desenvolvidas pelos usuários do ambiente LabSQL.
Dessa forma, dentre os atributos selecionados destaca-se: sexo do usuário (masculino ou
feminino); nome do curso (Ciência da Computação, Sistema de Informação ou Especialização
em Banco de Dados); nome do tipo de curso (graduação ou especialização); código da turma
(11 valores); código do coordenador da turma (2 valores); o tempo que o usuário levou para
se inscrever na turma após o início de inscrição (em dias); trabalhou em equipe (sim ou não);
usou agenda de anotações do sistema (sim ou não). O Apêndice A apresenta a descrição
completa dos 34 atributos primários obtidos durante a fase de Seleção dos Dados.
5.1.2. Pré-processamento e Limpeza dos Dados
Nesta etapa foram realizados alguns tratamentos nos dados obtidos para uma melhor
aplicação das técnicas de mineração de dados.
Dentre as atividades realizadas nesta etapa destacam-se:
i. A retirada de registros de usuários de testes cadastrados no ambiente LabSQL;
ii. O preenchimento manual de dados em branco, como o sexo do usuário, inferido a
partir do seu nome; Em seguida, os usuários foram renomeados para preservar a
privacidade das demais informações a eles associados, convencionando aluno_1,
aluno_2, etc.
47
Além disso, houve a definição de quais atributos são relevantes, baseando-se em
conversas e entrevistas com os professores que utilizam o ambiente. Nesse sentido, destacam-
se os atributos relacionados à Freqüência (quantidade) de acesso; aos acertos nos exercícios,
aos acertos nas provas, ao número de submissões (SQL-livre, exercícios), aos acertos na
prova (Nota), ao trabalho em grupos, e a utilização dos recursos disponíveis do ambiente,
como o SQL-livre e o material de apoio. Esses atributos são considerados relevantes, pois são
comumente utilizados pelos professores para avaliar o desempenho e atribuir as notas
(conceitos) finais dos alunos na disciplina.
5.1.3. Transformação dos Dados
Antes de realizar a etapa de extração de padrões, realizou-se um tratamento nos dados,
adequando o formato dos dados selecionados para o processo de extração de conhecimento. A
construção de uma árvore de decisão utilizando atributos contínuos exigiria a criação de um
ramo para cada valor distinto do atributo, tornando a árvore pouco generalista. Para evitar este
problema, é recomendado submeter os atributos contínuos a um processo de discretização
(FAYYAD, 1993). Assim, foi realizada a discretização de alguns atributos para a redução do
número de valores contínuos, agrupando-os em classes.
Além disso, criaram-se novos atributos a partir de outros, visando avaliar o desempenho
dos alunos, por exemplo, para avaliar se o aluno está abaixo ou acima da média de pontos ou
de acessos ou se o aluno usou ou não determinado recurso do ambiente LabSQL, como a
agenda e o trabalho em grupo.
Foi realizada, ainda, a transformação no formato de data de “mm/dd/aaaa” para
“dd/mm/aaaa” para viabilizar o cálculo do tempo que o usuário levou para se inscrever na
turma após o início de inscrição. Foi adicionado o símbolo “?” para representar as
informações desconhecidas de alguns usuários como a data de inscrição na disciplina. O
símbolo de interrogação é interpretado como dado desconhecido por ambas as ferramentas de
mineração de dados utilizadas neste trabalho, o WEKA e o Bayesware Discoverer.
Dessa forma, foram trabalhados com 59 atributos, dentre eles destaca-se; ficou acima da
média de pontos em questões de múltipla escolha nos exercícios e avaliações (sim ou não);
média de pontos em questões discursivas nos exercícios e avaliações (valor continuo); ficou
48
acima da média de acessos ao SQL-livre (sim ou não); ficou acima da média de acessos ao
material de apoio disponível no ambiente (sim ou não); ficou acima da média de problemas de
programação SQL resolvidos corretamente nos exercícios e avaliações (sim ou não); ficou
acima da média de pontos em questões de programação SQL nos exercícios e avaliações (sim
ou não); média do nível de dificuldades dos problemas resolvidos (valor continuo) e ficou
acima da média de acessos ao ambiente (sim ou não). O Apêndice A apresenta a descrição
completa dos 59 atributos trabalhados, sendo atributos primários e derivados obtidos a partir
dos atributos primários durante a fase de Transformação dos Dados.
Após as transformações descritas acima na etapa de pré-processamento, foi necessário
converter os dados resultantes da base de dados para os formatos específicos das ferramentas
de mineração de dados utilizadas. No caso da ferramenta Bayesware Discoverer, os dados
foram convertidos para o formato separado por tabulações, ilustrado na Figura 5.1. No caso da
ferramenta WEKA os dados foram convertidos para o formato ARFF, ilustrado na Figura 5.2.
Figura 5.1 Representação dos Dados no Formato Separado por Tabulação.
49
Figura 5.2 Representação dos Dados no Formato ARFF.
5.1.4. Mineração de Dados
Esta etapa apresenta a aplicação das técnicas de mineração de dados utilizadas neste
trabalho para a extração e a descoberta de padrões propriamente dita.
5.1.4.1 Aplicação de Redes Bayesianas
Para aplicação das Redes Bayesianas, após a conversão do banco de dados do LabSQL
para o formato separado por tabulação, utilizou-se a ferramenta Bayesware Discoverer versão
Student Edition 1.0, versão que pode ser livremente usada para fins de pesquisa e por
instituições acadêmicas. O Apêndice C apresenta a mineração de dados passo a passo na
ferramenta Bayesware Discoverer.
Após a geração da rede bayesiana nesta ferramenta, busca-se executar inferências na rede
para descobrir informações e padrões que podem ser úteis para gestores do domínio da
aplicação. Foram realizadas diferentes análises para as redes bayesianas geradas. Na Subseção
5.1.5.1 é mostrada como foi realizada as análises das redes bayesianas geradas, bem como os
resultados obtidos na fase de Mineração de dados.
50
5.1.4.2 Aplicação de Árvore de Decisão
Para aplicação da Árvore de Decisão, após a conversão do banco de dados do LabSQL
para o formato ARFF, utilizou-se a ferramenta WEKA (Waikato Environment for Knowledge
Analysis) (WEKA, 2008), versão 3.4, que executou a tarefa de classificação, utilizando o
algoritmo J48 em validação cruzada (cross validation) para a construção da Árvore de
Decisão. O método de validação cruzada 10-Fold-Cross-Validation foi utilizado a fim testar a
acurácia do modelo no mesmo conjunto de dados utilizado para construir o modelo. A
acurácia é uma métrica que avalia os modelos de classificação a partir da porcentagem de
predições corretas que o modelo executou sobre o total de predições realizadas. Ela é
importante, pois permite avaliar um classificador para determinar o quanto ele será eficiente
para predizer dados futuros, ou seja, qual a sua capacidade de generalização. O Apêndice D
apresenta a mineração de dados passo a passo na ferramenta WEKA.
No total, foram geradas cerca de 20 árvores de decisão para os atributos discretos do
banco de dados, sendo geradas muitas regras, cerca de 400, porém na Subseção 5.1.5 é
mostrada como foi realizada a análise dos resultados obtidos na fase de Mineração de dados.
5.1.5. Análise dos Resultados e Interpretações
Nesta seção são realizadas as análises dos resultados e interpretações visando identificar
padrões e interpretá-los a fim de que os resultados do processo de descoberta de
conhecimento sejam relevantes e compreensíveis para os professores, os quais são
responsáveis por validar o conhecimento adquirido sobre o desempenho dos alunos com
relação à utilização dessa tecnologia e ao processo de ensino-aprendizado.
5.1.5.1 Análise dos Resultados e Interpretações das Redes Bayesianas
A ferramenta Bayesware Discoverer construiu as redes a partir dos atributos do banco de
dados criado, exibindo as tabelas de probabilidade condicional ou incondicional de cada nó
(atributo). Dentre as ligações observadas na Figura 5.3, gerada após a execução do software,
destaca-se que a demora para inscrição (2) influência diretamente quais usuários estão, ou
não, acima da média de acessos ao ambiente (6), na utilização ou não da agenda (3) e na
média de pontos em questões de múltipla escolha nos exercícios e avaliações (5). Por outro
51
lado, a demora para inscrição é influenciada pelo curso (1). Além disso, observou-se que os
usuários que estão, ou não, acima da média de acessos ao ambiente (6) influenciam no total de
problemas resolvidos corretamente nas avaliações (7) e que o sexo do usuário (4) não
influencia nenhum outro atributo.
Figura 5.3 Rede Bayesiana para Análise da Demora para Inscrição na Turma.
Na Figura 5.4 é possível observar as tabelas de probabilidade dos nós da rede gerada. Em
cada tabela, tem-se a distribuição probabilística dos seus possíveis valores. Após realizar
algumas inferências, foi possível observar que ao colocar o atributo referente à demora para
inscrição (1) em 100% para a menor demora (0 a 6 dias), inferiu ao atributo acima da média
de acessos ao ambiente (4), um aumento de 0,388 (38,8% de probabilidades a priori) para
0,509 (50,9% de probabilidades a posteriori) em S (sim), ou seja, acima da media de acesso ao
ambiente. Da mesma forma, inferiu ao atributo referente à média de pontos em questões de
múltipla escolha nos exercícios (3) um aumento de 0,398 (39,8% de probabilidades a priori)
para 0,500 (50% de probabilidades a posteriori) em S (sim), ou seja, acima média de pontos
em questões de múltipla escolha nos exercícios.
52
Figura 5.4 Tabelas de Probabilidade para Análise da Demora para Inscrição dos Usuários no
Ambiente LabSQL (demora_para_inscricao_turma).
Portanto, os alunos que iniciam a disciplina mais cedo no ambiente, possuem um
desempenho elevado em relação à quantidade de acessos e ao total de pontos na resolução dos
exercícios de múltipla escolha. Desde o início, deve-se motivar a participação dos alunos na
utilização do ambiente para desenvolver melhor seu aprendizado, e criar outras possibilidades
para aproximar os alunos que estão atrasados em relação ao restante da turma.
Pode-se observar, ainda, que o atributo Usou_A_Agenda aumentou de 0,046 (4,6% de
probabilidade a priori) para 0,480 (48% de probabilidade a posteriori) em “S” (usou a
agenda). Portanto, os estudantes que iniciam mais cedo no ambiente exploraram mais as
funcionalidades do sistema. Dessa forma, para auxiliar os estudantes atrasados, faz-se
necessário criar uma espécie apoio na descoberta das funcionalidades do sistema.
Além disso, a Figura 5.5 apresenta uma Rede Bayesiana para análise do coordenador da
turma. Nela, destaca-se a influência que o coordenador da turma tem em relação à quantidade
de acesso dos usuários ao ambiente, o trabalho em equipe e o nível de dificuldade dos
problemas resolvidos pelos usuários. Dessa forma, observa-se que determinados
coordenadores de turma promovem uma maior utilização do ambiente em relação à
quantidade de acessos dos alunos do que outros coordenadores. Além disso, a partir da Rede
53
Bayesiana gerada é possível perceber diferenças de atitudes dos coordenadores em relação à
utilização dos recursos do ambiente durante o processo de aprendizado, como o nível de
dificuldade dos trabalhos oferecidos aos alunos e a opção de organizar trabalho em equipe.
Figura 5.5 Tabelas de Probabilidade e Rede Bayesiana para Análise do Coordenador da Turma.
A Figura 5.6 apresenta a Rede Bayesiana utilizada para análise dos usuários que estão, ou
não, acima da média de pontos em questões de programação SQL nos exercícios e avaliações.
Nela, observa-se que o atributo Acima_Media_Total_Pontos_Sql (1) tem dependência direta
dos atributos Acima_Media_Total_de_Tentativas_SQL (2) e do atributo
Acima_Media_Total_Pontos_Alternativas (3). Nesse sentido, os usuários que estão acima, ou
não, da média de pontos em questões de programação SQL nos exercícios e avaliações,
dependem se eles estão acima, ou não, da média de tentativas de programação SQL nos
exercícios e avaliações, e se eles estão acima, ou não, da média de pontos em questões de
múltipla escolha nos exercícios e avaliações.
54
Figura 5.6 Rede Bayesiana para Análise dos Usuários que estão, ou não, Acima da Média de Pontos
em Questões de Programação SQL nos Exercícios e Avaliações (atributo
acima_media_de_total_pontos_sql).
Após realizar algumas inferências, conforme observado na Figura 5.7 foi possível
observar que ao colocar o atributo Acima_Media_Total_de_Tentativas_SQL, com 100% para
o valor “sim” e o atributo Acima_Media_Total_Pontos_Alternativas, com 100% para o valor
“sim” , o atributo Acima_Media_Total_Pontos_Sql, aumentou de 0,722 (72,2% de
probabilidade a priori) para 0,875 (87,5% de probabilidade a posteriori) em “sim” . Dessa
forma, se o usuário está acima da média de tentativas de programação SQL nos exercícios e
avaliações, e se ele está acima da média de pontos em questões de múltipla escolha nos
exercícios e avaliações, então o usuário tem 15,3% de chance a mais de está acima da média
de pontos em questões de programação
Em seguida este modelo de classificação foi testado em validação cruzada (cross
validation) para o atributo meta Acima_Media_Total_Pontos_Sql. O método de validação
cruzada 10-Fold-Cross-Validation foi utilizado a fim testar a acurácia do modelo no mesmo
conjunto de dados utilizado para construir o modelo. A Figura 5.8 apresenta o resultado do
teste de validação cruzada executado no Bayesware Discoverer. Nela, observa-se que a
55
acurácia foi de aproximadamente, 77,43%, ou seja, foram classificados corretamente 247
instancias, das 319.
Figura 5.7 Tabelas de Probabilidade para Análise dos Usuários que estão, ou não, Acima da Média
de Pontos em Questões de Programação SQL nos Exercícios e Avaliações (atributo
acima_media_de_total_pontos _sql).
Figura 5.8 Resultado do Teste de Validação Cruzada Executado pelo Bayesware.
56
A Subseção 5.1.5.2 apresenta as análises dos resultados e interpretações da aplicação da
técnica de Árvore de Decisão sobre a mesma base de dados utilizada na aplicação da Rede
Bayesiana.
5.1.5.2 Análise dos Resultados e Interpretações da Árvore de Decisão
Após a fase de Mineração de Dados, foram selecionadas sete árvores de decisão, levando-
se em consideração a acurácia dos modelos de classificação e a relevância dos atributos para a
análise do desempenho dos usuários do LabSQL com relação à utilização dessa tecnologia e
ao processo de ensino-aprendizado. Dentre os atributos objetivos (ou atributo meta) dos
modelos de classificação selecionados, destacam-se:
i. acima_media_pontos_alternativas_exercicios, visando classificar os usuários que
estão, ou não, acima da média de pontos em questões de múltipla escolha nos
exercícios;
ii. acima_qtd_acessos, visando classificar os usuários que estão, ou não, acima da
média de acessos ao ambiente;
iii. acima_qtd_acessos_sql_livre, visando classificar os usuários que estão, ou não,
acima da média de acessos ao SQL-Livre;
iv. acima_media_de_tentativas_sql_avaliacao, visando classificar os usuários que
estão, ou não, acima da média de tentativas de programação SQL nas avaliações;
v. acima_media_pontos_sql_exercicios, visando classificar os usuários que estão, ou
não, acima da média de pontos em questões de programação SQL nos exercícios.
A média de acurácia dos modelos de classificação selecionados foi de aproximadamente,
80,24%. A partir das árvores de decisão geradas foram extraídas cerca de 80 regras, dentre as
quais, foram selecionadas as mais relevantes. Um dos critérios que podem ser utilizados para
medir a qualidade das regras geradas por um sistema de aprendizado é a precisão. A precisão
é o grau de confiabilidade das regras, geralmente representada a partir da taxa de erro.
57
Para Berson e Smith (1997), o conceito de taxa de estimativa de erro pode ser obtido a
partir da seguinte forma: se N exemplos são cobertos por determinado nó folha e E dentre
estes N são classificados de forma incorreta, então a taxa de estimativa de erro dessa folha é
E/N. O valor da classe (atributo-meta), que corresponde à parte “então” da regra, é
apresentado após o símbolo de dois-pontos (:).
Por exemplo, para a regra extraída da árvore de decisão: “nome_curso =
sistemas_de_informacao AND nivel_dificuldade_problemasResolvidos > 1,2 : sim (20/1)”,
tem-se dentro dos parênteses, respectivamente, que o peso das instâncias classificadas no nó
folha acima_media_pontos_alternativas_exercicios com valor “sim”, ou seja, acima da média
de pontos em questões de múltipla escolha nos exercícios, é 20 e que o número de instâncias
classificadas de forma incorreta para esse nó é 1. A partir da fórmula da estimativa de erro, a
taxa de erro será 0,05 (1/20). Dessa forma, a precisão para esta regra será 0,95 (1 - 0,05), ou
seja, aproximadamente 95% dos usuários do curso de Sistema de Informação que resolvem
problemas com nível de dificuldade em média de 1,2 (numa escala de 1 a 3) estão acima da
média de pontos em questões de múltipla escolha nos exercícios.
A Figura 5.9 apresenta a árvore de decisão, representada como regras de classificação,
gerada para exibir quais usuários estão, ou não, acima da média de acessos ao ambiente
LabSQL. Nela, destaca-se que em (1), aproximadamente 92,37% dos alunos que estão abaixo
(não estão acima) da média de acessos ao SQL-livre e abaixo da média de problemas de
programação SQL resolvidos corretamente nos exercícios, estão abaixo da média de acessos
ao ambiente (acima_qtd_acessos_sql_livre = nao AND acima_qtd_problema_sql_exercicios
= não: nao (118.0/9.0)) Além disso, observa-se que o atributo
“acima_qtd_acessos_sql_livre” é o mais representativo para classificação dos usuários que
estão, ou não, acima da média de acessos ao ambiente, por ser o nó raiz da árvore de decisão.
A acurácia deste modelo foi de, aproximadamente, 74,92% das instancias classificadas
corretamente.
58
Figura 5.9 Regras de Classificação para Análise dos Usuários que estão, ou não, Acima da Média de
Acessos ao Ambiente LabSQL (atributo acima_qtd_acessos).
A Figura 5.10 apresenta a árvore de decisão, representada como regras de classificação,
gerada para exibir quais usuários estão, ou não, acima da média de acessos ao SQL-live. Nela,
destaca-se que em (1), aproximadamente 88,43% dos alunos que estão abaixo da média de
acessos ao ambiente e abaixo da média de problemas de programação SQL resolvidos
corretamente nas avaliações, estão abaixo da média de acessos ao SQL-livre
(acima_qtd_acessos = nao AND acima_qtd_problema_sql_avaliacao = nao: nao
(121.0/14.0)) Além disso, observa-se que o atributo “acima_qtd_acessos” é o mais
representativo para classificação dos usuários que estão, ou não, acima da média de acessos
ao SQL-livre, por ser o nó raiz da árvore de decisão. A acurácia deste modelo foi de,
aproximadamente, 71,15% das instâncias classificadas corretamente.
59
Figura 5.10 Regras de Classificação para Análise dos Usuários que estão, ou não, Acima da Média de
Acessos ao SQL-Livre (atributo acima_qtd_acessos_sql_livre).
A Figura 5.11 apresenta a árvore de decisão gerada para exibir os usuários que estão, ou
não, acima da média de tentativas de programação SQL nas avaliações. Nela, destaca-se que
em (1), aproximadamente, 87,06% dos usuários que estão abaixo da média de tentativas de
programação SQL nos exercícios, estão abaixo da média de tentativas de programação SQL
nas avaliações ((acima_media_de_tentativas_sql_exercicios = nao: nao (201.0/26.0)). Além
disso, observa-se em (2), aproximadamente, 86,11% dos usuários que estão acima da média
de tentativas de programação SQL nos exercícios e não trabalham em Equipe, estão acima da
média de tentativas de programação SQL nas avaliações
((acima_media_de_tentativas_sql_exercicios = sim AND trabalhou_em_equipe = nao: sim
(108.0/15.0)) A acurácia deste modelo foi de, aproximadamente, 87,15% das instancias
classificadas corretamente.
60
Figura 5.11 Árvore de Decisão para Análise dos Usuários que estão, ou não, Acima da Média de
Tentativas de Programação SQL nas Avaliações (atributo acima_media_de_tentativas_sql_avaliacao).
Além dos resultados descritos anteriormente, foram feitas outras análises de regras
encontradas durante a mineração de dados utilizando-se a Árvore de Decisão. Dessa forma,
observa-se que 100% dos usuários que demoram menos de 30 dias para se inscrever estão
acima da média de pontos em questões de programação SQL nos exercícios
(demora_para_inscricao_turma <= 30: sim (20.0)). Portanto, os alunos mais interessados na
disciplina que buscam mais cedo iniciar a utilização da ferramenta, demonstram um
desempenho maior em relação à pontuação dos exercícios de programação SQL. Outro
exemplo de regra encontrado foi que 100% dos usuários que estão abaixo da média de pontos
em questões de programação SQL nos exercícios e possuem menos de 42 problemas de
múltipla escolha resolvidos corretamente nas avaliações, estão abaixo da média de acessos ao
ambiente (acima_media_pontos_sql_exercicios = nao AND
qtd_problemas_alternativas_avaliacao <= 42: nao (91.0)). Portanto deve-se incentivar cada
vez mais o acesso dos alunos no sistema.
Dessa forma, a partir da análise das regras de classificação encontradas é possível
verificar padrões referentes ao processo de aprendizado relacionado ao comportamento dos
alunos que podem ser aproveitados pelos gestores do domínio da aplicação.
61
5.2 ANÁLISE COMPARATIVA ENTRE UM MODELO DE CLASSIFI CAÇÃO
DE ÁRVORE DE DECISÃO E UM DE REDE BAYESIANA
Após a aplicação do processo de KDD, resolveu-se comparar dois modelos de
classificação, um de Rede Bayesiana e outro de Árvore de Decisão, com o objetivo de saber
se eles diferem ou não em relação à proporção de acertos nas predições das classes
correspondentes aos valores do atributo Acima_media_Pontos_SQL_Avaliação, que
determina se o usuários está, ou não, acima da média de pontos em questões de programação
SQL nas avaliações. Os Modelos de classificação comparados são:
i. A Rede Bayesiana (RB)
A Figura 5.12 apresenta a rede bayesiana para análise dos usuários que estão, ou não,
acima da média de pontos em questões de programação SQL nas avaliações. Nela, observa-se
que o atributo meta Acima_Media_Pontos_Sql_Avalacao (1) tem dependência direta dos
atributos Acima_Media_Pontos_Sql_Exercicios (2) e Trabalhou_Em_Equipe (3).
Figura 5.12 Rede Bayesiana para Análise dos Usuários que estão, ou não, Acima da Média de Pontos
em Questões de Programação SQL nas Avaliações (Atributo Acima_media_Pontos_SQL_Avaliação).
62
ii. A Árvore de Decisão (AD)
A Figura 5.13 apresenta a Árvore de Decisão na forma de Regras de Classificação para
análise dos usuários que estão, ou não, acima da média de pontos em questões de
programação SQL nas avaliações. Nela, observa-se que o atributo
“acima_media_pontos_sql_exercicios”, identificado por (1) e (2), é o mais representativo para
classificação dos usuários que estão, ou não, acima da média de pontos em questões de
programação SQL nas avaliações, por ser o nó raiz da árvore de decisão.
Figura 5.13 Árvore de Decisão na forma de Regras de Classificação para Análise dos Usuários que
estão, ou não, Acima da Média de Pontos em Questões de Programação SQL nas Avaliações (Atributo
Acima_media_Pontos_SQL_Avaliação).
Ambos os classificadores foram testados utilizando-se o método de validação cruzada 10-
Fold-Cross-Validation para obtenção da proporção de acertos (acurácia) dos referidos
classificadores.
Para realizar a referida comparação foi utilizado o Teste de Hipótese de Proporção
descrito no Anexo A. Neste caso, o pesquisador observa as proporções em dois grupos
distintos e as compara com o objetivo de saber se os grupos diferem ou não em relação à
resposta de interesse, sendo que, neste caso, o número de observações é o mesmo nas duas
amostras.
63
Dado o Teste de Hipótese:
• H0: p1 - p2 = 0 (O modelo de RB (p1) é igual ao modelo de AD (p2))
• H1: p1 - p2 ≠ 0 (O modelo de RB (p1) difere do modelo de AD (p2))
A Tabela 5.1 apresenta os resultados do teste para a diferença de duas proporções, ao
nível de significância α = 5%. A partir dela, pode-se verificar que o valor de p é 0,904, maior
que α = 0,05, ou seja, não há evidências para rejeitar a hipótese nula (H0: p1 - p2 = 0). Dessa
maneira, a proporção de acertos no teste de redes bayesiana não é diferente da proporção de
acertos do teste de árvore de decisão.
Tabela 5.1 Resultados do Teste para a Diferença de Duas Proporções, ao nível de significância α =
0,05 ou 5%.
Modelos Acertos Total % Acertos p (RB) 279 319 87,46 0,904 (AD) 280 319 87,77
RB – Modelo de Rede Bayesiana; AD – Modelo de Árvore de Decisão.
64
6. CONCLUSÃO
Neste capitulo são mostradas as considerações finais a respeito do trabalho desenvolvido,
bem como, são apresentadas propostas para trabalhos futuros nessa área.
6.1. CONSIDERAÇÕES FINAIS
A avaliação e o entendimento do processo de ensino-aprendizado é um tópico de pesquisa
importante devido ao crescente número de ambientes virtuais de aprendizagem disponíveis,
como o LabSQL. Neste estudo, as técnicas de Mineração de Dados mostraram-se eficientes
para analisar o comportamento dos estudantes e professores em um curso oferecido a partir de
um ambiente virtual de aprendizagem, como observado nos resultados obtidos.
Com as Redes Bayesianas permitiram-se contabilizar relações de dependência entre as
ações envolvidas no processo de aprendizagem e o desempenho obtido pelos alunos. E a partir
árvores de decisão permitiu-se perceber padrões referentes ao processo de aprendizado
relacionado ao comportamento dos alunos, levando em consideração as regras que são mais
relevantes, além de serem compreensíveis para a maioria das pessoas.
Além disso, as técnicas Árvores de Decisão e Redes Bayesianas demonstraram-se
equivalentes em relação à proporção de acertos nos testes realizados, de modo que, ambos os
modelos podem ser utilizados para discriminar o perfil dos estudantes e professores que
utilizam o ambiente LabSQL.
Assim, a partir da combinação das tecnologias de Mineração de Dados com ambientes de
EaD, é possível analisar e obter conclusões sobre as ações praticadas pelos usuários em
relação ao seu desempenho e aprendizado, beneficiando os envolvidos com a utilização e
evolução de ambientes virtuais de aprendizagem.
Dessa forma, dentre outros resultados, nota-se que os usuários que se inscrevem mais
tarde no ambiente demonstram deficiências na utilização dos recursos do ambiente LabSQL,
uma vez que, proporcionalmente, obtiveram uma menor pontuação na resolução das
atividades do ambiente LabSQL e conseqüentemente um desempenho inferior aos demais.
65
Além disso, observa-se que determinados coordenadores de turma promovem uma maior
utilização do ambiente em relação à quantidade de acessos dos alunos do que outros
coordenadores. Ainda é possível perceber diferenças de atitudes dos coordenadores em
relação à utilização dos recursos do ambiente durante o processo de aprendizado, como o
nível de dificuldade dos trabalhos oferecidos aos alunos e a opção de organizar trabalho em
equipe.
6.2. TRABALHOS FUTUROS
Como sugestão para trabalhos futuros, pode-se citar:
i. A integração das técnicas de Mineração de Dados avaliadas neste trabalho no
ambiente LabSQL, a fim de obter os resultados da aplicação dessas técnicas de
forma automática a partir do ambiente.
ii. Construir um data warehouse, um repositório de dados, com os dados do ambiente
LabSQL, a fim de ser utilizado para armazenar informações relativas aos atributos
presentes no banco de dados que expressem o comportamento dos usuários,
favorecendo a aplicação das técnicas de descoberta de conhecimento em base de
dados.
iii. Aplicação de outras técnicas de Mineração de Dados, como Regras de Associação,
Redes Neurais e Clusterização, sobre a base de dados do ambiente LabSQL.
66
REFERÊNCIAS
ÁRVORE DE DECISÃO . Disponível em: <http://www.maxwell.lambda.ele.puc-rio.br/cgi-bin/PRG_0599.EXE/3710_4.PDF?NrOcoSis=6894&CdLinPrg=pt>. Acesso em: 10 dez. 2007.
ATTRIBUTE-RELATION File Format (ARFF). Disponível em: <http://www.cs.waikato.ac.nz/~ml/weka/arff.html>. Acesso em: 02 nov. 2008.
BATISTA, G. E. A. P. A. Pré-Processamento de Dados em Aprendizado de Máquina Supervisionado. 2003. 232 f. Tese (Doutorado em Ciências de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003. Disponível em: < http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06102003-160219/>. Acesso em: 02 nov. 2008.
BAYESWARE. Bayesware Discoverer: User Manual. 2000. 113 p.
BAYESWARE Limited. Bayesware Discoverer, Disponível em: <http://www.bayesware.com>. Acesso em: 10 dez. 2008.
BERRY, M. J. A.; LINOFF, G. Data Mining Tehniques – for marketing, sales, and customer support. United States: Wiley Computer Publishing, 1997.
BERSON, A.; SMITH, S.J., Data Warehousing, Data Mining and OLAP. EUA. Mac-Graw-Hill. 1997.
BUSSAB, W. O., MORETIN, P. A. Estatística Básica. 4. ed. São Paulo: Atual, 1987.
CARVALHO, D. R. Data Minig através de Introdução de Regras e Algoritmos Genéticos, 1999. f Dissertação (Mestrado em Informática Aplicada) - Pontifícia Universidade Católica do Paraná - PUCPR, Curitiba, 1999.
CARVALHO, L. A. V. Datamining: a mineração de dados no marketing, medicina, economia, engenharia e administração. São Paulo: Érica, 2001.
COOLEY, R.; MOBASHER, B; SRIVASTAVA, J. Data Preparation for Mining World Wide Web Browsing Patterns. Journal of Knowledge and Information Systems, (1) 1, 1999.
DIAS, M. M.; SILVA FILHO, L. A.; LINO, A. D. P.; FAVERO, E. L.; RAMOS, E. M. L. S.. Aplicação de Técnicas de Mineração de Dados no Processo de
67
Aprendizagem na Educação a Distância. In: SIMPÓSIO BRASILEIRO DE INFORMÁTICA NA EDUCAÇÃO (SBIE 2008), 19º, 2008, Fortaleza - CE. Anais. Porto Alegre - RS: Sociedade Brasileira de Computação, 2008. p. 105-114.
DIAS, M. M.; SILVA FILHO, L. A. Acompanhamento do Aprendizado na Educação a Distância a partir da Aplicação de Técnicas de Mineração de Dados. In: CONGRESSO NACIONAL DE MATEMÁTICA APLICADA E COMPUTACIONAL, 31º, 2008, Belém.
DILLY, R. Data Mining Student Notes, v. 2.0. Queen’s University of Belfast Parallel Computer Centre. 1995. Disponível em: < http://www.pcc.qub.ac.uk/tec/courses/datamining/stu_notes/dm_book_1.html>. Acesso em: 19 dez. 2008.
ESCOVAR, E. L. G. Algoritmo SSDM para a mineração de dados semanticamente similares. 2004. 87 f. Dissertação (Mestrado em Ciência da Computação) – Centro de Ciências Exatas e de Tecnologia, Universidade Federal de São Carlos, São Carlos, 2004.
FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery: An overview. In: Advances in Knowledge Discovery and Data Mining, AAAI Press / The MIT Press, MIT, Cambridge, Massachusetts, and London, England, 1996, p.1-34.
FAYYAD, U. M. Multi-interval discretization of continuous valued atributes for classification learning. In: INT. JOINT CONF., 13ª, 1993, Alemanha.
GNU - The GNU General Public License - GNU Project - Free Software Foundation (FSF). Disponível em: <http://www.gnu.org/copyleft/gpl.html>. Acesso em: 06 nov. 2008.
GOEBEL, M.; GRUENWALD, L. A survey of data mining and knowledge discovery software tools. ACM SIGKDD, San Diego, v. 1, n. 1, p. 20-33, 1999.
GOLDSCHMIDT, R. R. ; PASSOS, E. P. L. Data Mining: Um Guia Prático - Conceitos, Técnicas, Ferramentas, Orientações e Aplicações. Rio de Janeiro: Editora Campus, 2005. v. 1. 250 p.
KOCK JR., N. F.; MCQUEEN, R. J.; BAKER, M. Learning and process improvement in knowledge organisations: A critical analysis of four contemporary myths. The Learning Organization, 1996. p. 31–40.
LINO, A. D. P.; SILVA, A. S.; FAVERO, E. L.; BRITO, S. R.; HARB, M. P. A. A. Avaliação automática de consultas SQL em ambiente virtual de ensino-
68
aprendizagem. In: CONFERÊNCIA IBÉRICA DE SISTEMAS E TECNOLOGIAS DE INFORMAÇÃO, 2ª, 2007, Porto.
LINO, A. P. LabSQL: Laboratório de Ensino de SQL. 2007. 74 f. Dissertação (Mestrado em Engenharia Elétrica) - Programa de Pós-Graduação em Engenharia Elétrica, Universidade Federal do Pará, Belém, 2007.
LOLLINI, P. Didática e computadores: quando e como a informática na escola. São Paulo: Loyola, 1991.
LOPES, C. C; SCHIEL, U. Uma Estratégia para Aplicar Mineração de Dados no Acompanhamento do Aprendizado na EaD. Seminário de Computação, 13°, Blumenau, 2004.
LUNA, J. E. O. Algoritmos EM para Aprendizagem de Redes Bayesianas a partir de Dados Incompletos. 2004. 120 f. Dissertação (Mestrado em Ciência da Computação) - Departamento de Computação e Estatística, Universidade Federal de Mato Grosso do Sul - UFMS, Campo Grande, 2004. Disponível em: <http://www.dct.ufms.br/~mzanusso/producao/EM_BayeNetwork.pdf>. Acesso em: 15 dez. 2008.
MACHADO, L. S.; BECKER, K. O Uso da Mineração de Dados na Web Aplicado a um Ambiente de Ensino a Distância. In: WORKSHOP DE TESES E DISSERTAÇÕES EM BANCO DE DADOS, 1°. SIMPÓSIO BRASILEIRO DE BANCO DE DADOS, 19º, 2002, Gramado.
MARTINHAGO, S. Descoberta de Conhecimento sobre o Processo Seletivo da UFPR. Dissertação (Mestrado em Métodos Numéricos em Engenharia) – Universidade Federal do Paraná, Curitiba. 2005.
MARTINS, J. G.; CAMPESTRINI, B. B. Ambiente virtual de aprendizagem favorecendo o processo ensino-aprendizagem em disciplinas na modalidade de educação a distância no ensino superior. Universidade do Vale do Itajaí, 2004. Disponível em: <http://www.abed.org.br/congresso2004/por/htm/072-TC-C2.htm>. Acesso em: 10 dez. 2008.
MIZZARO, S. Relevance: The Whole History. Journal of the American Society for Information Science, New York: John Wiley & Sons. v.48, n.9, p.810-832. 1997.
MOODLE - A free, open source course management system for online learning. Disponível em: <http://moodle.org>. Acesso em: 06 nov .2008.
OEIRAS, J. Y. Y. Design de ferramentas de comunicação para colaboração em ambientes de educação a distância. 2005. 174 f. Tese (Doutor em Ciência da
69
Computação) - Instituto de Computação, Universidade Estadual de Campinas, Campinas, 2005.
OVERVIEW DATA MINING: Curso de Inteligência Tecnológica - IME, Rio de Janeiro, 2005. 6 p.
QUILAN, J. R. Introduction of decision trees, Machine Learning, vol. 1 , pp.81- 106, 1986.
REFAAT, M. Data Preparation for Data Mining Usisg SAS. São Francisco: Elsevier, 2007.
REZENDE, S. O.; PUGLIESI, J. B.; MELANDA, E. A.; PAULA, M. F. Mineração de dados. In S. O. Rezende (Ed.), Sistemas Inteligentes – Fundamentos e Aplicações, Editora Manole, 2003.
ROCHA, H. V.; SILVA, C. G.; FREIRE, F. M. P. et al. Projeto TelEduc: Pesquisa e Desenvolvimento de Tecnologia para Educação a Distância. Trabalho vencedor da 1ª colocação no Prêmio ABED 2002 (categoria pesquisa). 2002.
RUSSEL, S. J.; NORVIG, P. Artificial Intelligence : A Modern Approach. Upper Saddle River, New Jersey: Prentice Hall, 1995.
RUSSELL, S. J.; NORVIG, P. Inteligência Artificial , 2ª Edição, Rio de Janeiro: Editora Elsevier, 2004.
SOUZA, E. P. Avaliação Formativa em Educação a Distância via Web. In: CONGRESSO INTERNACIONAL DE EDUCAÇÃO A DISTÂNCIA, 13º, Curitiba, 2007.
WANG, L.; MEINEL, C. Detecting the Changes of Web Students' Learning Interest. IEEE/WIC/ACM WI, 6º, 2007, Silicon Valley. Proceedings… Silicon Valley: IEEE Press, 2007, pp. 816 - 819.
WEKA. . Data Mining Software in Java. Disponível em <http://www.cs.waikato.ac.nz/ml/weka>. 2008. Acesso: 10 dez. 2008.
WIVES, L. K. Um Estudo sobre Agrupamento de Documentos Textuais em Processamento de Informações não Estruturadas Usando Técnicas de "Clustering" . Porto Alegre, 1998. 102p. Dissertação (Mestrado em Ciência da Computação) – PPGC, UFRGS, 1998.
70
ZAIANE, O.; LUO, J. Towards Evaluating Learners’ Behaviour in a Web-Based Distance Learning Environment. In: INTERNATIONAL CONFERENCE ON ADVANCED LEARNING TECHNOLOGIES, Madison , 2001.
71
APÊNDICE A – DESCRIÇÃO COMPLETA DOS 59
ATRIBUTOS TRABALHADOS
Classificação Nome do atributo Descrição
1 - AP sexo_usuario Sexo do usuário (masculino ou feminino)
2 - AP nome_curso Código do curso (Ciência da Computação, Sistema de Informação ou Especialização em Banco de Dados)
3 - AP nome_tipo_curso Código do tipo de curso (graduação ou especialização)
4 - AP cod_turma Código da turma (11 valores)
5 - AP cod_usuar_coord_turma Código do coordenador da turma (2 valores)
6 – AP media_pontos_alternativas_avaliacao Média de pontos em questões de múltipla escolha nas avaliações (valor continuo)
6.1 - AD acima_media_pontos_alternativas_avaliacao Ficou acima da média de pontos em questões de múltipla escolha nas avaliações (sim ou não)
7 – AP media_pontos_alternativas_exercicios Média de pontos em questões de múltipla escolha nos exercícios (valor continuo)
7.1 – AD acima_media_pontos_alternativas_exercicios Ficou acima da média de pontos em questões de múltipla escolha nos exercícios (sim ou não)
8 – AP media_total_pontos_alternativas Média de pontos em questões de múltipla escolha nos exercícios e avaliações (valor continuo)
8.1 – AD acima_media_total_pontos_alternativas Ficou acima da média de pontos em questões de múltipla escolha nos exercícios e avaliações (sim ou não)
9 – AP qtd_problemas_alternativas_avaliacao Quantidade de problemas de múltipla escolha resolvidos corretamente nas avaliações (valor continuo)
72
9.1 – AD acima_qtd_problemas_alternativas_avaliacao
Ficou acima da média de problemas de múltipla escolha resolvidos corretamente nas avaliações (sim ou não)
10 – AP qtd_problemas_alternativas_exercicios Quantidade de problemas de múltipla escolha resolvidos corretamente nos exercícios (valor continuo)
10.1 – AD acima_qtd_problemas_alternativas_exercicios
Ficou acima da média de problemas de múltipla escolha resolvidos corretamente nos exercícios (sim ou não)
11 – AP qtd_total_problemas_alternativas Quantidade de problemas de múltipla escolha resolvidos corretamente nos exercícios e avaliações (valor continuo)
11.1 – AD acima_qtd_total_problemas_alternativas
Ficou acima da média de problemas de múltipla escolha resolvidos corretamente nos exercícios e avaliações (sim ou não)
12 – AP media_pontos_discursivas_avaliacao Média de pontos em questões discursivas nas avaliações (valor continuo)
12.1 – AD acima_media_pontos_discursivas_avaliacao Ficou acima da média de pontos em questões discursivas nas avaliações (sim ou não)
13 – AP media_pontos_discursivas_exercicios Média de pontos em questões discursivas nos exercícios (valor continuo)
13.1 – AD acima_media_pontos_discursivas_exercicios Ficou acima da média de pontos em questões discursivas nos exercícios (sim ou não)
14 – AP media_total_pontos_discursivas Média de pontos em questões discursivas nos exercícios e avaliações (valor continuo)
14.1 – AD acima_media_total_pontos_discursivas Ficou acima da média de pontos em questões discursivas nos exercícios e avaliações (sim ou não)
15 – AP qtd_problemas_discursivas_avaliacao Quantidade de problemas discursivos resolvidos corretamente nas avaliações (valor continuo)
15.1 – AD acima_qtd_problemas_discursivas_avaliacao Ficou acima da média de problemas discursivos resolvidos corretamente nas avaliações (sim ou não)
16 – AP qtd_problemas_discursivas_exercicios Quantidade de problemas discursivos resolvidos corretamente nos exercícios (valor continuo)
16.1 – AD acima_qtd_problemas_discursivas_exercicios Ficou acima da média de problemas discursos resolvidos corretamente nos exercícios (sim ou não)
73
17 – AP qtd_total_problemas_discursivas Quantidade de problemas discursivos resolvidos corretamente nos exercícios e avaliações (valor continuo)
17.1 – AD acima_qtd_total_problemas_discursivas Ficou acima da média de problemas discursivas resolvidos corretamente nos exercícios e avaliações (sim ou não)
18 – AP media_pontos_sql_avaliacao Média de pontos de programação SQL nas avaliações (valor continuo)
18.1 – AD acima_media_pontos_sql_avaliacao Ficou acima da média de pontos em questões de programação SQL nas avaliações (sim ou não)
19 – AP media_pontos_sql_exercicios Média de pontos de programação SQL nos exercícios (valor continuo)
19.1 – AD acima_media_pontos_sql_exercicios Ficou acima da média de pontos em questões de programação SQL nos exercícios (sim ou não)
20 – AP media_total_pontos_sql Média de pontos de programação SQL nos exercícios e avaliações (valor continuo)
20.1 – AD acima_media_total_pontos_sql Ficou acima da média de pontos em questões de programação SQL nos exercícios e avaliações (sim ou não)
21 – AP media_de_tentativas_sql_avaliacao Média de tentativas de programação SQL nas avaliações (valor continuo)
21.1 – AD acima_media_de_tentativas_sql_avaliacao Ficou acima da média de tentativas de programação SQL nas avaliações (sim ou não)
22 – AP media_de_tentativas_sql_exercicios Média de tentativas de programação SQL nos exercícios (valor continuo)
22.1 – AD acima_media_de_tentativas_sql_exercicios Ficou acima da média de tentativas de programação SQL nos exercícios (sim ou não)
23 – AP media_total_de_tentativas_sql Média de tentativas de programação SQL nos exercícios e avaliações (valor continuo)
23.1 – AD acima_media_total_de_tentativas_sql Ficou acima da média de tentativas de programação SQL nos exercícios e avaliações (sim ou não)
24 – AP qtd_problema_sql_avaliacao
Quantidade de problemas de programação SQL respondidos corretamente nas avaliações (valor continuo)
24.1 – AD acima_qtd_problema_sql_avaliacao
Ficou acima da média de problemas de programação SQL resolvidos corretamente nas avaliações (sim ou não)
74
25 – AP qtd_problema_sql_exercicios
Quantidade de problemas de programação SQL respondidos corretamente nos exercícios (valor continuo)
25.1 – AD acima_qtd_problema_sql_exercicios
Ficou acima da média de problemas de programação SQL resolvidos corretamente nos exercícios (sim ou não)
26 – AP qtd_total_problema_sql
Quantidade de problemas de programação SQL respondidos corretamente nos exercícios e avaliações (valor continuo)
26.1 – AD acima_qtd_total_problema_sql
Ficou acima da média de problemas de programação SQL resolvidos corretamente nos exercícios e avaliações (sim ou não)
27 – AP trabalhou_em_equipe Trabalhou em equipe (sim ou não)
28 – AP usou_agenda Usou agenda de anotações do sistema (sim ou não)
29 – AP qtd_acessos Quantidade de acessos (valor continuo)
29.1 – AD acima_qtd_acessos Ficou acima da média de acessos ao ambiente (sim ou não)
30 – AP qtd_acessos_material_de_apoio Quantidade de acessos ao material de apoio (valor continuo)
30.1 – AD acima_qtd_acessos_material_de_apoio Ficou acima da média de acessos ao material de apoio disponível no ambiente (sim ou não)
31 – AP qtd_acessos_sql_livre Quantidade de acessos ao SQL-livre (valor continuo)
31.1 – AD acima_qtd_acessos_sql_livre Ficou acima da média de acessos ao SQL-livre (sim ou não)
32 – AP qtd_acoes Quantidade de ações executadas pelo usuário no LabSQL (valor continuo)
32.1 - AD acima_qtd_acoes Ficou acima da média do total de ações executadas no ambiente (sim ou não)
33 – AP nivel_dificuldade_problemasResolvidos Média do nível de dificuldades dos problemas resolvidos corretamente (valor continuo)
34 – AP demora _para_inscricao_turma O tempo que o usuário levou para se inscrever na turma após o início de inscrição (em dias)
AP – Atributo Primário obtido durante a fase de Seleção dos Dados; AD – Atributo Derivado obtido a partir de um Atributo Primário durante a fase de Transformação dos Dados. Nota: Para os Atributos Derivados, o valor de média que serve de referencia para avaliar o desempenho do aluno (acima ou abaixo) corresponde ao valor da média da turma do respectivo aluno.
75
APÊNDICE B – ANÁLISE DESCRITIVA DOS DADOS
COLETADOS NO LABSQL
B.1. GÊNERO DO USUÁRIO
A Tabela B.1.1 apresenta a quantidade e o percentual de usuários que utilizaram o
Ambiente LabSQL, no ano de 2007 e no 1º semestre de 2008, por gênero. Nela, verifica-se
que a maioria dos usuários é do gênero masculino, com 80,25% dos usuários. A Figura B.1.1
apresenta graficamente este percentual.
Tabela B.1.1 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no Ano de 2007 e no 1º
Semestre de 2008, por Gênero.
Gênero Quantidade Percentual Feminino 63 19,75 Masculino 256 80,25
Total 319 100,00
19,75%Feminino
80,25%Masculino
Figura B.1.1 Percentual de Usuários que Utilizaram o LabSQL, no Ano de 2007 e no 1º Semestre de
2008, por Gênero.
76
B.2. CURSO
A Tabela B.2.1 apresenta a quantidade e o percentual de usuários que utilizaram o
Ambiente LabSQL, no ano de 2007 e no 1º semestre de 2008, por tipo de curso. Nela,
verifica-se que a maioria dos usuários é da graduação, com 56,43% e 43,57% são da
especialização, dentre os que fazem graduação 58,89% fazem sistema de informação e
41,11% fazem ciência da computação. Observa-se também que, 100,00% dos que fazem
especialização fazem especialização em banco de dados.
Tabela B.2.1 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no Ano de 2007 e no 1º
Semestre de 2008, por Curso.
Curso Total
Qtd %
Ciência da Computação 74 23,20
Especialização em Bancos de Dados 139 43,57
Sistemas de Informação 106 33,23
Total 319 100,00
77
B.3. IDENTIFICAÇÃO DA TURMA
A Tabela B.3.1 apresenta a quantidade e o percentual de usuários que utilizaram o
Ambiente LabSQL, no ano de 2007 e no 1º semestre de 2008, por identificação da turma.
Nela, verifica-se que a maior parte dos usuários é da turma 7, com 11,59%, seguido da turma
5, com 11,29% dos usuários.
Tabela B.3.1 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no Ano de 2007 e no 1º
Semestre de 2008, por Identificação da Turma.
Turma Quantidade %
1 32 10,03
2 25 7,84
3 33 10,34
4 34 10,66
5 36 11,29
6 25 7,84
7 37 11,59
8 11 3,45
9 17 5,33
10 34 10,66
11 35 10,97
Total 319 100,00
78
B.4. ACESSO AO AMBIENTE LABSQL
A Tabela B.4.1 apresenta a média de acesso dos usuários que utilizaram o Ambiente
LabSQL, no ano de 2007 e no 1º semestre de 2008, por identificação da turma. Nela, verifica-
se que os usuários da turma 6 realizaram em média 74 acessos, seguido da turma 3 e 7 que
realizaram em média 65 e 46 acessos, respectivamente.
Tabela B.4.1 Média de Acesso dos Usuários que Utilizaram o LabSQL, no Ano de 2007 e no 1º
Semestre de 2008, por Identificação da Turma.
Turma Média 1 43
2 22
3 65
4 42
5 39
6 74
7 46
8 9
9 39
10 36
11 36
B.5. ACESSO AO SQL-LIVRE
A Tabela B.5.1 apresenta a quantidade e o percentual de usuários que utilizaram o
Ambiente LabSQL, no ano de 2007 e no 1º semestre de 2008, por acesso ao SQL-livre. Nela,
observa-se que a maioria dos usuários acessou ao SQL-livre, com 96,24% dos usuários. A
Figura B.5.1 apresenta graficamente estes percentuais.
Tabela B.5.1 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no Ano de 2007 e no 1º
Semestre de 2008, por Acesso ao SQL-Livre.
Acesso ao SQL-livre Quantidade % Sim 307 96,24 Não 12 3,76
Total 319 100,00
79
96,24%
Sim
3,76%
Não
Figura B.5.1 Percentual de Usuários que Utilizaram o LabSQL, no Ano de 2007 e no 1º Semestre de
2008, por Acesso ao SQL Livre.
A Tabela B.5.2 apresenta a quantidade e o percentual de usuários que utilizaram o
Ambiente LabSQL, no ano de 2007 e no 1º semestre de 2008, por acesso ao SQL-livre e
identificação da turma. Nela, verifica-se que, a maioria dos usuários que acessaram ao SQL-
livre são da turma 5 e 11, ambos com 14,64% dos usuários, seguidos dos usuários da turma
10, com 13,81%. A Figura B.5.2 apresenta graficamente estes percentuais.
Tabela B.5.2 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no Ano de 2007 e no 1º
Semestre de 2008, por Acesso ao SQL-Livre e Identificação da Turma.
Turma Quantidade % 1 32 13,39 2 21 8,79 3 32 13,39 4 32 13,39 5 35 14,64 6 25 10,46 7 37 12,07 8 9 3,77 9 16 6,69 10 33 13,81 11 35 14,64
Total 307 100,00
80
13,39
8,79
13,39 13,39
14,64
10,46
12,07
3,77
6,69
13,8114,64
0,00
2,00
4,00
6,00
8,00
10,00
12,00
14,00
16,00
1 2 3 4 5 6 7 8 9 10 11
Turma
Percentual
Figura B.5.2 Percentual de Usuários que Utilizaram o LabSQL, no Ano de 2007 e no 1º Semestre de
2008, por Acesso ao SQL-Livre e Identificação da Turma.
A Tabela B.5.3 apresenta a quantidade e o percentual de acessos ao SQL-livre pelos
usuários que utilizaram o Ambiente LabSQL, no ano de 2007 e no 1º semestre de 2008, por
identificação da turma. Nela, verifica-se que o maior percentual de acessos é da turma 4, com
18,46%, seguido da turma 10 com 17,45% dos acessos. A Figura B.5.3 apresenta
graficamente estes percentuais.
Tabela B.5.3 Quantidade e Percentual de Acessos ao SQL-livre pelos Usuários que Utilizaram o
LabSQL, no Ano de 2007 e no 1º Semestre de 2008, por Identificação da Turma.
Turma Quantidade % 1 875 16,42 2 220 4,13 3 623 11,69 4 984 18,46 5 621 11,65 6 830 15,57 7 777 14,58 8 90 1,69 9 310 5,82 10 1245 17,45 11 557 10,45
Total 5330 100,00
81
16,42
4,13
11,69
18,46
11,65
15,5714,58
1,69
5,82
17,45
10,45
0,00
2,00
4,00
6,00
8,00
10,00
12,00
14,00
16,00
18,00
20,00
1 2 3 4 5 6 7 8 9 10 11
Turma
Percentual
Figura B.5.3 Percentual de Acessos ao SQL-Livre pelos Usuários que Utilizaram o LabSQL, no Ano
de 2007 e no 1º Semestre de 2008, por Identificação da Turma.
B.6. ACESSO AO MATERIAL DE APOIO
A Tabela B.6.1 apresenta a quantidade e o percentual de usuários que utilizaram o
Ambiente LabSQL, no ano de 2007 e no 1º semestre de 2008, por acesso ao material de
apoio. Nela, observa-se que a maioria dos usuários acessou ao material de apoio, com 76,18%
dos usuários. A Figura B.6.1 apresenta graficamente estes percentuais.
Tabela B.6.1 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no Ano de 2007 e no
1º Semestre de 2008, por Acesso ao Material de Apoio.
Acesso ao Material de Apoio Quantidade % Sim 243 76,18 Não 76 23,82
Total 319 100,00
82
76,18%
Sim
23,82%
Não
Figura B.6.1 Quantidade e Percentual de Usuários que Utilizaram o LabSQL, no Ano de 2007 e no
1º Semestre de 2008, por Acesso ao Material de Apoio.
A Tabela B.6.2 apresenta a quantidade e o percentual de usuários que utilizaram o
Ambiente LabSQL, no ano de 2007 e no 1º semestre de 2008, por acesso ao material de apoio
e identificação da turma. Nela, verifica-se que, a maioria dos usuários que acessaram ao
material de apoio são da turma 5 e 10, ambos com 13,99% dos usuários, seguidos dos
usuários da turma 7 e 11, com 13,57% e 13,17% dos usuários. A Figura B.6.2 apresenta
graficamente estes percentuais.
Tabela B.6.2 Quantidade e Percentual de Usuários que Utilizaram o Ambiente LabSQL, no Ano de
2007 e no 1º Semestre de 2008, por Acesso ao Material de Apoio e Identificação da Turma.
Turma Quantidade % 1 24 9,88 2 6 2,47 3 10 4,12 4 29 11,93 5 34 13,99 6 17 7,00 7 33 13,57 8 10 4,12 9 14 5,76 10 34 13,99 11 32 13,17
Total 243 100,00
83
9,88
2,47
4,12
11,93
13,99
7,00
13,57
4,12
5,76
13,9913,17
0,00
2,00
4,00
6,00
8,00
10,00
12,00
14,00
16,00
1 2 3 4 5 6 7 8 9 10 11
Turma
Percentual
Figura B.6.2 Percentual de Usuários que Utilizaram o Ambiente LabSQL, no Ano de 2007 e no 1º
Semestre de 2008, por Acesso ao Material de Apoio e Identificação da Turma.
A Tabela B.6.3 apresenta a quantidade e o percentual de acessos ao material de apoio
pelos usuários que utilizaram o Ambiente LabSQL, no ano de 2007 e no 1º semestre de 2008,
por identificação da turma. Nela, verifica-se que o maior percentual de acessos são turma 10,
com 37,30%, seguido da turma 4 com 25,32% dos acessos. A Figura B.6.3 apresenta
graficamente estes percentuais.
Tabela B.6.3 Quantidade e Percentual de Acessos ao Material de Apoio pelos Usuários que
Utilizaram o Ambiente LabSQL, no Ano de 2007 e no 1º Semestre de 2008, por Identificação da Turma.
Turma Quantidade % 1 132 11,98 2 7 0,64 3 45 4,08 4 279 25,32 5 214 19,42 6 48 4,36 7 253 22,96 8 30 2,72 9 94 8,53 10 411 37,30 11 133 12,07
Total 1102 100,00
84
11,98
0,64
4,08
25,32
19,42
4,36
22,96
2,72
8,53
37,30
12,07
0,00
5,00
10,00
15,00
20,00
25,00
30,00
35,00
40,00
1 2 3 4 5 6 7 8 9 10 11
Turma
Percentual
Figura B.6.3 Percentual de Acessos ao Material de Apoio pelos Usuários que Utilizaram o Ambiente
LabSQL, no Ano de 2007 e no 1º Semestre de 2008, por Identificação da Turma.
85
APÊNDICE C – MINERAÇÃO DE DADOS: PASSO A PASSO
NA FERRAMENTA BAYESWARE DISCOVERER
Nesta Seção, são mostradas as etapas realizadas neste estudo de caso na ferramenta
Bayesware Discoverer para a geração dos resultados.
Inicialmente, carrega-se o arquivo labsql.txt (no formato separado por tabulação) a partir
da opção Load database no menu Data, localizado na barra de menu do Bayesware
Discoverer, sendo mostrada a tela como observado na Figura C.1.
Figura C.1 Tela Inicial do Bayesware Discoverer.
A Figura C.2 mostra a janela do Bayesware Discoverer com o banco de dados carregado.
A partir dela, pode-se observar:
1. O Ícone Generate para inicializar a geração da Rede Bayesiana.
2. A Lista de descrição dos atributos que são utilizados para a construção da Rede
Bayesiana.
86
3. A Visualização de todos os atributos do banco de dados carregado no Bayesware
Discoverer que são utilizados para a construção da Rede Bayesiana.
Figura C.2 Visualização do Banco de Dados Carregado no Bayesware Discoverer.
Antes de gerar a Rede Bayesiana, pode-se realizar, opcionalmente, a discretização de
atributos contínuos. A Figura C.3 mostra a opção que o Bayesware Discoverer disponibiliza
para a discretização automática de atributos contínuos. Os parâmetros de discretização podem
ser modificados.
87
Figura C.3 Opção para Discretização de Atributos Contínuos.
Em seguida, pressiona-se o ícone Generate para a construção da Rede Bayesiana. A
Figura C.4 mostra a Rede Bayesiana gerada. Pode-se visualizar, ainda, a tabela de
probabilidade de cada um dos atributos da rede bayesiana gerada.
88
Figura C.4 Rede Bayesiana Gerada no Bayesware Discoverer.
89
APÊNDICE D – MINERAÇÃO DE DADOS: PASSO A PASSO
NA FERRAMENTA WEKA
Nesta Seção, são mostradas as etapas realizadas neste estudo de caso na ferramenta
WEKA para a geração dos resultados.
Inicialmente, carrega-se o arquivo labsql.ARFF a partir do modo Explorer, que é a
principal interface do WEKA para a mineração de dados, sendo mostrada a tela como
observado na Figura D.1.
Figura D.1 Tela do Modo Explorer no WEKA.
90
A partir da Figura D.1 pode-se observar:
1. As tarefas de MD disponíveis: classificação, Clusterização e associação.
2. O número de instâncias de cada atributo presente na base de dados.
3. A quantidade de registros (instâncias) trabalhados.
4. A quantidade de atributos presentes na base de dados.
5. A listagem de todos os atributos presentes na base de dados.
6. Um histograma com informações sobre a distribuição dos exemplos para o atributo
selecionado.
Após carregar o arquivo, selecionou-se a aba Classify (classificação), tela onde é
realizada a escolha do algoritmo de classificação desejado. Conforme citado anteriormente,
utilizou-se o algoritmo J48 que gera árvore de decisão. Pode-se ver a partir da Figura D.2 que
o WEKA possui outros diversos algoritmos de classificação.
Figura D.2 Algoritmos Disponíveis no WEKA.
Para a execução deste algoritmo, alguns parâmetros podem ser configurados, conforme
observado na Figura D.3. Pode-se perceber que a partir desta ferramenta é possível a escolha
91
do método de validação que se deseja aplicar. Neste caso, foi escolhido o Cross-validation
(validação cruzada) (1), onde os dados de treinamento são misturados e reamostrados para
classificação com a árvore criada, a experiência é repetida 10 vezes.
Figura D.3 Execução do Algoritmo J48 no WEKA
Pode-se selecionar ainda o atributo meta escolhido (2), neste caso, selecionou-se o
atributo cod_usuar_coord_turma. Após a execução do algoritmo, são exibidas as regras de
classificação geradas a partir dos parâmetros selecionados (3).
92
ANEXO A – METODOLOGIA PARA O TESTE DE HIPÓTESES
PARA PROPORÇÕES
Definição: é uma regra de decisão utilizada para aceitar ou rejeitar uma hipótese
estatística com base em elementos amostrais. Nesse teste, os dados se apresentam na forma de
porcentagem (ou proporção) de elementos com uma determinada característica, que será
testada em relação à porcentagem alegada para a população (BUSSAB e MORETIN, 1987).
Neste trabalho, as proporções são as porcentagens de predições corretas feitas pelos modelos
de classificação.
Hipótese Nula -> H0: p = p0
Hipótese Alternativa -> H1: p ≠ p0
onde: p é a proporção para a primeira população e p0 é a proporção para a segunda população.
Teste estatístico: A Equação A.1 será utilizada para o cálculo do teste estatístico, Z.
2
22
1
11
021
)ˆ1(ˆ)ˆ1(ˆ
)ˆˆ(
n
PP
n
PP
dPPZ
−+
−
−−= ,
(A.1)
onde 0d = diferença das hipóteses; 1̂P e 2P̂ = estimativas para as proporções populacionais;
1n e 2n = número de tentativas.
Recommended