Upload
truongdan
View
217
Download
0
Embed Size (px)
Citation preview
Adriano Rafael Rodrigues Faria Maia
Web Intelligence no Ensino Superior
Dissertação de Mestrado
Mestrado em Engenharia e Gestão de Sistemas de
Informação
Trabalho efetuado sob a orientação do:
Professor Doutor Carlos Filipe Portela
Professor Doutor Manuel Filipe Vieira Torres dos
Santos
Fevereiro de 2018
RESUMO
Atualmente, os dados informacionais têm-se tornado cada vez mais uma ferramenta
importante para qualquer tipo de organização, que tenha como objetivo evoluir o seu
negócio. No setor da Educação, os dados têm um propósito ligeiramente diferente de outros
setores, que têm com objetivo principal aumentar o seu lucro. Na área da Educação aos
dados informacionais são usados, por exemplo, para prever e/ou prevenir retenção, prever a
performance dos estudantes, entre outros. De acordo com alguns estudos, uma imensa
quantidade instituições educacionais, têm, ultimamente, observado um aumento,
significativo, do número de alunos. Em adição a isto, o uso de aplicações baseadas em web,
tais como, “Blackboard” e o “Moodle”, vieram mudar a forma como aprendemos e/ou
ensinamos e levaram a que houvesse uma maior acumulação de dados armazenados em
repositórios web. Com o objetivo de tornar estes dados úteis para o processo de tomada de
decisão, uma área de pesquisa científica, Web Intelligence (WI), definida como um conjunto
de processos e métodos computacionais, que fazem uso da inteligência artificial (IA) e das
tecnologias de informação (TI), capaz de transformar dados em conhecimento, foi criada.
No setor da Educação, esta área científica, tem como principais objetivos a melhoria dos
resultados dos estudantes e das instituições de ensino. Mesmo assim, tendo estes objetivos
e esta vasta informação, a aplicação de técnicas de WI, na Educação, é quase nula. A falta de
fundos e profissionais nesta área, representam os maiores obstáculos à implementação
deste tipo de sistemas. Baseado nesta assunção, esta dissertação aponta para o
desenvolvimento de um artefacto capaz de suportar a tomada de decisão na educação, mais
especificamente na “Educação Superior”. A base deste trabalho, irão ser dados reias,
extraídos em sala de aula, através do uso de uma aplicação de suporte ao ensino, de seu
nome “ioEduc”. É expectável o desenvolvimento de um protótipo Data Warehouse (DW),
focado no processo de extração, transformação e carregamento de dados e também uma
plataforma onde serão analisados os dados em dashboards interativos. No decorrer deste
documento é apresentada uma contextualização do tema, uma breve descrição dos
objetivos e dos resultados esperados. Os principais conceitos são também explicados, bem
como as metodologias adotadas e todo o planeamento.
Keywords: Web Intelligence, Data Warehouse, ETL, Business Intelligence, Higher Education.
ABSTRACT
Currently data has become more and more a highly important tool for any type of
organization, to develop their business. In the Education sector, data has a slightly different
purpose from others that have as their main purpose to increase their business profit. In the
Education area data is used, for example, to prevent retention, to predict student’s
performance and others. According to some studies, an extremely amount teaching
institutions have lately received a huge number of students. In addition, the usage of web-
apps such as “Blackboard” and “Moodle”, has been changing the way we learn and teach,
and has led to a vast accumulation of data in web repositories. To make this data useful for
decision making, an area of scientific research, Web Intelligence(WI), defined as a set of
computer processes and methods, which makes use of artificial intelligence and information
technology, capable of transforming web data into knowledge, was invented. In the
Education sector, this scientific area has the main purposes of improving the students’
results and the teaching institution as well. Nevertheless, the application of Web Intelligence
in Education is almost absent. The absence/forfeit of budget and professionals in this area,
are some of the biggest obstacles in the application of this type of solutions. Based on the
previous assumption, this dissertation aims to develop an artifact capable of supporting the
decision making in education, more properly in “Higher Education”. The base of this work
will be real information, collected in classroom, using a teaching support application called
“ioEduc”. It is expected the development of a Data Warehouse (DW) prototype, focusing on
the process of data extraction, transformation and loading, as well as a platform capable of
presenting dashboards with relevant information. Through this document it is presented a
contextualization of the theme, a brief description of the objectives and expected results.
The main concepts, related to the problem, are also explained. Moreover, the
methodological approach is also introduced and all the management work.
Keywords: Web Intelligence, Data Warehouse, ETL, Business Intelligence, Higher Education.
ÍNDICE
Resumo ...................................................................................................................................... iii
Abstract ...................................................................................................................................... v
Lista de Figuras .......................................................................................................................... ix
Lista de Tabelas ......................................................................................................................... xi
Lista de Abreviaturas, Siglas e Acrónimos ................................................................................ xiii
1. Introdução ........................................................................................................................... 1
1.1 Enquadramento e Motivação ...................................................................................... 1
1.2 Objetivos e Resultados esperados............................................................................... 2
1.3 Estrutura do Documento ............................................................................................. 3
2. Estado de arte ..................................................................................................................... 5
2.1 Estratégia de Pesquisa ................................................................................................. 5
2.2 Business Intelligence ................................................................................................... 5
2.3 Data Warehouse ........................................................................................................ 11
2.4 Processo ETL (Extração, Transformação e Carregamento) ....................................... 30
2.5 Data Mining ............................................................................................................... 32
2.6 Web Intelligence ........................................................................................................ 36
2.7 Casos de Estudo ......................................................................................................... 41
3. Abordagem Metodológica ................................................................................................ 49
3.1 Design Science Research ............................................................................................ 49
3.2 The Kimball Lifecycle .................................................................................................. 52
3.3 Cross Industry Standard Process for Data Mining (CRISP-DM) ................................. 55
4. Planeamento ..................................................................................................................... 59
4.1 Atividades .................................................................................................................. 59
4.2 Lista de Riscos ............................................................................................................ 61
5. Conclusão .......................................................................................................................... 67
Bibliografia ............................................................................................................................... 69
Anexo I – Matriz de Conceitos ................................................................................................. 73
LISTA DE FIGURAS
Figura 1 - Influência dos sistemas BI no processo de tomada de decisão . ............................... 8
Figura 2 - Exemplo de componentes de um Sistema de DW .................................................. 14
Figura 3 - Arquitetura de uma camada ou baseada em Web ................................................ 15
Figura 4 - Arquitetura de duas camadas .................................................................................. 16
Figura 5 - Arquitetura de três camadas ................................................................................... 17
Figura 6 - Arquiteturas de Data Warehouse alternativas ....................................................... 19
Figura 7 - Esquema em Estrela ................................................................................................. 24
Figura 8 - Esquema em Floco de Neve ..................................................................................... 25
Figura 9 - Esquema em constelação ......................................................................................... 25
Figura 10 - Exemplo de um cubo ............................................................................................. 27
Figura 11 - Processo ETL .......................................................................................................... 31
Figura 12 - Processo KDD ......................................................................................................... 33
Figura 13 – Taxonomia de dadoS ............................................................................................. 34
Figura 14 - Taxonomia de Data Mining ................................................................................... 35
Figura 15 - Processo geral de um MCMS ................................................................................. 42
Figura 16 - Arquitetura de sistema de um MCMS ................................................................... 43
Figura 17 - Infraestrutura de Sistemas de Informação OHEC-DSS .......................................... 44
Figura 18 - O ciclo de aplicação de Data Mining num sistema educacional ............................ 46
Figura 19 - Metodologia do modelo de processos Design Science Research ......................... 52
Figura 20- Diagrama The Kimball Lifecycle ............................................................................. 53
Figura 21 - Fases do modelo de referência CRISP-DM . ........................................................... 56
LISTA DE TABELAS
Tabela 1 - Bases de Dados Operacionais vs Data Warehouses ................................................ 12
Tabela 2 - Contrastes entre as abordagens bottom-up e top-down ...................................... 21
Tabela 3 - Sistemas OLTP vs Sistemas OLAP ............................................................................ 22
Tabela 4 - Fatores condicionantes do sucesso da implementação de um DW ....................... 29
Tabela 5 - Aplicações Web Intelligence no mercado ............................................................... 40
Tabela 6 - Plano de Atividades ................................................................................................. 59
Tabela 7 - Tabela de riscos inerentes ao projeto ..................................................................... 61
Tabela 8 - Matriz de Conceitos ................................................................................................. 73
LISTA DE ABREVIATURAS, SIGLAS E ACRÓNIMOS
WI-Web Intelligence
BI- Business Intelligence
DM- Data Mining
DMT- Data Mart
DSR- Design Science Research
DW- Data Warehouse
ETL- Extraction, Transformation and Load
OLAP- On-line Analythic Processing
MOLAP- Multidimensional Online Analythical Processing
ROLAP- Relational Online Analythical Processing
SQL- Structured Query Language
WM- Web Mining
CRISP-DM- Cross Industry Standard Process for Data Mining
HE- Higher Education
TI- Tecnologia de Informação
DC- Data Science
1
1. INTRODUÇÃO
Neste capítulo será apresentado todo o enquadramento e a motivação para a
realização deste projeto de dissertação, bem como os objetivos, resultados e estrutura do
documento.
1.1 Enquadramento e Motivação
Nos últimos anos tem havido um aumento do interesse no papel das tecnologias no
setor da Educação (Rhodes, 2017). Os sistemas educacionais têm-se tornado ricos em dados,
sobre os mais diversos temas do âmbito educacional. Os educadores têm a oportunidade de
usar esta panóplia de dados para melhor todo o sistema educacional (Dougherty, 2015).
Porém e apesar da abundância de dados, os utilizadores não sabem como podem dar
um uso eficiente a este tipo de informação (Zhong, Liu, & Yao, 2002). Este tipo de problema
evidenciou a necessidade de criação de mecanismos de auxílio na procura de informação ou
conhecimento em dados (Loh & Garin, 2001). O uso de dados informacionais, em sistemas
educacionais, proporciona uma grande ajuda, aos decisores desta área, no processo de
tomada de decisão (Dougherty, 2015). Sendo o processo tomado de decisão demasiado
complexo e dinâmico para ser realizado através de uma abordagem intuitiva e requerer
antes, uma atitude rigorosa baseada em metodologias analíticas e modelos matemáticos
(Vercellis, 2009), foi criado o Web Intelligence (WI) que providência ferramentas web, aos
utilizadores do negócio, que os ajudarão na tomada de decisão e também a ter um
conhecimento mais profundo dos dados do negócio (Brogden, Sinkwitz, Marks, & Orthous,
2014). Apesar dos benefícios que a aplicação de sistemas inteligentes reproduzem nos
sistemas educacionais, a aplicação dos mesmos é muito baixa (Groff, 2013).
Tendo por base a afirmação anterior, o desenvolvimento desta dissertação tem como
principal objetivo, a criação de um protótipo capaz de apoiar a tomada de decisão
educacional.
A principal motivação para a realização desta dissertação, incorre no facto de existir
um grande interesse na área de Data Science e do desenvolvimento web. Mais
2
secundariamente, também pelo impacto que uma aplicação de tratamento e análise de
dados pode ter no panorama educacional.
1.2 Objetivos e Resultados esperados
Inicialmente, e depois de ter sido apresentado o tema do projeto de dissertação, “Web
Intelligence no Ensino Superior”, foi definida uma pergunta que será a base do
desenvolvimento de todo o projeto: “De que maneira o desenvolvimento de sistemas
inteligentes, baseados em web, podem ter influência no apoio à tomada de decisão no
ensino superior?”.
Para responder de forma eficaz a esta pergunta, será desenvolvido um protótipo de WI
capaz de apoiar a tomada de decisão, tanto de alunos como de professores, num ambiente
educacional. Os dados a utilizar, serão provenientes de uma aplicação (ioEduc), usada em
sala de aula, numa Unidade Curricular do curso, “Mestrado Integrado em Engenharia e
Gestão de Sistemas de Informação, designada de “Programação para a Web”.
Os objetivos estruturantes desta dissertação são:
• Seleção de dados acerca da Inteligência web;
• Criação de um protótipo de WI;
• Novo conhecimento que combine a área dos sistemas de informação,
programação web e data science;
• Definição de processos de extract, transform and load (ETL);
Os objetivos secundários associados a esta dissertação são:
• Levantamento de soluções existentes;
Para o desenvolvimento desta dissertação foram projetados, como resultados
espectáveis, a definição de um conjunto de indicadores de negócio, tendo em base dados
organizacionais, que apoiem o processo de tomada de decisão, o desenvolvimento de um
protótipo Data Warehouse (DW) e web.
Para a concretização destes objetivos, será inicialmente realizada uma revisão literária,
onde serão identificadas soluções semelhantes, ferramentas e tecnologias para o
desenvolvimento do protótipo. Serão também analisadas metodologias de desenvolvimento
3
para cada fase do projeto. De seguida será realizado o processo de ETL e por último será
criado o protótipo de WI.
1.3 Estrutura do Documento
Este projeto de dissertação encontra-se estruturado em cinco capítulos e dois anexos.
O primeiro capítulo tem como objetivo contextualizar todo o ambiente e conjuntura do
projeto, podendo perceber o assunto representado, assim como os seus objetivos e quais os
resultados esperados.
O segundo capítulo corresponde à descrição dos termos usados nesta dissertação,
Business Intelligence (BI), DW, Data Mining (DM), ETL e WI, sendo que, também, serão
apresentados casos de estudo semelhantes ao projeto a ser desenvolvido. Por último será
apresentada uma visão crítica, que apresentará uma comparação entre as soluções
apresentadas e o protótipo a ser desenvolvido.
O terceiro capítulo apresenta as metodologias de trabalho usadas nesta dissertação,
nomeadamente, Design Science Research, Kimball Lifecycle e o CRISP-DM.
O quarto capítulo incidirá sobre a planificação da dissertação. Aqui será apresentada a
tabela de riscos e as atividades a desenvolver.
Por fim é apresentada a lista de referências bibliográficas e os anexos.
5
2. ESTADO DE ARTE
Neste capítulo é evidenciada a revisão literária efetuada para o desenvolvimento da
dissertação. São também descritos os temas inerentes ao projeto e apresentados casos de
estudo, nos quais são apresentadas soluções com o mesmo foco da dissertação.
2.1 Estratégia de Pesquisa
As pesquisas efetuadas sobre os temas inerentes ao projeto incidiram sobre: Business
intelligence (BI), Extract Transform and Load (ETL), Web Intelligence (WI), Decision Suport
Systems (DSS), Data Mining (DM), Web Mining (WM), Data Warehousing (DW), Ubiquitous
Systems (US), Web Decision Support Systems.
De forma a chegar a dados e a resultados conclusivos, alguns dos termos,
anteriormente referidos, foram combinados.
As pesquisas incidiram nas seguintes fontes:
• Google Scholar;
• Google;
• Repositório Uminho;
• ACM Digital Library;
A seleção dos artigos e informação utilizada nesta dissertação, foi baseada nos
seguintes aspetos:
• Data;
• Citações;
• Interesse;
• Ligação;
• Quantidade;
2.2 Business Intelligence
2.2.1 Contextualização
6
O advento das tecnologias de armazenamento de baixo custo e a grande variedade de
conexões à Internet fizeram com que fosse mais fácil, para um indivíduo e/ou organizações,
ter acesso a uma elevada quantidade de dados. Este tipo de dados, são geralmente
heterogéneos em origem, conteúdo e representação e a sua fácil acessibilidade pode
levantar uma questão bastante pertinente: é possível converte-los em informação e
conhecimento, de tal forma relevante que, torne a tomada de decisão mais fácil de maneira
a simplificar a gestão de uma organização? (Vercellis, 2009).
Para Santos & Ramos (2006), os agentes responsáveis pela tomada de decisão nas
organizações sabem que, a informação atempada e precisa permite melhorar o desempenho
do negócio e, como tal, da organização. Contudo, a tomada de decisão, nem sempre é um
exercício descomplicado. Segundo Vercellis (2009), este procedimento é demasiado
complexo e dinâmico para ser executado como uma abordagem intuitiva, e requer que
sejam aplicadas metodologias analíticas e modelos matemáticos rigorosos, mesmo quando
existe um planeamento adequado e detalhado sobre as implementações necessárias. A
mudança organizacional, ligada a este tipo de solução, pode não perdurar no tempo devido
à resistência demonstrada por parte dos membros da organização à respetiva mudança.
(Santos & Ramos, 2006).
Mediante o que foi dito anteriormente, verificamos que o mau planeamento da
mudança organizacional pode levar a uma má tomada de decisão, por parte dos
intervenientes nessa atividade. Os riscos de insucesso são muitos e variados e os casos de
mudança organizacional mal sucedidos, são vários (Santos & Ramos, 2006).
O aumento dos profissionais de BI e das publicações efetuadas sobre este tema, levam
a crer que, em conjunto com a facilidade de acesso aos dados, poderemos estar perante um
aumento do conhecimento sobre a área, o que poderá levar a uma diminuição dos casos de
insucesso na implementação de sistemas BI.
2.2.2 Conceito
O termo intelligence tem sido usado por investigadores em Artificial intelligence (AI)
desde os anos cinquenta. Já o termo BI só se tornou popular a partir dos anos noventa (Chen
& Storey, 2012).
7
Segundo Vercellis (2009), “BI pode ser definido como um conjunto de modelos
matemáticos e de metodologias de análise, que exploram os dados disponíveis, de maneira
a gerar informação e conhecimento úteis ao processo de tomada de decisão”.
Para Turban, Sharda, Delen, King, & Aronson (2010) BI “é um termo abrangente que
combina arquiteturas, ferramentas, base de dados, ferramentas analíticas, aplicações e
metodologias completamente distintas e que tem como principal objetivo a disponibilização
de um acesso interativo e/ou em tempo-real aos dados, permitindo assim a sua manipulação
e auxílio, aos gestores e aos analistas, a condução apropriada da análise e posterior
decisão”.
Segundo Santos & Ramos (2006) os “sistemas de BI combinam dados com
ferramentas analíticas de forma a disponibilizar informação relevante para a tomada de
decisão”.
Negash (Negash, 2004), indica que “os sistemas de BI combinam os processos de
recolha e armazenamento de dados e a gestão de conhecimento com ferramentas analíticas,
de forma a apresentar informações completas, complexas e competitivas aos gestores e aos
decisores”.
Como podemos verificar, existem várias definições para o tópico mencionado, muito
homogéneas entre si. Um dos pontos que se realça em cada uma das definições expostas, é
que todas mencionam o uso de ferramentas matemáticas e/ou analíticas, que farão com que
a análise dos dados por parte dos gestores e decisores, faça com que a tomada de decisão se
torne cada vez mais completa.
Os dados que alimentam este tipo de sistemas podem ter variadas formas e advir de
múltiplas fontes. Negash (2004) diz-nos que, existe uma grande variedade, no que concerne
à estrutura dos inputs disponíveis para fornecer inteligência ao processo de tomada de
decisão, tais como:
• Não estruturada – Conversas, Gráficos, Imagens, Notícias, Páginas Web, entre
outras.
• Estruturada – Online Analytical Processing (OLAP), DW, DM, Enterprise Resource
Planning (ERP), entre outras.
8
Esses mesmos dados, inerentes aos sistemas de BI, terão um papel fundamental no
processo de tomada de decisão, como podemos constatar através da figura 4, criada por
Olszak & Ziemba (2012).
Figura 1 - Influência dos sistemas BI no processo de tomada de decisão (adaptado de Olszak & Ziemba (Olszak & Ziemba, 2012).
Na figura 1, os dados são recolhidos, posteriormente transformados e analisados, e
por último, explorados de maneira a retirar o maior conhecimento possível. Conhecimento
esse que terá um papel fundamental na tomada de decisão.
Verificamos ainda, por intermédio da figura 1, alguns componentes do processo de BI.
Segundo Turban et al (2010), este tem quatro componentes fundamentais:
• Data Warehouse: lugar onde os dados são armazenados;
• Business Analythics: ferramentas para a manuseamento dos dados;
• Business Process Management: monotorização e análise do desempenho do
sistema;
• User Interface: forma de simplificar a análise dos dados, por exemplo, através
do uso de dashboards.
9
Segundo Santos & Ramos (2006), as principais tarefas associadas aos sistemas de BI
são:
• Elaborar previsões em dados históricos;
• Criar cenários que evidenciem o impacto das alterações efetuadas nas
organizações;
• Permitir o acesso ad-hoc aos dados, de maneira a responder a perguntas pré-
definidas;
• Analisar detalhadamente a organização e extrair dela o maior conhecimento.
Turban et al. (2010), em sentido futurístico afirmam que, os sistemas de BI são a
procura de informação pertinente em tempo-real.
2.2.3 Fatores críticos de sucesso
A complexidade e a versatilidade dos sistemas de BI modernos, levam a que a
obtenção de sucesso na implementação destes sistemas seja baseada numa solida
metodologia e provada com teorias científicas (Olszak & Ziemba, 2012).
Segundo Yeoh & Koronios (2010), os fatores críticos de sucesso na implementação de
sistemas BI, numa organização, podem dividir-se em três dimensões: organização, processo
e tecnologia. Esta divisão corresponde a uma framework, que segundo os autores, terão
consequências no desenvolvimento do processo e na implementação da tecnologia.
a) Dimensão Organização
• Compromisso de gestão de suporte e patrocínio - tido como um dos mais
importantes fatores de implementação de um sistema BI (Yeoh & Koronios,
2010), tem como objetivo o apoio contínuo e o patrocínio aos gestores/decisores
do negócio.
• Visão clara e bem estabelecida do negócio - sendo que uma iniciativa de BI tem
como foco o negócio, uma visão estratégica do mesmo é necessária para
direcionar toda a lógica da implementação (Yeoh & Koronios, 2010).
b) Dimensão Processo
10
• Balanceamento da equipa de trabalho e gestor de projeto orientado ao
negócio - o gestor do projeto, para ser fundamental no processo de
implementação do sistema BI, terá de ser proveniente de uma componente
funcional do negócio. Este terá como principal objetivo transformar os requisitos
do negócio em requisitos da arquitetura BI. A equipa deverá ser composta por
variados elementos, todos, ou quase todos, com conhecimentos distintos, em
diversas áreas, devido à complexidade e variedade de ferramentas usadas na
implementação de um sistema deste género. É de referir que, todos os
elementos da equipa devem estar integrados e focados no negócio e no seu
ambiente.
• Âmbito e abordagem do desenvolvimento iterativo e orientado ao negócio -
entender o âmbito da organização para perceber como os stakeholders pensam
e desenvolver, tendo como base, esses pensamentos. O âmbito de uma
iniciativa BI deve ser selecionado de maneira a que, um sistema desenvolvido
para um determinado setor do negócio, possa ser desenvolvida dentro de um
tempo razoável (Yeoh & Koronios, 2010).
• Mudanças de gestão orientadas ao utilizador - a participação dos utilizadores no
processo de mudança, leva a que haja uma melhor comunicação das suas
necessidades (Yeoh & Koronios, 2010), que, consequentemente, leva a que os
objetivos finais sejam cumpridos, e a longo termo, o suporte ao utilizador
também evolua em paralelo com as mudanças que ocorram no negócio.
c) Dimensão Tecnológica
• Framework técnica orientada ao negócio, flexível e escalável - um sistema
de forma a acompanhar as mudanças do negócio, deverá incorporar
requisitos flexíveis e escaláveis. A framework escalável deve incluir fontes de
dados adicionais, atributos e áreas dimensionais para análise de factos (Yeoh
& Koronios, 2010).
• Qualidade e integridade dos dados - a qualidade das fontes dos dados é vital
para a implementação de um sistema BI (Yeoh & Koronios, 2010), sendo que,
11
a base de todo este trabalho são dados de extrema importância ricos em
informação, para assim, extrair o máximo de conhecimento que, à posteriori,
facilitará o processo de tomada de decisão.
2.3 Data Warehouse
2.3.1 Conceito
Segundo Santos & Ramos (2006), Data Warehouse (DW) “é um repositório construído
especificamente para a consolidação da informação da organização num formato válido e
consistente, permitindo aos seus utilizadores a análise de dados de uma forma seletiva”.
Este tipo de tecnologias surgiu, devido ao facto de o mundo digital não organizar
automaticamente os dados (Golfarelli & Rizzi, 2009).
Para Turban et al. (2010), “DW é um conjunto de dados, produzidos para suportar a
tomada de decisão”. Acrescenta, ainda, que o termo indica também um repositório de
dados atuais e históricos, com potencial interesse aos gestores do negócio. Segundo o autor,
os DW têm as seguintes caraterísticas:
• Orientado ao assunto - os dados são organizados pelo assunto, permitindo
assim aos utilizadores perceber como o seu negócio funciona e o porquê de se
encontrar dessa mesma forma (Turban et al., 2010). Estes sistemas fornecem
uma visão simples e concisa do assunto, excluindo todos os dados
desnecessários ao processo de tomada de decisão (Santos & Ramos, 2006).
• Integrados - o DW é normalmente construído, usando os dados de fontes
muito heterógenas. Técnicas de limpeza e integração do conjunto de dados,
são asseguradas para garantir a consistência dos mesmos (Santos & Ramos,
2006).
• Integrados em séries temporais - todas as DWs têm uma dimensão temporal
(Turban et al., 2010), o objetivo é fornecer informação sobre uma perspetiva
histórica. A diferenciação destes sistemas para os sistemas operacionais, é que
estes armazenam informação relativa ao período compreendido de 5-10 anos,
enquanto que os demais armazenam informação relativa a um curto período
de tempo (Santos & Ramos, 2006).
12
• Não voláteis - depois dos dados serem inseridos no sistema, não podem mais
ser alterados (Turban et al., 2010).
• Baseados em Web - DW são, normalmente, desenhados para fornecer um
ambiente computacional eficiente às aplicações de base Web (Turban et al.,
2010).
• Relacionais/Multidimensionais - uma DW pode tanto ser do tipo relacional
como multidimensional (Turban et al., 2010).
• Cliente/Servidor - de maneira a facilitar o acesso aos dados, por parte dos
utilizadores, é usada a arquitetura cliente/Servidor, onde o cliente emite
pedidos a um servidor e este responde com informação pertinente (Turban et
al., 2010).
• Tempo real - as mais recentes DW fornecem o acesso a dados em tempo real
(Turban et al., 2010). Esta é uma evolução, no que toca a este tipo de sistemas,
que fará com que a atualização e acesso à informação seja realizada de forma
mais simples e rápida.
• Metadados: de forma a saber como os dados estão organizados, as DWs
contêm metadados (dados sobre os dados), explicando exatamente como eles
se encontram dentro do sistema (Turban et al., 2010).
Com o objetivo de entender as principais diferenças entre uma base de dados
operacional e um DW, Santos & Ramos (2006) sintetizam na tabela 1, as principais
diferenças entre as respetivas abordagens.
Tabela 1 - Bases de Dados Operacionais vs Data Warehouses (Santos & Ramos, 2006)
Bases de dados operacionais Data Warehouses
Objetivos operacionais Registo histórico
Acesso leitura/escrita Acesso de leitura
Acesso por transações predefinidas Acesso por questões ad hoc e relatórios
periódicos
Acesso a poucos registos de cada vez Acesso a muitos registos de cada vez
Dados atualizados em tempo real Carregamentos periódicos
13
2.3.2 Componentes de um Data Warehouse
Segundo Vaz de Oliveira e Sá (2009), um sistema de DW deve ser composto por
diversos componentes, não se resumindo somente a um conjunto de dados depositados
num DW, ou seja, terá de conter os seguintes elementos:
• Fontes Informacionais – as fontes informacionais, que servirão de base ao
desenvolvimento e que alimentarão o DW, podem ter proveniência interna ou
externa à organização (Vaz de Oliveira e Sá, 2009).
• ETL (Software para extração, transformação e carregamento) – este
componente é responsável pela extração de registos informacionais de diversas
fontes, pela sua transformação e respetivo carregamento para o DW (Vaz de
Oliveira e Sá, 2009). Extrair dados significa ler e compreender a fonte dos
mesmos e copiar aqueles que são necessários. Depois de extraídos os dados,
estes são analisados e poderão suceder variadas transformações, tais como,
correção de erros de escrita, falta de elementos, entre outros. Por último, os
dados são carregados para o sistema de ETL, transportando assim as dimensões
e a tabela de factos (Kimball & Ross, 2013).
• Repositórios – os repositórios informacionais podem ser constituídos por bases
de dados denominadas de Data Warehouses (DW), Data Marts (DM) e
metadados. Os DW fornecem informação organizada e orientada ao assunto,
que ajuda, posteriormente, no processo de tomada de decisão. Por outro lado,
um DM é relevante para uma determinada unidade organizacional, sendo
então dirigidos a um número mais restrito de utilizadores, que têm em comum
a partilha das mesmas necessidades informacionais. Os metadados
representam informação relativa aos dados armazenados num DW ou num
DM, tal como, a origem do registo informacional e/ou como foi efetuado o
processo de ETL (alterações efetuadas) (Vaz de Oliveira e Sá, 2009).
• Ferramentas de análise de informação – uma vez armazenada, a informação
pode ser acedida através da utilização de ferramentas e aplicações, construídas
para esse mesmo propósito. Este acesso pode ser efetuado através da
14
utilização de linguagens de consulta estruturada (SQL), Data Mining (DM),
relatório, entre outros (Vaz de Oliveira e Sá, 2009).
Na figura 2 está representado o processo de Data Warehousing e nele podemos
verificar os principais componentes deste processo e de que forma é que eles influenciam o
mesmo.
Os dados, que irão compor a base de dados, podem ser originários de vários áreas,
sistemas ou plataformas. Os repositórios, estejam eles na forma de DW, DMT ou metadados,
podem existir singularmente ou em conjunto. Ao nível da análise da informação, esta pode
ser efetuada utilizando diferentes técnicas ou ferramentas, tais como, Structured Query
Language (SQL), DM, reports, entre outros.
Figura 2 - Exemplo de componentes de um Sistema de DW (retirado de (Vaz de Oliveira e Sá, 2009)).
15
2.3.3 Arquiteturas de Data Warehousing
Existem várias arquiteturas de sistema de informação básicas, que podem ser usadas
para a construção de um sistema de Data Warehousing (Turban et al., 2010).
Turban et al. (2010) distinguem as estruturas em arquiteturas de uma, duas ou três
camadas, sendo que as mais comuns são as de duas e três camadas.
Seguidamente serão explicados estes três tipos de arquiteturas:
• Arquitetura de uma camada ou baseada em web - segundo Turban et al.
(2010), data warehousing e a internet são duas tecnologias importantes, que
oferecem soluções importantes e critícas para a gestão de dados
organizacionais. A integração conjunta destas duas ferramentas produz
sistemas de data warehousing de base web. Este tipo de arquiteturas oferece um
conjunto de vantagens bastante cativantes, tais como, facilidade de acesso a dados e
independência de plataformas de baixos custos de produção. Contudo, aquado do
design da arquitetura, aspetos como velocidade de carregamento de páginas e
capacidade do servidor, terão que ser considerados de forma a poder obter uma maior
performance (Turban et al., 2010). A figura 3 ilustra a arquitetura de uma camada.
Figura 3 - Arquitetura de uma camada ou baseada em Web (adaptado de Turba et al. (Turban et al., 2010))
16
• Arquitetura de duas camadas - como podemos verificar na figura 4, neste tipo
de arquitetura, a primeira camada destina-se ao cliente, enquanto que na
segunda econtra-se o sistema de apoio à decisão a correr na mesma plataforma
de hardware do sistema de DW. Este tipo de estrutura pode levar a problemas
de performance perante a existência de grandes DW, que trabalham com
aplicações que manuseiam dados de forma intensiva na ajuda à tomada de
decisão. Este tipo de arquitetura é mais económica do que uma estrutura em
três camadas (Turban et al., 2010).
Figura 4 - Arquitetura de duas camadas (adaptado de Turba et al. (Turban et al., 2010))
• Arquitetura de três camadas - neste tipo de arquitetura os sistemas operativos
que contêm os dados e o software para aquisição dos mesmos encontram-se
numa só camada. O DW corresponde a outra camada, e finalmente, na última
encontra-se o utilizador. Os dados, provenientes da DW, são processados duas
vezes e depositados em bases de dados multidimensionais, de forma a uma
melhor organização no momento da análise multidimensional, apresentação
e/ou replicação em Data Marts. Esta arquitetuta tem como principal vantagem
a separação de funções da DW, facilitando assim a criação de data marts
(Turban et al., 2010). A representação visual do que foi dito anteriormente
pode ser observada na figura 5.
17
Figura 5 - Arquitetura de três camadas (adaptado de Turba et al. (Turban et al., 2010))
2.3.4 Arquiteturas de Data Warehousing alternativas
Segundo Santos & Ramos (2006), para existir uma implementação de uma solução
competente, a organização terá que decidir qual a arquitetura a utilizar. Esta escolha poderá
passar pelo o uso de um DW organizacional, de Data Marts independentes ou pelo o uso de
Data Marts dependentes. Turban et al. (2010), observando a figura 6, apresentam cinco
arquiteturas:
• Data marts independentes – esta representa a solução arquitetural mais
simples e mais económica. Os data marts são criados de forma a operar
individualmente, numa certa unidade organizacional da empresa. O problema
deste tipo de arquiteturas, é que, devido ao seu carácter individual, poderá
conter inconsistência de dados, medidas e dimensões, fazendo com que a
análise transversal de data marts, seja quase impossível.
• Data marts arquitetura em bus – esta arquitetura corresponde a uma
alternativa à anteriormente mencionada. Aqui os data marts estão ligados
entre si, o que simplifica as análises transversais. Porém, na necessidade de
executar queries complexas, a performance relativa a este tipo de análise pode
não ser a melhor.
• Arquitetura Hub-and-spoke – arquitetura de data warehousing mais famosa
nos tempos que correm. O foco do uso deste tipo de implementação
corresponde à criação de uma infraestrutura escalável e sustentável. Esta
contém um DW central e um conjunto de data marts dependentes (cada uma
18
representa uma unidade organizacional da respetiva organização). Esta
arquitetura tem como valência a construção simplificada e customizada de
interfaces e reports.
• Data Warehouse centralizada – esta implementação é muito semelhante à
previamente mencionada, com excepção da não existência de data marts
dependetes. Todos os dados da organização são mantidos num DW gigante que
serve todos as unidades organizacionais. Este tipo de abordagem faz com que
as limitações de acesso a dados sejam inexistentes e, também, a gestão dos
mesmos seja simplificada, na medida em que, existirão uma menor quantidade
de dados. Esta arquitetura apresenta uma visão holística, abrangente e
transversal a toda a organização e às suas áreas de negócio.
• Data Warehouse federada – este tipo de arquitetura é utilizado, na altura de
integração de sistemas distintos. Aqui as estruturas de apoio á decisão são
reservadas num local específico e os dados são acedidos nessas fontes. Devido
a problemas ao nível performance e da qualidade dos dados, especialistas
indicam que este tipo de abordagem é um suplemento às DWs e não um
método de substituição (Eckerson, 2006).
19
Figura 6 - Arquiteturas de Data Warehouse alternativas (retirado de (Turban et al., 2010))
Mas qual é a melhor arquitetura ou aquela que devemos implementar? Segundo
Turban et al. (2010), os dois gurus da área de DW, Ralph Kimball e Bill Inmon, têm
opiniões distintas sobre este assunto. O primeiro promove o uso da arquitetura “Data Mart
bus”, enquanto que o segundo advoga o uso da arquitetura “hub-and-spoke”,
respetivamente.
Ariyachandra, Watson, Watson Holds, Herman, & Terry (2006), realizaram um
questionário online onde tentaram perceber quais eram os tipos de arquiteturas e as
plataformas mais utilizados na implementação de sistemas de DW. Foram inquiridas 454
empresas e conseguiram concluir que a arquitetura mais utilizada era a “hub-and-spoke”
(com cerca de 39%) e a plataforma mais ordinária era a da Oracle.
20
2.3.5 Abordagens de Desenvolvimento
Muitas organizações têm como principal objetivo na criação de sistemas de DW, o
suporte, por esse tipo de sistemas oferecido, no processo de tomada de decisão (Turban et
al., 2010).
Os métodos top-down e bottom-up (também conhecidos como abordagem “EWD” e
abordagem “data mart”, respetivamente), são, geralmente, os mais aplicados no
desenvolvimento de projetos desta natureza. Estes são, também, preconizados por Ralph
Kimball e Bill Inmon (considerados como pais do DW) (Vaz de Oliveira e Sá, 2009).
Bill Inmon (Ariyachandra & Watson, 2006) defende que, é possível, adaptar bases de
dados relacionais com as necessidades de desenvolvimento requerentes de um DW
generalista (que cobre todas as áreas da organização). Por outro lado, Ralph Kimball
(Ariyachandra & Watson, 2006) defende que, deve ser empregue uma abordagem
multidimensional (Turban et al., 2010).
• Abordagem top-down – esta abordagem divide-se em duas etapas, a primeira
é cingida à definição do esquema de conteúdo do DW, enquanto que a
segunda consiste na implementação de Data Marts, de acordo com as
características de cada departamento ou área organizacional. A principal
desvantagem deste tipo de abordagem traduz-se na complexidade do
desenvolver do esquema de conteúdo do DW de forma a cobrir toda a
organização (Vaz de Oliveira e Sá, 2009).
• Abordagem bottom-up – tem como principal objetivo modelar e contruir
esquemas de conteúdo para cada Data Mart. Estes esquemas devem ser
pensados de forma, a no futuro, poderem ser analisados de forma unificada, ou
seja, conseguir perceber qual é o esquema global do DW. O principal problema
desta abordagem está na dificuldade em unificar os Data Marts, caso estes não
sejam pensados previamente para este efeito (Vaz de Oliveira e Sá, 2009).
Mas qual é a melhor abordagem? Segundo Turban et al. (2010), não existe uma
solução melhor, em termos generalistas. Dependendo das necessidades de cada
organização, um simples Data Mart pode ser suficiente ou, a um nível mais elevado, pode
ser necessário um DW mais abrangente.
21
Na tabela 2 constatamos os principais contrastes entre as duas abordagens, top-
down e bottom-up. Analisando a tabela podemos apurar que, a abordagem top-down, é
enquadrada quando o problema engloba diversas áreas. As maiores entraves à utilização
desta técnica são a dificuldade, o tempo e o custo de desenvolvimento. Por outro lado, a
abordagem bottom-up é muito limitada.
Tabela 2 - Contrastes entre as abordagens bottom-up e top-down (adptado de Turba net al. (Turban et al., 2010))
Características Bottom-up Top-Down
Ambiente Um tema por área Vários temas por área
Tempo de desenvolvimento Meses Anos
Custo de desenvolvimento 10,000<x<100,000+ (dólares) 1,000,000+ (dólares)
Dificuldade de
desenvolvimento Média/baixa Alta
Pré-requisitos de partilha de
dados
Comum(dentro da área do
negócio)
Comum (entre toda a
organização)
Fontes Somente alguns operacionais e
sistemas externos
Muitos operacionais e
sistemas externos
Horizonte de tempo Perto-currente e dados
históricos Dados históricos
Transformação de dados Baixo ou média Alta
Frequência de atualizações Por hora, dia, semana Por semana, mês
Tipo de utilizadores Gestores e analistas de negócio Executivos séniores e
analistas da organização
Hardware Workstations e servidores
departamentais
Servidos de bases de
dados organizacionais
Sistemas Operativos Windows e Linux Unix, Z/OS, OS/390
2.3.6 Modelação Multidimensional
Independentemente da arquitetura escolhida, o design da representação dos dados no
DW é, sempre, baseado no conceito da modelação multidimensional (Turban et al., 2010),
22
utilizada para conceber a estrutura de sistemas de Data Warehousing (Santos & Ramos,
2006). Para Turban et al. (2010), modelação multidimensional corresponde a um sistema
baseado em recuperação, que suporta grandes volumes de queries.
Os sistemas Online Transaction Processing (OLTP) diferem dos sistemas OLAP (DW). Na
tabela 3 são apresentadas as principais diferenças, na visão de Costa (2012), entre os
sistemas OLTP e os sistemas OLAP. É importante perceber como ambas as tecnologias
funcionam, porque, apesar de as duas terem como base de funcionamento dados
informacionais, a forma como elas atuam para extrair conhecimento dos mesmos, é
completamente diferente.
Segundo Turban et al. (2010), OTLP é um termo usado para sistemas de transações
responsáveis pela captura e armazenamento de dados relacionados com o negócios do dia-
a-dia (como por exemplo dados provenientes de ERP (Enterprise Resource Planning), CRM
(Customer Relationship Management), entre outros). Sistemas OLTP encaminham para uma
necessidade crítica do negócio, todavia, estes não podem ser usados para análises ad-hoc ou
para análises de grandes quantidades de dados com o uso de queries complexas. Sistemas
OLAP vêm facilitar a satisfação das necessidades organizacionais, que envolvem o
manuseamento de grandes quantidades de dados, fazendo com a complexidade associada a
este processo diminua.
Tabela 3 - Sistemas OLTP vs Sistemas OLAP (retirado de (Costa, 2012))
Características Sistemas OLTP Sistemas OLAP
Fontes de dados
- Dados operacionais;
-OLTP são as fontes originais
de dados;
- Consolidação de dados;
-Dados OLAP surgem de
vários sistemas OLTP;
Propósito dos dados - Executar e controlar tarefas
fundamentais do negócio;
- Ajudar no planeamento,
resolução de problemas e
suporte à decisão;
Tipos de dados
- Revelam o momento dos
acontecimentos nos
processos de negócio;
- São atómicos,
normalizados, atualizados e
- Evidenciam várias
perspetivas
(multidimensionais) das
atividades organizacionais;
- São históricos,
23
isolados; sumarizados,
multidimensionais e
integrados;
Inserções e atualizações
- Curtas e rápidas;
- Atualizações efetuadas
pelos utilizadores;
- Periódicas e de longa
duração;
Acessos/Consultas
- Leitura/escrita;
- Consultas/ transações
padronizadas e simples
(poucas tabelas e poucos
registos)
- Leitura na maior parte das
vezes;
- Consultas complexas que
envolvem agregação (várias
tabelas e vários registos);
Velocidade de
processamento
- Normalmente muito rápido
para inserir, apagar e alterar.
Menos rápido para
consultar;
- Depende da quantidade de
dados envolvidos;
- Esta otimizada para o
processamento de questões;
Requisitos de espaço
- Pode ser relativamente
pequena, caso os dados
históricos não sejam
guardados;
- Requer mais espaço devido
à existência de agregação
dos dados e história.
- Requer mais índices do que
o sistema OLTP;
Conceção da base de dados
- Altamente normalizadas e
com muitas tabelas;
- Orientação às aplicações;
- Otimizadas para
atualizações;
- Normalmente
desnormalizadas e com
menos tabelas;
- Orientados a assuntos;
- Otimizados para o
processamento de questões;
Utilização - Repetitiva. - Ad-hoc.
Para Kimball & Ross (2013), o modelo de dados multidimensionais tornou-se numa
referência na modelação e gestão de dados num DW, devido à sua simplicidade e
extensibilidade.
24
O esquema para este tipo de modulação contém factos, dimensões e as respetivas
hierarquias. Para a sua implementação podem ser usados os seguintes esquemas (Chaudhuri
& Dayal, 1997):
• Esquema em Estrela - a forma mais comum de modulação de dados, para uso
multidimensional é através do esquema em estrela (Santos & Ramos, 2006). Na
figura 7 está ilustrado um esquema em estrela. No centro está a tabela de
factos e ao seu redor as dimensões que vão servir de análise à tabela de factos.
A base de dados é constituída por uma única tabela de factos e diversas tabelas
de dimensão. A tabela de factos abrange vários apontadores (chaves
estrangeiras ou chaves geradas para aumentar eficiência) relativos a cada
dimensão (um por cada dimensão). As dimensões contêm atributos e não
necessitam de estar normalizadas facilitando,assim, a navegação (Vaz de
Oliveira e Sá, 2009). As tabelas de dimensão permitem a análise da tabela de
factos sobre várias perspectivas e sobre forma de resposta a várias perguntas,
como por exemplo, quem, quando, onde, porquê, entre outras (Santos &
Ramos, 2006).
Figura 7 - Esquema em Estrela
• Esquema em Floco de Neve – um esquema em floco de neve é um esquema
em estrela em que as dimensões estão completamente normalizadas (Santos
25
& Ramos, 2006). Na figura 8 está representado um esboço em floco de neve,
esquema que compreende exatamente a mesma informação do esquema em
estrela (Kimball & Ross, 2013). Esta arquitetura apresenta como principais
vantagens a indicação da estrutura das suas dimensões e a respetiva inibição
de informação redundante,porém, a dificuldade de interpretação de
determinados esquemas e a perda de desempenho, no que toca à resposta a
perguntas, pode tornar-se uma entrave à aplicação deste tipo de cenários
(Santos & Ramos, 2006).
Figura 8 - Esquema em Floco de Neve
• Esquema em Constelação - o esquema em constelação, representado na
figura 9, integra várias tabelas de factos com dimensões em comum (Santos &
Ramos, 2006). Este tipo de esquemas pode resultar da combinação de várias
estruturas, tais como, estrutura em estrelas, floco de neve, entre outras (Vaz de
Oliveira e Sá, 2009).
Figura 9 - Esquema em constelação
26
2.3.7 Metadados
Segundo Inmon (2005), os metadados, não são mais do que dados sobre dados, e
representam um aspeto vital no processo de desenvolvimento de um DW. Este tipo de
dados, faz com o DW se torna mais efetivo, na medida em que, se os metadados não
existirem num dado DW, o utilizador poderá não saber por onde começar a análise.
Um repositório de metadados fornecerá detalhes determinantes, no que concerne a
análise dos mesmos. Normalmente os metadados contêm a estrutura de DW, história dos
dados, os algoritmos usados para sumarização, mapas da proveniência dos dados inseridos
no DW, performances do sistema e termos e problemas do negócio (Jiawei, Kamber, Han,
Kamber, & Pei, 2012).
Rainardi (2008) apresenta-nos os seguintes tipos de metadados:
• Metadados de definição e mapeamento de dados contêm o significado de
cada facto, de cada coluna de uma dimensão e de onde os dados provém;
• Metadados de estrutura de dados descrevem a estrutura do modelo de dados;
• Metadados de fontes de dados retratam a estrutura dos dados que advém de
bases de dados operacionais;
• Metadados do processo ETL representam os fluxos de dados;
• Metadados de qualidade de dados expõem regras para a qualidade de dados,
para os respetivos níveis de risco e ações;
• Metadados de auditoria possuem registos dos processos e das atividades nos
repositótios de dados;
• Metadados de uso apresentam o uso das aplicações front-end e dos eventos.
2.3.8 Exploração de um Data Warehouse
Diversas tecnologias podem ser utilizadas para explorar um DW. A mais comum é a
tecnologia OLAP (On-Line Analytical Processing) que permite criar cubos, como o ilustrado
na figura 10, sobre diferentes perspetivas (Santos & Ramos, 2006). Os dados nele contidos,
vão se dividir em subconjuntos das dimensões.
27
Figura 10 - Exemplo de um cubo (adaptado de Kimball & Ross (Kimball & Ross, 2013))
Uma das mais valias deste tipo de sistemas, consiste no facto de o utilizador não ter a
preocupação de saber como ou onde os dados multidimensionais, provenientes de DW ou
data marts, são armazenados. Apesar de fornecer este tipo de vantagens, a arquitetura
física e a implementação de servidor OLAP, devem considerar o armazenamento de dados e
todos os problemas que possam advir desta ação (Jiawei et al., 2012). Os servidores OLAP
podem ser do tipo:
• Relational OLAP (ROLAP) – correspondem a servidores intermédios, que se
posicionam entre um servidor relacional (back-end) e as ferramentas do cliente
(front-end) (Jiawei et al., 2012). Esta é uma alternativa à tecnologia MOLAP
(Multidimensional OLAP) (Turban et al., 2010). De forma a armazenar e a gerir
os dados, é usado um SGBD (sistema de gestão de base de dados) relacional e
OLAP middleware para suportar peças em falta. A tecnologia ROLAP tende a ter
melhor escalabilidade do que a tecnologia MOLAP (Jiawei et al., 2012).
• Multidimensional OLAP (MOLAP) – este tipo de servidores suportam vistas
multidimensionais dos dados, recorrendo a bases de dados da mesma
categoria para armazenamento dos mesmos (Santos & Ramos, 2006). Muitos
servidores MOLAP adotam uma representação do armazenamento de dados a
dois níveis, de forma a lidar com a disparidade e escassez dos datasets. A
principal vantagem da utilização deste tipo de tecnologias, consiste, no facto da
28
indexação de dados precomputacionais ser realizada de forma bastante ágil
(Jiawei et al., 2012).
• Hybrid OLAP (HOLAP) – esta tecnologia combina as duas anteriormente
referidas, beneficiando assim da grande escalabilidade da tecnologia ROLAP e
da velocidade de processamento da tecnologia MOLAP (Santos & Ramos,
2006). Grandes quantidades de dados podem ser armazenadas numa base de
dados relacional, enquanto que, as respetivas agregações são mantidas num
sistema MOLAP.
A organização imposta pelos esquemas dos modelos multidimensionais (estrela, floco
de neve e constelação), permite que os dados sejam analisados de várias formas (Santos &
Ramos, 2006).
No que toca à análise dos cubos, diferentes operações OLAP podem ser executadas,
tendo assim uma forma mais interativa de análise dos dados. As operações disponíveis para
este efeito são, segundo Santos & Ramos (2006):
• Drill-down – permite navegar de dados mais generalistas para dados mais
detalhados. Tem, como principal objetivo, fornecer uma visão mais
concreta/promonorizada dos dados.
• Roll-up – representa a operação oposta ao drill-down. Permite a agregação de
dados, contidos num cubo, numa dada hierarquia.
• Slice and dice – permite restringir a informação a visualizar, utilizando o corte e
a redução de um conjunto de dados. O corte seleciona um subconjunto de
dados e restringe o acesso, de uma dimensão, a esse subconjunto. A redução
permite definir um sub-cubo, sobre a qual podem ser especificados critérios de
seleção para um determinado número de dimensões.
• Pivot (rotate) – permite rodar os eixos de visualização dos dados, fazendo com
que, a visualização dos mesmos seja diferente a cada pesquisa.
2.3.9 Fatores críticos de sucesso
Vaz de Oliveira e Sá (2009), através da investigação literária, encontrou trinta fatores
condicionantes na implementação de sistemas de DW. Este dividiu esses mesmos fatores em
três categorias: (1) Tecnológicos, (2) Projeto e (3) Organizacionais.
29
Na tabela 4 são apresentadas essas mesmas condicionantes, divididas pelas categorias
anteriormente expostas. Analisando a tabela, a maior concentração limitações situa-se na
medida “Organizacionais”. Para além de conter o maior número de fatores, nesta medida
estão contidos também os fatores mais críticos, tais como, “formação e treino dos
utilizadores”, “apoio à gestão”, “equipa de suporte”, e talvez aquele que mais leva a que
hajam casos de insucesso neste ramo, “resitência à mudança”.
Tabela 4 - Fatores condicionantes do sucesso da implementação de um DW (retirado de (Vaz de Oliveira e Sá, 2009))
Técnologicos
1 Registos Informacionais (sistemas fonte,qualidade dos registos nas
fontes, …)
2 Indexação e desempenho
3 Ferramentas dos sistemas de Data Warehouse
4 Requisitos do negócio
5 Arquitetura de informação organizaciona
6 Modelos e metodologias de Data Warehouse
7 Localização dos registos informacionais, documentação e metadados
8 Qualidade da informação
9 Infraestruturas de desenvolvimento
10 Competências
11 Evolução e crescimento
Projeto
12 Recurso (equipa, financiamento, ….)
13 Âmbito do projeto de Data Warehouse
14 Prazos realistas
15 Gestão e pontos de controlo bem definidos
16 Patrocinador de topo da gestão
17 Patrocinador oficial
Organizacionais
18 Necessidade organizacional
19 Ligação aos objetivos organizacionais
20 Envolvimento dos utilizadores
21 Apoio aos utilizadores
22 Expectativas dos utilizadores
30
23 Formação e treino dos utilizadores
24 Apoio da gestão
25 Equipa de suporte
26 Tamanho da organização
27 Medir os benefícios organizacionais
28 Grau de competitividade organizacional
29 Resistência à mudança
30 Politicas organizacionais
2.4 Processo ETL (Extração, Transformação e Carregamento)
As ferramentas de Extração, Transformação e Carregamento (ETL), permitem tratar da
homogeneização dos dados, da sua limpeza e do carregamento para um determinado DW
(Vassiliadis, Simitsis, & Skiadopoulos, 2002; Santos & Ramos, 2006).
Segundo Vassiliadis et al. (2002), o processo ETL, em conjunto com as ferramentas de
limpeza de dados, custam, aproximadamente, um terço do esforço e das despesas do
orçamento de todo o projeto, podendo ainda o valor subir para cerca de 80% do tempo de
desenvolvimento num projeto de DW. Posto isto, vemos que este processo tem uma
importância crucial no resultado, favorável ou não, da implementação deste tipo de
sistemas.
O processo ETL consiste na extração (ler dados de uma ou várias fontes),
transformação (converter os dados existentes, de forma obter um formato capaz de ser
inserido num DW ou numa simples base de dados operacional) e carregamento (carregar os
dados num DW). A transformação de dados ocorre utilizando regras previamente definidas
ou feita através do lookup (pesquisar erros nas tabelas, como por exemplo, falta de dados) e
ainda pela agregação de dados (Turban et al., 2010).
Para Turban et al. (2010), o principal propósito do processo de ETL é o de carregar a
DW com dados limpos e integrados. A figura 11 ilustra todo esse processo, desde a extração
dos dados até ao carregamento dos mesmos (modificados ou não) para um DW ou Data
Mart.
31
Figura 11 - Processo ETL (adaptado de Turban et al. (Turban et al., 2010))
Para Turban et al. (2010) a dificuldade associada ao processo ETL é relativamente
grande, e sendo assim, existem ferramentas que auxiliam todo este processo. Muito
sucintamente, as ferramentas, como o processo ETL, transportam os dados entre a origem e
o target, documentam todo o tipo de transformações associadas e partilham todo o tipo de
informações com outras aplicações (Turban et al., 2010).
Todo este processo pode ser dividido em cinco diferentes passos (Santos & Ramos,
2006):
• Extração – recolher dados de múltiplas fontes, heterogéneos e/ou externos à
organização (Santos & Ramos, 2006);
• Transformação – converter os dados do seu formato original , para o formato sobre
o qual serão carregados para o DW (Santos & Ramos, 2006). Nesta fase é natural
encontrar anomalias nos dados, as mais comuns são: (1) Duplicação de dados, (2)
Diferentes representações de valor, (3) Dados em falta e (4) Existência de valores em
falta (Rahm & Do, 2000). Segundo Rahm & Do (2000), podemos definir, no processo de
transformação, as seguintes fases:
1. Análise de Dados - tendo como objetivo a deteção dos tipos de erros e
inconsistências, é necessário proceder a uma análise minuciosa dos dados.
Esta pode ser feita manualmente ou com recurso a dados.
2. Definição do processo de transformação e regras de mapeamento dos
dados - aqui é verificado o grau de heterogeneidade e deficiência dos dados,
bem como as respetivas atividades de limpeza.
32
3. Verificação - todas as transformações e a sua eficácia devem ser
precocemente testadas, de forma a avaliar a performance. Várias iterações
terão de ser feitas, até chegar à solução desejada.
4. Transformação - aqui procede-se à transformação dos dados para,
posteriormente, os carregar ou para refrescar o DW.
• Limpeza – identificar erros nos dados e realizar a sua correção (Santos & Ramos,
2006);
• Carregamento – armazenar os dados no DW. Este passo pode conter a ordenação,
agregação, consolidação, verificação da integridade dos dados, entre outros aspetos
(Santos & Ramos, 2006);
• Refrescamento – não sendo propriamente um passo no processo ETL, é importante e
acrescenta valor a este procedimento, na medida em que, de forma a manter o DW
atual, o carregamento de novos dados é crucial (Santos & Ramos, 2006).
2.5 Data Mining
2.5.1 Conceito
Segundo Jiawei et al. (2012), com o aumento da quantidade de dados armazenados
em sistemas de armazenamento de dados, existe cada vez mais a necessidade de os analisar
de forma a obter o maior conhecimento possível deles. Da necessidade de análise , nasceu o
DM que consiste na procura de relacionamentos, padrões ou modelos que estão implícitos
nos dados armazenados em grandes bases de dados (Santos & Ramos, 2006). Para Turban
et al. (2010), o termo DM é utilizado para descrever a descoberta de conhecimento em
grandes quantidades de dados, através da utilização de técnicas estatísticas, matemáticas e
de inteligência artificial. Por outro lado, para Vercellis (2009) as atividades de DM
constituem um processo iterativo, ligado à análise de grandes bases de dados, com o
propósito de extrair conhecimento e informação que seja pertinente para a tomada de
decisão e a solução de problemas.
Todos os autores referenciados anteriormente, tocam no mesmo ponto aquando da
definição do termo DM: descoberta de conhecimento. Segundo Jiawei et al. (2012), muitos
autores tratam o DM como sinónimo do termo “descoberta de conhecimento em dados”
33
(knowledge discovery from data [KDD]). Este processo, ilustrado na figura 12, passa pelos
seguintes passos:
• Limpeza de dados;
• Integração de dados;
• Seleção de dados,
• Transformação de dados;
• Mineração de dados (DM);
• Avaliação de padrões;
• Apresentação de conhecimento.
Figura 12 - Processo KDD (adptado de (Fayyad, Piatetsky-Shapiro, & Smyth (Fayyad et al., 1996))
2.5.2 Taxonomia de dados
Os dados existentes numa base de dados podem consistir em números, palavras,
imagens, entre outros, e servem como medidas das variáveis (Turban et al., 2010).
Segundo Turban et al. (2010), os dados, a um nível elevado de abstração, podem ser
classificados como categóricos ou númericos, sendo subsequentemente, subdividos em
nominal ou ordinal e intervalo ou rácio, respetivamente. A figura 13 ilustra a divisão
categórica dos dados.
34
Figura 13 – Taxonomia de dados (adaptado de Turba et. al (Turban et al., 2010))
Alguns métodos de DM têm particularidades acerca do tipo de dados que podem
manusear. A incorreta associação do tipo de dados ao método, pode levar a que este não
funcione corretamente (Turban et al., 2010).
2.5.3 Tarefas de Data Mining
As tarefas associadas ao DM podem ser divididas em dois grupos: descrição ou previsão. A
descrição permite identificar regras que caracterizam os dados analisados, enquanto que, a
previsão faz uso de determinados atributos para ver o valor de uma outra variável. Ao nível da
previsão, o melhor modelo é aquele que apresenta o prognóstico mais elevada, por outro lado,
ao nível da descrição, nem sempre o que obtém a percentagem de acerto mais proeminente
corresponde ao melhor, mas sim, aquele que permite adquirir mais conhecimento conciso dos
dados em análise (Santos & Ramos, 2006).
A figura 14 apresenta a taxonomia de DM, no que toca ás abordagens, técnicas e
objetivos.
35
Figura 14 - Taxonomia de Data Mining (retirado de (Costa, 2012))
Os Modelos de Classificação ou de indução supervisionada (Turban et al., 2010),
permitem o enquadramento de um conjunto de dados dentro das classes predefinidas,
identificando a classe a que cada elemento pertence (Santos & Ramos, 2006). As classes
representam uma agregação de valores possíveis e os atributos os valores de saída, no
processo de Classificação (Chapman et al., 2000). O objetivo dos modelos de classificação é
analisar os dados históricos armazenados numa base de dados e gerar automaticamente um
modelo que prevê o comportamento futuro (Turban et al., 2010). O desenvolvimento deste
tipo de modelos apresenta as seguintes fases, segundo Chapman et al. (2000):
• Fase de treino;
• Fase de teste;
• Fase de previsão;
Segundo Kılıç Depren, Aşkın, & Öz (2017), as ferramentas de classificação mais
comuns são: árvores de decisão, os naive Bayes, as redes neuronais e os algoritmos de
regressão linear. Os algoritmos de regressão linear assumem a relação entre as variáveis de
entrada e as de saída (S.Ponmani, Roxanna Samuel, 2017). As redes neuronais envolvem o
desenvolvimento de estruturas matemáticas que têm a capacidade de aprender através de
acontecimentos passados (apresentados através de datasets bem estruturados). A principal
desvantagem deste tipo de ferramenta é o aumento exponencial do tempo de treino à
36
medida que o número de dados aumenta. Por outro lado, as árvores de decisão, classificam
os dados sobre um número finito de classes, baseados nos valores das variáveis de entrada.
A principal desvantagem das árvores de decisão consiste no facto da incorporação de
variáveis contínuas requerer a conversão de valores contínuos para um intervalo e/ou
categorias.
Os modelos de Regressão , ao contrário dos modelos de classificação, são utilizados
quando as variáveis alvo atuam sobre valores contínuos. O principal objetivo é prever,
aproximadamente, mediante cada observação, o valor da variável alvo (Vercellis, 2009).
Um problema de regressão poder-se-à transformar num problema de classificação e
vice-versa, por exemplo, uma companhia de telecomunicações querer uma classificação dos
seus clientes baseanda na lealdade, transforma-se imediatamente num problema de
regressão, se tivermos que prever a probabilidade de um cliente se manter leal (Vercellis,
2009).
2.6 Web Intelligence
2.6.1 Contextualização e Conceito
Segundo Loh & Garin (2001) o crescente número de páginas web e o aumento de
informação (seja por via de publicações ou criações), leva a um fenómeno designado de
“sobrecarga de informação” (ou em inglês information overload). O acontecimento deste
fenómeno deve-se muito ao facto de, apesar de a informação ser abundante, o utilizador
não conseguir tratá-la ou encontrar conhecimento nela, de forma a esta ter influência
positiva, nas tomadas de decisões. (Zhong et al., 2002).
Este tipo de problema evidenciou a necessidade de criação de mecanismos de auxílio
na procura de informação ou conhecimento em dados (Loh & Garin, 2001). Posto isto surgiu
o Web Intelligence (WI), que providência ferramentas web, aos utilizadores do negócio, que
os ajudarão na tomada de decisão e também a ter um conhecimento mais profundo dos
dados do negócio (Brogden et al., 2014). Para Liu (2003) WI junta conhecimentos da
pesquisa e desenvolvimento científico, de maneira a explorar os papéis fundamentais e os
principais impactos da Inteligência Artificial (AI) na próxima geração de sistemas, serviços e
ambientes de base web.
37
2.6.2 Dados na Web
Segundo Srivastava, Cooley, Deshpande, & Tan (2000) os dados, armazenados na web,
podem ter variados formatos e podem ser recolhidos de:
• Bases de dados;
• Servidores Web;
• Cliente Web;
• Servidores proxy.
O autor afirma ainda que os dados, em páginas web, podem ainda ser classificados
mediante o seu conteúdo (texto, imagens), a sua estrutura (html,xml,json,links) e o seu uso.
2.6.3 Capacidades do Web Intelligence
Existem variados exemplos do uso de sistemas inteligentes baseados em tecnologias
web. Liu (2003) apresenta-nos um, relacionado com uma visita à cidade de Montreal pela
primeira vez. O evento desenrola-se da seguinte forma:
• Primeiro, a pessoa, já em Montreal, procura saber um bom evento para passar
a noite;
• De seguida, como ela só conhece um lugar nessa cidade, desloca-se até lá e,
sendo esse local um Cyber Café, usa um computador para utilizar uma
aplicação que lhe dirá qual ou quais são os melhores eventos, atualmente, a
decorrer;
• Efetua então o login na aplicação, com o seu username, por exemplo,
“Spiderman”, e começa por fazer a seguinte pergunta:
“Qual são os melhores eventos para me divertir nesta altura do ano em
Montreal”
• De seguida a aplicação de inteligência web pensa durante um bocado e
responde:
“Spiderman”, nesta altura está a decorrer o campeonato nacional de hóquei e
existem jogos na localidade onde se encontra. Pretende ver algum?”
38
• O utilizador de seguida responde:
“Sim.”
• De seguida a aplicação sugere:
“Do meu conhecimento ainda existem bilhetes disponíveis e podem ser
comprados no Fórum de Montreal. Pode chegar até lá de metro (usando a
estação Atwater) ou de táxi”.
De seguida o utilizador decide se quer ir a esse evento ou não. Neste exemplo são
demonstradas algumas capacidades da inteligência web, segundo Liu (2003), tais como:
• Organização automática de servidores – a técnica de WI irá automaticamente
regular as funções e cooperações entre os websites e aplicações, relacionadas
entre si por um determinado tema.
• Especialização – WI por si só corresponde a um agente, que a um determinado
ponto se especializa na realização de alguns papéis e serviços.
• Crescimento – com a obtenção de conhecimento, os sistemas têm a
capacidade de crescer através de novas aprendizagens.
• Semântica – este tipo de sistemas têm que compreender o que nós desejamos
dizer, por exemplo, com “Montreal”, “época”, de forma a compreender a
granularidade das correspondências.
• Planeamento – o sistema planeia cada pormenor da pesquisa. No exemplo
anterior, consegui-o perceber qual era a época a que o utilizador se referia,
descobrir um evento e planear uma saída que fosse de encontro aos requisitos
pretendidos.
• Conhecimento-meta – para além de ser importante o reconhecimento da
semântica das palavras, a associação de conhecimento meta, que trata das
relações entre conceitos e das variáveis espácio-temporais, é também bastante
importante na organização de todo o plano.
2.6.4 Web Mining
39
Web Mining (WM) corresponde á utilização de técnicas de DM, para induzir e extrair
informação pertinente de repositórios web (Xu, Zhang, & Li, 2010).
Para Zhong et al. (2002), WM aplica técnicas de DM a repositórios de dados na web,
de forma a extrair conhecimento deles.
Já Srivastava et al. (2000) sugere que a aplicação de técnicas de DM, sobre dados
adquiridos na web, pode servir para realizar análises estatísticas sobre páginas, tempo gasto
na visita de páginas e números de acessos à mesma. O autor referencia também, que se
podem realizar análises de associações entre páginas.
Segundo Xu et al. (2010), WM pode ser classificado em três categorias, mediante os
objetivos do mining:
• Conteúdo de WM- tenta descobrir o conhecimento em sistemas
informacionais contidos na web;
• Estrutura de WM- está envolvido na modulação de websites em termos das
estruturas de ligação;
• Uso WM- tenta revelar os pacotes de acesso subjacentes de transações web
ou de sessões de utilizadores, usando os dados guardados nos logs.
O WM poderá ter várias aplicações em áreas distintas. Dentro delas podemos destacar
o E-commerce e o Targeted Marketing (Xu et al., 2010).
2.6.5 Aplicações de Web Intelligence
De seguida serão apresentadas algumas aplicações em que o WI poderá ter mais
influência, segundo Navin Kumar Tyagi & Tyagi (2010):
• Personalização– nesta área a maior aplicabilidade deste tipo de sistemas será
na percepção de como é que os clientes se comportam e quais as suas
preferências;
• Suporte ao Utilizador– as técnicas de WI podem ajudar na implementação de
conversas automáticas e/ou assistentes digitais, que interagem com o
utilizador através da linguagem, que nós, seres humanos, utilizámos.
• Procura de informações– auxiliar as pessoas na procura de informação na web,
através de métodos de filtragem automáticos.
40
• Intermediação de negócios – hoje em dia existem vários mercados virtuais
(muito geralmente através do e-commerce), onde empresas e clientes
negoceiam entre si (B2B – business to business ou B2C – business to client). Um
sistema inteligente pode analisar as procuras e fazer ofertas, negociar preços e
fechar negócios.
• Inteligência do negócio – entender o mercado, isto é, como este funciona, o
ambiente e toda a sua envolvente, de forma a poder oferecer os melhores
produtos e serviços ao cliente e também a melhorar os processos da empresa.
2.6.6 Soluções Web Intelligence no Mercado
Nesta área foram procuradas soluções que se focassem na utilização de dados,
provenientes de repositórios online, para melhorar os processos das organizações ou áreas
organizacionais. A tabela 5 apresenta as soluções e as respetivas características associadas a
cada uma.
Tabela 5 - Aplicações Web Intelligence no mercado
Soluções Características
OpenMIND
Ferramenta open-
source, que serve
organizações
governamentais e não
governamentais. Esta
ferramenta transforma,
automaticamente, dados
da web e da deep web,
que aparantemente não
têm relação entre si, em
dados com importância
para uma organização.
WebMIND Ferramenta poderosa de
41
procura de dados. Esta
recolhe, limpa e
estrutura dados
informacionais, de
diversas fontes,
facilitando a disposição
para análises posteriores
ou para processamento
noutros equipamentos.
Verint Web Intelligence
platform
Plataforma que recolhe
dados de locais online,
tais como, websites open
source, blogs, sites de
notícias e também da
deep web.
Hiwire System
Este é um sistema
WEBINT (Web
Intelligence) e tem a
particularidade de ter
sido desenvolvido
modularmente. Sendo
modular, esta solução
pode ser aplicada a
diversas áreas. As fontes
de dados são variadas.
2.7 Casos de Estudo
2.7.1 “Use Data Mining to improve student retention in Higher Education – A case study”
42
Zhang, Oussena, Clark, & Kim (2010) apresentam um caso de estudo, no qual referem
que o uso de técnicas de DM, pode, nas universidades, providenciar uma educação mais
personalizada, maximizar a eficiência do sistema educacional e reduzir os custos do processo
de educação. Refere também, que pode reduzir a retenção dos alunos, aumentar o rácio de
melhoramento e aumentar as capacidades de aprendizagem dos alunos.
Para entender os factos que influenciam as retenções nas universidades, normalmente
são usados questionários para recolha dados, tais como, historial do aluno, comportamento
do aluno, perceções do aluno, entre outros. Devido à pequena amostra de dados, que
normalmente esta técnica representa, a precisão pode nem sempre ser a melhor.
O projeto MCMS (Mining Course Management Systems), realizado na universidade de
Thames Valley, propôs a construção de um sistema de gestão de conhecimento baseado em
data mining. Foram usadas diferentes fontes de dados, tais como, biblioteca, e-learning, etc,
e integrados os seus dados numa DW baseada no desenho de modelos. Neste caso
específico, as técnicas de DM foram aplicadas para prever a performance individual dos
estudantes assim como a aptidão do curso ou modelos aplicados. Para os dados serem
compreendidos, foram utilizadas técnicas de Text Mining e Natural Language Processing
(NLP). A figura 15 demonstra o processo geral de um MCMS.
Figura 15 - Processo geral de um MCMS (adaptado de Zhang et al. (Zhang et al., 2010))
Num MCMS, a integração de modelos de dados é aplicada para extrair dados de
diferentes fontes ou sistemas (Zhang et al., 2010).
A figura 16 demonstra a arquitetura do sistema MCMS. As fontes de dados cobrem
as matrículas dos alunos, os dados dos cursos/módulos, as capacidades de aprendizagem,
entre outras. Os dados são carregados e transformados no DW. De seguida o DW gera
43
dados apropriados para o DM. A plataforma de base de dados usada neste caso de estudo
foi da Oracle 11g em conjunto com o Oracle DW e o Oracle data miner.
Figura 16 - Arquitetura de sistema de um MCMS (retirado de (Zhang et al., 2010))
Segundo Zhang et al. (2010) o uso deste tipo de sistemas pode ter uma grande
influência na forma como vemos, prevemos e combatemos a retenção. Os autores
chegaram à conclusão, de que, a retenção nada tem a ver com o background do aluno, mas
sim com as atividades académicas desenvolvidas por eles, tais como, quantas vezes dão uso
aos cursos online, o número de vezes que dão uso à biblioteca da universidade, entre outros
aspetos relacionados com estes.
44
2.7.2 “Business Intelligence in Thailand’s Higher Educational Resources Management”
O Ministério da Educação da Tailândia começou, desde 2005, a desenvolver uma base
dados relacionada com dados relativos ao Ensino Superior. O objetivo era desenvolver um
dataset standard a todas as instituições de educação do ensino superior.
Os elementos do dataset consistem em 49 campos relacionados com os estudantes, 35
campos relacionados com a universidade e 27 relacionados com o currículo.
A infraestrutura do sistema de informação inicialmente consistia no envio do dataset,
em formato papel, para o OHEC (Office of the Higher Education Commission), contudo, este
processo foi alterado para um suporte de base web, para encurtar o tempo de
processamento e reduzir erros causados por intervenção humana.
A figura 17 ilustra a infraestrutura que cada universidade tinha de implementar para
enviar os dados para a OHEC.
Figura 17 - Infraestrutura de Sistemas de Informação OHEC-DSS (adaptado de (Kleesuwan, Mitatha, Yupapin, & Piyatamrong, (Kleesuwan et al., 2010))
45
De forma a utilizar a base de dados da OHEC, tiveram de ser implementados vários
tipos de reports, utilizando várias linguagens de programação e sistemas de geração dos
mesmos. Se o sistema tiver de ser alterado, todo o código tem de ser alterado. O sistema de
suporte á decisão da OHEC (OHCE-DSS) foi desenvolvido utilizando ferramentas de business
intelligence da Microsoft e foram também desenvolvidas algumas visualizações front-end
para uma melhor interação com o utilizador. Em termos de segurança, o sistema requer
autenticação. A OHEC-EIS incorpora informação acerca dos alunos, staff e da universidade.
Esta base de dados serve o Ministério de forma estratégica, na medida em que, o
planeamento dos anos letivos, os orçamentos e os recursos são pensados tendo em conta
esses dados (Kleesuwan et al., 2010).
Segundo Kleesuwan et al. (2010) o sucesso do OHEC-DSS depende de dois fatores
principais:
• Os dados têm de estar corretos, ou seja, têm de ser verificados antes de ser
enviados para o OHEC-BD;
• Do sistema OLAP e da interface do utilizador.
2.7.3 “An Empirical Study of the Applications of Data Mining Techniques in Higher
Education”
Este estudo, realizado por Kumar & Chadha (2011), teve como principal foco a
identificação das áreas potenciais, sobre as quais as técnicas de data mining podem ser
aplicadas, na educação superior e também para identificar que tipo de técnicas de data
mining são suscetíveis para cada projeto.
Segundo Kumar & Chadha (2011) as principais técnicas usadas em data mining são:
• Análise de associação
• Classificação e previsão
• Análise de Cluster
• Análise de Outlier
Tendo como suporte as técnicas anteriormente referênciadas, podemos analisar os
dados extraídos em sala de aula e de aplicações de base web, para deles retirar
conhecimento e assim ajudar professores e alunos e tomar decisões (Kumar & Chadha,
46
2011). A figura 18 ilustra a forma como podemos extrair dados relativos ao ensino e aplicar
técnicas de DM.
Figura 18 - O ciclo de aplicação de Data Mining num sistema educacional (adptado de Kumar & Chadha (Kumar & Chadha, 2011))
Através do uso de técnicas de DM podemos realizar as seguintes atividades no seio
do Ensino Superiror (Kumar & Chadha, 2011):
• Organização do programa de estudos – Importante para manter a qualidade
do programa de ensino de cada instituição, o que poderá melhorar a qualidade
educacional e, consequentemente, melhorar aspetos como a aprovação dos
alunos;
• Prever o registo de estudantes num programa organizacional – DM ajuda a
identificar padrões , que servirão para tornar uma organização de ensino mais
competitiva , através do entendimento mais profundo de assuntos , tais como,
avaliação do plano e tomadas de decisão;
• Prever performance do estudante – com a extração de conhecimento dos
dados, é possível melhorar aspetos vitais no ambiente da instituição de ensino
e assim melhorar também as variáveis relativas aos estudantes;
• Detetar atividades fraudulentas num exame online – com o uso de técnicas de
DM, conseguimos detetar e prever atividades não permitidas. Os modelos
47
gerados usam dados comprimidos de diferentes estudantes acerca da sua
personalidade, situações de stress e dados comuns, anteriormente
armazenados , sobre tipos de atividades fraudulentas.
Segundo Kumar & Chadha (2011), o principal objetivo da aplicação de técnicas de DM
é o de suportar sistemas educacionais, gerando informação estratégica.
48
49
3. ABORDAGEM METODOLÓGICA
Este projeto encontra-se dividido em duas vertentes: uma teórica e uma prática. Posto
isto, serão utilizadas determinadas metodologias, que farão com que o desenvolvimento do
mesmo, seja realizado de forma adequada aos objetivos previamente traçados. O objetivo
do uso combinado de metodologias distintas, passa por utilizar as boas práticas por elas
oferecidas, e em conjunto com o conhecimento previamente obtido, “contruir” uma só que
ofereça uma robustez capaz de levar ao sucesso desejado.
As metodologias adotadas serão o Design Science Research (DSR), o Cross Industry
Standard Process for Data Mining (CRISP-DM) e a metodologia desenvolvida por Ralph
Kimball, “The Kimball Lifecycle”. É importante referir que o DSR será utilizado em todo o
desenvolvimento do projeto, enquanto que a metodologia desenvolvida por Kimball será
empregue na parte do desenvolvimento do sistema de Business Intelligence (BI) e o CRISP-
DM usado na secção destinada à extração de conhecimento dos dados, usando técnicas de
Data Mining (DM).
3.1 Design Science Research
O DSR corresponderá à base metodológica do desenvolvimento de todo o projeto.
Para Hevner, March, Park, & Ram (2004) o principal objetivo do uso da metodologia
DSR é a criação de artefactos (práticos, teóricos ou ambos), ligados às Tecnologias de
Informação (TI), que conterão conhecimento facilitando a solução de problemas
precocemente identificados numa determinada organização. A aplicação desta metodologia,
na sua maioria, é feita em problemas existentes no mundo real, sendo que, o conhecimento
e a compreensão são obtidos durante a criação e aplicação de um certo artefacto. Hevner et
al., (2004) dividiram o processo DS na pesquisa de sistemas de informação em sete
guidelines:
1. Design como um artefacto
2. Relevância do problema
3. Avaliação do Design
4. Contribuições da pesquisa
50
5. Rigor da pesquisa
6. Design como um processo de pesquisa
7. Comunicação e pesquisa
O propósito da sua utilização é o de obter os melhores resultados possíveis. Para isto
acontecer, o artefacto terá que ser inovador (Guideline 1) para um determinado domínio
(Guideline 2), este terá que ser avaliado para verificar a utilidade no problema em questão
(Guideline 3), deverá também resolver um problema que ainda não tenha sido resolvido, ou
então, apresentar uma alternativa melhor (Guideline 4), o artefacto terá também que ser
rigorosamente definido (Guideline 5), a pesquisa pela melhor solução terá que ser feita
cumprindo determinados factos e seguindo determinadas regras (Guideline 6) e por último,
os resultados (artefactos) terão que ser apresentados de forma eficiente a uma plateia das
áreas ligadas à tecnologia e à gestão (Guideline 7), (Hevner et al., 2004).
De maneira a melhor desenvolver o projeto e a fazer com que este não fuja do seu
rumo, aquando da escolha de uma metodologia, deve-se também designar um modelo que
divida o trabalho em determinados passos, com objetivos distintos, mas que no conjunto
formarão o artefacto desejado. Peffers et al., (2006) apresentam um modelo de processos,
ilustrado na figura 19, tendo como base o DSR, no qual dividem o trabalho em seis
atividades:
1. Identificação do problema e sua motivação – definição especifica do problema
de investigação e justificação do valor de uma solução. A definição correta do
problema é importante, na medida em que, esta será usada na construção do
artefacto que poderá ou não fornecer a solução desejada (Peffers et al., 2006).
Relativamente ao desenvolvimento desta dissertação, esta fase acenta na
formulação da questão e da motivação.
2. Definição de objetivos para a solução – os objetivos definidos para a solução
poderão ser quantitativos ou qualitativos. Quantitativos, na medida em que,
forneça informação de como a artefacto desenvolvido é melhor do que uma
solução já existente. Qualitativos no que toca à construção de um artefacto que
foque na resolução de um problema novo, ou seja, ainda sem solução. Os
objetivos devem seguir aquilo que foi feito anteriormente no estado de arte, ou
seja, seguir o problema e o conhecimento previamente obtido (Peffers et al.,
51
2006). Esta etapa, no desenvolver da dissertação, corresponderá à definição
dos objetivos, resultados esperados e também do enquadramento geral.
3. Conceção e desenvolvimento – nesta etapa incorre o desenvolvimento do
artefacto. Este poderá ter a natureza de construções, modelos, métodos ou
instanciações (Hevner et al., 2004). Será definida a funcionalidade necessária
do mesmo e a sua arquitetura (Peffers et al., 2006). Tendo em conta o
progresso deste projeto, este ponto equivalerá à criação do protótipo de Web
Intelligence.
4. Demonstração – nesta fase testa-se a capacidade do artefacto para resolver o
problema. A demonstração poderá ser feita através de experiências,
simulações, provas, casos de estudo ou outras alternativas viáveis (Peffers et
al., 2006). Posto isto, no decorrer da dissertação, esta fase coincidirá com os
testes efetuados ao sistema posteriormente criado.
5. Avaliação – apurar o impacto do artefacto na solução do problema e na criação
de novo conhecimento. Nesta atividade serão comparados os objetivos
definidos e os resultados reias produzidos pelo artefacto na atividade referida
anteriormente. No final desta atividade os investigadores terão que decidir se
voltam atrás (“Conceção e desenvolvimento”), para tentar melhorar a
eficiência do artefacto ou se continuam e deixam futuros melhoramentos para
outros projetos (Peffers et al., 2006). Nesta etapa o protótipo será avaliado
mediante os objetivos posteriormente traçados.
6. Comunicação – nesta última fase comunica-se o problema e a sua importância,
o artefacto, a sua utilidade e a sua eficiência (Peffers et al., 2006). Neste ponto
deverão ser descriminados todos os conteúdos diretamente relacionados com
o artefacto criado, sejam eles referentes, por exemplo, ao porquê de esta ser
uma solução inovadora ou pontos indicativos de melhoramentos que precisam
de ser realizados à solução criada. Esta fase representará a criação de artigos
científicos, o desenvolvimento do relatório da dissertação e a apresentação da
mesma.
52
Figura 19 - Metodologia do modelo de processos Design Science Research (adaptado de (Peffers, Tuunanen, Rothenberger, & Chatterjee (Peffers et al., 2007))
3.2 The Kimball Lifecycle
Para o desenvolvimento da componente mais prática da dissertação, serão utilizadas
duas metodologias, “The Kimball Lifecycle” desenvolvida por membros do Kimball Group e o
CRISP-DM explicado mais à frente no desenvolvimento do projeto.
The Kimball Lifecycle é uma metodologia usada para o desenvolvimento de sistemas
de Data Warehousing. Esta, providência uma framework generalista, que articula as várias
atividades para a implementação de um sistema de Data Warehouse(DW)/BI (Kimball, Ross,
Thornthwaite, Mundy, & Becker, 2008). Esta metodologia, representada na figura 20, é
constituída por onze atividades principais e uma atividade de suporte. A implementação
bem-sucedida de um sistema de DW e/ou BI, depende da integração apropriada de um
número de tarefas e componentes (Kimball et al., 2008). É importante referir que as
atividades sobre as quais devemos iterar (seguidamente explicadas), seguem uma ordem
lógica.
53
Figura 20- Diagrama The Kimball Lifecycle (adaptado de Kimball et al. (Kimball et al.,
2008))
1. Plano de Projeto – nesta primeira atividade, elaboração do “Plano de Projeto”, é
identificado e avaliado o nível geral do negócio, tendo como objetivo, perceber se
este é capaz de suportar a implementação deste tipo de sistema. De realçar que é
importante ter um conhecimento prévio dos requisitos básicos da
organização/negócio, para poder tomar decisões do seu ambiente nesta fase. Isto
é apurado, seguindo a imagem, com a seta bidirecional, que liga esta atividade
com outra, designadamente “Definição dos requisitos do negócio”, que
demonstra a dependência entre elas (Kimball et al., 2008).
2. Gestão do Projeto – esta prática assegura que todas as atividades desta
metodologia permanecem “sobre rodas” e em sincronia (Kimball et al., 2008). É
realizada ao longo de todo o projeto e sustenta a obtenção dos resultados
desejados.
3. Definição dos requisitos de negócio – de seguida são identificados os requisitos
do sistema através do diálogo com os responsáveis e utilizadores finais. Os
analistas do sistema de DW/BI devem entender os principais fatores que movem
o negócio, de maneira a transcrever os requisitos do mesmo num bom design do
sistema (Kimball et al., 2008).
4. Desenho da arquitetura técnica/Modelação dimensional/ Desenho da aplicação
de BI – terminadas as atividades anteriores, seguem-se outras três que decorrem
em paralelo. Na primeira, “Desenho da arquitetura técnica”, é estabelecida uma
54
framework da arquitetura geral e a sua (Kimball et al., 2008). Aqui são definidas e
configuradas as caraterísticas de todo o ambiente estrutural e aplicacional. Na
ação seguinte, “Modelação dimensional”, são elaborados os esquemas dos
modelos de dados e dos sistemas de armazenamento e carregamento de dados.
É criada uma matriz que servirá como blueprint da arquitetura de dados, para
assegurar que o sistema pode ser integrado e estendido, ao longo do tempo, na
organização (Kimball et al., 2008). Nesta fase é definida a granularidade da tabela
de factos, as suas dimensões, os respetivos atributos e os caminhos para efetuar
posteriores pesquisa. Por último, a atividade “Desenho da aplicação de BI”,
servirá para identificar aplicações BI e front-end que melhor servirão as
necessidades e capacidades do utilizador.
5. Desenho Físico/Seleção e Instalação do Produto – na atividade “Seleção e
Instalação do Produto”, será utilizado o plano da arquitetura técnica para
escolher os produtos que melhor se adequam ás necessidades. Assim que
designadas as ferramentas, estas terão de ser instaladas e, subsequentemente,
testadas para certificar a integração com o ambiente anteriormente pensado.
Paralelamente, na atividade “Desenho Físico”, é desenhada a estrutura da base
de dados e a sua segurança (Kimball et al., 2008), muito semelhante ao modelo
dimensional desenvolvido, contudo, terão de ser tidos em conta mais alguns
problemas que possam vir a existir.
6. Desenho e Desenvolvimento do ETL / Desenvolvimento da aplicação de BI –
Estas duas atividades, serão, também, realizadas simultaneamente. Na primeira
será realizado todo o processo ETL (“extrair, transformar e carregar dados”). Esta,
mesmo tendo todas as outras etapas planeadas de forma exemplar, encarga o
maior risco e esforço aplicado, cerca de 70% (Kimball et al., 2008). A segunda
atividade concerne à construção e validação das operações analíticas e
operacionais das aplicações de BI (Kimball et al., 2008). Tem como objetivo,
seguindo o desenho da aplicação anteriormente desenvolvido, conceber um
portal de navegação lógico, que, aquando da sua análise, facilite ou interfira
positivamente na tomada de decisão.
7. Implementação – as atividades anteriormente mencionadas e focadas nas
tecnologias, nos dados e nas aplicações BI, convergem nesta ação
55
“Implementação”, auxiliando na verificação da correta construção e
carregamento do DW e se as aplicações de acesso ao mesmo são as melhores
para o problema em questão. Esta fase terá que garantir que as peças do puzzle
encaixam na perfeição (Kimball et al., 2008).
8. Crescimento/Manutenção – depois de construído e implementado, o sistema
terá de ser mantido e aspirar o seu crescimento, por exemplo, no caso de se focar
somente numa área da organização, ser usados para outras. Como tal, terão de
ser fornecidas constantes formações aos utilizadores, assim como suporte
técnico. A construção deste tipo de sistemas tem que ser focada no negócio e no
crescimento (Kimball et al., 2008).
Pressupõe-se assim, que esta metodologia seja adequada à construção e
implementação de um sistema de DW, sistema esse, que influenciará o negócio ao nível da
tomada de decisão por parte dos gestores do negócio, na organização em questão.
3.3 Cross Industry Standard Process for Data Mining (CRISP-DM)
O processo de DM, enquanto fator de progresso da organização ao nível dos
resultados, serve como uma “arma”, sobre a qual a mesma poderá tirar proveito (Groth,
2000), de maneira a facilitar a compreensão, implementação e desenvolvimento deste tipo
de processos. O uso de uma metodologia facilita e torna a experiência muito mais agradável
para todos os intervenientes.
Tendo em conta o que foi dito anteriormente, no decorrer do processo de DM, será
utilizada a metodologia CRISP-DM (Cross Industry Standard Process for Data Mining), de
forma a analisar e detetar relações, tendências e padrões num conjunto, normalmente,
alargado de dados.
Como podemos apurar na figura 21, esta metodologia está dividida em seis fases,
sendo que a sequência das mesmas não é totalmente rígida (Chapman et al., 2000).
56
Figura 21 - Fases do modelo de referência CRISP-DM (adaptado de Chapman et al. (Chapman et al., 2000)).
• Compreensão do negócio - Esta primeira fase tem como foco principal a
compreensão dos requisitos e objetivos inerentes a uma dada organização para,
futuramente, poder converter o conhecimento obtido num problema de DM e em
objetivos que servirão de base motivacional ao longo de toda a realização do projeto
(Chapman et al., 2000).
• Compreensão dos dados - Esta etapa é iniciada com a aquisição dos dados e
prossegue com atividades relacionadas com a compreensão dos mesmos (Chapman
et al., 2000). Dentro destas ações, podemos destacar a identificação de problemas e
a deteção (inicial) dos temas com características mais interessantes, do ponto de
vista de serem alvo de uma futura análise.
• Preparação dos dados – Este passo, engloba todas as tarefas necessárias para
construção do dataset/base de dados final, assim como, a seleção de tabelas e
atributos e a transformação e limpeza dos dados (Chapman et al., 2000).
• Modelação – Este ponto abrange o uso de várias técnicas de modulação e a
otimização dos seus parâmetros para atingir os melhores resultados possíveis.
Usualmente, podem ser utilizadas diversas técnicas, para o mesmo problema, porém,
57
cada uma poderá ter um requisito próprio sobre a formatação dos dados. Tais
imposições levam a que possa existir um recuo para a fase anterior (Chapman et al.,
2000).
• Avaliação - Assim que atingimos esta fase, temos contruído um modelo ou um
conjunto de modelos com grande qualidade, de um ponto de vista da análise dos
dados. Todavia, antes de avançar para o próxima momento, é importante rever todos
os passos efetuados até então, para ter a certeza que, o modelo vai de encontro aos
objetivos previamente traçados (Chapman et al., 2000). No final desta fase, terá de
haver uma resposta à pergunta “O que fazer com os resultados obtidos?”.
• Implementação - Com o modelo criado, não significa que o projeto esteja acabado,
mesmo quando o propósito é única e exclusivamente a obtenção de um maior
conhecimento através dos dados. Esse conhecimento alcançado terá que ser
organizado e apresentado de uma maneira que o utilizador o possa usar (Chapman et
al., 2000). Esta fase poderá ter dois sentidos: um mais simples, que representa a
criação de relatório, ou outro mais complexo, que envolve a repetição do processo
de DM ao longo de toda a organização.
Dado que, no desenrolar deste projeto, será também utilizada a metodologia
desenvolvida por Ralph Kimball, “The Kimball Lifecycl”e, as três primeiras tarefas do CRISP-
DM, “Compreensão dos dados”,” Compreensão do negócio” e “Preparação dos dados”, já
estarão previamente preparadas, aquando da realização das tarefas “Definição dos
requisitos de negócio” e da concretização do processo ETL.
58
59
4. PLANEAMENTO
No presente capítulo serão apresentados o plano de atividades e a lista de riscos deste
projeto de dissertação.
4.1 Atividades
Nesta secção serão divididas as atividades inerentes ao projeto, ao longo de toda a
linha temporal de desenvolvimento da dissertação. A dissertação será realizada durante o
período de 11 de setembro de 2017 a 30 de novembro de 2018 (prazo estimado para a
apresentação da dissertação). Esta dissertação é composta por 4 atividades principais:
• Elaboração do plano de trabalhos;
• Elaboração do projeto de dissertação;
• Elaboração da dissertação;
• Elaboração de artigos científicos.
Na tabela 6, estão apresentadas as atividades do plano de trabalho, as respetivas
datas de ínicio e fim e as respetivas precedências.
Tabela 6 - Plano de Atividades
ID Atividade Início Conclusão Precedência
1 Plano de Atividades 11/09/2017 30/11/2018
1.1 Plano de Trabalho 01/09/2017 01/10/2017
1.1.1 Desenvolvimento do resumo e
enquadramento 02/09/2017 02/09/2017
1.1.2 Descrição dos objetivos e resultados
esperados 05/09/2017 05/09/2017 1.1.1
1.1.3 Descrição das abordagens
metodológicas 06/09/2017 10/09/2017 1.1.2
1.1.4 Formulação do plano de trabalhos 15/09/2017 16/09/2017 1.1.3
1.1.5 Envio do plano de trabalhos 29/09/2017 29/09/2017 1.1.4
60
1.2 Projeto de dissertação 01/10/2017 19/02/2018 1.1
1.2.1 Formulação do problema e Motivo 01/10/2017 01/10/2017 1.1
1.2.2 Definição dos objetivos 03/10/2017 03/10/2017 1.2.1
1.2.3 Pesquisa e seleção literária 05/10/2017 05/12/2017 1.2.2
1.2.4 Elaboração do relatório da
dissertação 06/12/2017 15/02/2018 1.2.3
1.2.5 Revisão do relatório da dissertação 15/02/2018 18/02/2018 1.2.4
1.2.6 Entrega do relatório da dissertação 19/02/2018 19/02/2018 1.2.5
1.3 Dissertação 20/02/2018 30/09/2018 1.2
1.3.1 Desenvolvimento do artefacto 20/02/2018 27/08/2018 1.2
1.3.1.1 Requisitos do negócio 20/02/2018 15/03/2018 1.2
1.3.1.2 Arquitetura tecnológica 15/03/2018 15/04/2018 1.3.1.1
1.3.1.3 Seleção e instalação do produto 16/04/2018 18/04/2018 1.3.1.2
1.3.1.4 Modelação dimensional 19/04/2018 21/05/2018 1.3.1.1
1.3.1.5 Conceção Física 21/05/2018 15/06/2018 1.3.1.4
1.3.1.6 Conceção e desenvolvimento do
processo ETL 15/06/2018 15/07/2018 1.3.1.5
1.3.1.7 Conceção da aplicação BI 15/05/2018 15/06/2018 1.3.1.1
1.3.1.8 Aplicação de técnicas de DM 17/07/2018 31/07/2018 1.3.1.7
1.3.1.9 Desenvolvimento de aplicação
web 31/07/2018 20/08/2018 1.3.1.8
1.3.2 Demonstração do Artefacto 21/08/2018 30/08/2018 1.3.1.9
1.3.3 Avaliação do artefacto 30/08/2018 08/09/2018 1.3.3
1.3.4 Elaboração e Revisão do relatório da
dissertação 09/09/2018 30/09/2018 1.2
1.4 Comunicação do artefacto 20/03/2018 30/11/2018 1.2
1.4.1 Escrita e revisão dos artigos
científicos 20/03/2018 30/09/2018 1.3.1.1
1.4.2 Submissão do relatório de
dissertação 22/10/2018 22/10/2018 1.3.4
1.4.3 Apresentação da dissertação 30/11/2018 30/11/2018 1.4.2
61
4.2 Lista de Riscos
Na tabela 7 são apresentados os riscos inerentes ao desenvolvimento do projeto. Nela
são expostas as variáveis associadas a cada risco: probabilidade, impacto, severidade,
explicação e mitigação. Tanto à probabilidade como ao impacto serão atribuídos valores
compreendidos de 1-5, sendo 1 o valor mais baixo e 5 o mais alto. A severidade resulta da
multiplicação das duas variáveis anteriormente referidas, percebendo assim qual o risco que
mais influência poderá ter no projeto. A identificação dos riscos leva a que haja uma
prevenção prévia da ocorrência dos mesmos.
Tabela 7 - Tabela de riscos inerentes ao projeto
RISCO Probabilidade Impacto Severidade Explicação Mitigação
Obstáculos no
manuseamento
da ferramenta
2 5 10
A inexperiência
na utilização
das
ferramentas
pode provocar
o adiamento
da entrega da
dissertação ou
a
concretização
de todos os
resultados
esperados.
Consultar
documentação,
tutoriais, assim
como, explorar
a ferramenta.
Reunir com
orientador para
partilha de
conhecimento.
Complexidade
elevada do
Projeto
2 5 10 A
complexidade
e proporção do
protejo poderá
implicar o
atraso da sua
Fomentar o
domínio das
ferramentas e
técnicas a
serem
utilizadas.
62
entrega.
Especializar o
controle da
ferramenta e
procedimentos
a serem
implementados.
Reduzida
qualidade dos
dados
2 4 8 A fraca
qualidade dos
dados pode
comprometer
a qualidade
final do
projeto.
Analisar
rigidamente os
dados,
assinalando e
categorizar os
erros,
inconsistências
e incoerências.
Incompreensão
dos objetivos
do projeto e
dos resultados
esperados
2 4 8 A má
compreensão
dos objetivos
inerentes ao
projeto pode
afetar a
qualidade do
mesmo e
desviar o
resultado
pretendido.
Reunir com
orientador para
esclarecer
dúvidas.
Modificação
dos objetivos e
Resultados
expectáveis
2 3 6 O orientador
pode
providenciar
modificações
Adaptar o plano
de trabalho.
63
nos objetivos
do projeto
causando a
readaptação
do plano de
trabalho.
Incumprimento
dos resultados
e objetivos
esperados
1 5 5 O
incumprimento
dos resultados
e objetivos
previstos do
trabalho,
compromete a
qualidade do
projeto ou até
a aceitação do
mesmo pelo
orientador.
Adiamento da
entrega do
projeto.
Indevido
planeamento
das atividades
a alcançar
1 5 5 Um fraco
planeamento
do projeto
pode
prejudicar a
qualidade do
trabalho final e
até a entrega
no tempo
definido.
Identificar e
priorizar as
atividades
chaves e ajustar
no plano de
trabalho
Medíocre
comunicação
com o
1 4 4 A ausência ou
escassa
comunicação
Definir reuniões
regulares e
estabelecer
64
orientador com o
orientador
pode gerar
uma má
interpretação
dos resultados
do projeto ou
embaraçar a
qualidade final
do projeto.
plataformas de
comunicação.
Extravio de
Ficheiros
1 3 3 Falhas, a nível
de hardware e
software na
máquina onde
se encontram
os ficheiros do
projeto,
podem
conduzir à
perda dos
mesmos,
provocando
desvios no
plano de
trabalho
Recuperar
ficheiros
através de
backups.
Ajustar plano
de trabalho.
Falha da
Máquina
1 3 3 A avaria na
máquina pode
atrasar o plano
de trabalho.
Recuperar
ficheiros
através dos
backups.
Utilizar
máquina de
65
reserva. Ajustar
plano de
trabalho.
66
67
5. CONCLUSÃO
Com a finalidade de responder à pergunta “De que maneira o desenvolvimento de
sistemas inteligentes, baseados em web, podem ter influência no apoio à toma de decisão
no ensino superior?”, foi realizado um estudo literário com o objetivo de aprimorar
conhecimentos na área. As principais conclusões retiradas da análise literária foram:
aumento dos dados relacionados com o ensino e a falta de capacidade de os aproveitar para
tornar o processo de tomada de decisão mais simples nesta área. Tendo percebido a
existência desta necessidade, foi criado o Web Intelligence (WI), que fornece um conjunto de
aplicações, de base web, que simplificam o processo de extração, carregamento,
transformação e extração de conhecimento dos dados.
A perceção de como estes sistemas podem realmente ter impacto no “mundo-real”,
foi completa aquando da pesquisa de casos de estudo relacionados com o tema em estudo.
Foi verificado que não existe uma larga difusão de estudo nesta área, sendo que os casos de
estudo apresentados, demonstram, na sua maioria, soluções de Business Intelligence (Bi) e
arquiteturas de construção de sistemas WI.
No geral, a revisão literária permitiu compreender melhor todos os conceitos ligados
ao tema em estudo, bem como identificar tecnologias que poderão servir para a
componente prática deste projeto.
Na próxima etapa da dissertação irá ser realizada a vertente prática, que terá como
principal objetivo o desenvolvimento de um protótipo WI. Também serão realizados artigos
científicos, que idealmente adicionarão conhecimento à área e que futuramente possam
ajudar outros no desenvolvimento de projetos semelhantes.
68
69
BIBLIOGRAFIA
Ariyachandra, T., & Watson, H. J. (2006). Which Data Warehouse Architecture Is Most
Successful? Business Intelligence Journal, 11(1), 4–6.
https://doi.org/10.1145/1400181.1400213
Brogden, J., Sinkwitz, H., Marks, D., & Orthous, G. (2014). Introduction to SAP
BusinessObjects Web Intelligence 4.1 (3rd editio). Retrieved from https://s3-eu-west-
1.amazonaws.com/gxmedia.galileo-
press.de/leseproben/3673/Reading_Sample_sappress_1057_SAP_BusinessObjects_We
b_Intelligence_updated.pdf
Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., & Wirth, R. (2000).
Crisp-Dm 1.0. CRISP-DM Consortium, 76. https://doi.org/10.1109/ICETET.2008.239
Chaudhuri, S., & Dayal, U. (1997). An overview of data warehousing and OLAP technology.
ACM SIGMOD Record, 26(1), 65–74. https://doi.org/10.1145/248603.248616
Chen, H., & Storey, V. C. (2012). Business Intelligence and Analytics : From Big Data To Big
Impact. Mis Quarterly, 36(4), 1165–1188. https://doi.org/10.1145/2463676.2463712
Costa, S. A. R. da. (2012). Sistema de business intelligence como suporte à gestão
estratégica. Retrieved from http://repositorium.sdum.uminho.pt/handle/1822/25810
Dougherty, C. (2015). Use of Data to Support Teaching and Learning: A Case Study of Two
School Districts. ACT Research Report Series, 2015(1). Retrieved from
https://files.eric.ed.gov/fulltext/ED558033.pdf
Eckerson, W. W. (2006). Performance dashboards : measuring, monitoring, and managing
your business. John Wiley. Retrieved from
https://books.google.pt/books/about/Performance_Dashboards.html?id=rCt-
FVy8PvcC&redir_esc=y
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge
Discovery in Databases. AI Magazine, 17(3), 37.
https://doi.org/10.1609/aimag.v17i3.1230
Golfarelli, M., & Rizzi, S. (2009). Data Warehouse Design, Modern Principles and
Methodologies. Data Warehouse.
Groff, J. (2013). Technology-rich innovative learning environments. Oecd.Org, 1–30.
https://doi.org/10.1017/CBO9781107415324.004
Groth, R. (2000). Data mining : building competitive advantage. Prentice Hall PTR.
Inmon, W. H. W. H. (2005). Building the data warehouse. Career: Data and Analytics.
Jiawei, H., Kamber, M., Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and
Techniques. San Francisco, CA, itd: Morgan Kaufmann. https://doi.org/10.1016/B978-0-
12-381479-1.00001-0
Kimball, R., Reeves, L., Ross, M., & Thornthwaite, W. (2008). The Data Warehouse Lifecycle
Toolkit: Expert Methods for designing, developing and deploying data warehouse.
70
Architecture. Wiley Pub.
Kimball, R., & Ross, M. (2013). The Data Warehouse Toolkit, The Definitive Guide to
Dimensional Modeling. Vasa. Wiley. https://doi.org/10.1145/945721.945741
Kılıç Depren, S., Aşkın, Ö. E., & Öz, E. (2017). Identifying the Classification Performances of
Educational Data Mining Methods: A Case Study for TIMSS. Educational Sciences:
Theory & Practice, 17(5), 1605–1623. https://doi.org/10.12738/estp.2017.5.0634
Kleesuwan, S., Mitatha, S., Yupapin, P. P., & Piyatamrong, B. (2010). Business intelligence in
Thailand’s higher educational resources management. Procedia - Social and Behavioral
Sciences, 2(1), 84–87. https://doi.org/10.1016/j.sbspro.2010.01.018
Kumar, V., & Chadha, A. (2011). An Empirical Study of the Applications of Data Mining
Techniques in Higher Education. International Journal of Advanced Computer Science
and Applications, 2(3), 80–84. https://doi.org/10.14569/IJACSA.2011.020314
Liu, J. (2003). Web Intelligence (WI): What makes wisdom web? IJCAI International Joint
Conference on Artificial Intelligence.
Loh, S., & Garin, R. (2001). WEB INTELLIGENCE – INTELIGÊNCIA ARTIFICIAL PARA
DESCOBERTA DE CONHECIMENTO NA WEB. Intelligence. Retrieved from
file:///C:/Users/adria/Google Drive/Tese/WI/5630eebc08ae13bc6c3549eb.pdf
Navin Kumar Tyagi, A. K. S., & Tyagi, S. (2010). An Algorithmic Approach To Data
Preprocessing in Web Usage Mining. International Journal of Information Technology
and Knowledge Management, 2(2), 279–283. Retrieved from
https://pdfs.semanticscholar.org/56fe/18e6b14a02c8ad898e56912013ed92bd9be6.pdf
Negash, S. (2004). Business Intelligence. Communications of the Association for Information
Systems, (January 2004). https://doi.org/10.1007/s00287-009-0374-1
Olszak, C. M., & Ziemba, E. (2012). Critical Success Factors for Implementing Business
Intelligence Systems in Small and Medium Enterprises on the Example of Upper Silesia,
Poland. Interdisciplinary Journal of Information, Knowledge & Management, 7, 129–
150. https://doi.org/15551229
Rahm, E., & Do, H. H. (2000). Data Cleaning : Problems and Current Approaches. IEEE, 1–11.
Retrieved from http://dbs.uni-leipzig.de
Rainardi, V. (2008). Building a Data Warehouse With Examples in SQL Server. Retrieved from
www.apress.com
Rhodes, L. (2017). Teaching and technology: case studies from India, (January). Retrieved
from http://www.centralsquarefoundation.org/wp-
content/uploads/2017/01/Teaching-and-technology-case-studies-from-
India_FINAL_low_res_NEW.pdf
S.Ponmani, Roxanna Samuel, P. V. (2017). Classification Algorithms in Data Mining – A
Survey. International Journal of Advanced Research in Computer Engineering &
Technology, 6(1).
Santos, M. Y., & Ramos, I. (2006). Business Intelligence: tecnologias da informação na gestão
de conhecimento. FCA - Editora de Informática, Lda. Retrieved from
http://repositorium.sdum.uminho.pt/handle/1822/6198
71
Srivastava, J., Cooley, R., Deshpande, M., & Tan, P.-N. (2000). Web Usage Mining : Discovery
and Applications of Usage Patterns from Web Data. ACM SIGKDD Explorations
Newsletter, 1(2), 12–23. https://doi.org/10.1145/846183.846188
Turban, E., Sharda, R., Delen, D., King, D., & Aronson, J. E. (2010). Business Intelligence: A
Managerial Approach (Vol. 0). Retrieved from
https://books.google.com/books?id=IvZ0RAAACAAJ&pgis=1
Vassiliadis, P., Simitsis, A., & Skiadopoulos, S. (2002). Conceptual modeling for ETL processes.
In Proceedings of the 5th ACM international workshop on Data Warehousing and OLAP -
DOLAP ’02 (pp. 14–21). New York, New York, USA: ACM Press.
https://doi.org/10.1145/583890.583893
Vaz de Oliveira e Sá, J. (2009). Metodologia de Sistemas de Data Warehouse. Retrieved from
http://repositorium.sdum.uminho.pt/bitstream/1822/10663/4/Tese de
doutoramento_Jorge Vaz de Oliveira e Sá_2009.pdf
Vercellis, C. (2009). Business Intelligence: Data Mining and Optimization for Decision Making.
Wiley. Retrieved from
https://books.google.pt/books/about/Business_Intelligence.html?id=Yl_yAn2bhZ0C&re
dir_esc=y
Xu, G., Zhang, Y., & Li, L. (2010). Web Mining and Social Networking: Techniques and
Applications. Springer. Retrieved from
https://books.google.com/books?id=mXo9zKeYa6cC&pgis=1
Yeoh, W., & Koronios, A. (2010). CRITICAL SUCCESS FACTORS FOR BUSINESS INTELLIGENCE
SYSTEMS. Journal of Computer Information Systems, 50(3), 23–32.
https://doi.org/10.1109/SISY.2012.6339583
Zhang, Y., Oussena, S., Clark, T., & Kim, H. (2010). Using data mining to improve student
retention in HE: a case study, 8.
Zhong, N., Liu, J., & Yao, Y. (2002). In search of the Wisdom Web, 27–31.
Zhong, N., Liu, J., & Yao, Y. (2007). Envisioning intelligent information technologies through
the prism of web intelligence. Communications of the ACM, 50(3), 89–94.
https://doi.org/10.1145/1226736.1226741
72
73
ANEXO I – MATRIZ DE CONCEITOS
Na tabela 8 é apresentada a matriz de conceitos, que serve para cruzar a literatura
efetuada com os conceitos definidos. É de realçar que foram considerados os autores que
mais influência tiveram no desenvolvimento do projeto.
Tabela 8 - Matriz de Conceitos
Autor
Conceitos
Web
Intelligence
Business
Intelligence
Data
Warehouse
Data
Mining
Brogden et al. (2014) x
Fayyad et al. (1996) x
Groth (2000) x
Inmon (2005) x x
Jiawei et al. (2012) x
Kimball & Ross (2013) x x
Kimball, Reeves, Ross, &
Thornthwaite (2008) X x
Loh & Garin (2001) x
Negash (2004) x
Santos & Ramos (2006) x x x
Srivastava et al. (2000) x
Turban et al. (2010) x x x
Vaz de Oliveira e Sá (2009) x x
Vercellis (2009) x x
Zhong et al. (2002) x
Zhong, Liu, & Yao (2007) x