Adriano Rafael Rodrigues Faria Maia - dsi.uminho.pt · Adriano Rafael Rodrigues Faria Maia Web Intelligence no Ensino Superior Dissertação de Mestrado Mestrado em Engenharia e Gestão

Adriano Rafael Rodrigues Faria Maia

Web Intelligence no Ensino Superior

Dissertação de Mestrado

Mestrado em Engenharia e Gestão de Sistemas de

Informação

Trabalho efetuado sob a orientação do:

Professor Doutor Carlos Filipe Portela

Professor Doutor Manuel Filipe Vieira Torres dos

Santos

Fevereiro de 2018

RESUMO

Atualmente, os dados informacionais têm-se tornado cada vez mais uma ferramenta

importante para qualquer tipo de organização, que tenha como objetivo evoluir o seu

negócio. No setor da Educação, os dados têm um propósito ligeiramente diferente de outros

setores, que têm com objetivo principal aumentar o seu lucro. Na área da Educação aos

dados informacionais são usados, por exemplo, para prever e/ou prevenir retenção, prever a

performance dos estudantes, entre outros. De acordo com alguns estudos, uma imensa

quantidade instituições educacionais, têm, ultimamente, observado um aumento,

significativo, do número de alunos. Em adição a isto, o uso de aplicações baseadas em web,

tais como, “Blackboard” e o “Moodle”, vieram mudar a forma como aprendemos e/ou

ensinamos e levaram a que houvesse uma maior acumulação de dados armazenados em

repositórios web. Com o objetivo de tornar estes dados úteis para o processo de tomada de

decisão, uma área de pesquisa científica, Web Intelligence (WI), definida como um conjunto

de processos e métodos computacionais, que fazem uso da inteligência artificial (IA) e das

tecnologias de informação (TI), capaz de transformar dados em conhecimento, foi criada.

No setor da Educação, esta área científica, tem como principais objetivos a melhoria dos

resultados dos estudantes e das instituições de ensino. Mesmo assim, tendo estes objetivos

e esta vasta informação, a aplicação de técnicas de WI, na Educação, é quase nula. A falta de

fundos e profissionais nesta área, representam os maiores obstáculos à implementação

deste tipo de sistemas. Baseado nesta assunção, esta dissertação aponta para o

desenvolvimento de um artefacto capaz de suportar a tomada de decisão na educação, mais

especificamente na “Educação Superior”. A base deste trabalho, irão ser dados reias,

extraídos em sala de aula, através do uso de uma aplicação de suporte ao ensino, de seu

nome “ioEduc”. É expectável o desenvolvimento de um protótipo Data Warehouse (DW),

focado no processo de extração, transformação e carregamento de dados e também uma

plataforma onde serão analisados os dados em dashboards interativos. No decorrer deste

documento é apresentada uma contextualização do tema, uma breve descrição dos

objetivos e dos resultados esperados. Os principais conceitos são também explicados, bem

como as metodologias adotadas e todo o planeamento.

Keywords: Web Intelligence, Data Warehouse, ETL, Business Intelligence, Higher Education.

ABSTRACT

Currently data has become more and more a highly important tool for any type of

organization, to develop their business. In the Education sector, data has a slightly different

purpose from others that have as their main purpose to increase their business profit. In the

Education area data is used, for example, to prevent retention, to predict student’s

performance and others. According to some studies, an extremely amount teaching

institutions have lately received a huge number of students. In addition, the usage of web-

apps such as “Blackboard” and “Moodle”, has been changing the way we learn and teach,

and has led to a vast accumulation of data in web repositories. To make this data useful for

decision making, an area of scientific research, Web Intelligence(WI), defined as a set of

computer processes and methods, which makes use of artificial intelligence and information

technology, capable of transforming web data into knowledge, was invented. In the

Education sector, this scientific area has the main purposes of improving the students’

results and the teaching institution as well. Nevertheless, the application of Web Intelligence

in Education is almost absent. The absence/forfeit of budget and professionals in this area,

are some of the biggest obstacles in the application of this type of solutions. Based on the

previous assumption, this dissertation aims to develop an artifact capable of supporting the

decision making in education, more properly in “Higher Education”. The base of this work

will be real information, collected in classroom, using a teaching support application called

“ioEduc”. It is expected the development of a Data Warehouse (DW) prototype, focusing on

the process of data extraction, transformation and loading, as well as a platform capable of

presenting dashboards with relevant information. Through this document it is presented a

contextualization of the theme, a brief description of the objectives and expected results.

The main concepts, related to the problem, are also explained. Moreover, the

methodological approach is also introduced and all the management work.

Keywords: Web Intelligence, Data Warehouse, ETL, Business Intelligence, Higher Education.

ÍNDICE

Resumo ...................................................................................................................................... iii

Abstract ...................................................................................................................................... v

Lista de Figuras .......................................................................................................................... ix

Lista de Tabelas ......................................................................................................................... xi

Lista de Abreviaturas, Siglas e Acrónimos ................................................................................ xiii

1. Introdução ........................................................................................................................... 1

1.1 Enquadramento e Motivação ...................................................................................... 1

1.2 Objetivos e Resultados esperados............................................................................... 2

1.3 Estrutura do Documento ............................................................................................. 3

2. Estado de arte ..................................................................................................................... 5

2.1 Estratégia de Pesquisa ................................................................................................. 5

2.2 Business Intelligence ................................................................................................... 5

2.3 Data Warehouse ........................................................................................................ 11

2.4 Processo ETL (Extração, Transformação e Carregamento) ....................................... 30

2.5 Data Mining ............................................................................................................... 32

2.6 Web Intelligence ........................................................................................................ 36

2.7 Casos de Estudo ......................................................................................................... 41

3. Abordagem Metodológica ................................................................................................ 49

3.1 Design Science Research ............................................................................................ 49

3.2 The Kimball Lifecycle .................................................................................................. 52

3.3 Cross Industry Standard Process for Data Mining (CRISP-DM) ................................. 55

4. Planeamento ..................................................................................................................... 59

4.1 Atividades .................................................................................................................. 59

4.2 Lista de Riscos ............................................................................................................ 61

5. Conclusão .......................................................................................................................... 67

Bibliografia ............................................................................................................................... 69

Anexo I – Matriz de Conceitos ................................................................................................. 73

LISTA DE FIGURAS

Figura 1 - Influência dos sistemas BI no processo de tomada de decisão . ............................... 8

Figura 2 - Exemplo de componentes de um Sistema de DW .................................................. 14

Figura 3 - Arquitetura de uma camada ou baseada em Web ................................................ 15

Figura 4 - Arquitetura de duas camadas .................................................................................. 16

Figura 5 - Arquitetura de três camadas ................................................................................... 17

Figura 6 - Arquiteturas de Data Warehouse alternativas ....................................................... 19

Figura 7 - Esquema em Estrela ................................................................................................. 24

Figura 8 - Esquema em Floco de Neve ..................................................................................... 25

Figura 9 - Esquema em constelação ......................................................................................... 25

Figura 10 - Exemplo de um cubo ............................................................................................. 27

Figura 11 - Processo ETL .......................................................................................................... 31

Figura 12 - Processo KDD ......................................................................................................... 33

Figura 13 – Taxonomia de dadoS ............................................................................................. 34

Figura 14 - Taxonomia de Data Mining ................................................................................... 35

Figura 15 - Processo geral de um MCMS ................................................................................. 42

Figura 16 - Arquitetura de sistema de um MCMS ................................................................... 43

Figura 17 - Infraestrutura de Sistemas de Informação OHEC-DSS .......................................... 44

Figura 18 - O ciclo de aplicação de Data Mining num sistema educacional ............................ 46

Figura 19 - Metodologia do modelo de processos Design Science Research ......................... 52

Figura 20- Diagrama The Kimball Lifecycle ............................................................................. 53

Figura 21 - Fases do modelo de referência CRISP-DM . ........................................................... 56

LISTA DE TABELAS

Tabela 1 - Bases de Dados Operacionais vs Data Warehouses ................................................ 12

Tabela 2 - Contrastes entre as abordagens bottom-up e top-down ...................................... 21

Tabela 3 - Sistemas OLTP vs Sistemas OLAP ............................................................................ 22

Tabela 4 - Fatores condicionantes do sucesso da implementação de um DW ....................... 29

Tabela 5 - Aplicações Web Intelligence no mercado ............................................................... 40

Tabela 6 - Plano de Atividades ................................................................................................. 59

Tabela 7 - Tabela de riscos inerentes ao projeto ..................................................................... 61

Tabela 8 - Matriz de Conceitos ................................................................................................. 73

LISTA DE ABREVIATURAS, SIGLAS E ACRÓNIMOS

WI-Web Intelligence

BI- Business Intelligence

DM- Data Mining

DMT- Data Mart

DSR- Design Science Research

DW- Data Warehouse

ETL- Extraction, Transformation and Load

OLAP- On-line Analythic Processing

MOLAP- Multidimensional Online Analythical Processing

ROLAP- Relational Online Analythical Processing

SQL- Structured Query Language

WM- Web Mining

CRISP-DM- Cross Industry Standard Process for Data Mining

HE- Higher Education

TI- Tecnologia de Informação

DC- Data Science

1

1. INTRODUÇÃO

Neste capítulo será apresentado todo o enquadramento e a motivação para a

realização deste projeto de dissertação, bem como os objetivos, resultados e estrutura do

documento.

1.1 Enquadramento e Motivação

Nos últimos anos tem havido um aumento do interesse no papel das tecnologias no

setor da Educação (Rhodes, 2017). Os sistemas educacionais têm-se tornado ricos em dados,

sobre os mais diversos temas do âmbito educacional. Os educadores têm a oportunidade de

usar esta panóplia de dados para melhor todo o sistema educacional (Dougherty, 2015).

Porém e apesar da abundância de dados, os utilizadores não sabem como podem dar

um uso eficiente a este tipo de informação (Zhong, Liu, & Yao, 2002). Este tipo de problema

evidenciou a necessidade de criação de mecanismos de auxílio na procura de informação ou

conhecimento em dados (Loh & Garin, 2001). O uso de dados informacionais, em sistemas

educacionais, proporciona uma grande ajuda, aos decisores desta área, no processo de

tomada de decisão (Dougherty, 2015). Sendo o processo tomado de decisão demasiado

complexo e dinâmico para ser realizado através de uma abordagem intuitiva e requerer

antes, uma atitude rigorosa baseada em metodologias analíticas e modelos matemáticos

(Vercellis, 2009), foi criado o Web Intelligence (WI) que providência ferramentas web, aos

utilizadores do negócio, que os ajudarão na tomada de decisão e também a ter um

conhecimento mais profundo dos dados do negócio (Brogden, Sinkwitz, Marks, & Orthous,

2014). Apesar dos benefícios que a aplicação de sistemas inteligentes reproduzem nos

sistemas educacionais, a aplicação dos mesmos é muito baixa (Groff, 2013).

Tendo por base a afirmação anterior, o desenvolvimento desta dissertação tem como

principal objetivo, a criação de um protótipo capaz de apoiar a tomada de decisão

educacional.

A principal motivação para a realização desta dissertação, incorre no facto de existir

um grande interesse na área de Data Science e do desenvolvimento web. Mais

2

secundariamente, também pelo impacto que uma aplicação de tratamento e análise de

dados pode ter no panorama educacional.

1.2 Objetivos e Resultados esperados

Inicialmente, e depois de ter sido apresentado o tema do projeto de dissertação, “Web

Intelligence no Ensino Superior”, foi definida uma pergunta que será a base do

desenvolvimento de todo o projeto: “De que maneira o desenvolvimento de sistemas

inteligentes, baseados em web, podem ter influência no apoio à tomada de decisão no

ensino superior?”.

Para responder de forma eficaz a esta pergunta, será desenvolvido um protótipo de WI

capaz de apoiar a tomada de decisão, tanto de alunos como de professores, num ambiente

educacional. Os dados a utilizar, serão provenientes de uma aplicação (ioEduc), usada em

sala de aula, numa Unidade Curricular do curso, “Mestrado Integrado em Engenharia e

Gestão de Sistemas de Informação, designada de “Programação para a Web”.

Os objetivos estruturantes desta dissertação são:

• Seleção de dados acerca da Inteligência web;

• Criação de um protótipo de WI;

• Novo conhecimento que combine a área dos sistemas de informação,

programação web e data science;

• Definição de processos de extract, transform and load (ETL);

Os objetivos secundários associados a esta dissertação são:

• Levantamento de soluções existentes;

Para o desenvolvimento desta dissertação foram projetados, como resultados

espectáveis, a definição de um conjunto de indicadores de negócio, tendo em base dados

organizacionais, que apoiem o processo de tomada de decisão, o desenvolvimento de um

protótipo Data Warehouse (DW) e web.

Para a concretização destes objetivos, será inicialmente realizada uma revisão literária,

onde serão identificadas soluções semelhantes, ferramentas e tecnologias para o

desenvolvimento do protótipo. Serão também analisadas metodologias de desenvolvimento

3

para cada fase do projeto. De seguida será realizado o processo de ETL e por último será

criado o protótipo de WI.

1.3 Estrutura do Documento

Este projeto de dissertação encontra-se estruturado em cinco capítulos e dois anexos.

O primeiro capítulo tem como objetivo contextualizar todo o ambiente e conjuntura do

projeto, podendo perceber o assunto representado, assim como os seus objetivos e quais os

resultados esperados.

O segundo capítulo corresponde à descrição dos termos usados nesta dissertação,

Business Intelligence (BI), DW, Data Mining (DM), ETL e WI, sendo que, também, serão

apresentados casos de estudo semelhantes ao projeto a ser desenvolvido. Por último será

apresentada uma visão crítica, que apresentará uma comparação entre as soluções

apresentadas e o protótipo a ser desenvolvido.

O terceiro capítulo apresenta as metodologias de trabalho usadas nesta dissertação,

nomeadamente, Design Science Research, Kimball Lifecycle e o CRISP-DM.

O quarto capítulo incidirá sobre a planificação da dissertação. Aqui será apresentada a

tabela de riscos e as atividades a desenvolver.

Por fim é apresentada a lista de referências bibliográficas e os anexos.

5

2. ESTADO DE ARTE

Neste capítulo é evidenciada a revisão literária efetuada para o desenvolvimento da

dissertação. São também descritos os temas inerentes ao projeto e apresentados casos de

estudo, nos quais são apresentadas soluções com o mesmo foco da dissertação.

2.1 Estratégia de Pesquisa

As pesquisas efetuadas sobre os temas inerentes ao projeto incidiram sobre: Business

intelligence (BI), Extract Transform and Load (ETL), Web Intelligence (WI), Decision Suport

Systems (DSS), Data Mining (DM), Web Mining (WM), Data Warehousing (DW), Ubiquitous

Systems (US), Web Decision Support Systems.

De forma a chegar a dados e a resultados conclusivos, alguns dos termos,

anteriormente referidos, foram combinados.

As pesquisas incidiram nas seguintes fontes:

• Google Scholar;

• Google;

• Repositório Uminho;

• ACM Digital Library;

A seleção dos artigos e informação utilizada nesta dissertação, foi baseada nos

seguintes aspetos:

• Data;

• Citações;

• Interesse;

• Ligação;

• Quantidade;

2.2 Business Intelligence

2.2.1 Contextualização

6

O advento das tecnologias de armazenamento de baixo custo e a grande variedade de

conexões à Internet fizeram com que fosse mais fácil, para um indivíduo e/ou organizações,

ter acesso a uma elevada quantidade de dados. Este tipo de dados, são geralmente

heterogéneos em origem, conteúdo e representação e a sua fácil acessibilidade pode

levantar uma questão bastante pertinente: é possível converte-los em informação e

conhecimento, de tal forma relevante que, torne a tomada de decisão mais fácil de maneira

a simplificar a gestão de uma organização? (Vercellis, 2009).

Para Santos & Ramos (2006), os agentes responsáveis pela tomada de decisão nas

organizações sabem que, a informação atempada e precisa permite melhorar o desempenho

do negócio e, como tal, da organização. Contudo, a tomada de decisão, nem sempre é um

exercício descomplicado. Segundo Vercellis (2009), este procedimento é demasiado

complexo e dinâmico para ser executado como uma abordagem intuitiva, e requer que

sejam aplicadas metodologias analíticas e modelos matemáticos rigorosos, mesmo quando

existe um planeamento adequado e detalhado sobre as implementações necessárias. A

mudança organizacional, ligada a este tipo de solução, pode não perdurar no tempo devido

à resistência demonstrada por parte dos membros da organização à respetiva mudança.

(Santos & Ramos, 2006).

Mediante o que foi dito anteriormente, verificamos que o mau planeamento da

mudança organizacional pode levar a uma má tomada de decisão, por parte dos

intervenientes nessa atividade. Os riscos de insucesso são muitos e variados e os casos de

mudança organizacional mal sucedidos, são vários (Santos & Ramos, 2006).

O aumento dos profissionais de BI e das publicações efetuadas sobre este tema, levam

a crer que, em conjunto com a facilidade de acesso aos dados, poderemos estar perante um

aumento do conhecimento sobre a área, o que poderá levar a uma diminuição dos casos de

insucesso na implementação de sistemas BI.

2.2.2 Conceito

O termo intelligence tem sido usado por investigadores em Artificial intelligence (AI)

desde os anos cinquenta. Já o termo BI só se tornou popular a partir dos anos noventa (Chen

& Storey, 2012).

7

Segundo Vercellis (2009), “BI pode ser definido como um conjunto de modelos

matemáticos e de metodologias de análise, que exploram os dados disponíveis, de maneira

a gerar informação e conhecimento úteis ao processo de tomada de decisão”.

Para Turban, Sharda, Delen, King, & Aronson (2010) BI “é um termo abrangente que

combina arquiteturas, ferramentas, base de dados, ferramentas analíticas, aplicações e

metodologias completamente distintas e que tem como principal objetivo a disponibilização

de um acesso interativo e/ou em tempo-real aos dados, permitindo assim a sua manipulação

e auxílio, aos gestores e aos analistas, a condução apropriada da análise e posterior

decisão”.

Segundo Santos & Ramos (2006) os “sistemas de BI combinam dados com

ferramentas analíticas de forma a disponibilizar informação relevante para a tomada de

decisão”.

Negash (Negash, 2004), indica que “os sistemas de BI combinam os processos de

recolha e armazenamento de dados e a gestão de conhecimento com ferramentas analíticas,

de forma a apresentar informações completas, complexas e competitivas aos gestores e aos

decisores”.

Como podemos verificar, existem várias definições para o tópico mencionado, muito

homogéneas entre si. Um dos pontos que se realça em cada uma das definições expostas, é

que todas mencionam o uso de ferramentas matemáticas e/ou analíticas, que farão com que

a análise dos dados por parte dos gestores e decisores, faça com que a tomada de decisão se

torne cada vez mais completa.

Os dados que alimentam este tipo de sistemas podem ter variadas formas e advir de

múltiplas fontes. Negash (2004) diz-nos que, existe uma grande variedade, no que concerne

à estrutura dos inputs disponíveis para fornecer inteligência ao processo de tomada de

decisão, tais como:

• Não estruturada – Conversas, Gráficos, Imagens, Notícias, Páginas Web, entre

outras.

• Estruturada – Online Analytical Processing (OLAP), DW, DM, Enterprise Resource

Planning (ERP), entre outras.

8

Esses mesmos dados, inerentes aos sistemas de BI, terão um papel fundamental no

processo de tomada de decisão, como podemos constatar através da figura 4, criada por

Olszak & Ziemba (2012).

Figura 1 - Influência dos sistemas BI no processo de tomada de decisão (adaptado de Olszak & Ziemba (Olszak & Ziemba, 2012).

Na figura 1, os dados são recolhidos, posteriormente transformados e analisados, e

por último, explorados de maneira a retirar o maior conhecimento possível. Conhecimento

esse que terá um papel fundamental na tomada de decisão.

Verificamos ainda, por intermédio da figura 1, alguns componentes do processo de BI.

Segundo Turban et al (2010), este tem quatro componentes fundamentais:

• Data Warehouse: lugar onde os dados são armazenados;

• Business Analythics: ferramentas para a manuseamento dos dados;

• Business Process Management: monotorização e análise do desempenho do

sistema;

• User Interface: forma de simplificar a análise dos dados, por exemplo, através

do uso de dashboards.

9

Segundo Santos & Ramos (2006), as principais tarefas associadas aos sistemas de BI

são:

• Elaborar previsões em dados históricos;

• Criar cenários que evidenciem o impacto das alterações efetuadas nas

organizações;

• Permitir o acesso ad-hoc aos dados, de maneira a responder a perguntas pré-

definidas;

• Analisar detalhadamente a organização e extrair dela o maior conhecimento.

Turban et al. (2010), em sentido futurístico afirmam que, os sistemas de BI são a

procura de informação pertinente em tempo-real.

2.2.3 Fatores críticos de sucesso

A complexidade e a versatilidade dos sistemas de BI modernos, levam a que a

obtenção de sucesso na implementação destes sistemas seja baseada numa solida

metodologia e provada com teorias científicas (Olszak & Ziemba, 2012).

Segundo Yeoh & Koronios (2010), os fatores críticos de sucesso na implementação de

sistemas BI, numa organização, podem dividir-se em três dimensões: organização, processo

e tecnologia. Esta divisão corresponde a uma framework, que segundo os autores, terão

consequências no desenvolvimento do processo e na implementação da tecnologia.

a) Dimensão Organização

• Compromisso de gestão de suporte e patrocínio - tido como um dos mais

importantes fatores de implementação de um sistema BI (Yeoh & Koronios,

2010), tem como objetivo o apoio contínuo e o patrocínio aos gestores/decisores

do negócio.

• Visão clara e bem estabelecida do negócio - sendo que uma iniciativa de BI tem

como foco o negócio, uma visão estratégica do mesmo é necessária para

direcionar toda a lógica da implementação (Yeoh & Koronios, 2010).

b) Dimensão Processo

10

• Balanceamento da equipa de trabalho e gestor de projeto orientado ao

negócio - o gestor do projeto, para ser fundamental no processo de

implementação do sistema BI, terá de ser proveniente de uma componente

funcional do negócio. Este terá como principal objetivo transformar os requisitos

do negócio em requisitos da arquitetura BI. A equipa deverá ser composta por

variados elementos, todos, ou quase todos, com conhecimentos distintos, em

diversas áreas, devido à complexidade e variedade de ferramentas usadas na

implementação de um sistema deste género. É de referir que, todos os

elementos da equipa devem estar integrados e focados no negócio e no seu

ambiente.

• Âmbito e abordagem do desenvolvimento iterativo e orientado ao negócio -

entender o âmbito da organização para perceber como os stakeholders pensam

e desenvolver, tendo como base, esses pensamentos. O âmbito de uma

iniciativa BI deve ser selecionado de maneira a que, um sistema desenvolvido

para um determinado setor do negócio, possa ser desenvolvida dentro de um

tempo razoável (Yeoh & Koronios, 2010).

• Mudanças de gestão orientadas ao utilizador - a participação dos utilizadores no

processo de mudança, leva a que haja uma melhor comunicação das suas

necessidades (Yeoh & Koronios, 2010), que, consequentemente, leva a que os

objetivos finais sejam cumpridos, e a longo termo, o suporte ao utilizador

também evolua em paralelo com as mudanças que ocorram no negócio.

c) Dimensão Tecnológica

• Framework técnica orientada ao negócio, flexível e escalável - um sistema

de forma a acompanhar as mudanças do negócio, deverá incorporar

requisitos flexíveis e escaláveis. A framework escalável deve incluir fontes de

dados adicionais, atributos e áreas dimensionais para análise de factos (Yeoh

& Koronios, 2010).

• Qualidade e integridade dos dados - a qualidade das fontes dos dados é vital

para a implementação de um sistema BI (Yeoh & Koronios, 2010), sendo que,

11

a base de todo este trabalho são dados de extrema importância ricos em

informação, para assim, extrair o máximo de conhecimento que, à posteriori,

facilitará o processo de tomada de decisão.

2.3 Data Warehouse

2.3.1 Conceito

Segundo Santos & Ramos (2006), Data Warehouse (DW) “é um repositório construído

especificamente para a consolidação da informação da organização num formato válido e

consistente, permitindo aos seus utilizadores a análise de dados de uma forma seletiva”.

Este tipo de tecnologias surgiu, devido ao facto de o mundo digital não organizar

automaticamente os dados (Golfarelli & Rizzi, 2009).

Para Turban et al. (2010), “DW é um conjunto de dados, produzidos para suportar a

tomada de decisão”. Acrescenta, ainda, que o termo indica também um repositório de

dados atuais e históricos, com potencial interesse aos gestores do negócio. Segundo o autor,

os DW têm as seguintes caraterísticas:

• Orientado ao assunto - os dados são organizados pelo assunto, permitindo

assim aos utilizadores perceber como o seu negócio funciona e o porquê de se

encontrar dessa mesma forma (Turban et al., 2010). Estes sistemas fornecem

uma visão simples e concisa do assunto, excluindo todos os dados

desnecessários ao processo de tomada de decisão (Santos & Ramos, 2006).

• Integrados - o DW é normalmente construído, usando os dados de fontes

muito heterógenas. Técnicas de limpeza e integração do conjunto de dados,

são asseguradas para garantir a consistência dos mesmos (Santos & Ramos,

2006).

• Integrados em séries temporais - todas as DWs têm uma dimensão temporal

(Turban et al., 2010), o objetivo é fornecer informação sobre uma perspetiva

histórica. A diferenciação destes sistemas para os sistemas operacionais, é que

estes armazenam informação relativa ao período compreendido de 5-10 anos,

enquanto que os demais armazenam informação relativa a um curto período

de tempo (Santos & Ramos, 2006).

12

• Não voláteis - depois dos dados serem inseridos no sistema, não podem mais

ser alterados (Turban et al., 2010).

• Baseados em Web - DW são, normalmente, desenhados para fornecer um

ambiente computacional eficiente às aplicações de base Web (Turban et al.,

2010).

• Relacionais/Multidimensionais - uma DW pode tanto ser do tipo relacional

como multidimensional (Turban et al., 2010).

• Cliente/Servidor - de maneira a facilitar o acesso aos dados, por parte dos

utilizadores, é usada a arquitetura cliente/Servidor, onde o cliente emite

pedidos a um servidor e este responde com informação pertinente (Turban et

al., 2010).

• Tempo real - as mais recentes DW fornecem o acesso a dados em tempo real

(Turban et al., 2010). Esta é uma evolução, no que toca a este tipo de sistemas,

que fará com que a atualização e acesso à informação seja realizada de forma

mais simples e rápida.

• Metadados: de forma a saber como os dados estão organizados, as DWs

contêm metadados (dados sobre os dados), explicando exatamente como eles

se encontram dentro do sistema (Turban et al., 2010).

Com o objetivo de entender as principais diferenças entre uma base de dados

operacional e um DW, Santos & Ramos (2006) sintetizam na tabela 1, as principais

diferenças entre as respetivas abordagens.

Tabela 1 - Bases de Dados Operacionais vs Data Warehouses (Santos & Ramos, 2006)

Bases de dados operacionais Data Warehouses

Objetivos operacionais Registo histórico

Acesso leitura/escrita Acesso de leitura

Acesso por transações predefinidas Acesso por questões ad hoc e relatórios

periódicos

Acesso a poucos registos de cada vez Acesso a muitos registos de cada vez

Dados atualizados em tempo real Carregamentos periódicos

13

2.3.2 Componentes de um Data Warehouse

Segundo Vaz de Oliveira e Sá (2009), um sistema de DW deve ser composto por

diversos componentes, não se resumindo somente a um conjunto de dados depositados

num DW, ou seja, terá de conter os seguintes elementos:

• Fontes Informacionais – as fontes informacionais, que servirão de base ao

desenvolvimento e que alimentarão o DW, podem ter proveniência interna ou

externa à organização (Vaz de Oliveira e Sá, 2009).

• ETL (Software para extração, transformação e carregamento) – este

componente é responsável pela extração de registos informacionais de diversas

fontes, pela sua transformação e respetivo carregamento para o DW (Vaz de

Oliveira e Sá, 2009). Extrair dados significa ler e compreender a fonte dos

mesmos e copiar aqueles que são necessários. Depois de extraídos os dados,

estes são analisados e poderão suceder variadas transformações, tais como,

correção de erros de escrita, falta de elementos, entre outros. Por último, os

dados são carregados para o sistema de ETL, transportando assim as dimensões

e a tabela de factos (Kimball & Ross, 2013).

• Repositórios – os repositórios informacionais podem ser constituídos por bases

de dados denominadas de Data Warehouses (DW), Data Marts (DM) e

metadados. Os DW fornecem informação organizada e orientada ao assunto,

que ajuda, posteriormente, no processo de tomada de decisão. Por outro lado,

um DM é relevante para uma determinada unidade organizacional, sendo

então dirigidos a um número mais restrito de utilizadores, que têm em comum

a partilha das mesmas necessidades informacionais. Os metadados

representam informação relativa aos dados armazenados num DW ou num

DM, tal como, a origem do registo informacional e/ou como foi efetuado o

processo de ETL (alterações efetuadas) (Vaz de Oliveira e Sá, 2009).

• Ferramentas de análise de informação – uma vez armazenada, a informação

pode ser acedida através da utilização de ferramentas e aplicações, construídas

para esse mesmo propósito. Este acesso pode ser efetuado através da

14

utilização de linguagens de consulta estruturada (SQL), Data Mining (DM),

relatório, entre outros (Vaz de Oliveira e Sá, 2009).

Na figura 2 está representado o processo de Data Warehousing e nele podemos

verificar os principais componentes deste processo e de que forma é que eles influenciam o

mesmo.

Os dados, que irão compor a base de dados, podem ser originários de vários áreas,

sistemas ou plataformas. Os repositórios, estejam eles na forma de DW, DMT ou metadados,

podem existir singularmente ou em conjunto. Ao nível da análise da informação, esta pode

ser efetuada utilizando diferentes técnicas ou ferramentas, tais como, Structured Query

Language (SQL), DM, reports, entre outros.

Figura 2 - Exemplo de componentes de um Sistema de DW (retirado de (Vaz de Oliveira e Sá, 2009)).

15

2.3.3 Arquiteturas de Data Warehousing

Existem várias arquiteturas de sistema de informação básicas, que podem ser usadas

para a construção de um sistema de Data Warehousing (Turban et al., 2010).

Turban et al. (2010) distinguem as estruturas em arquiteturas de uma, duas ou três

camadas, sendo que as mais comuns são as de duas e três camadas.

Seguidamente serão explicados estes três tipos de arquiteturas:

• Arquitetura de uma camada ou baseada em web - segundo Turban et al.

(2010), data warehousing e a internet são duas tecnologias importantes, que

oferecem soluções importantes e critícas para a gestão de dados

organizacionais. A integração conjunta destas duas ferramentas produz

sistemas de data warehousing de base web. Este tipo de arquiteturas oferece um

conjunto de vantagens bastante cativantes, tais como, facilidade de acesso a dados e

independência de plataformas de baixos custos de produção. Contudo, aquado do

design da arquitetura, aspetos como velocidade de carregamento de páginas e

capacidade do servidor, terão que ser considerados de forma a poder obter uma maior

performance (Turban et al., 2010). A figura 3 ilustra a arquitetura de uma camada.

Figura 3 - Arquitetura de uma camada ou baseada em Web (adaptado de Turba et al. (Turban et al., 2010))

16

• Arquitetura de duas camadas - como podemos verificar na figura 4, neste tipo

de arquitetura, a primeira camada destina-se ao cliente, enquanto que na

segunda econtra-se o sistema de apoio à decisão a correr na mesma plataforma

de hardware do sistema de DW. Este tipo de estrutura pode levar a problemas

de performance perante a existência de grandes DW, que trabalham com

aplicações que manuseiam dados de forma intensiva na ajuda à tomada de

decisão. Este tipo de arquitetura é mais económica do que uma estrutura em

três camadas (Turban et al., 2010).

Figura 4 - Arquitetura de duas camadas (adaptado de Turba et al. (Turban et al., 2010))

• Arquitetura de três camadas - neste tipo de arquitetura os sistemas operativos

que contêm os dados e o software para aquisição dos mesmos encontram-se

numa só camada. O DW corresponde a outra camada, e finalmente, na última

encontra-se o utilizador. Os dados, provenientes da DW, são processados duas

vezes e depositados em bases de dados multidimensionais, de forma a uma

melhor organização no momento da análise multidimensional, apresentação

e/ou replicação em Data Marts. Esta arquitetuta tem como principal vantagem

a separação de funções da DW, facilitando assim a criação de data marts

(Turban et al., 2010). A representação visual do que foi dito anteriormente

pode ser observada na figura 5.

17

Figura 5 - Arquitetura de três camadas (adaptado de Turba et al. (Turban et al., 2010))

2.3.4 Arquiteturas de Data Warehousing alternativas

Segundo Santos & Ramos (2006), para existir uma implementação de uma solução

competente, a organização terá que decidir qual a arquitetura a utilizar. Esta escolha poderá

passar pelo o uso de um DW organizacional, de Data Marts independentes ou pelo o uso de

Data Marts dependentes. Turban et al. (2010), observando a figura 6, apresentam cinco

arquiteturas:

• Data marts independentes – esta representa a solução arquitetural mais

simples e mais económica. Os data marts são criados de forma a operar

individualmente, numa certa unidade organizacional da empresa. O problema

deste tipo de arquiteturas, é que, devido ao seu carácter individual, poderá

conter inconsistência de dados, medidas e dimensões, fazendo com que a

análise transversal de data marts, seja quase impossível.

• Data marts arquitetura em bus – esta arquitetura corresponde a uma

alternativa à anteriormente mencionada. Aqui os data marts estão ligados

entre si, o que simplifica as análises transversais. Porém, na necessidade de

executar queries complexas, a performance relativa a este tipo de análise pode

não ser a melhor.

• Arquitetura Hub-and-spoke – arquitetura de data warehousing mais famosa

nos tempos que correm. O foco do uso deste tipo de implementação

corresponde à criação de uma infraestrutura escalável e sustentável. Esta

contém um DW central e um conjunto de data marts dependentes (cada uma

18

representa uma unidade organizacional da respetiva organização). Esta

arquitetura tem como valência a construção simplificada e customizada de

interfaces e reports.

• Data Warehouse centralizada – esta implementação é muito semelhante à

previamente mencionada, com excepção da não existência de data marts

dependetes. Todos os dados da organização são mantidos num DW gigante que

serve todos as unidades organizacionais. Este tipo de abordagem faz com que

as limitações de acesso a dados sejam inexistentes e, também, a gestão dos

mesmos seja simplificada, na medida em que, existirão uma menor quantidade

de dados. Esta arquitetura apresenta uma visão holística, abrangente e

transversal a toda a organização e às suas áreas de negócio.

• Data Warehouse federada – este tipo de arquitetura é utilizado, na altura de

integração de sistemas distintos. Aqui as estruturas de apoio á decisão são

reservadas num local específico e os dados são acedidos nessas fontes. Devido

a problemas ao nível performance e da qualidade dos dados, especialistas

indicam que este tipo de abordagem é um suplemento às DWs e não um

método de substituição (Eckerson, 2006).

19

Figura 6 - Arquiteturas de Data Warehouse alternativas (retirado de (Turban et al., 2010))

Mas qual é a melhor arquitetura ou aquela que devemos implementar? Segundo

Turban et al. (2010), os dois gurus da área de DW, Ralph Kimball e Bill Inmon, têm

opiniões distintas sobre este assunto. O primeiro promove o uso da arquitetura “Data Mart

bus”, enquanto que o segundo advoga o uso da arquitetura “hub-and-spoke”,

respetivamente.

Ariyachandra, Watson, Watson Holds, Herman, & Terry (2006), realizaram um

questionário online onde tentaram perceber quais eram os tipos de arquiteturas e as

plataformas mais utilizados na implementação de sistemas de DW. Foram inquiridas 454

empresas e conseguiram concluir que a arquitetura mais utilizada era a “hub-and-spoke”

(com cerca de 39%) e a plataforma mais ordinária era a da Oracle.

20

2.3.5 Abordagens de Desenvolvimento

Muitas organizações têm como principal objetivo na criação de sistemas de DW, o

suporte, por esse tipo de sistemas oferecido, no processo de tomada de decisão (Turban et

al., 2010).

Os métodos top-down e bottom-up (também conhecidos como abordagem “EWD” e

abordagem “data mart”, respetivamente), são, geralmente, os mais aplicados no

desenvolvimento de projetos desta natureza. Estes são, também, preconizados por Ralph

Kimball e Bill Inmon (considerados como pais do DW) (Vaz de Oliveira e Sá, 2009).

Bill Inmon (Ariyachandra & Watson, 2006) defende que, é possível, adaptar bases de

dados relacionais com as necessidades de desenvolvimento requerentes de um DW

generalista (que cobre todas as áreas da organização). Por outro lado, Ralph Kimball

(Ariyachandra & Watson, 2006) defende que, deve ser empregue uma abordagem

multidimensional (Turban et al., 2010).

• Abordagem top-down – esta abordagem divide-se em duas etapas, a primeira

é cingida à definição do esquema de conteúdo do DW, enquanto que a

segunda consiste na implementação de Data Marts, de acordo com as

características de cada departamento ou área organizacional. A principal

desvantagem deste tipo de abordagem traduz-se na complexidade do

desenvolver do esquema de conteúdo do DW de forma a cobrir toda a

organização (Vaz de Oliveira e Sá, 2009).

• Abordagem bottom-up – tem como principal objetivo modelar e contruir

esquemas de conteúdo para cada Data Mart. Estes esquemas devem ser

pensados de forma, a no futuro, poderem ser analisados de forma unificada, ou

seja, conseguir perceber qual é o esquema global do DW. O principal problema

desta abordagem está na dificuldade em unificar os Data Marts, caso estes não

sejam pensados previamente para este efeito (Vaz de Oliveira e Sá, 2009).

Mas qual é a melhor abordagem? Segundo Turban et al. (2010), não existe uma

solução melhor, em termos generalistas. Dependendo das necessidades de cada

organização, um simples Data Mart pode ser suficiente ou, a um nível mais elevado, pode

ser necessário um DW mais abrangente.

21

Na tabela 2 constatamos os principais contrastes entre as duas abordagens, top-

down e bottom-up. Analisando a tabela podemos apurar que, a abordagem top-down, é

enquadrada quando o problema engloba diversas áreas. As maiores entraves à utilização

desta técnica são a dificuldade, o tempo e o custo de desenvolvimento. Por outro lado, a

abordagem bottom-up é muito limitada.

Tabela 2 - Contrastes entre as abordagens bottom-up e top-down (adptado de Turba net al. (Turban et al., 2010))

Características Bottom-up Top-Down

Ambiente Um tema por área Vários temas por área

Tempo de desenvolvimento Meses Anos

Custo de desenvolvimento 10,000<x<100,000+ (dólares) 1,000,000+ (dólares)

Dificuldade de

desenvolvimento Média/baixa Alta

Pré-requisitos de partilha de

dados

Comum(dentro da área do

negócio)

Comum (entre toda a

organização)

Fontes Somente alguns operacionais e

sistemas externos

Muitos operacionais e

sistemas externos

Horizonte de tempo Perto-currente e dados

históricos Dados históricos

Transformação de dados Baixo ou média Alta

Frequência de atualizações Por hora, dia, semana Por semana, mês

Tipo de utilizadores Gestores e analistas de negócio Executivos séniores e

analistas da organização

Hardware Workstations e servidores

departamentais

Servidos de bases de

dados organizacionais

Sistemas Operativos Windows e Linux Unix, Z/OS, OS/390

2.3.6 Modelação Multidimensional

Independentemente da arquitetura escolhida, o design da representação dos dados no

DW é, sempre, baseado no conceito da modelação multidimensional (Turban et al., 2010),

22

utilizada para conceber a estrutura de sistemas de Data Warehousing (Santos & Ramos,

2006). Para Turban et al. (2010), modelação multidimensional corresponde a um sistema

baseado em recuperação, que suporta grandes volumes de queries.

Os sistemas Online Transaction Processing (OLTP) diferem dos sistemas OLAP (DW). Na

tabela 3 são apresentadas as principais diferenças, na visão de Costa (2012), entre os

sistemas OLTP e os sistemas OLAP. É importante perceber como ambas as tecnologias

funcionam, porque, apesar de as duas terem como base de funcionamento dados

informacionais, a forma como elas atuam para extrair conhecimento dos mesmos, é

completamente diferente.

Segundo Turban et al. (2010), OTLP é um termo usado para sistemas de transações

responsáveis pela captura e armazenamento de dados relacionados com o negócios do dia-

a-dia (como por exemplo dados provenientes de ERP (Enterprise Resource Planning), CRM

(Customer Relationship Management), entre outros). Sistemas OLTP encaminham para uma

necessidade crítica do negócio, todavia, estes não podem ser usados para análises ad-hoc ou

para análises de grandes quantidades de dados com o uso de queries complexas. Sistemas

OLAP vêm facilitar a satisfação das necessidades organizacionais, que envolvem o

manuseamento de grandes quantidades de dados, fazendo com a complexidade associada a

este processo diminua.

Tabela 3 - Sistemas OLTP vs Sistemas OLAP (retirado de (Costa, 2012))

Características Sistemas OLTP Sistemas OLAP

Fontes de dados

- Dados operacionais;

-OLTP são as fontes originais

de dados;

- Consolidação de dados;

-Dados OLAP surgem de

vários sistemas OLTP;

Propósito dos dados - Executar e controlar tarefas

fundamentais do negócio;

- Ajudar no planeamento,

resolução de problemas e

suporte à decisão;

Tipos de dados

- Revelam o momento dos

acontecimentos nos

processos de negócio;

- São atómicos,

normalizados, atualizados e

- Evidenciam várias

perspetivas

(multidimensionais) das

atividades organizacionais;

- São históricos,

23

isolados; sumarizados,

multidimensionais e

integrados;

Inserções e atualizações

- Curtas e rápidas;

- Atualizações efetuadas

pelos utilizadores;

- Periódicas e de longa

duração;

Acessos/Consultas

- Leitura/escrita;

- Consultas/ transações

padronizadas e simples

(poucas tabelas e poucos

registos)

- Leitura na maior parte das

vezes;

- Consultas complexas que

envolvem agregação (várias

tabelas e vários registos);

Velocidade de

processamento

- Normalmente muito rápido

para inserir, apagar e alterar.

Menos rápido para

consultar;

- Depende da quantidade de

dados envolvidos;

- Esta otimizada para o

processamento de questões;

Requisitos de espaço

- Pode ser relativamente

pequena, caso os dados

históricos não sejam

guardados;

- Requer mais espaço devido

à existência de agregação

dos dados e história.

- Requer mais índices do que

o sistema OLTP;

Conceção da base de dados

- Altamente normalizadas e

com muitas tabelas;

- Orientação às aplicações;

- Otimizadas para

atualizações;

- Normalmente

desnormalizadas e com

menos tabelas;

- Orientados a assuntos;

- Otimizados para o

processamento de questões;

Utilização - Repetitiva. - Ad-hoc.

Para Kimball & Ross (2013), o modelo de dados multidimensionais tornou-se numa

referência na modelação e gestão de dados num DW, devido à sua simplicidade e

extensibilidade.

24

O esquema para este tipo de modulação contém factos, dimensões e as respetivas

hierarquias. Para a sua implementação podem ser usados os seguintes esquemas (Chaudhuri

& Dayal, 1997):

• Esquema em Estrela - a forma mais comum de modulação de dados, para uso

multidimensional é através do esquema em estrela (Santos & Ramos, 2006). Na

figura 7 está ilustrado um esquema em estrela. No centro está a tabela de

factos e ao seu redor as dimensões que vão servir de análise à tabela de factos.

A base de dados é constituída por uma única tabela de factos e diversas tabelas

de dimensão. A tabela de factos abrange vários apontadores (chaves

estrangeiras ou chaves geradas para aumentar eficiência) relativos a cada

dimensão (um por cada dimensão). As dimensões contêm atributos e não

necessitam de estar normalizadas facilitando,assim, a navegação (Vaz de

Oliveira e Sá, 2009). As tabelas de dimensão permitem a análise da tabela de

factos sobre várias perspectivas e sobre forma de resposta a várias perguntas,

como por exemplo, quem, quando, onde, porquê, entre outras (Santos &

Ramos, 2006).

Figura 7 - Esquema em Estrela

• Esquema em Floco de Neve – um esquema em floco de neve é um esquema

em estrela em que as dimensões estão completamente normalizadas (Santos

25

& Ramos, 2006). Na figura 8 está representado um esboço em floco de neve,

esquema que compreende exatamente a mesma informação do esquema em

estrela (Kimball & Ross, 2013). Esta arquitetura apresenta como principais

vantagens a indicação da estrutura das suas dimensões e a respetiva inibição

de informação redundante,porém, a dificuldade de interpretação de

determinados esquemas e a perda de desempenho, no que toca à resposta a

perguntas, pode tornar-se uma entrave à aplicação deste tipo de cenários

(Santos & Ramos, 2006).

Figura 8 - Esquema em Floco de Neve

• Esquema em Constelação - o esquema em constelação, representado na

figura 9, integra várias tabelas de factos com dimensões em comum (Santos &

Ramos, 2006). Este tipo de esquemas pode resultar da combinação de várias

estruturas, tais como, estrutura em estrelas, floco de neve, entre outras (Vaz de

Oliveira e Sá, 2009).

Figura 9 - Esquema em constelação

26

2.3.7 Metadados

Segundo Inmon (2005), os metadados, não são mais do que dados sobre dados, e

representam um aspeto vital no processo de desenvolvimento de um DW. Este tipo de

dados, faz com o DW se torna mais efetivo, na medida em que, se os metadados não

existirem num dado DW, o utilizador poderá não saber por onde começar a análise.

Um repositório de metadados fornecerá detalhes determinantes, no que concerne a

análise dos mesmos. Normalmente os metadados contêm a estrutura de DW, história dos

dados, os algoritmos usados para sumarização, mapas da proveniência dos dados inseridos

no DW, performances do sistema e termos e problemas do negócio (Jiawei, Kamber, Han,

Kamber, & Pei, 2012).

Rainardi (2008) apresenta-nos os seguintes tipos de metadados:

• Metadados de definição e mapeamento de dados contêm o significado de

cada facto, de cada coluna de uma dimensão e de onde os dados provém;

• Metadados de estrutura de dados descrevem a estrutura do modelo de dados;

• Metadados de fontes de dados retratam a estrutura dos dados que advém de

bases de dados operacionais;

• Metadados do processo ETL representam os fluxos de dados;

• Metadados de qualidade de dados expõem regras para a qualidade de dados,

para os respetivos níveis de risco e ações;

• Metadados de auditoria possuem registos dos processos e das atividades nos

repositótios de dados;

• Metadados de uso apresentam o uso das aplicações front-end e dos eventos.

2.3.8 Exploração de um Data Warehouse

Diversas tecnologias podem ser utilizadas para explorar um DW. A mais comum é a

tecnologia OLAP (On-Line Analytical Processing) que permite criar cubos, como o ilustrado

na figura 10, sobre diferentes perspetivas (Santos & Ramos, 2006). Os dados nele contidos,

vão se dividir em subconjuntos das dimensões.

27

Figura 10 - Exemplo de um cubo (adaptado de Kimball & Ross (Kimball & Ross, 2013))

Uma das mais valias deste tipo de sistemas, consiste no facto de o utilizador não ter a

preocupação de saber como ou onde os dados multidimensionais, provenientes de DW ou

data marts, são armazenados. Apesar de fornecer este tipo de vantagens, a arquitetura

física e a implementação de servidor OLAP, devem considerar o armazenamento de dados e

todos os problemas que possam advir desta ação (Jiawei et al., 2012). Os servidores OLAP

podem ser do tipo:

• Relational OLAP (ROLAP) – correspondem a servidores intermédios, que se

posicionam entre um servidor relacional (back-end) e as ferramentas do cliente

(front-end) (Jiawei et al., 2012). Esta é uma alternativa à tecnologia MOLAP

(Multidimensional OLAP) (Turban et al., 2010). De forma a armazenar e a gerir

os dados, é usado um SGBD (sistema de gestão de base de dados) relacional e

OLAP middleware para suportar peças em falta. A tecnologia ROLAP tende a ter

melhor escalabilidade do que a tecnologia MOLAP (Jiawei et al., 2012).

• Multidimensional OLAP (MOLAP) – este tipo de servidores suportam vistas

multidimensionais dos dados, recorrendo a bases de dados da mesma

categoria para armazenamento dos mesmos (Santos & Ramos, 2006). Muitos

servidores MOLAP adotam uma representação do armazenamento de dados a

dois níveis, de forma a lidar com a disparidade e escassez dos datasets. A

principal vantagem da utilização deste tipo de tecnologias, consiste, no facto da

28

indexação de dados precomputacionais ser realizada de forma bastante ágil

(Jiawei et al., 2012).

• Hybrid OLAP (HOLAP) – esta tecnologia combina as duas anteriormente

referidas, beneficiando assim da grande escalabilidade da tecnologia ROLAP e

da velocidade de processamento da tecnologia MOLAP (Santos & Ramos,

2006). Grandes quantidades de dados podem ser armazenadas numa base de

dados relacional, enquanto que, as respetivas agregações são mantidas num

sistema MOLAP.

A organização imposta pelos esquemas dos modelos multidimensionais (estrela, floco

de neve e constelação), permite que os dados sejam analisados de várias formas (Santos &

Ramos, 2006).

No que toca à análise dos cubos, diferentes operações OLAP podem ser executadas,

tendo assim uma forma mais interativa de análise dos dados. As operações disponíveis para

este efeito são, segundo Santos & Ramos (2006):

• Drill-down – permite navegar de dados mais generalistas para dados mais

detalhados. Tem, como principal objetivo, fornecer uma visão mais

concreta/promonorizada dos dados.

• Roll-up – representa a operação oposta ao drill-down. Permite a agregação de

dados, contidos num cubo, numa dada hierarquia.

• Slice and dice – permite restringir a informação a visualizar, utilizando o corte e

a redução de um conjunto de dados. O corte seleciona um subconjunto de

dados e restringe o acesso, de uma dimensão, a esse subconjunto. A redução

permite definir um sub-cubo, sobre a qual podem ser especificados critérios de

seleção para um determinado número de dimensões.

• Pivot (rotate) – permite rodar os eixos de visualização dos dados, fazendo com

que, a visualização dos mesmos seja diferente a cada pesquisa.

2.3.9 Fatores críticos de sucesso

Vaz de Oliveira e Sá (2009), através da investigação literária, encontrou trinta fatores

condicionantes na implementação de sistemas de DW. Este dividiu esses mesmos fatores em

três categorias: (1) Tecnológicos, (2) Projeto e (3) Organizacionais.

29

Na tabela 4 são apresentadas essas mesmas condicionantes, divididas pelas categorias

anteriormente expostas. Analisando a tabela, a maior concentração limitações situa-se na

medida “Organizacionais”. Para além de conter o maior número de fatores, nesta medida

estão contidos também os fatores mais críticos, tais como, “formação e treino dos

utilizadores”, “apoio à gestão”, “equipa de suporte”, e talvez aquele que mais leva a que

hajam casos de insucesso neste ramo, “resitência à mudança”.

Tabela 4 - Fatores condicionantes do sucesso da implementação de um DW (retirado de (Vaz de Oliveira e Sá, 2009))

Técnologicos

1 Registos Informacionais (sistemas fonte,qualidade dos registos nas

fontes, …)

2 Indexação e desempenho

3 Ferramentas dos sistemas de Data Warehouse

4 Requisitos do negócio

5 Arquitetura de informação organizaciona

6 Modelos e metodologias de Data Warehouse

7 Localização dos registos informacionais, documentação e metadados

8 Qualidade da informação

9 Infraestruturas de desenvolvimento

10 Competências

11 Evolução e crescimento

Projeto

12 Recurso (equipa, financiamento, ….)

13 Âmbito do projeto de Data Warehouse

14 Prazos realistas

15 Gestão e pontos de controlo bem definidos

16 Patrocinador de topo da gestão

17 Patrocinador oficial

Organizacionais

18 Necessidade organizacional

19 Ligação aos objetivos organizacionais

20 Envolvimento dos utilizadores

21 Apoio aos utilizadores

22 Expectativas dos utilizadores

30

23 Formação e treino dos utilizadores

24 Apoio da gestão

25 Equipa de suporte

26 Tamanho da organização

27 Medir os benefícios organizacionais

28 Grau de competitividade organizacional

29 Resistência à mudança

30 Politicas organizacionais

2.4 Processo ETL (Extração, Transformação e Carregamento)

As ferramentas de Extração, Transformação e Carregamento (ETL), permitem tratar da

homogeneização dos dados, da sua limpeza e do carregamento para um determinado DW

(Vassiliadis, Simitsis, & Skiadopoulos, 2002; Santos & Ramos, 2006).

Segundo Vassiliadis et al. (2002), o processo ETL, em conjunto com as ferramentas de

limpeza de dados, custam, aproximadamente, um terço do esforço e das despesas do

orçamento de todo o projeto, podendo ainda o valor subir para cerca de 80% do tempo de

desenvolvimento num projeto de DW. Posto isto, vemos que este processo tem uma

importância crucial no resultado, favorável ou não, da implementação deste tipo de

sistemas.

O processo ETL consiste na extração (ler dados de uma ou várias fontes),

transformação (converter os dados existentes, de forma obter um formato capaz de ser

inserido num DW ou numa simples base de dados operacional) e carregamento (carregar os

dados num DW). A transformação de dados ocorre utilizando regras previamente definidas

ou feita através do lookup (pesquisar erros nas tabelas, como por exemplo, falta de dados) e

ainda pela agregação de dados (Turban et al., 2010).

Para Turban et al. (2010), o principal propósito do processo de ETL é o de carregar a

DW com dados limpos e integrados. A figura 11 ilustra todo esse processo, desde a extração

dos dados até ao carregamento dos mesmos (modificados ou não) para um DW ou Data

Mart.

31

Figura 11 - Processo ETL (adaptado de Turban et al. (Turban et al., 2010))

Para Turban et al. (2010) a dificuldade associada ao processo ETL é relativamente

grande, e sendo assim, existem ferramentas que auxiliam todo este processo. Muito

sucintamente, as ferramentas, como o processo ETL, transportam os dados entre a origem e

o target, documentam todo o tipo de transformações associadas e partilham todo o tipo de

informações com outras aplicações (Turban et al., 2010).

Todo este processo pode ser dividido em cinco diferentes passos (Santos & Ramos,

2006):

• Extração – recolher dados de múltiplas fontes, heterogéneos e/ou externos à

organização (Santos & Ramos, 2006);

• Transformação – converter os dados do seu formato original , para o formato sobre

o qual serão carregados para o DW (Santos & Ramos, 2006). Nesta fase é natural

encontrar anomalias nos dados, as mais comuns são: (1) Duplicação de dados, (2)

Diferentes representações de valor, (3) Dados em falta e (4) Existência de valores em

falta (Rahm & Do, 2000). Segundo Rahm & Do (2000), podemos definir, no processo de

transformação, as seguintes fases:

1. Análise de Dados - tendo como objetivo a deteção dos tipos de erros e

inconsistências, é necessário proceder a uma análise minuciosa dos dados.

Esta pode ser feita manualmente ou com recurso a dados.

2. Definição do processo de transformação e regras de mapeamento dos

dados - aqui é verificado o grau de heterogeneidade e deficiência dos dados,

bem como as respetivas atividades de limpeza.

32

3. Verificação - todas as transformações e a sua eficácia devem ser

precocemente testadas, de forma a avaliar a performance. Várias iterações

terão de ser feitas, até chegar à solução desejada.

4. Transformação - aqui procede-se à transformação dos dados para,

posteriormente, os carregar ou para refrescar o DW.

• Limpeza – identificar erros nos dados e realizar a sua correção (Santos & Ramos,

2006);

• Carregamento – armazenar os dados no DW. Este passo pode conter a ordenação,

agregação, consolidação, verificação da integridade dos dados, entre outros aspetos

(Santos & Ramos, 2006);

• Refrescamento – não sendo propriamente um passo no processo ETL, é importante e

acrescenta valor a este procedimento, na medida em que, de forma a manter o DW

atual, o carregamento de novos dados é crucial (Santos & Ramos, 2006).

2.5 Data Mining

2.5.1 Conceito

Segundo Jiawei et al. (2012), com o aumento da quantidade de dados armazenados

em sistemas de armazenamento de dados, existe cada vez mais a necessidade de os analisar

de forma a obter o maior conhecimento possível deles. Da necessidade de análise , nasceu o

DM que consiste na procura de relacionamentos, padrões ou modelos que estão implícitos

nos dados armazenados em grandes bases de dados (Santos & Ramos, 2006). Para Turban

et al. (2010), o termo DM é utilizado para descrever a descoberta de conhecimento em

grandes quantidades de dados, através da utilização de técnicas estatísticas, matemáticas e

de inteligência artificial. Por outro lado, para Vercellis (2009) as atividades de DM

constituem um processo iterativo, ligado à análise de grandes bases de dados, com o

propósito de extrair conhecimento e informação que seja pertinente para a tomada de

decisão e a solução de problemas.

Todos os autores referenciados anteriormente, tocam no mesmo ponto aquando da

definição do termo DM: descoberta de conhecimento. Segundo Jiawei et al. (2012), muitos

autores tratam o DM como sinónimo do termo “descoberta de conhecimento em dados”

33

(knowledge discovery from data [KDD]). Este processo, ilustrado na figura 12, passa pelos

seguintes passos:

• Limpeza de dados;

• Integração de dados;

• Seleção de dados,

• Transformação de dados;

• Mineração de dados (DM);

• Avaliação de padrões;

• Apresentação de conhecimento.

Figura 12 - Processo KDD (adptado de (Fayyad, Piatetsky-Shapiro, & Smyth (Fayyad et al., 1996))

2.5.2 Taxonomia de dados

Os dados existentes numa base de dados podem consistir em números, palavras,

imagens, entre outros, e servem como medidas das variáveis (Turban et al., 2010).

Segundo Turban et al. (2010), os dados, a um nível elevado de abstração, podem ser

classificados como categóricos ou númericos, sendo subsequentemente, subdividos em

nominal ou ordinal e intervalo ou rácio, respetivamente. A figura 13 ilustra a divisão

categórica dos dados.

34

Figura 13 – Taxonomia de dados (adaptado de Turba et. al (Turban et al., 2010))

Alguns métodos de DM têm particularidades acerca do tipo de dados que podem

manusear. A incorreta associação do tipo de dados ao método, pode levar a que este não

funcione corretamente (Turban et al., 2010).

2.5.3 Tarefas de Data Mining

As tarefas associadas ao DM podem ser divididas em dois grupos: descrição ou previsão. A

descrição permite identificar regras que caracterizam os dados analisados, enquanto que, a

previsão faz uso de determinados atributos para ver o valor de uma outra variável. Ao nível da

previsão, o melhor modelo é aquele que apresenta o prognóstico mais elevada, por outro lado,

ao nível da descrição, nem sempre o que obtém a percentagem de acerto mais proeminente

corresponde ao melhor, mas sim, aquele que permite adquirir mais conhecimento conciso dos

dados em análise (Santos & Ramos, 2006).

A figura 14 apresenta a taxonomia de DM, no que toca ás abordagens, técnicas e

objetivos.

35

Figura 14 - Taxonomia de Data Mining (retirado de (Costa, 2012))

Os Modelos de Classificação ou de indução supervisionada (Turban et al., 2010),

permitem o enquadramento de um conjunto de dados dentro das classes predefinidas,

identificando a classe a que cada elemento pertence (Santos & Ramos, 2006). As classes

representam uma agregação de valores possíveis e os atributos os valores de saída, no

processo de Classificação (Chapman et al., 2000). O objetivo dos modelos de classificação é

analisar os dados históricos armazenados numa base de dados e gerar automaticamente um

modelo que prevê o comportamento futuro (Turban et al., 2010). O desenvolvimento deste

tipo de modelos apresenta as seguintes fases, segundo Chapman et al. (2000):

• Fase de treino;

• Fase de teste;

• Fase de previsão;

Segundo Kılıç Depren, Aşkın, & Öz (2017), as ferramentas de classificação mais

comuns são: árvores de decisão, os naive Bayes, as redes neuronais e os algoritmos de

regressão linear. Os algoritmos de regressão linear assumem a relação entre as variáveis de

entrada e as de saída (S.Ponmani, Roxanna Samuel, 2017). As redes neuronais envolvem o

desenvolvimento de estruturas matemáticas que têm a capacidade de aprender através de

acontecimentos passados (apresentados através de datasets bem estruturados). A principal

desvantagem deste tipo de ferramenta é o aumento exponencial do tempo de treino à

36

medida que o número de dados aumenta. Por outro lado, as árvores de decisão, classificam

os dados sobre um número finito de classes, baseados nos valores das variáveis de entrada.

A principal desvantagem das árvores de decisão consiste no facto da incorporação de

variáveis contínuas requerer a conversão de valores contínuos para um intervalo e/ou

categorias.

Os modelos de Regressão , ao contrário dos modelos de classificação, são utilizados

quando as variáveis alvo atuam sobre valores contínuos. O principal objetivo é prever,

aproximadamente, mediante cada observação, o valor da variável alvo (Vercellis, 2009).

Um problema de regressão poder-se-à transformar num problema de classificação e

vice-versa, por exemplo, uma companhia de telecomunicações querer uma classificação dos

seus clientes baseanda na lealdade, transforma-se imediatamente num problema de

regressão, se tivermos que prever a probabilidade de um cliente se manter leal (Vercellis,

2009).

2.6 Web Intelligence

2.6.1 Contextualização e Conceito

Segundo Loh & Garin (2001) o crescente número de páginas web e o aumento de

informação (seja por via de publicações ou criações), leva a um fenómeno designado de

“sobrecarga de informação” (ou em inglês information overload). O acontecimento deste

fenómeno deve-se muito ao facto de, apesar de a informação ser abundante, o utilizador

não conseguir tratá-la ou encontrar conhecimento nela, de forma a esta ter influência

positiva, nas tomadas de decisões. (Zhong et al., 2002).

Este tipo de problema evidenciou a necessidade de criação de mecanismos de auxílio

na procura de informação ou conhecimento em dados (Loh & Garin, 2001). Posto isto surgiu

o Web Intelligence (WI), que providência ferramentas web, aos utilizadores do negócio, que

os ajudarão na tomada de decisão e também a ter um conhecimento mais profundo dos

dados do negócio (Brogden et al., 2014). Para Liu (2003) WI junta conhecimentos da

pesquisa e desenvolvimento científico, de maneira a explorar os papéis fundamentais e os

principais impactos da Inteligência Artificial (AI) na próxima geração de sistemas, serviços e

ambientes de base web.

37

2.6.2 Dados na Web

Segundo Srivastava, Cooley, Deshpande, & Tan (2000) os dados, armazenados na web,

podem ter variados formatos e podem ser recolhidos de:

• Bases de dados;

• Servidores Web;

• Cliente Web;

• Servidores proxy.

O autor afirma ainda que os dados, em páginas web, podem ainda ser classificados

mediante o seu conteúdo (texto, imagens), a sua estrutura (html,xml,json,links) e o seu uso.

2.6.3 Capacidades do Web Intelligence

Existem variados exemplos do uso de sistemas inteligentes baseados em tecnologias

web. Liu (2003) apresenta-nos um, relacionado com uma visita à cidade de Montreal pela

primeira vez. O evento desenrola-se da seguinte forma:

• Primeiro, a pessoa, já em Montreal, procura saber um bom evento para passar

a noite;

• De seguida, como ela só conhece um lugar nessa cidade, desloca-se até lá e,

sendo esse local um Cyber Café, usa um computador para utilizar uma

aplicação que lhe dirá qual ou quais são os melhores eventos, atualmente, a

decorrer;

• Efetua então o login na aplicação, com o seu username, por exemplo,

“Spiderman”, e começa por fazer a seguinte pergunta:

“Qual são os melhores eventos para me divertir nesta altura do ano em

Montreal”

• De seguida a aplicação de inteligência web pensa durante um bocado e

responde:

“Spiderman”, nesta altura está a decorrer o campeonato nacional de hóquei e

existem jogos na localidade onde se encontra. Pretende ver algum?”

38

• O utilizador de seguida responde:

“Sim.”

• De seguida a aplicação sugere:

“Do meu conhecimento ainda existem bilhetes disponíveis e podem ser

comprados no Fórum de Montreal. Pode chegar até lá de metro (usando a

estação Atwater) ou de táxi”.

De seguida o utilizador decide se quer ir a esse evento ou não. Neste exemplo são

demonstradas algumas capacidades da inteligência web, segundo Liu (2003), tais como:

• Organização automática de servidores – a técnica de WI irá automaticamente

regular as funções e cooperações entre os websites e aplicações, relacionadas

entre si por um determinado tema.

• Especialização – WI por si só corresponde a um agente, que a um determinado

ponto se especializa na realização de alguns papéis e serviços.

• Crescimento – com a obtenção de conhecimento, os sistemas têm a

capacidade de crescer através de novas aprendizagens.

• Semântica – este tipo de sistemas têm que compreender o que nós desejamos

dizer, por exemplo, com “Montreal”, “época”, de forma a compreender a

granularidade das correspondências.

• Planeamento – o sistema planeia cada pormenor da pesquisa. No exemplo

anterior, consegui-o perceber qual era a época a que o utilizador se referia,

descobrir um evento e planear uma saída que fosse de encontro aos requisitos

pretendidos.

• Conhecimento-meta – para além de ser importante o reconhecimento da

semântica das palavras, a associação de conhecimento meta, que trata das

relações entre conceitos e das variáveis espácio-temporais, é também bastante

importante na organização de todo o plano.

2.6.4 Web Mining

39

Web Mining (WM) corresponde á utilização de técnicas de DM, para induzir e extrair

informação pertinente de repositórios web (Xu, Zhang, & Li, 2010).

Para Zhong et al. (2002), WM aplica técnicas de DM a repositórios de dados na web,

de forma a extrair conhecimento deles.

Já Srivastava et al. (2000) sugere que a aplicação de técnicas de DM, sobre dados

adquiridos na web, pode servir para realizar análises estatísticas sobre páginas, tempo gasto

na visita de páginas e números de acessos à mesma. O autor referencia também, que se

podem realizar análises de associações entre páginas.

Segundo Xu et al. (2010), WM pode ser classificado em três categorias, mediante os

objetivos do mining:

• Conteúdo de WM- tenta descobrir o conhecimento em sistemas

informacionais contidos na web;

• Estrutura de WM- está envolvido na modulação de websites em termos das

estruturas de ligação;

• Uso WM- tenta revelar os pacotes de acesso subjacentes de transações web

ou de sessões de utilizadores, usando os dados guardados nos logs.

O WM poderá ter várias aplicações em áreas distintas. Dentro delas podemos destacar

o E-commerce e o Targeted Marketing (Xu et al., 2010).

2.6.5 Aplicações de Web Intelligence

De seguida serão apresentadas algumas aplicações em que o WI poderá ter mais

influência, segundo Navin Kumar Tyagi & Tyagi (2010):

• Personalização– nesta área a maior aplicabilidade deste tipo de sistemas será

na percepção de como é que os clientes se comportam e quais as suas

preferências;

• Suporte ao Utilizador– as técnicas de WI podem ajudar na implementação de

conversas automáticas e/ou assistentes digitais, que interagem com o

utilizador através da linguagem, que nós, seres humanos, utilizámos.

• Procura de informações– auxiliar as pessoas na procura de informação na web,

através de métodos de filtragem automáticos.

40

• Intermediação de negócios – hoje em dia existem vários mercados virtuais

(muito geralmente através do e-commerce), onde empresas e clientes

negoceiam entre si (B2B – business to business ou B2C – business to client). Um

sistema inteligente pode analisar as procuras e fazer ofertas, negociar preços e

fechar negócios.

• Inteligência do negócio – entender o mercado, isto é, como este funciona, o

ambiente e toda a sua envolvente, de forma a poder oferecer os melhores

produtos e serviços ao cliente e também a melhorar os processos da empresa.

2.6.6 Soluções Web Intelligence no Mercado

Nesta área foram procuradas soluções que se focassem na utilização de dados,

provenientes de repositórios online, para melhorar os processos das organizações ou áreas

organizacionais. A tabela 5 apresenta as soluções e as respetivas características associadas a

cada uma.

Tabela 5 - Aplicações Web Intelligence no mercado

Soluções Características

OpenMIND

Ferramenta open-

source, que serve

organizações

governamentais e não

governamentais. Esta

ferramenta transforma,

automaticamente, dados

da web e da deep web,

que aparantemente não

têm relação entre si, em

dados com importância

para uma organização.

WebMIND Ferramenta poderosa de

41

procura de dados. Esta

recolhe, limpa e

estrutura dados

informacionais, de

diversas fontes,

facilitando a disposição

para análises posteriores

ou para processamento

noutros equipamentos.

Verint Web Intelligence

platform

Plataforma que recolhe

dados de locais online,

tais como, websites open

source, blogs, sites de

notícias e também da

deep web.

Hiwire System

Este é um sistema

WEBINT (Web

Intelligence) e tem a

particularidade de ter

sido desenvolvido

modularmente. Sendo

modular, esta solução

pode ser aplicada a

diversas áreas. As fontes

de dados são variadas.

2.7 Casos de Estudo

2.7.1 “Use Data Mining to improve student retention in Higher Education – A case study”

42

Zhang, Oussena, Clark, & Kim (2010) apresentam um caso de estudo, no qual referem

que o uso de técnicas de DM, pode, nas universidades, providenciar uma educação mais

personalizada, maximizar a eficiência do sistema educacional e reduzir os custos do processo

de educação. Refere também, que pode reduzir a retenção dos alunos, aumentar o rácio de

melhoramento e aumentar as capacidades de aprendizagem dos alunos.

Para entender os factos que influenciam as retenções nas universidades, normalmente

são usados questionários para recolha dados, tais como, historial do aluno, comportamento

do aluno, perceções do aluno, entre outros. Devido à pequena amostra de dados, que

normalmente esta técnica representa, a precisão pode nem sempre ser a melhor.

O projeto MCMS (Mining Course Management Systems), realizado na universidade de

Thames Valley, propôs a construção de um sistema de gestão de conhecimento baseado em

data mining. Foram usadas diferentes fontes de dados, tais como, biblioteca, e-learning, etc,

e integrados os seus dados numa DW baseada no desenho de modelos. Neste caso

específico, as técnicas de DM foram aplicadas para prever a performance individual dos

estudantes assim como a aptidão do curso ou modelos aplicados. Para os dados serem

compreendidos, foram utilizadas técnicas de Text Mining e Natural Language Processing

(NLP). A figura 15 demonstra o processo geral de um MCMS.

Figura 15 - Processo geral de um MCMS (adaptado de Zhang et al. (Zhang et al., 2010))

Num MCMS, a integração de modelos de dados é aplicada para extrair dados de

diferentes fontes ou sistemas (Zhang et al., 2010).

A figura 16 demonstra a arquitetura do sistema MCMS. As fontes de dados cobrem

as matrículas dos alunos, os dados dos cursos/módulos, as capacidades de aprendizagem,

entre outras. Os dados são carregados e transformados no DW. De seguida o DW gera

43

dados apropriados para o DM. A plataforma de base de dados usada neste caso de estudo

foi da Oracle 11g em conjunto com o Oracle DW e o Oracle data miner.

Figura 16 - Arquitetura de sistema de um MCMS (retirado de (Zhang et al., 2010))

Segundo Zhang et al. (2010) o uso deste tipo de sistemas pode ter uma grande

influência na forma como vemos, prevemos e combatemos a retenção. Os autores

chegaram à conclusão, de que, a retenção nada tem a ver com o background do aluno, mas

sim com as atividades académicas desenvolvidas por eles, tais como, quantas vezes dão uso

aos cursos online, o número de vezes que dão uso à biblioteca da universidade, entre outros

aspetos relacionados com estes.

44

2.7.2 “Business Intelligence in Thailand’s Higher Educational Resources Management”

O Ministério da Educação da Tailândia começou, desde 2005, a desenvolver uma base

dados relacionada com dados relativos ao Ensino Superior. O objetivo era desenvolver um

dataset standard a todas as instituições de educação do ensino superior.

Os elementos do dataset consistem em 49 campos relacionados com os estudantes, 35

campos relacionados com a universidade e 27 relacionados com o currículo.

A infraestrutura do sistema de informação inicialmente consistia no envio do dataset,

em formato papel, para o OHEC (Office of the Higher Education Commission), contudo, este

processo foi alterado para um suporte de base web, para encurtar o tempo de

processamento e reduzir erros causados por intervenção humana.

A figura 17 ilustra a infraestrutura que cada universidade tinha de implementar para

enviar os dados para a OHEC.

Figura 17 - Infraestrutura de Sistemas de Informação OHEC-DSS (adaptado de (Kleesuwan, Mitatha, Yupapin, & Piyatamrong, (Kleesuwan et al., 2010))

45

De forma a utilizar a base de dados da OHEC, tiveram de ser implementados vários

tipos de reports, utilizando várias linguagens de programação e sistemas de geração dos

mesmos. Se o sistema tiver de ser alterado, todo o código tem de ser alterado. O sistema de

suporte á decisão da OHEC (OHCE-DSS) foi desenvolvido utilizando ferramentas de business

intelligence da Microsoft e foram também desenvolvidas algumas visualizações front-end

para uma melhor interação com o utilizador. Em termos de segurança, o sistema requer

autenticação. A OHEC-EIS incorpora informação acerca dos alunos, staff e da universidade.

Esta base de dados serve o Ministério de forma estratégica, na medida em que, o

planeamento dos anos letivos, os orçamentos e os recursos são pensados tendo em conta

esses dados (Kleesuwan et al., 2010).

Segundo Kleesuwan et al. (2010) o sucesso do OHEC-DSS depende de dois fatores

principais:

• Os dados têm de estar corretos, ou seja, têm de ser verificados antes de ser

enviados para o OHEC-BD;

• Do sistema OLAP e da interface do utilizador.

2.7.3 “An Empirical Study of the Applications of Data Mining Techniques in Higher

Education”

Este estudo, realizado por Kumar & Chadha (2011), teve como principal foco a

identificação das áreas potenciais, sobre as quais as técnicas de data mining podem ser

aplicadas, na educação superior e também para identificar que tipo de técnicas de data

mining são suscetíveis para cada projeto.

Segundo Kumar & Chadha (2011) as principais técnicas usadas em data mining são:

• Análise de associação

• Classificação e previsão

• Análise de Cluster

• Análise de Outlier

Tendo como suporte as técnicas anteriormente referênciadas, podemos analisar os

dados extraídos em sala de aula e de aplicações de base web, para deles retirar

conhecimento e assim ajudar professores e alunos e tomar decisões (Kumar & Chadha,

46

2011). A figura 18 ilustra a forma como podemos extrair dados relativos ao ensino e aplicar

técnicas de DM.

Figura 18 - O ciclo de aplicação de Data Mining num sistema educacional (adptado de Kumar & Chadha (Kumar & Chadha, 2011))

Através do uso de técnicas de DM podemos realizar as seguintes atividades no seio

do Ensino Superiror (Kumar & Chadha, 2011):

• Organização do programa de estudos – Importante para manter a qualidade

do programa de ensino de cada instituição, o que poderá melhorar a qualidade

educacional e, consequentemente, melhorar aspetos como a aprovação dos

alunos;

• Prever o registo de estudantes num programa organizacional – DM ajuda a

identificar padrões , que servirão para tornar uma organização de ensino mais

competitiva , através do entendimento mais profundo de assuntos , tais como,

avaliação do plano e tomadas de decisão;

• Prever performance do estudante – com a extração de conhecimento dos

dados, é possível melhorar aspetos vitais no ambiente da instituição de ensino

e assim melhorar também as variáveis relativas aos estudantes;

• Detetar atividades fraudulentas num exame online – com o uso de técnicas de

DM, conseguimos detetar e prever atividades não permitidas. Os modelos

47

gerados usam dados comprimidos de diferentes estudantes acerca da sua

personalidade, situações de stress e dados comuns, anteriormente

armazenados , sobre tipos de atividades fraudulentas.

Segundo Kumar & Chadha (2011), o principal objetivo da aplicação de técnicas de DM

é o de suportar sistemas educacionais, gerando informação estratégica.

48

49

3. ABORDAGEM METODOLÓGICA

Este projeto encontra-se dividido em duas vertentes: uma teórica e uma prática. Posto

isto, serão utilizadas determinadas metodologias, que farão com que o desenvolvimento do

mesmo, seja realizado de forma adequada aos objetivos previamente traçados. O objetivo

do uso combinado de metodologias distintas, passa por utilizar as boas práticas por elas

oferecidas, e em conjunto com o conhecimento previamente obtido, “contruir” uma só que

ofereça uma robustez capaz de levar ao sucesso desejado.

As metodologias adotadas serão o Design Science Research (DSR), o Cross Industry

Standard Process for Data Mining (CRISP-DM) e a metodologia desenvolvida por Ralph

Kimball, “The Kimball Lifecycle”. É importante referir que o DSR será utilizado em todo o

desenvolvimento do projeto, enquanto que a metodologia desenvolvida por Kimball será

empregue na parte do desenvolvimento do sistema de Business Intelligence (BI) e o CRISP-

DM usado na secção destinada à extração de conhecimento dos dados, usando técnicas de

Data Mining (DM).

3.1 Design Science Research

O DSR corresponderá à base metodológica do desenvolvimento de todo o projeto.

Para Hevner, March, Park, & Ram (2004) o principal objetivo do uso da metodologia

DSR é a criação de artefactos (práticos, teóricos ou ambos), ligados às Tecnologias de

Informação (TI), que conterão conhecimento facilitando a solução de problemas

precocemente identificados numa determinada organização. A aplicação desta metodologia,

na sua maioria, é feita em problemas existentes no mundo real, sendo que, o conhecimento

e a compreensão são obtidos durante a criação e aplicação de um certo artefacto. Hevner et

al., (2004) dividiram o processo DS na pesquisa de sistemas de informação em sete

guidelines:

1. Design como um artefacto

2. Relevância do problema

3. Avaliação do Design

4. Contribuições da pesquisa

50

5. Rigor da pesquisa

6. Design como um processo de pesquisa

7. Comunicação e pesquisa

O propósito da sua utilização é o de obter os melhores resultados possíveis. Para isto

acontecer, o artefacto terá que ser inovador (Guideline 1) para um determinado domínio

(Guideline 2), este terá que ser avaliado para verificar a utilidade no problema em questão

(Guideline 3), deverá também resolver um problema que ainda não tenha sido resolvido, ou

então, apresentar uma alternativa melhor (Guideline 4), o artefacto terá também que ser

rigorosamente definido (Guideline 5), a pesquisa pela melhor solução terá que ser feita

cumprindo determinados factos e seguindo determinadas regras (Guideline 6) e por último,

os resultados (artefactos) terão que ser apresentados de forma eficiente a uma plateia das

áreas ligadas à tecnologia e à gestão (Guideline 7), (Hevner et al., 2004).

De maneira a melhor desenvolver o projeto e a fazer com que este não fuja do seu

rumo, aquando da escolha de uma metodologia, deve-se também designar um modelo que

divida o trabalho em determinados passos, com objetivos distintos, mas que no conjunto

formarão o artefacto desejado. Peffers et al., (2006) apresentam um modelo de processos,

ilustrado na figura 19, tendo como base o DSR, no qual dividem o trabalho em seis

atividades:

1. Identificação do problema e sua motivação – definição especifica do problema

de investigação e justificação do valor de uma solução. A definição correta do

problema é importante, na medida em que, esta será usada na construção do

artefacto que poderá ou não fornecer a solução desejada (Peffers et al., 2006).

Relativamente ao desenvolvimento desta dissertação, esta fase acenta na

formulação da questão e da motivação.

2. Definição de objetivos para a solução – os objetivos definidos para a solução

poderão ser quantitativos ou qualitativos. Quantitativos, na medida em que,

forneça informação de como a artefacto desenvolvido é melhor do que uma

solução já existente. Qualitativos no que toca à construção de um artefacto que

foque na resolução de um problema novo, ou seja, ainda sem solução. Os

objetivos devem seguir aquilo que foi feito anteriormente no estado de arte, ou

seja, seguir o problema e o conhecimento previamente obtido (Peffers et al.,

51

2006). Esta etapa, no desenvolver da dissertação, corresponderá à definição

dos objetivos, resultados esperados e também do enquadramento geral.

3. Conceção e desenvolvimento – nesta etapa incorre o desenvolvimento do

artefacto. Este poderá ter a natureza de construções, modelos, métodos ou

instanciações (Hevner et al., 2004). Será definida a funcionalidade necessária

do mesmo e a sua arquitetura (Peffers et al., 2006). Tendo em conta o

progresso deste projeto, este ponto equivalerá à criação do protótipo de Web

Intelligence.

4. Demonstração – nesta fase testa-se a capacidade do artefacto para resolver o

problema. A demonstração poderá ser feita através de experiências,

simulações, provas, casos de estudo ou outras alternativas viáveis (Peffers et

al., 2006). Posto isto, no decorrer da dissertação, esta fase coincidirá com os

testes efetuados ao sistema posteriormente criado.

5. Avaliação – apurar o impacto do artefacto na solução do problema e na criação

de novo conhecimento. Nesta atividade serão comparados os objetivos

definidos e os resultados reias produzidos pelo artefacto na atividade referida

anteriormente. No final desta atividade os investigadores terão que decidir se

voltam atrás (“Conceção e desenvolvimento”), para tentar melhorar a

eficiência do artefacto ou se continuam e deixam futuros melhoramentos para

outros projetos (Peffers et al., 2006). Nesta etapa o protótipo será avaliado

mediante os objetivos posteriormente traçados.

6. Comunicação – nesta última fase comunica-se o problema e a sua importância,

o artefacto, a sua utilidade e a sua eficiência (Peffers et al., 2006). Neste ponto

deverão ser descriminados todos os conteúdos diretamente relacionados com

o artefacto criado, sejam eles referentes, por exemplo, ao porquê de esta ser

uma solução inovadora ou pontos indicativos de melhoramentos que precisam

de ser realizados à solução criada. Esta fase representará a criação de artigos

científicos, o desenvolvimento do relatório da dissertação e a apresentação da

mesma.

52

Figura 19 - Metodologia do modelo de processos Design Science Research (adaptado de (Peffers, Tuunanen, Rothenberger, & Chatterjee (Peffers et al., 2007))

3.2 The Kimball Lifecycle

Para o desenvolvimento da componente mais prática da dissertação, serão utilizadas

duas metodologias, “The Kimball Lifecycle” desenvolvida por membros do Kimball Group e o

CRISP-DM explicado mais à frente no desenvolvimento do projeto.

The Kimball Lifecycle é uma metodologia usada para o desenvolvimento de sistemas

de Data Warehousing. Esta, providência uma framework generalista, que articula as várias

atividades para a implementação de um sistema de Data Warehouse(DW)/BI (Kimball, Ross,

Thornthwaite, Mundy, & Becker, 2008). Esta metodologia, representada na figura 20, é

constituída por onze atividades principais e uma atividade de suporte. A implementação

bem-sucedida de um sistema de DW e/ou BI, depende da integração apropriada de um

número de tarefas e componentes (Kimball et al., 2008). É importante referir que as

atividades sobre as quais devemos iterar (seguidamente explicadas), seguem uma ordem

lógica.

53

Figura 20- Diagrama The Kimball Lifecycle (adaptado de Kimball et al. (Kimball et al.,

2008))

1. Plano de Projeto – nesta primeira atividade, elaboração do “Plano de Projeto”, é

identificado e avaliado o nível geral do negócio, tendo como objetivo, perceber se

este é capaz de suportar a implementação deste tipo de sistema. De realçar que é

importante ter um conhecimento prévio dos requisitos básicos da

organização/negócio, para poder tomar decisões do seu ambiente nesta fase. Isto

é apurado, seguindo a imagem, com a seta bidirecional, que liga esta atividade

com outra, designadamente “Definição dos requisitos do negócio”, que

demonstra a dependência entre elas (Kimball et al., 2008).

2. Gestão do Projeto – esta prática assegura que todas as atividades desta

metodologia permanecem “sobre rodas” e em sincronia (Kimball et al., 2008). É

realizada ao longo de todo o projeto e sustenta a obtenção dos resultados

desejados.

3. Definição dos requisitos de negócio – de seguida são identificados os requisitos

do sistema através do diálogo com os responsáveis e utilizadores finais. Os

analistas do sistema de DW/BI devem entender os principais fatores que movem

o negócio, de maneira a transcrever os requisitos do mesmo num bom design do

sistema (Kimball et al., 2008).

4. Desenho da arquitetura técnica/Modelação dimensional/ Desenho da aplicação

de BI – terminadas as atividades anteriores, seguem-se outras três que decorrem

em paralelo. Na primeira, “Desenho da arquitetura técnica”, é estabelecida uma

54

framework da arquitetura geral e a sua (Kimball et al., 2008). Aqui são definidas e

configuradas as caraterísticas de todo o ambiente estrutural e aplicacional. Na

ação seguinte, “Modelação dimensional”, são elaborados os esquemas dos

modelos de dados e dos sistemas de armazenamento e carregamento de dados.

É criada uma matriz que servirá como blueprint da arquitetura de dados, para

assegurar que o sistema pode ser integrado e estendido, ao longo do tempo, na

organização (Kimball et al., 2008). Nesta fase é definida a granularidade da tabela

de factos, as suas dimensões, os respetivos atributos e os caminhos para efetuar

posteriores pesquisa. Por último, a atividade “Desenho da aplicação de BI”,

servirá para identificar aplicações BI e front-end que melhor servirão as

necessidades e capacidades do utilizador.

5. Desenho Físico/Seleção e Instalação do Produto – na atividade “Seleção e

Instalação do Produto”, será utilizado o plano da arquitetura técnica para

escolher os produtos que melhor se adequam ás necessidades. Assim que

designadas as ferramentas, estas terão de ser instaladas e, subsequentemente,

testadas para certificar a integração com o ambiente anteriormente pensado.

Paralelamente, na atividade “Desenho Físico”, é desenhada a estrutura da base

de dados e a sua segurança (Kimball et al., 2008), muito semelhante ao modelo

dimensional desenvolvido, contudo, terão de ser tidos em conta mais alguns

problemas que possam vir a existir.

6. Desenho e Desenvolvimento do ETL / Desenvolvimento da aplicação de BI –

Estas duas atividades, serão, também, realizadas simultaneamente. Na primeira

será realizado todo o processo ETL (“extrair, transformar e carregar dados”). Esta,

mesmo tendo todas as outras etapas planeadas de forma exemplar, encarga o

maior risco e esforço aplicado, cerca de 70% (Kimball et al., 2008). A segunda

atividade concerne à construção e validação das operações analíticas e

operacionais das aplicações de BI (Kimball et al., 2008). Tem como objetivo,

seguindo o desenho da aplicação anteriormente desenvolvido, conceber um

portal de navegação lógico, que, aquando da sua análise, facilite ou interfira

positivamente na tomada de decisão.

7. Implementação – as atividades anteriormente mencionadas e focadas nas

tecnologias, nos dados e nas aplicações BI, convergem nesta ação

55

“Implementação”, auxiliando na verificação da correta construção e

carregamento do DW e se as aplicações de acesso ao mesmo são as melhores

para o problema em questão. Esta fase terá que garantir que as peças do puzzle

encaixam na perfeição (Kimball et al., 2008).

8. Crescimento/Manutenção – depois de construído e implementado, o sistema

terá de ser mantido e aspirar o seu crescimento, por exemplo, no caso de se focar

somente numa área da organização, ser usados para outras. Como tal, terão de

ser fornecidas constantes formações aos utilizadores, assim como suporte

técnico. A construção deste tipo de sistemas tem que ser focada no negócio e no

crescimento (Kimball et al., 2008).

Pressupõe-se assim, que esta metodologia seja adequada à construção e

implementação de um sistema de DW, sistema esse, que influenciará o negócio ao nível da

tomada de decisão por parte dos gestores do negócio, na organização em questão.

3.3 Cross Industry Standard Process for Data Mining (CRISP-DM)

O processo de DM, enquanto fator de progresso da organização ao nível dos

resultados, serve como uma “arma”, sobre a qual a mesma poderá tirar proveito (Groth,

2000), de maneira a facilitar a compreensão, implementação e desenvolvimento deste tipo

de processos. O uso de uma metodologia facilita e torna a experiência muito mais agradável

para todos os intervenientes.

Tendo em conta o que foi dito anteriormente, no decorrer do processo de DM, será

utilizada a metodologia CRISP-DM (Cross Industry Standard Process for Data Mining), de

forma a analisar e detetar relações, tendências e padrões num conjunto, normalmente,

alargado de dados.

Como podemos apurar na figura 21, esta metodologia está dividida em seis fases,

sendo que a sequência das mesmas não é totalmente rígida (Chapman et al., 2000).

56

Figura 21 - Fases do modelo de referência CRISP-DM (adaptado de Chapman et al. (Chapman et al., 2000)).

• Compreensão do negócio - Esta primeira fase tem como foco principal a

compreensão dos requisitos e objetivos inerentes a uma dada organização para,

futuramente, poder converter o conhecimento obtido num problema de DM e em

objetivos que servirão de base motivacional ao longo de toda a realização do projeto

(Chapman et al., 2000).

• Compreensão dos dados - Esta etapa é iniciada com a aquisição dos dados e

prossegue com atividades relacionadas com a compreensão dos mesmos (Chapman

et al., 2000). Dentro destas ações, podemos destacar a identificação de problemas e

a deteção (inicial) dos temas com características mais interessantes, do ponto de

vista de serem alvo de uma futura análise.

• Preparação dos dados – Este passo, engloba todas as tarefas necessárias para

construção do dataset/base de dados final, assim como, a seleção de tabelas e

atributos e a transformação e limpeza dos dados (Chapman et al., 2000).

• Modelação – Este ponto abrange o uso de várias técnicas de modulação e a

otimização dos seus parâmetros para atingir os melhores resultados possíveis.

Usualmente, podem ser utilizadas diversas técnicas, para o mesmo problema, porém,

57

cada uma poderá ter um requisito próprio sobre a formatação dos dados. Tais

imposições levam a que possa existir um recuo para a fase anterior (Chapman et al.,

2000).

• Avaliação - Assim que atingimos esta fase, temos contruído um modelo ou um

conjunto de modelos com grande qualidade, de um ponto de vista da análise dos

dados. Todavia, antes de avançar para o próxima momento, é importante rever todos

os passos efetuados até então, para ter a certeza que, o modelo vai de encontro aos

objetivos previamente traçados (Chapman et al., 2000). No final desta fase, terá de

haver uma resposta à pergunta “O que fazer com os resultados obtidos?”.

• Implementação - Com o modelo criado, não significa que o projeto esteja acabado,

mesmo quando o propósito é única e exclusivamente a obtenção de um maior

conhecimento através dos dados. Esse conhecimento alcançado terá que ser

organizado e apresentado de uma maneira que o utilizador o possa usar (Chapman et

al., 2000). Esta fase poderá ter dois sentidos: um mais simples, que representa a

criação de relatório, ou outro mais complexo, que envolve a repetição do processo

de DM ao longo de toda a organização.

Dado que, no desenrolar deste projeto, será também utilizada a metodologia

desenvolvida por Ralph Kimball, “The Kimball Lifecycl”e, as três primeiras tarefas do CRISP-

DM, “Compreensão dos dados”,” Compreensão do negócio” e “Preparação dos dados”, já

estarão previamente preparadas, aquando da realização das tarefas “Definição dos

requisitos de negócio” e da concretização do processo ETL.

58

59

4. PLANEAMENTO

No presente capítulo serão apresentados o plano de atividades e a lista de riscos deste

projeto de dissertação.

4.1 Atividades

Nesta secção serão divididas as atividades inerentes ao projeto, ao longo de toda a

linha temporal de desenvolvimento da dissertação. A dissertação será realizada durante o

período de 11 de setembro de 2017 a 30 de novembro de 2018 (prazo estimado para a

apresentação da dissertação). Esta dissertação é composta por 4 atividades principais:

• Elaboração do plano de trabalhos;

• Elaboração do projeto de dissertação;

• Elaboração da dissertação;

• Elaboração de artigos científicos.

Na tabela 6, estão apresentadas as atividades do plano de trabalho, as respetivas

datas de ínicio e fim e as respetivas precedências.

Tabela 6 - Plano de Atividades

ID Atividade Início Conclusão Precedência

1 Plano de Atividades 11/09/2017 30/11/2018

1.1 Plano de Trabalho 01/09/2017 01/10/2017

1.1.1 Desenvolvimento do resumo e

enquadramento 02/09/2017 02/09/2017

1.1.2 Descrição dos objetivos e resultados

esperados 05/09/2017 05/09/2017 1.1.1

1.1.3 Descrição das abordagens

metodológicas 06/09/2017 10/09/2017 1.1.2

1.1.4 Formulação do plano de trabalhos 15/09/2017 16/09/2017 1.1.3

1.1.5 Envio do plano de trabalhos 29/09/2017 29/09/2017 1.1.4

60

1.2 Projeto de dissertação 01/10/2017 19/02/2018 1.1

1.2.1 Formulação do problema e Motivo 01/10/2017 01/10/2017 1.1

1.2.2 Definição dos objetivos 03/10/2017 03/10/2017 1.2.1

1.2.3 Pesquisa e seleção literária 05/10/2017 05/12/2017 1.2.2

1.2.4 Elaboração do relatório da

dissertação 06/12/2017 15/02/2018 1.2.3

1.2.5 Revisão do relatório da dissertação 15/02/2018 18/02/2018 1.2.4

1.2.6 Entrega do relatório da dissertação 19/02/2018 19/02/2018 1.2.5

1.3 Dissertação 20/02/2018 30/09/2018 1.2

1.3.1 Desenvolvimento do artefacto 20/02/2018 27/08/2018 1.2

1.3.1.1 Requisitos do negócio 20/02/2018 15/03/2018 1.2

1.3.1.2 Arquitetura tecnológica 15/03/2018 15/04/2018 1.3.1.1

1.3.1.3 Seleção e instalação do produto 16/04/2018 18/04/2018 1.3.1.2

1.3.1.4 Modelação dimensional 19/04/2018 21/05/2018 1.3.1.1

1.3.1.5 Conceção Física 21/05/2018 15/06/2018 1.3.1.4

1.3.1.6 Conceção e desenvolvimento do

processo ETL 15/06/2018 15/07/2018 1.3.1.5

1.3.1.7 Conceção da aplicação BI 15/05/2018 15/06/2018 1.3.1.1

1.3.1.8 Aplicação de técnicas de DM 17/07/2018 31/07/2018 1.3.1.7

1.3.1.9 Desenvolvimento de aplicação

web 31/07/2018 20/08/2018 1.3.1.8

1.3.2 Demonstração do Artefacto 21/08/2018 30/08/2018 1.3.1.9

1.3.3 Avaliação do artefacto 30/08/2018 08/09/2018 1.3.3

1.3.4 Elaboração e Revisão do relatório da

dissertação 09/09/2018 30/09/2018 1.2

1.4 Comunicação do artefacto 20/03/2018 30/11/2018 1.2

1.4.1 Escrita e revisão dos artigos

científicos 20/03/2018 30/09/2018 1.3.1.1

1.4.2 Submissão do relatório de

dissertação 22/10/2018 22/10/2018 1.3.4

1.4.3 Apresentação da dissertação 30/11/2018 30/11/2018 1.4.2

61

4.2 Lista de Riscos

Na tabela 7 são apresentados os riscos inerentes ao desenvolvimento do projeto. Nela

são expostas as variáveis associadas a cada risco: probabilidade, impacto, severidade,

explicação e mitigação. Tanto à probabilidade como ao impacto serão atribuídos valores

compreendidos de 1-5, sendo 1 o valor mais baixo e 5 o mais alto. A severidade resulta da

multiplicação das duas variáveis anteriormente referidas, percebendo assim qual o risco que

mais influência poderá ter no projeto. A identificação dos riscos leva a que haja uma

prevenção prévia da ocorrência dos mesmos.

Tabela 7 - Tabela de riscos inerentes ao projeto

RISCO Probabilidade Impacto Severidade Explicação Mitigação

Obstáculos no

manuseamento

da ferramenta

2 5 10

A inexperiência

na utilização

das

ferramentas

pode provocar

o adiamento

da entrega da

dissertação ou

a

concretização

de todos os

resultados

esperados.

Consultar

documentação,

tutoriais, assim

como, explorar

a ferramenta.

Reunir com

orientador para

partilha de

conhecimento.

Complexidade

elevada do

Projeto

2 5 10 A

complexidade

e proporção do

protejo poderá

implicar o

atraso da sua

Fomentar o

domínio das

ferramentas e

técnicas a

serem

utilizadas.

62

entrega.

Especializar o

controle da

ferramenta e

procedimentos

a serem

implementados.

Reduzida

qualidade dos

dados

2 4 8 A fraca

qualidade dos

dados pode

comprometer

a qualidade

final do

projeto.

Analisar

rigidamente os

dados,

assinalando e

categorizar os

erros,

inconsistências

e incoerências.

Incompreensão

dos objetivos

do projeto e

dos resultados

esperados

2 4 8 A má

compreensão

dos objetivos

inerentes ao

projeto pode

afetar a

qualidade do

mesmo e

desviar o

resultado

pretendido.

Reunir com

orientador para

esclarecer

dúvidas.

Modificação

dos objetivos e

Resultados

expectáveis

2 3 6 O orientador

pode

providenciar

modificações

Adaptar o plano

de trabalho.

63

nos objetivos

do projeto

causando a

readaptação

do plano de

trabalho.

Incumprimento

dos resultados

e objetivos

esperados

1 5 5 O

incumprimento

dos resultados

e objetivos

previstos do

trabalho,

compromete a

qualidade do

projeto ou até

a aceitação do

mesmo pelo

orientador.

Adiamento da

entrega do

projeto.

Indevido

planeamento

das atividades

a alcançar

1 5 5 Um fraco

planeamento

do projeto

pode

prejudicar a

qualidade do

trabalho final e

até a entrega

no tempo

definido.

Identificar e

priorizar as

atividades

chaves e ajustar

no plano de

trabalho

Medíocre

comunicação

com o

1 4 4 A ausência ou

escassa

comunicação

Definir reuniões

regulares e

estabelecer

64

orientador com o

orientador

pode gerar

uma má

interpretação

dos resultados

do projeto ou

embaraçar a

qualidade final

do projeto.

plataformas de

comunicação.

Extravio de

Ficheiros

1 3 3 Falhas, a nível

de hardware e

software na

máquina onde

se encontram

os ficheiros do

projeto,

podem

conduzir à

perda dos

mesmos,

provocando

desvios no

plano de

trabalho

Recuperar

ficheiros

através de

backups.

Ajustar plano

de trabalho.

Falha da

Máquina

1 3 3 A avaria na

máquina pode

atrasar o plano

de trabalho.

Recuperar

ficheiros

através dos

backups.

Utilizar

máquina de

65

reserva. Ajustar

plano de

trabalho.

66

67

5. CONCLUSÃO

Com a finalidade de responder à pergunta “De que maneira o desenvolvimento de

sistemas inteligentes, baseados em web, podem ter influência no apoio à toma de decisão

no ensino superior?”, foi realizado um estudo literário com o objetivo de aprimorar

conhecimentos na área. As principais conclusões retiradas da análise literária foram:

aumento dos dados relacionados com o ensino e a falta de capacidade de os aproveitar para

tornar o processo de tomada de decisão mais simples nesta área. Tendo percebido a

existência desta necessidade, foi criado o Web Intelligence (WI), que fornece um conjunto de

aplicações, de base web, que simplificam o processo de extração, carregamento,

transformação e extração de conhecimento dos dados.

A perceção de como estes sistemas podem realmente ter impacto no “mundo-real”,

foi completa aquando da pesquisa de casos de estudo relacionados com o tema em estudo.

Foi verificado que não existe uma larga difusão de estudo nesta área, sendo que os casos de

estudo apresentados, demonstram, na sua maioria, soluções de Business Intelligence (Bi) e

arquiteturas de construção de sistemas WI.

No geral, a revisão literária permitiu compreender melhor todos os conceitos ligados

ao tema em estudo, bem como identificar tecnologias que poderão servir para a

componente prática deste projeto.

Na próxima etapa da dissertação irá ser realizada a vertente prática, que terá como

principal objetivo o desenvolvimento de um protótipo WI. Também serão realizados artigos

científicos, que idealmente adicionarão conhecimento à área e que futuramente possam

ajudar outros no desenvolvimento de projetos semelhantes.

68

69

BIBLIOGRAFIA

Ariyachandra, T., & Watson, H. J. (2006). Which Data Warehouse Architecture Is Most

Successful? Business Intelligence Journal, 11(1), 4–6.

https://doi.org/10.1145/1400181.1400213

Brogden, J., Sinkwitz, H., Marks, D., & Orthous, G. (2014). Introduction to SAP

BusinessObjects Web Intelligence 4.1 (3rd editio). Retrieved from https://s3-eu-west-

1.amazonaws.com/gxmedia.galileo-

press.de/leseproben/3673/Reading_Sample_sappress_1057_SAP_BusinessObjects_We

b_Intelligence_updated.pdf

Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., & Wirth, R. (2000).

Crisp-Dm 1.0. CRISP-DM Consortium, 76. https://doi.org/10.1109/ICETET.2008.239

Chaudhuri, S., & Dayal, U. (1997). An overview of data warehousing and OLAP technology.

ACM SIGMOD Record, 26(1), 65–74. https://doi.org/10.1145/248603.248616

Chen, H., & Storey, V. C. (2012). Business Intelligence and Analytics : From Big Data To Big

Impact. Mis Quarterly, 36(4), 1165–1188. https://doi.org/10.1145/2463676.2463712

Costa, S. A. R. da. (2012). Sistema de business intelligence como suporte à gestão

estratégica. Retrieved from http://repositorium.sdum.uminho.pt/handle/1822/25810

Dougherty, C. (2015). Use of Data to Support Teaching and Learning: A Case Study of Two

School Districts. ACT Research Report Series, 2015(1). Retrieved from

https://files.eric.ed.gov/fulltext/ED558033.pdf

Eckerson, W. W. (2006). Performance dashboards : measuring, monitoring, and managing

your business. John Wiley. Retrieved from

https://books.google.pt/books/about/Performance_Dashboards.html?id=rCt-

FVy8PvcC&redir_esc=y

Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge

Discovery in Databases. AI Magazine, 17(3), 37.

https://doi.org/10.1609/aimag.v17i3.1230

Golfarelli, M., & Rizzi, S. (2009). Data Warehouse Design, Modern Principles and

Methodologies. Data Warehouse.

Groff, J. (2013). Technology-rich innovative learning environments. Oecd.Org, 1–30.

https://doi.org/10.1017/CBO9781107415324.004

Groth, R. (2000). Data mining : building competitive advantage. Prentice Hall PTR.

Inmon, W. H. W. H. (2005). Building the data warehouse. Career: Data and Analytics.

Jiawei, H., Kamber, M., Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and

Techniques. San Francisco, CA, itd: Morgan Kaufmann. https://doi.org/10.1016/B978-0-

12-381479-1.00001-0

Kimball, R., Reeves, L., Ross, M., & Thornthwaite, W. (2008). The Data Warehouse Lifecycle

Toolkit: Expert Methods for designing, developing and deploying data warehouse.

70

Architecture. Wiley Pub.

Kimball, R., & Ross, M. (2013). The Data Warehouse Toolkit, The Definitive Guide to

Dimensional Modeling. Vasa. Wiley. https://doi.org/10.1145/945721.945741

Kılıç Depren, S., Aşkın, Ö. E., & Öz, E. (2017). Identifying the Classification Performances of

Educational Data Mining Methods: A Case Study for TIMSS. Educational Sciences:

Theory & Practice, 17(5), 1605–1623. https://doi.org/10.12738/estp.2017.5.0634

Kleesuwan, S., Mitatha, S., Yupapin, P. P., & Piyatamrong, B. (2010). Business intelligence in

Thailand’s higher educational resources management. Procedia - Social and Behavioral

Sciences, 2(1), 84–87. https://doi.org/10.1016/j.sbspro.2010.01.018

Kumar, V., & Chadha, A. (2011). An Empirical Study of the Applications of Data Mining

Techniques in Higher Education. International Journal of Advanced Computer Science

and Applications, 2(3), 80–84. https://doi.org/10.14569/IJACSA.2011.020314

Liu, J. (2003). Web Intelligence (WI): What makes wisdom web? IJCAI International Joint

Conference on Artificial Intelligence.

Loh, S., & Garin, R. (2001). WEB INTELLIGENCE – INTELIGÊNCIA ARTIFICIAL PARA

DESCOBERTA DE CONHECIMENTO NA WEB. Intelligence. Retrieved from

file:///C:/Users/adria/Google Drive/Tese/WI/5630eebc08ae13bc6c3549eb.pdf

Navin Kumar Tyagi, A. K. S., & Tyagi, S. (2010). An Algorithmic Approach To Data

Preprocessing in Web Usage Mining. International Journal of Information Technology

and Knowledge Management, 2(2), 279–283. Retrieved from

https://pdfs.semanticscholar.org/56fe/18e6b14a02c8ad898e56912013ed92bd9be6.pdf

Negash, S. (2004). Business Intelligence. Communications of the Association for Information

Systems, (January 2004). https://doi.org/10.1007/s00287-009-0374-1

Olszak, C. M., & Ziemba, E. (2012). Critical Success Factors for Implementing Business

Intelligence Systems in Small and Medium Enterprises on the Example of Upper Silesia,

Poland. Interdisciplinary Journal of Information, Knowledge & Management, 7, 129–

150. https://doi.org/15551229

Rahm, E., & Do, H. H. (2000). Data Cleaning : Problems and Current Approaches. IEEE, 1–11.

Retrieved from http://dbs.uni-leipzig.de

Rainardi, V. (2008). Building a Data Warehouse With Examples in SQL Server. Retrieved from

www.apress.com

Rhodes, L. (2017). Teaching and technology: case studies from India, (January). Retrieved

from http://www.centralsquarefoundation.org/wp-

content/uploads/2017/01/Teaching-and-technology-case-studies-from-

India_FINAL_low_res_NEW.pdf

S.Ponmani, Roxanna Samuel, P. V. (2017). Classification Algorithms in Data Mining – A

Survey. International Journal of Advanced Research in Computer Engineering &

Technology, 6(1).

Santos, M. Y., & Ramos, I. (2006). Business Intelligence: tecnologias da informação na gestão

de conhecimento. FCA - Editora de Informática, Lda. Retrieved from

http://repositorium.sdum.uminho.pt/handle/1822/6198

71

Srivastava, J., Cooley, R., Deshpande, M., & Tan, P.-N. (2000). Web Usage Mining : Discovery

and Applications of Usage Patterns from Web Data. ACM SIGKDD Explorations

Newsletter, 1(2), 12–23. https://doi.org/10.1145/846183.846188

Turban, E., Sharda, R., Delen, D., King, D., & Aronson, J. E. (2010). Business Intelligence: A

Managerial Approach (Vol. 0). Retrieved from

https://books.google.com/books?id=IvZ0RAAACAAJ&pgis=1

Vassiliadis, P., Simitsis, A., & Skiadopoulos, S. (2002). Conceptual modeling for ETL processes.

In Proceedings of the 5th ACM international workshop on Data Warehousing and OLAP -

DOLAP ’02 (pp. 14–21). New York, New York, USA: ACM Press.

https://doi.org/10.1145/583890.583893

Vaz de Oliveira e Sá, J. (2009). Metodologia de Sistemas de Data Warehouse. Retrieved from

http://repositorium.sdum.uminho.pt/bitstream/1822/10663/4/Tese de

doutoramento_Jorge Vaz de Oliveira e Sá_2009.pdf

Vercellis, C. (2009). Business Intelligence: Data Mining and Optimization for Decision Making.

Wiley. Retrieved from

https://books.google.pt/books/about/Business_Intelligence.html?id=Yl_yAn2bhZ0C&re

dir_esc=y

Xu, G., Zhang, Y., & Li, L. (2010). Web Mining and Social Networking: Techniques and

Applications. Springer. Retrieved from

https://books.google.com/books?id=mXo9zKeYa6cC&pgis=1

Yeoh, W., & Koronios, A. (2010). CRITICAL SUCCESS FACTORS FOR BUSINESS INTELLIGENCE

SYSTEMS. Journal of Computer Information Systems, 50(3), 23–32.

https://doi.org/10.1109/SISY.2012.6339583

Zhang, Y., Oussena, S., Clark, T., & Kim, H. (2010). Using data mining to improve student

retention in HE: a case study, 8.

Zhong, N., Liu, J., & Yao, Y. (2002). In search of the Wisdom Web, 27–31.

Zhong, N., Liu, J., & Yao, Y. (2007). Envisioning intelligent information technologies through

the prism of web intelligence. Communications of the ACM, 50(3), 89–94.

https://doi.org/10.1145/1226736.1226741

72

73

ANEXO I – MATRIZ DE CONCEITOS

Na tabela 8 é apresentada a matriz de conceitos, que serve para cruzar a literatura

efetuada com os conceitos definidos. É de realçar que foram considerados os autores que

mais influência tiveram no desenvolvimento do projeto.

Tabela 8 - Matriz de Conceitos

Autor

Conceitos

Web

Intelligence

Business

Intelligence

Data

Warehouse

Data

Mining

Brogden et al. (2014) x

Fayyad et al. (1996) x

Groth (2000) x

Inmon (2005) x x

Jiawei et al. (2012) x

Kimball & Ross (2013) x x

Kimball, Reeves, Ross, &

Thornthwaite (2008) X x

Loh & Garin (2001) x

Negash (2004) x

Santos & Ramos (2006) x x x

Srivastava et al. (2000) x

Turban et al. (2010) x x x

Vaz de Oliveira e Sá (2009) x x

Vercellis (2009) x x

Zhong et al. (2002) x

Zhong, Liu, & Yao (2007) x

Documents

Adriano Rafael Rodrigues Faria Maia - dsi.uminho.pt · Adriano Rafael Rodrigues Faria Maia Web Intelligence no Ensino Superior Dissertação de Mestrado Mestrado em Engenharia e Gestão