64
Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Embed Size (px)

Citation preview

Page 1: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Data Warehouse

Equipe:Gilmar

FerreiraMarcos

CostaRicardo Araújo

Page 2: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 2

O Cenário

Corporações Necessitam de decisões rápidas e precisas Reação rápida a mudanças do ambiente Obtenção de vantagem competitiva

Page 3: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 3

O Cenário

Dados Disponíveis em sistemas não

integrados Espalhados em múltiplas e

independentes plataformas

Dificuldade de análise

Page 4: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 4

Conceitos

Processamento Operacional (OLTP) Funcionalidades do negócio Processamento de transações:

inserção, atualização, consulta e deleção

Reflete valor corrente, não-redundante e atualizável

Altamente voláteis Modelagem E/R

Page 5: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 5

Conceitos

Processamento Analítico (OLAP) Suporte à tomada de decisão Dados históricos, não voláteis, ready-

only Integram informações de diversos

sistemas operacionais Permitem identificações de perfis,

tendências e padrões

Page 6: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 6

Conceitos

Processamento Analítico (OLAP) Redundância de dados aceita Alto desempenho na recuperação de

dados versus economia de espaço Banco de Dados Multidimensional

Page 7: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 7

Conceitos

OLTP X OLAPOLTP OLAP

Orientados a aplicações Orientados a assuntos As Vezes de Grande tamanho Quase sempre grandes Dados granulados Dados constituídos de sumarizações Dados de pouca fontes Dados de múltiplas fontes Suporta consultas e atualizações Atualizações em modo batch Dados que mudam constantemente Dados mais estáveis Dados atuais Dados históricos Tabela 1 Diferenças entre banco de dados OLTP e OLAP (fonte: [COR 97])

Page 8: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 8

Conceitos

MOLAP Banco de dados multidimensional Conjunto de interfaces, aplicações e

banco de dados Tecnologia proprietária Dados armazenados em cubo de n

dimensões Alta performace

Page 9: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 9

Conceitos

ROLAP Conjunto de interfaces e aplicações

que dá ao BD relacional características dimensionais

HOLAP Combina as tecnologias MOLAP E

ROLAP Objetivo: combinar as melhores

características de ambas

Page 10: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 10

Conceitos

Sistema de Apoio à Decisão (SAD) Realizam processamento analítico Provêem as informações necessárias

ao usuário Permitem análise de situações e

tomada de decisões Necessidades estratégicas e táticas

Page 11: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 11

Data Warehouse Data WareHouse

SAD Fornece informações para auxiliar a

tomada de decisões estratégicas Une, de forma organizada,

informações espalhadas em diversas fontes

Page 12: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 12

Definição de DW Data WareHouse

Inmon: Data Warehouse é uma coleção de dados orientados à assunto, integrada, dinâmica e não-volátil, para o suporte a decisões de gerenciamento

Kimball: Data Warehouse é a fonte de dados de consulta do empreendimento

Page 13: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 13

Data Mart

Data Mart Subconjunto lógico do DW Projetado para representar uma função

particular do negócio Rapidamente implementável e de baixo

custo Controle local, em vez de centralizado Redução do tempo de resposta a consultas

Page 14: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 14

Data Mart Problemas

Pode acarretar a fragmentação de dados da organização

Solução Deve haver planejamento para futura

integração com um DW único de toda empresa

Construção de um DW na forma de DM distribuídos em unidades individuais

Page 15: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 15

ODS: Operational Data Store

ODS Usados para decisões a curto prazo

envolvendo aplicações de missão crítica

Trabalha diretamente com sistemas legados

Dados mais antigos podem ser movidos e sumarizados para o DW

Page 16: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 16

Modelagem Processamento Analítico

Problemas da Modelagem E/R Redução de visão global do negócio

para grandes modelos Não tem alto desempenho na

recuperação de dados (principalmente joins)

Para cada variação na estrutura do modelo, há necessidade de reescrever e ajustar as implementações

Page 17: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 17

Modelagem Processamento Analítico

Modelagem Dimensional Específica para processamento

analítico Apresentação de dados padronizada,

intuitiva e que permite alto desempenho de acesso

Dois tipo de tabelas: Fato e dimensão. Chave primária simples da tabela

dimensão corresponde à chave estrangeira de fato (Esquema estrela)

Page 18: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 18

O ambiente de um DW

Arquitetura resumida de DW

Page 19: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 19

Características básicas

Orientado por tema Integrado Não-volátil Variante no tempo Dados sumarizados Metadados Dados oriundos de fontes internas

e/ou externas

 

Page 20: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 20

Orientado por temas

Refere-se ao fato do DW armazenar informações sobre temas específicos importantes para o negócio da empresa

Exemplos produtos, atividades, contas, clientes, etc.

O ambiente operacional é organizado por aplicações funcionais

Exemplo, em uma organização bancária, estas aplicações incluem empréstimos, investimentos e seguros.

Page 21: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 21

Integrado

Refere-se à consistência de nomes das unidades das variáveis

Dados foram transformados até um estado uniforme

Por exemplo, todas as medidas (cm, polegadas,jardas) são convertidas para metros.

Page 22: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 22

Não volátil

Permite o "load-and-access”

Os dados após serem extraídos, transformados e transportados para o DW estão disponíveis aos usuários somente para consulta

Page 23: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 23

Variante no tempo

Os DW armazenam dados por um período de tempo de 5 a 10 anos

Refere-se a algum momento específico não é atualizável

No DW haverá sempre uma tabela dimensão ou fato, cuja estrutura registrará o elemento tempo

Page 24: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 24

Metadados

“Dados sobre dados” [INMON ]

Provêm informações sobre a estrutura de dados e as relações entre estas dentro ou entre bancos de dados

“São todas as informações do ambiente do DW que não são seus próprios dados” [Kimball]

Page 25: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 25

Granularidade É o nível de detalhes dentro do banco de

dados do DW

Quanto menor a granularidade, maior o nível de detalhes e, conseqüentemente, maior o volume de dados armazenado

Exemplo, Registro de Vendas de uma rede de supermercados:

diária: sumarização de vendas e carga diária no Banco de Dados

mensal: sumarização de dados e carga a cada 30 dias no Banco de Dados

Page 26: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 26

Agregação São registros sumarizados logicamente

redundantes com os dados básicos do DW

Finalidades: melhorar o tempo de reposta as consultas reduzir o tempo de processamento reduzir espaço de armazenamento

Page 27: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 27

Modelagem dimensional

Hipercubo, onde cada célula contém um valor a partir dos lados desse cubo que definem as dimensões

valor

Page 28: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 28

Modelagem dimensional

Representação voltada para processamento analítico. Intuitividade para o decisor

Suporte de tecnologias MOLAP, ROLAP ou HOLAP

Dois tipos principais de estruturas ou esquemas: estrela (star schema) ou floco de neve (snowflake schema)

Page 29: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 29

Modelagem dimensional

Tabelas fatos Contêm as medições numéricas do negócio

Exemplo: unidades_vendidas, custo_dolar

Grande quantidade de dados Chave primária composta por FKs Atributos numéricos e valorados

Page 30: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 30

Modelagem dimensional

Tabelas dimensão Contém dados descritivos do negócio Chave primária simples Pequena quantidade de informações se

comparadas com as tabelas fato Modelos reais contêm entre 4 e 15

dimensões Modelos com mais de 20 dimensões

devem ser melhor estudados

Page 31: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 31

Esquema estrela

Este esquema é chamado de estrela, por apresentar a tabela de fatos "dominante" no centro do esquema e as tabelas de dimensões nas extremidades.

Page 32: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 32

Esquema estrela Permite projetar o BD da forma como o

usuário pensa em usá-lo analiticamente Limitações:

Tabela dimensional possui uma quantidade muito grande de atributos

Soluções: Múltiplas tabelas de fatos Tabelas associativas Tabelas externas

Page 33: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 33

Esquema estrela

Múltiplas tabelas de fato

Page 34: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 34

Esquema estrela

Tabelas associativas

Page 35: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 35

Esquema estrela

Tabelas externas

Page 36: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 36

Esquema floco de neve

Extensão esquema estrela onde cada uma das "pontas" da estrela passa a ser o centro de outras estrelas

Page 37: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 37

Integração de Data Marts e DW

Possível através do conceito de Data Warehouse bus

Esquema geral e padronizado de tabelas dimensão e fato

Permite desenvolvimento evolucionário

Page 38: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 38

Topologias de DWs Centralizada

Único Banco de Dados Físico usados onde existe uma necessidade comum de

informações.

Data Warehouse e Data Marts ligação de vários DM a um DW Usuário pode pode acessar os DM (gerente de

departamento) ou acessar o DW para obter informações globais da organização

Page 39: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 39

Topologias de DWs

Distribuída Vários DW interligados através de uma

rede com forte suporte a processamento distribuído

Usuário pode conectar-se a qualquer DW Apresenta problemas de desempenho Será muito utilizada para dar suporte às

aplicações para Web.

Page 40: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 40

Topologias de DWs

Desenvolvimento estratégico

Desenvolvimento botton-up de Data Marts

Desenvolvimento top-down de dados

Possibilita criação de Sistemas flexíveis e escaláveis

Page 41: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 41

Arquitetura de um DW

Arquitetura de Dados Uma camada (one tier)

Dados armazenados uma única vez Duas camadas (two tier)

Dados operacionais e analíticos separados em camadas distintas

Três camadas (three tier) Transformação de dados não é executada

em um único passo

Page 42: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 42

Arquitetura de Dados do DW

Uma camada

Page 43: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 43

Arquitetura de Dados do DW

Duas camadas

Page 44: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 44

Arquitetura de Dados do DW

Três camadas

Page 45: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 45

Arquitetura de um DW

Arquitetura de Acesso aos Dados Duas camadas

Acesso direto ao DW e Metadados Três camadas (ROLAP)

Servidor de aplicações Três camadas + (MOLAP)

Servidor de aplicações + Cubo OLAP

Page 46: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 46

Arquitetura de Acesso aos Dados do DW

Duas camadas

Page 47: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 47

Arquitetura de Acesso aos Dados do DW Três camadas

Page 48: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 48

Arquitetura de Acesso aos Dados do DW Três camadas +

Page 49: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 49

Arquitetura de um DW

Arquitetura Funcional Plano geral do que se deseja do Data

Warehouse Descreve o fluxo de dados em todas

as etapas Especifica técnicas e ferramentas

necessárias

Page 50: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 50

Arquitetura Funcional do DW

Page 51: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 51

Arquitetura Funcional do DW Componentes da Área Interna

Sistemas Fontes Sistemas operacionais internos + fontes externas

Área de Organização de Dados Lugar onde os valores a serem adicionados são

tratados (Motor do DW) Servidor de Apresentação

Compartilhado entre as Áreas Componentes

Data Marts com dados agregados Data Marts com dados atômicos Data Warehouse Bus Catálogo de Metadados

Page 52: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 52

Arquitetura Funcional do DW

Serviços da Área Interna Extração

Carga incremental Baseado em transações Carga completa

Transformação de dados Integração Limpeza Conversão de tipos Combinação Agregação etc.

Page 53: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 53

Arquitetura Funcional do DW

Serviços da Área Interna (cont) Carga de Dados

Suporte para múltiplos destinos Otimização do processo de carga

Controle de Dados organizados Definição e Agendamento de trabalhos Monitoramento Arquivo de log Manipulação de exceções Manipulação de erros Notificação

Page 54: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 54

Arquitetura Funcional do DW

Gerenciamento de recursos da Área Interna Backup e Recovery Archive e Retrieval

Metadados da Área Interna Dos sistemas fonte

Das especificações da fonte Das informações descritivas da fonte Dos processos de informação

Page 55: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 55

Arquitetura Funcional do DW

Metadados da Área Interna (cont) Da área de organização de dados

Das informações de aquisição de dados Do gerenciamento das tabelas dimensão Das transformações e agregações De auditorias, logs de trabalho e

documentação Do banco de dados

Page 56: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 56

Arquitetura Funcional do DW Componentes da Área Externa

Servidor de apresentação Dados disponibilizados para usuário final

Ferramenta de acesso aos dados Consultas ad hoc (utilização de cache) Drill down, Drill up ou roll up, Slice e Dice

Ferramenta geradora de relatórios Relatórios padronizados (utilização de cache)

Modelos de aplicações Data Mining

Sistemas após o DW Sistemas de geração de relatórios orientados a

transações (ex.: Sistema de previsão de demanda)

Page 57: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 57

Arquitetura Funcional do DW

Serviços da Área Externa Warehouse browsing

Ligados ao cadastro de metadados Serviços de acesso e segurança

Autenticação e autorização Serviços de monitoramento de

atividades Centrados sobre:

Desempenho, suporte ao usuário, marketing e planejamento

Page 58: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 58

Arquitetura Funcional do DW

Serviços da Área Externa (cont) Serviços de gerenciamento de consultas

Simplificação do conteúdo Reformulação da consulta Redirecionamento de consulta Consciência de agregados

Serviços de padronização de relatórios Permitir criação de relatórios em formatos

pré-definidos

Page 59: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 59

Arquitetura Funcional do DW

Metadados da Área Externa Descrição das colunas, tabelas e

agrupamentos Consultas pré-formuladas Perfis de privilégio de usuários Mapas de acessos à tabelas, visões,

relatórios e dados Documentação para Usuário Final

Page 60: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 60

Arquitetura Funcional do DW

Tendências Futuras Área Interna

Sistema de participação de fonte ativa Envio de dados Sistemas orientados a objetos

Área Externa Autenticação e autorização Centralização dos serviços de acesso Acesso a clientes baseados na Web

Page 61: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 61

Ferramentas

DBMINER Procura integrar tecnologias de DW e

Data Mining Banco de dados analítico MOLAP Importa um conjunto de tabelas

provenientes de BDRs como MS SQL Server, MS Acess, Oracle ou Text Files

Possui wizard para montar Data Mart

Page 62: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 62

Ferramentas MS SQL Server

Conjunto de Aplicativos da Microsoft Banco de dados relacional, ferramentas

OLAP e MS English Query Torna possível implementação de

sistemas de suporte à decisão ROLAP, MOLAP, OLAP

Serviços de importação, extração, transformação, validação e limpeza de dados heterogêneos

Serviços de gerenciamento e ferramentas voltadas para o usuário final

Page 63: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 63

Conclusões Data Warehousing integra grandes

volumes de dados originados em sistemas separados

Necessitam de grande esforço para seu desenvolvimento

Torna possível a descoberta de conhecimento escondido nos dados

Útil para organizações que precisem tomar decisões estratégicas de risco e que necessitem se posicionar de forma vantajosa

Page 64: Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo

Centro de Informática - UFPE 64

Conclusões

Desenvolvimento de servidores de BD paralelos poderá viabilizar o suporte a Data Warehouses cada vez maiores

Tratará dados multimídia Data WareHouse deverá também

ser viabilizado na Internet