Upload
internet
View
110
Download
2
Embed Size (px)
Citation preview
Data Warehouse
Equipe:Gilmar
FerreiraMarcos
CostaRicardo Araújo
Centro de Informática - UFPE 2
O Cenário
Corporações Necessitam de decisões rápidas e precisas Reação rápida a mudanças do ambiente Obtenção de vantagem competitiva
Centro de Informática - UFPE 3
O Cenário
Dados Disponíveis em sistemas não
integrados Espalhados em múltiplas e
independentes plataformas
Dificuldade de análise
Centro de Informática - UFPE 4
Conceitos
Processamento Operacional (OLTP) Funcionalidades do negócio Processamento de transações:
inserção, atualização, consulta e deleção
Reflete valor corrente, não-redundante e atualizável
Altamente voláteis Modelagem E/R
Centro de Informática - UFPE 5
Conceitos
Processamento Analítico (OLAP) Suporte à tomada de decisão Dados históricos, não voláteis, ready-
only Integram informações de diversos
sistemas operacionais Permitem identificações de perfis,
tendências e padrões
Centro de Informática - UFPE 6
Conceitos
Processamento Analítico (OLAP) Redundância de dados aceita Alto desempenho na recuperação de
dados versus economia de espaço Banco de Dados Multidimensional
Centro de Informática - UFPE 7
Conceitos
OLTP X OLAPOLTP OLAP
Orientados a aplicações Orientados a assuntos As Vezes de Grande tamanho Quase sempre grandes Dados granulados Dados constituídos de sumarizações Dados de pouca fontes Dados de múltiplas fontes Suporta consultas e atualizações Atualizações em modo batch Dados que mudam constantemente Dados mais estáveis Dados atuais Dados históricos Tabela 1 Diferenças entre banco de dados OLTP e OLAP (fonte: [COR 97])
Centro de Informática - UFPE 8
Conceitos
MOLAP Banco de dados multidimensional Conjunto de interfaces, aplicações e
banco de dados Tecnologia proprietária Dados armazenados em cubo de n
dimensões Alta performace
Centro de Informática - UFPE 9
Conceitos
ROLAP Conjunto de interfaces e aplicações
que dá ao BD relacional características dimensionais
HOLAP Combina as tecnologias MOLAP E
ROLAP Objetivo: combinar as melhores
características de ambas
Centro de Informática - UFPE 10
Conceitos
Sistema de Apoio à Decisão (SAD) Realizam processamento analítico Provêem as informações necessárias
ao usuário Permitem análise de situações e
tomada de decisões Necessidades estratégicas e táticas
Centro de Informática - UFPE 11
Data Warehouse Data WareHouse
SAD Fornece informações para auxiliar a
tomada de decisões estratégicas Une, de forma organizada,
informações espalhadas em diversas fontes
Centro de Informática - UFPE 12
Definição de DW Data WareHouse
Inmon: Data Warehouse é uma coleção de dados orientados à assunto, integrada, dinâmica e não-volátil, para o suporte a decisões de gerenciamento
Kimball: Data Warehouse é a fonte de dados de consulta do empreendimento
Centro de Informática - UFPE 13
Data Mart
Data Mart Subconjunto lógico do DW Projetado para representar uma função
particular do negócio Rapidamente implementável e de baixo
custo Controle local, em vez de centralizado Redução do tempo de resposta a consultas
Centro de Informática - UFPE 14
Data Mart Problemas
Pode acarretar a fragmentação de dados da organização
Solução Deve haver planejamento para futura
integração com um DW único de toda empresa
Construção de um DW na forma de DM distribuídos em unidades individuais
Centro de Informática - UFPE 15
ODS: Operational Data Store
ODS Usados para decisões a curto prazo
envolvendo aplicações de missão crítica
Trabalha diretamente com sistemas legados
Dados mais antigos podem ser movidos e sumarizados para o DW
Centro de Informática - UFPE 16
Modelagem Processamento Analítico
Problemas da Modelagem E/R Redução de visão global do negócio
para grandes modelos Não tem alto desempenho na
recuperação de dados (principalmente joins)
Para cada variação na estrutura do modelo, há necessidade de reescrever e ajustar as implementações
Centro de Informática - UFPE 17
Modelagem Processamento Analítico
Modelagem Dimensional Específica para processamento
analítico Apresentação de dados padronizada,
intuitiva e que permite alto desempenho de acesso
Dois tipo de tabelas: Fato e dimensão. Chave primária simples da tabela
dimensão corresponde à chave estrangeira de fato (Esquema estrela)
Centro de Informática - UFPE 18
O ambiente de um DW
Arquitetura resumida de DW
Centro de Informática - UFPE 19
Características básicas
Orientado por tema Integrado Não-volátil Variante no tempo Dados sumarizados Metadados Dados oriundos de fontes internas
e/ou externas
Centro de Informática - UFPE 20
Orientado por temas
Refere-se ao fato do DW armazenar informações sobre temas específicos importantes para o negócio da empresa
Exemplos produtos, atividades, contas, clientes, etc.
O ambiente operacional é organizado por aplicações funcionais
Exemplo, em uma organização bancária, estas aplicações incluem empréstimos, investimentos e seguros.
Centro de Informática - UFPE 21
Integrado
Refere-se à consistência de nomes das unidades das variáveis
Dados foram transformados até um estado uniforme
Por exemplo, todas as medidas (cm, polegadas,jardas) são convertidas para metros.
Centro de Informática - UFPE 22
Não volátil
Permite o "load-and-access”
Os dados após serem extraídos, transformados e transportados para o DW estão disponíveis aos usuários somente para consulta
Centro de Informática - UFPE 23
Variante no tempo
Os DW armazenam dados por um período de tempo de 5 a 10 anos
Refere-se a algum momento específico não é atualizável
No DW haverá sempre uma tabela dimensão ou fato, cuja estrutura registrará o elemento tempo
Centro de Informática - UFPE 24
Metadados
“Dados sobre dados” [INMON ]
Provêm informações sobre a estrutura de dados e as relações entre estas dentro ou entre bancos de dados
“São todas as informações do ambiente do DW que não são seus próprios dados” [Kimball]
Centro de Informática - UFPE 25
Granularidade É o nível de detalhes dentro do banco de
dados do DW
Quanto menor a granularidade, maior o nível de detalhes e, conseqüentemente, maior o volume de dados armazenado
Exemplo, Registro de Vendas de uma rede de supermercados:
diária: sumarização de vendas e carga diária no Banco de Dados
mensal: sumarização de dados e carga a cada 30 dias no Banco de Dados
Centro de Informática - UFPE 26
Agregação São registros sumarizados logicamente
redundantes com os dados básicos do DW
Finalidades: melhorar o tempo de reposta as consultas reduzir o tempo de processamento reduzir espaço de armazenamento
Centro de Informática - UFPE 27
Modelagem dimensional
Hipercubo, onde cada célula contém um valor a partir dos lados desse cubo que definem as dimensões
valor
Centro de Informática - UFPE 28
Modelagem dimensional
Representação voltada para processamento analítico. Intuitividade para o decisor
Suporte de tecnologias MOLAP, ROLAP ou HOLAP
Dois tipos principais de estruturas ou esquemas: estrela (star schema) ou floco de neve (snowflake schema)
Centro de Informática - UFPE 29
Modelagem dimensional
Tabelas fatos Contêm as medições numéricas do negócio
Exemplo: unidades_vendidas, custo_dolar
Grande quantidade de dados Chave primária composta por FKs Atributos numéricos e valorados
Centro de Informática - UFPE 30
Modelagem dimensional
Tabelas dimensão Contém dados descritivos do negócio Chave primária simples Pequena quantidade de informações se
comparadas com as tabelas fato Modelos reais contêm entre 4 e 15
dimensões Modelos com mais de 20 dimensões
devem ser melhor estudados
Centro de Informática - UFPE 31
Esquema estrela
Este esquema é chamado de estrela, por apresentar a tabela de fatos "dominante" no centro do esquema e as tabelas de dimensões nas extremidades.
Centro de Informática - UFPE 32
Esquema estrela Permite projetar o BD da forma como o
usuário pensa em usá-lo analiticamente Limitações:
Tabela dimensional possui uma quantidade muito grande de atributos
Soluções: Múltiplas tabelas de fatos Tabelas associativas Tabelas externas
Centro de Informática - UFPE 33
Esquema estrela
Múltiplas tabelas de fato
Centro de Informática - UFPE 34
Esquema estrela
Tabelas associativas
Centro de Informática - UFPE 35
Esquema estrela
Tabelas externas
Centro de Informática - UFPE 36
Esquema floco de neve
Extensão esquema estrela onde cada uma das "pontas" da estrela passa a ser o centro de outras estrelas
Centro de Informática - UFPE 37
Integração de Data Marts e DW
Possível através do conceito de Data Warehouse bus
Esquema geral e padronizado de tabelas dimensão e fato
Permite desenvolvimento evolucionário
Centro de Informática - UFPE 38
Topologias de DWs Centralizada
Único Banco de Dados Físico usados onde existe uma necessidade comum de
informações.
Data Warehouse e Data Marts ligação de vários DM a um DW Usuário pode pode acessar os DM (gerente de
departamento) ou acessar o DW para obter informações globais da organização
Centro de Informática - UFPE 39
Topologias de DWs
Distribuída Vários DW interligados através de uma
rede com forte suporte a processamento distribuído
Usuário pode conectar-se a qualquer DW Apresenta problemas de desempenho Será muito utilizada para dar suporte às
aplicações para Web.
Centro de Informática - UFPE 40
Topologias de DWs
Desenvolvimento estratégico
Desenvolvimento botton-up de Data Marts
Desenvolvimento top-down de dados
Possibilita criação de Sistemas flexíveis e escaláveis
Centro de Informática - UFPE 41
Arquitetura de um DW
Arquitetura de Dados Uma camada (one tier)
Dados armazenados uma única vez Duas camadas (two tier)
Dados operacionais e analíticos separados em camadas distintas
Três camadas (three tier) Transformação de dados não é executada
em um único passo
Centro de Informática - UFPE 42
Arquitetura de Dados do DW
Uma camada
Centro de Informática - UFPE 43
Arquitetura de Dados do DW
Duas camadas
Centro de Informática - UFPE 44
Arquitetura de Dados do DW
Três camadas
Centro de Informática - UFPE 45
Arquitetura de um DW
Arquitetura de Acesso aos Dados Duas camadas
Acesso direto ao DW e Metadados Três camadas (ROLAP)
Servidor de aplicações Três camadas + (MOLAP)
Servidor de aplicações + Cubo OLAP
Centro de Informática - UFPE 46
Arquitetura de Acesso aos Dados do DW
Duas camadas
Centro de Informática - UFPE 47
Arquitetura de Acesso aos Dados do DW Três camadas
Centro de Informática - UFPE 48
Arquitetura de Acesso aos Dados do DW Três camadas +
Centro de Informática - UFPE 49
Arquitetura de um DW
Arquitetura Funcional Plano geral do que se deseja do Data
Warehouse Descreve o fluxo de dados em todas
as etapas Especifica técnicas e ferramentas
necessárias
Centro de Informática - UFPE 50
Arquitetura Funcional do DW
Centro de Informática - UFPE 51
Arquitetura Funcional do DW Componentes da Área Interna
Sistemas Fontes Sistemas operacionais internos + fontes externas
Área de Organização de Dados Lugar onde os valores a serem adicionados são
tratados (Motor do DW) Servidor de Apresentação
Compartilhado entre as Áreas Componentes
Data Marts com dados agregados Data Marts com dados atômicos Data Warehouse Bus Catálogo de Metadados
Centro de Informática - UFPE 52
Arquitetura Funcional do DW
Serviços da Área Interna Extração
Carga incremental Baseado em transações Carga completa
Transformação de dados Integração Limpeza Conversão de tipos Combinação Agregação etc.
Centro de Informática - UFPE 53
Arquitetura Funcional do DW
Serviços da Área Interna (cont) Carga de Dados
Suporte para múltiplos destinos Otimização do processo de carga
Controle de Dados organizados Definição e Agendamento de trabalhos Monitoramento Arquivo de log Manipulação de exceções Manipulação de erros Notificação
Centro de Informática - UFPE 54
Arquitetura Funcional do DW
Gerenciamento de recursos da Área Interna Backup e Recovery Archive e Retrieval
Metadados da Área Interna Dos sistemas fonte
Das especificações da fonte Das informações descritivas da fonte Dos processos de informação
Centro de Informática - UFPE 55
Arquitetura Funcional do DW
Metadados da Área Interna (cont) Da área de organização de dados
Das informações de aquisição de dados Do gerenciamento das tabelas dimensão Das transformações e agregações De auditorias, logs de trabalho e
documentação Do banco de dados
Centro de Informática - UFPE 56
Arquitetura Funcional do DW Componentes da Área Externa
Servidor de apresentação Dados disponibilizados para usuário final
Ferramenta de acesso aos dados Consultas ad hoc (utilização de cache) Drill down, Drill up ou roll up, Slice e Dice
Ferramenta geradora de relatórios Relatórios padronizados (utilização de cache)
Modelos de aplicações Data Mining
Sistemas após o DW Sistemas de geração de relatórios orientados a
transações (ex.: Sistema de previsão de demanda)
Centro de Informática - UFPE 57
Arquitetura Funcional do DW
Serviços da Área Externa Warehouse browsing
Ligados ao cadastro de metadados Serviços de acesso e segurança
Autenticação e autorização Serviços de monitoramento de
atividades Centrados sobre:
Desempenho, suporte ao usuário, marketing e planejamento
Centro de Informática - UFPE 58
Arquitetura Funcional do DW
Serviços da Área Externa (cont) Serviços de gerenciamento de consultas
Simplificação do conteúdo Reformulação da consulta Redirecionamento de consulta Consciência de agregados
Serviços de padronização de relatórios Permitir criação de relatórios em formatos
pré-definidos
Centro de Informática - UFPE 59
Arquitetura Funcional do DW
Metadados da Área Externa Descrição das colunas, tabelas e
agrupamentos Consultas pré-formuladas Perfis de privilégio de usuários Mapas de acessos à tabelas, visões,
relatórios e dados Documentação para Usuário Final
Centro de Informática - UFPE 60
Arquitetura Funcional do DW
Tendências Futuras Área Interna
Sistema de participação de fonte ativa Envio de dados Sistemas orientados a objetos
Área Externa Autenticação e autorização Centralização dos serviços de acesso Acesso a clientes baseados na Web
Centro de Informática - UFPE 61
Ferramentas
DBMINER Procura integrar tecnologias de DW e
Data Mining Banco de dados analítico MOLAP Importa um conjunto de tabelas
provenientes de BDRs como MS SQL Server, MS Acess, Oracle ou Text Files
Possui wizard para montar Data Mart
Centro de Informática - UFPE 62
Ferramentas MS SQL Server
Conjunto de Aplicativos da Microsoft Banco de dados relacional, ferramentas
OLAP e MS English Query Torna possível implementação de
sistemas de suporte à decisão ROLAP, MOLAP, OLAP
Serviços de importação, extração, transformação, validação e limpeza de dados heterogêneos
Serviços de gerenciamento e ferramentas voltadas para o usuário final
Centro de Informática - UFPE 63
Conclusões Data Warehousing integra grandes
volumes de dados originados em sistemas separados
Necessitam de grande esforço para seu desenvolvimento
Torna possível a descoberta de conhecimento escondido nos dados
Útil para organizações que precisem tomar decisões estratégicas de risco e que necessitem se posicionar de forma vantajosa
Centro de Informática - UFPE 64
Conclusões
Desenvolvimento de servidores de BD paralelos poderá viabilizar o suporte a Data Warehouses cada vez maiores
Tratará dados multimídia Data WareHouse deverá também
ser viabilizado na Internet