Author
felipe-dinis-de-vieira
View
213
Download
0
Embed Size (px)
SAD Tagus 2004/05 H. Galhardas
Arquitectura de DW Arquitectura de DW
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Arquitectura multi-nívelArquitectura multi-nível
DataWarehouse
ExtractTransformLoadRefresh
OLAP Engine
AnalysisQueryReportsData mining
Monitor&
IntegratorMetadata
Data Sources Front-End Tools
Serve
Data Marts
Operational DBs
othersources
Data Storage
OLAP Server
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
DataWarehouse
ExtractTransformLoadRefresh
OLAP Engine
AnalysisQueryReportsData mining
Monitor&
IntegratorMetadata
Data Sources Front-End Tools
Serve
Data Marts
Operational DBs
othersources
Data Storage
OLAP Server
Data Staging
Arquitectura multi-nívelArquitectura multi-nível
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
ComponentesComponentesBack-endBack-end: dizem respeito à ligação entre as fontes de : dizem respeito à ligação entre as fontes de
dados e os repositórios de dados, e o modo como esta dados e os repositórios de dados, e o modo como esta ligação se efectualigação se efectua DW, data marts, ODS (operational data store), área de retenção
(staging area)/processos de ETL Metadata: representação da camada semântica do DW
Front-endFront-end: consiste no conjunto de ferramentas que : consiste no conjunto de ferramentas que permitem aceder, interagir e explorar a informação permitem aceder, interagir e explorar a informação guardada no DWguardada no DW Ferramentas de reporting, OLAP, data mining
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Componentes de back-endComponentes de back-end
DataWarehouse
ExtractTransformLoadRefresh
OLAP Engine
Monitor&
IntegratorMetadata
Data Sources
Serve
Data Marts
Operational DBs
othersources
Data Storage
OLAP Server
Data Staging
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Fontes de dados de back-Fontes de dados de back-end(room)end(room)
Fontes de dadosFontes de dados Bases de dados hierárquicas e relacionais , ficheiros de texto,
sistemas ERP, etcÁrea de retenção (data staging area)Área de retenção (data staging area)
A maior parte das transformações de dados têm lugar aqui, por exemplo, conversão de chaves, criação de dimensões conformes, etc
Servidores OLAP e de apresentação Servidores OLAP e de apresentação Plataformas onde os dados (organizados em data marts) são
guardados para serem interrogados pelos utilizadores finais, sistemas de reporting e outras aplicações
Catálogo de metadados Catálogo de metadados Conjunto de informação que descreve o DW e suporta a sua criação,
utilização e manutenção
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Serviços de Back-end Serviços de Back-end (room) (1)(room) (1)
Área de retenção ou processo ETL (Extraction-Área de retenção ou processo ETL (Extraction-Transformation-Load)Transformation-Load)
Ferramentas e técnicas aplicadasCódigo desenvolvido ou ferramentas “third-party”
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Serviços de back-end (room) Serviços de back-end (room) (2)(2)
Desafios de extracção:Desafios de extracção: Múltiplas fontes de dados heterógeneas Geração de código para extrair dados de ficheiros Modo de extracção relativamente a: frequência de extracção, identificação
de registos modificados, refrescamento completo Transferência de dados: tem que ser eficiente, usar técnicas de
compressão Tarefas de transformação:Tarefas de transformação:
Integração: gerar surrogate keys, chaves de mapeamento, mapear códigos em descrições completas Manutenção das “slowly changing dimensions” Verificar restrições de integridade Desnormalização Conversão de dados, cáculo e agregação Desduplicação Tratamentode valores nulos
Serviços de carregamento:Serviços de carregamento: Dependem da platafoma alvo Várias plataformas alvo Optimização do carregamento
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Serviços de back-end Serviços de back-end (room) (2)(room) (2)
Desafios da extracção:Desafios da extracção: Múltiplas fontes de dados heterógeneas Geração de código para extrair dados de ficheiros Modo de extracção relativamente a: frequência de extracção, identificação de registos modificados, refrescamento
completo Transferência de dados: tem que ser eficiente, usar técnicas de compressão
Tarefas de transformação:Tarefas de transformação: Integração: gerar surrogate keys, chaves de mapeamento, mapear códigos em
descrições completas Manutenção das “slowly changing dimensions” Verificar restrições de integridade Desnormalização Conversão de dados, cáculo e agregação Desduplicação Tratamentode valores nulos
Serviços de carregamento:Serviços de carregamento: Dependem da platafoma alvo Várias plataformas alvo Optimização do carregamento
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Serviços de back-end Serviços de back-end (room) (2)(room) (2)
Desafios da extracção:Desafios da extracção: Múltiplas fontes de dados heterógeneas Geração de código para extrair dados de ficheiros Modo de extracção relativamente a: frequência de extracção, identificação de registos modificados,
refrescamento completo Transferência de dados: tem que ser eficiente, usar técnicas de compressão
Tarefas de transformação:Tarefas de transformação: Integração: gerar surrogate keys, chaves de mapeamento, mapear códigos em descrições completas Manutenção das “slowly changing dimensions” Verificar restrições de integridade Desnormalização Conversão de dados, cáculo e agregação Desduplicação Tratamentode valores nulos
Serviços de carregamento:Serviços de carregamento: Dependem da platafoma alvo Várias plataformas alvo Optimização do carregamento
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
ODS (1)ODS (1)
Duas definições possíveis:1) Ponto de integração de sistemas operacionais2) Repositório de informação actualizados e detalhados para suporte à decisão
Data Sources
DataWarehouse
ODS Data Staging
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
ODS (2)ODS (2)Nível intermediário antes do DWNível intermediário antes do DW
Dados integrados, ligeiramente agregadosSuporta a análise de dados actualizadosEntrada para a área de retenção
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Características de ODSCaracterísticas de ODSPriorities Ease of use, flexible data access
Response Time Seconds to minutes
Database Relational
Data Content Organized by subject, current value data, integrated
Nature of Data Dynamic
Processing Structured, analytical
End Users Information consumers, DBAs, clerical users
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Área de retenção vs ODSÁrea de retenção vs ODS Não é um complemento aos sistemas Não é um complemento aos sistemas
operacionais e às suas dificuldades de operacionais e às suas dificuldades de manipular informaçãomanipular informação
Não é implementada necessariamente Não é implementada necessariamente numa BDRnuma BDR
Não complementa os dados operacionais Não complementa os dados operacionais com timestampcom timestamp
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
MetadadosMetadadosData about data, dictionary of terms, documentation...Data about data, dictionary of terms, documentation...
Essenciais para a gestão dos repositórios de dados e do Essenciais para a gestão dos repositórios de dados e do processo de construção de um DWprocesso de construção de um DW
Arquitectura complexaArquitectura complexa Grandes volumes de dadosGrandes volumes de dados Dois tipos principais:Dois tipos principais:
Metadados de back-roomMetadados de back-room: suportam o processo de ETL : suportam o processo de ETL Metadados de front-roomMetadados de front-room: descritivos, suporta as : descritivos, suporta as ferramentas de interrogação e de reportingferramentas de interrogação e de reporting
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Metadados dos sistemas Metadados dos sistemas fontefonte
Especificações das fontes Especificações das fontes Ex: esquemas de dados
Informação descritiva das fontes Informação descritiva das fontes Dono Descrição do negócio Frequências de actualização Métodos de acesso, direitos, privilégios e passwds
Informação do processo Informação do processo Código ou ferramenta para implementar extracção Resultados de processos de extracção
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Metadados da área de Metadados da área de retençãoretenção
Gestão das tabelas de dimensões Gestão das tabelas de dimensões Esquemas de dimensões conformes e factos Políticas de actualização de dimensões (“Slowly changing
dimension”) Atribuições de chaves surrogate para cada chave de produção Snapshot de tabelas de dimensões
Transformação e agregaçãoTransformação e agregação Limpeza de dados, especificação de conversões Correspondência entre esquemas Definições de agregados, estatísticas de utilização, etc
Auditoria e documentaçãoAuditoria e documentação Proveniência de dados (data lineage) e registos de auditoria
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Metadados de front-endMetadados de front-endNomes de negócio, descrições para colunas,
tabelas e agrupamentosDefinições de interrogações e de reportingEspecificação de ferramentas de visualizaçãoPerfis de utilizadores individuais etc
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
ProblemasProblemas Existem metadados por todo o ladoExistem metadados por todo o lado Não existem standardsNão existem standards universalmente universalmente
usadosusadosNão é possível transferir os metadados entre
ferramentas Nem sempre são completos e Nem sempre são completos e
consistentesconsistentes Dificilmente aceites como importante pelo Dificilmente aceites como importante pelo
negócionegócio
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Standard de metadadosStandard de metadadosFormato comumFormato comum partilhado pelos processos e partilhado pelos processos e
repositóriosrepositóriosMDIS (Metadata Coalition)Common Warehouse Metamodel (OMG at www.omg.org)
Iniciativa não standard:Iniciativa não standard:Microsoft ’s Meta Data Coalition (MDC) -fusão com OMG
sept. 2000
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
OMG Metamodel OMG Metamodel ArchitectureArchitecture
Standard OMG ComponentsModeling Language: UMLMetadata Interchange: XMIMetadata API:
MOF IDL Mapping
MIDDLEWARE
APPLICATION
User Data/ObjectLayer (M0)
Metadata/Model Layer(M1)
Metamodel Layer(M2)
Meta-metamodelLayer (M3)
<Stock name=“IBM” price=“112”/>
Stock: name, price
UML: Class, AttributeCWM: Table, Column ElementType, Attribute
MOF: Class, Attribute, Operation, Association
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Arquitectura multi-nívelArquitectura multi-nível
DataWarehouse
OLAP Engine
AnalysisQueryReportsData mining
Front-End Tools
Serve
OLAP Server
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Arquitecturas de servidor Arquitecturas de servidor OLAPOLAP
Relational OLAP (ROLAP)Relational OLAP (ROLAP) Usa SGBDs relacionais ou relacional extendido para armazenar e gerir os dados
do datawarehouse e usa middleware OLAP para suportar funcinalidades específicas do OLAP.
Inclui optimização suportada pelo SGBDR, implementa lógica de navegação de agregação e serviços/ferramentas adicionais
Maior escalabilidade
Multidimensional OLAP (MOLAP) Multidimensional OLAP (MOLAP) Motor de armazenamento multidimensional baseado em arrays (sparse matrix
techniques) Indexação rápida de dados sumarizados pré-calculados
Hybrid OLAP (HOLAP)Hybrid OLAP (HOLAP) Flexibilidade: baixo nível: relacional, alto nível: array
Specialized SQL serversSpecialized SQL servers Suporte especializado para interrogações SQL sobre esquemas em estrela e
floco de neve
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Front-end applicationsFront-end applicationsProcessamento de informaçãoProcessamento de informação
Interrogações, análise estatística, relatórios usando cross-tabulations, tabelas, gráficos.
Processamento analíticoProcessamento analítico Análise de dados multidimensionais através de
operações OLAP (slice/dice, drill-down, roll-up, pivoting, etc)
Exploração de dados (data mining)Exploração de dados (data mining) Descoberta de informação encontrando padrões
escondidos, associações,construíndo modelos analíticos, executando classificação e previsão, and apresentando os resultados através de ferramentas de visualização adequadas.
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
An OLAM ArchitectureAn OLAM Architecture
Data Warehouse
Metadata
MDDB
OLAMEngine
OLAPEngine
User GUI API
Data Cube API
Database APIData cleaning
Data integration
Layer3
OLAP/OLAM
Layer2
MDDB
Layer1
Data Repository
Layer4
User Interface
Filtering&Integration Filtering
Databases
Mining query Mining result
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
From OLAP to OLAMFrom OLAP to OLAM
Why online analytical mining?Why online analytical mining? High quality of data in data warehouses
DW contains integrated, consistent, cleaned data Available information processing structure surrounding data
warehouses ODBC, OLEDB, Web accessing, service facilities, reporting and
OLAP tools OLAP-based exploratory data analysis
mining with drilling, dicing, pivoting, etc. On-line selection of data mining functions
integration and swapping of multiple mining functions, algorithms, and tasks.
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
BibliografiaBibliografia (Livro) (Livro) Data Mining: Concepts and TechniquesData Mining: Concepts and Techniques, J. , J.
Han & M. Kamber, Morgan Kaufmann, 2001 (Secção Han & M. Kamber, Morgan Kaufmann, 2001 (Secção 2.3)2.3)
(Livro) The Data Warehouse Lifecycle Toolkit, R. (Livro) The Data Warehouse Lifecycle Toolkit, R. Kimball, Wiley 1998 (Caps. 8, 9, 10, 11, 13 e 16)Kimball, Wiley 1998 (Caps. 8, 9, 10, 11, 13 e 16)
(Livro) Data Warehouse, from Architecture to (Livro) Data Warehouse, from Architecture to Implementation, B. Devlin, Addison Wesley, 1997.Implementation, B. Devlin, Addison Wesley, 1997.
(Artigo) (Artigo) An Overview of Data Warehousing and An Overview of Data Warehousing and OLAP TechnologyOLAP Technology, S. Chaudhuri & U. Dayal, , S. Chaudhuri & U. Dayal, SIGMOD Record, March 1997SIGMOD Record, March 1997
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Diferentes modelos de Diferentes modelos de arquitecturaarquitectura
Single-tierSingle-tier Two-tierTwo-tier Three-tierThree-tier Multi-tierMulti-tier
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Single-tier Single-tier
Dados são todos tratados como real-timeDados são todos tratados como real-time VantagemVantagem: Dados não estão replicados =>necessidades : Dados não estão replicados =>necessidades
de armazenamento baixas e fácil manutençãode armazenamento baixas e fácil manutenção DesvantagensDesvantagens: disponibilidade dos dados para OLAP e : disponibilidade dos dados para OLAP e
degradação de desempenho para OLTP degradação de desempenho para OLTP
Operational DBs
Serve
OLAP, Data Mining
OLTP
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Single-tier applicationsSingle-tier applications Well suited forWell suited for::
Applications generating large amounts of real data
Data is well modeled and internally consistentUpdates consist basically on adding records
ExEx: point-of-sale and telephone-call data: point-of-sale and telephone-call data
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Virtual data warehouseVirtual data warehouse A way to rapidly implement a DW without storing multiple
copies of data Consists of:
A set of views over operational databases Only some of the possible summary views may be materialized
Inumerous inconvenients: Data is structured to optimize operational processes No reconciliation is done => no data quality concerns Consistency problems with user-defined data derivations Possible meaningless user queries because access to all data
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Two-tier Two-tier
Two diff. data usages are recognizedTwo diff. data usages are recognized AdvantageAdvantage: The contention between the 2 types of data : The contention between the 2 types of data
is solvedis solved InconvenientInconvenient: high level of data duplication and thus data : high level of data duplication and thus data
storage requirementsstorage requirements
Operational DBs Serve OLTP
DerivedData
Serve OLAP, Data Mining
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Two-tier applicationsTwo-tier applications Well suited forWell suited for::
Decision-support applications requiring summary-level data derived primarily from single data sources
Homogeneous computing environment limited to a small amount of HW and SW platforms
ExEx: any company in the early/middle : any company in the early/middle stages of decision support implementationstages of decision support implementation
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Three-tier Three-tier
Recognizes that the transformation Recognizes that the transformation op. data into derived dataop. data into derived data requires 2 requires 2 stepssteps
Data reconciliationData reconciliation requires to understand relationships between data requires to understand relationships between data sets, their role in the business, and to build an ingle, logical image of the sets, their role in the business, and to build an ingle, logical image of the enterprise data modelenterprise data model
Data derivationData derivation is simpler is simpler
Operational DBs
Serve OLTP
DerivedData
Serve OLAP, Data Mining
ReconciledData
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Three-tier applicationsThree-tier applications Well suited forWell suited for::
Decision-support applications requiring summary-level data derived different data sources
The reconciled data model is usually a The reconciled data model is usually a normalized relational data modelnormalized relational data model
Some data transformation and most cleaning are Some data transformation and most cleaning are applied when reconciling dataapplied when reconciling data
ExEx: fusioning customer data from distinct : fusioning customer data from distinct sourcessources
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Enterprise warehouseEnterprise warehouseCollects all of the information about subjects
spanning the entire organizationProvides corporate-wide integration from one
or more operational data sourcesLarge amounts of data
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Data martsData marts Each indivudual department implements its own
decision/management IS Consists of a subset of corporate-wide data that is of
value to a specific groups of users. Its scope is confined to selected groups, such as
marketing data mart Implementation cycle of a data mart is weeks instead of
months (short-term productivity benefits) Independent vs. dependent (directly from warehouse)
data mart
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
DW Design Process DW Design Process Top-down, bottom-up approaches or a Top-down, bottom-up approaches or a
combination of both (hybrid approach)combination of both (hybrid approach) Bottom-upBottom-up: :
Starts with experiments and prototypes (rapid) Derive the DW schema from the data source
schemas Allows to move forward at less expense and evaluate
the benefits, but harder to grow. Top-downTop-down: :
Starts with overall design and planning (mature) First, get to the DW conceptual schema, then convert
data source schema into the global schema Robust but slow and expensive
2004/05Sistemas de Apoio à Decisão
(LEIC Tagus)
Hybrid approahHybrid approah