Transcript
Page 1: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

SAD Tagus 2004/05 H. Galhardas

Arquitectura de DW Arquitectura de DW

Page 2: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Arquitectura multi-nívelArquitectura multi-nível

DataWarehouse

ExtractTransformLoadRefresh

OLAP Engine

AnalysisQueryReportsData mining

Monitor&

IntegratorMetadata

Data Sources Front-End Tools

Serve

Data Marts

Operational DBs

othersources

Data Storage

OLAP Server

Page 3: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

DataWarehouse

ExtractTransformLoadRefresh

OLAP Engine

AnalysisQueryReportsData mining

Monitor&

IntegratorMetadata

Data Sources Front-End Tools

Serve

Data Marts

Operational DBs

othersources

Data Storage

OLAP Server

Data Staging

Arquitectura multi-nívelArquitectura multi-nível

Page 4: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

ComponentesComponentesBack-endBack-end: dizem respeito à ligação entre as fontes de : dizem respeito à ligação entre as fontes de

dados e os repositórios de dados, e o modo como esta dados e os repositórios de dados, e o modo como esta ligação se efectualigação se efectua DW, data marts, ODS (operational data store), área de retenção

(staging area)/processos de ETL Metadata: representação da camada semântica do DW

Front-endFront-end: consiste no conjunto de ferramentas que : consiste no conjunto de ferramentas que permitem aceder, interagir e explorar a informação permitem aceder, interagir e explorar a informação guardada no DWguardada no DW Ferramentas de reporting, OLAP, data mining

Page 5: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Componentes de back-endComponentes de back-end

DataWarehouse

ExtractTransformLoadRefresh

OLAP Engine

Monitor&

IntegratorMetadata

Data Sources

Serve

Data Marts

Operational DBs

othersources

Data Storage

OLAP Server

Data Staging

Page 6: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Fontes de dados de back-Fontes de dados de back-end(room)end(room)

Fontes de dadosFontes de dados Bases de dados hierárquicas e relacionais , ficheiros de texto,

sistemas ERP, etcÁrea de retenção (data staging area)Área de retenção (data staging area)

A maior parte das transformações de dados têm lugar aqui, por exemplo, conversão de chaves, criação de dimensões conformes, etc

Servidores OLAP e de apresentação Servidores OLAP e de apresentação Plataformas onde os dados (organizados em data marts) são

guardados para serem interrogados pelos utilizadores finais, sistemas de reporting e outras aplicações

Catálogo de metadados Catálogo de metadados Conjunto de informação que descreve o DW e suporta a sua criação,

utilização e manutenção

Page 7: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Serviços de Back-end Serviços de Back-end (room) (1)(room) (1)

Área de retenção ou processo ETL (Extraction-Área de retenção ou processo ETL (Extraction-Transformation-Load)Transformation-Load)

Ferramentas e técnicas aplicadasCódigo desenvolvido ou ferramentas “third-party”

Page 8: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Serviços de back-end (room) Serviços de back-end (room) (2)(2)

Desafios de extracção:Desafios de extracção: Múltiplas fontes de dados heterógeneas Geração de código para extrair dados de ficheiros Modo de extracção relativamente a: frequência de extracção, identificação

de registos modificados, refrescamento completo Transferência de dados: tem que ser eficiente, usar técnicas de

compressão Tarefas de transformação:Tarefas de transformação:

Integração: gerar surrogate keys, chaves de mapeamento, mapear códigos em descrições completas Manutenção das “slowly changing dimensions” Verificar restrições de integridade Desnormalização Conversão de dados, cáculo e agregação Desduplicação Tratamentode valores nulos

Serviços de carregamento:Serviços de carregamento: Dependem da platafoma alvo Várias plataformas alvo Optimização do carregamento

Page 9: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Serviços de back-end Serviços de back-end (room) (2)(room) (2)

Desafios da extracção:Desafios da extracção: Múltiplas fontes de dados heterógeneas Geração de código para extrair dados de ficheiros Modo de extracção relativamente a: frequência de extracção, identificação de registos modificados, refrescamento

completo Transferência de dados: tem que ser eficiente, usar técnicas de compressão

Tarefas de transformação:Tarefas de transformação: Integração: gerar surrogate keys, chaves de mapeamento, mapear códigos em

descrições completas Manutenção das “slowly changing dimensions” Verificar restrições de integridade Desnormalização Conversão de dados, cáculo e agregação Desduplicação Tratamentode valores nulos

Serviços de carregamento:Serviços de carregamento: Dependem da platafoma alvo Várias plataformas alvo Optimização do carregamento

Page 10: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Serviços de back-end Serviços de back-end (room) (2)(room) (2)

Desafios da extracção:Desafios da extracção: Múltiplas fontes de dados heterógeneas Geração de código para extrair dados de ficheiros Modo de extracção relativamente a: frequência de extracção, identificação de registos modificados,

refrescamento completo Transferência de dados: tem que ser eficiente, usar técnicas de compressão

Tarefas de transformação:Tarefas de transformação: Integração: gerar surrogate keys, chaves de mapeamento, mapear códigos em descrições completas Manutenção das “slowly changing dimensions” Verificar restrições de integridade Desnormalização Conversão de dados, cáculo e agregação Desduplicação Tratamentode valores nulos

Serviços de carregamento:Serviços de carregamento: Dependem da platafoma alvo Várias plataformas alvo Optimização do carregamento

Page 11: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

ODS (1)ODS (1)

Duas definições possíveis:1) Ponto de integração de sistemas operacionais2) Repositório de informação actualizados e detalhados para suporte à decisão

Data Sources

DataWarehouse

ODS Data Staging

Page 12: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

ODS (2)ODS (2)Nível intermediário antes do DWNível intermediário antes do DW

Dados integrados, ligeiramente agregadosSuporta a análise de dados actualizadosEntrada para a área de retenção

Page 13: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Características de ODSCaracterísticas de ODSPriorities Ease of use, flexible data access

Response Time Seconds to minutes

Database Relational

Data Content Organized by subject, current value data, integrated

Nature of Data Dynamic

Processing Structured, analytical

End Users Information consumers, DBAs, clerical users

Page 14: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Área de retenção vs ODSÁrea de retenção vs ODS Não é um complemento aos sistemas Não é um complemento aos sistemas

operacionais e às suas dificuldades de operacionais e às suas dificuldades de manipular informaçãomanipular informação

Não é implementada necessariamente Não é implementada necessariamente numa BDRnuma BDR

Não complementa os dados operacionais Não complementa os dados operacionais com timestampcom timestamp

Page 15: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

MetadadosMetadadosData about data, dictionary of terms, documentation...Data about data, dictionary of terms, documentation...

Essenciais para a gestão dos repositórios de dados e do Essenciais para a gestão dos repositórios de dados e do processo de construção de um DWprocesso de construção de um DW

Arquitectura complexaArquitectura complexa Grandes volumes de dadosGrandes volumes de dados Dois tipos principais:Dois tipos principais:

Metadados de back-roomMetadados de back-room: suportam o processo de ETL : suportam o processo de ETL Metadados de front-roomMetadados de front-room: descritivos, suporta as : descritivos, suporta as ferramentas de interrogação e de reportingferramentas de interrogação e de reporting

Page 16: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Metadados dos sistemas Metadados dos sistemas fontefonte

Especificações das fontes Especificações das fontes Ex: esquemas de dados

Informação descritiva das fontes Informação descritiva das fontes Dono Descrição do negócio Frequências de actualização Métodos de acesso, direitos, privilégios e passwds

Informação do processo Informação do processo Código ou ferramenta para implementar extracção Resultados de processos de extracção

Page 17: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Metadados da área de Metadados da área de retençãoretenção

Gestão das tabelas de dimensões Gestão das tabelas de dimensões Esquemas de dimensões conformes e factos Políticas de actualização de dimensões (“Slowly changing

dimension”) Atribuições de chaves surrogate para cada chave de produção Snapshot de tabelas de dimensões

Transformação e agregaçãoTransformação e agregação Limpeza de dados, especificação de conversões Correspondência entre esquemas Definições de agregados, estatísticas de utilização, etc

Auditoria e documentaçãoAuditoria e documentação Proveniência de dados (data lineage) e registos de auditoria

Page 18: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Metadados de front-endMetadados de front-endNomes de negócio, descrições para colunas,

tabelas e agrupamentosDefinições de interrogações e de reportingEspecificação de ferramentas de visualizaçãoPerfis de utilizadores individuais etc

Page 19: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

ProblemasProblemas Existem metadados por todo o ladoExistem metadados por todo o lado Não existem standardsNão existem standards universalmente universalmente

usadosusadosNão é possível transferir os metadados entre

ferramentas Nem sempre são completos e Nem sempre são completos e

consistentesconsistentes Dificilmente aceites como importante pelo Dificilmente aceites como importante pelo

negócionegócio

Page 20: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Standard de metadadosStandard de metadadosFormato comumFormato comum partilhado pelos processos e partilhado pelos processos e

repositóriosrepositóriosMDIS (Metadata Coalition)Common Warehouse Metamodel (OMG at www.omg.org)

Iniciativa não standard:Iniciativa não standard:Microsoft ’s Meta Data Coalition (MDC) -fusão com OMG

sept. 2000

Page 21: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

OMG Metamodel OMG Metamodel ArchitectureArchitecture

Standard OMG ComponentsModeling Language: UMLMetadata Interchange: XMIMetadata API:

MOF IDL Mapping

MIDDLEWARE

APPLICATION

User Data/ObjectLayer (M0)

Metadata/Model Layer(M1)

Metamodel Layer(M2)

Meta-metamodelLayer (M3)

<Stock name=“IBM” price=“112”/>

Stock: name, price

UML: Class, AttributeCWM: Table, Column ElementType, Attribute

MOF: Class, Attribute, Operation, Association

Page 22: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Arquitectura multi-nívelArquitectura multi-nível

DataWarehouse

OLAP Engine

AnalysisQueryReportsData mining

Front-End Tools

Serve

OLAP Server

Page 23: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Arquitecturas de servidor Arquitecturas de servidor OLAPOLAP

Relational OLAP (ROLAP)Relational OLAP (ROLAP) Usa SGBDs relacionais ou relacional extendido para armazenar e gerir os dados

do datawarehouse e usa middleware OLAP para suportar funcinalidades específicas do OLAP.

Inclui optimização suportada pelo SGBDR, implementa lógica de navegação de agregação e serviços/ferramentas adicionais

Maior escalabilidade

Multidimensional OLAP (MOLAP) Multidimensional OLAP (MOLAP) Motor de armazenamento multidimensional baseado em arrays (sparse matrix

techniques) Indexação rápida de dados sumarizados pré-calculados

Hybrid OLAP (HOLAP)Hybrid OLAP (HOLAP) Flexibilidade: baixo nível: relacional, alto nível: array

Specialized SQL serversSpecialized SQL servers Suporte especializado para interrogações SQL sobre esquemas em estrela e

floco de neve

Page 24: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Front-end applicationsFront-end applicationsProcessamento de informaçãoProcessamento de informação

Interrogações, análise estatística, relatórios usando cross-tabulations, tabelas, gráficos.

Processamento analíticoProcessamento analítico Análise de dados multidimensionais através de

operações OLAP (slice/dice, drill-down, roll-up, pivoting, etc)

Exploração de dados (data mining)Exploração de dados (data mining) Descoberta de informação encontrando padrões

escondidos, associações,construíndo modelos analíticos, executando classificação e previsão, and apresentando os resultados através de ferramentas de visualização adequadas.

Page 25: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

An OLAM ArchitectureAn OLAM Architecture

Data Warehouse

Metadata

MDDB

OLAMEngine

OLAPEngine

User GUI API

Data Cube API

Database APIData cleaning

Data integration

Layer3

OLAP/OLAM

Layer2

MDDB

Layer1

Data Repository

Layer4

User Interface

Filtering&Integration Filtering

Databases

Mining query Mining result

Page 26: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

From OLAP to OLAMFrom OLAP to OLAM

Why online analytical mining?Why online analytical mining? High quality of data in data warehouses

DW contains integrated, consistent, cleaned data Available information processing structure surrounding data

warehouses ODBC, OLEDB, Web accessing, service facilities, reporting and

OLAP tools OLAP-based exploratory data analysis

mining with drilling, dicing, pivoting, etc. On-line selection of data mining functions

integration and swapping of multiple mining functions, algorithms, and tasks.

Page 27: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

BibliografiaBibliografia (Livro) (Livro) Data Mining: Concepts and TechniquesData Mining: Concepts and Techniques, J. , J.

Han & M. Kamber, Morgan Kaufmann, 2001 (Secção Han & M. Kamber, Morgan Kaufmann, 2001 (Secção 2.3)2.3)

(Livro) The Data Warehouse Lifecycle Toolkit, R. (Livro) The Data Warehouse Lifecycle Toolkit, R. Kimball, Wiley 1998 (Caps. 8, 9, 10, 11, 13 e 16)Kimball, Wiley 1998 (Caps. 8, 9, 10, 11, 13 e 16)

(Livro) Data Warehouse, from Architecture to (Livro) Data Warehouse, from Architecture to Implementation, B. Devlin, Addison Wesley, 1997.Implementation, B. Devlin, Addison Wesley, 1997.

(Artigo) (Artigo) An Overview of Data Warehousing and An Overview of Data Warehousing and OLAP TechnologyOLAP Technology, S. Chaudhuri & U. Dayal, , S. Chaudhuri & U. Dayal, SIGMOD Record, March 1997SIGMOD Record, March 1997

Page 28: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Diferentes modelos de Diferentes modelos de arquitecturaarquitectura

Single-tierSingle-tier Two-tierTwo-tier Three-tierThree-tier Multi-tierMulti-tier

Page 29: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Single-tier Single-tier

Dados são todos tratados como real-timeDados são todos tratados como real-time VantagemVantagem: Dados não estão replicados =>necessidades : Dados não estão replicados =>necessidades

de armazenamento baixas e fácil manutençãode armazenamento baixas e fácil manutenção DesvantagensDesvantagens: disponibilidade dos dados para OLAP e : disponibilidade dos dados para OLAP e

degradação de desempenho para OLTP degradação de desempenho para OLTP

Operational DBs

Serve

OLAP, Data Mining

OLTP

Page 30: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Single-tier applicationsSingle-tier applications Well suited forWell suited for::

Applications generating large amounts of real data

Data is well modeled and internally consistentUpdates consist basically on adding records

ExEx: point-of-sale and telephone-call data: point-of-sale and telephone-call data

Page 31: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Virtual data warehouseVirtual data warehouse A way to rapidly implement a DW without storing multiple

copies of data Consists of:

A set of views over operational databases Only some of the possible summary views may be materialized

Inumerous inconvenients: Data is structured to optimize operational processes No reconciliation is done => no data quality concerns Consistency problems with user-defined data derivations Possible meaningless user queries because access to all data

Page 32: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Two-tier Two-tier

Two diff. data usages are recognizedTwo diff. data usages are recognized AdvantageAdvantage: The contention between the 2 types of data : The contention between the 2 types of data

is solvedis solved InconvenientInconvenient: high level of data duplication and thus data : high level of data duplication and thus data

storage requirementsstorage requirements

Operational DBs Serve OLTP

DerivedData

Serve OLAP, Data Mining

Page 33: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Two-tier applicationsTwo-tier applications Well suited forWell suited for::

Decision-support applications requiring summary-level data derived primarily from single data sources

Homogeneous computing environment limited to a small amount of HW and SW platforms

ExEx: any company in the early/middle : any company in the early/middle stages of decision support implementationstages of decision support implementation

Page 34: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Three-tier Three-tier

Recognizes that the transformation Recognizes that the transformation op. data into derived dataop. data into derived data requires 2 requires 2 stepssteps

Data reconciliationData reconciliation requires to understand relationships between data requires to understand relationships between data sets, their role in the business, and to build an ingle, logical image of the sets, their role in the business, and to build an ingle, logical image of the enterprise data modelenterprise data model

Data derivationData derivation is simpler is simpler

Operational DBs

Serve OLTP

DerivedData

Serve OLAP, Data Mining

ReconciledData

Page 35: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Three-tier applicationsThree-tier applications Well suited forWell suited for::

Decision-support applications requiring summary-level data derived different data sources

The reconciled data model is usually a The reconciled data model is usually a normalized relational data modelnormalized relational data model

Some data transformation and most cleaning are Some data transformation and most cleaning are applied when reconciling dataapplied when reconciling data

ExEx: fusioning customer data from distinct : fusioning customer data from distinct sourcessources

Page 36: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Enterprise warehouseEnterprise warehouseCollects all of the information about subjects

spanning the entire organizationProvides corporate-wide integration from one

or more operational data sourcesLarge amounts of data

Page 37: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Data martsData marts Each indivudual department implements its own

decision/management IS Consists of a subset of corporate-wide data that is of

value to a specific groups of users. Its scope is confined to selected groups, such as

marketing data mart Implementation cycle of a data mart is weeks instead of

months (short-term productivity benefits) Independent vs. dependent (directly from warehouse)

data mart

Page 38: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

DW Design Process DW Design Process Top-down, bottom-up approaches or a Top-down, bottom-up approaches or a

combination of both (hybrid approach)combination of both (hybrid approach) Bottom-upBottom-up: :

Starts with experiments and prototypes (rapid) Derive the DW schema from the data source

schemas Allows to move forward at less expense and evaluate

the benefits, but harder to grow. Top-downTop-down: :

Starts with overall design and planning (mature) First, get to the DW conceptual schema, then convert

data source schema into the global schema Robust but slow and expensive

Page 39: SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05Sistemas de Apoio à Decisão

(LEIC Tagus)

Hybrid approahHybrid approah


Recommended