83
Tecnologia da Informação para ICMS/PE Auditor Fiscal do Tesouro Estadual Prof Victor Dalton - Aula 03 AULA 03: Business Intelligence SUMÁRIO PÁGINA 1.Business Intelligence 2 2. Data Mining 3 2.1 O Processo de Descoberta do Conhecimento em BDs(KDD) 3 2.2 Data Mining 5 3. Data Warehouse 10 3.1 Conceitos Básicos 10 3.2 Características do Data Warehouse 11 3.3 Data Marts 13 Comparação - Data Mining x Data Warehouse 14 3.4 ETL 15 4. Ferramentas OLAP 18 4.1 Definição 18 4.2 Tabelas de fato e tabelas de dimensão 19 4.3 Duas formas de modelagem multidimensional: star e snow flake 20 4.4 Arquiteturas OLAP 22 4.5 Operações em OLAP 23 Exercícios Comentados 28 Considerações Finais 62 Exercícios 63 Gabarito 83 Olá amigos e amigas! Nosso assunto de hoje é Business Intelligence. Estudar Business Intelligence é uma continuação natural do estudo de Bancos de Dados, uma vez que sua aplicação ocorre principalmente sobre eles. Acho que vocês vão entender o motivo de eu ter insistido em ensinar o Modelo Relacional, na aula anterior. Sem ele, o aprendizado nessa aula seria dificultado. Espero que gostem da aula, e não se esqueçam dos vídeos complementares. Aos estudos! Prof. Victor Dalton www.estrategiaconcursos.com.br 1de 83

Aula 03 Tecnologia Da Informação

Embed Size (px)

DESCRIPTION

Tecnologia Da Informação

Citation preview

  • Tecnologia da Informao para ICMS/PE Auditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03AULA 03: Business Intelligence

    S U M R IO P G IN A1.Business Intelligence 22. Data Mining 3

    2.1 O Processo de Descoberta do Conhecimento em BDs(KDD) 32.2 Data Mining 5

    3. Data Warehouse 103.1 Conceitos Bsicos 103.2 Caractersticas do Data Warehouse 113.3 Data Marts 13Comparao - Data Mining x Data Warehouse 143.4 ETL 15

    4. Ferramentas OLAP 184.1 Definio 184.2 Tabelas de fato e tabelas de dimenso 194.3 Duas formas de modelagem multidimensional: star e snow flake 204.4 Arquiteturas OLAP 224.5 Operaes em OLAP 23

    Exerccios Comentados 28Consideraes Finais 62Exerccios 63Gabarito 83

    Ol amigos e amigas!

    Nosso assunto de hoje B u s in e ss In te llig en ce .

    Estudar Business Intelligence uma continuao natural do estudo de Bancos de Dados, uma vez que sua aplicao ocorre principalmente sobre eles. Acho que vocs vo entender o motivo de eu ter insistido em ensinar o Modelo Relacional, na aula anterior. Sem ele, o aprendizado nessa aula seria dificultado. Espero que gostem da aula, e no se esqueam dos vdeos complementares.

    Aos estudos!

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 1 de 83

  • EstratgiaC O N C U R S O S ^

    Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03BUSIN ESS INTELLIGEN CE

    1. BUSIN ESS IN TELLIGEN CE (IN TELIG N CIA DE NEGCIO)

    Quando estudamos bancos de dados, nossa primeira preocupao conceituar dado, in fo rm ao , e conhec im en to .

    O Banco de dados, como o prprio nome diz, populado com dados, que esto relacionados com alguma finalidade. As in fo rm aes, em um segundo momento, so depreendidas dos prprios dados, com certa facilidade. s vezes, a prpria modelagem dos dados em um formato apresentvel j extrai informao.

    Obter conhec im en to , todavia, no uma tarefa simples. Encontrar padres relevantes dentre milhares (ou mesmo milhes) de registros em bases de dados distintas, de modo a subsidiar decises de negcio um verdadeiro desafio empresarial. Nesse contexto, surge a Business Intelligence.

    B u s in e s s In te llig e n c e (B I) pode ser traduzido como inteligncia de negcios, ou inteligncia empresarial. Isto significa que um mtodo que visa ajudar as empresas a tomar decises inteligentes, por meio de dados e informaes recolhidas por diversos sistemas de informao.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 2 de 83

  • Estratgiar n N r i i R ; r > < ;C O N C U R S O S

    Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03Sendo assim, BI uma tecnologia que permite s empresas transformar

    dados guardados nos seus sistemas em Informao qualitativa e importante para a tomada de deciso. H uma forte tendncia de que os produtos que compem o sistema de BI de uma empresa passem provenham funes extras que auxiliem na tomada de decises, como, por exemplo, ferramentas de Data Mining.

    Ou seja, B I um con jun to de t cn ica s , m todos e fe rram en ta s que sub s id iam o p ro ce sso de d ec iso de um a e m p re sa .

    S is tem as de apo io D ec iso (ou su po rte D ec iso ) costumam combinar diversas dessas tcnicas, mtodos e ferramentas para suportar a Inteligncia do Negcio.

    Estudaremos uma tcnica de descoberta de conhecimento, o Data M in ing , e uma ferramenta (repositrio de dados) chamada D a taW arehouse .

    2. D ATA MINING (M INERAO DE DADOS)

    2.1 O P ro ce sso de D escoberta do C onhec im en to em BDs (KD D )

    O Data M in ing pode fazer parte de um processo maior, chamado Processo de Descoberta do Conhecimento em Bancos de Dados (KDD). Como o prprio nome diz, e, dentro do nosso contexto, este processo est diretamente relacionado Inteligncia de Negcios, pois compreende a descoberta de padres teis em Bases de Dados.

    Fayyad et al (1996) afirmam que o KDD composto por cinco fases, a saber:

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 3 de 83

  • EstratgiaC O N C U R S O S ^

    Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    Prof Victor Dalton -A ula 03

    Se leoProcesso que define quais sero os dados a serem trabalhados. Os dados

    podem ser selecionados das mais diversas fontes de dados, tais como: banco de dados relacional, arquivo texto legado, dentre outros. Ainda, dentro do universo de dados selecionados, outras restries podem ser aplicadas.

    P r -p ro ce ssam en toEstgio de "limpeza dos dados", por meio de remoo de inconsistncias,

    ajustes de formatos de dados, anlise de outliers (remover do universo dos dados ou consider-los?).

    Exs: O sexo de um paciente gestante (informao desnecessria)Reconfigurao dos dados para assegurar formatos consistentes

    (dados que distinguem sexo por "F" ou "M", e dados que distinguem por "M" ou'H")

    T ran s fo rm aoTransformam-se os dados em formatos utilizveis. Esta depender da

    tcnica data mining usada.

    Exs: Rede neural, que converte valor literal em valor numrico Disponibilizao os dados de maneira usvel e navegvel.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 4 de 83

  • a verdadeira extrao dos padres de comportamento dos dados. Estudaremos parte.

    In te rp re ta o e A va lia oIdentificados os padres pelo sistema, estes sero interpretados em

    conhecimentos, os quais daro suporte tomada de decises humanas.

    2.2 Data M in ing

    D ata M in in g , como o nome indica, se refere minerao ou a descoberta de informaes em funo de padres ou regras em grande quantidade de dados, sejam elas bases de dados convencionais ou no.

    O DM utiliza tcnicas de inteligncia artificial que procuram relaes de similaridade ou discordncia entre dados.

    Seu objetivo encontrar, automaticamente, padres, anomalias e regras com o propsito de transformar dados, aparentemente ocultos, em informaes teis para a tomada de deciso e/ou avaliao de resultados.

    TransformedData Assimilated

    Extracted InformationI n fo rm a tio n

    ( select j (.. transform ( mine

    = O

    d

    assimilate)

    Esta minerao pode utilizar vrias tcnicas para a descoberta de conhecimento. Vejamos algumas:

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 5 de 83

  • Estratgiar n N r i i R ; r > < ;C O N C U R S O S

    Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03A sso c ia o : Explicando de forma bem simples, enxergar alguma forma

    de relao entre variveis (do tipo X influencia Y). Ex: Idade influencia valor do carro comprado.

    D escrio de c la sses: prov um resumo conciso e sucinto de uma coleo de dados e a distingue de outras. O resumo de uma coleo de dados chamado de caracterizao de classe; enquanto a comparao entre duas ou mais colees de dados chamada comparao ou discriminao de classe. A descrio de classe no s deveria cobrir suas propriedades de resumo tal como a contagem, somas, e clculos de mdias, mas tambm suas propriedades sobre a disperso dos dados, tais como a varincia, desvio padro, quartis, dentre outros;

    C la s s if ic a o : o processo de encontrar um modelo que descreve classes diferentes de dados (por exemplo, "ensinar" ao sistema quais clientes bancrios so de risco alto, mdio e baixo, por meio de alguns registros, e, a partir deste ponto, a minerao por si s ser capaz de classificar o restante da base de dados).

    A o ru p a m e n to fc lu s te r in a ) : Sim ilar classificao, porm sem superviso (o sistema por si s sendo capaz de criar grupos).

    Prof. Victor Daltonwww.estrategiaconcursos.com.br

    t renda+: exemplo

    6 de 83

  • D escobe rta de pad res se q u e n c ia is : Envolve a descoberta deinformaes relevantes com base na sequn c ia dos registros. Exemplo, o sistema descobrir que se o cliente compra po, provvel que tambm compre leite;

    D escobe rta de pad res em s r ie s te m p o ra is : Descoberta deinformaes relevantes com base na poca dos registros. Exemplo, o sistema descobrir que as vendas de guarda-chuva caem em determinados meses do ano, "coincidentemente" na poca da seca;

    R eg re ss o : a anlise de diversas variveis para prever uma prxima. Por exemplo, ver os exames de um paciente e calcular a probabilidade de sobrevivncia a uma cirurgia, com base no histrico de pacientes operados.

    Redes n e u ra is : uma extenso da regresso (regresso generalizada), utilizando princpios da inteligncia artificial;

    A lg o r itm o s g e n t ico s : so tcnicas de busca utilizadas na cincia da computao para achar solues aproximadas em problemas de otimizao e busca, sendo uma classe particular de algoritmos evolutivos que usam tcnicas inspiradas pela biologia evolutiva como hereditariedade, mutao, seleo natural e recombinao.

    EXEM PLO CLSSICO DA A PL IC A O DE DATA M IN IN G !

    Todo professor conta essa historinha ao falar de Data Mining, rs.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 7 de 83

  • EstratgiaC O N C U R S O S ^

    Tecnologia da Informao para ICMS/PE Auditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03O Walmart, na dcada de 90, descobriu que homens casados, entre 25 e

    30 anos, compravam fra ld a s e/ou ce rve ja s s sextas-feiras tarde no caminho do trabalho para casa. Assim sendo, a rede otimizou s gndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas, e o con sum o de am bos os p rodu to s c re sceu 30% . C entre ns, uma associao entre fraldas e cervejas no intuitiva. o tipo de coisa que o Data Mining pode revelar!

    Ainda, as Lojas Brasileiras, antes de encerrarem suas operaes, em 1999, aplicaram 1 milho de dlares em tcnicas de data mining, reduzindo de 51000 produtos para 14000 produtos oferecidos em suas lojas. Como exemplo de anomalias detectadas, encontraram roupas de in v e rn o e gua rda chuvas encalhados no N ordeste , bem como b a tede ira s 110v venda em SC, onde a corrente 220v. Se tivessem aplicado o DM antes, provavelmente no teriam falido....

    CAIU na prova!

    1) ( FCC - TRF 3 a Reg io - A n a lis ta Ju d ic i r io - Banco de Dados - 2014)Minerao de dados a investigao de relaes e padres globais que existem em grandes bancos de dados, mas que esto ocultos no grande volume de dados. Com base nas funes que executam, h diferentes tcnicas para a minerao de dados, dentre as quais esto:

    I. identificar afinidades existentes entre um conjunto de itens em um dado grupo de registros. Por exemplo: 75% dos envolvidos em processos judiciais ligados a ataques maliciosos a servidores de dados tambm esto envolvidos em processos ligados a roubo de dados sigilosos.

    II. identificar sequncias que ocorrem em determinados registros. Por exemplo: 32% de pessoas do sexo feminino aps ajuizarem uma causa contra o INSS solicitando nova percia mdica ajuzam uma causa contra o INSS solicitando ressarcimento monetrio.

    III. as categorias so definidas antes da anlise dos dados. Pode ser utilizada para identificar os atributos de um determinado grupo que fazem a discriminao entre 3 tipos diferentes, por exemplo, os tipos de processos judiciais podem ser categorizados como infrequentes, ocasionais e frequentes.

    Os tipos de tcnicas referenciados em I, II e III, respectivamente, so:

    I I I I I I

    A Redes Neurais rvore de deciso Padres sequenciais

    B Associao Padres sequenciais C lassificaoC Classificao Associao PrevisoD rvore de deciso Classificao Associao

    E Padres sequenciais Redes Neurais rvore de deciso

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 8 de 83

  • Estratgiar n N r i i R ; r > < ;C O N C U R S O S

    Tecnologia da Informao para ICMS/PE Auditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03

    Questo clssica cobrando o entendimento de tcnicas de Mining! Vamos analisar as assertivas:

    I. identificar afinidades existentes entre um conjunto de itens em um dado grupo de registros. Por exemplo: 75% dos envolvidos em processos judicia is ligados a ataques maliciosos a servidores de dados tambm esto envolvidos em processos ligados a roubo de dados sigilosos. - ou seja, estamos dizendo que X est associado a Y . Exemplo de A sso c ia o !

    II. identificar sequncias que ocorrem em determinados registros. Por exemplo: 32% de pessoas do sexo feminino aps ajuizarem uma causa contra o INSS solicitando nova percia mdica ajuzam uma causa contra o INSS solicitando ressarcimento monetrio - Se A aconteceu, B acontece em sequncia. Pad res sequenc ia is !

    III. as categorias so definidas antes da anlise dos dados. Pode se r utilizada para identificar os atributos de um determinado grupo que fazem a discriminao entre 3 tipos diferentes, por exemplo, os tipos de processos judicia is podem ser categorizados como infrequentes, ocasionais e frequentes - Eu pararia na frase sublinhada para marcar C la ss if ica o . Sua grande diferena para o A g rupam en to justamente a definio de categorias que realizada pelo homem, antes da anlise dos dados. No ag rupam en to a categorizao ocorre depois da anlise, realizada pelo prprio Mining.

    Resposta: a lte rn a t iv a b).___________________________________________________

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 9 de 83

  • Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 033. D ATA W AREHOUSE

    3.1 C once ito s B s ico s

    Um Data W a rehouse , ou a rm azm de dados, ou ainda d ep s ito de dados, um re p o s it r io de in fo rm ae s co lh id a s de v r ia s o r ig en s , a rm azenada s sob um esquem a un if icado , em um n ico lo c a l. Quando reunidos, os dados so armazenados por muito tempo, permitindo o acesso a dados histricos. Ainda, o desenho da base de dados favorece os relatrios, a anlise de grandes volumes de dados e a obteno de informaes estratgicas que podem fa c il ita r a tom ada de d e c is o .

    O Data Warehouse possibilita a anlise de grandes volumes de dados, coletados dos sistemas transacionais (OLTP). So as chamadas sries histricas que possibilitam uma melhor anlise de eventos passados, oferecendo suporte s tomadas de decises presentes e a previso de eventos futuros. Por definio, os dados em um data warehouse no so volteis, ou seja, eles no mudam, salvo quando necessrio fazer correes de dados previamente carregados. Os dados esto disponveis somente para leitura e no podem ser alterados.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 10 de 83

  • EstratgiaC O N C U R S O S ^

    Qualquer fonte

    Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    ___________ Prof Victor Dalton -A ula 03

    Qualquer Dado Qualquer acessoFerramentas

    1 B de consultas

    DadosOperacionais

    DataWarehouse

    DadosExternos

    Ferramentas J d eO LA P

    Aplicativos

    A ferramenta mais popular para explorao de um data warehouse a O n lin e A n a ly t ic a l P ro ce s s in g O LAP ou Processo Analtico em Tempo Real, mas muitas outras podem ser usadas, como o Data M in ing .

    Atualmente, por sua capacidade de sumarizar e analisar grandes volumes de dados, o data warehouse o ncleo dos sistemas de informaes gerenciais e apoio deciso das principais solues de business intelligence do mercado.

    3 .2 C a ra c te r s t ica s do Data W a rehou se

    O Datawarehouse possui 4 c a ra c te r s t ic a s marcantes. So elas:

    N o -v o l t il: Diferentemente de um Banco de Dados operacional, o Datawarehouse apenas recebe informaes. Excluses ou alteraes ocorrem apenas para a correo de dados inseridos com erro.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 11 de 83

  • EstratgiaC O N C U R S O S ^

    Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03

    incluir

    excluir

    No volatilidade

    O PER ACIO N AL DATA W AREHOUSE

    alterar

    carregaracessaracessar

    excluirincluir alterar

    In te a ra d o : Um Datawarehouse deve ser integrado, ou seja, trabalha de forma a globalizar e aproveitar os termos e as estruturas tcnicas que so utilizados nos sistemas de informaes tradicionais. Por exemplo, na representao de sexo, um Datawarehouse manipula todas as formas seguintes:m" ou "f", "0" ou "1", "x" ou "y", "macho" ou "fmea", "homem" ou "mulher",

    "dama" ou "cavalheiro".

    Integrao de dadosOPERACIONALAplicao A: m ,f______________Aplicao B: 1 ,0 ---------------------Aplicao C: masculino, femininoAplicao A: caminho - centmetros Aplicao B: caminho - ps Aplicao C: caminho - jardas-----Aplicao A: descrio _____ _Aplicao B: descrio_________Aplicao C: descrio----- .--------

    Aplicao A: chave char(10)--------Aplicao B: chave dec fixed(9,2) Atdicaco C: chave chai 12

    DATA WAREHOUSEsexo:m, f

    caminho:centmetros

    descrio

    Chavechar(12)

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 12 de 83

  • Estratgiar n N r i i R ; r > < ;C O N C U R S O S

    Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03O rien tado por a s su n to s : Um DW sempre armazena dados importantes

    sobre temas especficos da empresa e conforme o interesse das pessoas que iro utiliz-lo. Bancos de dados operacionais tratam de estoques, entradas e sadas de materiais. DW trata de clientes, vendas e produtos.

    Por exemplo, uma empresa pode trabalhar com vendas de produtos alimentcios no varejo e ter o seu maior interesse ser o perfil de seus compradores. Portanto, o DW ser voltado para as pessoas que compram seus produtos e no para os produtos que ela vende.

    V a r ia n te no te m p o : A variao em relao ao tempo consiste na manuteno de um histrico de dados em relao ao perodo de tempo maior que dos sistemas comuns. Ao analisarmos um dado de um DW, o mesmo sempre estar relacionado a um perodo determinado de tempo, pois ter uma chave de tempo que ir indicar o dia no qual esses dados foram extrados.

    3.3 Data M arts

    Um Data Mart pode ser considerado um "mini DataWarehouse". Entretanto, ao invs de englobar uma empresa, um data mart envolver apenas um determinado setor (Administrao, Marketing, RH), possibilitando uma especializao maior por ocasio da extrao do conhecimento. Ainda, Date (Introduo a Sistemas de Bancos de Dados) diz que os Data Marts podem ser volteis. Segundo o autor:

    "Por e sp e c ia liza d o entende-se que o Data Mart (ferramenta OLTP) possui uma estrutura baseada em um ambiente, tema, situao, rea, setor ou aplicao especfica, enquanto o DW (ferramenta OLAP) se baseia em vrias fontes de diversas aplicaes, fontes e situaes para facilitar um suporte a deciso gerencial.

    Por vo l t il, entende-se que os dados do Data Mart so alterados frequentemente, enquanto os do DW, por guardarem histrico, s so alterados quando uma carga foi feita de forma errada, mas no frequentemente como em um data mart (que baseado em aplicaes)."

    Existem duas abordagens para os relacionamentos Data Mart/Data Warehouse: a topdown e a bottom up.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 13 de 83

  • EstratgiaC O N C U R S O S ^

    Abo rdagem Bottom Up

    Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03

    Data Mart 1

    Na abordagem bottom up, a organizao prefere iniciar seu repositrio de dados pela criao dos Data Marts, para posteriormente criar o Data Warehouse. Os Data Marts so menos complexos e custos, e a integrao acontece posteriormente.

    Abo rdagem Top Down

    Data Mart 1

    Na abordagem top down, a organizao cria inicialmente o Data Warehouse, para depois criar seus Data Marts, mais especializados. Soluo tpica de organizaes mais maduras, e que podem arcar com os elevados custos inicais da implantao de um DW.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 14 de 83

  • EstratgiaC O N C U R S O S ^

    Tecnologia da Informao para ICMS/PE Auditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03C O M P A R A O - D A T A M IN IN G x D A T A W A R E H O U S E

    D a ta M in in g D a ta W a re h o u s e

    Tcn ica de B I que e x tra i pad res te is em bancos de dados

    R ep o s it r io h is t r ico de dados, m on tado de fo rm a a fa c il ita r a e x tra o de conhec im en to

    Pode se r ap licado em bancos de dados com uns, s is tem as le g ad o s , e tam bm em Data W a rehou se (o n d e , p ro vave lm en te , m e lho re s re su ltad o s se ro o b t id o s )

    D ive rsa s fe rram en ta s podem se r u t iliz a d a s sob re um Data W a rehou se , com o fe rram enas O LAP , g e rad o re s de re la t r io s e Data M in in g

    A m b a s e s t o in s e r id a s no c o n te x to d e B u s in e s s I n te l l ig e n c e , c o m o o b je t iv o d e e x t r a ir c o n h e c im e n to t i l p a ra a to m a d a d e d e c is e s e m p re s a r ia is !

    3 .4 E x t ra o , T ra n s fo rm a o e C a rg a

    Operatkmal System

    ERP

    jCRM

    FiatFiles

    ETL

    TnraftyitiMt ' .* j i i

    M .1,Motadau I

    Su

  • EstratgiaC O N C U R S O S ^

    Tecnologia da Informao para ICMS/PE Auditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03Se voc prestou ateno nas imagens sobre sistemas de apoio deciso,

    deve ter percebido que a alimentao de um DataWarehouse envolve, antes, o trabalho de ETL (extrao, transformao e carga dos dados).

    ETL, na prtica, so ferramentas de software cuja funo a e x tra o de dados de d iv e rso s s is tem as , tran s fo rm ao desse s dados con fo rm e reg ra s de negc io s e, po r fim , a ca rga dos dados em um Data Mart ou um Data Warehouse. A extrao e carga so obrigatrias para o processo, sendo a transformao/limpeza opcional. considerada uma das fases mais crticas do Data Warehouse e/ou Data Mart.

    Os projetos de data warehouse consolidam dados de diferentes fontes. A maioria dessas fontes tendem a ser bancos de dados relacionais ou arquivo de texto (texto plano), mas podem existir outras fontes. Um sistema ETL tem que ser capaz de se comunicar com as bases de dados e ler diversos formatos de arquivos utilizados por toda a organizao. Essa pode ser uma tarefa no trivial, e muitas fontes de dados podem no ser acessadas com facilidade.

    E x tra o

    A primeira parte do processo de ETL a extrao de dados dos sistemas de origem. Esses sistemas de origem podem ser: s is tem as legados, bancos de daods em d ife re n te s fo rm a to s (Oracle, DB2, Sql Server), o u tro s s is tem as co rp o ra t ivo s , in fo rm ae s pb lica s d isp o n v e is em s ite s w eb , dentre outros.

    Cada sistema pode tambm utilizar um formato ou organizao de dados diferente. Formatos de dados comuns so bases de dados relacionais e flat files (tambm conhecidos como arquivos planos), mas podem incluir estruturas de bases de dados no relacionais, como o IMS ou outras estruturas de dados, como VSAM ou ISAM. A extrao converte para um determinado formato para a entrada no processamento da transformao.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 16 de 83

  • T ran s fo rm ao

    O estgio de transformao aplica uma srie de regras ou funes aos dados extrados para derivar os dados a serem carregados. Algumas fontes de dados necessitaro de muito pouca manipulao de dados. Em outros casos, podem ser necessrios um ou mais de um dos seguintes tipos de transformao:

    Seleo de apenas determinadas colunas para carregar (ou a seleo de nenhuma coluna para no carregar);

    Traduo de valores codificados (se o sistema de origem armazena 1 para sexo masculino e 2 para feminino, mas o data warehouse armazena M para masculino e F para feminino, por exemplo);

    Codificao de valores de forma livre (mapeando "Masculino","1" e "Sr." para M, por exemplo);

    Derivao de um novo valor calculado (montante_vendas = qtde * preo_unitrio, por exemplo);

    Juno de dados provenientes de diversas fontes; Resumo de vrias linhas de dados (total de vendas para cada loja e

    para cada regio, por exemplo); Gerao de valores de chaves substitutas (surrogate keys); Transposio ou rotao (transformando mltiplas colunas em

    mltiplas linhas ou vice-versa); Limpeza dos dados, ajustando valores no permitidos, erros de

    ortografia, dentre outros; Quebra de uma coluna em diversas colunas (como por exemplo,

    colocando uma lista separada por vrgulas e especificada como uma cadeia em uma coluna com valores individuais em diferentes colunas).

    Carga

    A fase de carga carrega os daftos no Data Warehouse. Dependendo das necessidades da organizao, este processo varia amplamente. Alguns data warehouses podem substituir as informaes existentes semanalmente, com dados cumulativos e atualizados, ao passo que outro DW (ou at mesmo outras partes do mesmo DW, conhecidos como Data Marts) podem adicionar dados a cada hora. A temporizao e o alcance de reposio ou acrscimo constituem opes de projeto estratgicas que dependem do tempo disponvel e das necessidades de negcios. Sistemas mais complexos podem manter um histrico e uma pista de auditoria de todas as mudanas sofridas pelos dados.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 17 de 83

  • Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 034. FERRAM EN TAS OLAP

    4.1 D e fin io

    O LAP um termo utilizado para descrever a anlise de dados complexos a partir do Data Warehouse. Esta tecnologia permite aos analistas de negcios, gerentes e executivos analisar e visualizar dados corporativos de forma rpida, consistente e interativa.

    A funcionalidade OLAP inicialmente caracterizada pela a n lise d in m ica e m u lt id im en s io n a l dos dados consolidados de uma organizao, permitindo que as atividades do usurio final sejam tanto analticas quanto navegacionais. Esta tecnologia geralmente implementada em ambiente multiusurio e cliente/servidor, oferecendo assim respostas rpidas s consultas adhoc (construo de listagens, interligando a informao disponvel na base de dados conforme as necessidades especificas da empresa, assim como a sua exportao, possibilitando vrias simulaes), no importando o tamanho do banco de dados nem sua complexidade. Essa tecnologia auxilia o usurio a sintetizar informaes corporativas por meio de vises comparativas e personalizadas, anlises histricas, projees e elaboraes de cenrios.

    For show me the

    ProdUCt cornfCategories clotfljn#

    M m

    Time

    F tb ru a r y

    M a rcK

    A p n l

    *y

    2007

    S l S ( S * l n P ro f itA m o u n t C o s t Q cy M a r t in X

    AeasuresQual a margem de lucro para b ic ic le tas em fevere iro? Esse o tipo de pergunta que o OLAP vai responder, em

    uma busca m ultid im ensional no banco de dados (tempo, produto, margem de lucro)

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 18 de 83

  • EstratgiaC O N C U R S O S ^

    Tecnologia da Informao para ICMS/PE Auditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 034.2 Tabe las de fa to e tab e la s de d im en so

    Na modelagem multidimensional temos 2 tipos principais de tabelas: tab e la s de fa to e tab e la s de d im en s o .

    As tabelas contendo dados multidimensionais so denominadas tab e la s de fa to s , e normalmente, so muito grandes.

    Fatos so normalmente cercados por um grande contexto textual (dimenses). Fatos so muito especficos, tem atributos numricos muito bem definidos. Em contraste, o contexto textual que cerca as tabelas de fatos mais aberto. No raro para o modelador adicionar contextos (dimenses) para um conjunto de fatos durante o trabalho de implementao.

    Embora o modelador possa amarrar todo o contexto dentro de uma grande lgica associada com cada fato, ele normalmente achar mais conveniente (e intuitivo) dividir o contexto em grupos independentes. Quando voc grava fatos (ex.: vendas de um determinado produto em um ms), voc naturalmente divide o contexto em grupos: p rodu to s, lo ja , tem po, c lie n te , ca ixa e diversos outros. Ns chamamos essa diviso de grupos de d im en se s e assumimos informalmente que essas dimenses so independentes, ligadas a um fato (no nosso exemplo, fato VENDA). A figura abaixo d um exemplo grosseiro de modelo dimensional para um fato venda.

    Grocery Store Retail dimensions

    Grocery Store Retail Fact Table Grocery Storegrain = line item on sales ticket Retail dimensions

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 19 de 83

  • EstratgiaC O N C U R S O S ^

    Tecnologia da Informao para ICMS/PE Auditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03Portanto, fica mais adequado (e reduz os espaos de armazenamento),

    modelar a tabela de fatos com estas dimenses sendo tratadas parte. Para tal, os atributos dimensionais da tabela de fatos sero chaves e s tra n g e ira s para as chamadas tab e la s de d im e n s o .

    As tabelas de dimenso delimitam o universo de cada dimenso. Na tabela Cliente (Customer), por exemplo, ficaro registrados todos os clientes da base de dados. Na tabela Produto, guardam-se todas as informaes acerca da base de produtos. A tabela de fatos "apenas" faz o registro, de uma compra, realizada, por um cliente, em uma loja, de um produto, em um dado momento.

    4 .3 Duas fo rm as de m ode lagem m u lt id im en s io na l: e squem as E s tre la e F loco de Neve

    O M ode lo E s tre la (S ta r S ch em a )

    No modelo estrela todas as tabelas relacionam-se diretamente com a tabe la de fa tos. Sendo assim, as tab e la s d im en s io n a is devem conter todas as descries que so necessrias para definir uma classe como Produto, Tempo ou Loja nela mesma (veja exemplo na figura abaixo). Em suma, as tabelas de dimenses so desnormalizadas no modelo estrela. Por consequncia, deteminados campos como Categoria, Departamento, Marca contero suas descries repetidas em cada registro, assim, aumentando o tamanho das tabelas de dimenso por repetirem estas descries de forma textual em todos os registros.

    Dimenso MailingDrtwnoClienie

    Dimenso Prcdo Faio&_yer*ja

    DmensSo Tempo

    Orrwnsc UJja

    Dimenso Promoo

    Este modelo chamado de estrela porque a tabela de fatos fica ao centro cercada das tabelas dimensionais assemelhado a uma estrela. Mas o ponto forte a fixar que as dimenses no so normalizadas.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 20 de 83

  • Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03O M ode lo F loco de N eve (Snow F la k e )

    No modelo Floco as tabelas dimensionais relacionam-se com a tabela de fatos, mas algumas dimenses relacionam-se apenas entre elas. Isto ocorre para fins de normalizao das tabelas dimensionais, visando dim inuir o espao ocupado por estas tabelas. Informaes como Categoria, Departamento e Marca tornar-se-o, no exemplo, tabelas de dimenses auxiliares.

    Fatos Venda

    Dimenso Te

    Dimenso Piorrocao Dimenso toia

    M a r c aMeio

    /Dimenso Prndil/ O^atarrenio\MsAno Cateq iia

    No modelo Floco existem tabelas de dimenses auxiliares que normalizam as tabelas de dimenses principais. Na figura anterior, Ano, Ms e D ia so tabelas que normalizam a Dimenso Tem po, ao passo que Ca tego ria , D epa rtam en to e M arca normalizam a Dimenso P ro d u to e a tabela M eio normaliza a Dimenso Prom oo .

    Construindo a base de dados desta forma, passamos a utilizar mais tabelas para representar as mesmas dimenses, mas ocupando um espao em disco menor do que o modelo estrela. Este modelo chama-se floco de neve, pois cada dimenso se divide em vaias outras tabelas, onde organizadas de certa forma lembra um floco de neve.

    C ons ide ra es

    O Modelo Floco (Snow Flake) reduz o espao de armazenamento dos dados dimensionais mas acrescenta vrias tabelas ao modelo, deixando-o mais complexo, tornando mais difcil a navegao pelos softwares que utilizaro o banco de dados. Um outro fator que mais tabelas sero utilizadas para executar uma consulta, ento mais JOINS de instruo SQL sero feitos, tornando o acesso aos dados mais lento do que no modelo estrela.

    O Modelo Estrela (Star Schema) mais simples e mais fcil de navegao pelos softwares, porm desperdia espao repetindo as mesmas descries ao longo de toda a tabela. Porm, anlises mostram que o ganho de espao

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 21 de 83

  • Estratgiar n N r i i R ; r > < ;C O N C U R S O S Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro EstadualProf Victor Dalton - Aula 03

    normalizando este esquema resulta em um ganho inferior a 1% do espao total no banco de dados. Isto posto, cabe analisar outros fatores mais importantes para serem avaliados para reduo do espao em disco, como a adio de agregados e alterao na granularidade dos dados, por exemplo.

    D ica do p ro fesso r: Se voc sentir muita insegurana para definir a tabela de fatos e as tabelas de dimenso, procure identificar a tabela com mais chaves estrangeiras. QUASE SEMPRE esta ser a tabe la de fa to s . A tabela de fatos, por conter contedos de dimenses diferentes, precisa ter de chaves estrangeiras que se relacionem com as chaves primrias das tab e la s de d im en s o , que, via de regra, apenas discriminam o "contedo" de uma dimenso. Alm disso, a ca rd in a lid a d e da tabela de fatos normalmente o "n" da relao (1:n).

    4 .4 A rq u ite tu ra s O LAP

    A anlise multidimensional uma das grandes utilidades da tecnologia OLAP, consistindo em ver determinados cubos de informaes de diferentes ngulos e de vrios nveis de agregao. Os "cubos" so massas de dados que retornam das consultas feitas ao banco de dados e podem ser manipulados e visualizados por inmeros ngulos e diferentes nveis de agregao.

    Conforme o mtodo de armazenamento de dados utilizado para uma aplicao OLAP, ser elaborada a arquitetura da aplicao. Os mtodos de armazenamento de dados, so MOLAP, ROLAP, DOLAP e HOLAP. Cada um deles tem uma funo especfica e deve ser utilizada quando melhor atender s necessidades de anlise pela ferrameg ta de OLAP.

    No M OLAP (M u lt id im e n s io n a l O n -L in e A n a iy t ic a i P ro ce s s in g ) osdados so armazenados de forma multidimensional (como se fosse um cubo de dados). Sua implementao varia de acordo com a sua ferramenta de OLAP, mas frequentemente implementado em um banco de dados relacional, porm no na terceira forma normal. Alm disto o acesso aos dados ocorre diretamente no banco de dados do servidor multidimensional. Os gerenciadores de banco de dados tm um limite prtico quanto ao tamanho fsico de dados que eles podem manipular. As restries de armazenamento e desempenho limitaro o tamanho do banco de dados, no esquecendo o limite das dimenses que tambm restringem sua manipulao. A complexidade que existe no processo de carga de um banco de dados multidimensional, pode acarretar a demora no processo.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 22 de 83

  • Estratgiar n N r i i R ; r > < ;C O N C U R S O S Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro EstadualProf Victor Dalton - Aula 03

    O processo de carga complexo devido a srie de clculos que devem ser realizados para agregar os dados s dimenses e preencher as estruturas do banco. Depois do processo concludo, ainda realizado uma srie de mecanismos para melhorar a capacidade de pesquisa.

    J no RO LAP (R e la t io n a l O n -L in e A n a ly t ic a l P ro ce ss in g ) os dados so armazenados no modelo relacional como tambm suas consultas so processadas pelo gerenciador do banco relacional.

    Por outro lado, o D O LAP (D esk top O n -L in e A n a ly t ic a l P ro ce ss in g ) uma variao que existe para fornecer portabilidade dos dados, uma vez que o conjunto de dados multidimensional criado no servidor e transferido para o desktop. A vantagem que oferece esta arquitetura a reduo do trfico na rede.

    Existem tambm arquiteturas hbridas como a H O LAP (H yb rid O n -L ine A n a ly t ic a l P ro ce s s in g ) , na qual ocorre uma combinao entre ROLAP e MOLAP. A vantagem que com a mistura de tecnologias pode-se extrair o que h de melhor de cada uma, a alta performance do MOLAP e a escalabilidade do ROLAP.

    Dentre as arquiteturas mais recentes, podemos citar a W O LAP (W eb O nL ine A n a ly t ic a l P ro ce s s in g ) , que dispara suas consultas via navegador web para o servidor, que por sua vez retorna enviando o cubo processado de volta, para que possa ser analisado pelo usurio.

    4 .5 O pe raes em O LAP

    Ao navegar-se pelos cubos OLAP, diversas so as operaes possveis para a visualizao da informao que se busca. Essas operaes recebem diversos nomes, a saber:

    D r i l l Dow n: O Drill Down ocorre quando o usurio aumenta o nvel de detalhe da informao, diminuindo o grau de granularidade, como passar de semestre para trimestre.

    D r i l l Up (ou R o ll Up): O Drill Up o contrrio do Drill Down. Ele ocorre quando o usurio aumenta o grau de granularidade, diminuindo o nvel de detalhamento da informao, como passar de ms para trimestre.

    D r i l l Throught: O Drill Throught ocorre quando o usurio passa de uma informao contida em uma dimenso para uma outra. Por exemplo: Estou na

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 23 de 83

  • EstratgiaC O N C U R S O S ^

    dimenso de tempo regio.

    Tecnologia da Informao para ICMS/PE Auditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03e no prximo passo comeo a analisar a informao por

    D r i l l A c ro ss : O Drill Across ocorre quando o usurio pula um nvelintermedirio dentro de uma mesma dimenso. Por exemplo: a dimenso tempo composta por ano, semestre, trimestre, ms e dia. O usurio estar executando um Drill Across quando ele passar de ano direto para trimestre ou ms, sem passar por semestre.

    S lic e A n d D ice: So duas operaes distintas. A operao slice (fatiar) seleciona dados de uma nica dimenso de um cubo ao passo que a operao dice (do ingls "dado") extrai um subcubo do cubo, efetuando uma operao de seleo sobre duas ou mais dimenses do mesmo.

    C ro ss-jo in : O Cross-join um recurso no qual dados so unidos e colunas e linhas so invertidas, permitindo uma melhor visualizao sob a tica do negcio. Por exemplo:

    Cliente Produto Quantidade

    ABC Camisa 20

    ABC Cala 10

    XYZ Camisa 30

    XYZ Cala 20

    Produto ABC XYZ

    Camisa 20 30

    Cala 10 20

    Cross-join. Modificou-se o foco do Cliente para o Produto.

    P ivo t: O Pivot sim ilar ao cross-join, mas envolve somente a rotao do cubo, sem a juno dos dados.

    A le rta s : Os Alertas so utilizados para indicar situaes de destaque em elementos dos relatrios, baseados em condies envolvendo objetos e variveis. Servem para indicar valores mediante condies mas no para isolar dados pelas mesmas.

    R ank ing : A opo de ranking permite agrupar resultados por ordem de maiores / menores, baseado em objetos numricos (Measures). Esta opo impacta somente uma tabela direcionada (relatrio) no afetando a pesquisa (Query).

    F i lt r o s : Os dados selecionados por uma Query podem ser submetidos a condies para a leitura na fonte de dados. Os dados j recuperados pelo Usurio podem ser novamente "filtrados" para facilitar anlises diretamente no documento.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 24 de 83

  • EstratgiaC O N C U R S O S ^

    Tecnologia da Informao para ICMS/PE Auditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03S o r t s : Os sorts servem para ordenar uma informao. Esta ordenao

    pode ser customizada, crescente ou decrescente.

    B reaks: Os Breaks servem para separar o relatrio em grupos de informaes (blocos). Por exemplo: O usurio tem a necessidade de visualizar a informao por cidades, ento ele deve solicitar um Break. Aps esta ao ter sido executada, automaticamente o relatrio ser agrupado por cidades, somando os valores mensurveis por cidades.

    C o nsu lta s Ad -H oc: So consultas com acesso casual nico e tratamento dos dados segundo parmetros nunca antes utilizados, geralmente executado de forma iterativa e heurstica.

    CAIU na prova!

    2) ( FCC - TRF 3 a Reg io - A n a lis ta Ju d ic i r io - Banco de Dados - 2014)A tecnologia de Data Warehouse oferece suporte s ferramentas OLAP, que apresentam vises multidimensionais de dados permitindo a anlise das operaes de negcio para facilitar a tomada de decises. Estas ferramentas suportam algumas operaes de maneira a dar aos analistas o poder de observar os dados de vrias maneiras em nveis diferentes. Considere duas destas operaes mostradas nas figuras abaixo.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 25 de 83

  • EstratgiaC O N C U R S O S ^

    Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    Prof Victor Dalton -A ula 03

    Ano DadosRegio

    sia Europa Amrica do Norte Total Geral

    2010 Soma de Hardware 97 23 198 318Soma de Software 83 41 425 549

    2011 Soma de Hardware 115 28 224 367Soma de Software 78 65 410 553

    2012Soma de Hardware 102 25 259 386Soma de Software 55 73 497 625

    Soma de Hardware Total 314 76 681 1071

    Soma de Software Total 216 179 1332 1727

    Regio DadosAno

    2010 2011 2012 Total Geral

    AsiaSoma de Hardware Soma de Software

    97 115 102 31483 78 55 216

    EuropaSoma de Hardware 23 28 25 76Soma de Software 41 65 73 179

    Amrica do NorteSoma de Hardware Soma de Software

    198 224 259 681425 410 497 1332

    Soma de Hardware Total 318 367 386 1071

    Soma de Software Total 549 553 625 1727

    Figura 1

    R e g i o V a ria o d e v e n d a s

    frica 105%

    Asia 5 7 %

    Europa 122%

    Am rica do Norte 9 7 %

    Pacifico 8 5 %

    A m rica do Sul 163%

    P a is V a ria o d e v e n d a s

    C hina 123%

    Japo 5 2 %

    ndia 8 7 %

    Cingapura 9 5 %

    Figura 2

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 26 de 83

  • Estratgiar n N r i i R ; r > < ;C O N C U R S O S Tecnologia da Informao para ICMS/PE Auditor Fiscal do Tesouro Estadual Prof Victor Dalton - Aula 03

    As operaes mostradas na Figura 1 e na Figura 2, respectivamente, so

    (A) rotao e drill-down.(B) ROLAP e drill-through.(C) rotao e roll-up.(d ) roll-up e rotao.(e ) drill-down e ROLAP.

    Na operao I ocorre uma "rotao", trocando linhas com colunas, sem aglutinao dos dados. Exemplo tpico de p ivo t, chamado pela banca de rotao.

    Na operao II dado um zoom na Regio sia, mostrando-a por pases. o famoso drill-down.

    Resposta: a lte rn a t iv a a).___________________________________________________

    Enfim , fina lizam os a parte de BI. No deixe de ve r os exerccios!

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 27 de 83

  • Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03EXERCCIO S COM EN TAD OS

    1a Questo) (ESAF - A n a lis ta de P lan e jam en to e O ram en to - Tecno log ia da In fo rm ao - 2010 ) BI - Business Inteligence

    a) uma tcnica de otimizao da rvore de deciso.b) um mtodo de formao avanada de gestores.c) compreende ferramentas de anlise de dados para otim izar os processos

    produtivos de uma empresa.d) so tcnicas, mtodos e ferramentas para minerao de dados na rea

    de negcios de uma empresa.e) so tcnicas, mtodos e ferramentas de anlise de dados para subsidiar

    processos de deciso de uma empresa.

    Business Intelligence (BI) pode ser traduzido como inteligncia de negcios, ou inteligncia empresarial. Na prtica, configura-se como um conjunto de t cn ica s , m todos e fe rram en ta s que sub s id iam o p ro ce sso de d ec iso de um a em presa .

    Resposta, le tra e). As demais alternativas servem para confundi-lo.

    2a Questo) (ESAF - C om isso de V a lo re s M o b ili r io s - A n a lis ta de S is tem as - 2010 ) O sistema de apoio a deciso

    a) visa obter informaes de todos os nveis a partir de informaes detalhadas armazenadas nos sistemas de processamento de aes.

    b) analisa dados on-line coletados por sistemas de processamento de transio, para ajudar as pessoas a executar aes operacionais.

    c) visa obter informaes de alto nvel a partir de informaes gerenciais armazenadas nos sistemas de processamento de documentos.

    d) analisa dados coletados por sistemas de processamento de inovao, para ajudar as pessoas a viabilizarem aes de transcries.

    e) analisa dados on-line coletados por sistemas de processamento de transao, para ajudar as pessoas a tomarem decises de negcios.

    particularmente fcil acertar esta questo porque somente uma alternativa fala o bvio sobre a atividade fim destes sistemas, que dar suporte deciso. Mas formalizemos um pouco mais.

    Os sistemas de apoio deciso servem para dar apoio aos tomadores de deciso, lderes de uma organizao com dados de mais alto nvel para decises complexas e importantes (logo, decises de negcio). Estas ferramentas podem trabalhar com descoberta de conhecimento e processamento online de

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 28 de 83

  • Estratgiar n N r i i R ; r > < ;C O N C U R S O S Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro EstadualProf Victor Dalton - Aula 03

    transaes, para permitir que tomador de deciso tenha a sua prpria percepo.

    A lte rn a t iv a e).

    3a Questo) (CESPE - Banco C en tra l - A n a lis ta - A n lis e e D e sen vo lv im en to de S is tem as - 2013 ) Inteligncia de negcios (business intelligence) refere-se aos processos de obteno de informaes vlidas a partir de dados oriundos de fontes diversas (ERPs, CRMs, sistemas legados etc.), que sero utilizados para apoiar decises de negcios.

    Co rre to . Sistemas Integrados de Gesto Empresarial (ERPs), Sistemas de Gesto de Relacionamento com o Consumidor (CRMs), sistemas legados, bancos de dados, a Internet, Data Warehouses, dentre outros, podem ser fontes para a obteno de dados para fundamentar decises de negcios.

    4a Questo) (U EPA - S E F A /P A - A u d ito r F isca l de R ece ita s E s tadua is - 2013 ) Leia o texto para responder questo abaixo.

    Fiscalizao Tributria ter Posto Fiscal EletrnicoMais rapidez e segurana fiscalizao do transporte de mercadorias destinadas ao Distrito Federal e que circulam pela regio. Essa a proposta do Posto Fiscal E letrnico, novo programa de monitoramento de cargas que est sendo lanado pela Secretaria de Fazenda do D istrito Federal (SEF/DF). A proposta verificar os produtos em trnsito, antes mesmo de chegarem ao destino, a partir da anlise das informaes da

    momento da em isso do documento, na origem. No ambiente v irtual, ser possvel analisar 0 universo da nota e agregar bases de dados de outras institu ies alm da Fazenda, como da Receita Federal do Brasil, por exemplo. Alm de acessar dados de aes anteriores para a verificao de riscos potenciais. (...)Extrado de http://www.fazenda.df.gov.br/aplicacoes/noticias/ noticias_detalhe.cfm?co_seq_noticia=3461

    A soluo de TI que est relacionado ao texto :

    a) a construo de um portal corporativo

    b) a utilizao de uma ferramenta de Business Inteligence

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 29 de 83

  • Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03c) a construo de um portal colaborativo

    d) a implantao de Governana em TI

    e) a aquisio de novos ativos de rede

    Pela descrio do texto, notvel que a soluo a utilizao de uma ferramenta de Business Intelligence. Mais especificamente, a questo parece citar Fe rram en ta s O LAP, pois, de maneira online, vai processar informaes de notas fiscais dos estados de origem, cruzando com dados de outras bases, como a RFB. Alm disso, parece tambm ter um pouco de Data M in ing , pois vai analisar os dados com dados anteriores, para analisar riscos potenciais. Na prtica, no "uma ferramenta de BI", pois envolve mais de uma ferramenta.

    Mesmo assim, a lte rn a t iv a b).

    5a Questo) (FCC - TST - A n a lis ta Ju d ic i r io - A n lis e de S is tem as - 2012 ) Leia as afirmaes a seguir:

    I. Um Data Warehouse um repositrio de dados atuais e histricos de uma organizao que possibilita a anlise de grande volume de dados para suportar a tomada de decises estratgicas, possuindo registros permanentes.

    II. O processo de Data Mining, ou minerao de dados, tem por objetivo localizar possveis informaes em um banco de dados atravs de comparaes com dados informados pelo usurio e registros de tabelas.

    III. Um ERP, ou Sistema Integrado de Gesto Empresarial, conhecido por integrar os dados de diferentes departamentos de uma organizao, aumentando o uso de interfaces manuais nos processos.

    IV. As ferramentas OLAP (On-line Analytical Processing) so capazes de analisar grandes volumes de dados, fornecendo diferentes perspectivas de viso e auxiliando usurios na sintetizao de informaes.

    Est correto o que se afirma APENAS em

    a) I e II.b) II e III.c) I, III e IV.d) I, II e III.e) I e IV.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 30 de 83

  • Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03Analisando as alternativas:

    I. Co rre ta . O Data Warehouse um repositrio de dados orientado tomada de decises.

    II. E rrada. O Data Mining tem por objetivo en co n tra r pad res te is em bases de dados, no se relacionando com comparaes de dados informados pelo usurio.

    III. E rrada. Um ERP procura elim inar as interfaces manuais nos processos, no aument-las.

    IV. Corre ta .

    Portanto, a resposta a ser marcada a a lte rn a t iv a e).

    6a Questo) (FCC - T R T /9 a Reg io - Tcn ico Ju d ic i r io - T ecno log ia da In fo rm ao - 2013 ) Com o crescente aumento do volume de dados, surge a necessidade de ferramentas e mecanismos que permitam que eles possam ser analisados de forma otimizada, uma vez que armazenam toda a trajetria da empresa. Uma soluo a utilizao de ...I... que, em sntese, utilizado para armazenar conjuntos de dados organizados por assuntos, mantendo todo um histrico corporativo. Outro recurso muito utilizado e dos mais importantes quando o objetivo a busca de conhecimento, o ...II... , que um processo que consiste na identificao de informaes relevantes que esto presentes em grandes bancos de dados ou repositrios, geralmente realizado em trs etapas: a explorao, a definio dos padres e a validao dos dados. Estas ferramentas e tcnicas fazem parte do ...III... , definido como um conjunto de mtodos e conceitos que podem ser implementados atravs de softwares com o intuito de utilizar os dados importantes da organizao para auxiliar no processo de tomada de decises, proporcionando melhorias para a alta administrao. Outra tecnologia que pode prover uma melhor e mais flexvel anlise das informaes, o ...IV... que permite uma viso conceitual de forma multidimensional das informaes da organizao, de maneira que as informaes possam ser visualizadas e analisadas de diferentes perspectivas pelo usurio.

    (http://www.devmedia.com.br/mineracao-de-dados-data-warehouse-data-m ining-bi-e-olap-atraves-do-fastcube-revista-clubedelphi-146/26537)

    As lacunas que completam corretamente o texto esto expressas em

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 31 de 83

  • EstratgiaC O N C U R S O S ^

    Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    Prof Victor Dalton -A ula 03I I I I I I I V

    A D ata W arehouse D ata M a rt C P M D ash b oa rd

    B S G B D D ata M in ing D ata W arehouse O LA P

    C O LA P B us iness In te lligence D ata M in ing D ashboa rd

    D D ata W arehouse D ata M in ing B us iness In te lligence O LA P

    E O L A P D ata M a rt D ata W arehous ing B us iness In te lligence

    E ento, achou tranquila a questo? Espero que sua associao mental tenha sido veloz!

    I - armazenar conjuntos de dados orientados por assunto, mantendo um histrico corporativo - Data W arehouse ;

    II - identificao de informaes relevantes em bancos de dados - Data M in ing;

    III - conjunto de mtodos e conceitos para a tomada de decises - B u s in e ss In te llig en ce ;

    IV - viso multidimensional das informaes da organizao - O LAP.

    A lte rn a t iv a d).

    7a Questo) (FCC - S E FA Z /R J - A u d ito r F isca l da R ece ita E stadua l - 3 a C a tego ria - 2 014 ) Sistemas de BI - Business Intelligence renem um conjunto de tecnologias orientadas a disponibilizar informao e conhecimento em uma organizao, dentre as quais est o DW. Um ambiente que utiliza DW rene processos e ferramentas, est sempre em evoluo e pode ser visualizado como na figura abaixo.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 32 de 83

  • EstratgiaC O N C U R S O S ^

    Tecnologia da Informao para ICMS/PE Auditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03Os componentes I, II, III e IV esto corretamente identificados em:

    I I I I I I IV

    A Staging Area Sistem as O LAP Banco de Dados MultidimensionaisSistemas de Data

    Mining

    B Sistemas OLAP Sistemas ETL DW Sistemas de Data Mining

    C DW Sistemas ETLBanco de Dados Transacionais

    ERP

    D Sistem as O LTP DW Dafa Marts Sistemas O LAP

    E Banco de Dados Transacionais Data Marts DWBanco de Dados

    Multidimensionais

    Mais um diagrama ilustrativo de processos de Business Intelligence. Como no existe uma nica soluo para tal, esta questo obriga que voc utilize as informaes j existentes no diagrama, e trabalhe por eliminao para encontrar a alternativa correta.

    Inicialmente, aquelas alternativas que possuem sistemas de anlise antes da ponta final do processo esto equivocadas. Alternativa a) e b), com Sistemas OLAP no incio do processo, podem ser sumariamente eliminadas.

    A alternativa c) inicia por um Data Warehouse e , aps o processo de ETL, monta sua base inteligente em um Banco de Dados Transacional. Tambm incorreta.

    A alternativa e), por fim, poderia at colocar uma dvida na sua cabea, mas ela possui, na "ponta da linha", um banco de dados multidimensional. Mas um banco de dados multidimensional por si s no oferece anlise e utilizao estratgica da informaes. Quem possibilita isso um S is tem a O LAP.

    Portanto, a alternativa correta a le tra d). Os Sistemas OLTP so fontes de dados, que so tratados e compilados em um Data W a rehouse , que pode ser replicado e especializado em Data M arts , cujos dados podem ser utilizados por S is tem as O LAP para acesso, anlise e tomada de decises.

    8a Questo) (FCC - IN FRAERO - A n a lis ta S u p e r io r I I I - A n a lis ta de S is te m a s /A d m in is tra d o r de Banco de Dados - 2011 ) No mbito da descoberta do conhecimento (KDD), a viso geral das etapas que constituem o processo KDD (Fayyad) e que so executadas de forma interativa e iterativa apresenta a seguinte sequncia de etapas:

    a) seleo, pr-processamento, transformao, data mining e interpretao/avaliao.Prof. Victor Dalton

    w w w . e s t r a t e g i a c o n c u r s o s . c o m . b r 33 de 83

  • EstratgiaC O N C U R S O S ^

    Tecnologia da Informao para ICMS/PE Auditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03b) seleo, transformao, pr-processamento, interpretao/avaliao e

    data mining.c) data warehousing, star modeling, ETL, OLAP e data mining.d) ETL, data warehousing, pr-processamento, transformao e star

    modeling.e) OLAP, ETL, star modeling, data mining e interpretao/avaliao.

    Relembrando:

    A lte rn a t iv a a).

    9a Questo) (ESAF - A n a lis ta de P lan e jam en to e O ram en to - Tecno log ia da In fo rm ao - 2010 ) Minerao de Dados

    a) uma forma de busca sequencial de dados em arquivos.b) o processo de programao de todos os relacionamentos e algoritmos

    existentes nas bases de dados.c) por ser feita com mtodos compiladores, mtodo das redes neurais e

    mtodo dos algoritmos gerativos.d) engloba as tarefas de mapeamento, inicializao e clusterizao.e) engloba as tarefas de classificao, regresso e clusterizao.

    Data Mining, como o nome indica, se refere minerao ou a descoberta de informaes em funo de padres ou regras em grande quantidade de dados.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 34 de 83

  • Esta minerao pode utilizar vrias tcnicas para a descoberta de conhecimento. Vejamos algumas, de forma bem resumida:

    A s so c ia o : Explicando de forma bem simples, enxergar alguma forma de relao entre variveis (do tipo X influencia Y);

    D e sc rio de c lasses: prov um resumo conciso e sucinto de uma coleo de dados e a distingue de outras. O resumo de uma coleo de dados chamado de caracterizao de classe; enquanto a comparao entre duas ou mais colees de dados chamada comparao ou discriminao de classe. A descrio de classe no s deveria cobrir suas propriedades de resumo tal como a contagem, somas, e clculos de mdias, mas tambm suas propriedades sobre a disperso dos dados, tais como a varincia, desvio padro, quartis, dentre outros;

    C la s s if ic a o : o processo de encontrar um modelo que descreve classes diferentes de dados (por exemplo, "ensinar" ao sistema quais clientes bancrios so de risco alto, mdio e baixo, por meio de alguns registros, e, a partir deste ponto, a minerao por si s ser capaz de classificar o restante da base de dados).

    A a ru p a m e n to fc lu s te r in g ) : Sim ilar classificao, porm sem superviso (o sistema por si s sendo capaz de criar grupos).

    D escobe rta de pad res se q u e n c ia is : Exemplo, o sistemadescobrir que se o cliente compra po, provvel que compre po e leite;

    D escobe rta de pad res em s r ie s te m p o ra is : Exemplo, o sistema descobrir que as vendas de guarda-chuva caem na poca da seca;

    R eg re ss o : a anlise de diversas variveis para prever uma prxima (exemplo, ver os exames de um paciente e calcular a probabilidade de sobrevivncia a uma cirurgia, com base no histrico de pacientes operados);

    Redes n e u ra is : urtp a extenso da regresso (regressogeneralizada), utilizando princpios da inteligncia artificial;

    A lg o r itm o s g e n t ico s : so tcnicas de busca utilizadas na cincia da computao para achar solues aproximadas em problemas de otimizao e busca, sendo uma classe particular de algoritmos evolutivos que usam tcnicas inspiradas pela biologia evolutiva como hereditariedade, mutao, seleo natural e recombinao.

    J d pra marcar a resposta correta, no? A lte rn a t iv a e).

    10a Questo) (FCC -T R F 4 - A n a lis ta Ju d ic i r io - A p o io E spe c ia lizado - E spe c ia lid ad e In fo rm tica - 2010 ) Sobre data mining, correto afirmar:

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 35 de 83

  • a) No requer utilizados conseguem padres encontrados.

    Tecnologia da Informao para ICMS/PE Auditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03interao com analistas humanos, pois os algoritmos determinar de forma completa e eficiente o valor dos

    b) Na minerao de dados, encontrar padres requer que os dados brutos sejam sistematicamente "simplificados", de forma a desconsiderar aquilo que genrico e privilegiar aquilo que especfico.

    c) um grande banco de dados voltado para dar suporte necessrio nas decises de usurios finais, geralmente gerentes e analistas de negcios.

    d) O processo de descobrimento realizado pelo data mining s pode ser utilizado a partir de um data warehouse, onde os dados j esto sem erros, sem duplicidade, so consistentes e habilitam descobertas abrangentes e precisas.

    e) o processo de descoberta de novas correlaes, padres e tendncias entre as informaes de uma empresa, por meio da anlise de grandes quantidades de dados armazenados em bancos de dados usando tcnicas de reconhecimento de padres, estatsticas e matemticas.

    Analisando as alternativas:

    a) Errada, pois, mesmo que seja somente para analisar e validar o resultado do Data Mining, n ece ss r ia a p a rt ic ip a o hum ana no p rocesso!

    b) Errada. A minerao de dados valoriza a informao a mais especfica possvel. A simplificao dos dados brutos pode descartar informao valiosa para a criao de conhecimento.

    c) Definio de Data W arehouse ! Errada.d) Errada! E IM PO R T AN T E ! O Data Mining no precisa ser utilizado

    somente em DataWarehouse, tambm pode-se aplicar DM em bancos de dados comuns, arquivos legados, na web, etc;

    e) Co rre ta , e d e fin i o bastarnte com p le ta .

    11a Questo) (FCC - IN FRAERO - A n a lis ta S up e r io r I I I - A d m in is tra d o r de Banco de Dados - 2 012 ) Funcionalidade cujo objetivo encontrar conjuntos de dados que no obedecem ao comportamento ou modelo dos dados. Uma vez encontrados, podem ser tratados ou descartados para utilizao em mining. Trata-se de

    a) descrio.b) agrupamento.c) visualizao.d) anlise de outliers.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 36 de 83

  • Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03e) anlise de associaes.

    Se voc j estudou estatstica provavelmente j ouviu falar dos outliers. So dados isolados, cujos valores apresentam um grande afastamento dos demais de uma srie.

    A anlise de outliers, por consequncia, faz o que o enunciado apresenta, ou seja, trata ou descarta dos dados, de acordo com o objetivo da anlise. Ocorre durante a etapa de pr-processamento dos dados.

    Resposta certa, a lte rn a t iv a d).

    12a Questo) (FCC - T C E /S P - A gen te da F is ca liza o F in an ce ira - 2008 ) NO uma tcnica no processo de garimpagem de dados utilizada em Data Mining:

    a) Associao.b) Classificao.c) Avaliao.d) Agregao.e) Padres sequenciais

    A va lia o no existe em Mining. Agregao sinnimo de agrupamento (clustering), e os demais j conhecemos.

    A lte rn a t iv a c).

    13a Questo) (CESPE - SERPRO - A n a lis ta - N egc io s em Tecno log ia da In fo rm ao - 2013 ) Clusterizao a tarefa preditiva relativa identificao de um conjunto finito Epe categorias empregadas para descrever uma informao. Essas categorias nunca podero ser mutuamente exclusivas.

    E rrado ! A clusterizao, embora descrita de maneira excessivamente tcnica, est correta. Entretanto, nada impede que as categorias levantadas sejam mutuamente exclusivas. Pelo contrrio. Quando isso ocorre, os grupos so melhores definidos, concorda?

    14a Questo) (FCC - P re fe itu ra de So Pau lo - A u d ito r F isca l T r ib u t r io M un ic ip a l I - T ecno log ia da In fo rm ao - 2012 ) Em aplicaes de data mining uma operao comum o aprendizado ou minerao de regras

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 37 de 83

  • EstratgiaC O N C U R S O S ^

    Tecnologia da Informao para ICMS/PE Auditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03de associao entre itens. Uma papelaria aplica o algoritmo Apriori para minerar regras de associao entre as seguintes compras:

    Cd igo Com pra Itens Com pradosDH456 lpis, caneta, borracha, rguaFT654 lpis, rguaIV739 lpis, compassoYR983 caneta, borracha, transferidor

    Supondo um suporte mnimo de 50%, os conjuntos de itens frequentes de dois elementos so:

    a) {caneta, borracha}, {caneta, rgua} e {lpis, borracha}b) {lpis, caneta}c) {lpis, borracha}d) {caneta, rgua} e {compasso, transferidor}e) {lpis, rgua} e {caneta, borracha}

    O algoritmo Apriori, que um algoritmo de a ssoc ia o , procura, em um universo, encontrar um itemset (conjunto de itens) que aparece com uma certa frequncia. Como o suporte escolhido pela questo de 50%, deve-se procurar os conjuntos de produtos que aparecam ao menos na metade do universo de compras para que ele seja um itemset vlido.

    Desta forma, apenas os itens {lpis, rgua} e {caneta, borracha} atendem ao suporte mnimo, pois aparecem em 50% das compras realizadas. A lte rn a t iv a e).

    15a Questo) (ESAF - Tcn ico da R ece ita Federa l do B ra s il - T ecno log ia da In fo rm ao - 2006 - adap tada) Analise as seguintes afirmaes relacionadas a Datawarehouse.

    I. Um Datawarehouse deve ser voltil, ou seja, os dados sofrem as alteraes necessrias, como: incluir, alterar ou excluir dados.

    II. Um Datawarehouse deve ser integrado, ou seja, trabalha de forma a globalizar e aproveitar os termos e as estruturas tcnicas que so utilizados nos sistemas de informaes tradicionais. Por exemplo, na representao de sexo, um Datawarehouse utiliza todas as formas seguintes: "m" ou "f", "0" ou "1", "x" ou "y", "macho" ou "fmea", "homem" ou "mulher", "dama" ou "cavalheiro".

    III. Um Datawarehouse deve ser orientado aos principais assuntos ou negcios da empresa como, por exemplo, clientes, vendas e produtos. J os sistemas de informaes tradicionais so orientados a processos como, por exemplo, estoques, entradas e sadas de materiais.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 38 de 83

  • Estratgiar n N r i i R ; r > < ;C O N C U R S O S Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro EstadualProf Victor Dalton - Aula 03

    IV. Um Datawarehouse deve ser invarivel no tempo, ou seja, sua estrutura dos dados dispensa elementos temporais, sendo importante apenas a reteno da chave primria.

    Indique a opo que contenha todas as afirmaes verdadeiras.

    a) I e IIb) II e IIIc) I e IIId) III e IVe) II e IV

    O Datawarehouse possui 4 c a ra c te r s t ic a s marcantes, que repetidamente so questes de concursos. Ento nos cabe discutir estas caractersticas:

    N o -v o l t il: o Datawarehouse apenas recebe informaes.Excluses ou alteraes ocorrem apenas para a correo de dados inseridos com erro.

    In te g ra d o : de acordo com o item II da questo; O rien tado por a s su n to s : conforme o item III da questo; V a r ia n te no te m p o : A variao em relao ao tempo consiste na

    manuteno de um histrico de dados em relao ao perodo de tempo maior que dos sistemas comuns, isto significa que as tcnicas de minerao de dados no so aplicadas em tempo real, de forma a no comprometer o desempenho dos bancos transacionais OLTP. Ao analisarmos um dado de um DW, o mesmo sempre estar relacionado a um perodo determinado de tempo, pois ter uma chave de tempo que ir indicar o dia no qual esses dados foram extrados.

    Estas so as 4 caractersticas do Datawarehouse. Lembre-se delas! Nossa resposta certa, portanto, a a lte rn a t iv a b).

    16a Questo) (FCC - S E FA Z /R J - A u d ito r F isca l da R ece ita E s tadua l - 3 a C a tego ria - 2014 ) Com o advento da tecnologia de Data Warehousing, os ambientes de apoio deciso passaram a ser denominados ambientes de Data Warehouse (DW).

    Em relao tecnologia DW, correto afirmar:

    a) Em um DW as convenes de nomes, valores de variveis e outros atributos fsicos de dados como data types so bastante flexveis. Para facilitar a tomada de decises, as informaes so apresentadas de diferentes formas, da mesma maneira que foram carregadas dos sistemas legados.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 39 de 83

  • Estratgiar n N r i i R ; r > < ;C O N C U R S O S Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro EstadualProf Victor Dalton - Aula 03

    b) Um projetista de DW deve ter seu foco na modelagem dos dados e no projeto de banco de dados. Um sistema transacional armazena as informaes agrupadas por assuntos de interesse da empresa que so mais importantes, enquanto um DW orientado a processos e deve ser desenvolvido para manter disponveis as transaes realizadas diariamente.

    c) Os dados de um DW so um conjunto dinmico de registros de uma ou mais tabelas, capturados em um momento de tempo predeterminado, por isso tm que ser sempre atualizados.

    d) Um sistema multidimensional, como o DW, deve atualizar o valor corrente das informaes e sua exatido vlida por um tempo curto, por exemplo, o valor total das notas fiscais processadas pela Receita s 12:00 de um dia pode ser diferente s 18:00 do mesmo dia.

    e) Um DW tem duas operaes bsicas: a carga dos dados (inicial e incremental) e o acesso a estes dados em modo leitura. Depois de carregado, um DW no necessita de operaes de bloqueio por concorrncia de usurios no acesso aos seus dados.

    Outra questo que trabalha em cima da quatro caractersticas fundamentais do Data Warehouse. Analisemos as alternativas:

    a) Um Data Warerouse deve ser in teg rado , ou seja, dever ser capaz de lidar com as informaes nos seus mais deferentes formatos. Contudo, as informaes devero ser apresentadas de maneira padronizada, e no da mesma forma como apresentada nos sistemas legados. Errada;

    b) Um sistema transacional orientado a processos. Um DW o r ie n tado por assun tos. Errada;

    c) Um DW no -vo l t il. Seus dados no devem ser atualizados. Errada;d) Mesma argumentao da assertiva anterior;e) C o rre ta , tambm de acordo com a no-volatilidade.

    17a Questo) (FG V - S E FA Z /R J - A gen te F isca l de R endas -2 0 0 7 )DataWarehouse e DataMining so recursos utilizados por muitas organizaes para facilitar e agilizar o processamento, a anlise e a consulta de dados. Sobre esses recursos, correto afirmar que:

    a) um DataMining armazena dados extrados de bancos de dados de diferentes organizaes.

    b) um DataWarehouse armazena dados por perodos no superiores a trs meses, o que dificulta previses e anlises de tendncia.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 40 de 83

  • Estratgiar n N r i i R ; r > < ;C O N C U R S O S Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro EstadualProf Victor Dalton - Aula 03

    c) um DataWarehouse repositrio de dados histricos orientados a assunto, organizados para serem acessveis para atividades de processamento analtico.

    d) DataMining uma tcnica de anlise de dados exclusiva para aplicao em um DataWarehouse.

    e) num DataWarehouse, os usurios finais necessitam conhecer linguagem de programao para acessar dados.

    Questo boa para analisar alternativa a alternativa, no mesmo?

    a) Errada; poderia ser at uma caracterstica de D a taW arehouse , caso as diferentes organizaes pertenam a um mesmo conglomerado. Quem poderia montar um DW com dados de diferentes empresas?

    b) Errado! Quanto mais longo o perodo de armazenamento, melhor para um Data Warehouse, que tem carter histrico;

    c) Co rre ta ! Atividades de processamento analtico so realizadas pelas ferramentas OLAP;

    d) Errada! O Data Mining no precisa ser utilizado somente em DataWarehouse, tambm pode-se aplicar DM em bancos de dados comuns, arquivos legados, na web, etc;

    e) Errada! Os usurios finais apenas obtm informaes do DW.

    18a Questo) (FCC - T C E /S P - A gen te da F is ca liza o F in an ce ira - 2008 ) Os depsitos de dados voltados para o processo decisrio gerencial e que podem ser definidos como espcies de mesmo tipo e estrutura so

    a) business intelligence e data mining.b) data warehouse e data mart.c) data warehouse e data mining.d) data mining e data mart.e) data mining, data warehouse e data mart.

    Data Marts so pequenos Datawarehouses, setoriais. A lte rn a t iv a b).

    19a Questo) (CESPE - Banco Cen tra l - A n a lis ta - A n lis e e D e sen vo lv im en to de S is tem as - 2013 ) Data warehouse (DW) e data mart (DM) so componentes importantes em um ambiente de business intelligence, visto que eles representam repositrios de mltiplos bancos de dados operacionais da empresa. Um DM agrega informaes de diversos DWs distribudos pelos departamentos da empresa.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 41 de 83

  • Errado ! Apenas porque, na sentena colocando uma pegadinha pro candidato.

    Tecnologia da Informao para ICMS/PE Auditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03final, a banca troca DM e DW,

    20a Questo) (FCC - S E F A Z /S P - A gen te F isca l de R endas - 2009 - Tecno log ia da In fo rm ao ) Se uma empresa de grande porte, com alto volume de transaes e informaes, resolver iniciar um projeto usando o conceito de Data Mart (DM) em vez de Data Warehouse (DW), independentemente disso ser ou no a melhor opo, os fatores que a levam a tal deciso podem ser justificados por:

    I. Possibilidade de extrair e preparar os dados diretamente de fontes de interesse especficas, fornecendo acesso mais rpido pela no necessidade de sincronia com dados de outras fontes.

    II. Menor risco quanto ao sucesso do projeto.III. Necessidade imediata de informaes organizacionais integradas.

    Est correto o que consta em

    a) I, apenas.b) I e II, apenas.c) I e III, apenas.d) I, II e III.e) II e III, apenas.

    Ora, sendo setorizados, os Data Marts so fon te s de dados e sp ec f ica s , que no precisam de sincronia com fontes de outros setores da organizao. Naturalmente, sua adoo implica em m enos cu s to e r is co s por parte da organizao. Como contrapartida, as informaes organizacionais no estaro integradas.

    Resposta certa, a lte rn a t iv a b).

    (FCC - S E F A Z /S P - A gen te F isca l de R endas - Tecno log ia da In fo rm ao - 2013 ) Considere o texto a seguir (baseado em uma notcia real):

    O Grupo Montanhs implantou uma soluo de B I para unificar as informaes de todos os segmentos em que atua e disponibiliz-las de acordo com a necessidade e permisso de acesso de cada colaborador. Antes da implementao do sistema, os relatrios departamentais eram elaborados manualmente, o que demandava muito tempo. "Desde os dados contbeis at as informaes de marketing e de RH eram compiladas de forma mecnica pelas equipes", lembra o gerente de planejamento do grupo, que foi um dos lderes do projeto.

    Ele explica que, observando os processos da empresa, percebeu que o mtodo utilizado era ultrapassado e, alm de moroso, no permitia a integrao de dados entre as unidades de negcios. "Da forma como atuvamos no conseguamos aproveitar as informaes que detnhamos para otimizar nossos processos, projetar cenrios futuros e desenvolver ofertas especiais para o perfil dos clientes". Assim, o gerente desenvolveu

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 42 de 83

  • Estratgiar n N r i i R ; r > < ;C O N C U R S O S Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro EstadualProf Victor Dalton - Aula 03

    um projeto-piloto para mostrar como a soluo podera facilitar o dia-a-dia das reas de negcio. "Nesse primeiro momento, foram integrados apenas os dados financeiros e contbeis de nossas unidades de negcio vindas de sistemas legados para os Data Marts", afirma ele.

    Aps demonstraes para os gerentes e diretores, a alta diretoria deu o aval para implementar a iniciativa em todo o grupo "Trabalhamos com a previso de obter um ROI em 3 anos", calcula o executivo. "Buscvamos uma ferramenta que gerasse anlises detalhadas a partir de um grande volume de informaes, at porque tnhamos a necessidade de sermos mais competitivos frente ao dinmico mercado varejista". O que, segundo o executivo, exigia decises rpidas e acertadas.

    Uma das fases essenciais do projeto foi a criao de uma central de armazenamento de dados, desenvolvida pela equipe interna de TI. Nesse repositrio esto todas as principais informaes corporativas, que incluem dados financeiros, contbeis, de vendas, RH e marketing. "Essa fase do projeto durou cerca de 6 meses e foi uma das mais desafiadoras, visto que previu a padronizao - em uma base nica - dos dados que antes eram gerenciados por diversos sistemas", diz.

    Antes da implementao da soluo de BI, o acesso s informaes acontecia por meio da extrao de arquivos diretamente dos sistemas. Em seguida, esses dados eram processados em planilha Excel ou por meio do Access, que geravam os relatrios departamentais no padronizados. Hoje esses processos foram substitudos por relatrios e paineis (dashboards). "As informaes passaram a ser consolidadas em um Data Warehouse de 1 TB, administrado pela rea de TI".

    Uma vez implantado, o sistema integrado comeou a ser acessado pelos diretores e gerentes das reas de negcios. "Por meio de ferramentas OLAP com interface web, hoje os funcionrios de alto escalo j podem acessar as informaes de sua rea, bem como cruz-las com outros dados", explica o gerente, ao informar que isso permite mapear o perfil dos clientes, projetar cenrios futuros e facilitar a criao de apresentaes setoriais. Alm dos benefcios de agilidade na elaborao de relatrios e da viso consolidada que a alta direo consegue ter da empresa, o gerente destaca que a produtividade das equipes aumentou consideravelmente aps a implementao da soluo de BI. "Em breve todos os funcionrios - cada um com seu nvel de permisso - tero acesso interface de dados de todo o grupo empresarial."

    21a Q uesto) Ao grupo Montanhs foi apresentada uma soluo de BI que trouxe diversas vantagens para o grupo empresarial. O resultado dessa soluo permitiu:

    1 - Informao disponvel para gesto2 - Viso de curvas de comportamento3 - Agilidade de ferramentas para apoio gesto4 - Segurana de informaes para deciso5 - Maior abrangncia de viso de indicadores6 - Recursos mais abrangentes para anlise de negcios7 - Necessidades e expectativas atendidas por ferramentas de TI

    A soluo apresentada foia) uma modelagem de banco de dados multidimensional.b) um projeto de Data Warehouse.c) um query & report de uma ferramenta OLAP.d) uma operao ETL.e) um projeto de banco de dados transacional.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 43 de 83

  • Estratgiar n N r i i R ; r > < ;C O N C U R S O S Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro EstadualProf Victor Dalton - Aula 03

    Todas essas caractersticas so conseguidas com a implantao de um D a taW arehouse , j suportado por ferramentas OLAP. Deste modo, a alternativa mais adequada a ser marcada a a lte rn a t iv a b).

    22 a Q uesto ) Considerando o contexto da soluo de BI do Grupo Montanhs, no segundo pargrafo, a integrao inicial apenas dos dados financeiros e contbeis vindas de sistemas legados indica que

    a) foi utilizada uma implementao bottom up, que permite que o planejamento e desenho dos Data Marts possam ser realizados sem esperar pela infraestrutura corporativa do DW, permitindo um ROI mais rpido.

    b) foi utilizada uma implementao combinada que tem o propsito de integrar a arquitetura top down com a bottom up, usando diversos modelos de Data Marts, gerados de uma s vez.

    c) foi utilizada uma implementao top down. Nesta implementao h um grande trabalho inicial, envolvendo todas as pessoas da empresa que iro participar do projeto, o que fora a empresa a definir regras de negcio de forma corporativa antes de se iniciar o projeto do DW.

    d) no foi utilizada a implementao top down, porque o processo se iniciou com a extrao, transformao e integrao das informaes dos sistemas internos, dados externos e das fontes operacionais para um ODS.

    e) foi utilizada uma implementao bottom up, porque a partir do DW foram extrados os dados e metadados para os Data Marts departamentais do grupo empresarial.

    Nem preciso voltar ao texto para responder, pois o contedo relevante para a questo foi abordado no enunciado. Essa criao de um DataWarehouse pela integrao gradativa dos setores indica que a abordagem foi bottom up, tpica das empresas que criam suas solues BI de maneira gradativa.

    Abo rdagem Bottom Up

    Data Mart 1

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 44 de 83

  • Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03Resposta certa, a lte rn a t iv a a).

    23a Questo) (FG V - M PE /M S - A n a lis ta - A n lis e de S is tem a s - 2013 - adap tada ) Com relao ao tema "Arquitetura e aplicaes de data warehousing", analise as afirmativas a seguir.

    I. As quatro caractersticas principais dos datawarehouses so: orientao por assunto, no volatilidade, integrao com outras fontes de dados e variao em relao ao tempo.

    II. Datawarehouses auxiliam diretores e gestores no processamento de transaes do dia-a-dia da empresa e, por esse motivo, armazenam dados e metadados altamente normalizados e de baixa granularidade.

    Assinale:

    a) se somente a afirmativa I estiver correta.

    b) se somente a afirmativa II estiver correta.

    c) se nenhuma estiver correta.

    d) ambas estiverem corretas.

    Quanto ao item I, j sabemos que est correto. O equvoco no item II est em dizer que as informaes em DataWarehouses altamente normalizada. Na verdade, as informaes em um DW so a ltam en te d e sno m a lizada s , para facilitar a realizao de consultas as mais variadas possveis, e de ba ixa g ran u la r id ad e (granularidade nvel de detalhe: as informaes em um DW devem ser bastante detalhadas, possibilitando consultas tanto pouco como muito detalhadas).

    Resposta certa, a lte rn a t iv a a).

    24a Questo) (UEL - CELEPAR - A n a lis ta J n io r de D esen vo lv im en to de S is tem as - 2009 ) Sobre DataWarehouse, correto afirmar:

    I. uma coleo de dados orientada por assuntos, integrada, variante no tempo, que tem por objetivo dar suporte aos processos de tomada de deciso.

    II. implementado por meio de um banco de dados contendo dados extrados do ambiente de produo da empresa, que foram selecionados e depurados, tendo sido otimizados para processamento de consulta e no para processamento de transaes.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 45 de 83

  • Estratgiar n N r i i R ; r > < ;C O N C U R S O S Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro EstadualProf Victor Dalton - Aula 03

    III. Seu objetivo fornecer uma "imagem nica da realidade do negcio". De uma forma geral, so sistemas que compreendem um conjunto de programas que extraem dados do ambiente de dados operacionais da empresa, um banco de dados que os mantm, e sistemas que fornecem estes dados aos seus usurios.

    IV. As ferramentas ROLAP surgiram juntamente com os Sistemas de Apoio Deciso para fazerem a consulta e a anlise dos dados contidos nos Data Warehouses e Data Marts.

    Assinale a alternativa correta.

    a) Somente as afirmativas I e III so corretas.b) Somente as afirmativas I e IV so corretas.c) Somente as afirmativas II e IV so corretas.d) Somente as afirmativas I, II e III so corretas.e) Somente as afirmativas II, III e IV so corretas.

    A questo muito saudvel para explicar caractersticas do DW. A pegadinha est em escrever ROLAP ao invs de OLAP. Logo, a alternativa correta a le tra d).

    25a Questo) (ESAF - C om isso de V a lo re s M o b ili r io s - A n a lis ta de S is tem as - 2010 ) Ferramentas de processamento analtico on-line (OLAP)

    a) funcionam sobre dados multidimensionais, caracterizados por atributos de dimenso e atributos de medida.

    b) funcionam sobre dados unidirecionais, caracterizados por atributos de medida e atributos de qualidade.

    c) funcionam sobre dados multidimensionais, caracterizados por atributos de disperso e atributos de mediao.

    d) desconsideram dados multidimensionais.e) transformam dados unidimensionais em dados analticos, caracterizando

    dimenso e medidas por atributos equivalentes.

    O LAP uma tecnologia de construo permite aos analistas de negcios, gerentes e executivos analisar e visualizar dados corporativos de forma rpida, consistente e principalmente interativa.

    A funcionalidade OLAP inicialmente caracterizada pela anlise dinmica e multidimensional dos dados consolidados de uma organizao permitindo que as atividades do usurio final sejam tanto analticas quanto navegacionais. Esta tecnologia geralmente implementada em ambiente multiusurio e cliente/servidor, oferecendo assim respostas rpidas s consultas adhocProf. Victor Dalton

    w w w . e s t r a t e g i a c o n c u r s o s . c o m . b r 46 de 83

  • EstratgiaC O N C U R S O S ^

    Tecnologia da Informao para ICMS/PE Auditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03(construo de listagens, interligando a informao disponvel na base de dados conforme as necessidades especificas da empresa, assim como a sua exportao, possibilitando vrias simulaes), no importando o tamanho do banco de dados nem sua complexidade. Essa tecnologia auxilia o usurio a sintetizar informaes corporativas por meio de vises comparativas e personalizadas, anlises histricas, projees e elaboraes de cenrios.

    F t b r u a r y

    For showmetne

    Product Compon TimeCatesories Ciot

    Bikes

    2007r c h

    S*! P ro fltA m o u n t Co-.t Marsm X

    MeasuresQual a margem de lucro para b ic ic le tas em fevere iro? Esse o tipo de pergunta que o OLAP vai responder, em

    uma busca m ultid im ensional no banco de dados (tempo, produto, margem de lucro)

    Aps este leve embasamento, podemos responder questo com tranquilidade. A lte rn a t iv a a).

    26a Questo) (FCC - T R T /1 1 a Reg io - A n a lis ta Ju d ic i r io - Tecno log ia da In fo rm ao - 2012 ) No mbito dos DWs e OLAP, o processo onde se faz a juno dos dados e transforma-se as colunas em linhas e as linhas em colunas, gerando dados cruzados, chamado de

    a) drill-across.b) star.c) cube.d) pivot.e) cross-join.

    Espero que voc lembre dessa!

    Juno de dados e rotao do cubo o c ro ss -jo in . feita para procurar enxergar os dados sob outra perspectiva.

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 47 de 83

  • Tecnologia da Informao para ICMS/PEAuditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03A lte rn a t iv a e).

    27a Questo) (C e sg ran r io - P e trob r s - A n a lis ta de S is tem a s J n io r - Engenharia de S o ftw a re - 2010 - adap tada) A modelagemmultidimensional uma tcnica de concepo e visualizao de um modelo de dados de um conjunto de medidas que descrevem aspectos comuns de negcios. Ela especialmente utilizada para sumarizar e reestruturar dados, de forma a apresent-los em vises que ajudem ao usurio analis-los para tomar decises relevantes e bem informadas para o processo de negcio sujacente. Qual das seguintes descries refere-se corretamente a uma propriedade da modelagem multidimensional?

    a) Quando o usurio realiza uma operao de drill down ou uma operao de roll up ou drill up, ele est navegando em uma ou mais hierarquias da tabela de dimenses, respectivamente aumentando e diminuindo a preciso usada para visualizao dos dados.

    b) No modelo dimensional, a tabela de fatos representa uma hierarquia dos dados, transaes ou eventos de negcio, sendo sempre implementada de forma completamente desnormalizada.

    c) O uso do modelo dimensional aproxima o armazenamento da forma de pensar do usurio final e, por isto, faz com que este aprenda a usar SQL de forma mais eficaz e eficiente.

    d) A tabela de dimenses apresenta vrios membros que representam valores diferentes dos fatos e que necessariamente esto organizados em uma hierarquia nica armazenada como uma rvore.

    e) A visualizao mais popular dos dados em modelos dimensionais feita atravs do desenho de um hipercubo de informao, cujas dimenses so normalizaes dos ndices das tabelas transacionais.

    E estilo da Cesgranrio "questes para pensar". Vamos responde-las com o conhecimento adquirido, exercitando um pouco a mente.

    a) Explicao perfeita. Certa !

    b) Desnormalizar a base de dados para facilitar a modelagem multidimensional um procedimento relativamente comum, para auxiliar a reduo dos tempos de busca de informao na base de dados. Agora, dizer que isso ocorre sempre errado;

    c) O comeo da sentena vlido, mas dizer que o usurio final vai aprender a usar SQL por causa disso chega a ser nonsense;

    Prof. Victor Daltonwww.estrategiaconcursos.com.br 48 de 83

  • EstratgiaC O N C U R S O S ^

    Tecnologia da Informao para ICMS/PE Auditor Fiscal do Tesouro Estadual

    Prof Victor Dalton - Aula 03d) Mais um comeo correto que termina totalmente errado;

    e) Outra frase que comea certa e termina falando nada com nada. As dimenses so apenas at