51
Leni Veiga SINDIRECEITA SINDIRECEITA Simpósio São Paulo - 11 e 12/11/2017 Simpósio São Paulo - 11 e 12/11/2017 RECEITA DATA RECEITA DATA A evolução do ambiente analítico para tomada de decisões na RFB

Simp sio SINDIRECEITA 2017 01sindireceita-sp.org.br/arquivos/2017-11-11_Leni-Inovacao-AnaliseDados... · Leni Veiga SINDIRECEITA Simpósio São Paulo - 11 e 12/11/2017 RECEITA DATA

  • Upload
    phamdat

  • View
    213

  • Download
    0

Embed Size (px)

Citation preview

Leni Veiga

SINDIRECEITASINDIRECEITA

Simpósio São Paulo - 11 e 12/11/2017Simpósio São Paulo - 11 e 12/11/2017

RECEITA DATARECEITA DATAA evolução do ambiente analítico para tomada de decisões na RFB

PautaPauta• A Receita Federal do Brasil e a Gestão de TI na Receita Federal

• A captação de dados na Receita Federal

• O início do DW na RFB (o problema a ser resolvido)

• A arquitetura Atual e o tamanho do DW Corporativo RFB

• A utilização do DW na RFB (ações investigativas e gestão)

• Problemas e Desafios

• Capacidades analíticas e perfis de usuários na RFB

• Objetivos e metas

• Arquitetura de Referência BI RFB

• O Receita Data

• Ferramentas do Receita Data

• Resultados obtidos e premiação Receita Data

• BI - Arquitetura Atual e processos de trabalho

• Futuro - Arquitetura de Referência

• Dados disponíveis e ferramentas

• Processo de Negócio Ambiente Analítico

Receita Federal é 1º lugar em Governança de TI na categoria “Órgão Executivo – Administração Direta”

Gestão de TI na RFBGestão de TI na RFB

Relatório do Tribunal de Contas da União (TCU), que avaliou a situação da governança de tecnologia da informação (TI) na Administração Pública Federal

Gestão corporativa, tabelas corporativas, definição de ferramentas e padrões, governança de dados com estrutura corporativa, treinamentos, suporte a usuários.

Centro de Informações BI RFB

Acompanhamento das solicitações de novos temas, participação na especificação e manutenção evolutiva dos temas, suporte a usuários.

Analista de Negócios

Solicitação de novos temas atômicos, agregados e integradores, especificação e manutenção evolutiva, gestão dos temas, construção de relatórios e Dashboards, treinamentos, suporte a usuários.

Área Usuária

Gestão BI na RFBGestão BI na RFB

Início do DW na RFBInício do DW na RFB

• Existência de várias plataformas de hardware e software e de centenas de diferentes sistemas transacionais;

• Diversas áreas com diversos sistemas analíticos e a necessidade de uma visão abrangente e integrada das informações para apoio ao processo decisório;

• Grande dificuldade na recuperação de dados históricos.

Problema a ser resolvidoProblema a ser resolvido

• 35 projetos (temas) de negócio em produção;

• Ambiente único, exclusivo, integrado e rastreável;

• Portal Corporativo na intranet, com suporte e fórum;

• Mais de 2,2 milhões de relatórios executados em 2016;

• Média de 200 mil relatórios executados por mês em 2017;

• Mais de 7 mil usuários cadastrados;

DW Corporativo RFBDW Corporativo RFB

Utilização do DW na RFBUtilização do DW na RFB

• Acompanhamento, análise e previsão de arrecadação;

• Seleção para fiscalização interna e aduaneira;

• Controle internos (RH, TI e patrimônio);

• Estudos Tributários;

• Gestão de Processos Administrativos Tributários;

• Gestão do atendimento ao contribuinte;

• Auditoria de procedimentos internos e externos;

• Análise de informações para combate a fraudes.

Função investigativa e gestãoFunção investigativa e gestão

Central de GestãoCentral de Gestão

Central de GestãoCentral de Gestão

Central de GestãoCentral de Gestão

Arquitetura Atual DW RFB Arquitetura Atual DW RFB Capacidades Analíticas

Data Warehouse

Sistemas Transacionais

ETL

Mostra diversos relatórios feitos

Camada Semântica

Dashboards RelatóriosOLAP

Fontes de Dados

Funções e perfis

Consumidores de Informação

Analistas de Informação

Cientistas de Dados

7000 Usuários35 Projetos50 Tb

Arquitetura Atual DW RFB Arquitetura Atual DW RFB Capacidades Analíticas

Data Warehouse

Sistemas Transacionais

ETL

Mostra diversos relatórios feitos

Camada Semântica

Dashboards RelatóriosOLAP

Fontes de Dados

Funções e perfis

Consumidores de Informação

Analistas de Informação

Cientistas de Dados

7000 Usuários35 Projetos50 Tb

Tenho muito trabalho e poucos recursos.

Preciso priorizar minhas atividades.

Preciso de mais detalhes sobre os

dados. Estou tendo muito trabalho e poucos recursos.

Não consigo cruzar Informações entre

temas. Contrução de novos temas

demandam muito tempo e esforço.

Conjunto de temas centralizado e de difícil acesso

Usuários precisam “dar seu jeito” para superar as dificuldades e conseguir explorar os dados

Problemas e DesafiosProblemas e Desafios

Problemas• Ambiente (hardware) obsoleto• Dados agregados em alguns temas• Performance e disponibilidade do ambiente• Demora na disponibilização da informação• Junção entre temas.

Desafios• Modernização do ambiente• Novas ferramentas e novas capacidades analíticas• Dados atômicos e rapidamente disponíveis

SPED - HCAP

Agregações

Base Temporária BI RFB

NF-e

EFD IPI/ICMS

Contribuinte

Problemas e DesafiosProblemas e Desafios

Atendimento às diversas capacidades analíticas

Fonte: Gartner

Objetivos e MetasObjetivos e Metas

Atendimento aos diversos perfis analíticos, de acordo com as capacidade analíticas existentes na organização

Objetivos e MetasObjetivos e Metas

Objetivos e MetasObjetivos e Metas

• Tecnologia para Big Data (Hardware e Software);

• Dado atômico, carga diária ou próxima ao tempo real;

• Não descartar dados após período de tempo;

• Self-Service BI (flexibilidade, agilidade e autonomia dos usuários);

• Possibilitar o acesso dos sistemas transacionais;

• Atendimento das diversas capacidades analíticas

Função da TI:

• Prover infraestrutura e solução tecnológica

• Governança de dados e suporte ao usuário

Arquitetura de Referência BI RFBArquitetura de Referência BI RFB

Grande Porte

Sief

Dataprev

Sistemas Fonte

SPED - HCAP

Data Warehouse

Sandbox

Data Lake

Receita DataReceita Data

Receita DataReceita Data

Data Warehouse

SP

ED

E S

IST

EM

AS

TR

AN

SA

CIO

NA

IS50 Terabytes

Data Lake

Sandbox

Execução de SQL

UPLOAD

Base TransacionalWebServices

API

�SPED •eFinanceiras•EFD IPI/ICMS•EFD Contribuições•NFe

Réplicas Sistemas Transacionais

Outros Dados

200TB para os Usuários DL

200 TB para o ContÁgil

1 Petabyte

280 Terabytes

80 TB para o ContÁgil

Receita DataReceita Data

Agregações

ETL

Receita DataReceita Data

Receita DataReceita Data

FerramentasFerramentasData Warehouse

Dashboards

Relatórios

OLAP

Fon

tes

de

Dad

os

OLAP

•Capacidade Descritiva (Relatórios predefinidos)•Capacidade de Diagnóstico (OLAP)

Analytics Visual Insight

Data Lake

Dados de Negócios

Obrigações Acessórias

Sandbox

Dados de usuários

Resultados Intermediários

Análises FinaisData Discovery

Data Warehouse

FerramentasFerramentasFo

nte

s d

e D

ado

s

•Capacidade Descritiva ( Painéis predefinidos)•Capacidade de Diagnóstico

Indexação

Obs: Indexações precisam ser criadas pelo Especialista de TI

Data Lake

Dados de Negócios

Obrigações Acessórias

FerramentasFerramentasFo

nte

s d

e D

ado

s

•Capacidade de Diagnóstico

Execução tipo SQL

Preparação de Dados

Data Lake

Dados de Negócios

Obrigações Acessórias

Sandbox

Dados de usuários

Resultados Intermediários

Análises Finais

FerramentasFerramentasFo

nte

s d

e D

ado

s

•Capacidade de Diagnóstico

Execução de SQL Preparação de Dados

Relatórios

Análises Avançadas

Simulação

Rede de Relacionamento

Data Lake

Dados de Negócios

Obrigações Acessórias

Sandbox

Dados de usuários

Resultados Intermediários

Análises Finais

FerramentasFerramentasFo

nte

s d

e D

ado

s

•Capacidade de Diagnostico•Capacidade Preditiva

Execução de SQL Preparação de Dados

Relatórios

Análises Avançadas

Simulação

Data Lake

Dados de Negócios

Obrigações Acessórias

Sandbox

Dados de usuários

Resultados Intermediários

Análises Finais

FerramentasFerramentasFo

nte

s d

e D

ado

s•Capacidade de Diagnostico•Capacidade Preditiva

ContÁgil

Relatórios OLAP

Rede de Relacionamento

Execução de SQL

Preparação de Dados

Data Lake

Dados de Negócios

Obrigações Acessórias

Sandbox

Dados de usuários

Resultados Intermediários

Análises Finais

Data Warehouse

FerramentasFerramentasFo

nte

s d

e D

ado

s

•Capacidade de Diagnóstico•Capacidade Preditiva

ContÁgil

Mais de 270 funcionalidades

Mais de 500 scripts compartilhadospelos Usuários

SISAM / ANIITA

Projeto Farol

Receita Data e ContÁgilReceita Data e ContÁgil

IntegraçãoR, WEKA, Neo4J

Possibilidade de acesso ao inteiro teor dos dados do SPED, DW, dados cadastrais, entre outros. Sem restrições.

Exemplos:

ECF149 tipos diferentes de registros153 referências a tabelas de domínio134 relações hierárquicas entre registros995 colunasbilhões de linhas

EFD Contribuições142 tipos diferentes de registros477 referências a tabelas de domínio143 relações hierárquicas entre registros2480 colunasbilhões de linhas

Receita Data e ContÁgilReceita Data e ContÁgilGrandes Tabelas de DadosGrandes Tabelas de Dados

Fonte: ContÁgil

Análise 1: Todas as empresas na situação ativa, com responsável legal com mais de 20 anos na data de abertura, CPF criado a menos de 2 anos da data de abertura e apresentando UF da empresa ≠ UF da residência do responsável.

Acesso aos dados com uso de extratores (sem uso do Receita Data)

Tempo médio gasto na extração de dados cadastrais + QSA de 1 CNPJ : 4 segundos

Quantidade de empresas ativas no Brasil: 18.826.111 (no PR: 1.249.940)

Tempo estimado apenas para baixar dados de CNPJ por meio de extratores: 57 dias (para 1.249.940 empresas do PR)

Receita Data e ContÁgilReceita Data e ContÁgilComparação na forma de acesso aos dadosComparação na forma de acesso aos dados

Tempo total da realização da consulta (já com resultado final) : 34 segundos

Resultado: 23.947 empresas

OBS: consulta realizada sobre a totalidade das empresas ativas (Brasil: 18.826.111)

Consulta com acesso aos dados diretamente na base (com Receita Data)

Fonte: ContÁgil

Receita Data e ContÁgilReceita Data e ContÁgilComparação na forma de acesso aos dadosComparação na forma de acesso aos dados

Análise 3: Despesas Médicas Suspeitas. Em todas as DIRPF do país, identificar todos os casos onde duas pessoas declararam despesas médicas para um mínimo de 6 prestadores em comum.

Qtd. Declarações analisadas (2016): 27 milhões

Grafo de relacionamentos nacional de declarantes de despesasmédicas e médicos:

5.318.043 pessoas10.635.165 relacionamentos

Duração da análise: 1 hora e 20 minutos

OBS: mais de 100 pares de pessoas declarando um mínimo de 11 médicos/hospitais em comum.

Fonte: ContÁgil

Receita Data e ContÁgilReceita Data e ContÁgilComparação na forma de acesso aos dadosComparação na forma de acesso aos dados

Análise 4: Todos os estabelecimentos de empresas diferentes que constam no mesmo endereço (por similaridade de palavras no logradouro, combinado com CEP, número e complemento).

Duração da análise: 2 minutos.

Fonte: ContÁgil

Receita Data e ContÁgilReceita Data e ContÁgilComparação na forma de acesso aos dadosComparação na forma de acesso aos dados

Análise 5: Empresários individuais possivelmente noteiras

Empresários individuais e empresas individuais de responsabilidade LTDA que movimentaram grande número de notas fiscais ou valores expressivos para apenas um destinatário.

Duração da análise: 3 minutos.

Fonte: ContÁgil

Receita Data e ContÁgilReceita Data e ContÁgilComparação na forma de acesso aos dadosComparação na forma de acesso aos dados

Análise 5: Empresas ativas com sócios mortos

Todas as empresas ativas que apresentam no quadro societário ativo sócios com óbito.

Duração da análise: 20 segundos

Fonte: ContÁgil

1) Através de consultas pelo Modelo Analítico Dinâmico

Receita Data e ContÁgilReceita Data e ContÁgilFormas de utilização pelo ContÁgilFormas de utilização pelo ContÁgil

2) Através de grafos de relacionamentos e grafos-consultas

3) Através de scripts

Fonte: ContÁgil

Transacional Analítico

Data WarehouseVERWeb ServicesData MiningData DiscoveryData Recovery....

Novo ProcessoNovo Processo

Receita DataReceita Data

Case de Sucesso IT4CIO 2017Case de Sucesso IT4CIO 2017

100+ Inovadoras no Uso de TI100+ Inovadoras no Uso de TI

09/11/2017 - Projeto Receita Data é premiado na categoria Setor Público.

ObrigadaObrigada

[email protected]