Target Reply - UNIMIBelearning.unimib.it/pluginfile.php/270225/mod_resource/content/1... · Realize a near-real time system for Change Data Capturing. ... Delineare lo scenario target

Target Reply

Esperienze Enterprise DWH & Hadoop

2

• Reply: breve introduzione

• BigData: Typical architectures

• Referenze e progetti

AGENDA

3




AGENDA

Il modello di business di Reply

Il modello di business di Reply si basa su una struttura a rete costituita da società controllate, specializzate per linee di offerta, che costituiscono centri di eccellenza in grado di posizionarsi come best in class nei rispettivi ambiti di competenza (Processi, Applicazioni, Tecnologie)

Questo modello coniuga la flessibilità, la specializzazione e il dinamismo tipici delle piccole strutture, con la capacità progettuale ed organizzativa di un'entità di grandi dimensioni

I principali fattori competitivi di Reply sono:

• riconoscimento da parte del mercato e dei clienti della qualità del

servizio offerto

• esperienza consolidata nel project management

• rapidità nel progettare, realizzare e mettere in produzione soluzioni

complesse

• flessibilità nell’adeguamento ai rapidi cambiamenti tecnologici

• innovazione

5

6

Reply in the world

7

Telco

Target Reply is the Reply

Group’s company

specialized in driving

customers to build

Business Intelligence,

Data Warehousing and

Big Data solutions.

Target Reply is composed

by 100 people skilled in

technologies, processes

and methodologies.

Since 2007 Target Reply has

been working with Italian and

foreign leader companies.

Target Reply operates with

experience within all major

industries.

Finance

EnergyManufacturing

Retail Media

Target Reply

8

Business

Analytics

360° View of Data

Data Governance

Master Data Management

Multidomain

Business

Intelligence

Data

Integration

Big

Data

Big Data Data Preparation & Intelligence Business Analytics

9

Main Skills

10




AGENDA

11

BigData what?

https://www.youtube.com/watch?v=RHu2qVMKh-U

https://www.youtube.com/watch?v=RHu2qVMKh-U

12

Technologies

Hadoop Distribution Data Discovery Tools

Scale-out databasesCloud and GIS Services

13

The core values of a Big Data architecture

A platform for all your data

Designed to store and

process data at

petabyte scale.

Scale-out architecture

increases capacity and

processing power

linearly.

Perform operations in

parallel across the

entire cluster.

Store data in any

format, free from rigid

schemas.

Define context at the

time you ask the

question.

Process and analyze

data using virtually

any programming

language.

Build out your cluster

on your hardware of

choice.

Open source software

guards against vendor

lock-in.

Works fine on cloud

or on premises as well.

Scalability1 Flexibility2 Economics3

14

Scalability

Hadoop ArchitectureTraditional Architecture

SHARED EVERYTHING SHARED NOTHING

Computing distributed –

Storage centralized

SAN/NAS data access latency

Inability to scale: I / O as a

bottleneck when volumes grow

The data is sent to the algorithm

Computing and Storage

distributed across multiple

nodes

Local disk, bus speed access

Distributed I / O, ability to scale

linearly by simply adding new

nodes.

The algorithm is sent to the data

Flexibility

Schema on Write

Schema on Read

Data

Analyse

Aggregate

NormalizeCleanse

Code

Extract Load Traditional DW

Data

Analyze

Data Mart

Data Mart

Transform

Load Analyze

16

Business Intelligence

Business

determines

questions to

be asked.

IT retrieves

data to

answer the

specific

question.

Big Data

IT delivers tools

to Business to

enable creative

data discovery.

Questions

arise out of

data.

Business Intelligence VS Big Data

17

Traditional Enterprise DWH Architecture

Data Source

ETL Data Warehouse Data Analysis

CRM

ERP

WEB

SITE

ST1

ST2

STn

STm

Staging DWH Data Mart

DWH

DM1

DMn

DMm

Extract

Transform

Load

ETL Process

AnalysisSources

18

Enterprise DWH Architecture + Hadoop

CRM

ERP

WEB

SITE

Extract

Load

Data Source

ELT Hadoop Data Analysis

ST1

ST2

STn

STm

Staging DWH Data Mart

DWH

DM1

DMn

DMm

ETL Process

ETL

19

Use case #1 Operational Efficiency

ETL Acceleration

EDW Optimization

Active Archive

Historical Compliance

20

Use case #2 Operational Efficiency

ETL Acceleration

EDW Optimization

Active Archive


Data

Warehouse Golden Data Layer

Extract

Transform

Load

DB

Sources

HADOOP Files

Historical Data Archive data

Unstructured Data

Traditional BI

Apps

21

Use case #3 Operational Efficency

ETL Acceleration

EDW Optimization

Active Archive


HADOOP

EnterpriseApplications

& WebSystems

DWH

Logs

Traditional BIApps

22




AGENDA

23

Key Facts Challenge

Solution

part of the Ervia group, is the newlyformed semi-state utility company ofIreland.

Its business comprises water and wastewater supply to domestic and non-domestic users.

Estimated customer portfolio for 2015:2M users.

Green-field project: realized setup andconfiguration of all the involved components(Oracle RDBMS 12, Oracle Golden Gate,Oracle Data Integrator, SAP BO, QlikView).

Implemented the DWH ETL process by usingthe interaction between ODI – OGG both forInitial Load and Daily jobs.

Built the security access rules using OracleVirtual Private Database.

Realized a set of front-end reports on SAP BOand QlikView.

Build an Enterprise Data Warehouse containing data from IW’score systems: Billing & Customer Care, Finance, ProjectManagement and Work and Assets.

Collect Business Users needs and provide them a PresentationLayer for realizing their analysis.

Realize a near-real time system for Change Data Capturing.

Build a Security Layer on the single database fields to handle datauser access.

Utilitiess: Data Warehouse Build

24

Key Facts Challenge

Solution

uno dei principali attori del settore utilities inEuropa con 147.400 dipendenti nel mondo eattività in 70 paesi.

Il portafoglio comprende attività diapprovvigionamento gas, produzione ecommercio di energia: termica, nucleare,biomasse ed energie rinnovabili.

Nel 2013 ha generato € 81.3 miliardi di entratenel mondo.

Assessment Tecnico/Funzionale sui sistemi di BI con evidenza delle aree di sofferenza e miglioramento.

Revisione del modello di Data Warehouse in ottica cliente centrico.

Revisione del layer di presentazione con cui nuove funzionalità di business.

Estensione del DWH con dati di: Billing, Customer Segmentation, CRM,Metering,CTI.

Introduzione architettura Ibrida BigData + DWH con implementazione DataLake su piattaforma Cloudera e porting Staging Area.

Introduzione del modello di Churn su tecnologia R.

Portare il servizio DWH a livelli di eccellenza aumentando il bacino di utenza.

Valutare lo stato attuale della piattaforma BI per interventi migliorativi:

1) Backend, migliorare le prestazioni del layer ETL-ODI per diminuire i tempi di fornitura dei dati.

2) FrontEnd, migliorare la fruibilità dei dati forniti dal lyer SAP-BO per gli utenti business.

Delineare lo scenario target per la BI, tra cui:

1) QuickWin Segmentation: iniziativa tattica di integrazione in DWH della segmentazione clienti:Customer BASE, Customer VALUE, Customer PROFITABILITY

2) Customer Analytics: iniziativa di integrazione in DWH delle tematiche di CRM per potenziare lecapacità di analisi dei Business Users sulla customer base aziendale.

Utilities: Evoluzione del Data Warehouse

25

DWH L2Credito Segmentation

BdM

Extraction & Dispatching OrganizationIntegrationIngestion

DWH L0

Source Systems Staging & DWH

Source DB’s DWH L1 DWH L2Staging Area

DWH

EAI

CRM

(Fox)

CRM

(Tiger)

Billing

(Net@)

Billing

(Sifa)

Billing

(Watt)

DWH L1


26

DWH L2

Credito Segmentation

Extraction & Dispatching Organization & PresentationIntegrationIngestion

DWH L0

Source Systems Staging & DWH

Source DB’s DWH L1 DWH L2Staging Area

DWH L1

EAI

CRM

(Fox)

CRM

(Tiger)

Billing

(Net@)

Billing

(Sifa)

Billing

(Watt)

MDM

CTI

BdM New Data Marts

DWH

Data Lake


27

A seguire i benefici apportati dall’adozione della tecnologia Hadoop:

Data Warehouse,

ETL Acceleration: Messa a terra dei calcoli effettuati da ODI nei flussi di alimentazione del

livello L1 del DWH (spostati su Hadoop)

Offloading / Hadoop Staging Area : i dati originali («raw»), i dati derivati da processi di

trasformazione e i dati storici (o «meno nobili») sono mantenuti e gestiti in Hadoop, in modo

da scaricare il golden layer (DWH e data mart)

Infrastruttura/Storage

Costi Storage & Licensing: riduzione dei costi infrastrutturali grazie all’utilizzo di hardware

non specializzato e software senza costi di licenza (solo subscription per supporto)

Active Archiving: i dati sono sempre accessibili, lo storico è sempre on-line. Il backup è

parte nativa della tecnologia – non è necessario backup storage ad alte prestazioni, avere

un datacenter su big data

Hardware Disomogeneo: Hadoop gestisce in maniera trasparente all’utente il deploy

software su macchine con configurazioni differenti (i.e. il datacenter può avere macchine

server – nodi del cluster – disomogenei senza impattare le prestazioni della soluzione)

Progettuale/Processo

Modello dati «on-read»: I dati sono accessibili nella loro forma originale o comunque senza

necessità di processi ETL a monte. I report SAP-BO possono essere collegati direttamente

ad Hadoop su dati massivi/destrutturati


28

Finance – Data Hub

Pains

• Critical response time for cross-

department incidents (up to 1 day)

• Post analysis is limited in time and

granularity of information

• Impossible to prevent cross-

departmental system overheads

Actions & Benefits• Full Cloudera Stack on a medium size

cluster

• Data collected in streaming with Flume

from source systems

• Unique data platform which collects

data and serves all different areas

• Correlation analysis on cross-functional

logs

Data

• 6 nodes

• 15 TBs data at rest

• 200 GB data ingested

each day

• 10 IT departments

29

Telco – Log Management

Pains

• Protect production environment

from dangerous accesses

• Provide data with a very low

latency

• Access and search data with

«natural language»

Actions & Benefits• Central repository system to bring

data out of critical production

systems

• Stream data from sources to

Cloudera

• Data indexed for very fast query

and low latency retrieving

Data

• 24 nodes

• More than 2500

source systems

• Weekly retention of

105 TB of data

30

Finance – Anti-Money Laundering

PainsPains Actions & Benefits• Data collected in streaming with

Flume from mainframe

• Integration of Cloudera Impala

and data discovery tools for

interactive analysis

• Deliver of dashboards

• Iterative analysis on customer

transactions based on the context

• Slow response time to business

users

• Data analysis for different

categories of users

Mainframe

Batch

Report & Dashboard

H

Q

L

• 4 nodes

• 1 TBs data at rest

• 1 GB data ingested

each day

Data

31

Media – Customer Behaviour Analysis

PainsPains

• Define KPIs on unstructured data

• Real-time analysis on

heterogeneous data and sources

• 10 nodes

• 30 TB (1 Year

Retention)

• 1 minute latency for

data availability

Actions & Benefits

• Data collected in streaming with

Flume from source systems

• Data provide to front-end without

any ETL processes

Data

Thanks

[email protected]

[email protected]

mailto:[email protected]

mailto:[email protected]

Documents

Target Reply - UNIMIBelearning.unimib.it/pluginfile.php/270225/mod_resource/content/1... · Realize a near-real time system for Change Data Capturing. ... Delineare lo scenario target