20
Copyright © 2012, SAS Institute Inc. All rights reserved. JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA CZYLI WIZUALIZACJA I ZAAWANSOWANA ANALIZA DANYCH W OPARCIU O IN-MEMORY GRID ADAM BARTOS, PIOTR BOROWIK SAS POLSKA

JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Embed Size (px)

DESCRIPTION

JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA

Citation preview

Page 1: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA

CZYLI WIZUALIZACJA I ZAAWANSOWANA

ANALIZA DANYCH W OPARCIU O IN-MEMORY GRID

ADAM BARTOS, PIOTR BOROWIK SAS POLSKA

Page 2: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

BIG DATA A ANALITYKA BIZNESOWA

RE

AK

TY

WN

A

PR

OA

KT

YW

NA

A

NA

LIT

YK

A

BIG DATA DUŻE

Alerty

OLAP

Raporty Ad Hoc

Standard

Reporty

Optymalizacja

Modele_Predykcyjne

Prognozowanie

Analizy Statystyczne

Analityka Tekstowa

WIELKOŚĆ DANYCH

Page 3: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

CASE 1. ZARZĄDZANIE RYZYKIEM

• Transakcje międzybankowe

• Podejmowanie decyzji przez Brokerów wymaga analizy ryzyka w wielu wymiarach

• Wymaga uwzględnienia m.in. bieżących informacji (Reuters, Bloomberg)

Zagadnienie

• VaR

• Stress Testy

• Analizy scenariuszowe

• ……

Metody

• Efektywnie wyceniać portfele i identyfikować wpływ czynników rynkowych na wskaźniki ryzyka oraz przeprowadzać stres-testy w czasie rzeczywistym

Potrzeba

Page 4: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

CASE 1. ZARZĄDZANIE RYZYKIEM

W WERSJI HIGH PERFORMANCE

Problem biznesowy Wielkość danych/analiza

Tradycyjne

podejście

Podejście

SAS HP

Wyliczenie PD • 1 miliard rekordów

• Analiza regresji

Od 11 do 20 godzin Krócej niż 54

sekundy

Wyliczenie ekspozycji na ryzyko

kredytowe dla całego Banku

• Dziesiątki milionów rekordów klienckich

• Analiza regresji

167 godzin (tydzień) 84 sekundy

Wykonanie stress testów na potrzeby

ryzyka kredytowego oraz wyliczenie

wartości narażonej na ryzyko VaR

• portfel 250 tysięcy pozycji

• 12 horyzontów czasowych

18 godzin 2 minuty 40

sekund

Wycena ad-hoc portfela instrumentów

finansowych

• 83 tysiące pozycji w instrumentach

pochodnych

• 100 tysięcy symulowanych stanów rynkowych

18 godzin Krócej niż 10

minut

Wycena portfela za pomocą zewnętrznej

biblioteki wycen FINCAD (obligacje, FX

forward, opcje walutowe, transakcje

wymiany walutowej swap, instrumenty

rynku pieniężnego)

• 200,000 symulacji

• 100,000 instrumentów

Kilkadziesiąt godzin

przeliczeń

Krócej niż 30

minut

Page 5: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

CASE 2. OPTYMALIZACJA W MARKETINGU

• Optymalizacja działań marketingowych Zagadnienie

• Programowanie liniowe i całkowitoliczbowe Metody

• Decyzje co do najlepszego doboru kanału, oferty/kampanii, …

• Szybka analiza scenariuszy (zmieniające się ograniczeniach, kosztach, …)

Potrzeba

Page 6: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

CASE 2. OPTYMALIZACJA W MARKETINGU

WERSJA HIGH PERMORMANCE

Single

Machine

SAS

High

Performance

Marketing

Optimization

15 mln klientów

900 ofert

10 kanałów

05:45:17

00:01:21

135 mld

decyzji

Page 7: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

BIG DATA = NOWY SUROWIEC

BIG DATA = NEW DATA

• Social Media

• Voice of Customer

• Dane geolokalizacyjne

• Dane WWW, Clickstream

Potencjalne udoskonalone metody

• Oceny ryzyka aplikacyjnego

• Wyboru Next Best Offer

• Detekcji fraudów

• Analizy sentymentu

• ….

Wyzwania

• Więcej danych

• Wzrost liczby modeli analitycznych

• Mniej czasu na ich tworzenie i konserwację

Page 8: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

POTRZEBA BARDZIEJ EFEKTYWNYCH PROCESÓW

W OBSZARZE ANALITYKI

EKSPLORACJA I

PRZYGOTOWANIE

DANYCH

BUDOWA

MODELI OCENA I UŻYCIE

PRODUKCYJNE

ANALITYCZNY

CYKL ŻYCIA

Page 9: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

CASE 1. MODELOWANIE ANALITYCZNE

WERSJA HIGH-PERFORMANCE

• Model z jednym algorytmem – Sieć

Neuronowa

• Wykonanie 7 iteracji Sieci zajmuje ~5 hours

(ok. 1.4 iteracje na godzinę)

• Jeden analityk może stworzyć jeden model w

ciągu dnia

• Niska produktywność

• Model lift na poziomie 1.6%

• Model z wieloma algorytmami OPRÓCZ Sieci

(SVM, Regresja Logistic, …)

• Wykonanie węzła Sieci Neuronowej: 5000 iteracji

w 70 minut (ok. 71.4 iteracji na MINUTĘ)

• Jeden analityk może zbudować 10 modeli dziennie

(szacując ostrożnie 30 minut na model)

• Wysoka produktywność

• Model lift na poziomie 2.5%

High Performance Data Mining Standardowy Proces Data Mining

Page 10: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Text Mining

• Parsing large-

scale text

collections

• Extract entities

• Auto. stemming

& synonym

detection

• Topic discovery

Predictive Analytics

& Data Mining

• Binary target &

continuous no.

predictions

• Linear & Non-

Linear modeling

• Complex

relationships

• Tree-based

Classification

Optimization

• Local search

optimization

• Large-scale

linear & mixed

integer

problems

Econometrics Time

Series

• Probability of an

event(s)

• Severity of

random

event(s)

WYBRANE METODY ANALITYCZNE

WERSJA HIGH PERFORMANCE

Page 11: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

JAK BIG DATA WPŁYWA NA BI ?

• Świat raportów i dashboardów

• Monitorowanie efektywności

procesów

• Ustalone miary, KPI, alerty

• Ustalona ścieżka dla

informacji

• Odpowiedzi na

predefiniowane pytania

• Znane dane (nasze własne?)

• Świat analiz

• Pytania Ad-hoc

• Praca interaktywna

• Eksploracja wizualna

• Odkrywanie wiedzy przy

pomocy metod

analitycznych

• Nieznane, nowe dane

RAPORT

Co?

ODKRYCIE

Dlaczego? BI

Page 12: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

“The Greatest Value Of A Picture

Is When It Forces Us To Notice

What We Never Expected To See.” John W. Tukey, Exploratory Data Analysis 1977

ZOBACZMY JAK TO DZIAŁA NA ŻYWO

Page 13: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

KTO ZA TYM STOI ??

CZYLI TAJEMNICZY „IN-MEMORY GRID”

Page 14: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

BEHIND THE

SCENES

BIG DATA ≠ BIG COSTS

…CZYLI „COMMODITY HARDWARE”

• POJEDYNCZY „BLADE” w architekturze Sandy Bridge

• 2 INTEL chips, każdy 8 rdzeni =16 rdzeni

• 32 niezależne wątki (hyperthreaded CPU)

• 256GB RAM w każdym

• 2x600GB HDD = 1,2 TB przestrzeni dyskowej

• CHASSIS z 8 serwerami BLADE

• 128 CPUs (256 niezależne wątki)

• 2 TB RAM

• Ok 5,4 TB przestrzeni dyskowej

Page 15: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

BEHIND THE

SCENES

ARCHITEKTURA

Z SILNIKIEM ANALITYCZNYM IN-MEMORY

….

….

….

….

Compute Compute Compute Compute

MPI MPI MPI

DATA

ON

DISK

DATA

ON

DISK

DATA

ON

DISK

DATA

ON

DISK

SERWER ANALITYCZNY

IN-MEMORY

SAS Client Process

Page 16: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

AHA…

A CO Z KLASYCZNYM BI?

Page 17: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

IN-MEMORY BEZ GRID CZYLI

SAS® VISUAL ANALYTICS W WERSJI SMP

MOBILE BI EKSPLORACJA

DANYCH

RAPORTY I

DASHBOARDY

• Dostęp on-line i

off-line

• Współpraca

• Bezpieczeństwo

• Analizy Ad-hoc

• Wizualizacja danych

• Wizualizacja analityczna

• Raportowanie masowe

• OLAP

• KPI

• Alerty

Page 18: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

PODSUMOWANIE

ANALITYKA A BIG DATA

Page 19: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS IS A LEADER IN THE

FORRESTER BIG DATA PREDICTIVE ANALYTICS SOLUTIONS WAVE

The Forrester Wave™: Big Data Predictive Analytics Solutions, Q1 2013, Forrester Research, Inc., January 3, 2013.

The Forrester Wave is copyrighted by Forrester Research, Inc. Forrester and Forrester Wave are trademarks of Forrester Research, Inc. The Forrester Wave is a graphical representation

of Forrester's call on a market and is plotted using a detailed spreadsheet with exposed scores, weightings, and comments. Forrester does not endorse any vendor, product, or service

depicted in the Forrester Wave. Information is based on best available resources. Opinions reflect judgment at the time and are subject to change.

FORRESTER BIG DATA PREDICTIVE ANALYTICS SOLUTIONS WAVE

Page 20: JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA Adam Bartos Piotr Borowik

Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d . www.SAS.com

DZIĘKUJEMY ZA UWAGĘ