Upload
mark456789
View
11
Download
0
Embed Size (px)
DESCRIPTION
JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA
Citation preview
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
JAK SZYBKO PORADZIĆ SOBIE Z BIG DATA
CZYLI WIZUALIZACJA I ZAAWANSOWANA
ANALIZA DANYCH W OPARCIU O IN-MEMORY GRID
ADAM BARTOS, PIOTR BOROWIK SAS POLSKA
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
BIG DATA A ANALITYKA BIZNESOWA
RE
AK
TY
WN
A
PR
OA
KT
YW
NA
A
NA
LIT
YK
A
BIG DATA DUŻE
Alerty
OLAP
Raporty Ad Hoc
Standard
Reporty
Optymalizacja
Modele_Predykcyjne
Prognozowanie
Analizy Statystyczne
Analityka Tekstowa
WIELKOŚĆ DANYCH
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
CASE 1. ZARZĄDZANIE RYZYKIEM
• Transakcje międzybankowe
• Podejmowanie decyzji przez Brokerów wymaga analizy ryzyka w wielu wymiarach
• Wymaga uwzględnienia m.in. bieżących informacji (Reuters, Bloomberg)
Zagadnienie
• VaR
• Stress Testy
• Analizy scenariuszowe
• ……
Metody
• Efektywnie wyceniać portfele i identyfikować wpływ czynników rynkowych na wskaźniki ryzyka oraz przeprowadzać stres-testy w czasie rzeczywistym
Potrzeba
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
CASE 1. ZARZĄDZANIE RYZYKIEM
W WERSJI HIGH PERFORMANCE
Problem biznesowy Wielkość danych/analiza
Tradycyjne
podejście
Podejście
SAS HP
Wyliczenie PD • 1 miliard rekordów
• Analiza regresji
Od 11 do 20 godzin Krócej niż 54
sekundy
Wyliczenie ekspozycji na ryzyko
kredytowe dla całego Banku
• Dziesiątki milionów rekordów klienckich
• Analiza regresji
167 godzin (tydzień) 84 sekundy
Wykonanie stress testów na potrzeby
ryzyka kredytowego oraz wyliczenie
wartości narażonej na ryzyko VaR
• portfel 250 tysięcy pozycji
• 12 horyzontów czasowych
18 godzin 2 minuty 40
sekund
Wycena ad-hoc portfela instrumentów
finansowych
• 83 tysiące pozycji w instrumentach
pochodnych
• 100 tysięcy symulowanych stanów rynkowych
18 godzin Krócej niż 10
minut
Wycena portfela za pomocą zewnętrznej
biblioteki wycen FINCAD (obligacje, FX
forward, opcje walutowe, transakcje
wymiany walutowej swap, instrumenty
rynku pieniężnego)
• 200,000 symulacji
• 100,000 instrumentów
Kilkadziesiąt godzin
przeliczeń
Krócej niż 30
minut
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
CASE 2. OPTYMALIZACJA W MARKETINGU
• Optymalizacja działań marketingowych Zagadnienie
• Programowanie liniowe i całkowitoliczbowe Metody
• Decyzje co do najlepszego doboru kanału, oferty/kampanii, …
• Szybka analiza scenariuszy (zmieniające się ograniczeniach, kosztach, …)
Potrzeba
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
CASE 2. OPTYMALIZACJA W MARKETINGU
WERSJA HIGH PERMORMANCE
Single
Machine
SAS
High
Performance
Marketing
Optimization
15 mln klientów
900 ofert
10 kanałów
05:45:17
00:01:21
135 mld
decyzji
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
BIG DATA = NOWY SUROWIEC
BIG DATA = NEW DATA
• Social Media
• Voice of Customer
• Dane geolokalizacyjne
• Dane WWW, Clickstream
Potencjalne udoskonalone metody
• Oceny ryzyka aplikacyjnego
• Wyboru Next Best Offer
• Detekcji fraudów
• Analizy sentymentu
• ….
Wyzwania
• Więcej danych
• Wzrost liczby modeli analitycznych
• Mniej czasu na ich tworzenie i konserwację
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
POTRZEBA BARDZIEJ EFEKTYWNYCH PROCESÓW
W OBSZARZE ANALITYKI
EKSPLORACJA I
PRZYGOTOWANIE
DANYCH
BUDOWA
MODELI OCENA I UŻYCIE
PRODUKCYJNE
ANALITYCZNY
CYKL ŻYCIA
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
CASE 1. MODELOWANIE ANALITYCZNE
WERSJA HIGH-PERFORMANCE
• Model z jednym algorytmem – Sieć
Neuronowa
• Wykonanie 7 iteracji Sieci zajmuje ~5 hours
(ok. 1.4 iteracje na godzinę)
• Jeden analityk może stworzyć jeden model w
ciągu dnia
• Niska produktywność
• Model lift na poziomie 1.6%
• Model z wieloma algorytmami OPRÓCZ Sieci
(SVM, Regresja Logistic, …)
• Wykonanie węzła Sieci Neuronowej: 5000 iteracji
w 70 minut (ok. 71.4 iteracji na MINUTĘ)
• Jeden analityk może zbudować 10 modeli dziennie
(szacując ostrożnie 30 minut na model)
• Wysoka produktywność
• Model lift na poziomie 2.5%
High Performance Data Mining Standardowy Proces Data Mining
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Text Mining
• Parsing large-
scale text
collections
• Extract entities
• Auto. stemming
& synonym
detection
• Topic discovery
Predictive Analytics
& Data Mining
• Binary target &
continuous no.
predictions
• Linear & Non-
Linear modeling
• Complex
relationships
• Tree-based
Classification
Optimization
• Local search
optimization
• Large-scale
linear & mixed
integer
problems
Econometrics Time
Series
• Probability of an
event(s)
• Severity of
random
event(s)
WYBRANE METODY ANALITYCZNE
WERSJA HIGH PERFORMANCE
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
JAK BIG DATA WPŁYWA NA BI ?
• Świat raportów i dashboardów
• Monitorowanie efektywności
procesów
• Ustalone miary, KPI, alerty
• Ustalona ścieżka dla
informacji
• Odpowiedzi na
predefiniowane pytania
• Znane dane (nasze własne?)
• Świat analiz
• Pytania Ad-hoc
• Praca interaktywna
• Eksploracja wizualna
• Odkrywanie wiedzy przy
pomocy metod
analitycznych
• Nieznane, nowe dane
RAPORT
Co?
ODKRYCIE
Dlaczego? BI
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
“The Greatest Value Of A Picture
Is When It Forces Us To Notice
What We Never Expected To See.” John W. Tukey, Exploratory Data Analysis 1977
ZOBACZMY JAK TO DZIAŁA NA ŻYWO
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
KTO ZA TYM STOI ??
CZYLI TAJEMNICZY „IN-MEMORY GRID”
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
BEHIND THE
SCENES
BIG DATA ≠ BIG COSTS
…CZYLI „COMMODITY HARDWARE”
• POJEDYNCZY „BLADE” w architekturze Sandy Bridge
• 2 INTEL chips, każdy 8 rdzeni =16 rdzeni
• 32 niezależne wątki (hyperthreaded CPU)
• 256GB RAM w każdym
• 2x600GB HDD = 1,2 TB przestrzeni dyskowej
• CHASSIS z 8 serwerami BLADE
• 128 CPUs (256 niezależne wątki)
• 2 TB RAM
• Ok 5,4 TB przestrzeni dyskowej
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
BEHIND THE
SCENES
ARCHITEKTURA
Z SILNIKIEM ANALITYCZNYM IN-MEMORY
….
….
….
….
Compute Compute Compute Compute
MPI MPI MPI
DATA
ON
DISK
DATA
ON
DISK
DATA
ON
DISK
DATA
ON
DISK
SERWER ANALITYCZNY
IN-MEMORY
SAS Client Process
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
AHA…
A CO Z KLASYCZNYM BI?
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
IN-MEMORY BEZ GRID CZYLI
SAS® VISUAL ANALYTICS W WERSJI SMP
MOBILE BI EKSPLORACJA
DANYCH
RAPORTY I
DASHBOARDY
• Dostęp on-line i
off-line
• Współpraca
• Bezpieczeństwo
• Analizy Ad-hoc
• Wizualizacja danych
• Wizualizacja analityczna
• Raportowanie masowe
• OLAP
• KPI
• Alerty
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
PODSUMOWANIE
ANALITYKA A BIG DATA
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS IS A LEADER IN THE
FORRESTER BIG DATA PREDICTIVE ANALYTICS SOLUTIONS WAVE
The Forrester Wave™: Big Data Predictive Analytics Solutions, Q1 2013, Forrester Research, Inc., January 3, 2013.
The Forrester Wave is copyrighted by Forrester Research, Inc. Forrester and Forrester Wave are trademarks of Forrester Research, Inc. The Forrester Wave is a graphical representation
of Forrester's call on a market and is plotted using a detailed spreadsheet with exposed scores, weightings, and comments. Forrester does not endorse any vendor, product, or service
depicted in the Forrester Wave. Information is based on best available resources. Opinions reflect judgment at the time and are subject to change.
FORRESTER BIG DATA PREDICTIVE ANALYTICS SOLUTIONS WAVE
Copyr i g ht © 2012 , SAS Ins t i tu t e Inc . A l l r ights reser ve d . www.SAS.com
DZIĘKUJEMY ZA UWAGĘ