22
Mammutti vai elefantti?

Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

Mammutti vai elefantti?

Page 2: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

Tänään tarjolla

• Arkkitehtuuri - baseline• Esittelyssä Elefantti ylhäältä ja alhaalta – teoriaa

ja kokemuksia• Elefantti vs. Mammutti • Kuka vie peliä – ja millä säännöillä• Meidän esimerkki• SAS + Hadoop

Page 3: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

Tietoarkkitehtuuri - baseline

Kehittämisympäristöt BI-työkalut, liittymät

Tiedon louhinta, oivaltaminen, innovointi, analytiikka

Tapahtumadata,NoSQL/Hadoop

PalvelurajapintaRajapinta olemassaoleviin raportointivälineisiin, -palveluihin jne. Myös Data Virtualization/Federation.

Raportointi, analytiikka

Asiakastieto, tapahtumadata EDW

Strukturoimaton data, ulkoinen tietoStrukturoitu data, in-house data,

sovellukset, tietokannat1.

Landing area2.

3.

5.

6.

4.BIG DATA

Page 4: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

Hadoop Ecosystem palapeli

Page 5: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

• Alusta (framework) big data prosessoinnille

• Hadoop –alustan palveluissa

• ’ETL’ väline; shell komennoilla -> ohjelmiksi

• Runsaasti valmiskirjastoja: Streaming, SQL, GraphX, MLlib

• Core concept: RDD (Resilient Distributed Dataset)

Mikä Spark?

Page 6: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

• Nopeasti kasvava käyttäjäkunta

• Distribuutioissa mukana; hyvin tuettu

• ’Rock star’ …

• Scala, Java, Python

Mikä Spark?

Page 7: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

• Verrattuna esim. MapReduceen Spark SQL ja Sparkin DataFrame API nostavat abstraktiotaso huomattavasti (esim. rajaukset, liitokset, aggregointi) (vrt. SAS ja Python/Panda)

• Tulee ymmärtää miten operaatiot toimivat pohjimmiltaan (transactions ja actions)

Kokemuksia

Page 8: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

• Rinnakkaistuuko ajo, ja miten siinä autetaan (esim. miten data on ositettu levylle)

• Alusta kehittyy huikeaa vauhtia

• Hyvin ja kattavien dokumentaatioiden rajallisuus

• Tunaamista, esim.: http://blog.cloudera.com/blog/2015/03/how-to-tune-your-

apache-spark-jobs-part-2/

Kokemuksia

Page 9: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for
Page 10: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

Mammutti+

• Toimivaa, evolutiivisesti edennyttä teknologiaa

• Substanssista yksimielisyyttä (mallinnus, relaatiot, arkkitehtuurit)

• Osaajia

• Vaihtoehtoja

Page 11: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

Mammutti-

• Tietovarasto perusjäykkä muutoksille

• Muutostyöt usein hitaita ja kalliita (self serviceBI ei vielä ihan tätä päivää)

• Aktiivisen tiedon ylläpito kallista

• Skaalautuvuus

Page 12: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

Elefantti-

• Nousevia teknologioita; yksittäisten komponenttien dokumentointi, toimivuus, käyttäjätuki, yhteensopivuus

• Osaaminen

• Best practises

• Mihin junaan hypätä (minne ja kauan juna kulkee)

Page 13: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

Elefantti+

• Nousevia teknologioita; kehitystyö nopeaa

• Laaja, aktiivinen käyttäjäkunta

• Runsaasti vaihtoehtoja

• Tehty skaalautuvaksi ja fault-tolerantiksi

• Mahdollistaja (jota EDW:llä ei voida tehdä; tiedon määrä, talletus, prosessointi, skaalautuvuus…)

Page 14: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

Elefantti+

• Pilvipalveluista löytyy valmis(komponentti)ratkaisuja

• Pilvi/in-house/kombinaatio

• (Paas/Saas/Iaas)

Page 15: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

Miten (ja miksi) verrata elefanttia ja

mammuttia(antikliimaksi)?• Eivät ole kilpailevia vaan toisiaan täydentäviä

• Elefanttiteknologiat lisäävät vaihtoehtojen määrää

• Käytetään tapauskohtaisesti

Page 16: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

• Uber(isaatio…)• AirBnb• Verkkokaupat• Mediamyllerrys• Informaatiokupla (Filter

Bubble)• Crowdsourcing/talkoista

minen…

Samaan aikaan toisaalla(?) …

Page 17: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

Mistä kumpuaa…

Page 18: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

User Interface

Metadata

Data Access

DataProcessing

Hadoop

In-MemoryData Access

HivePig

Hadoop HDFS

SAS/ACCESS® to Hadoop

Pig

SAS® Data Integration Studio

SAS® Visual Analytics

SAS® Visual Statistics

SAS® Enterprise Miner

SAS ® Studio

SAS® Enterprise Guide

SAS ® Embedded Process

SAS® In-Memory Statistics

SAS SOLUTIONS IN HADOOP ECOSYSTEM

SAS® Data Loader

Hive / Impala / Spark

Source Systems

SAS ® Metadata

Source A Source B Source C

SAS ® LASR™ AnalyticServer

Source D

Page 19: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

How does it work?

SASvAPP

SAS Data Loader (Web App)

SAS/Access to Hadoop

Hadoop Cluster

Hadoop Cluster Node

SAS Code Accelerator for Hadoop

SAS Data Quality Accelerator for Hadoop

SAS LASR In-Memory Analytic Server (Optional)

QueryFilterTransformDe-duplicate

ProfileCleanseJoinLoad

(Web Browser)

TextFiles

RDBMS

SAS

SAS Embedded Process

SASDS2code

SAS Embedded Process

Page 20: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

Avarea Marketing Dashboard

Datasources Storage

-Historical data

Data Ingestion

-Real-time datapipelines

• Search Engine Marketing (SEM)• Social and Display Ads• Referrals, Social Engagement• Offline Ads• Search Engine Optimization (SEO)• Content Marketing• Email Marketing• Engineering as Marketing• Target Market Blogs• Business Development (Partnerships, Distribution)• Affiliate Programs• Internal Data (Business Applications, Sales, CRM..)

Delivery

-Dashboards-Advanced Analytics-Export (Applications, Marketing Automation etc)

Page 21: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for

Yhteenveto

http://www.avarea.fi/blog/(http://suomestapois.com)

Page 22: Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster Hadoop Cluster Node SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for