Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster...

Preview:

Citation preview

Mammutti vai elefantti?

Tänään tarjolla

• Arkkitehtuuri - baseline• Esittelyssä Elefantti ylhäältä ja alhaalta – teoriaa

ja kokemuksia• Elefantti vs. Mammutti • Kuka vie peliä – ja millä säännöillä• Meidän esimerkki• SAS + Hadoop

Tietoarkkitehtuuri - baseline

Kehittämisympäristöt BI-työkalut, liittymät

Tiedon louhinta, oivaltaminen, innovointi, analytiikka

Tapahtumadata,NoSQL/Hadoop

PalvelurajapintaRajapinta olemassaoleviin raportointivälineisiin, -palveluihin jne. Myös Data Virtualization/Federation.

Raportointi, analytiikka

Asiakastieto, tapahtumadata EDW

Strukturoimaton data, ulkoinen tietoStrukturoitu data, in-house data,

sovellukset, tietokannat1.

Landing area2.

3.

5.

6.

4.BIG DATA

Hadoop Ecosystem palapeli

• Alusta (framework) big data prosessoinnille

• Hadoop –alustan palveluissa

• ’ETL’ väline; shell komennoilla -> ohjelmiksi

• Runsaasti valmiskirjastoja: Streaming, SQL, GraphX, MLlib

• Core concept: RDD (Resilient Distributed Dataset)

Mikä Spark?

• Nopeasti kasvava käyttäjäkunta

• Distribuutioissa mukana; hyvin tuettu

• ’Rock star’ …

• Scala, Java, Python

Mikä Spark?

• Verrattuna esim. MapReduceen Spark SQL ja Sparkin DataFrame API nostavat abstraktiotaso huomattavasti (esim. rajaukset, liitokset, aggregointi) (vrt. SAS ja Python/Panda)

• Tulee ymmärtää miten operaatiot toimivat pohjimmiltaan (transactions ja actions)

Kokemuksia

• Rinnakkaistuuko ajo, ja miten siinä autetaan (esim. miten data on ositettu levylle)

• Alusta kehittyy huikeaa vauhtia

• Hyvin ja kattavien dokumentaatioiden rajallisuus

• Tunaamista, esim.: http://blog.cloudera.com/blog/2015/03/how-to-tune-your-

apache-spark-jobs-part-2/

Kokemuksia

Mammutti+

• Toimivaa, evolutiivisesti edennyttä teknologiaa

• Substanssista yksimielisyyttä (mallinnus, relaatiot, arkkitehtuurit)

• Osaajia

• Vaihtoehtoja

Mammutti-

• Tietovarasto perusjäykkä muutoksille

• Muutostyöt usein hitaita ja kalliita (self serviceBI ei vielä ihan tätä päivää)

• Aktiivisen tiedon ylläpito kallista

• Skaalautuvuus

Elefantti-

• Nousevia teknologioita; yksittäisten komponenttien dokumentointi, toimivuus, käyttäjätuki, yhteensopivuus

• Osaaminen

• Best practises

• Mihin junaan hypätä (minne ja kauan juna kulkee)

Elefantti+

• Nousevia teknologioita; kehitystyö nopeaa

• Laaja, aktiivinen käyttäjäkunta

• Runsaasti vaihtoehtoja

• Tehty skaalautuvaksi ja fault-tolerantiksi

• Mahdollistaja (jota EDW:llä ei voida tehdä; tiedon määrä, talletus, prosessointi, skaalautuvuus…)

Elefantti+

• Pilvipalveluista löytyy valmis(komponentti)ratkaisuja

• Pilvi/in-house/kombinaatio

• (Paas/Saas/Iaas)

Miten (ja miksi) verrata elefanttia ja

mammuttia(antikliimaksi)?• Eivät ole kilpailevia vaan toisiaan täydentäviä

• Elefanttiteknologiat lisäävät vaihtoehtojen määrää

• Käytetään tapauskohtaisesti

• Uber(isaatio…)• AirBnb• Verkkokaupat• Mediamyllerrys• Informaatiokupla (Filter

Bubble)• Crowdsourcing/talkoista

minen…

Samaan aikaan toisaalla(?) …

Mistä kumpuaa…

User Interface

Metadata

Data Access

DataProcessing

Hadoop

In-MemoryData Access

HivePig

Hadoop HDFS

SAS/ACCESS® to Hadoop

Pig

SAS® Data Integration Studio

SAS® Visual Analytics

SAS® Visual Statistics

SAS® Enterprise Miner

SAS ® Studio

SAS® Enterprise Guide

SAS ® Embedded Process

SAS® In-Memory Statistics

SAS SOLUTIONS IN HADOOP ECOSYSTEM

SAS® Data Loader

Hive / Impala / Spark

Source Systems

SAS ® Metadata

Source A Source B Source C

SAS ® LASR™ AnalyticServer

Source D

How does it work?

SASvAPP

SAS Data Loader (Web App)

SAS/Access to Hadoop

Hadoop Cluster

Hadoop Cluster Node

SAS Code Accelerator for Hadoop

SAS Data Quality Accelerator for Hadoop

SAS LASR In-Memory Analytic Server (Optional)

QueryFilterTransformDe-duplicate

ProfileCleanseJoinLoad

(Web Browser)

TextFiles

RDBMS

SAS

SAS Embedded Process

SASDS2code

SAS Embedded Process

Avarea Marketing Dashboard

Datasources Storage

-Historical data

Data Ingestion

-Real-time datapipelines

• Search Engine Marketing (SEM)• Social and Display Ads• Referrals, Social Engagement• Offline Ads• Search Engine Optimization (SEO)• Content Marketing• Email Marketing• Engineering as Marketing• Target Market Blogs• Business Development (Partnerships, Distribution)• Affiliate Programs• Internal Data (Business Applications, Sales, CRM..)

Delivery

-Dashboards-Advanced Analytics-Export (Applications, Marketing Automation etc)

Yhteenveto

http://www.avarea.fi/blog/(http://suomestapois.com)

Recommended