Spark Summit EU talk by Bas Geerdink

Lambda Architecture in the IoTFast Data Analytics with Spark Streaming and MLlib

Bas GeerdinkING

Bas Geerdink

• Chapter Lead in Analytics area at ING

• Master degree in Artificial Intelligence and

Informatics

• Spark Certified Developer

• @bgeerdink

• https://www.linkedin.com/in/geerdink

Who am I?

The Internet of …

• Data

– Streaming data from more sources

• Use cases

– Combining data streams

• Technology

– Fast processing and scalability

• Challenges

– Security: encrypt the sensors/network/server

What’s new in the IoT?

What do we want in the IoT?

• FAST data: process stream of events (sensory data)

• BIG data: process files/tables in batches (static data)

• ONE analytics engine

• ONE querying/visualization tool

• Scalable environment

• Reactive software

Lambda Architecture

Source: Nathan Marz (2013)

Gamma/Kappa/Omega/…

Architecture• Lambda Criticism:

– Too complex

– Two code bases

– Two data stores

• Alternatives:– Treat a stream as a mini-batch

– Treat a batch as a stream of records

– Combine batch and stream within one system

Big Data Reference Architecture

Source: Geerdink (2013)

Use case: Smart Parking

Recommend the best car park when driving to Amsterdam

Show the car park with the highest score, determined by

• Batch (every x minutes), data from car parks

• Stream (every x seconds), GPS data of cars

Stream Process

• Get car events (GPS data)

• Filter events (business rules)

• Store events

• For each car park in the neighborhood:

– Get feature set (location, capacity, usage, …)

– Combine event with previous events (running sum)

– Update feature set

– Predict score (machine learning) and update database

Batch Process

• Get car park data

• Clean up (remove old car data)

• For each car park in the data set:

– Get recent set of car data (running sum)

– Update feature set

– Predict score (machine learning) and update database

Lambda Architecture

updates

Message

Broker

Analytics

Engine

System

Capacity

updates

Data Science

Environment

Machine learning models

Business Rules

Environment

Scores

Stream

features

Predict

Business rules

Features

Selection

APIFront-end

Data Scientist

Lambda Architecture

updates

Message

Broker

Analytics

Engine

System

Capacity

updates

Data Science

Environment

Business Rules

Environment

Scores

Stream

features

Predict

Business rules

Features

Selection

APIFront-end

Data Scientist

Lambda Architecture

updates

Message

Broker

Analytics

Engine

System

Capacity

updates

Data Science

Environment

Business Rules

Environment

Scores

Stream

features

Predict

Business rules

Features

Selection

APIFront-end

Data Scientist

Event Processing with Kafka

Lambda Architecture

updates

Message

Broker

Analytics

Engine

System

Capacity

updates

Data Science

Environment

Business Rules

Environment

Scores

Stream

features

Predict

Business rules

Features

Selection

APIFront-end

Data Scientist

Stream: Data Preparation

Lambda Architecture

updates

Message

Broker

Analytics

Engine

System

Capacity

updates

Data Science

Environment

Business Rules

Environment

Scores

Stream

features

Predict

Business rules

Features

Selection

APIFront-end

Data Scientist

Stream: Create Recommendation

Lambda Architecture

updates

Message

Broker

Analytics

Engine

System

Capacity

updates

Data Science

Environment

Business Rules

Environment

Scores

Stream

features

Predict

Business rules

Features

Selection

APIFront-end

Data Scientist

Batch Processing

Lambda Architecture

updates

Message

Broker

Analytics

Engine

System

Capacity

updates

Data Science

Environment

Business Rules

Environment

Scores

Stream

features

Predict

Business rules

Features

Selection

APIFront-end

Data Scientist

Data Science with Zeppelin

Summary

• The IoT requires new architecture principles: in-memory,

distributed, reactive and scalable are the new normal

• Lambda/Kappa/Omega reference architectures are

designed for combining batch and streaming data flows

• Open source tooling such as Kafka, Cassandra, and

Spark adhere to these principles and design patterns

THANK YOU!ING is hiring

#SparkSummit

Spark Summit EU talk by Bas Geerdink

Data & Analytics

Spark Summit 2015 参加報告

Cisco Spark Room Kit シリーズ概要（At-a-Glance） Spark Room Kit シリーズ • Cisco Spark Room Kit • Cisco Spark Room Kit Plus Cisco Spark Room Kit シリーズ概要

Apache Big Data North America 2016, Spark Summit 2016 会 · PDF fileIntelやNetflix，eBay ... ているHadoop，Spark， Kafka ... ング言語（Scala

Spark _Atila

Feminisering van het basisonderwijs Symposium FS-Lezing, Arnhem Gerda Geerdink 14-10-09

Tech Summit - Ganadores Tech-Summit

SPARK PLUG

SPARK SPARK VRT

CiscoSpark インストール手順 (forWindowsPC)...Cisco Spark Test Spark Spark 15:02 O Spark spark 15:02 Welcome to Cisco Spark! You can easily meet with your team and collaborate

NigthClazz Spark - Machine Learning / Introduction à Spark et Zeppelin

Spark zakiaelvang.oplæg

Template for MATLAB EXPO 2019€¦ · Based on: Andrej Karpathy –Building the Software 2.0 Stack (Spark+AI Summit 2018) 11 DEVELOP PREDICTIVE MODELS Analyze and tune hyperparameters

Custom Applications with Spark's RDD: Spark Summit East talk by Tejas Patil

Distributed Stream Processing - Spark Summit East 2017

Spark Summit 2017 후기 + Scalable한 기계 학습

Budapest Spark Meetup - Basics of Spark coding

Spark Russian

Learning Spark

Using SparkML to Power a DSaaS (Data Science as a Service): Spark Summit East talk by Sridhar Alla and Shekhar Agrawal

Previo spark