29
Big Data – Apache Spark zamena za Hadoop ili ne? Darko Marjanović Founder @Hadoop Srbija CEO @Things Solver [email protected] [email protected]

Big data apache spark zamena za hadoop ili ne?

Embed Size (px)

Citation preview

Page 1: Big data   apache spark zamena za hadoop ili ne?

Big Data – Apache Spark zamena za Hadoop ili ne?

Darko MarjanovićFounder @Hadoop SrbijaCEO @Things Solver

[email protected]@thingsolver.com

Page 2: Big data   apache spark zamena za hadoop ili ne?

Agenda

• Big Data

• Hadoop

• Apache Spark

• Hadoop i/ili Spark

2

Page 3: Big data   apache spark zamena za hadoop ili ne?

Big Data - Šta je to?• Big Data predstavlja podatke koji pristižu

velikom brzinom i one su količine koja prevazilazu mogućnosti tradicionalnog softvera za skladištenje, obradu i upravljanje podacima.

• Big Data je sve ono što ne može da stane u Excel.

3

Page 4: Big data   apache spark zamena za hadoop ili ne?

Big Data - Dimenzije

4

Page 5: Big data   apache spark zamena za hadoop ili ne?

Big Data - Izvori podataka

• Društvene mreže (Twitter, Facebook…)

• Email, HTML, Click Stream

• Slike, Video, Logovi, Senzorski podaci

• Relacione Baze podataka

5

Page 6: Big data   apache spark zamena za hadoop ili ne?

Big Data - Izvori podataka

6http://wikibon.org/wiki/v/Big_Data_in_the_Aviation_Industry

Page 7: Big data   apache spark zamena za hadoop ili ne?

Big Data - Neki primeri

• Google

• Facebook

• …

7

Page 8: Big data   apache spark zamena za hadoop ili ne?
Page 9: Big data   apache spark zamena za hadoop ili ne?
Page 10: Big data   apache spark zamena za hadoop ili ne?

Arhitektura Big Data Aplikacije

10

Page 11: Big data   apache spark zamena za hadoop ili ne?

Hadoop

• Hadoop Common

• HDFS

• MapReduce

• YARN

11

Page 12: Big data   apache spark zamena za hadoop ili ne?

HDFS

12

Page 13: Big data   apache spark zamena za hadoop ili ne?

MapReduce

13

Page 14: Big data   apache spark zamena za hadoop ili ne?

Hadoop ekosistem• MapReduce (Java, Python, C#…)

• Pig (ETL…)

• Hive, Tajo (Hadoop DWH alat)

• Spark (10x brži MapReduce), Flink

• Storm (Streaming)

• R

• Flume, Sqoop

• …

14

Page 15: Big data   apache spark zamena za hadoop ili ne?

Apache Spark• Apache Spark je platforma za big data

obradu, sa ugrađenim modulima za mašinsko učenje, SQL, streaming i graf obradu.

15

Page 16: Big data   apache spark zamena za hadoop ili ne?

Apache Spark - Osnovni koncepti

• RDD (Resilient Distributed Datasets )

• Kolekcija objekta rasprostranjenih kroz klaster, u RAM-u ili na disku

• Automatski oporavak

• Praralelizam

• Operacije

• Lazy transformacije (Map, Filter, groupBy…)

• Akcije (count, collect, save…)

16

Page 17: Big data   apache spark zamena za hadoop ili ne?

Apache Spark memorija?

• Obrada u memoriji

• Premeštanje na disk ako podaci ne mogu da stanu u memoriju

17

Page 18: Big data   apache spark zamena za hadoop ili ne?

Razvoj Spark Aplikacija

• Java, Scala, Python

• Batch, Streaming, Interactive

• Standalone, YARN…

• Izvori podataka (HDFS, Hive, Cassandra, HBase..)

• SparkSQL, Streaming, MLib, GraphX

18

Page 19: Big data   apache spark zamena za hadoop ili ne?

Primer: Senzorski podaci

19

Page 20: Big data   apache spark zamena za hadoop ili ne?

Primer: Hive

20

Page 21: Big data   apache spark zamena za hadoop ili ne?

Flink, Spark konkurencija

21

Page 22: Big data   apache spark zamena za hadoop ili ne?

Hadoop i Spark• Hadoop HDFS skladište podataka

• Spark VS MapReduce

• Spark na YARN-u

• 2015. Hortonworks ubacio Spark u HDP

22

Page 23: Big data   apache spark zamena za hadoop ili ne?

Da li je potreban Hadoop ako se koristi Spark?

• Ne ako se koristi u “standalone” modu

• Klaster zahteva neki “shared file system”, ne mora HDFS

23databricks.com

Page 24: Big data   apache spark zamena za hadoop ili ne?

Hive(MapReduce) vs Spark test

• Hive = 52.54s

• Spark(Scala) = 4.1s

• Spark(Python) = 26.7s

24

Page 25: Big data   apache spark zamena za hadoop ili ne?

Spark Prednosti• Problemi koji se rešavaju pomoću više

iteracija

• Mašinsko učenje

• Analitika u realnom vremenu

• Brži razvoj jednostavnih aplikacija

25www.techweekeurope.co.uk

Page 26: Big data   apache spark zamena za hadoop ili ne?

Spark VS MapReduce

• Cena

• Količina podataka

• Vreme na tržištu

• Integracija sa ostalim sistemima

26

Page 27: Big data   apache spark zamena za hadoop ili ne?

Spark zamena za Hadoop?• Hadoop VS Spark

• HDFS VS Spark

• YARN VS Spark

• MapReduce VS Spark ?

• Hadoop i Spark

27

Page 28: Big data   apache spark zamena za hadoop ili ne?

Korisni linkovi

• hadoop-srbija.com

• hortonworks.com

• spark.apache.org

• http://goo.gl/ej5CIJ

• hadoop.apache.org

28

Page 29: Big data   apache spark zamena za hadoop ili ne?

Big Data – Apache Spark zamena za Hadoop ili ne?

Darko MarjanovićFounder @Hadoop SrbijaCEO @Things Solver

[email protected]@thingsolver.com