Upload
darko-marjanovic
View
122
Download
3
Embed Size (px)
Citation preview
Big Data – Apache Spark zamena za Hadoop ili ne?
Darko MarjanovićFounder @Hadoop SrbijaCEO @Things Solver
[email protected]@thingsolver.com
Agenda
• Big Data
• Hadoop
• Apache Spark
• Hadoop i/ili Spark
2
Big Data - Šta je to?• Big Data predstavlja podatke koji pristižu
velikom brzinom i one su količine koja prevazilazu mogućnosti tradicionalnog softvera za skladištenje, obradu i upravljanje podacima.
• Big Data je sve ono što ne može da stane u Excel.
3
Big Data - Dimenzije
4
Big Data - Izvori podataka
• Društvene mreže (Twitter, Facebook…)
• Email, HTML, Click Stream
• Slike, Video, Logovi, Senzorski podaci
• Relacione Baze podataka
5
Big Data - Izvori podataka
6http://wikibon.org/wiki/v/Big_Data_in_the_Aviation_Industry
Big Data - Neki primeri
• …
7
Arhitektura Big Data Aplikacije
10
Hadoop
• Hadoop Common
• HDFS
• MapReduce
• YARN
11
HDFS
12
MapReduce
13
Hadoop ekosistem• MapReduce (Java, Python, C#…)
• Pig (ETL…)
• Hive, Tajo (Hadoop DWH alat)
• Spark (10x brži MapReduce), Flink
• Storm (Streaming)
• R
• Flume, Sqoop
• …
14
Apache Spark• Apache Spark je platforma za big data
obradu, sa ugrađenim modulima za mašinsko učenje, SQL, streaming i graf obradu.
15
Apache Spark - Osnovni koncepti
• RDD (Resilient Distributed Datasets )
• Kolekcija objekta rasprostranjenih kroz klaster, u RAM-u ili na disku
• Automatski oporavak
• Praralelizam
• Operacije
• Lazy transformacije (Map, Filter, groupBy…)
• Akcije (count, collect, save…)
16
Apache Spark memorija?
• Obrada u memoriji
• Premeštanje na disk ako podaci ne mogu da stanu u memoriju
17
Razvoj Spark Aplikacija
• Java, Scala, Python
• Batch, Streaming, Interactive
• Standalone, YARN…
• Izvori podataka (HDFS, Hive, Cassandra, HBase..)
• SparkSQL, Streaming, MLib, GraphX
18
Primer: Senzorski podaci
19
Primer: Hive
20
Flink, Spark konkurencija
21
Hadoop i Spark• Hadoop HDFS skladište podataka
• Spark VS MapReduce
• Spark na YARN-u
• 2015. Hortonworks ubacio Spark u HDP
22
Da li je potreban Hadoop ako se koristi Spark?
• Ne ako se koristi u “standalone” modu
• Klaster zahteva neki “shared file system”, ne mora HDFS
23databricks.com
Hive(MapReduce) vs Spark test
• Hive = 52.54s
• Spark(Scala) = 4.1s
• Spark(Python) = 26.7s
24
Spark Prednosti• Problemi koji se rešavaju pomoću više
iteracija
• Mašinsko učenje
• Analitika u realnom vremenu
• Brži razvoj jednostavnih aplikacija
25www.techweekeurope.co.uk
Spark VS MapReduce
• Cena
• Količina podataka
• Vreme na tržištu
• Integracija sa ostalim sistemima
26
Spark zamena za Hadoop?• Hadoop VS Spark
• HDFS VS Spark
• YARN VS Spark
• MapReduce VS Spark ?
• Hadoop i Spark
27
Korisni linkovi
• hadoop-srbija.com
• hortonworks.com
• spark.apache.org
• http://goo.gl/ej5CIJ
• hadoop.apache.org
28
Big Data – Apache Spark zamena za Hadoop ili ne?
Darko MarjanovićFounder @Hadoop SrbijaCEO @Things Solver
[email protected]@thingsolver.com