22

Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

Embed Size (px)

Citation preview

Page 1: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?
Page 2: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

Big Data: Apache Spark – novo pojačanje tradicionalnom BI ili ne?

Darko Marjanović

Things Solver

[email protected]

Page 3: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

• Big Data

• Apache Spark

• Spark i Azure

• Spark i PowerBI

Agenda

Page 4: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

Big Data predstavlja podatke koji pristižu velikom brzinom i one su količine koja prevazilazu mogućnosti tradicionalnog softvera za skladištenje, obradu i upravljanje podacima.

Big Data je sve ono što ne može da stane u Excel.

Big Data

Page 5: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

• Društvene mreže (Twitter, Facebook…)

• Email, HTML, Click Stream

• Slike, Video, Logovi, Senzorski podaci

• Relacione baze podataka

• Nestrukturirani (Tekst, Slike…)

• Polustrukturirani (JSON)

• Strutkturirani (Relacione baze)

Big Data

Page 6: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

Big Data Primer

Page 7: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

Apache Spark je platforma za big data obradu, sa ugrađenim modulima za mašinsko učenje, SQL, streaming i graf obradu.

Apache Spark

Page 8: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

• RDD (Resilient Distributed Datasets )• Kolekcija objekta rasprostranjenih kroz klaster, u RAM-u ili na disku• Automatski oporavak• Praralelizam

• Operacije• Lazy transformacije (Map, Filter, groupBy…)• Akcije (count, collect, save…)

Apache Spark - Osnovni koncepti

Page 9: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

• Obrada u memoriji

• Premeštanje na disk ako podaci ne mogu da stanu u memoriju

Apache Spark memorija?

Page 10: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

• Java, Scala, Python

• Batch, Streaming, Interactive

• Standalone, YARN…

• Izvori podataka (HDFS, Hive, Cassandra, HBase..)

• SparkSQL, Streamin, MLib, GraphX

Razvoj Spark Aplikacija

Page 11: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

• Problemi koji se rešavaju pomoću više iteracija

• Mašinsko učenje

• Analitika u realnom vremenu

• Brži razvoj jednostavnih aplikacija

Spark Prednosti

Page 12: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

• Bazirani na Python Pandas

• Distribuirana kolekcija podataka organizovana u imenovane kolone

• Koncept iz relacionih baza podataka

• Bolja optimizacija

• Dizajnirani za velike količine podataka

• JSON, Parquet, Baze podataka…

Apache Spark – Data Frames

Page 13: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

• SQL Like

• Python, Scala, Java

• ETL (JSON, Parquet ili bilo koja baza podataka)

• Ad-hoc upiti

• Pristup Spark podacima preko tradicionalnih BI alata kroz JDBC

Spark SQL

Page 14: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

Spark i Azure

Page 15: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

Spark i Azure

Page 16: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

• Podrška

• Cena

• Administracija

• Integracija sa ostalim alatima

• Razvojno okruženje (Zeppelin i IPython)

Spark i Azure prednosti

Page 17: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

Spark i PowerBI

Page 18: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

Senzorski podaci

Page 19: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

Senzorski podaci

Page 21: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?
Page 22: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?

Big Data: Apache Spark – novo pojačanje tradicionalnom BI ili ne?

Darko Marjanović

Things Solver

[email protected]