Upload
darko-marjanovic
View
171
Download
1
Embed Size (px)
Citation preview
Big Data: Apache Spark – novo pojačanje tradicionalnom BI ili ne?
Darko Marjanović
Things Solver
• Big Data
• Apache Spark
• Spark i Azure
• Spark i PowerBI
Agenda
Big Data predstavlja podatke koji pristižu velikom brzinom i one su količine koja prevazilazu mogućnosti tradicionalnog softvera za skladištenje, obradu i upravljanje podacima.
Big Data je sve ono što ne može da stane u Excel.
Big Data
• Društvene mreže (Twitter, Facebook…)
• Email, HTML, Click Stream
• Slike, Video, Logovi, Senzorski podaci
• Relacione baze podataka
• Nestrukturirani (Tekst, Slike…)
• Polustrukturirani (JSON)
• Strutkturirani (Relacione baze)
Big Data
Big Data Primer
Apache Spark je platforma za big data obradu, sa ugrađenim modulima za mašinsko učenje, SQL, streaming i graf obradu.
Apache Spark
• RDD (Resilient Distributed Datasets )• Kolekcija objekta rasprostranjenih kroz klaster, u RAM-u ili na disku• Automatski oporavak• Praralelizam
• Operacije• Lazy transformacije (Map, Filter, groupBy…)• Akcije (count, collect, save…)
Apache Spark - Osnovni koncepti
• Obrada u memoriji
• Premeštanje na disk ako podaci ne mogu da stanu u memoriju
Apache Spark memorija?
• Java, Scala, Python
• Batch, Streaming, Interactive
• Standalone, YARN…
• Izvori podataka (HDFS, Hive, Cassandra, HBase..)
• SparkSQL, Streamin, MLib, GraphX
Razvoj Spark Aplikacija
• Problemi koji se rešavaju pomoću više iteracija
• Mašinsko učenje
• Analitika u realnom vremenu
• Brži razvoj jednostavnih aplikacija
Spark Prednosti
• Bazirani na Python Pandas
• Distribuirana kolekcija podataka organizovana u imenovane kolone
• Koncept iz relacionih baza podataka
• Bolja optimizacija
• Dizajnirani za velike količine podataka
• JSON, Parquet, Baze podataka…
Apache Spark – Data Frames
• SQL Like
• Python, Scala, Java
• ETL (JSON, Parquet ili bilo koja baza podataka)
• Ad-hoc upiti
• Pristup Spark podacima preko tradicionalnih BI alata kroz JDBC
Spark SQL
Spark i Azure
Spark i Azure
• Podrška
• Cena
• Administracija
• Integracija sa ostalim alatima
• Razvojno okruženje (Zeppelin i IPython)
Spark i Azure prednosti
Spark i PowerBI
Senzorski podaci
Senzorski podaci
• Hadoop Srbija
• Spark i PowerBI
• Spark
Korisni linkovi
Big Data: Apache Spark – novo pojačanje tradicionalnom BI ili ne?
Darko Marjanović
Things Solver