Big Data - mariuszrafalo.plmariuszrafalo.pl/sgh/bd/BD 03 - Technologie.pdf · •MongoDB Spark...

Big Data

Organizacyjnie

Prowadzący:dr Mariusz Rafało

mrafalo@sgh.waw.plhttp://mariuszrafalo.pl (hasło: BIG)

Automatyzacja

Automatyzacja przetwarzania: Apache NiFi

4Źródło: nifi.apache.org

Automatyzacja przetwarzania: ETL

• Oozie

• Airflow

• Falcon

• SLJM

• CRON(sic!)

5Źródło: airflow.apache.org

Technologie składowania danych

• Baza danych oparta na systemie plików HDFS

• Oprogramowanie powalające na zadawanie zapytań do rozproszonego systemu HDFS

• Oferuje język zapytań HQL; jest to język programowania o podobnej składni do SQL (HiveSQL)

• Dodatkowo, podobnie jak Pig, Hive udostępnia komendy pozwalające na stosowanie algorytmów MapReduce

• Rozproszona, kolumnowa baza danych

• Dobrze sprawdza się do obsługi szybkich zapytań na tabelach zawierających miliardy rekordów i tysiące (nawet miliony) kolumn

• Jest to baza danych nie-relacyjna, obsługująca zapytania w pamięci operacyjnej

• Mniej radzi sobie z zapytaniami analitycznymi, które wymagają agregowania danych (np. zapytania o dane detaliczne będą mniej wydajne)

Cassandra

• Kolumnowa baza danych; cechuje się krótkimi czasami odpowiedzi

• Posiada cechy bazy klucz-wartość

• Operuje na rodzinach kolumn, kluczach i kolumnach

Źródło: Big Data. Najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym, Nathan Marz, James Warren, Helion, 2016

Cassandra(przykład)

Źródło: Big Data. Najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym, Nathan Marz, James Warren, Helion, 2016

• Kolumnowa baza danych wspierająca analizy wielowymiarowe (OLAP)

• Możliwość ładowania danych za pomocą ETL lub poprzez strumień danych (Kafka)

• Rozproszona, skalowalna architektura

Źródło: druid.io11

MongoDB

• Nierelacyjna baza danych, napisana w języku C++

• Platforma cechuje się dużą skalowalnością, wydajnością oraz brakiem ściśle zdefiniowanej struktury obsługiwanych danych

• Dane składowane są jako pliki w formacje JSON, co umożliwia aplikacjom bardziej naturalne ich przetwarzanie, przy zachowaniu możliwości tworzenia hierarchii oraz indeksowania

• Posiada możliwość składowania danych w pamięci operacyjnej (WiredTiger engine)

• Wybrane narzędzia i komponenty:

• MongoDB Compass – narzędzie do wizualnej analizy danych

• MongoDB Spark Connector – integracja z Apache Spark

• MongoDB Atlas – database as a service

• Baza danych klasy in-memory, składująca dane w pamięci operacyjnej

• Oferuje bardzo szybki odczyt i zapis danych

• Oferuje wsparcie dla wielu typów danych jak np. string, hash, list, set

• Pozwala na stosowanie indeksów

• Posiada specjalizowane struktury służące obsłudze danych geograficznych

14Źródło: elastic.co

Zarządzanie klastrem

Zookeeper

• Scentralizowana usługa utrzymująca konfigurację klastra

• Zarządza metadanymi i konfiguracją klastra

• Zarządza konfiguracją rozproszoną, pozwala na automatyczne konfigurowanie nowego węzła (data node) lub nowej usługi na wielu węzłach

Ambari

• Konsola do zarządzania klastrem oraz wszystkimi usługami

• Monitoruje zarówno zasoby klastra jak i poszczególne usługi

Zarządzanie klastrem: zagadnienia

• Infrastruktura sprzętowa (jak monitorować?)

• Warstwa aplikacji (jak dbać o dostępność?)

• Przetwarzanie danych (jak ładować dane klaster?)

• Zarządzanie dostępem (bezpieczeństwo danych)

• Śledzenie i diagnostyka błędów w danych

• Wydajność

Dziękuję za uwagę

Big Data - mariuszrafalo.plmariuszrafalo.pl/sgh/bd/BD 03 - Technologie.pdf · •MongoDB Spark...

Documents

Jak dbać o motywację pracowników IT? · Mnogość technologii Java SQL Git Maven MySQL JavaEE Spring REST Tomcat nginx Wildfly Hibernate jOOQ Postgres MongoDB Spark Kafka Cassandra

Apresentação - MongoDB

Защо MongoDB?

DF1 - BD - Baranov - Mining Large Datasets with Apache Spark

What is SPARK? - UHgabriel/courses/cosc6339_s17/BDA_11_Spark.pdf · What is SPARK? •In-Memory Cluster ... –Hadoop, –Mesos, •Spark ... Spark Essentials •Spark program has

Nosql & MongoDB

Painting the Future of Big Data with Apache Spark and MongoDB

MongoDB + PHP

MongoDB São Paulo - Utilizando MongoDB com .NET

MongoDB + Spark

Mongodb administración

云数据库 MongoDB - UCloud · MongoDB⽬前⽀持MongoDB 2.4、MongoDB 2.6、MongoDB 3.0、MongoDB 3.2、MongoDB3.4、MongoDB 3.6和MongoDB 4.0，⽤⼾可以根据需求选择相应的云数据库版本。

Workshop MongoDB

Instalación mongodb

Administrasi MongoDB

Webinar: Typische MongoDB Anwendungsfälle (Common MongoDB Use Cases)

Attacking MongoDB

NoSQL MongoDBkn/teaching/dcw/cours/pdf/dcw_07.pdf · 6 NoSQL/MongoDB 6.1 Propriétés et limites des bases SQL 6.2 MongoDB ... MongoDB vs BD Relationnelle. 1 Introduction, UTF-8 et

NoSQL - MongoDB

Mongodb @ vrt