22
Юрий Петров, ПАО «МТС» http://facebook.com/gobigdata.info Технологии Больших Данных (ТБД) 2017 22 июня, 2017 http://facebook.com/groups/bigbigdata

Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Embed Size (px)

Citation preview

Page 1: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Юрий Петров, ПАО «МТС»

http://facebook.com/gobigdata.info

Технологии Больших Данных (ТБД) 2017

22 июня, 2017http://facebook.com/groups/bigbigdata

Page 2: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

ОБЗОР РЫНКА

БОЛЬШИХ ДАННЫХ

Page 3: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Что говорили 1,5 года назад?

Big Data – это:

эээ… какой-то конь

Page 4: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Что мы наблюдаем сейчас?

Взрыв интереса к Большим

Данным

Page 5: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Кто

-тока

титс

я н

аза

д

Есть только

год…

Page 6: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Хранилища строятся

на базе Hadoop

запущены процессы по полному отказу от

реляционных БД, в том числе и массивно-

параллельных

Page 7: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Биг Дата

специалистов

переманивают

целыми

командами

Page 8: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Вы тоже можете так…

Только аккуратно

Page 9: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Итак – наша задача

показать финансовый или имиджевыйрезультат за минимально короткие сроки, минимальной командой и

выйти на следующий раунд финансирования

Page 10: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Минимальная Big Data команда #1

• Data Science команда (генерация идей, разработка алгоритмов)

• Дата-инженеры (подготовка датасетовдля Data Science команды и предоставление результатов работы конечным потребителям)

Page 11: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Минимальная Big Data команда #2

• DevOps (стабильность кластера и прочей инфраструктуры, мониторинг)

• Java и Python разработчики• ETL-разработчики (регламентная загрузка

данных)

Page 12: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Минимальная Big Data команда #3

• системный аналитик (знает где взять данные)

• архитектор данных (куда и как положить данные, как организовать эффективную работу с данными)

Page 13: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

На старте делайте все по

принципу MVPминимально жизнеспособный

продукт

Page 14: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Основные усилия направляем• стабильность и тюнинг кластера

• обеспечение всем необходимым Data

Science команды

• постановка на конвейер ETL-процессов

Page 15: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Наивысший приоритет для всех

решение ad-hoc вопросов и запросов DataScience команды

…т.к. именно Data Science команда приносит деньги проекту. Если не помогать Data Science команде – вы не покажете финансовый результат

Page 16: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Выводу Data Science команды должен быть

выделенный DevOps и ETL-разработчики,

которые без лишней бюрократии и излишней

гордости помогают по первому зову

Page 17: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

ИНФРАСТРУКТУРА

общее направление

Теперь

Page 18: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Инфраструктура #1

• InboxNode (прием данных из внешних источников as-is, обработка и загрузка данных на кластер)

• Шина данных - kafka• ManagemenNode - Ambari, Airflow, NiFi,

PostgreSQL (метаданные hive, hbase, ranger etc)

Page 19: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Инфраструктура #2

• ETL-машина – Pentaho, инструменты разработки

• Мощный сервер для Data Scienceкоманды (много ядер и памяти + SSD-диски)

• Hadoop-кластер. Не надо разделять кластеры – будут проблемы с передачей данных с одного кластера на другой.

Page 20: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Hadoop-кластер выступает не только в роли болота данных и хранилища

…он так же выступает в роли быстрой витрины для ваших BI-тулов

Т.е. ошибочно думать, что для быстрых витрин надо поднимать отдельную реляционную или NoSQL-базу – это все происки умирающих вендоров

Page 21: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Данные в Hadoop-кластере организуем многослойно

• RAW-слой• Детальные данные (DDS)• Витрины

Page 22: Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python ... обработка и загрузка данных на кластер) •Шина

Петров Юрий Владимирович

Контакты:WhatsApp, Viber, Telegram: +7-926-5872119

Email: [email protected]

http://facebook.com/gobigdata.info

http://facebook.com/groups/bigbigdata

Спасибо за внимание!