Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python...

Юрий Петров, ПАО «МТС»

http://facebook.com/gobigdata.info

Технологии Больших Данных (ТБД) 2017

22 июня, 2017http://facebook.com/groups/bigbigdata

ОБЗОР РЫНКА

БОЛЬШИХ ДАННЫХ

Что говорили 1,5 года назад?

Big Data – это:

эээ… какой-то конь

Что мы наблюдаем сейчас?

Взрыв интереса к Большим

Данным

Кто

-тока

титс

аза

Есть только

год…

Хранилища строятся

на базе Hadoop

запущены процессы по полному отказу от

реляционных БД, в том числе и массивно-

параллельных

Биг Дата

специалистов

переманивают

целыми

командами

Вы тоже можете так…

Только аккуратно

Итак – наша задача

показать финансовый или имиджевыйрезультат за минимально короткие сроки, минимальной командой и

выйти на следующий раунд финансирования

Минимальная Big Data команда #1

• Data Science команда (генерация идей, разработка алгоритмов)

• Дата-инженеры (подготовка датасетовдля Data Science команды и предоставление результатов работы конечным потребителям)

• DevOps (стабильность кластера и прочей инфраструктуры, мониторинг)

• Java и Python разработчики• ETL-разработчики (регламентная загрузка

данных)

• системный аналитик (знает где взять данные)

• архитектор данных (куда и как положить данные, как организовать эффективную работу с данными)

На старте делайте все по

принципу MVPминимально жизнеспособный

продукт

Основные усилия направляем• стабильность и тюнинг кластера

• обеспечение всем необходимым Data

Science команды

• постановка на конвейер ETL-процессов

Наивысший приоритет для всех

решение ad-hoc вопросов и запросов DataScience команды

…т.к. именно Data Science команда приносит деньги проекту. Если не помогать Data Science команде – вы не покажете финансовый результат

Выводу Data Science команды должен быть

выделенный DevOps и ETL-разработчики,

которые без лишней бюрократии и излишней

гордости помогают по первому зову

ИНФРАСТРУКТУРА

общее направление

Теперь

Инфраструктура #1

• InboxNode (прием данных из внешних источников as-is, обработка и загрузка данных на кластер)

• Шина данных - kafka• ManagemenNode - Ambari, Airflow, NiFi,

PostgreSQL (метаданные hive, hbase, ranger etc)

Инфраструктура #2

• ETL-машина – Pentaho, инструменты разработки

• Мощный сервер для Data Scienceкоманды (много ядер и памяти + SSD-диски)

• Hadoop-кластер. Не надо разделять кластеры – будут проблемы с передачей данных с одного кластера на другой.

Hadoop-кластер выступает не только в роли болота данных и хранилища

…он так же выступает в роли быстрой витрины для ваших BI-тулов

Т.е. ошибочно думать, что для быстрых витрин надо поднимать отдельную реляционную или NoSQL-базу – это все происки умирающих вендоров

Данные в Hadoop-кластере организуем многослойно

• RAW-слой• Детальные данные (DDS)• Витрины

Петров Юрий Владимирович

Контакты:WhatsApp, Viber, Telegram: +7-926-5872119

Email: petrov.y.v@gmail.com

http://facebook.com/gobigdata.info

http://facebook.com/groups/bigbigdata

Спасибо за внимание!

Технологии Больших Данных ТБД) 2017 · PDF file•Java и Python...

Documents

Загрузка данных из iiko в систему «1С» · «1С» 8.1, 8.2 или 7.7, необходимо выполнить следующие действия: 1. На

Загрузка данных в системе R

БАЗЫ ДАННЫХ - TFIel.tfi.uz/images/Bazi_dannix.pdf · Реляционные базы данных еляционные базы данных получили наибольшее

Автоматическая загрузка и обработка данных для веб-порталов

Загрузка данных в CrossRef (WebDeposit) · 2019. 9. 7. · CrossMark is a multi-publisher initiative from Crossref, provides a standard way for readers to locate the

Tema9 Загрузка графических файла

16. серийна шина usb. основни характеристики

Загрузка данных в SAP HR через LSMW

Загрузка работ участников

Использование реферативной базы данных Scopus в научной … · Визуализация данных (2) | 12 Визуализация данных

Загрузка ответов участников конкурсов-игр

Шины для легковых и легкогрузовых автошин | Беларусь Шина

Необходимые условия качества данных: MDM, Шина, Хранилище данных

Цифровая трансформация _Group_General.pdf · автоматическая загрузка документов. 3. Сканирование с помощью

Интеграционная шина на базе InterSystems Ensemble

Базы данных и системы управления базами данных

СЕРВИСНАЯ ШИНА ДАННЫХ DATAREON ESB. ПОСТРОЕНИЕ

БАЗЫ ДАННЫХ, ЗАРЕГИСТРИРОВАННЫЕ В РЕЕСТРЕ БАЗ ДАННЫХ РОССИЙСКОЙ ФЕДЕРАЦИИ

Загрузка программного обеспечения в контроллер

Концептуальные модели представления гетерогенных данных данных