53
Когда все данные станут большими... Зиновьев Алексей Java/BigData тренер в EPAM

2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Embed Size (px)

Citation preview

Page 1: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Когда все данные станут большими...

Зиновьев АлексейJava/BigData тренер в EPAM

Page 2: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими
Page 3: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Контакты

• https://twitter.com/zaleslaw• https://twitter.com/BigDataRussia• http://vk.com/big_data_russia Big Data Russia • http://vk.com/java_jvm

Page 4: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими
Page 5: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Каждые 60 секунд в мире …

Page 6: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими
Page 7: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими
Page 8: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими
Page 9: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Данные с мобильных девайсов – золотая жила!

Page 10: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Мы стали хранить и анализировать то, что раньше казалось ерундой

Page 11: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

BigData – это..

• Работа с объемом данных, которые не влезает в один Excel – файл?

Page 12: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

BigData – это..

• Работа с объемом данных, которые не влезает в один Excel – файл?

• Способ продать клиенту старые тряпки в новой упаковке?

Page 13: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

BigData – это..

• Работа с объемом данных, которые не влезает в один Excel – файл?

• Способ продать клиенту старые тряпки в новой упаковке?

• Спасительное средство, когда MySQL для моего сайта тормозит?

Page 14: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

BigData – это..• Работа с объемом данных, которые не влезает в

один Excel – файл?• Способ продать клиенту старые тряпки в новой

упаковке?• Спасительное средство, когда MySQL для моего

сайта тормозит?• Совокупность методологий и технологий

построения систем, хранилищ и средств анализа данных с высокой степенью горизонтального масштабирования и «стрессоустойчивостью»?

Page 15: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

У меня 1 млн записей в MySQL. Это уже BigData?

 

Page 16: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

У вас была SQL БД с медленными запросами?

• А не пойти ли вам потюнить?

Page 17: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

У вас была SQL БД с медленными запросами?

• А не пойти ли вам потюнить?• Зачем тюнить если есть Hadoop и Amazon?

Page 18: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

У вас была SQL БД с медленными запросами?

• А не пойти ли вам потюнить?• Зачем тюнить если есть Hadoop и Amazon?• А вы знаете сколько стоит Amazon?

Page 19: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

У вас была SQL БД с медленными запросами?

• А не пойти ли вам потюнить?• Зачем тюнить если есть Hadoop и Amazon?• А вы знаете сколько стоит Amazon?• А у вас есть статистика по запросам?

Page 20: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

У вас была SQL БД с медленными запросами?

• А не пойти ли вам потюнить?• Зачем тюнить если есть Hadoop и Amazon?• А вы знаете сколько стоит Amazon?• А у вас есть статистика по запросам?• А вы профилировали хоть раз?

Page 21: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

У вас была SQL БД с медленными запросами?

• А не пойти ли вам потюнить?• Зачем тюнить если есть Hadoop и Amazon?• А вы знаете сколько стоит Amazon?• А у вас есть статистика по запросам?• А вы профилировали хоть раз?• А какой прогноз по объему данных на

ближайший год?

Page 22: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

А сколько может выдержать наш бэкенд? Надо измерять!

Page 23: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Устали тюнитьOracle? Давайте поставим Cassandra

Page 24: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Типичный EPAM BigData кластер

• 450 машин• Master Nodes (24 ядра, 158 Gb RAM).• Data Nodes (24|32 ядра, 96|128 Gb RAM).• Средняя YARN Queue utilization 85% (по

дням).• 12Pb – емкость хранения данных

Page 25: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Биг дата – это когда что-то невероятно большое, да?

Page 26: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Нет, дело не только в размере

• У нас становится просто больше типов и моделей данных, в том числе скрытых от нас

• Нам нужно так быстро обрабатывать входящие данные, что через парус секунд они станут никому не нужны и могут быть просто удалены

• И да, нам иногда нужно что-то сложнее чем отчет по остаткам на складах

Page 27: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Это просто данные, которые на данный момент сложно …

• Хранить• Обрабатывать• Искать в них что-то• Анализировать• Передавать по сети• Визуализировать

Page 28: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Как считать корректно лайки?

Page 29: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Parallel Computin vs Distributed Computing

• Можно запустить на 1000 ядерной машине• Но тогда нам нужен суперкомпьютер• А можно каждой маленькой машинке

считать, хранить и обрабатывать свою порцию данных отдельно!

• Круто, а кто писать будет всю инфраструктуру?

Page 30: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Разработчик высоконагруженной системы узнал о Hadoop

Page 31: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

MapReduce job-ы что-то там делают, а вы идете пить чай?

Page 32: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Придется учить Javvu, а я еще такой молодой

Page 33: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Бизнес торопит разработчика, а разработчик запускает кластер

Page 34: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Дружите с DevOps/сисадминами!

Page 35: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Инфраструктурные задачи

• Настройка/оптимизация SQL/NoSQL – систем

Page 36: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Инфраструктурные задачи

• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства

Page 37: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Инфраструктурные задачи

• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства• Плавность смены версий в вашем ToolBox

Page 38: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Инфраструктурные задачи

• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства• Плавность смены версий в вашем ToolBox• Батюшка – деплой

Page 39: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Инфраструктурные задачи

• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства• Плавность смены версий в вашем ToolBox• Батюшка – деплой• Матушка – ошибки в логах

Page 40: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Инфраструктурные задачи

• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства• Плавность смены версий в вашем ToolBox• Батюшка – деплой• Матушка – ошибки в логах• 24*7 выход чего-то из строя

Page 41: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Инфраструктурные задачи

• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства• Плавность смены версий в вашем ToolBox• Батюшка – деплой• Матушка – ошибки в логах• 24*7 выход чего-то из строя• Ну или кредитка для Amazon ^__^

Page 42: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Инфраструктурные задачи

• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства• Плавность смены версий в вашем ToolBox• Батюшка – деплой• Матушка – ошибки в логах• 24*7 выход чего-то из строя• Ну или кредитка для Amazon ^__^

Page 43: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Если вы умеете извлекать интересные факты из своих данных,

то за вами придут

Page 44: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Machine Learning vs Traditional Programming

Page 45: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Как организован процесс разработки?

Page 46: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Но кто пригодится для такой работы?

Page 47: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Специалисты

• Бывший backend – разработчик как личинка Hadoop/Spark девелопера

Page 48: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Специалисты

• Бывший backend – разработчик как личинка Hadoop/Spark девелопера

• Бывший сисадмин как личинка DevOps/Infrastrucure Specialist

Page 49: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Специалисты

• Бывший backend – разработчик как личинка Hadoop/Spark девелопера

• Бывший сисадмин как личинка DevOps/Infrastrucure Specialist

• Быший 1С-ник как BI/Data Warehouse Specialist

Page 50: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Специалисты

• Бывший backend – разработчик как личинка Hadoop/Spark девелопера

• Бывший сисадмин как личинка DevOps/Infrastrucure Specialist

• Быший 1С-ник как BI/Data Warehouse Specialist

• Бывший математик как Data Scientist

Page 51: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Специалисты

• Бывший backend – разработчик как личинка Hadoop/Spark девелопера

• Бывший сисадмин как личинка DevOps/Infrastrucure Specialist

• Быший 1С-ник как BI/Data Warehouse Specialist

• Бывший математик как Data Scientist• … ну и менеджер, с техническим

бэкгранудом

Page 52: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Морозоустойчивое решение – самое главное, алгоритмы затюним после!

Page 53: 2015-12-05 Алексей Зиновьев - Когда все данные станут большими

Есть что спросить/рассказать?

• https://twitter.com/zaleslaw• https://twitter.com/BigDataRussia• http://vk.com/big_data_russia Big Data Russia • http://vk.com/java_jvm