Transcript
Page 1: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

1 EMC CONFIDENTIAL—INTERNAL USE ONLY

Аналитика Больших Данных

Использование унифицированной аналитической платформы Greenplum для аналитики Больших Данных Доктор наук, Риккардо Санти

Page 2: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

2 EMC CONFIDENTIAL—INTERNAL USE ONLY

Содержание • Почему Greenplum делает возможной аналитику

Больших Данных: введение в унифицированную аналитическую платформу

• Меняем правила игры: решения и лаборатории • Наука о данных (Data Science): люди и процессы

в лабораториях Greenplum

Page 3: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

3 EMC CONFIDENTIAL—INTERNAL USE ONLY

Сначала было хранилище данных

Данные из многих источников для поддержки процесса

принятия решений

Унаследованное корпоративное

хранилище данных (EDW)

Page 4: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

4 EMC CONFIDENTIAL—INTERNAL USE ONLY

Появление MPP базы данных

Для новой аналитической среды потребовался новый

подход

Tools

Page 5: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

5 EMC CONFIDENTIAL—INTERNAL USE ONLY

Теперь есть и Hadoop

Традиционные системы не предназначены для

хранения/обработки задач Web 2.0

Page 6: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

6 EMC CONFIDENTIAL—INTERNAL USE ONLY

Новые модели бизнеса, основанные на использовании данных

290,000,000 Обновлений в день

250,000,000 Новых фотографий в

день

1,000,000,000 Запросов в день

4,000,000 Требований в день

2,800,000,000 Сделок в день

31,000,000,000 Событий в день

Page 7: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

7 EMC CONFIDENTIAL—INTERNAL USE ONLY

Унифицированная аналитическая платформа Greenplum

Page 8: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

8 EMC CONFIDENTIAL—INTERNAL USE ONLY

Унифицированная аналитическая платформа Greenplum

Page 9: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

9 EMC CONFIDENTIAL—INTERNAL USE ONLY

Объединяет реляционную СУБД и Hadoop

Greenplum gNet

Data Access & Query Layer

GREENPLUM HD GREENPLUM DATABASE

Java/Perl/Python Command Line PigLatin HQL ODBC JDBC

ПАРАЛЛЕЛЬНЫЕ ЗАПРОСЫ

ПАРАЛЛЕЛЬНЫЙ ЭКСПОРТ/ИМПОРТ

SQL HDFS

Page 10: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

10 EMC CONFIDENTIAL—INTERNAL USE ONLY

Greenplum Chorus: платформа продуктивной аналитики

• Взаимодействие посредством социальных сетей

• Возможности интеграции и расширения функциональности

• Свобода open source

Быстрая и гибкая разработка нового поколения приложений для всего спектра Больших Данных

Page 11: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

11 EMC CONFIDENTIAL—INTERNAL USE ONLY

Традиционный аналитический процесс

1. Данные найдены

2. Доступ получен

3. Разобрались в данных

4. Перенос в «песочницу»

5. Анализ Наконец-то!

6. Модель внедрена

Page 12: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

12 EMC CONFIDENTIAL—INTERNAL USE ONLY

Рабочие пространства

проектов

Анализ данных Публикация

Исследование данных

Взаимодействие

Быстрая аналитика

Быстрее и легче с Chorus

Page 13: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

13 EMC CONFIDENTIAL—INTERNAL USE ONLY

Совместная аналитика

• Быстрые результаты, интеграция и сотрудничество в реальном времени

• Повышение прозрачности проектов

• Взаимодействие, обмен информацией между командами

Page 14: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

15 EMC CONFIDENTIAL—INTERNAL USE ONLY

Как вы используете результаты аналитики?

Долго, дорого

Вариант 2: Самостоятельная

разработка

Для Больших Данных коробочного ПО нет

Вариант 1: «Коробочные»

приложения

Page 15: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

16 EMC CONFIDENTIAL—INTERNAL USE ONLY

Меняем правила игры: решения и лаборатории

Page 16: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

17 EMC CONFIDENTIAL—INTERNAL USE ONLY

Аналитика Больших Данных для коммунального хозяйства.

Page 17: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

18 EMC CONFIDENTIAL—INTERNAL USE ONLY

Умная электросеть

Аналитика «умной электросети» для коммунального хозяйства

Page 18: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

19 EMC CONFIDENTIAL—INTERNAL USE ONLY

Как нам предотвратить отключения электроэнергии?

Нужно знать, каким будет потребление электроэнергии завтра… и на следующей неделе… и в следующем месяце.

Page 19: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

20 EMC CONFIDENTIAL—INTERNAL USE ONLY

Умная электросеть и EMC Greenplum

Сетевое межсоединение

... ...

... ... Мастер - серверы

Планирование запросов и координация

Сегментные серверы

Обработка запросов и хранение данных

Массово-параллельная архитектура без разделения ресурсов

Оборудование и ПО Silver Spring для «умных сетей».

Page 20: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

21 EMC CONFIDENTIAL—INTERNAL USE ONLY

Анализ данных по энергопотреблению с помощью преобразования Фурье

Данные за 10 недель с 100.000 счётчиков, дискретность 5 секунд.

Page 21: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

22 EMC CONFIDENTIAL—INTERNAL USE ONLY

Теперь мы можем предотвращать отключения … и многое другое!

Точные профили нагрузки позволяют предсказывать скачки в потреблении и планировать заранее – и предотвращать отключения

Мы можем кластеризовать потребителей по профилю нагрузки и использовать результаты для обнаружения отклонений

Обнаружение отклонений от нормы может использоваться для предупреждения воровства электроэнергии

Мы можем создавать

профили нагрузки распознавая

периодичность Обнаружение отклонений также может быть использовано для контроля растительности

Page 22: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

23 EMC CONFIDENTIAL—INTERNAL USE ONLY

Аналитическая лаборатория 600. Транспорт.

Page 23: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

24 EMC CONFIDENTIAL—INTERNAL USE ONLY

Аналитическая лаборатория 600. • Цель:

– Совместными усилиями построить решение для анализа Больших Данных

– Модель предсказания дорожной ситуации: • Analytics Lab 600: Сбор данных и загрузка + 6 недель работы аналитика

– Возможные дополнительные цели: анализ путей объезда, управление светофорами

• Требует дополнительного времени

• Аналитическая платформа дорожных служб: – GP 1000: Data Computing Appliance (оборудование и ПО), полезное

пространство 36ТБ (без учёта сжатия данных) – Дополнительное ПО: MADlib, R и Chorus – В будущем: Greenplum HD, VMWARE Gemfire

Page 24: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

25 EMC CONFIDENTIAL—INTERNAL USE ONLY

Нужны ответы на эти вопросы: • Текущая дорожная ситуация

– Какие сущности релевантны для анализа? – Какова длина дорожной пробки? – Какова временная корреляция с другими данными?

• Данные – Каковы охват и точность данных из различных источников? – Как визуализирловать дорожные данные для анализа?

• Прогноз – Какова вероятность дорожной пробки на заданном

маршруте?

Page 25: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

26 EMC CONFIDENTIAL—INTERNAL USE ONLY

Аналитические лаборатории: цели • Преодолеть разрыв между объёмом

накопленных данных и возможностью их обработки

• Работоспособные, готовые к внедрению модели, использующие Большие Данные

• Продуктивное сотрудничество между участниками

• Обучение пользователей разработке инструментов и передовому опыту

• Стратегия развития аналитики

Page 26: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

27 EMC CONFIDENTIAL—INTERNAL USE ONLY

Аналитика журнальных данных.

Page 27: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

28 EMC CONFIDENTIAL—INTERNAL USE ONLY

Аналитика журнальных данных на производственных линиях

SQL Server 2008

ORACLE

Analysis Server

.NET Application

Microsoft SSIS ETL

Page 28: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

29 EMC CONFIDENTIAL—INTERNAL USE ONLY

Microsoft ACCESS

LOG

Parsing program

Неструктурированные данные

Environmental Status at 05:57:30 CPU Temperature: Boot UProc: 86C below ProcHot Ap UProc: 84C below ProcHot Ap2 UProc: 85C below ProcHot Ap3 UProc: 83C below ProcHot DIMM Temperatures: DIMM 0: 15C DIMM 1: 15C DIMM Throttling: Channel 0: Off Channel 1: Off Channel 2: Off CPU Temperature: Boot UProc: 7C (88C below ProcHot) Ap UProc: 8C (87C below ProcHot) DIMM Temperatures: DIMM 0: 17C DIMM 1: 16C DIMM Throttling: Channel 0: Off Channel 1: Off Channel 2: Off MCH Temperature : 49 SLIC Temperature : 0 CPU Temperature : 0

General Enclosure Status: PSA0: Inserted PSB0: Inserted Peer: Inserted Storage Processor Status: Motherboard Battery Low: FALSE Manufacturing Mode: TRUE PSA 0 MCU Status Power-Supply Firmware Version: 1B Slot ID: 44 System Over Temperature Status: FALSE System Temperature Celcius: 11 System Over Temp Thresh Celcius: 41 PS Threshold fault_mask0: 0h PSA 0 MCU Power Status: Fault Status: NO FAULT DC present: FALSE AC fail: FALSE Other PS is faulted: FALSE key: f = faulted; ok = not faulted ------------------------------------ Power Status Details | V1 | V2 | ------------------------------------ Inactive | ok | ok | Disabled | ok | ok | SP Voltage not inserted | ok | ok | Over Current | ok | ok | Over Voltage | ok | ok | Under Voltage | ok | ok | | | | Voltage Level |0331|0332| Current Level |001C|001A| ------------------------------------

Аналитика журнальных данных на производственных линиях

Page 29: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

30 EMC CONFIDENTIAL—INTERNAL USE ONLY

SQL Server 2008

ORACLE

Hadoop File

System

Greenplum

Analysis Server

Приложение .NET

M A P R U D E E C

M A D L I B Аналитическая программа

Расширения пользовательского

интерфейса

LOG

Аналитика журнальных данных на производственных линиях

Page 30: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

31 EMC CONFIDENTIAL—INTERNAL USE ONLY

ОТВЕТ В БОЛЬШИХ ДАННЫХ. ПРАВИЛЬНЫЙ ЛИ ВОПРОС ВЫ ЗАДАЁТЕ?

DATA SCIENCE НАУКА О ДАННЫХ

Page 31: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

32 EMC CONFIDENTIAL—INTERNAL USE ONLY

Проект по аналитике Больших Данных

ЭНТУЗИАЗМ

БОЛЬ POC Проверка концепции

Произво- дительность

Ценность

УНИ

ВЕРСИ

ТЕТЫ

Экспертный центр аналитики EMEA

EMC Экспертные центры Санкт-Петербург – Тель-Авив – Корк

LAB 1. Семинар 2. Анализ

осуществимости 3. Прототип

POBV

Затраты

Page 32: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

33 EMC CONFIDENTIAL—INTERNAL USE ONLY

Кто это – исследователь данных? Source: EMC Study, “Data Science Revealed: A Data-Driven Glimpse into the Burgeoning New Field,” December 5, 2011

BI – управление имеющимися данными и построение отчётов для мониторинга и управления процессами предприятия

Наука о данных применяет инструменты и алгоритмы глубокой аналитики для инноваций и новых продуктов, которые являются прямым результатом данных

Page 33: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

34 EMC CONFIDENTIAL—INTERNAL USE ONLY

Ключевые качества в новой «экосистеме» Больших Данных

Что делают исследователи данных?

Технический талант

Аналитический ум

Эксперт в предметной

области

Page 34: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

35 EMC CONFIDENTIAL—INTERNAL USE ONLY

Исследователь данных

Численный анализ

Техническая экспертиза

Критическое мышление

Коммуника- бельность

Любопытство, креативность

Page 35: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

36 EMC CONFIDENTIAL—INTERNAL USE ONLY

Учебный курс и Сертификация

Совместно с Академическим Альянсом

EMC

Поддержка команд исследователей данных EMC и наука о данных (Data Science)

Практика

Штат учёных-экспертов

Сообщество

Инвестиции в развитие науки о

данных

Page 36: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

37 EMC CONFIDENTIAL—INTERNAL USE ONLY

Проект по аналитике Больших Данных

ЭНТУЗИАЗМ Ценность

Университеты

Экспертный центр аналитики EMEA

EMC Экспертные центры Санкт-Петербург – Тель-Авив – Корк

LAB 1. Семинар 2. Анализ

осуществимости 3. Прототип

POBV Партнёры

Page 37: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

38 EMC CONFIDENTIAL—INTERNAL USE ONLY

ВОПРОСЫ?

Риккардо Санти Data Science Team Greeemplum EMEA [email protected]

Page 38: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение

39 EMC CONFIDENTIAL—INTERNAL USE ONLY

THANK YOU


Recommended