63

SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Embed Size (px)

DESCRIPTION

Для эффективной борьбы с большими данными одних технологий недостаточно. Необходим правильный настрой по отношению к ним, позволяющий видеть перспективы и особенности их использования. В данном рассказе предлагается точка зрения на совокупность проблем больших данных и их возможные пути разрешения. Рассказ построен на конкретных примерах из личной практики. Целевая аудитория доклада, ее примерный уровень: аналитики, менеджеры ИТ, CTO.

Citation preview

Page 1: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
Page 2: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Маленькие «секреты» больших данных

Андрей УстюжанинРуководитель совместных проектов Яндекс-ЦЕРН

Page 3: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

3

Page 4: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

4

Case: супермаркет Target и беременая девушка

Page 5: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Оцифрованная романтика: eHarmony

Page 6: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Оцифрованная романтика: eHarmony

Page 7: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

7

Предсказание и гарантии климата

http://bit.ly/1ikyg2F

Page 8: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

8

Jawbone: браслеты никогда не спят

http://bit.ly/1ikwePV

Page 9: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

9

Atom будущего

Стратегия выбора стиля кнопки

Дремучая:«Я так сказал»

Продвинутая:«Мы провели A/B тест»

Технологичная и современная:«Мы знаем, какую ты любишь»

Page 10: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Самые продвинутые отрасли

10

В мире:

Финансы

Медицина

Государство

Hi-tech и интернет-компании

Page 11: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
Page 12: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

12

Объем

пользователей Internet: 2 млрдcайтов Internet: 0.5 млрдcтраниц: 10 трлнроликов YouTube: 0.5 трлн часовфотки Facebook: 10 Pbаккаунтов Twitter: 200 млн

листьев на дереве: 1 млнтравинок на футбольном поле: 100 млнстраниц в Ленинской библиотеке, песчинок на пляже, байт в геноме, ...

~

~

~

Page 13: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

13

Объем + cкорость + разнообразие

ТекстФото

АудиоВидеоне только Internet!в день:

– лайков Facebook: 1 млрд– твитов: 100 млн

Page 14: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Технологии Big Data

Page 15: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
Page 16: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Мир глазами аналитика

Реальный мирМетапереход: от статистикик инженерии данных

Page 17: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

17

«Как построить компьютерные системы, которые автоматически улучшаютсяс накопленным опытом, и каким законам подчиняются все процессы обучения?»

Tom Mitchell, CMU

Page 18: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Обучающаяся программа

Примеры данных с закономерностями

Модель закономерности

Поиск закономерностей в новых данных

Page 19: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

0

50

100

150

200

250

50 100 150

?

200 250

Page 20: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

0

50

100

150

200

250

50 100 150 200 2500

50

100

150

200

250

50 100 150 200 250

Page 21: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

0

50

100

150

200

250

50 100 150 200 2500

50

100

150

200

250

50 100 150 200 250

Page 22: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
Page 23: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Недообученная (слабая) модель

Переобученная модель

Оптимальная модель

Page 24: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Реализации машинного обученияTMVA http://tmva.sf.net

word2vec by Google http://code.google.com/p/word2vec

h2o by 0xdata http://0xdata.com/h2O

‘The Berkeley Stack’ by AMPLab http://amplab.cs.berkeley.edu

Vorpal Wabbit by John Langford http://github.com/JohnLangford/vowpal_wabbit

KNIME http://knime.org

PMML – Predictive Model Markup Language http://ibm.com/developerworks/industry/library/ind-PMML2/

scikit-learn for Python http://scikit-learn.org

Page 25: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

iPython notebookLiteration programmingLiterate computation

Page 26: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Метапереход: Информационные системы

Экзоскелет Нервная система

Page 27: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Показ рекламы

Page 28: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Ранжирование

Page 29: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Размер «формулы» (модели)

2006 2007 2008 2009 2010 2011 2012

разм

ер ф

орму

лы

0.02 kB

1 kB

14 kB

220 kB

1 MB

7 MB

40 MB

Page 30: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Приложения машинного обученияПоиск

Реклама

Маркет

Предсказание дорожных пробок

Перевод

Распознавание музыки, изображений, видео

Фильтрация спама

Кластеризация новостей

Определение аномалий

Page 31: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Deathly Ones

Page 32: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

LHCb Events

Page 33: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Event Filtering (Bs→µ+µ-)

Page 34: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Data Value Chain (начисление стоимости)

Page 35: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Data Value Chain (начисление стоимости)

1. Получить данные2. Выбрать пространство признаков

3. Выбрать меры оценки качества4. Выбрать параметры классификатора5. Обучить модель6. Оценка качества7. Повторить

Page 36: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Кто управляет кораблем?

Page 37: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Что такое матрица?

Page 38: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Метапереход

«Как автоматизировать производство обучение машин?»

Page 39: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Data Science

Results

Конвейер исследований

Aggregation, Transforming

Model Training/Machine Learning

Application

Data Acquisition

Page 40: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Data Science

Results

Конвейер исследований

Aggregation, Transforming

Model Training/Machine Learning

Application

Data Acquisition

Web Search

Search Quality

Engine

Matrixnet/Tensornet

Logs, ...

Map, Reduce, Join

Page 41: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Data Science

Results

Конвейер исследований

Aggregation, Transforming

Model Training/Machine Learning

Application

CERN

Publications

LHC

Filtering and Stripping

TMVA

Fitting

Data Acquisition

Web Search

Search Quality

Engine

Matrixnet/Tensornet

Logs, ...

Map, Reduce, Join

Page 42: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Data Science

Results

Конвейер исследований

Aggregation, Transforming

Model Training/Machine Learning

Application

CERN

Publications

LHC

Filtering and Stripping

TMVA

Fitting

Data Acquisition

Web Search

Search Quality

Engine

Matrixnet/Tensornet

Logs, ...

Map, Reduce, Join

Page 43: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Workflow model «A»

Page 44: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Workflow model «YDF»

LHCb PhysicsCoordinator

Page 45: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Workflow scalability

LHCb PhysicsCoordinator

Page 46: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Навыки инженера данных

SubstantiveExpertise

HackingSkills

Math &Statistics

Knowledge

TraditionalResearch

DangerZone!

DataScience

MachineLearning

Page 47: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Программирование

Алгоритмы и структуры данных

Базы данных

Статистика

Анализ данных

Машинное обучение

Компьютерная обработка текста

Распределенные системы

Инструменты Big Data

Визуализация данныхFrom: Swami Chandrasekaran, Executive Architect

Page 48: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

45

Учебные программы от индустрии

Page 49: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Международные курсыУниверситетские программы:

– University of Washington: CertiUcate in Data Science

– UC Berkeley: Master of information and data science program

– New York University: Data Science at NYU

– Columbia University: Institute for Data Sciences and Engineering

– University of Southern California (UCS) : Master of Science in Data Science

46

Онлайн курсы обучения:

– Coursera

– edX

– Udacity

Ускоренные образовательные программы (компании):

– ZipUan Academy (12 weeks intensive program)

– Insight Data Science Fellows program(6 weeks post doc training)

Page 50: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Чему учат в ШАД Отделение Computer ScienceСеместр 1Алгоритмы и структуры данных поиска, IДискретный анализ и теория вероятностейКурс по выбору (из 5)

Семестр 2Алгоритмы и структуры данных поиска, IIМашинное обучение, IКурс по выбору (из 5)

Семестр 3Машинное обучение, IIАвтоматическая обработка текстовКурс по выбору (из 5)

Семестр 4Информационный поиск или Машинный перевод2 курса по выбору (из 5)

Отделение анализа данныхСеместр 1Алгоритмы и структуры данных поиска, IВосстановление зависимостей из эмпирических данныхОсновы стохастики. Стохастические модели

Семестр 2Алгоритмы и структуры данных поиска, IIТеория обучения машинВероятностно-статистические модели и анализ данных в задачах скорейшего обнаружения

Семестр 3Выпуклый анализ и оптимизацияМашинное обучение, IIКурс по выбору (из 5)

Семестр 4Анализ символьных последовательностей с т. з. биоинформатики2 курса по выбору (из 5)

Page 51: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Яндекс.ШАД

Page 52: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

49

Вакансии «data science»

Page 53: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

50

Интерактивная инфографика

Page 54: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

51

Page 55: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

52

Открытые данные

http://открытыеданные.большоеправительство.рф/

http://opengovdata.ru/

http://data.gov.uk/

http://en.wikipedia.org/wiki/Open_data

Page 56: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

53

Data-journalism

STORY

VISUALIZE

FILTER

DATA

value to public

Page 57: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

54

Демография РФдефолт приближается

причина жизни

причина дефолта

Page 58: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

55

Численные эксперименты/исследования

Измеримость

Воспроизводимость

Читаемость/прозрачность

Совместная работа

Модульность

Автоматизируемость

Page 59: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

56

Gartner Hype Cycle

Page 60: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

57

Page 61: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

57

«Данные – это новая нефть!»

Page 62: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

58

ЗаключениеМашинное обучение

– Большие данные: скорость + размер + разнообразие + ценность

«Секреты»:

– метапереход от статистики к модельному описанию (инженерия данных, машинное обучение)

– алгоритмы и библиотеки построения моделей – инфраструктура для встраивания моделей– конвейрная обработка

Новые подходы в естественных и гуманитарных науках:

– инфографика– заказная аналитика данных– журналистика данных

Page 63: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Андрей УстюжанинРуководитель совместных проектов Яндекс-ЦЕРН

e-mail: [email protected]