SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных

Маленькие «секреты» больших данных

Андрей УстюжанинРуководитель совместных проектов Яндекс-ЦЕРН

3

4

Case: супермаркет Target и беременая девушка

Оцифрованная романтика: eHarmony

Оцифрованная романтика: eHarmony

7

Предсказание и гарантии климата

http://bit.ly/1ikyg2F



8

Jawbone: браслеты никогда не спят

http://bit.ly/1ikwePV



9

Atom будущего

Стратегия выбора стиля кнопки

Дремучая:«Я так сказал»

Продвинутая:«Мы провели A/B тест»

Технологичная и современная:«Мы знаем, какую ты любишь»

Самые продвинутые отрасли

10

В мире:

Финансы

Медицина

Государство

Hi-tech и интернет-компании

12

Объем

пользователей Internet: 2 млрдcайтов Internet: 0.5 млрдcтраниц: 10 трлнроликов YouTube: 0.5 трлн часовфотки Facebook: 10 Pbаккаунтов Twitter: 200 млн

листьев на дереве: 1 млнтравинок на футбольном поле: 100 млнстраниц в Ленинской библиотеке, песчинок на пляже, байт в геноме, ...

~

~

~

13

Объем + cкорость + разнообразие

ТекстФото

АудиоВидеоне только Internet!в день:

– лайков Facebook: 1 млрд– твитов: 100 млн

Технологии Big Data

Мир глазами аналитика

Реальный мирМетапереход: от статистикик инженерии данных

17

«Как построить компьютерные системы, которые автоматически улучшаютсяс накопленным опытом, и каким законам подчиняются все процессы обучения?»

Tom Mitchell, CMU

Обучающаяся программа

Примеры данных с закономерностями

Модель закономерности

Поиск закономерностей в новых данных

0

50

100

150

200

250

50 100 150

?

200 250

0

50

100

150

200

250

50 100 150 200 2500

50

100

150

200

250

50 100 150 200 250

0

50

100

150

200

250

50 100 150 200 2500

50

100

150

200

250

50 100 150 200 250

Недообученная (слабая) модель

Переобученная модель

Оптимальная модель

Реализации машинного обученияTMVA http://tmva.sf.net

word2vec by Google http://code.google.com/p/word2vec

h2o by 0xdata http://0xdata.com/h2O

‘The Berkeley Stack’ by AMPLab http://amplab.cs.berkeley.edu

Vorpal Wabbit by John Langford http://github.com/JohnLangford/vowpal_wabbit

KNIME http://knime.org

PMML – Predictive Model Markup Language http://ibm.com/developerworks/industry/library/ind-PMML2/

scikit-learn for Python http://scikit-learn.org

http://tmva.sf.net

http://tmva.sf.net

http://code.google.com/p/word2vec

http://code.google.com/p/word2vec

http://0xdata.com/h2O

http://0xdata.com/h2O

http://amplab.cs.berkeley.edu

http://amplab.cs.berkeley.edu

http://github.com/JohnLangford/vowpal_wabbit

http://github.com/JohnLangford/vowpal_wabbit

http://knime.org

http://knime.org

http://ibm.com/developerworks/industry/library/ind-PMML2/




http://scikit-learn.org

http://scikit-learn.org

iPython notebookLiteration programmingLiterate computation

Метапереход: Информационные системы

Экзоскелет Нервная система

Показ рекламы

Ранжирование

Размер «формулы» (модели)

2006 2007 2008 2009 2010 2011 2012

разм

ер ф

орму

лы

0.02 kB

1 kB

14 kB

220 kB

1 MB

7 MB

40 MB

Приложения машинного обученияПоиск

Реклама

Маркет

Предсказание дорожных пробок

Перевод

Распознавание музыки, изображений, видео

Фильтрация спама

Кластеризация новостей

Определение аномалий

Deathly Ones

LHCb Events

Event Filtering (Bs→µ+µ-)

Data Value Chain (начисление стоимости)

Data Value Chain (начисление стоимости)

1. Получить данные2. Выбрать пространство признаков

3. Выбрать меры оценки качества4. Выбрать параметры классификатора5. Обучить модель6. Оценка качества7. Повторить

Кто управляет кораблем?

Что такое матрица?

Метапереход

«Как автоматизировать производство обучение машин?»

Data Science

Results

Конвейер исследований

Aggregation, Transforming

Model Training/Machine Learning

Application

Data Acquisition

Data Science

Results




Application

Data Acquisition

Web Search

Search Quality

Engine

Matrixnet/Tensornet

Logs, ...

Map, Reduce, Join

Data Science

Results




Application

CERN

Publications

LHC

Filtering and Stripping

TMVA

Fitting

Data Acquisition

Web Search

Search Quality

Engine

Matrixnet/Tensornet

Logs, ...

Map, Reduce, Join

Data Science

Results




Application

CERN

Publications

LHC

Filtering and Stripping

TMVA

Fitting

Data Acquisition

Web Search

Search Quality

Engine

Matrixnet/Tensornet

Logs, ...

Map, Reduce, Join

Workflow model «A»

Workflow model «YDF»

LHCb PhysicsCoordinator

Workflow scalability

LHCb PhysicsCoordinator

Навыки инженера данных

SubstantiveExpertise

HackingSkills

Math &Statistics

Knowledge

TraditionalResearch

DangerZone!

DataScience

MachineLearning

Программирование

Алгоритмы и структуры данных

Базы данных

Статистика

Анализ данных

Машинное обучение

Компьютерная обработка текста

Распределенные системы

Инструменты Big Data

Визуализация данныхFrom: Swami Chandrasekaran, Executive Architect

45

Учебные программы от индустрии

Международные курсыУниверситетские программы:

– University of Washington: CertiUcate in Data Science

– UC Berkeley: Master of information and data science program

– New York University: Data Science at NYU

– Columbia University: Institute for Data Sciences and Engineering

– University of Southern California (UCS) : Master of Science in Data Science

46

Онлайн курсы обучения:

– Coursera

– edX

– Udacity

Ускоренные образовательные программы (компании):

– ZipUan Academy (12 weeks intensive program)

– Insight Data Science Fellows program(6 weeks post doc training)

Чему учат в ШАД Отделение Computer ScienceСеместр 1Алгоритмы и структуры данных поиска, IДискретный анализ и теория вероятностейКурс по выбору (из 5)

Семестр 2Алгоритмы и структуры данных поиска, IIМашинное обучение, IКурс по выбору (из 5)

Семестр 3Машинное обучение, IIАвтоматическая обработка текстовКурс по выбору (из 5)

Семестр 4Информационный поиск или Машинный перевод2 курса по выбору (из 5)

Отделение анализа данныхСеместр 1Алгоритмы и структуры данных поиска, IВосстановление зависимостей из эмпирических данныхОсновы стохастики. Стохастические модели

Семестр 2Алгоритмы и структуры данных поиска, IIТеория обучения машинВероятностно-статистические модели и анализ данных в задачах скорейшего обнаружения

Семестр 3Выпуклый анализ и оптимизацияМашинное обучение, IIКурс по выбору (из 5)

Семестр 4Анализ символьных последовательностей с т. з. биоинформатики2 курса по выбору (из 5)

Яндекс.ШАД

49

Вакансии «data science»

50

Интерактивная инфографика

51

52

Открытые данные

http://открытыеданные.большоеправительство.рф/

http://opengovdata.ru/

http://data.gov.uk/

http://en.wikipedia.org/wiki/Open_data



http://data.gov.uk/

http://data.gov.uk/



53

Data-journalism

STORY

VISUALIZE

FILTER

DATA

value to public

54

Демография РФдефолт приближается

причина жизни

причина дефолта

55

Численные эксперименты/исследования

Измеримость

Воспроизводимость

Читаемость/прозрачность

Совместная работа

Модульность

Автоматизируемость

56

Gartner Hype Cycle

57

57

«Данные – это новая нефть!»

58

ЗаключениеМашинное обучение

– Большие данные: скорость + размер + разнообразие + ценность

«Секреты»:

– метапереход от статистики к модельному описанию (инженерия данных, машинное обучение)

– алгоритмы и библиотеки построения моделей – инфраструктура для встраивания моделей– конвейрная обработка

Новые подходы в естественных и гуманитарных науках:

– инфографика– заказная аналитика данных– журналистика данных

Андрей УстюжанинРуководитель совместных проектов Яндекс-ЦЕРН

e-mail: [email protected]

mailto:[email protected]

mailto:[email protected]

Presentations & Public Speaking

SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных