59

Маленькие секреты больших данных

Embed Size (px)

DESCRIPTION

Маленькие секреты использования больших данных в различных областях бизнеса и науки.

Citation preview

Page 1: Маленькие секреты больших данных
Page 2: Маленькие секреты больших данных

Андрей Устюжанин

Маленькие «секреты» больших данных

Руководитель совместных проектов Яндекс-ЦЕРН

Page 3: Маленькие секреты больших данных

Объем

• пользователей Internet: 2 млрд• Сайтов Internet: 0.5 млрд• Страниц: 10 трлн• роликов YouTube: 0.5 трлн часов

• фотки Facebook: ~10 Pb• аккаунтов Twitter: 200 млн

3

• листьев на дереве: ~1 млн• травинок на футбольном поле: ~100 млн

• страниц в Ленинской библиотеке, песчинок на пляже, байт в геноме, ...

Page 4: Маленькие секреты больших данных

Объем + скорость + разнообразие

4

•Текст•Фото•Аудио•Видео•не только Internet!

• в день:лайков Facebook: 1 млрдтвитов: 100 млн

Page 5: Маленькие секреты больших данных

5

Page 6: Маленькие секреты больших данных

5

«Данные - это новая нефть!»

Page 7: Маленькие секреты больших данных

Технологии Big Data6

http://bit.ly/18SpwMF

Page 8: Маленькие секреты больших данных
Page 9: Маленькие секреты больших данных

Метапереход: от статистики к инженерии данных

8

Мирглазами аналитика

Реальный мир

Page 10: Маленькие секреты больших данных

«How can we build computer systems that automatically improve with experience, and what are the fundamental laws that govern all learning processes?»

9

Tom Mitchell, CMU

Page 11: Маленькие секреты больших данных

«Как построить компьютерные системы, которые автоматически улучшаются с накопленным опытом, и каким законам подчинаются все процессы обучения?»

10

Tom Mitchell, CMU

Page 12: Маленькие секреты больших данных
Page 13: Маленькие секреты больших данных
Page 14: Маленькие секреты больших данных
Page 15: Маленькие секреты больших данных
Page 16: Маленькие секреты больших данных
Page 17: Маленькие секреты больших данных
Page 18: Маленькие секреты больших данных

TMVA http://tmva.sf.net word2vec by Google http://code.google.com/p/word2vec h2o by 0xdata http://0xdata.com/h2O “The Berkeley Stack” by AMPLab

http://amplab.cs.berkeley.edu Vorpal Wabbit by John Langford

http://github.com/JohnLangford/vowpal_wabbit KNIME - http://knime.org PMML - Predictive Model Markup Language

http://ibm.com/developerworks/industry/library/ind-PMML2/ scikit-learn for Python http://scikit-learn.org

Реализации машинного обучения

17

Page 19: Маленькие секреты больших данных

iPython notebook

18

• Literation programming• Literate computation

Page 20: Маленькие секреты больших данных

Метапереход: Информационные системы

19

Экзоскелет Нервнаясистема

Page 21: Маленькие секреты больших данных

Показ рекламы20

Page 22: Маленькие секреты больших данных

Ранжирование21

Page 23: Маленькие секреты больших данных

Размер «формулы» (модели)22

Page 24: Маленькие секреты больших данных

Приложения машинного обученияПоиск

Реклама

Маркет

Предсказание дорожных пробок

Перевод

Распознавание музыки, изображений, видео

Фильтрация спама

Кластеризация новостей

Определение аномалий

Page 25: Маленькие секреты больших данных

Deathly ones24

Page 26: Маленькие секреты больших данных

LHCb events25

Page 27: Маленькие секреты больших данных

Event Filtering (Bs→µ+µ-)26

Page 28: Маленькие секреты больших данных

Анатомия приложения27

Page 29: Маленькие секреты больших данных

Анатомия приложения28

1.Получить данные2.Выбрать пространство признаков3.Выбрать меры оценки качества4.Выбрать параметры классификатора5.Обучить модель6.Оценка качества7.Повторить

Page 30: Маленькие секреты больших данных

Кто управляет кораблем?29

Page 31: Маленькие секреты больших данных

Что такое матрица?30

Page 32: Маленькие секреты больших данных

«Как автоматизировать производство обучение машин?»

Метапереход

31

Page 33: Маленькие секреты больших данных

Data Science

Results

Конвейер исследований

Aggregation, Transforming

Model Training/Machine Learning

Application

Data Acquisition

Page 34: Маленькие секреты больших данных

Data Science

Results

Конвейер исследований

Aggregation, Transforming

Model Training/Machine Learning

Application

Data Acquisition

Web Search

Search Quality

Engine

Matrixnet/Tensornet

Logs, ...

Map, Reduce, Join

Page 35: Маленькие секреты больших данных

Data Science

Results

Конвейер исследований

Aggregation, Transforming

Model Training/Machine Learning

Application

CERN

Publications

LHC

Filtering and Stripping

TMVA

Fitting

Data Acquisition

Web Search

Search Quality

Engine

Matrixnet/Tensornet

Logs, ...

Map, Reduce, Join

Page 36: Маленькие секреты больших данных

Data Science

Results

Конвейер исследований

Aggregation, Transforming

Model Training/Machine Learning

Application

CERN

Publications

LHC

Filtering and Stripping

TMVA

Fitting

Data Acquisition

Web Search

Search Quality

Engine

Matrixnet/Tensornet

Logs, ...

Map, Reduce, Join

Page 37: Маленькие секреты больших данных

Workflow model «A»

Page 38: Маленькие секреты больших данных

Workflow model «YDF»

LHCb PhysicsCoordinator

Page 39: Маленькие секреты больших данных

Workflow scalability

LHCb PhysicsCoordinator

Page 40: Маленькие секреты больших данных

Архетипы «Пути героя»

Принц (Принцесса)

Бродяга (Стерва)

Король (Королева)

Тиран (Мачеха)

Шут (Жрица)

Черный маг (Ведьма)

Воин (Охотница)

Убийца (Амазонка)

36

Page 41: Маленькие секреты больших данных

Архетипы «Пути героя»

Принц (Принцесса)

Бродяга (Стерва)

Король (Королева)

Тиран (Мачеха)

Шут (Жрица)

Черный маг (Ведьма)

Воин (Охотница)

Убийца (Амазонка)

37

Page 42: Маленькие секреты больших данных

Навыки инженера данных38

Page 43: Маленькие секреты больших данных

ПрограммированиеАлгоритмы и структуры данныхБазы данныхСтатистикаАнализ данныхМашинное обучениеКомпьютерная обработка текстаРаспределенные системыИнструменты Big DataВизуализация данных

From: Swami Chandrasekaran,Executive Architect

Page 44: Маленькие секреты больших данных

Учебные программы от индустрии40

Page 45: Маленькие секреты больших данных

Международные курсы

• Университетские программы:– University of Washington: CertiUcate in Data Science– UC Berkeley: Master of information and data science program– New York University: Data Science at NYU– Columbia University: Institute for Data Sciences and Engineering– University of Southern California (UCS) : Master of Science in Data Science

• Онлайн курсы обучения: – Coursera

– edX– Udacity

• Ускоренные образовательные программы (компании):– ZipUan Academy (12 weeks intensive program)– Insight Data Science Fellows program ( 6 weeks post doc training)

41

Page 46: Маленькие секреты больших данных

Восстановление функциональных закономерностей из эмпирических данных.Алгоритмы и структуры данных поискаВероятностно-статистические модели и анализ данныхВыпуклый анализ и оптимизацияМашинное обучениеАнализ символьных последовательностей с точки зрения биоинформатикиДискретный анализ и теория вероятностейАлгоритмы и структуры данных поискаАвтоматическая обработка текстовМашинный переводПараллельные и распределенные вычисленияКомбинаторика и вероятностьАнализ изображений и видеоАлгоритмы для работы с большими объемами данных...

Яндекс.ШАД

42 http://bit.ly/18SyiKJ

Page 47: Маленькие секреты больших данных

Восстановление функциональных закономерностей из эмпирических данных.Алгоритмы и структуры данных поискаВероятностно-статистические модели и анализ данныхВыпуклый анализ и оптимизацияМашинное обучениеАнализ символьных последовательностей с точки зрения биоинформатикиДискретный анализ и теория вероятностейАлгоритмы и структуры данных поискаАвтоматическая обработка текстовМашинный переводПараллельные и распределенные вычисленияКомбинаторика и вероятностьАнализ изображений и видеоАлгоритмы для работы с большими объемами данных...

Яндекс.ШАД

43 http://bit.ly/18SyiKJ

Page 48: Маленькие секреты больших данных

Вакансии «data science»44

Page 49: Маленькие секреты больших данных

Предсказание вероятности преступлений45

Page 50: Маленькие секреты больших данных

Крипта - определение социально-демографических факторов46

Page 51: Маленькие секреты больших данных

Предсказание климата47

Page 52: Маленькие секреты больших данных

Интерактивная инфографика48

Page 53: Маленькие секреты больших данных

49

http://bit.ly/18SqoRy

Page 54: Маленькие секреты больших данных

Data-journalism50

http://slidesha.re/18SN3gm

Page 55: Маленькие секреты больших данных

Демография РФ51

http://bit.ly/18Sp7K0

Page 56: Маленькие секреты больших данных

ИзмеримостьВоспроизводимостьЧитаемость/прозрачностьСовместная работаМодульностьАвтоматизируемость

Численные эксперименты/исследования

52

Page 57: Маленькие секреты больших данных

Gartner Hype Cycle53

Page 58: Маленькие секреты больших данных

Заключение

• Большие данные:– скорость + размер + разнообразие

• «Секреты»:– метапереход от статистики к модельному описанию

(инженерия данных, машинное обучение)– алгоритмы и библиотеки построения моделей – инфраструктура для встраивания моделей– конвейрная обработка

• Новые подходы в естесственных и гуманитарных науках:– инфографика– воспроизводимые эксперименты– журналистика данных

54

Page 59: Маленькие секреты больших данных

Спасибо!

[email protected]

Андрей УстюжанинРуководитель совместных проектов Яндекс-ЦЕРН