Маленькие секреты больших данных

Preview:

DESCRIPTION

Маленькие секреты использования больших данных в различных областях бизнеса и науки.

Citation preview

Андрей Устюжанин

Маленькие «секреты» больших данных

Руководитель совместных проектов Яндекс-ЦЕРН

Объем

• пользователей Internet: 2 млрд• Сайтов Internet: 0.5 млрд• Страниц: 10 трлн• роликов YouTube: 0.5 трлн часов

• фотки Facebook: ~10 Pb• аккаунтов Twitter: 200 млн

3

• листьев на дереве: ~1 млн• травинок на футбольном поле: ~100 млн

• страниц в Ленинской библиотеке, песчинок на пляже, байт в геноме, ...

Объем + скорость + разнообразие

4

•Текст•Фото•Аудио•Видео•не только Internet!

• в день:лайков Facebook: 1 млрдтвитов: 100 млн

5

5

«Данные - это новая нефть!»

Технологии Big Data6

http://bit.ly/18SpwMF

Метапереход: от статистики к инженерии данных

8

Мирглазами аналитика

Реальный мир

«How can we build computer systems that automatically improve with experience, and what are the fundamental laws that govern all learning processes?»

9

Tom Mitchell, CMU

«Как построить компьютерные системы, которые автоматически улучшаются с накопленным опытом, и каким законам подчинаются все процессы обучения?»

10

Tom Mitchell, CMU

TMVA http://tmva.sf.net word2vec by Google http://code.google.com/p/word2vec h2o by 0xdata http://0xdata.com/h2O “The Berkeley Stack” by AMPLab

http://amplab.cs.berkeley.edu Vorpal Wabbit by John Langford

http://github.com/JohnLangford/vowpal_wabbit KNIME - http://knime.org PMML - Predictive Model Markup Language

http://ibm.com/developerworks/industry/library/ind-PMML2/ scikit-learn for Python http://scikit-learn.org

Реализации машинного обучения

17

iPython notebook

18

• Literation programming• Literate computation

Метапереход: Информационные системы

19

Экзоскелет Нервнаясистема

Показ рекламы20

Ранжирование21

Размер «формулы» (модели)22

Приложения машинного обученияПоиск

Реклама

Маркет

Предсказание дорожных пробок

Перевод

Распознавание музыки, изображений, видео

Фильтрация спама

Кластеризация новостей

Определение аномалий

Deathly ones24

LHCb events25

Event Filtering (Bs→µ+µ-)26

Анатомия приложения27

Анатомия приложения28

1.Получить данные2.Выбрать пространство признаков3.Выбрать меры оценки качества4.Выбрать параметры классификатора5.Обучить модель6.Оценка качества7.Повторить

Кто управляет кораблем?29

Что такое матрица?30

«Как автоматизировать производство обучение машин?»

Метапереход

31

Data Science

Results

Конвейер исследований

Aggregation, Transforming

Model Training/Machine Learning

Application

Data Acquisition

Data Science

Results

Конвейер исследований

Aggregation, Transforming

Model Training/Machine Learning

Application

Data Acquisition

Web Search

Search Quality

Engine

Matrixnet/Tensornet

Logs, ...

Map, Reduce, Join

Data Science

Results

Конвейер исследований

Aggregation, Transforming

Model Training/Machine Learning

Application

CERN

Publications

LHC

Filtering and Stripping

TMVA

Fitting

Data Acquisition

Web Search

Search Quality

Engine

Matrixnet/Tensornet

Logs, ...

Map, Reduce, Join

Data Science

Results

Конвейер исследований

Aggregation, Transforming

Model Training/Machine Learning

Application

CERN

Publications

LHC

Filtering and Stripping

TMVA

Fitting

Data Acquisition

Web Search

Search Quality

Engine

Matrixnet/Tensornet

Logs, ...

Map, Reduce, Join

Workflow model «A»

Workflow model «YDF»

LHCb PhysicsCoordinator

Workflow scalability

LHCb PhysicsCoordinator

Архетипы «Пути героя»

Принц (Принцесса)

Бродяга (Стерва)

Король (Королева)

Тиран (Мачеха)

Шут (Жрица)

Черный маг (Ведьма)

Воин (Охотница)

Убийца (Амазонка)

36

Архетипы «Пути героя»

Принц (Принцесса)

Бродяга (Стерва)

Король (Королева)

Тиран (Мачеха)

Шут (Жрица)

Черный маг (Ведьма)

Воин (Охотница)

Убийца (Амазонка)

37

Навыки инженера данных38

ПрограммированиеАлгоритмы и структуры данныхБазы данныхСтатистикаАнализ данныхМашинное обучениеКомпьютерная обработка текстаРаспределенные системыИнструменты Big DataВизуализация данных

From: Swami Chandrasekaran,Executive Architect

Учебные программы от индустрии40

Международные курсы

• Университетские программы:– University of Washington: CertiUcate in Data Science– UC Berkeley: Master of information and data science program– New York University: Data Science at NYU– Columbia University: Institute for Data Sciences and Engineering– University of Southern California (UCS) : Master of Science in Data Science

• Онлайн курсы обучения: – Coursera

– edX– Udacity

• Ускоренные образовательные программы (компании):– ZipUan Academy (12 weeks intensive program)– Insight Data Science Fellows program ( 6 weeks post doc training)

41

Восстановление функциональных закономерностей из эмпирических данных.Алгоритмы и структуры данных поискаВероятностно-статистические модели и анализ данныхВыпуклый анализ и оптимизацияМашинное обучениеАнализ символьных последовательностей с точки зрения биоинформатикиДискретный анализ и теория вероятностейАлгоритмы и структуры данных поискаАвтоматическая обработка текстовМашинный переводПараллельные и распределенные вычисленияКомбинаторика и вероятностьАнализ изображений и видеоАлгоритмы для работы с большими объемами данных...

Яндекс.ШАД

42 http://bit.ly/18SyiKJ

Восстановление функциональных закономерностей из эмпирических данных.Алгоритмы и структуры данных поискаВероятностно-статистические модели и анализ данныхВыпуклый анализ и оптимизацияМашинное обучениеАнализ символьных последовательностей с точки зрения биоинформатикиДискретный анализ и теория вероятностейАлгоритмы и структуры данных поискаАвтоматическая обработка текстовМашинный переводПараллельные и распределенные вычисленияКомбинаторика и вероятностьАнализ изображений и видеоАлгоритмы для работы с большими объемами данных...

Яндекс.ШАД

43 http://bit.ly/18SyiKJ

Вакансии «data science»44

Предсказание вероятности преступлений45

Крипта - определение социально-демографических факторов46

Предсказание климата47

Интерактивная инфографика48

49

http://bit.ly/18SqoRy

Data-journalism50

http://slidesha.re/18SN3gm

Демография РФ51

http://bit.ly/18Sp7K0

ИзмеримостьВоспроизводимостьЧитаемость/прозрачностьСовместная работаМодульностьАвтоматизируемость

Численные эксперименты/исследования

52

Gartner Hype Cycle53

Заключение

• Большие данные:– скорость + размер + разнообразие

• «Секреты»:– метапереход от статистики к модельному описанию

(инженерия данных, машинное обучение)– алгоритмы и библиотеки построения моделей – инфраструктура для встраивания моделей– конвейрная обработка

• Новые подходы в естесственных и гуманитарных науках:– инфографика– воспроизводимые эксперименты– журналистика данных

54

Спасибо!

anaderi@yandex-team.ru

Андрей УстюжанинРуководитель совместных проектов Яндекс-ЦЕРН

Recommended