Upload
-secon2014
View
270
Download
0
Embed Size (px)
DESCRIPTION
Для эффективной борьбы с большими данными одних технологий недостаточно. Необходим правильный настрой по отношению к ним, позволяющий видеть перспективы и особенности их использования. В данном рассказе предлагается точка зрения на совокупность проблем больших данных и их возможные пути разрешения. Рассказ построен на конкретных примерах из личной практики. Целевая аудитория доклада, ее примерный уровень: аналитики, менеджеры ИТ, CTO.
Citation preview
Маленькие «секреты» больших данных
Андрей УстюжанинРуководитель совместных проектов Яндекс-ЦЕРН
3
4
Case: супермаркет Target и беременая девушка
Оцифрованная романтика: eHarmony
Оцифрованная романтика: eHarmony
8
Jawbone: браслеты никогда не спят
http://bit.ly/1ikwePV
9
Atom будущего
Стратегия выбора стиля кнопки
Дремучая:«Я так сказал»
Продвинутая:«Мы провели A/B тест»
Технологичная и современная:«Мы знаем, какую ты любишь»
Самые продвинутые отрасли
10
В мире:
Финансы
Медицина
Государство
Hi-tech и интернет-компании
12
Объем
пользователей Internet: 2 млрдcайтов Internet: 0.5 млрдcтраниц: 10 трлнроликов YouTube: 0.5 трлн часовфотки Facebook: 10 Pbаккаунтов Twitter: 200 млн
листьев на дереве: 1 млнтравинок на футбольном поле: 100 млнстраниц в Ленинской библиотеке, песчинок на пляже, байт в геноме, ...
~
~
~
13
Объем + cкорость + разнообразие
ТекстФото
АудиоВидеоне только Internet!в день:
– лайков Facebook: 1 млрд– твитов: 100 млн
Технологии Big Data
Мир глазами аналитика
Реальный мирМетапереход: от статистикик инженерии данных
17
«Как построить компьютерные системы, которые автоматически улучшаютсяс накопленным опытом, и каким законам подчиняются все процессы обучения?»
Tom Mitchell, CMU
Обучающаяся программа
Примеры данных с закономерностями
Модель закономерности
Поиск закономерностей в новых данных
0
50
100
150
200
250
50 100 150
?
200 250
0
50
100
150
200
250
50 100 150 200 2500
50
100
150
200
250
50 100 150 200 250
0
50
100
150
200
250
50 100 150 200 2500
50
100
150
200
250
50 100 150 200 250
Недообученная (слабая) модель
Переобученная модель
Оптимальная модель
Реализации машинного обученияTMVA http://tmva.sf.net
word2vec by Google http://code.google.com/p/word2vec
h2o by 0xdata http://0xdata.com/h2O
‘The Berkeley Stack’ by AMPLab http://amplab.cs.berkeley.edu
Vorpal Wabbit by John Langford http://github.com/JohnLangford/vowpal_wabbit
KNIME http://knime.org
PMML – Predictive Model Markup Language http://ibm.com/developerworks/industry/library/ind-PMML2/
scikit-learn for Python http://scikit-learn.org
iPython notebookLiteration programmingLiterate computation
Метапереход: Информационные системы
Экзоскелет Нервная система
Показ рекламы
Ранжирование
Размер «формулы» (модели)
2006 2007 2008 2009 2010 2011 2012
разм
ер ф
орму
лы
0.02 kB
1 kB
14 kB
220 kB
1 MB
7 MB
40 MB
Приложения машинного обученияПоиск
Реклама
Маркет
Предсказание дорожных пробок
Перевод
Распознавание музыки, изображений, видео
Фильтрация спама
Кластеризация новостей
Определение аномалий
Deathly Ones
LHCb Events
Event Filtering (Bs→µ+µ-)
Data Value Chain (начисление стоимости)
Data Value Chain (начисление стоимости)
1. Получить данные2. Выбрать пространство признаков
3. Выбрать меры оценки качества4. Выбрать параметры классификатора5. Обучить модель6. Оценка качества7. Повторить
Кто управляет кораблем?
Что такое матрица?
Метапереход
«Как автоматизировать производство обучение машин?»
Data Science
Results
Конвейер исследований
Aggregation, Transforming
Model Training/Machine Learning
Application
Data Acquisition
Data Science
Results
Конвейер исследований
Aggregation, Transforming
Model Training/Machine Learning
Application
Data Acquisition
Web Search
Search Quality
Engine
Matrixnet/Tensornet
Logs, ...
Map, Reduce, Join
Data Science
Results
Конвейер исследований
Aggregation, Transforming
Model Training/Machine Learning
Application
CERN
Publications
LHC
Filtering and Stripping
TMVA
Fitting
Data Acquisition
Web Search
Search Quality
Engine
Matrixnet/Tensornet
Logs, ...
Map, Reduce, Join
Data Science
Results
Конвейер исследований
Aggregation, Transforming
Model Training/Machine Learning
Application
CERN
Publications
LHC
Filtering and Stripping
TMVA
Fitting
Data Acquisition
Web Search
Search Quality
Engine
Matrixnet/Tensornet
Logs, ...
Map, Reduce, Join
Workflow model «A»
Workflow model «YDF»
LHCb PhysicsCoordinator
Workflow scalability
LHCb PhysicsCoordinator
Навыки инженера данных
SubstantiveExpertise
HackingSkills
Math &Statistics
Knowledge
TraditionalResearch
DangerZone!
DataScience
MachineLearning
Программирование
Алгоритмы и структуры данных
Базы данных
Статистика
Анализ данных
Машинное обучение
Компьютерная обработка текста
Распределенные системы
Инструменты Big Data
Визуализация данныхFrom: Swami Chandrasekaran, Executive Architect
45
Учебные программы от индустрии
Международные курсыУниверситетские программы:
– University of Washington: CertiUcate in Data Science
– UC Berkeley: Master of information and data science program
– New York University: Data Science at NYU
– Columbia University: Institute for Data Sciences and Engineering
– University of Southern California (UCS) : Master of Science in Data Science
46
Онлайн курсы обучения:
– Coursera
– edX
– Udacity
Ускоренные образовательные программы (компании):
– ZipUan Academy (12 weeks intensive program)
– Insight Data Science Fellows program(6 weeks post doc training)
Чему учат в ШАД Отделение Computer ScienceСеместр 1Алгоритмы и структуры данных поиска, IДискретный анализ и теория вероятностейКурс по выбору (из 5)
Семестр 2Алгоритмы и структуры данных поиска, IIМашинное обучение, IКурс по выбору (из 5)
Семестр 3Машинное обучение, IIАвтоматическая обработка текстовКурс по выбору (из 5)
Семестр 4Информационный поиск или Машинный перевод2 курса по выбору (из 5)
Отделение анализа данныхСеместр 1Алгоритмы и структуры данных поиска, IВосстановление зависимостей из эмпирических данныхОсновы стохастики. Стохастические модели
Семестр 2Алгоритмы и структуры данных поиска, IIТеория обучения машинВероятностно-статистические модели и анализ данных в задачах скорейшего обнаружения
Семестр 3Выпуклый анализ и оптимизацияМашинное обучение, IIКурс по выбору (из 5)
Семестр 4Анализ символьных последовательностей с т. з. биоинформатики2 курса по выбору (из 5)
Яндекс.ШАД
49
Вакансии «data science»
50
Интерактивная инфографика
51
52
Открытые данные
http://открытыеданные.большоеправительство.рф/
http://opengovdata.ru/
http://data.gov.uk/
http://en.wikipedia.org/wiki/Open_data
53
Data-journalism
STORY
VISUALIZE
FILTER
DATA
value to public
54
Демография РФдефолт приближается
причина жизни
причина дефолта
55
Численные эксперименты/исследования
Измеримость
Воспроизводимость
Читаемость/прозрачность
Совместная работа
Модульность
Автоматизируемость
56
Gartner Hype Cycle
57
57
«Данные – это новая нефть!»
58
ЗаключениеМашинное обучение
– Большие данные: скорость + размер + разнообразие + ценность
«Секреты»:
– метапереход от статистики к модельному описанию (инженерия данных, машинное обучение)
– алгоритмы и библиотеки построения моделей – инфраструктура для встраивания моделей– конвейрная обработка
Новые подходы в естественных и гуманитарных науках:
– инфографика– заказная аналитика данных– журналистика данных
Андрей УстюжанинРуководитель совместных проектов Яндекс-ЦЕРН
e-mail: [email protected]