32
Революция Больших Данных

Революция Больших Данных

Embed Size (px)

DESCRIPTION

Выступление в клубе E-xecutive

Citation preview

Page 1: Революция Больших Данных

Революция    Больших  Данных  

 

Page 2: Революция Больших Данных

www.visibletechologies.com

Page 3: Революция Больших Данных

Высшая школа экономики, Москва, 2013

     Революция  Больших  Данных  

фото

фото

фото Май 2011

Page 4: Революция Больших Данных

Высшая школа экономики, Москва, 2013

Революция  Больших  Данных  

фото

фото

фото

Page 5: Революция Больших Данных

Gartner  Hype  cycle  2013  

www.gartner.com

Page 6: Революция Больших Данных

Прогноз  рынка  

www.wikibon.com

Gartner: 2016- $55B

Page 7: Революция Больших Данных

Data is the new oil. —European Consumer Commissioner Meglena Kuneva Week of Aug 14, 2006: XOM 69.10 AAPL 67.91

© 2013 Yahoo! Inc.

0%

1K%

2K%

3K%

4K%

5K%

6K%

7K%

8K%

9K%

2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013

1D 5D 1M 3M 6M YTD 1Y 2Y 5Y Max FROM: Jan 6 2003 TO: Sep 30 2013 +144.95%

1970 1975 1980 1985 1990 1995 2000 2005 2010

Volume: 24,392,640

20.0M

40.0M

60.0M

 Капитализация:  –  Exxon - $387.2 B –  Apple - $472.3 B    

Page 8: Революция Больших Данных

Высшая школа экономики, Москва, 2013

Явление характеризуемое быстрым увеличением объема

накапливаемых данных, скорости их поступления и разнообразии источников

•  «Три V» характеристика: •  Объем (Volume) •  Скорость ( Velocity) •  Разнообразие (Variety)

Большие  Данные  

Page 9: Революция Больших Данных

Высшая школа экономики, Москва, 2013

фото

фото

фото

Источники  данных  

Page 10: Революция Больших Данных

Высшая школа экономики, Москва, 2013

фото

фото

2012: •  Twitter: 175 млн tweet сообщений в день •  Facebook: 300 млн загруженных фото в день •  Google: 24 PB ежедневно •  AT&T передает 30 PB в день •  Walmart > 1 млн продаж в час •  Кредитные карты > 10,000 транзакций в секунду •  Boing 787 передает 0.5 TB телеметрических данных за

полет, 100 тыс. рейсов в день  

Библиотека Конгресса США содержит 33 млн книг, всего 150 млн печатных изданий: 235 TB

Скорость  накопления  данных  

Page 11: Революция Больших Данных

Высшая школа экономики, Москва, 2013

фото

фото

фото

В 2011г «Цифровая Вселенная»

1.8 ZETTABYTES 1,800,000,000,000,000,000,000

Zetta Exa Peta Tera Giga Mega Kilo Byte

К 2015 объем данных вырастет до 8 ZB, к 2020 в 44 раза до 35 ZB

9 млн Библиотек Конгресса США 60 млрд iPhone 32 GB

Объемы  данных  

Page 12: Революция Больших Данных

Высшая школа экономики, Москва, 2013

фото

фото

фото

 •  Основы технологии разработаны в

Google 2003, MapReduce •  Открытое ПО, Hadoop (Yahoo) •  Система массивно параллельной

обработки данных на кластерах дешевых компьютеров

•  Значительное удешевление хранения •  Экосистема Биг Дата стартапов:

Cloudera, MapR, HortonWorks •  Крупные вендоры EMC, IBM, HP, Oracle •  Большой вклад в открытые проекты:

Facebook, Twitter, Amazon, LinkedIn      

 

Технологии  Больших  Данных  

Page 13: Революция Больших Данных

Big  Data  Landscape  2012  

www.bigdatalandscape.com

Page 14: Революция Больших Данных

Big  Data  Landscape  2013  

www.bigdatalandscape.com

Page 15: Революция Больших Данных

Высшая школа экономики, Москва, 2013

фото

фото

фото

Уникальность подхода Больших Данных заключается в агрегировании огромной информации из разных источников в одном месте

•  Обобщенные вид на данные позволяет находить скрытые связи и закономерности

•  Данные обладают огромной предсказательной силой •  Доступны вычислительные мощности достаточные

для очень детальных расчетов

Подход  Больших  Данных  

Page 16: Революция Больших Данных

Перспективы  Больших  Данных  

www.gartner.com

Page 17: Революция Больших Данных

Бизнес  данных    

•  Большие данные: •  Хранение данных •  Анализ данных

•  Data driven companies: •  Принятие стратегических решений на основе данных •  Создания продуктов основанные на данных •  Предсказательная аналитика

Page 18: Революция Больших Данных

Высшая школа экономики, Москва, 2013

•  Маркетинг:

•  Сегментация рынка

•  Моделирование приобретения и оттока клиентов

•  Рекомендательные системы

•  Анализ социальных медиа

•  Финансовые и страховые компании: •  Предотвращение fraud

•  Детектирование аномального поведения

•  Анализ кредитных рисков

•  Страховые моделирование

•  Оптимизация портфолио

•  Здравоохранение и Фармакология:

•  Генетический анализ

•  Анализ клинических испытаний

•  Клинические системы принятия решений

Прикладные  задачи  

Page 19: Революция Больших Данных

Портрет  компании:  Amazon  

Рекомендательная  система  

Product  A  

Product  B  

Product  C  

Page 20: Революция Больших Данных

Портрет  компании:  LinkedIn  

    238 mln members

Люди, которых вы можете знать

Page 21: Революция Больших Данных

 Портрет  компании:  Target  “How companies learn your secrets”

•  Уникальный Guest ID •  Транзакции по кредитной карте •  Примеры факторов (сигналов):

•  Покупка крема без запаха

•  Пищевые добавки кальций, цинк, магний

•  Мыло без запаха

•  Предсказательный «индекс» беременности и ожидаемая дата рождения

Page 22: Революция Больших Данных

Предсказательное  моделирование  

•  Применение  модели  

•  Обучение  модели  

from Eric Siegel, “Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die”

Page 23: Революция Больших Данных

 Операторы  мобильной  связи  •  Churn prediction:  моделирование оттока клиентов

•  Закономерности поведения подписчиков с течением времени

•  Положительные и отрицательные примеры

Факторы модели:

•  История пользования сервисом (число звонков, смс)

•  История платежей за сервис

•  История обращений в службу поддержки

•  История изменений в контракте

•  Граф звонков (поведение друзей)

Page 24: Революция Больших Данных

Моделирование  убеждаемости  

2012 US Presidential Elections: •  Предвыборная кампания Барака Обамы: 50 data scientists

•  Собраны исторические данные exit polls

•  Данные из открытых источников, соц. Сетей

•  Предсказательные модели:

•  Кто вероятно будет голосовать за Обаму?

•  Кто вероятно будет голосовать за Ромни ?

•  Кто придет в день голосование на участки?

•  Кого можно убедить голосовать за Обаму в случае личного общения?

Page 25: Революция Больших Данных

Высшая школа экономики, Москва, 2013

Галерея  проектов  

фото

фото

Примеры небольших компаний и проектов создающих data driven products

Сбор и обработка массивов данных

•  Стартапы, небольшие проекты

•  Частное и государственное финансирование

•  Social course ( социальная направленность)

Page 26: Революция Больших Данных

Высшая школа экономики, Москва, 2013

Большие  Данные  в  городе:  удобный  город  

фото

фото

фото

Сан-Франциско: датчики парковки, датчики скорости транспортных потоков, GPS в общественном транспорте

Использование:

•  нахождение свободных парковок

•  точное время прибытия  общественного транспорта

Page 27: Революция Больших Данных

Высшая школа экономики, Москва, 2013

Большие  Данные  в  городе:  безопасный    город  

фото

фото

фото

Лос-Анджелес: предсказания преступлений

LAPD (predictive policing, 2011-2013):

•  Определение мест и времени с повышенной вероятностью совершения преступлений

•  Исторические данные о преступности в городе (80 месяцев), демографические и др. данные, социологические модели

•  Преступления против собственности снизились за год на 12%

•  UCLA, UC Santa Cruz

Page 28: Революция Больших Данных

Высшая школа экономики, Москва, 2013

Большие  Данные  в  экономике  

фото

фото

фото

•  MIT научный проект, Billion Prices Project •  Ежедневно собирают с е-магазинов цены на

товары: •  > 900 магазинов, 70 стран, 5 млн товаров

•  Автоматически вычисляют: •  Индекс потребительских цен •  Уровень инфляции

•  Бюро Статистики труда: 90 городов, 80,000 товаров, сотни сотрудников, $250 млн в год, задержка 2-4 недели

The key advantage of our series is the ability to anticipate major shifts in underlying inflation trends

7 Source: BPP – PriceStats – BLS (CPI-U, US city-average, all items, NSA)

Example: State Street PriceStats US Aggregate Inflation Series

online

09/15/2008 Lehman’s Bankruptcy

January 2011

May 2011

12/20/2008

Jan 2012

Page 29: Революция Больших Данных

Высшая школа экономики, Москва, 2013

Большие  Данные  и  здоровье  

фото

фото

фото

Платформa  мониторинга  астмы  и  других  респираторных  заболеваний  

•  Помогать  пациентам  и  врачам  лучше  справляется  с  заболеванием  

•  Ингаляторы  с  встроенными  сенсорами,  мобильные  приложения  

•  Дневник  пациента,  доступен  врачу  онлайн  •  Неотложная  помощь  

•  Глобальная  аналитика  по  заболеванию  

Системы    self-­‐мониторинга  (quanXfy-­‐self):  

•  Fitbit,  Jawbone:  физические  нагрузка  

•  Wahoo:  сердечный  ритм  

•  Zeo:  ночной  сон  (EEG)  

•  AliveCor:  одноканальная  кардиограмма  (ECG)

Page 30: Революция Больших Данных

Высшая школа экономики, Москва, 2013

Большие  Данные  в  образовании  

фото

фото

фото

Платформа онлайн обучения •  MOOC (Massive Online Open Course)

•  “Ivy League” для масс

•  Лучшие курсы лучших университетов

•  Повсеместная доступность

•  Универсальность программы обучения

•  Бесплатное обучение

•  Coursera, edX, Udemy

Coursera: •  Первые 2 курса из Стэнфорда в 2012

•  80 университетов, 400 курсов

•  200,000 студентов на курсе

•  4.5млн обучаемых

Page 31: Революция Больших Данных

Высшая школа экономики, Москва, 2013

The  Sexiest  Job  of  the  21st    Century  

McKinsey оценивает нехватку в 140,000-190,000 специалистов к 2018г

Page 32: Революция Больших Данных

Контакты  •  Леонид  Жуков,    Ph.D  •  Профессор,  Отделение  Прикладной  Математики  и  Информатики,  

Высшая  Школа  Экономики  (НИУ-­‐ВШЭ)  •  Director  Data  Science,  Ancestry.com    •  [email protected]  •  www.leonidzhukov.ru