Революция Больших Данных

Preview:

DESCRIPTION

Выступление в клубе E-xecutive

Citation preview

Революция    Больших  Данных  

 

www.visibletechologies.com

Высшая школа экономики, Москва, 2013

     Революция  Больших  Данных  

фото

фото

фото Май 2011

Высшая школа экономики, Москва, 2013

Революция  Больших  Данных  

фото

фото

фото

Gartner  Hype  cycle  2013  

www.gartner.com

Прогноз  рынка  

www.wikibon.com

Gartner: 2016- $55B

Data is the new oil. —European Consumer Commissioner Meglena Kuneva Week of Aug 14, 2006: XOM 69.10 AAPL 67.91

© 2013 Yahoo! Inc.

0%

1K%

2K%

3K%

4K%

5K%

6K%

7K%

8K%

9K%

2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013

1D 5D 1M 3M 6M YTD 1Y 2Y 5Y Max FROM: Jan 6 2003 TO: Sep 30 2013 +144.95%

1970 1975 1980 1985 1990 1995 2000 2005 2010

Volume: 24,392,640

20.0M

40.0M

60.0M

 Капитализация:  –  Exxon - $387.2 B –  Apple - $472.3 B    

Высшая школа экономики, Москва, 2013

Явление характеризуемое быстрым увеличением объема

накапливаемых данных, скорости их поступления и разнообразии источников

•  «Три V» характеристика: •  Объем (Volume) •  Скорость ( Velocity) •  Разнообразие (Variety)

Большие  Данные  

Высшая школа экономики, Москва, 2013

фото

фото

фото

Источники  данных  

Высшая школа экономики, Москва, 2013

фото

фото

2012: •  Twitter: 175 млн tweet сообщений в день •  Facebook: 300 млн загруженных фото в день •  Google: 24 PB ежедневно •  AT&T передает 30 PB в день •  Walmart > 1 млн продаж в час •  Кредитные карты > 10,000 транзакций в секунду •  Boing 787 передает 0.5 TB телеметрических данных за

полет, 100 тыс. рейсов в день  

Библиотека Конгресса США содержит 33 млн книг, всего 150 млн печатных изданий: 235 TB

Скорость  накопления  данных  

Высшая школа экономики, Москва, 2013

фото

фото

фото

В 2011г «Цифровая Вселенная»

1.8 ZETTABYTES 1,800,000,000,000,000,000,000

Zetta Exa Peta Tera Giga Mega Kilo Byte

К 2015 объем данных вырастет до 8 ZB, к 2020 в 44 раза до 35 ZB

9 млн Библиотек Конгресса США 60 млрд iPhone 32 GB

Объемы  данных  

Высшая школа экономики, Москва, 2013

фото

фото

фото

 •  Основы технологии разработаны в

Google 2003, MapReduce •  Открытое ПО, Hadoop (Yahoo) •  Система массивно параллельной

обработки данных на кластерах дешевых компьютеров

•  Значительное удешевление хранения •  Экосистема Биг Дата стартапов:

Cloudera, MapR, HortonWorks •  Крупные вендоры EMC, IBM, HP, Oracle •  Большой вклад в открытые проекты:

Facebook, Twitter, Amazon, LinkedIn      

 

Технологии  Больших  Данных  

Big  Data  Landscape  2012  

www.bigdatalandscape.com

Big  Data  Landscape  2013  

www.bigdatalandscape.com

Высшая школа экономики, Москва, 2013

фото

фото

фото

Уникальность подхода Больших Данных заключается в агрегировании огромной информации из разных источников в одном месте

•  Обобщенные вид на данные позволяет находить скрытые связи и закономерности

•  Данные обладают огромной предсказательной силой •  Доступны вычислительные мощности достаточные

для очень детальных расчетов

Подход  Больших  Данных  

Перспективы  Больших  Данных  

www.gartner.com

Бизнес  данных    

•  Большие данные: •  Хранение данных •  Анализ данных

•  Data driven companies: •  Принятие стратегических решений на основе данных •  Создания продуктов основанные на данных •  Предсказательная аналитика

Высшая школа экономики, Москва, 2013

•  Маркетинг:

•  Сегментация рынка

•  Моделирование приобретения и оттока клиентов

•  Рекомендательные системы

•  Анализ социальных медиа

•  Финансовые и страховые компании: •  Предотвращение fraud

•  Детектирование аномального поведения

•  Анализ кредитных рисков

•  Страховые моделирование

•  Оптимизация портфолио

•  Здравоохранение и Фармакология:

•  Генетический анализ

•  Анализ клинических испытаний

•  Клинические системы принятия решений

Прикладные  задачи  

Портрет  компании:  Amazon  

Рекомендательная  система  

Product  A  

Product  B  

Product  C  

Портрет  компании:  LinkedIn  

    238 mln members

Люди, которых вы можете знать

 Портрет  компании:  Target  “How companies learn your secrets”

•  Уникальный Guest ID •  Транзакции по кредитной карте •  Примеры факторов (сигналов):

•  Покупка крема без запаха

•  Пищевые добавки кальций, цинк, магний

•  Мыло без запаха

•  Предсказательный «индекс» беременности и ожидаемая дата рождения

Предсказательное  моделирование  

•  Применение  модели  

•  Обучение  модели  

from Eric Siegel, “Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die”

 Операторы  мобильной  связи  •  Churn prediction:  моделирование оттока клиентов

•  Закономерности поведения подписчиков с течением времени

•  Положительные и отрицательные примеры

Факторы модели:

•  История пользования сервисом (число звонков, смс)

•  История платежей за сервис

•  История обращений в службу поддержки

•  История изменений в контракте

•  Граф звонков (поведение друзей)

Моделирование  убеждаемости  

2012 US Presidential Elections: •  Предвыборная кампания Барака Обамы: 50 data scientists

•  Собраны исторические данные exit polls

•  Данные из открытых источников, соц. Сетей

•  Предсказательные модели:

•  Кто вероятно будет голосовать за Обаму?

•  Кто вероятно будет голосовать за Ромни ?

•  Кто придет в день голосование на участки?

•  Кого можно убедить голосовать за Обаму в случае личного общения?

Высшая школа экономики, Москва, 2013

Галерея  проектов  

фото

фото

Примеры небольших компаний и проектов создающих data driven products

Сбор и обработка массивов данных

•  Стартапы, небольшие проекты

•  Частное и государственное финансирование

•  Social course ( социальная направленность)

Высшая школа экономики, Москва, 2013

Большие  Данные  в  городе:  удобный  город  

фото

фото

фото

Сан-Франциско: датчики парковки, датчики скорости транспортных потоков, GPS в общественном транспорте

Использование:

•  нахождение свободных парковок

•  точное время прибытия  общественного транспорта

Высшая школа экономики, Москва, 2013

Большие  Данные  в  городе:  безопасный    город  

фото

фото

фото

Лос-Анджелес: предсказания преступлений

LAPD (predictive policing, 2011-2013):

•  Определение мест и времени с повышенной вероятностью совершения преступлений

•  Исторические данные о преступности в городе (80 месяцев), демографические и др. данные, социологические модели

•  Преступления против собственности снизились за год на 12%

•  UCLA, UC Santa Cruz

Высшая школа экономики, Москва, 2013

Большие  Данные  в  экономике  

фото

фото

фото

•  MIT научный проект, Billion Prices Project •  Ежедневно собирают с е-магазинов цены на

товары: •  > 900 магазинов, 70 стран, 5 млн товаров

•  Автоматически вычисляют: •  Индекс потребительских цен •  Уровень инфляции

•  Бюро Статистики труда: 90 городов, 80,000 товаров, сотни сотрудников, $250 млн в год, задержка 2-4 недели

The key advantage of our series is the ability to anticipate major shifts in underlying inflation trends

7 Source: BPP – PriceStats – BLS (CPI-U, US city-average, all items, NSA)

Example: State Street PriceStats US Aggregate Inflation Series

online

09/15/2008 Lehman’s Bankruptcy

January 2011

May 2011

12/20/2008

Jan 2012

Высшая школа экономики, Москва, 2013

Большие  Данные  и  здоровье  

фото

фото

фото

Платформa  мониторинга  астмы  и  других  респираторных  заболеваний  

•  Помогать  пациентам  и  врачам  лучше  справляется  с  заболеванием  

•  Ингаляторы  с  встроенными  сенсорами,  мобильные  приложения  

•  Дневник  пациента,  доступен  врачу  онлайн  •  Неотложная  помощь  

•  Глобальная  аналитика  по  заболеванию  

Системы    self-­‐мониторинга  (quanXfy-­‐self):  

•  Fitbit,  Jawbone:  физические  нагрузка  

•  Wahoo:  сердечный  ритм  

•  Zeo:  ночной  сон  (EEG)  

•  AliveCor:  одноканальная  кардиограмма  (ECG)

Высшая школа экономики, Москва, 2013

Большие  Данные  в  образовании  

фото

фото

фото

Платформа онлайн обучения •  MOOC (Massive Online Open Course)

•  “Ivy League” для масс

•  Лучшие курсы лучших университетов

•  Повсеместная доступность

•  Универсальность программы обучения

•  Бесплатное обучение

•  Coursera, edX, Udemy

Coursera: •  Первые 2 курса из Стэнфорда в 2012

•  80 университетов, 400 курсов

•  200,000 студентов на курсе

•  4.5млн обучаемых

Высшая школа экономики, Москва, 2013

The  Sexiest  Job  of  the  21st    Century  

McKinsey оценивает нехватку в 140,000-190,000 специалистов к 2018г

Контакты  •  Леонид  Жуков,    Ph.D  •  Профессор,  Отделение  Прикладной  Математики  и  Информатики,  

Высшая  Школа  Экономики  (НИУ-­‐ВШЭ)  •  Director  Data  Science,  Ancestry.com    •  lzhukov@hse.ru  •  www.leonidzhukov.ru  

Recommended