65
Голограмма коллектива Руководитель проекта магистерской программы «Аналитика больших массивов данных» в НГУ к.ф.-м.н. Павловский Евгений Николаевич Директор по развитию «Экспасофт» Открытый семинар по кейсам больших данных. Или какая нам от этого польза?

2015 голограмма коллектива

Embed Size (px)

Citation preview

Page 1: 2015 голограмма коллектива

Голограмма коллективаРуководитель проекта магистерской программы«Аналитика больших массивов данных» в НГУ

к.ф.-м.н. Павловский Евгений НиколаевичДиректор по развитию «Экспасофт»

Открытый семинар по кейсам больших данных.Или какая нам от этого польза?

Page 2: 2015 голограмма коллектива

Экспасофт· 2010, ЛША· «Исследовательские системы», 2011 – н.в.· FRiS – уникальная методология анализа данных,школа Н.Г. Загоруйко

· 18 проектов анализа данных: биоинформатика, медицина, безопасность, нефтедобыча, финансы, ритейл, облака, образование, криминалистика, маркетинг

· Услуги по анализу данных

Page 3: 2015 голограмма коллектива

А.Д.

биоинформатика

медицина

безопасность

криминалистика

нефтедобычафинансы

маркетинг

ритейл

облачныевычисления

образованиеБизнес-домены

3А.Д. – анализ данных

• Сложные продажи• Неочевидная бизнес-польза• НИР и ОКР

Page 4: 2015 голограмма коллектива

Услуги Экспасофта· Построение прогнозных моделей:

· прогнозирование биофизических свойств по аминокислотному составу белков· алгоритм распознавания клиентов, которые воспользуются дополнительными

услугами только после коммуникации с ними· прогнозирование экспрессии генов, связь транскрипционных факторов· распознавание марок автомашин по фотографии· прогнозирование нагрузки на сервера· распознавание и идентификация посетителей сети магазинов· скоринговая модель по микрокредитам

· Программное обеспечение:· библиотека алгоритмов Expasoft FRiS Studio· представление текста в виде сетевой модели, пополнение базы данных

извлечёнными из текстов сущностями и отношениями, поиск по сущностям и отношения

· Образование 4

Page 5: 2015 голограмма коллектива

Машинное обучение

Кластеризация

Распознавание

Прогнозирование

Цензурирование

Выборинформати

вныхпризнаков

5

Page 6: 2015 голограмма коллектива

Феномен Больших данных· 50 лет· 2002, 50% в цифре· 2008, Nature· 2011, McKinsey

6

Page 7: 2015 голограмма коллектива

7

4V· Volume· Объём данных

· Velocity· Скорость создания и обработки данных

· Variety· Разнообразие источников и форм

хранения данных· Value· Ценность

Page 8: 2015 голограмма коллектива

8

Page 9: 2015 голограмма коллектива

9

2014

Page 10: 2015 голограмма коллектива

10

2015

Page 11: 2015 голограмма коллектива

11

Особенностибольших данныхЧем отличаются от маленьких по существу?

Page 12: 2015 голограмма коллектива

12

Page 13: 2015 голограмма коллектива

Отказ от структурированности N = всё

сбор данных впрок не знаем, какие вопросы будем задавать

NoSQL - Not Only SQL: документо-ориентированные, ключ-значение Отказ от структуры Отказ от консистентности в пользу доступности или параллелизма

HDFS – Hadoop Distributed File System Параллелизм обработки Резервирование 13

Page 14: 2015 голограмма коллектива

Неперемещаемость · идея использовать вычислительные мощности на месте хранения

· MapReduce · Hadoop

· TeraData Hortonworks · IBM BigInsights · Cloudera

· Spark

· реально быстро!· (см. Вымпелком (Сибирь): «Мониторинг параметров SLA для системы биллинга реального времени »)

14

Page 15: 2015 голограмма коллектива

Новые источники достоверных данных· Сенсоры: прогноз Gartner - к 2020 году 90% всей информации будет между устройствами.

· Социальные сети (скоринг по соц. профилю, RTB)

· Открытые данные: http://data.gov.ru/, http://data.mos.ru/

15

Page 16: 2015 голограмма коллектива

Сокращение сроков вычислений · in-memory · SAP HANA

· 256Tb RAM· Oracle TimesTen· Опыт в РФ

· СургутНефтегаз · опыт перевода на SAP HANA (“Real-Time Enterprise 2.0: A Big ли Data?”)· сокращение сроков формирования отчётов на порядки

· MapReduce · Hadoop

16

Page 17: 2015 голограмма коллектива

Статистификация · обращение к статистическим методам

· обращение к интеллектуальному анализу данных (Data Mining)

· поиск озарений (insights) · неожиданные связи в данных · скрытые закономерности

· отказ от причинности

17

Page 18: 2015 голограмма коллектива

18

Какие отрасли первыми будут пытаться внедрять эти технологии?наличие реального спроса в РФ

Page 19: 2015 голограмма коллектива

19

СпросРЕАЛЬНЫЙ· 1) Банковский сектор, скоринг

· 2) Real time bidding (RTB) платформы

· 3) Микрофинансы· 4) Ведомственные структуры (РКН, МВД, ФСБ и др.) + телекомы

· 5) Авиакопании

ОПАЗДЫВАЮЩИЙ· 1) Медицина. Текущий этап: сбор данных. Региональные дата-центры. НИР.

2) Госуслуги. Рекомендации. Оценка качества. СМЭВ. 300млрд. Электронная Москва.

Page 20: 2015 голограмма коллектива

20

Маркетинговое "давление"· 1) реклама и продвижение вендоров:· Хард+софт: Oracle BigDataAlliance, IBM Netezza (BigInsights),

SAP HANA, EMC Pivotal HD· 2) "вольные" евангелисты:· В. Майер-Шёнбергер, Р. Смолан и др.

· 3) осознание возможностей BigData в обществе, подтверждающие примеры· Статья в Nature (2008) аналогия "большая нефть" – "большие

данные", Гугло-машина, Сноуден

Page 21: 2015 голограмма коллектива

21

Реальные основания для "давления"· Потенциальные рынки данных:· Данные профилей Facebook, LinkedIn, MySpace, VK,

Одноклассники и др.· Данные поисковых запросов (Яндекс.Крипта, Google.Analytics

и др.)

· Рыночные факторы:· Снижение себестоимости хранения, вычислений· Возможность получать "всю" информацию о явлении

(богатство сенсоров)· Отход от структурированности (NoSQL базы) и синхронности

(отход от ACID)· Уход в параллелизм (закон Мура перестал действовать)

Page 22: 2015 голограмма коллектива

Отвечаем на вызов"Кадры решают всё!" (на основе данных)

22

Page 23: 2015 голограмма коллектива

•самая широкая аудитория (школьники, разработчики, бакалавры)•средство привлечения из онлайн в офлайн

Онлайн-курсыbit.ly/IntuitBDA

•вовлекаем в мобильность•готовим для индустрии и для науки

Магистратураbigdatansu.ru

•укрепление научных школАспирантура

•повышение квалификации в области обработки больших данных

Доп. Образованиеexpasoft.com/edu

Образовательная стратегия в Экспасофт

Page 24: 2015 голограмма коллектива

24Орг-формыИППК или ЦДО

НГУГАУ «Центр» - межвуз. маг.КА Сухорукова

Компетенции

ЦЕРННейросет

иФЭЧ

ИЯФСпутникиНейросет

иВоенка

ИАЭFRiS, оптим. алг, онтологии, логикаРаспознавание

ИМБанки данныхCUDA,

DNAБиоинформатика

ИЦиГ, УНИПРО,

НПС АрхивыОнтологии,

логикаИнформатика

ИСИСО РАН

ССКЦИнформатика

ИВТ, ИВМиМГ

СОРМСбор, хранениеБезопасность

Сигнатек?БезопасностьБезопасность

СИБ

ИнициативыМагистерская программа

Аспирантура

Краткосрочные курсы

СХД 1 PbХранение

Кардиология, Радиология

НИИПК?Хранение

Медицина

НИИТО

FRiS, оптим. алг,

онтологии, логика,

управление BDA

Безопасность, медицина, финансы, сервера

Экспасофт

Приборы?

Унискан, ТИОН

ИгрыSlpunk

Игры

AlawarМТСТранзакцииТаргетинг

EyelineБанкиТранзакцииФинансы

ЦФТ?Вычисления, хранение

ИЦКТ

Потребители

?Обработка, образовани

еМедицина, биология, физика, ИТ, и др.

НГУ

КартыГеопространс

твоКарты

DataEast

Page 25: 2015 голограмма коллектива

Первый в России онлайн-курс поBig Data AnalyticsЗагоруйко

Николай Григорьевич

Павловский Евгений

Николаевич

Борисова Ирина

Артёмовна

Аникин ЮрийАлександрович

Зырянов Александр Олегович

д. т. н., академик МАИ, профессор, зав. лаб. анализа

данных ИМ СО РАН

к.ф.-м.н., директор по развитию «Экспасофт»

к.т.н., ассистент кафедры общей

информатики ФИТ НГУ

к.т.н., преподаватель кафедры общей

информатики ФИТ НГУ

Data-аналитик,ООО Экспасофт

Введение в когнитивный анализ данных

Введение в «большие данные»Области применения больших данныхОсновы языка R

Разработка алгоритмов на базе FRiS-функции

Обзор технологий хранения больших данных

Программирование на языке R

Инструменты Data Mining

http://bit.ly/IntuitBDA

Page 26: 2015 голограмма коллектива

Учебный план магистратуры

Page 27: 2015 голограмма коллектива

Data

BUSINESS UNDERSTANDING

DATA UNDERSTANDING

DATA PREPARATION

MODELING

EVALUATION

DEPLOYMENT  

 

 

CRISP-DM

Page 28: 2015 голограмма коллектива

28https://infocus.emc.com/william_schmarzo/bills-most-excellent-data-scientist-adventure/

Page 29: 2015 голограмма коллектива

Команда

29

Page 30: 2015 голограмма коллектива

30

Page 31: 2015 голограмма коллектива

31

Page 32: 2015 голограмма коллектива

Конкурсы· 1е место, 2015, AVITO

· 1е место, 2015, eKapusta

· 4е место среди 619 команд, 2009, Data Mining Cup

32

Page 33: 2015 голограмма коллектива

Чай-перерыв

33

Page 34: 2015 голограмма коллектива

КейсыАнализа больших данных

34

Page 35: 2015 голограмма коллектива

НГУ-Parallels

35

· Прогнозирование нагрузок на сервера по характеру запросов к ним

Препринт научной статьи

Page 36: 2015 голограмма коллектива

Выбор жены

http://www.wired.com/2014/01/how-to-hack-okcupid/all/

Chris McKinlay. Математик, 35 лет. Сайт знакомств OkCupid. Алгоритмы рекомендаций. Послал десятки писем рекомендованным. Сходил на 6 свиданий.Базовый алгоритм OkCupid определил менее 100 анкет (из 80000 в Лос-Анджелесе) с совместимостью более 90%.

Page 37: 2015 голограмма коллектива

Выбор женыPython для обработки анкет.12 ложных своих анкет.Боты для ответов на вопросы (чтобы увидеть ответы просматриваемых). Забанили. Научил их вести себя по-человечески. (Понаблюдал за другом, сымитировал его поведение).Через 3 недели получил 6 000 000 ответов от более чем 20 000 женщин.Не спал ночами, отложил диссертацию.Кластеризация K-Modes.5000 анкет собрал для контроля.Получилось 7 кластеров.

Page 38: 2015 голограмма коллектива

Выбор жены

· Понравилось два кластера. Создал и оптимизировал под них профили A и B.· Text-mining двух кластеров - ключевые интересы.· Бот для обхода страниц. Нашёл свою половину на 88-м свидании. Она написала.

Page 39: 2015 голограмма коллектива

39

Page 40: 2015 голограмма коллектива

40

Навигация· 1839 год. Мори Мэтью Фонтейн, ВМС США, позже начальник архива морских карт в Вашингтоне.

· «Датифицировал» архивы моряков.· «Физическая география моря» в 1855 году

1. Карта навигации, короткие пути (из Нью-Йорка к экватору вместо 40 суток только 24)

2. Потоки течений, океанография3. Закладка трансатлантического

телеграфного кабеля

Page 41: 2015 голограмма коллектива

41

Нефть,это наше всёВостребованы конкурентоспособные решения

Page 42: 2015 голограмма коллектива

42

Восстановление данных фракционного состава добываемой смесиДанные:· 3 исходных параметра ($10k)· 3 целевых параметра ($200k)· 5 участков данных· Частота измерений – раз в минуту· Всего 66052 измерения

12мм 13мм 11мм 12мм 13мм

Page 43: 2015 голограмма коллектива

43

Сравнение алгоритмовАлгоритмы прогнозирования gas oil waterLinearRegression 0,0326 0,1734 0,2018ZeroR 0,0652 0,1022 0,1103M5P 0,0326 0,1695 0,1619MultilayerPerceptron 0,0426 0,3623 0,3484IsotonicRegression 0,06 0,143 0,1439LeastMedSq 0,02 0,281 0,3569PaceRegression 0,0281 0,1993 0,3656RBFNetwork 0,0651 0,1023 0,1105SimpleLinearRegression 0,027 0,1939 0,227SMOreg 0,0229 0,3306 0,4426IBk 0,0635 0,1519 0,1528LWL 0,0633 0,112 0,1164ConjunctiveRule 0,0637 0,1042 0,1173M5Rules 0,0326 0,1695 0,1601DecisionTable 0,062 0,104 0,1124DecisionStump 0,063 0,1099 0,1125REPTree 0,0616 0,1416 0,1595KStar 0,0645 0,1041 0,1124

Page 44: 2015 голограмма коллектива

Неожиданные открытияКейсы из книги«Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.

44

Page 45: 2015 голограмма коллектива

Чем больше общих генов в паре, тем больше вероятность неверности жены

45

Page 46: 2015 голограмма коллектива

Молодцы пускают слюни по поводу спортивных автомобилей

46

Page 47: 2015 голограмма коллектива

Курильщики реже страдают от туннельного синдрома запястья

47

Page 48: 2015 голограмма коллектива

Террористы-смертникижизнь не страхуют

48

Page 49: 2015 голограмма коллектива

После выборов преступность увеличивается

49

Page 50: 2015 голограмма коллектива

Желтые и оранжевые автомобили реже попадают в аварию· реже всего в аварии попадают автомобили оранжевого, желтого, коричневого и фиолетового цвета. Так, на общее количество желтых машин, имеющих страховку, приходится только 1% страховых возмещений, на автомобили оранжевого цвета немного больше — 8%.

· одна из ведущих страховых компаний в России· Часто в аварии попадают машины красных оттенков (в

общем количестве страховых возмещений по ДТП их доля составляет 62%)· Объясняется это тем, что красный выбирают в основном водители

молодые, имеющий маленький водительский стаж.·  Другая возможная причина: красный цвет вызывает у человека

активизацию процессов, возбуждённость.  Поэтому даже, если владелец красного авто и едет спокойно и правила соблюдает, надо быть внимательным к другим участникам дороги. 

50

Page 51: 2015 голограмма коллектива

CAPEX & OPEX

51

Page 52: 2015 голограмма коллектива

Big Data проектысбор данных (CAPEX) • Сервера • Облака • Инфраструктура

извлечение пользы (value) (OPEX) • команда

• Data Scientist • Data Engineer • Manager

• процесс • сбор данных

• инвентаризация источников • доступ к данным

• физический • юридический

• мощности по обработке данных • Hadoop - обрабатываем прямо там, где

хранятся • в облаках • на локальных машинах • аналитические инструменты

• Splunk • PreCog • BigML

Page 53: 2015 голограмма коллектива

Как делает Beeline?

53

Page 54: 2015 голограмма коллектива

BigData-процесс в Вымпелкоме (2014)«Фабрика идей»

• Формализация• Анализ• План

Фабрика идей

• Источники• Пилот• Доработка• Оценка• Выпуск решения

Реализация

•Актуальность•Доступность•Производительность•Масштабируемость•Работа с инцидентами

Результат

54

Page 55: 2015 голограмма коллектива

Секретные ингредиенты от Билайна· Инфраструктура для БД· «Фабрика идей»· Вовлечённость всех подразделений· Команда, мотивированная на результат и открытия· Соответствие потребностям бизнеса

· Получить быстрый результат

55

Page 56: 2015 голограмма коллектива

56https://events.yandex.ru/lib/talks/2948/

, НГУ

Page 57: 2015 голограмма коллектива

Зачем управленцам математика? - HBR• Подучите азы регрессионного анализа,

статистического анализа и планирования экспериментов

• Пройдите программу статистики для руководящих работников или онлайновый курс обучения или поучитесь у своих аналитиков, поработав с ними вместе над проектами

• Обратиться к специалистам по планированию экспериментов (поучаствовать в исследовании)

• Сотрудничайте с аналитиками подходящей специализации

• Гипотезы • формулируйте гипотезы • принимайте решения на данных • эксперимент

• Наладить контакты между аналитиками и всеми

службами (матричная организация) - чтобы были коммуникации

• Сосредоточьтесь на начальной и конечной стадиях • постановка задачи • гипотезы • донесение результатов до заинтересованных

лиц • Задавайте по ходу дела много вопросов

• больше деталей • Создавайте культуру исследования, а не защиты

• поощрять идеи и критику • исследовательский дух • главное - докопаться до истины • не мнения, а анализ и данные

http://bit.ly/HBRbigdata

Page 58: 2015 голограмма коллектива

58

Материалы для повышения квалификации по направлению курса

· Видео лекции ШАД по машинному обучению· http://shad.yandex.ru/lectures/machine_learning.xml

· Курс по большим данным на Интуит· http://bit.ly/IntuitBDA

· Курс по озёрам данных· https://

educast.emc.com/learn/data-lakes-for-big-data-may-june

Курсы на Coursera.org· Introduction to Data Science

· https://www.coursera.org/course/datasci· Machine Learning

· https://www.coursera.org/course/ml· Probabilistic Graphical Models

· https://www.coursera.org/course/pgm· Natural Language processing

· https://www.coursera.org/course/nlp· Data Science Specialization – 9 курсов + проект

· Data Scientist’s Toolbox, R programming, Getting and Cleaning Data, Exploratory Data Analysis, Reproducible Research, Statistical Inference, Regression Models, Practical Machine Learning, Developing Data Product, Capstone Project

· Core Concepts of Data Analysis· https://www.coursera.org/course/datan

Page 59: 2015 голограмма коллектива

Запишитесь на курсТолько хардкор – только офлайн

59

Page 60: 2015 голограмма коллектива

Курс «Аналитика больших данных для бизнеса»

ПН ВТ СР ЧТ ПТ СБ ВС          10:00 –

11:20 

  18:00 – 19:20

  18:00 – 19:20

  11:30 – 13:00

 

  19:30 – 21:00

  19:30 – 21:00

     

60• Диплом НГУ о повышении квалификации на 96 часов• с 20 октября по 20 декабря• Проектная работа над известными кейсами и кейсом вашей

компании

Page 61: 2015 голограмма коллектива

Нити-дисциплины

61

BA Кейсы Проектный цикл

Бизнес-задачи

Бизнес-модели

ML Алгоритмы Модели Критери

и Техники

SE Python SciPy NumPy OWL

Tools

MapReduce Tableau TextMinin

gGreenPlu

m

Page 62: 2015 голограмма коллектива

Роли – голограмма коллектива

BA Кейсы Проектный цикл

Бизнес-задачи

Бизнес-модели

ML Алгоритмы Модели Критери

и Техники

SE Python SciPy NumPy OWL

Tools

MapReduce Tableau TextMinin

gGreenPlu

m

62

Dat

a Sc

ient

ist

CIO

Бизнес-аналитик,

дата-аналитик

Разработчик

DBA

Page 63: 2015 голограмма коллектива

Научитесь делать· Ставить задачи в области больших данных.· Понимать и самостоятельно писать программы на языке Python.

· Работать в студии анализа данных Orange.· Работать с Tableau (визуализация, представление данных).· Представлять результаты анализа внутренним и внешним заказчикам.

63

Page 64: 2015 голограмма коллектива

Принесёте в компанию· Новое понимание ролей всех участников процесса работы с большими данными в компании, завязанное на общие цели.

· Ясное видение конкретных возможностей использования больших данных для решения задач собственной компании.

· Предметные знания всех основных направлений машинного обучения.

· Понимание областей применения «джентельменского набора» алгоритмов анализа данных.

· Понимание создания новых бизнес-моделей на основе данных 64

Page 65: 2015 голограмма коллектива

Ждём вас на курсах

65