90
Голограмма коллектива Руководитель проекта магистерской программы «Аналитика больших массивов данных» в НГУ к.ф.-м.н. Павловский Евгений Николаевич Директор по развитию «Экспасофт» Открытый семинар по кейсам больших данных. Или какая нам от этого польза? 1

Искусственный интеллект и Big Data в бизнесе

Embed Size (px)

Citation preview

1

Голограмма коллективаРуководитель проекта магистерской программы«Аналитика больших массивов данных» в НГУ

к.ф.-м.н. Павловский Евгений НиколаевичДиректор по развитию «Экспасофт»

Открытый семинар по кейсам больших данных.Или какая нам от этого польза?

2010 - …ООО "Экспасофт"ООО "Исследовательские системы"

ЭКСПАСОФТ

1999 - 2003Выпускники НГУ(к.ф.-м.н.)

2003 - 2011ИМ СО РАН, лаборатория анализа данных

История создания

2015 - …Лаборатория аналитики потоковых данных и машинного обучения НГУ2

Экспасофт· 2010, ЛША· «Исследовательские системы», 2011 – н.в.· FRiS – уникальная методология анализа данных,школа Н.Г. Загоруйко

· 18 проектов анализа данных: биоинформатика, медицина, безопасность, нефтедобыча, финансы, ритейл, облака, образование, криминалистика, маркетинг

· Услуги по анализу данных

3

Клиенты и партнеры

4

А.Д.

биоинформатика

медицина

безопасность

криминалистика

нефтедобычафинансы

маркетинг

ритейл

облачныевычисления

образованиеБизнес-домены

5А.Д. – анализ данных

• Сложные продажи• Неочевидная бизнес-польза• НИР и ОКР

Услуги Экспасофта· Построение прогнозных моделей:

· прогнозирование биофизических свойств по аминокислотному составу белков· алгоритм распознавания клиентов, которые воспользуются дополнительными

услугами только после коммуникации с ними· прогнозирование экспрессии генов, связь транскрипционных факторов· распознавание марок автомашин по фотографии· прогнозирование нагрузки на сервера· распознавание и идентификация посетителей сети магазинов· скоринговая модель по микрокредитам

· Программное обеспечение:· библиотека алгоритмов Expasoft FRiS Studio· представление текста в виде сетевой модели, пополнение базы данных

извлечёнными из текстов сущностями и отношениями, поиск по сущностям и отношения

· Образование 6

Машинное обучение

Кластеризация

Распознавание

Прогнозирование

Цензурирование

Выборинформати

вныхпризнаков

7

Феномен Больших данных· 50 лет· 2002, 50% в цифре· 2008, Nature· 2011, McKinsey

8

9

4V· Volume· Объём данных

· Velocity· Скорость создания и обработки данных

· Variety· Разнообразие источников и форм

хранения данных· Value· Ценность

10

11

2014

12

2015

Большие данные – это не только данные· Технологии получения, хранения, обработки, удаления данных· Методы обработки и представления данных· Проблема нехватки ресурсов для обработки· Социальный феномен

· Данные большого объёма, разнообразия, темпа роста, распределённые

· Большой потенциальной ценности

13

14

Изменение парадигм· Объектом деятельности является не программа и код, а гипотезы и данные

15

Изменение парадигм· Больше источников – выше достоверность· Больше данных – выше точность· Больше данных – ниже требования к качеству данных· Высокие требования к быстродействию алгоритмов O(N) или O(NlogN)

· Неперемещаемость данных => параллелизм и вычисления по месту хранения

· Отказ от структурированности => технологии извлечения информации и знаний

16

Проблемы в области Больших данных· Нет культуры обезличивания, передачи данных (ФЗ-152)

· Нет понимания пользы от анализа данных· Недостаточные компетенции в статистике· "Мы закончили университет, сами разберёмся"

· Отсутствие брокеров данных· Проекты по анализу данных имеют высокий риск

· Недостаточно данных

17

Особенностибольших данныхЧем отличаются от маленьких по существу?

18

Отказ от структурированности N = всё

сбор данных впрок не знаем, какие вопросы будем задавать

NoSQL - Not Only SQL: документо-ориентированные, ключ-значение Отказ от структуры Отказ от консистентности в пользу доступности или параллелизма

HDFS – Hadoop Distributed File System Параллелизм обработки Резервирование 19

Неперемещаемость · идея использовать вычислительные мощности на месте хранения

· MapReduce · Hadoop

· TeraData Hortonworks · IBM BigInsights · Cloudera

· Spark

· реально быстро!· (см. Вымпелком (Сибирь): «Мониторинг параметров SLA для системы биллинга реального времени »)

20

Новые источники достоверных данных· Сенсоры: прогноз Gartner - к 2020 году 90% всей информации будет между устройствами.

· Социальные сети (скоринг по соц. профилю, RTB)

· Открытые данные: http://data.gov.ru/, http://data.mos.ru/

21

Сокращение сроков вычислений · in-memory · SAP HANA

· 256Tb RAM· Oracle TimesTen· Опыт в РФ

· СургутНефтегаз · опыт перевода на SAP HANA (“Real-Time Enterprise 2.0: A Big ли Data?”)· сокращение сроков формирования отчётов на порядки

· MapReduce · Hadoop

22

Статистификация · обращение к статистическим методам

· обращение к интеллектуальному анализу данных (Data Mining)

· поиск озарений (insights) · неожиданные связи в данных · скрытые закономерности

· отказ от причинности

23

24

Какие отрасли первыми внедряют технологии?наличие реального спроса в РФ

25

СпросРЕАЛЬНЫЙ· 1) Банковский сектор, скоринг· 2) Real time bidding (RTB) платформы

· 3) Микрофинансы· 4) Ведомственные структуры (РКН, МВД, ФСБ и др.)

· 5) телекомы· 6) Авиакопании

· 7) Медицина. Текущий этап: сбор данных. Региональные дата-центры. НИР.

8) Госуслуги. Рекомендации. Оценка качества. СМЭВ. 300млрд. Электронная Москва.

26

Маркетинговое "давление"· 1) реклама и продвижение вендоров:· Хард+софт:Oracle, IBM, SAP, EMC, Microsoft2) евангелисты:· В. Майер-Шёнбергер, Р. Смолан и др.

· 3) осознание возможностей BigData в обществе, подтверждающие примеры· Статья в Nature (2008) аналогия "большая нефть" – "большие

данные", Гугло-машина, Сноуден

27

Реальные основания для "давления"· Потенциальные рынки данных:· Данные профилей Facebook, LinkedIn, MySpace, VK,

Одноклассники и др.· Данные поисковых запросов (Яндекс.Крипта, Google.Analytics

и др.)

· Рыночные факторы:· Снижение себестоимости хранения, вычислений· Возможность получать "всю" информацию о явлении

(богатство сенсоров)· Отход от структурированности (NoSQL базы) и синхронности

(отход от ACID)· Уход в параллелизм (закон Мура перестал действовать)

Отвечаем на вызов"Кадры решают всё!" (на основе данных)

28

Магистерские программыВШЭ:· Big Data Systems· Науки о данных

МГУ:· «Интеллектуальный анализ больших

данных»· «Большие данные: инфраструктуры и

методы решения задач»НГУ· Big Data Analytics· Компьютерное моделирование 29

ОнлайнОнлайн: - от недели до полугода· Coursera, edX (http://rusbase.com/list/bigdatye-kursy/) · Интуит (Введение в аналитику больших массивов данных) http://bit.ly/IntuitBDA

30

Доп. образование1 неделя - 3 месяца - 2 года· ШАД – https://yandexdataschool.ru/

· Цифровой октябрь – http://newprolab.ru (для программирования)

· Билайн - http://bigdata.beeline.digital/datamba (для бизнес-задач)

· Экспасофт – http://expasoft.com/edu/ (для бизнес-задач)

31

•самая широкая аудитория (школьники, разработчики, бакалавры)•средство привлечения из онлайн в офлайн

Онлайн-курсыbit.ly/IntuitBDA

•вовлекаем в мобильность•готовим для индустрии и для науки

Магистратураbigdatansu.ru

•укрепление научных школАспирантура

•повышение квалификации в области обработки больших данных

Доп. Образованиеexpasoft.com/edu

Образовательная стратегия в Экспасофт

32

33Орг-формыИППК или ЦДО

НГУОбразовательный центр ЭкспасофтКА Сухорукова

Компетенции

ЦЕРННейросет

иФЭЧ

ИЯФСпутникиНейросет

иВоенка

ИАЭFRiS, оптим. алг, онтологии, логикаРаспознавание

ИМБанки данныхCUDA,

DNAБиоинформатика

ИЦиГ, УНИПРО,

НПС АрхивыОнтологии,

логикаИнформатика

ИСИСО РАН

ССКЦИнформатикаГеофизикаАстрономия

ИВТ, ИВМиМГ

СОРМСбор, хранениеБезопасность

Сигнатек?БезопасностьБезопасность

СИБ

ИнициативыМагистерская программа

Аспирантура

Краткосрочные курсы

СХД 1 PbХранение

Кардиология, Радиология

НИИПК?Хранение

Медицина

НИИТО

FRiS, оптим. алг,

онтологии, логика,

управление BDA

Безопасность, медицина, финансы, сервера

Экспасофт

ПриборыВоздух

Унискан, ТИОН

ИгрыSplunk

Игры

AlawarМТСТранзакцииТаргетинг, чат-боты

EyelineБанкиТранзакцииФинансы

ЦФТ?Вычисления, хранение

ИЦКТ

Потребители

?Обработка, образовани

еМедицина, биология, физика, ИТ, и др.

НГУ

КартыГеопространс

твоКарты

DataEast

Первый в России онлайн-курс поBig Data AnalyticsЗагоруйко

Николай Григорьевич

Павловский Евгений

Николаевич

Борисова Ирина

Артёмовна

Аникин ЮрийАлександрович

Зырянов Александр Олегович

д. т. н., академик МАИ, профессор, зав. лаб. анализа

данных ИМ СО РАН

к.ф.-м.н., директор по развитию «Экспасофт»

к.т.н., ассистент кафедры общей

информатики ФИТ НГУ

к.т.н., преподаватель кафедры общей

информатики ФИТ НГУ

Data-аналитик,ООО Экспасофт

Введение в когнитивный анализ данных

Введение в «большие данные»Области применения больших данныхОсновы языка R

Разработка алгоритмов на базе FRiS-функции

Обзор технологий хранения больших данных

Программирование на языке R

Инструменты Data Mining

http://bit.ly/IntuitBDA

34

Учебный план магистратуры

35

Data

BUSINESS UNDERSTANDING

DATA UNDERSTANDING

DATA PREPARATION

MODELING

EVALUATION

DEPLOYMENT  

 

 

CRISP-DM 36

Copyright © 2012 EMC Corporation. All Rights Reserved.

EMC2 PROVEN PROFESSIONAL

Data Analytics Lifecycle

37

Discovery

Operationalize

Model Planning

Data Prep

Model Building

Communicate Results

Do I have enough information to draft an analytic plan and share

for peer review?

Do I have enough

good quality data to start building the

model?

Do I have a good idea about the type

of model to try? Can I refine the analytic plan?

Is the model robust enough?

Have we failed for sure?

1

2

3

4

6

5

Команда

38

39

40

Конкурсы· 1е место, 2015, AVITO

· 1е место, 2015, eKapusta

· 4е место среди 619 команд, 2009, Data Mining Cup

41

Чай-перерыв

42

КейсыАнализа больших данных

43

НГУ-Parallels

44

· Прогнозирование нагрузок на сервера по характеру запросов к ним

Выбор жены

http://www.wired.com/2014/01/how-to-hack-okcupid/all/

Chris McKinlay. Математик, 35 лет. Сайт знакомств OkCupid. Алгоритмы рекомендаций. Послал десятки писем рекомендованным. Сходил на 6 свиданий.Базовый алгоритм OkCupid определил менее 100 анкет (из 80000 в Лос-Анджелесе) с совместимостью более 90%.

45

Выбор женыPython для обработки анкет.12 ложных своих анкет.Боты для ответов на вопросы (чтобы увидеть ответы просматриваемых). Забанили. Научил их вести себя по-человечески. (Понаблюдал за другом, сымитировал его поведение).Через 3 недели получил 6 000 000 ответов от более чем 20 000 женщин.Не спал ночами, отложил диссертацию.Кластеризация K-Modes.5000 анкет собрал для контроля.Получилось 7 кластеров.

46

Выбор жены

· Понравилось два кластера. Создал и оптимизировал под них профили A и B.· Text-mining двух кластеров - ключевые интересы.· Бот для обхода страниц. Нашёл свою половину на 88-м свидании. Она написала.47

48

49

Навигация· 1839 год. Мори Мэтью Фонтейн, ВМС США, позже начальник архива морских карт в Вашингтоне.

· «Датифицировал» архивы моряков.· «Физическая география моря» в 1855 году

1. Карта навигации, короткие пути (из Нью-Йорка к экватору вместо 40 суток только 24)

2. Потоки течений, океанография3. Закладка трансатлантического

телеграфного кабеля

50

Нефть,это наше всёВостребованы конкурентоспособные решения

51

Восстановление данных фракционного состава добываемой смесиДанные:· 3 исходных параметра ($10k)· 3 целевых параметра ($200k)· 5 участков данных· Частота измерений – раз в минуту· Всего 66052 измерения

12мм 13мм 11мм 12мм 13мм

52

Сравнение алгоритмовАлгоритмы прогнозирования gas oil waterLinearRegression 0,0326 0,1734 0,2018ZeroR 0,0652 0,1022 0,1103M5P 0,0326 0,1695 0,1619MultilayerPerceptron 0,0426 0,3623 0,3484IsotonicRegression 0,06 0,143 0,1439LeastMedSq 0,02 0,281 0,3569PaceRegression 0,0281 0,1993 0,3656RBFNetwork 0,0651 0,1023 0,1105SimpleLinearRegression 0,027 0,1939 0,227SMOreg 0,0229 0,3306 0,4426IBk 0,0635 0,1519 0,1528LWL 0,0633 0,112 0,1164ConjunctiveRule 0,0637 0,1042 0,1173M5Rules 0,0326 0,1695 0,1601DecisionTable 0,062 0,104 0,1124DecisionStump 0,063 0,1099 0,1125REPTree 0,0616 0,1416 0,1595KStar 0,0645 0,1041 0,1124

Распознавание изображений Распознавание звуков Машинное чтение текстов

Глубинное обучение

https://expasoft.com/services/ 53

Распознавание лиц

ВерификацияТочность на LWF = 98%

=

ИдентификацияТочность на LFW = 86%

Травина И. А.

ПермяковР. А.

Касперская Н.И

54

Распознавание пола и возраста

Age: 55Gender: Male

Age: 35Gender: Male

Age: 47Gender: Female

Age: 39Gender: Female

55

Распознавание документов

56

Детектирование людей и автомобилей

57

Распознавание звуковых событий

плач

лай

сирена

58

GPU

Мобильные нейронные сети$2 000

387,6 Вт

270×100×35 мм

детектирование пешеходов

3,5 Вт

23×23 мм

72%детектирование лиц 91%

Обработка видео в режиме реального времени

78%95%

ARM

$50

59

Семантическая сегментация

http://arxiv.org/pdf/1511.00561v2.pdf 60

Раскраски

http://tinyclouds.org/colorize/ 61

Skull surface restore

62No formulaeNo negative examplesNeural networks, autoencoders

Articles for revision

http://karpathy.github.io/2015/05/21/rnn-effectiveness/ 63

Пушкин A.I.Зафонствуя попруг,Ивисшивый чела,На воспопе днего,Я могина бесслужел,Катирей свети довой,Из увядебиле меня,И на гразой шле, далоднойВольностью примстают;Я, водешил перцов миренья?

Н.И.Путинцев, лаборатория аналитики потоковых данных и машинного обучения ММФ НГУ64

Неожиданные открытияКейсы из книги«Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.

65

Генетика обуславливает неверность жен· В переделах определённого генетического кластера наличие большего количества генов, общих для гетеросексуальной пары, повышает вероятность женской неверности

· Университет Нью-Мексико· Мы запрограммированы на избегание инбридинга (скрещивания близко-родственных форм в пределах одной популяции), поскольку генетическое многообразие имеет важные преимущества

66Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.

Молодые люди пускают слюни по поводу спортивных автомобилей· У студентов мужского пола вырабатывается заметно больше слюны, когда им показывают изображения спортивных автомобилей или денег

· Школа менеджмента Келлога Северо-Западного университета США

· Потребительские импульсы психологически сходны с чувством голода

67Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.

Курильщики реже страдают от заболеваний, вызванных повторяющимися движениями· В некоторых видах рабочего окружения курящие люди менее

подвержены развитию туннельного синдрома запястья· Крупная столичная газета, исследовавшая состояние здоровья своего персонала

· Курильщики чаще делают перерывы в работе

68Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.

Террористы-смертникине страхуют свою жизнь· Анализ банковских данных показал, что предполагаемые террористы обычно не имеют полиса страхования жизни

· Крупный британский банк· Самоубийство аннулирует полис страхования жизни

69Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.

Уровень преступностиповышается после выборов· В Индии уровень преступности снижается в год выборов, но сразу после выборов резко возрастает

· Исследователи из Индии· Действующие политики активизируют борьбу с преступностью, чтобы обеспечить себе переизбрание

70Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.

Желтые и оранжевые автомобили реже попадают в аварию· реже всего в аварии попадают автомобили оранжевого, желтого, коричневого и фиолетового цвета. Так, на общее количество желтых машин, имеющих страховку, приходится только 1% страховых возмещений, на автомобили оранжевого цвета немного больше — 8%.

· одна из ведущих страховых компаний в России· Часто в аварии попадают машины красных оттенков (в

общем количестве страховых возмещений по ДТП их доля составляет 62%)· Объясняется это тем, что красный выбирают в основном водители

молодые, имеющий маленький водительский стаж.·  Другая возможная причина: красный цвет вызывает у человека

активизацию процессов, возбуждённость.  Поэтому даже, если владелец красного авто и едет спокойно и правила соблюдает, надо быть внимательным к другим участникам дороги. 

71

CAPEX & OPEX

72

Big Data проектысбор данных (CAPEX) • Сервера • Облака • Инфраструктура

извлечение пользы (value) (OPEX) • команда

• Data Scientist • Data Engineer • Manager

• процесс • сбор данных

• инвентаризация источников • доступ к данным

• физический • юридический

• мощности по обработке данных • Hadoop - обрабатываем прямо там, где

хранятся • в облаках • на локальных машинах • аналитические инструменты

• Splunk • PreCog • BigML 73

74https://events.yandex.ru/lib/talks/2948/

, НГУ

Зачем управленцам математика? - HBR• Подучите азы регрессионного анализа,

статистического анализа и планирования экспериментов

• Пройдите программу статистики для руководящих работников или онлайновый курс обучения или поучитесь у своих аналитиков, поработав с ними вместе над проектами

• Обратиться к специалистам по планированию экспериментов (поучаствовать в исследовании)

• Сотрудничайте с аналитиками подходящей специализации

• Гипотезы • формулируйте гипотезы • принимайте решения на данных • эксперимент

• Наладить контакты между аналитиками и всеми

службами (матричная организация) - чтобы были коммуникации

• Сосредоточьтесь на начальной и конечной стадиях

• постановка задачи • гипотезы • донесение результатов до заинтересованных

лиц • Задавайте по ходу дела много вопросов

• больше деталей • Создавайте культуру исследования, а не защиты

• поощрять идеи и критику • исследовательский дух • главное - докопаться до истины • не мнения, а анализ и данные

http://bit.ly/HBRbigdata 75

76

Материалы для повышения квалификации по направлению курса

· Видео лекции ШАД по машинному обучению· http://shad.yandex.ru/lectures/machine_learning.xml

· Курс по большим данным на Интуит· http://bit.ly/IntuitBDA

· Курс по озёрам данных· https://educast.emc.com/learn/data-lakes-for-big-data-may-june

Курсы на Coursera.org· Introduction to Data Science

· https://www.coursera.org/course/datasci· Machine Learning

· https://www.coursera.org/course/ml· Probabilistic Graphical Models

· https://www.coursera.org/course/pgm· Natural Language processing

· https://www.coursera.org/course/nlp· Data Science Specialization – 9 курсов + проект

· Data Scientist’s Toolbox, R programming, Getting and Cleaning Data, Exploratory Data Analysis, Reproducible Research, Statistical Inference, Regression Models, Practical Machine Learning, Developing Data Product, Capstone Project

· Core Concepts of Data Analysis· https://www.coursera.org/course/datan

Запишитесь на курсТолько хардкор – только офлайн

77

Курс «Аналитика больших данных для бизнеса»

ПН ВТ СР ЧТ ПТ СБ ВС          10:00 –

11:20 

  18:00 – 19:20

  18:00 – 19:20

  11:30 – 13:00

 

  19:30 – 21:00

  19:30 – 21:00

     

78• Диплом НГУ о повышении квалификации на 96 часов• с 20 ноября по 20 января• Проектная работа над известными кейсами и кейсом вашей

компании

Нити-дисциплины

79

BA Кейсы Проектный цикл

Бизнес-задачи

Бизнес-модели

ML Алгоритмы Модели Критери

и Техники

SE Python SciPy NumPy OWL

Tools

MapReduce Tableau TextMinin

gGreenPlu

m

Роли – голограмма коллектива

BA Кейсы Проектный цикл

Бизнес-задачи

Бизнес-модели

ML Алгоритмы Модели Критери

и Техники

SE Python SciPy NumPy OWL

Tools

MapReduce Tableau TextMinin

gGreenPlu

m

80

Dat

a Sc

ient

ist

CIO

Бизнес-аналитик,

дата-аналитик

Разработчик

DBA

Научитесь делать· Ставить задачи в области больших данных.· Понимать и самостоятельно писать программы на языке Python.

· Работать с Tableau (визуализация, представление данных).· Представлять результаты анализа внутренним и внешним заказчикам.

81

Принесёте в компанию· Новое понимание ролей всех участников процесса работы с большими данными в компании, завязанное на общие цели.

· Ясное видение конкретных возможностей использования больших данных для решения задач собственной компании.

· Предметные знания всех основных направлений машинного обучения.

· Понимание областей применения «джентельменского набора» алгоритмов анализа данных.

· Понимание создания новых бизнес-моделей на основе данных 82

Заказчики· Унискан, Вымпелком, Сигнатек, Битриксоид, Агентство инвестиционного развития Новосибирской области, The Invaders, Explainy, ОптиПлат, УНИПРО.

· ИТ-кластер НСО – 10 мест

83

Оценка результатовПК-1 Понимать возможности технологий анализа

больших данных при проведении бизнес-анализа.

ПК-2 Способность принимать решения на основе данных

ПК-3 Знать: основные элементы процесса анализа больших данных, основные подходы к обработке больших массивов данных.

ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-32 3 2 2 1 3 3 3 3 2,3 2,3 2,72 2 2 2 1 3 3 3 3 2,3 2,0 2,71 1 1 2 1 3 3 3 3 2,0 1,7 2,32 3 2 2 2 2 3 3 3 2,3 2,7 2,30 1 0 3 3 3 1,5 2,0 1,52 0 1 3 3 3 2,5 1,5 2,0

0 1 1 3 2 3 2 2 1 3 3 3 2,0 2,0 2,01 2 2 3 2 3 1 2 2 3 3 3 2,0 2,3 2,5

1,3 1,4 1,3 2,1 1,4 3,0 1,5 2,0 1,8 3,0 3,0 3,0 2,0 2,0 2,30,9139 1,1507 0,9139 0,5394 0,6742 0 1,069 0,5345 1,2817 0 0 0 0,35166 0,473021 0,493741

3 4 3 0 0 0 2 0 2 0 0 0 5 4 55 4 5 1 7 0 1 1 1 0 0 0 7 12 63 2 3 6 2 0 4 7 2 0 0 0 13 11 51 2 1 2 1 9 1 1 3 12 12 12 16 16 25

2 3 2 2 1 3 3 3 3 2,3 2,3 2,72 2 2 2 1 3 3 3 3 2,3 2,0 2,71 1 1 2 1 3 3 3 3 2,0 1,7 2,32 3 2 2 2 2 3 3 3 2,3 2,7 2,30 1 0 3 3 3 1,5 2,0 1,52 0 1 3 3 3 2,5 1,5 2,0

3 3 3 1 3 3 3 3 3 2,3 3,0 3,02 0 0 2 1 3 0 3 0 3 3 3 1,8 1,8 1,51 1 1 2 1 3 2 2 3 3 3 3 2,0 1,8 2,51 0 2 2 1 3 3 1 3 3 3 3 2,3 1,3 2,81 0 1 2 1 3 2 2 3 3 3 3 2,0 1,5 2,50 2 0 2 1 3 0 2 0 3 3 3 1,3 2,0 1,50 1 1 3 2 3 2 2 1 3 3 3 2,0 2,0 2,01 2 2 3 2 3 1 2 2 3 3 3 2,0 2,3 2,5

1,3 1,4 1,3 2,1 1,4 3,0 1,5 2,0 1,8 3,0 3,0 3,0 2,0 2,0 2,30,9139 1,1507 0,9139 0,5394 0,6742 0 1,069 0,5345 1,2817 0 0 0 0,35166 0,473021 0,493741

3 4 3 0 0 0 2 0 2 0 0 0 5 4 55 4 5 1 7 0 1 1 1 0 0 0 7 12 63 2 3 6 2 0 4 7 2 0 0 0 13 11 51 2 1 2 1 9 1 1 3 12 12 12 16 16 25

Подготовлено 6 проектов по анализу данных, по задачам компаний

84

85

86(с) Пресс-служба НГУ

Работали над курсом

НикитаКрутиковдизайнер

Магистрант НГУ

БаирТучиновадминистрирование

Операционный директор

87

Ждём вас на курсахhttp://bit.ly/ABDpark

88

Зафолловить

89

· https://vk.com/siberiadatamining · https://vk.com/ml_shad_nsk· https://vk.com/deeplearning · https://www.facebook.com/groups/siberiandatascience

http://www.kdnuggets.com/

Домашнее задание №1· Прочитать статью:

· F. Jack Smith. Data Science As An Academic Discipline // Data Science Journal, Volume 5, 19 October 2006. URL: http://www.webcitation.org/6Dy5h9X14

· Выделить основные тезисы статьи.

· Написать эссе:· 1) привести аргументы «за»,· 2) оспорить.· Ответить на вопросы:

· В чём отличие Data Science от Computer Science?· В чём отличие Computer Science от Software Engineering?· В чём отличие Data Scientist от Data Engineer и Data Analyst?

· Прислать эссе до 18:00 20.11.2016 на адрес [email protected] с темой «эссе на тему Data Science»

90