Upload
expasoft
View
167
Download
4
Embed Size (px)
Citation preview
1
Голограмма коллективаРуководитель проекта магистерской программы«Аналитика больших массивов данных» в НГУ
к.ф.-м.н. Павловский Евгений НиколаевичДиректор по развитию «Экспасофт»
Открытый семинар по кейсам больших данных.Или какая нам от этого польза?
2010 - …ООО "Экспасофт"ООО "Исследовательские системы"
ЭКСПАСОФТ
1999 - 2003Выпускники НГУ(к.ф.-м.н.)
2003 - 2011ИМ СО РАН, лаборатория анализа данных
История создания
2015 - …Лаборатория аналитики потоковых данных и машинного обучения НГУ2
Экспасофт· 2010, ЛША· «Исследовательские системы», 2011 – н.в.· FRiS – уникальная методология анализа данных,школа Н.Г. Загоруйко
· 18 проектов анализа данных: биоинформатика, медицина, безопасность, нефтедобыча, финансы, ритейл, облака, образование, криминалистика, маркетинг
· Услуги по анализу данных
3
А.Д.
биоинформатика
медицина
безопасность
криминалистика
нефтедобычафинансы
маркетинг
ритейл
облачныевычисления
образованиеБизнес-домены
5А.Д. – анализ данных
• Сложные продажи• Неочевидная бизнес-польза• НИР и ОКР
Услуги Экспасофта· Построение прогнозных моделей:
· прогнозирование биофизических свойств по аминокислотному составу белков· алгоритм распознавания клиентов, которые воспользуются дополнительными
услугами только после коммуникации с ними· прогнозирование экспрессии генов, связь транскрипционных факторов· распознавание марок автомашин по фотографии· прогнозирование нагрузки на сервера· распознавание и идентификация посетителей сети магазинов· скоринговая модель по микрокредитам
· Программное обеспечение:· библиотека алгоритмов Expasoft FRiS Studio· представление текста в виде сетевой модели, пополнение базы данных
извлечёнными из текстов сущностями и отношениями, поиск по сущностям и отношения
· Образование 6
Машинное обучение
Кластеризация
Распознавание
Прогнозирование
Цензурирование
Выборинформати
вныхпризнаков
7
9
4V· Volume· Объём данных
· Velocity· Скорость создания и обработки данных
· Variety· Разнообразие источников и форм
хранения данных· Value· Ценность
Большие данные – это не только данные· Технологии получения, хранения, обработки, удаления данных· Методы обработки и представления данных· Проблема нехватки ресурсов для обработки· Социальный феномен
· Данные большого объёма, разнообразия, темпа роста, распределённые
· Большой потенциальной ценности
13
15
Изменение парадигм· Больше источников – выше достоверность· Больше данных – выше точность· Больше данных – ниже требования к качеству данных· Высокие требования к быстродействию алгоритмов O(N) или O(NlogN)
· Неперемещаемость данных => параллелизм и вычисления по месту хранения
· Отказ от структурированности => технологии извлечения информации и знаний
16
Проблемы в области Больших данных· Нет культуры обезличивания, передачи данных (ФЗ-152)
· Нет понимания пользы от анализа данных· Недостаточные компетенции в статистике· "Мы закончили университет, сами разберёмся"
· Отсутствие брокеров данных· Проекты по анализу данных имеют высокий риск
· Недостаточно данных
Отказ от структурированности N = всё
сбор данных впрок не знаем, какие вопросы будем задавать
NoSQL - Not Only SQL: документо-ориентированные, ключ-значение Отказ от структуры Отказ от консистентности в пользу доступности или параллелизма
HDFS – Hadoop Distributed File System Параллелизм обработки Резервирование 19
Неперемещаемость · идея использовать вычислительные мощности на месте хранения
· MapReduce · Hadoop
· TeraData Hortonworks · IBM BigInsights · Cloudera
· Spark
· реально быстро!· (см. Вымпелком (Сибирь): «Мониторинг параметров SLA для системы биллинга реального времени »)
20
Новые источники достоверных данных· Сенсоры: прогноз Gartner - к 2020 году 90% всей информации будет между устройствами.
· Социальные сети (скоринг по соц. профилю, RTB)
· Открытые данные: http://data.gov.ru/, http://data.mos.ru/
21
Сокращение сроков вычислений · in-memory · SAP HANA
· 256Tb RAM· Oracle TimesTen· Опыт в РФ
· СургутНефтегаз · опыт перевода на SAP HANA (“Real-Time Enterprise 2.0: A Big ли Data?”)· сокращение сроков формирования отчётов на порядки
· MapReduce · Hadoop
22
Статистификация · обращение к статистическим методам
· обращение к интеллектуальному анализу данных (Data Mining)
· поиск озарений (insights) · неожиданные связи в данных · скрытые закономерности
· отказ от причинности
23
25
СпросРЕАЛЬНЫЙ· 1) Банковский сектор, скоринг· 2) Real time bidding (RTB) платформы
· 3) Микрофинансы· 4) Ведомственные структуры (РКН, МВД, ФСБ и др.)
· 5) телекомы· 6) Авиакопании
· 7) Медицина. Текущий этап: сбор данных. Региональные дата-центры. НИР.
8) Госуслуги. Рекомендации. Оценка качества. СМЭВ. 300млрд. Электронная Москва.
26
Маркетинговое "давление"· 1) реклама и продвижение вендоров:· Хард+софт:Oracle, IBM, SAP, EMC, Microsoft2) евангелисты:· В. Майер-Шёнбергер, Р. Смолан и др.
· 3) осознание возможностей BigData в обществе, подтверждающие примеры· Статья в Nature (2008) аналогия "большая нефть" – "большие
данные", Гугло-машина, Сноуден
27
Реальные основания для "давления"· Потенциальные рынки данных:· Данные профилей Facebook, LinkedIn, MySpace, VK,
Одноклассники и др.· Данные поисковых запросов (Яндекс.Крипта, Google.Analytics
и др.)
· Рыночные факторы:· Снижение себестоимости хранения, вычислений· Возможность получать "всю" информацию о явлении
(богатство сенсоров)· Отход от структурированности (NoSQL базы) и синхронности
(отход от ACID)· Уход в параллелизм (закон Мура перестал действовать)
Магистерские программыВШЭ:· Big Data Systems· Науки о данных
МГУ:· «Интеллектуальный анализ больших
данных»· «Большие данные: инфраструктуры и
методы решения задач»НГУ· Big Data Analytics· Компьютерное моделирование 29
ОнлайнОнлайн: - от недели до полугода· Coursera, edX (http://rusbase.com/list/bigdatye-kursy/) · Интуит (Введение в аналитику больших массивов данных) http://bit.ly/IntuitBDA
30
Доп. образование1 неделя - 3 месяца - 2 года· ШАД – https://yandexdataschool.ru/
· Цифровой октябрь – http://newprolab.ru (для программирования)
· Билайн - http://bigdata.beeline.digital/datamba (для бизнес-задач)
· Экспасофт – http://expasoft.com/edu/ (для бизнес-задач)
31
•самая широкая аудитория (школьники, разработчики, бакалавры)•средство привлечения из онлайн в офлайн
Онлайн-курсыbit.ly/IntuitBDA
•вовлекаем в мобильность•готовим для индустрии и для науки
Магистратураbigdatansu.ru
•укрепление научных школАспирантура
•повышение квалификации в области обработки больших данных
Доп. Образованиеexpasoft.com/edu
Образовательная стратегия в Экспасофт
32
33Орг-формыИППК или ЦДО
НГУОбразовательный центр ЭкспасофтКА Сухорукова
Компетенции
ЦЕРННейросет
иФЭЧ
ИЯФСпутникиНейросет
иВоенка
ИАЭFRiS, оптим. алг, онтологии, логикаРаспознавание
ИМБанки данныхCUDA,
DNAБиоинформатика
ИЦиГ, УНИПРО,
НПС АрхивыОнтологии,
логикаИнформатика
ИСИСО РАН
ССКЦИнформатикаГеофизикаАстрономия
ИВТ, ИВМиМГ
СОРМСбор, хранениеБезопасность
Сигнатек?БезопасностьБезопасность
СИБ
ИнициативыМагистерская программа
Аспирантура
Краткосрочные курсы
СХД 1 PbХранение
Кардиология, Радиология
НИИПК?Хранение
Медицина
НИИТО
FRiS, оптим. алг,
онтологии, логика,
управление BDA
Безопасность, медицина, финансы, сервера
Экспасофт
ПриборыВоздух
Унискан, ТИОН
ИгрыSplunk
Игры
AlawarМТСТранзакцииТаргетинг, чат-боты
EyelineБанкиТранзакцииФинансы
ЦФТ?Вычисления, хранение
ИЦКТ
Потребители
?Обработка, образовани
еМедицина, биология, физика, ИТ, и др.
НГУ
КартыГеопространс
твоКарты
DataEast
Первый в России онлайн-курс поBig Data AnalyticsЗагоруйко
Николай Григорьевич
Павловский Евгений
Николаевич
Борисова Ирина
Артёмовна
Аникин ЮрийАлександрович
Зырянов Александр Олегович
д. т. н., академик МАИ, профессор, зав. лаб. анализа
данных ИМ СО РАН
к.ф.-м.н., директор по развитию «Экспасофт»
к.т.н., ассистент кафедры общей
информатики ФИТ НГУ
к.т.н., преподаватель кафедры общей
информатики ФИТ НГУ
Data-аналитик,ООО Экспасофт
Введение в когнитивный анализ данных
Введение в «большие данные»Области применения больших данныхОсновы языка R
Разработка алгоритмов на базе FRiS-функции
Обзор технологий хранения больших данных
Программирование на языке R
Инструменты Data Mining
http://bit.ly/IntuitBDA
34
Data
BUSINESS UNDERSTANDING
DATA UNDERSTANDING
DATA PREPARATION
MODELING
EVALUATION
DEPLOYMENT
CRISP-DM 36
Copyright © 2012 EMC Corporation. All Rights Reserved.
EMC2 PROVEN PROFESSIONAL
Data Analytics Lifecycle
37
Discovery
Operationalize
Model Planning
Data Prep
Model Building
Communicate Results
Do I have enough information to draft an analytic plan and share
for peer review?
Do I have enough
good quality data to start building the
model?
Do I have a good idea about the type
of model to try? Can I refine the analytic plan?
Is the model robust enough?
Have we failed for sure?
1
2
3
4
6
5
Конкурсы· 1е место, 2015, AVITO
· 1е место, 2015, eKapusta
· 4е место среди 619 команд, 2009, Data Mining Cup
41
Выбор жены
http://www.wired.com/2014/01/how-to-hack-okcupid/all/
Chris McKinlay. Математик, 35 лет. Сайт знакомств OkCupid. Алгоритмы рекомендаций. Послал десятки писем рекомендованным. Сходил на 6 свиданий.Базовый алгоритм OkCupid определил менее 100 анкет (из 80000 в Лос-Анджелесе) с совместимостью более 90%.
45
Выбор женыPython для обработки анкет.12 ложных своих анкет.Боты для ответов на вопросы (чтобы увидеть ответы просматриваемых). Забанили. Научил их вести себя по-человечески. (Понаблюдал за другом, сымитировал его поведение).Через 3 недели получил 6 000 000 ответов от более чем 20 000 женщин.Не спал ночами, отложил диссертацию.Кластеризация K-Modes.5000 анкет собрал для контроля.Получилось 7 кластеров.
46
Выбор жены
· Понравилось два кластера. Создал и оптимизировал под них профили A и B.· Text-mining двух кластеров - ключевые интересы.· Бот для обхода страниц. Нашёл свою половину на 88-м свидании. Она написала.47
49
Навигация· 1839 год. Мори Мэтью Фонтейн, ВМС США, позже начальник архива морских карт в Вашингтоне.
· «Датифицировал» архивы моряков.· «Физическая география моря» в 1855 году
1. Карта навигации, короткие пути (из Нью-Йорка к экватору вместо 40 суток только 24)
2. Потоки течений, океанография3. Закладка трансатлантического
телеграфного кабеля
51
Восстановление данных фракционного состава добываемой смесиДанные:· 3 исходных параметра ($10k)· 3 целевых параметра ($200k)· 5 участков данных· Частота измерений – раз в минуту· Всего 66052 измерения
12мм 13мм 11мм 12мм 13мм
52
Сравнение алгоритмовАлгоритмы прогнозирования gas oil waterLinearRegression 0,0326 0,1734 0,2018ZeroR 0,0652 0,1022 0,1103M5P 0,0326 0,1695 0,1619MultilayerPerceptron 0,0426 0,3623 0,3484IsotonicRegression 0,06 0,143 0,1439LeastMedSq 0,02 0,281 0,3569PaceRegression 0,0281 0,1993 0,3656RBFNetwork 0,0651 0,1023 0,1105SimpleLinearRegression 0,027 0,1939 0,227SMOreg 0,0229 0,3306 0,4426IBk 0,0635 0,1519 0,1528LWL 0,0633 0,112 0,1164ConjunctiveRule 0,0637 0,1042 0,1173M5Rules 0,0326 0,1695 0,1601DecisionTable 0,062 0,104 0,1124DecisionStump 0,063 0,1099 0,1125REPTree 0,0616 0,1416 0,1595KStar 0,0645 0,1041 0,1124
Распознавание изображений Распознавание звуков Машинное чтение текстов
Глубинное обучение
https://expasoft.com/services/ 53
Распознавание лиц
ВерификацияТочность на LWF = 98%
≠
=
ИдентификацияТочность на LFW = 86%
Травина И. А.
ПермяковР. А.
Касперская Н.И
54
Распознавание пола и возраста
Age: 55Gender: Male
Age: 35Gender: Male
Age: 47Gender: Female
Age: 39Gender: Female
55
GPU
Мобильные нейронные сети$2 000
387,6 Вт
270×100×35 мм
детектирование пешеходов
3,5 Вт
23×23 мм
72%детектирование лиц 91%
Обработка видео в режиме реального времени
78%95%
ARM
$50
59
Пушкин A.I.Зафонствуя попруг,Ивисшивый чела,На воспопе днего,Я могина бесслужел,Катирей свети довой,Из увядебиле меня,И на гразой шле, далоднойВольностью примстают;Я, водешил перцов миренья?
Н.И.Путинцев, лаборатория аналитики потоковых данных и машинного обучения ММФ НГУ64
Неожиданные открытияКейсы из книги«Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
65
Генетика обуславливает неверность жен· В переделах определённого генетического кластера наличие большего количества генов, общих для гетеросексуальной пары, повышает вероятность женской неверности
· Университет Нью-Мексико· Мы запрограммированы на избегание инбридинга (скрещивания близко-родственных форм в пределах одной популяции), поскольку генетическое многообразие имеет важные преимущества
66Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
Молодые люди пускают слюни по поводу спортивных автомобилей· У студентов мужского пола вырабатывается заметно больше слюны, когда им показывают изображения спортивных автомобилей или денег
· Школа менеджмента Келлога Северо-Западного университета США
· Потребительские импульсы психологически сходны с чувством голода
67Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
Курильщики реже страдают от заболеваний, вызванных повторяющимися движениями· В некоторых видах рабочего окружения курящие люди менее
подвержены развитию туннельного синдрома запястья· Крупная столичная газета, исследовавшая состояние здоровья своего персонала
· Курильщики чаще делают перерывы в работе
68Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
Террористы-смертникине страхуют свою жизнь· Анализ банковских данных показал, что предполагаемые террористы обычно не имеют полиса страхования жизни
· Крупный британский банк· Самоубийство аннулирует полис страхования жизни
69Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
Уровень преступностиповышается после выборов· В Индии уровень преступности снижается в год выборов, но сразу после выборов резко возрастает
· Исследователи из Индии· Действующие политики активизируют борьбу с преступностью, чтобы обеспечить себе переизбрание
70Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
Желтые и оранжевые автомобили реже попадают в аварию· реже всего в аварии попадают автомобили оранжевого, желтого, коричневого и фиолетового цвета. Так, на общее количество желтых машин, имеющих страховку, приходится только 1% страховых возмещений, на автомобили оранжевого цвета немного больше — 8%.
· одна из ведущих страховых компаний в России· Часто в аварии попадают машины красных оттенков (в
общем количестве страховых возмещений по ДТП их доля составляет 62%)· Объясняется это тем, что красный выбирают в основном водители
молодые, имеющий маленький водительский стаж.· Другая возможная причина: красный цвет вызывает у человека
активизацию процессов, возбуждённость. Поэтому даже, если владелец красного авто и едет спокойно и правила соблюдает, надо быть внимательным к другим участникам дороги.
71
Big Data проектысбор данных (CAPEX) • Сервера • Облака • Инфраструктура
извлечение пользы (value) (OPEX) • команда
• Data Scientist • Data Engineer • Manager
• процесс • сбор данных
• инвентаризация источников • доступ к данным
• физический • юридический
• мощности по обработке данных • Hadoop - обрабатываем прямо там, где
хранятся • в облаках • на локальных машинах • аналитические инструменты
• Splunk • PreCog • BigML 73
Зачем управленцам математика? - HBR• Подучите азы регрессионного анализа,
статистического анализа и планирования экспериментов
• Пройдите программу статистики для руководящих работников или онлайновый курс обучения или поучитесь у своих аналитиков, поработав с ними вместе над проектами
• Обратиться к специалистам по планированию экспериментов (поучаствовать в исследовании)
• Сотрудничайте с аналитиками подходящей специализации
• Гипотезы • формулируйте гипотезы • принимайте решения на данных • эксперимент
• Наладить контакты между аналитиками и всеми
службами (матричная организация) - чтобы были коммуникации
• Сосредоточьтесь на начальной и конечной стадиях
• постановка задачи • гипотезы • донесение результатов до заинтересованных
лиц • Задавайте по ходу дела много вопросов
• больше деталей • Создавайте культуру исследования, а не защиты
• поощрять идеи и критику • исследовательский дух • главное - докопаться до истины • не мнения, а анализ и данные
http://bit.ly/HBRbigdata 75
76
Материалы для повышения квалификации по направлению курса
· Видео лекции ШАД по машинному обучению· http://shad.yandex.ru/lectures/machine_learning.xml
· Курс по большим данным на Интуит· http://bit.ly/IntuitBDA
· Курс по озёрам данных· https://educast.emc.com/learn/data-lakes-for-big-data-may-june
Курсы на Coursera.org· Introduction to Data Science
· https://www.coursera.org/course/datasci· Machine Learning
· https://www.coursera.org/course/ml· Probabilistic Graphical Models
· https://www.coursera.org/course/pgm· Natural Language processing
· https://www.coursera.org/course/nlp· Data Science Specialization – 9 курсов + проект
· Data Scientist’s Toolbox, R programming, Getting and Cleaning Data, Exploratory Data Analysis, Reproducible Research, Statistical Inference, Regression Models, Practical Machine Learning, Developing Data Product, Capstone Project
· Core Concepts of Data Analysis· https://www.coursera.org/course/datan
Курс «Аналитика больших данных для бизнеса»
ПН ВТ СР ЧТ ПТ СБ ВС 10:00 –
11:20
18:00 – 19:20
18:00 – 19:20
11:30 – 13:00
19:30 – 21:00
19:30 – 21:00
78• Диплом НГУ о повышении квалификации на 96 часов• с 20 ноября по 20 января• Проектная работа над известными кейсами и кейсом вашей
компании
Нити-дисциплины
79
BA Кейсы Проектный цикл
Бизнес-задачи
Бизнес-модели
ML Алгоритмы Модели Критери
и Техники
SE Python SciPy NumPy OWL
Tools
MapReduce Tableau TextMinin
gGreenPlu
m
Роли – голограмма коллектива
BA Кейсы Проектный цикл
Бизнес-задачи
Бизнес-модели
ML Алгоритмы Модели Критери
и Техники
SE Python SciPy NumPy OWL
Tools
MapReduce Tableau TextMinin
gGreenPlu
m
80
Dat
a Sc
ient
ist
CIO
Бизнес-аналитик,
дата-аналитик
Разработчик
DBA
Научитесь делать· Ставить задачи в области больших данных.· Понимать и самостоятельно писать программы на языке Python.
· Работать с Tableau (визуализация, представление данных).· Представлять результаты анализа внутренним и внешним заказчикам.
81
Принесёте в компанию· Новое понимание ролей всех участников процесса работы с большими данными в компании, завязанное на общие цели.
· Ясное видение конкретных возможностей использования больших данных для решения задач собственной компании.
· Предметные знания всех основных направлений машинного обучения.
· Понимание областей применения «джентельменского набора» алгоритмов анализа данных.
· Понимание создания новых бизнес-моделей на основе данных 82
Заказчики· Унискан, Вымпелком, Сигнатек, Битриксоид, Агентство инвестиционного развития Новосибирской области, The Invaders, Explainy, ОптиПлат, УНИПРО.
· ИТ-кластер НСО – 10 мест
83
Оценка результатовПК-1 Понимать возможности технологий анализа
больших данных при проведении бизнес-анализа.
ПК-2 Способность принимать решения на основе данных
ПК-3 Знать: основные элементы процесса анализа больших данных, основные подходы к обработке больших массивов данных.
ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-32 3 2 2 1 3 3 3 3 2,3 2,3 2,72 2 2 2 1 3 3 3 3 2,3 2,0 2,71 1 1 2 1 3 3 3 3 2,0 1,7 2,32 3 2 2 2 2 3 3 3 2,3 2,7 2,30 1 0 3 3 3 1,5 2,0 1,52 0 1 3 3 3 2,5 1,5 2,0
0 1 1 3 2 3 2 2 1 3 3 3 2,0 2,0 2,01 2 2 3 2 3 1 2 2 3 3 3 2,0 2,3 2,5
1,3 1,4 1,3 2,1 1,4 3,0 1,5 2,0 1,8 3,0 3,0 3,0 2,0 2,0 2,30,9139 1,1507 0,9139 0,5394 0,6742 0 1,069 0,5345 1,2817 0 0 0 0,35166 0,473021 0,493741
3 4 3 0 0 0 2 0 2 0 0 0 5 4 55 4 5 1 7 0 1 1 1 0 0 0 7 12 63 2 3 6 2 0 4 7 2 0 0 0 13 11 51 2 1 2 1 9 1 1 3 12 12 12 16 16 25
2 3 2 2 1 3 3 3 3 2,3 2,3 2,72 2 2 2 1 3 3 3 3 2,3 2,0 2,71 1 1 2 1 3 3 3 3 2,0 1,7 2,32 3 2 2 2 2 3 3 3 2,3 2,7 2,30 1 0 3 3 3 1,5 2,0 1,52 0 1 3 3 3 2,5 1,5 2,0
3 3 3 1 3 3 3 3 3 2,3 3,0 3,02 0 0 2 1 3 0 3 0 3 3 3 1,8 1,8 1,51 1 1 2 1 3 2 2 3 3 3 3 2,0 1,8 2,51 0 2 2 1 3 3 1 3 3 3 3 2,3 1,3 2,81 0 1 2 1 3 2 2 3 3 3 3 2,0 1,5 2,50 2 0 2 1 3 0 2 0 3 3 3 1,3 2,0 1,50 1 1 3 2 3 2 2 1 3 3 3 2,0 2,0 2,01 2 2 3 2 3 1 2 2 3 3 3 2,0 2,3 2,5
1,3 1,4 1,3 2,1 1,4 3,0 1,5 2,0 1,8 3,0 3,0 3,0 2,0 2,0 2,30,9139 1,1507 0,9139 0,5394 0,6742 0 1,069 0,5345 1,2817 0 0 0 0,35166 0,473021 0,493741
3 4 3 0 0 0 2 0 2 0 0 0 5 4 55 4 5 1 7 0 1 1 1 0 0 0 7 12 63 2 3 6 2 0 4 7 2 0 0 0 13 11 51 2 1 2 1 9 1 1 3 12 12 12 16 16 25
Подготовлено 6 проектов по анализу данных, по задачам компаний
84
Работали над курсом
НикитаКрутиковдизайнер
Магистрант НГУ
БаирТучиновадминистрирование
Операционный директор
87
Зафолловить
89
· https://vk.com/siberiadatamining · https://vk.com/ml_shad_nsk· https://vk.com/deeplearning · https://www.facebook.com/groups/siberiandatascience
http://www.kdnuggets.com/
Домашнее задание №1· Прочитать статью:
· F. Jack Smith. Data Science As An Academic Discipline // Data Science Journal, Volume 5, 19 October 2006. URL: http://www.webcitation.org/6Dy5h9X14
· Выделить основные тезисы статьи.
· Написать эссе:· 1) привести аргументы «за»,· 2) оспорить.· Ответить на вопросы:
· В чём отличие Data Science от Computer Science?· В чём отличие Computer Science от Software Engineering?· В чём отличие Data Scientist от Data Engineer и Data Analyst?
· Прислать эссе до 18:00 20.11.2016 на адрес [email protected] с темой «эссе на тему Data Science»
90