29

DataTalks #6. Погружение в науку о данных

Embed Size (px)

Citation preview

Page 1: DataTalks #6. Погружение в науку о данных
Page 2: DataTalks #6. Погружение в науку о данных

ПЛАН ДОКЛАДА

1. Каким должно быть любое образование?

2. Что такое data science?

3. Как обычно преподают/изучают data science?

4. Как получить первый опыт?

5. Коллаборация в области Data Science

2

Page 3: DataTalks #6. Погружение в науку о данных

КТО ТАКОЙ

СПЕЦИАЛИСТ?

3

Page 4: DataTalks #6. Погружение в науку о данных

ОСОБЕННОСТИ

ПРОФЕССИОНАЛЬНЫХ ЗАДАЧ

ЧЕЛОВЕКА С … ОБРАЗОВАНИЕМ

Page 5: DataTalks #6. Погружение в науку о данных

1. Средним,

профессионально-техническим

2. Средним специальным

3. Высшим

4. Послевузовским

Page 6: DataTalks #6. Погружение в науку о данных

КТО ТАКОЙ

DATA

SCIENTIST?

6

Page 7: DataTalks #6. Погружение в науку о данных

7

Page 9: DataTalks #6. Погружение в науку о данных

НАУКА О ДАННЫХ

• Big Data и параллельные вычисления

• Статистические методы

• Машинное обучение

• Data Mining

• Artificial Intelligence

• Проектирование и разработка

эффективных хранилищ данных

• ….

Page 10: DataTalks #6. Погружение в науку о данных

КАК УЧАТ

DATA

SCIENCE?

10

Page 11: DataTalks #6. Погружение в науку о данных

АКАДЕМИЧЕСКИЕ ПРОГРАММЫ

1. Школа анализа данных (Москва, Киев, Минск, …)

2. Computer Science Center (Санкт-Петербург)

3. Техносфера (Москва)

4. ….

11

Page 12: DataTalks #6. Погружение в науку о данных

ТРАДИЦИОННОЕ ОБЩЕЕ

1. Общее повышение уровня программирования (по ~ 48 ч.)

Основные языки: 1. Python 2. С/C++ (вплоть до 11/14).

Дополнительно: Java (open source Big Data), R (статистика).

2. Алгоритмы и структуры данных (~ 48-96 ч.)

3. Машинное обучение (~ 48-96 ч.)

4. Основы Natural Language Processing (24-48 ч).

5. Информационный поиск (information retrieval) (~48 ч.)

+ НЕЗАБЫВАЕМЫЕ НОЧИ, ПОТРАЧЕННЫЕ

НА ВЫПОЛНЕНИЕ ДОМАШНИХ ЗАДАНИЙ.

12

Page 13: DataTalks #6. Погружение в науку о данных

ПРИМЕРЫ СПЕЦКУРСОВ

1. Анализ изображений и видео (30-60 ч.)

2. Технологии хранения и обработки больших объёмов данных (36-72 ч)

3. Обучение представлений и глубокое обучение (~48 ч.)

4. Байесовские методы (~48 ч.)

5. Графические модели (~ 48 ч.)

6. Прикладная аналитика (~24 ч.)

7. Теория игр и аукционов (~ 24 ч.)

И многое другое

13

Page 14: DataTalks #6. Погружение в науку о данных

ОБЩИЕ ТРЕНДЫ

1. Введение в Deep Learning

2. Технологии Big Data

3. Прикладные исследовательские проекты

4. Выкладка материалов занятий на GitHub и

видеозаписей лекций на YouTube.

Большинство онлайн-курсов намного

поверхностнее!

14

Page 15: DataTalks #6. Погружение в науку о данных

15

МАШИННОЕ ОБУЧЕНИЕ

Page 16: DataTalks #6. Погружение в науку о данных

CRISP DM

16

Page 17: DataTalks #6. Погружение в науку о данных

УДАЧНЫЕ ПРИМЕРЫ

ЛАБОРАТОРНЫХ ЗАДАЧ

1. Первичный анализ данных о авиарейсах в США ( http://stat-

computing.org/dataexpo/2009/the-data.html -- opendata !!!)

2. Предсказание вероятности автомобильной аварии

страховой компанией (с SAS-тренинга )

3. Предсказание цены объекта недвижимости в США по его

описанию

4. Предсказание пола по транзакциям (конкурс Сбербанка)

5. Предсказание “здоров / болен” по ЭКГ

ВАЖНА ПОНЯТНОСТЬ ПРИЗНАКОВ и «НИЗКАЯ» ТОЧКА ВХОДА! 17

Page 18: DataTalks #6. Погружение в науку о данных

САМООБРАЗОВАНИЕ

1. Технострим Mail.ru

2. Лекции Computer Science Center

3. Много видеозаписей полноценных курсов на

YouTube

4. Много видеозаписей конференций и митапов

5. Публикации в научных и научно-популярных

журналах и блогах

18

Page 19: DataTalks #6. Погружение в науку о данных

КАК

ПОПРОБОВАТЬ

НА ПРАКТИКЕ?

19

Page 20: DataTalks #6. Погружение в науку о данных

КРИТЕРИИ ВЫБОРА ЗАДАЧ

1. Мини-проект по Data Science

2. И практическая,

и научно-исследовательская актуальность

3. Публикации в реферируемых журналах

4. Нечеткая, достаточно общая поставка задач

5. Интересная предметная область

20

Page 21: DataTalks #6. Погружение в науку о данных

ЛЕКСИЧЕСКАЯ НОРМАЛИЗАЦИЯ

ТЕКСТА В СОЦИАЛЬНЫХ СЕТЯХ

21

ACL 2015

Workshop on

Noisy User-

generated Text.

Lexical

Normalization for

English Tweets

Page 22: DataTalks #6. Погружение в науку о данных

ONLINE REPUTATION

MANAGEMENT IN SOCIAL MEDIA

22

RepLab 2013.

Track for

Online

Reputation

Management

Page 23: DataTalks #6. Погружение в науку о данных

ЗАДАЧИ

• Категоризация авторов сообщений

• Influencer?

• Контекст упоминания брендов

• Выделение тем

• Кластеризация текстов

!!! ГОТОВЫХ ПРИЗНАКОВ НЕТ!!!

23

Page 24: DataTalks #6. Погружение в науку о данных

СКУЧНО

ОДНОМУ …

24

Page 25: DataTalks #6. Погружение в науку о данных

СИЛА В СООБЩЕСТВЕ!

Статистика #OpenDataScience в Slack за 1 год:

• 145K сообщений, 60+ каналов, 500+ data scientist-ов

• Наиболее обсуждаемые темы:

#deep_learning #theory_and_practice

#visualization #big_data

#python #r

#datasets #nlp

#edu_courses #devops

25

http://opendatascience.ru

Page 26: DataTalks #6. Погружение в науку о данных

СИЛА В СООБЩЕСТВЕ!

Сообщество «Тренировки ML»

• Почти 1400 человек в группе Facebook

• Регулярные встречи 1 раз в 2 недели с видеозаписью

Регулярные мероприятия по Data Science в офисах крупных IT-компаний, с видеозаписью

• Компьютерные науки (Яндекс) it.mail.ru/

• AvitoTech ВШЭ DataTalks и МНОГИЕ ДРУГИЕ!

26

Page 27: DataTalks #6. Погружение в науку о данных

РЕЗЮМЕ

1. Системное и аналитическое мышление!

2. Необходимы фундаментальные знания

сразу в нескольких областях

3. Идеальный Data Scientist – это

• сильный инженер-программист,

• талантливый исследователь,

• толковый (бизнес-)аналитик. 27

Page 28: DataTalks #6. Погружение в науку о данных

РЕЗЮМЕ

4. Непрерывное саморазвитие

5. Возможности для получения

практического опыта

6. Возможности для получения и обмена

знаниями

28

Page 29: DataTalks #6. Погружение в науку о данных

СПАСИБО!

ВОПРОСЫ?

29

Денис Пирштук

Chief Data Scientist

[email protected]

https://www.linkedin.com/in/dpirshtuk