9
Analytics Institute Организация исследований и проектов анализа данных

Алексей Натекин (Deloitte)

Embed Size (px)

Citation preview

Analytics Institute

Организация исследований и проектов анализа данных

Основная ценность анализа больших данных - повышение эффективности принятия решений, а не технологический стек хранения данных.

эффективность принятия решений

объем данных

Данные

Информация

Знания

Решенияформирование действительности Анализ данныхсуществует вне действительности Данныеотражение действительности

Методы анализа данных предоставляют собой технологический мост, обеспечивающий принимаемым решениям поддержку актуальной информацией, отражающей объективную действительность.

Выбор критериев успешности

Определение возможных решений

Слежение за результатами

Выбор и исполнение лучшего решения

Оценка возможных решений

Постановка задачи

Рациональный подход к принятию решений представляет собой повторяющийся цикл оценки и выбора альтернатив.

В решении задач анализа данных существует разработанная методология - CRoss Industry Standard Process for Data Mining (CRISP DM).

CRISP DM согласуется с рациональным подходом к принятию решений и описывает стандартный жизненный цикл решений.

Выбор критериев успешности

Определение возможных решений

Слежение за результатами

Выбор и исполнение лучшего решения

Оценка возможных решений

Постановка задачи

В процессе решения важно следовать нескольким простым принципам:

Порядокследовать плану - не перескакивать между пунктами

Скоростьпроходить полный круг по циклу как можно быстрее(чаще)

Фокусировка держать в приоритете решение а не методы

Воспроизводимостьсохранять результаты каждого цикла решения

1. Сбор данных, подготовка инфраструктуры

2. Разведочный анализ данных

3. Жизненный цикл решений анализа данных

4. Улучшение решений, сопряженные задачи

5. Презентация решения

• Данные удалось считать,удалось построить первые графики

• Есть план по созданию первого решения в следующие несколько часов

• Есть одно готовое решение, команда следует плану и знает что улучшить

• Есть несколько решений, дальнейшая работа взвешена и спланирована

• Решение готово, удовлетворяет всем требованиям

Шпаргалки, которые могут помочь в решении хакатона:

‣Данные считываются верно?

‣В данных нет ошибок?

‣Данных достаточно?

‣Данные актуальны?

‣Можно улучшить результат?

‣Тестирование корректно?

‣Учтены все решения?

‣Тип модели/решения адекватен?

‣Корректен ли выбор (гипер)параметров?

‣Нет ли избыточной сложности?

‣Есть технические трудности?

‣Данные удобны для работы?

‣Что еще можно вытащить из данных?

‣Как задачу обычно решают?

‣На что в данных смотрят?

‣Что именно найти, что оптимизировать?

Этап: Должно быть готово к концу этапа:

Алексей Натекин [email protected]

Спасибо!