55
Data mining http://meetmarket.ru/ [email protected] Дмитрий Никотин

Data mining

Embed Size (px)

DESCRIPTION

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Citation preview

Page 1: Data mining

Data mining

http://meetmarket.ru/

[email protected]

Дмитрий Никотин

Page 2: Data mining

Данных все больше и больше

Page 3: Data mining

Управленец не может вручную обработать большие

массивы данных и принять решение

Page 4: Data mining

Проблема

Page 5: Data mining

Проблема имеется достаточно крупная база данных

Page 6: Data mining

Проблема имеется достаточно крупная база данных

предполагается, что в базе данных находятся некие «скрытые знания»*

Page 7: Data mining

1. ранее не известные — то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения);

2. нетривиальные — то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик);

3. практически полезные — то есть такие знания, которые представляют ценность для исследователя или потребителя;

4. доступные для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.

«скрытые знания»*

Page 8: Data mining

Проблема

Цель

имеется достаточно крупная база данных

предполагается, что в базе данных находятся некие «скрытые знания»*

Page 9: Data mining

Проблема

Цель

имеется достаточно крупная база данных

предполагается, что в базе данных находятся некие «скрытые знания»*

Обнаружить «знания»*, скрытые в больших объёмах исходных «сырых» данных

Page 10: Data mining

«знания»*

• исходные данные (сырые данные) – необработанные массивы данных, получаемые в результате наблюдения за некой динамической системой (например, данные о котировках акций за прошедший год);

• информация – обработанные данные, которые несут в себе некую информационную ценность для пользователя; сырые данные, представленные в более компактном виде;

• знания —отображают скрытые взаимосвязи межу объектами, которые не являются общедоступными (в противном случае, это будет просто информация).

Page 11: Data mining

Data mining

Page 12: Data mining

Data mining

Извлечение знаний

Page 13: Data mining

Задачи, решаемые методами Data Mining

Page 14: Data mining

• Классификация — отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.

• Кластеризация — разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга.

• Сокращение описания — для визуализации данных, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации.

• Ассоциация — поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя».

• Прогнозирование – нахождение будущих состояний объекта на основании предыдущих состояний (исторических данных)

• Анализ отклонений — например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы.

• Визуализация данных.

Page 15: Data mining

Инструменты Data Mining

Page 16: Data mining

В опросе приняли участие 1880 специалистов

Page 17: Data mining

Самый большой объем данных для анализа?

Page 18: Data mining

Применение Data mining

Page 19: Data mining

Пример 1. Ритейл (торговые сети)

Дано: 1. Большая торговая сеть имеет сотни магазинов по всей РФ, десятки тысяч активных товаров. 2. Данные о продажах каждого товара в каждом конкретном магазине в каждый момент времени (день или час) хранится в учетной системе компании. 3. Торговая сеть ежедневно должна заказывать товары в свои магазины. Проблема: Ежедневно в матрице, например [5000 Х 10 000] должно стоять значение — сколько везти этого товара?

Page 20: Data mining

Проблема: Ежедневно в матрице, например [10.130 Х 1.000.000 ]* должно стоять значение — сколько везти этого товара?

например [10.130 Х 1.000.000 ]* • Walmart — крупнейшая в мире розничная сеть, в которую входит

более 10130 магазинов.

• Walmart - имеет более 1.000.000 наименований продукции.

Источник: www.walmart.com

Page 21: Data mining

Проблема: Ежедневно в матрице, например [10.130 Х 1.000.000 ]* должно стоять значение — сколько везти этого товара?

например [10.130 Х 1.000.000 ]* • Walmart — крупнейшая в мире розничная сеть, в которую входит

более 10130 магазинов.

• Walmart - имеет более 1.000.000 наименований продукции.

Источник: www.walmart.com

Никакая армия аналитиков и товароведов не справятся с решениям такой задачи.

Page 22: Data mining

Зачем?

Page 23: Data mining

1. Если сеть закажет меньше, чем будет реальный спрос, то получит УБЫТКИ из-за дефицита (и потеряет наценочную стоимость).

2. Если сеть закажет больше товаров, чем будет реальный спрос, то получит УБЫТКИ из-за стоимости хранения товаров на складе, замороженных средств, порчи товара после истечения срока годности.

Page 24: Data mining

В цифрах

Page 25: Data mining

ФАКТ: улучшение прогнозирующей модели способно снизить издержки торговой сети на 1-2 процента от оборота.

Оборот ▲ $408,1 млрд (2010 год)

2% - 8,160,000,000

Page 26: Data mining

2% - 8,160,000,000 Олег Владимирович Дерипаска - 14 место среди миллиардеров России

Page 27: Data mining

Пример 2. Образование

Educational Data Mining

Page 28: Data mining

Пример 2. Образование

Educational Data Mining методы исследования данных, использующихся в образовательных

целях, для принятия решений в сфере образования.

Page 29: Data mining

Цель улучшить образовательный процесс

Page 30: Data mining

Цель улучшить образовательный процесс

• направить студентов в нужное русло • дать рекомендации преподавателям • понять феномен образования

Page 31: Data mining

Как?

Page 32: Data mining

Онлайн система

Используются лог-файлы, в которых содержится вся информация о работе пользователя на сайте (клики, переходы, оценки и многое другое)

Page 33: Data mining

Онлайн система

Используются лог-файлы, в которых содержится вся информация о работе пользователя на сайте (клики, переходы, оценки и многое другое)

Традиционная система (университет,школа)

Тоже возможно, но в данном случае мы обладаем очень разобщенной и

недостаточной информацией на данный момент

Page 34: Data mining

Помимо стандартных методов : • кластеризации • классификации • регрессии • корреляции • визуализации • Статистики

В EDM используются и некоторые специфичные, например, из области психометрики.

Методы

Page 35: Data mining

Зачем? помогают разбивать студентов на группы

по восприятию информации*

Page 36: Data mining

позволяет адаптировать образовательный процесс под студента

подбирать соответствующий тип контента и определённым образом его организовывать

Page 37: Data mining

Проект в сфере онлайн-образования, основанный профессорами Стэнфордского университета Эндрю Нг и Дафной Келлер. Посещаемость – 2.7 млн человек Текущий статус – публичное бета тестирование

Page 38: Data mining

Целевая аудитория

Page 39: Data mining

У нас есть студент, который хочет понять как управлять персоналом.

Page 40: Data mining

Когда студент хочет получить знания в интернете – он использует образовательную онлайн систему. Она взаимодействует со студентом, обеспечивая индивидуализированный контент и адаптированную помощь. Источник: информация об обучении и его личных данных, которые он заполняет в профиле или из ответов на анкеты курсов.

Page 41: Data mining

Система собирает детализированную информацию о том, какой контент студент открывает чаще всего (задание, видео, текст). А также скорость, длительность и частоту его просмотра. После сохраняет в базу данных.

Page 42: Data mining

Полученная информация обрабатывается и основываясь на полученных моделях обучения, система пытается наилучшим образом адаптировать курс под студента.

Page 43: Data mining

Также система может дать рекомендации других курсов. Существует огромное количество рекомендационных алгоритмов*, которые можно использовать.

Page 44: Data mining

Если система видит, что студент очень быстро справляется с домашними заданиями, быстро проматывает учебный материал, то она может предложить ему “обходные” (сокращённые) пути прохождения курса — более сложные задания, прохождение на более сложную ступень при сдаче экзамена и пр.

Page 45: Data mining

В ином случае она поможет сгенерировать адаптированную подсказку. Если у студента возникли проблемы с какой-то частью курса ( это можно понять на основе ошибок в домашних заданиях и вопросам на форуме) Система может дать рекомендацию по дополнительному материалу или перенаправить его на соответствующую главу.

Page 46: Data mining

У нас есть преподаватель, который хочет улучшить курс.

Page 47: Data mining

При создании курса, основываясь на анализе уже имеющихся курсов, преподаватель сможет заранее предсказывать поведение студента и адаптировать материал под его нужды.

Page 48: Data mining

Во время курса очень важно получать фитбек (ответную реакцию) о процессе обучения. Например, это может быть интегральная оценка или динамика работы студентов по курсу.

Page 49: Data mining

Также у преподавателя есть возможность классифицировать обучающихся по группам, например, по успеваемости, активности, полу, возрасту, бекграунду и пр.

Page 50: Data mining

Система предоставляет инструменты для частоты и распределения ошибок, которые совершают студенты. С помощью дополнительных параметров, например таких как просмотренные темы, предыдущие оценки, возможно понять причины ошибок.

Page 51: Data mining

Автоматически создавать модели студента и наставника. Основываясь на данных о преподавателях и студентах, здесь как раз помогут психометрики, можно подбирать наилучшие комбинации студент-наставник, что должно повысить усваиваемость материала.

Page 52: Data mining

В заключение об использовании EDM

Основные направления, по которым ведутся разработки, можно посмотреть на диаграмме. Данные собраны по 300 работам до 2009 года.

Page 53: Data mining

Пример 3. Data mining на службе у HR

Microsoft и IBM и Google сейчас используют программы для математического анализа ценности каждого отдельного сотрудника.

Комплексный анализ документооборота, почтовой переписки, SMS-сообщений и прочих каналов коммуникации — с распознаванием эмоций, поведенческих привычек и прочих невербальных характеристик каждого пользователя.

Page 54: Data mining

Data mining Будущее здесь