Upload
dmitry-nikotin
View
283
Download
0
Embed Size (px)
DESCRIPTION
Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Citation preview
Данных все больше и больше
Управленец не может вручную обработать большие
массивы данных и принять решение
Проблема
Проблема имеется достаточно крупная база данных
Проблема имеется достаточно крупная база данных
предполагается, что в базе данных находятся некие «скрытые знания»*
1. ранее не известные — то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения);
2. нетривиальные — то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик);
3. практически полезные — то есть такие знания, которые представляют ценность для исследователя или потребителя;
4. доступные для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.
«скрытые знания»*
Проблема
Цель
имеется достаточно крупная база данных
предполагается, что в базе данных находятся некие «скрытые знания»*
Проблема
Цель
имеется достаточно крупная база данных
предполагается, что в базе данных находятся некие «скрытые знания»*
Обнаружить «знания»*, скрытые в больших объёмах исходных «сырых» данных
«знания»*
• исходные данные (сырые данные) – необработанные массивы данных, получаемые в результате наблюдения за некой динамической системой (например, данные о котировках акций за прошедший год);
• информация – обработанные данные, которые несут в себе некую информационную ценность для пользователя; сырые данные, представленные в более компактном виде;
• знания —отображают скрытые взаимосвязи межу объектами, которые не являются общедоступными (в противном случае, это будет просто информация).
Data mining
Data mining
Извлечение знаний
Задачи, решаемые методами Data Mining
• Классификация — отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.
• Кластеризация — разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга.
• Сокращение описания — для визуализации данных, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации.
• Ассоциация — поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя».
• Прогнозирование – нахождение будущих состояний объекта на основании предыдущих состояний (исторических данных)
• Анализ отклонений — например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы.
• Визуализация данных.
Инструменты Data Mining
В опросе приняли участие 1880 специалистов
Самый большой объем данных для анализа?
Применение Data mining
Пример 1. Ритейл (торговые сети)
Дано: 1. Большая торговая сеть имеет сотни магазинов по всей РФ, десятки тысяч активных товаров. 2. Данные о продажах каждого товара в каждом конкретном магазине в каждый момент времени (день или час) хранится в учетной системе компании. 3. Торговая сеть ежедневно должна заказывать товары в свои магазины. Проблема: Ежедневно в матрице, например [5000 Х 10 000] должно стоять значение — сколько везти этого товара?
Проблема: Ежедневно в матрице, например [10.130 Х 1.000.000 ]* должно стоять значение — сколько везти этого товара?
например [10.130 Х 1.000.000 ]* • Walmart — крупнейшая в мире розничная сеть, в которую входит
более 10130 магазинов.
• Walmart - имеет более 1.000.000 наименований продукции.
Источник: www.walmart.com
Проблема: Ежедневно в матрице, например [10.130 Х 1.000.000 ]* должно стоять значение — сколько везти этого товара?
например [10.130 Х 1.000.000 ]* • Walmart — крупнейшая в мире розничная сеть, в которую входит
более 10130 магазинов.
• Walmart - имеет более 1.000.000 наименований продукции.
Источник: www.walmart.com
Никакая армия аналитиков и товароведов не справятся с решениям такой задачи.
Зачем?
1. Если сеть закажет меньше, чем будет реальный спрос, то получит УБЫТКИ из-за дефицита (и потеряет наценочную стоимость).
2. Если сеть закажет больше товаров, чем будет реальный спрос, то получит УБЫТКИ из-за стоимости хранения товаров на складе, замороженных средств, порчи товара после истечения срока годности.
В цифрах
ФАКТ: улучшение прогнозирующей модели способно снизить издержки торговой сети на 1-2 процента от оборота.
Оборот ▲ $408,1 млрд (2010 год)
2% - 8,160,000,000
2% - 8,160,000,000 Олег Владимирович Дерипаска - 14 место среди миллиардеров России
Пример 2. Образование
Educational Data Mining
Пример 2. Образование
Educational Data Mining методы исследования данных, использующихся в образовательных
целях, для принятия решений в сфере образования.
Цель улучшить образовательный процесс
Цель улучшить образовательный процесс
• направить студентов в нужное русло • дать рекомендации преподавателям • понять феномен образования
Как?
Онлайн система
Используются лог-файлы, в которых содержится вся информация о работе пользователя на сайте (клики, переходы, оценки и многое другое)
Онлайн система
Используются лог-файлы, в которых содержится вся информация о работе пользователя на сайте (клики, переходы, оценки и многое другое)
Традиционная система (университет,школа)
Тоже возможно, но в данном случае мы обладаем очень разобщенной и
недостаточной информацией на данный момент
Помимо стандартных методов : • кластеризации • классификации • регрессии • корреляции • визуализации • Статистики
В EDM используются и некоторые специфичные, например, из области психометрики.
Методы
Зачем? помогают разбивать студентов на группы
по восприятию информации*
позволяет адаптировать образовательный процесс под студента
подбирать соответствующий тип контента и определённым образом его организовывать
Проект в сфере онлайн-образования, основанный профессорами Стэнфордского университета Эндрю Нг и Дафной Келлер. Посещаемость – 2.7 млн человек Текущий статус – публичное бета тестирование
Целевая аудитория
У нас есть студент, который хочет понять как управлять персоналом.
Когда студент хочет получить знания в интернете – он использует образовательную онлайн систему. Она взаимодействует со студентом, обеспечивая индивидуализированный контент и адаптированную помощь. Источник: информация об обучении и его личных данных, которые он заполняет в профиле или из ответов на анкеты курсов.
Система собирает детализированную информацию о том, какой контент студент открывает чаще всего (задание, видео, текст). А также скорость, длительность и частоту его просмотра. После сохраняет в базу данных.
Полученная информация обрабатывается и основываясь на полученных моделях обучения, система пытается наилучшим образом адаптировать курс под студента.
Также система может дать рекомендации других курсов. Существует огромное количество рекомендационных алгоритмов*, которые можно использовать.
Если система видит, что студент очень быстро справляется с домашними заданиями, быстро проматывает учебный материал, то она может предложить ему “обходные” (сокращённые) пути прохождения курса — более сложные задания, прохождение на более сложную ступень при сдаче экзамена и пр.
В ином случае она поможет сгенерировать адаптированную подсказку. Если у студента возникли проблемы с какой-то частью курса ( это можно понять на основе ошибок в домашних заданиях и вопросам на форуме) Система может дать рекомендацию по дополнительному материалу или перенаправить его на соответствующую главу.
У нас есть преподаватель, который хочет улучшить курс.
При создании курса, основываясь на анализе уже имеющихся курсов, преподаватель сможет заранее предсказывать поведение студента и адаптировать материал под его нужды.
Во время курса очень важно получать фитбек (ответную реакцию) о процессе обучения. Например, это может быть интегральная оценка или динамика работы студентов по курсу.
Также у преподавателя есть возможность классифицировать обучающихся по группам, например, по успеваемости, активности, полу, возрасту, бекграунду и пр.
Система предоставляет инструменты для частоты и распределения ошибок, которые совершают студенты. С помощью дополнительных параметров, например таких как просмотренные темы, предыдущие оценки, возможно понять причины ошибок.
Автоматически создавать модели студента и наставника. Основываясь на данных о преподавателях и студентах, здесь как раз помогут психометрики, можно подбирать наилучшие комбинации студент-наставник, что должно повысить усваиваемость материала.
В заключение об использовании EDM
Основные направления, по которым ведутся разработки, можно посмотреть на диаграмме. Данные собраны по 300 работам до 2009 года.
Пример 3. Data mining на службе у HR
Microsoft и IBM и Google сейчас используют программы для математического анализа ценности каждого отдельного сотрудника.
Комплексный анализ документооборота, почтовой переписки, SMS-сообщений и прочих каналов коммуникации — с распознаванием эмоций, поведенческих привычек и прочих невербальных характеристик каждого пользователя.
Data mining Будущее здесь
Обсудим?
• vk.com/dmitry_nikotin • facebook.com/dmitry.nikotin • twitter.com/Dmitry_Nikotin