33
9:30 Приветственный кофе 10:0 0 Ключевой доклад 11:4 5 Аппаратные решения HP для платформы Microsoft BI Microsoft Excel как OLAP клиент. Преодоление ограничений 12:4 5 Обед 13:3 0 Методика построения хранилищ данных на FastTrack DW и PDW Анализ «что-если» в Excel 2010 и OLAP write-back в планировании продаж 14:4 5 Реляционное моделирование для больших хранилищ данных Прогнозирование навигации на сайте (Data Mining) 16:3 0 Кофе-брейк 17:0 0 Анализ вторичных продаж на базе SQL Server 2008 R2 SQL- клиника Некоторые сценарии практического использования DAX в PowerPivot 18:0 0 Закрытие конференции 18:1 5 Кофе-брейк

Не забудьте начать запись доклада!

  • Upload
    ansel

  • View
    39

  • Download
    1

Embed Size (px)

DESCRIPTION

Не забудьте начать запись доклада!. REC. Прогнозирование навигации на сайте. Максим Гончаров Microsoft. Максим Гончаров. Microsoft Специалист по платформе приложений E-mail : [email protected] http://www.businessdataanalytics.ru /. Содержание. Задачи Data Mining - PowerPoint PPT Presentation

Citation preview

Page 1: Не забудьте начать запись доклада!

9:30 Приветственный кофе

10:00 Ключевой доклад

11:45 Аппаратные решения HP для платформы Microsoft BI

Microsoft Excel как OLAP клиент.Преодоление ограничений

12:45 Обед

13:30 Методика построения хранилищ данных на FastTrack DW и PDW

Анализ «что-если» в Excel 2010 и OLAP write-back в планировании продаж

14:45 Реляционное моделирование для больших хранилищ данных

Прогнозирование навигации на сайте (Data Mining)

16:30 Кофе-брейк

17:00 Анализ вторичных продаж на базе SQL Server 2008 R2 SQL-клиника Некоторые сценарии практического

использования DAX в PowerPivot

18:00 Закрытие конференции

18:15 Кофе-брейк

18:30 Лабораторные работы

Page 2: Не забудьте начать запись доклада!

Не забудьте начать запись доклада!

REC

Page 3: Не забудьте начать запись доклада!

Прогнозирование навигации на сайте

Максим Гончаров

Microsoft

Page 4: Не забудьте начать запись доклада!

Максим Гончаров

Microsoft

Специалист по платформе приложений

E-mail: [email protected]

http://www.businessdataanalytics.ru/

Page 5: Не забудьте начать запись доклада!

Содержание

Задачи Data Mining Описательный анализ Предиктивный анализ

Web Mining – кратко Web Usage Mining

Кластеризация цепочек последовательностей Microsoft Пример проекта – калькулятор переходов

Page 6: Не забудьте начать запись доклада!

Задачи Data Mining

Page 7: Не забудьте начать запись доклада!

Описательный анализ Какая структура клиентской базы? Какой профиль

идеального клиента? Какие есть взаимосвязи между характеристиками

клиентов? Какие события происходят одновременно? Какие

услуги приобретаются вместе? Какие события наступают последовательно?

Откажется ли клиент от сотрудничества при данном шаблоне взаимодействия?

Page 8: Не забудьте начать запись доклада!

Предиктивный анализ Откликнется ли клиент на данную маркетинговую

кампанию? Какова ценность клиента с данными

характеристиками? Какой размер прибыли будет в следующем

месяце? Какие из потенциальных клиентов вероятно

совершат приобретение услуги в следующем месяце?

Page 9: Не забудьте начать запись доклада!

Кластерный анализСегментация – обнаружение структуры данных

На какие группы можно разбить клиентов?

Какая структура продаж?

Какие характеристики у мошеннических транзакций?

Разбиение постоянных клиентов книжного интернет-магазина по интересам.

Page 10: Не забудьте начать запись доклада!

Анализ путей влиянияБайесовские сети – обнаружение путей влияния факторов

Как связаны образование, доход и регион проживания?

Как влияет семейное положение на покупку товара?

Цепочки влияния характеристик клиента

Page 11: Не забудьте начать запись доклада!

Деревья решений – факторы влияния

Что влияет на приобретение банковского продукта

Page 12: Не забудьте начать запись доклада!

Деревья решений – классификация

Откликнется ли клиент с данными характеристиками на наше предложение?

Что характерно для клиента, собирающегося отказаться от услуг нашей компании?

Скоринг, приоритезация лидов.

Дерево решения: что влияет на размер заказа продажи?

Page 13: Не забудьте начать запись доклада!

Прогнозирование временных рядов

Прогноз продаж по товарным категориям и группам клиентов.

Прогноз обращений в колл-центр.

Прогноз движения на складе.

Прогноз продаж банковских услуг по категориям

Page 14: Не забудьте начать запись доклада!

Ассоциативные правила

Какие события происходят вместе?

Какие товары и услуги продаются совместно?

Cross-sales, up-sales.

Книги, покупаемые совместно

Page 15: Не забудьте начать запись доклада!

Анализ цепочек последовательностей Приобретение каких продуктов следует ожидать в следующем месяце от

человека, открывшего в этом месяце счет и получившего дебетовую карту?

С какой вероятностью от нас уйдет клиент при данной последовательности действий?

Временные шаблоны покупок велосипедных аксессуаров

Page 16: Не забудьте начать запись доклада!

Web Mining – кратко

Page 17: Не забудьте начать запись доклада!

Web Mining - кратко

Поиск информации – применение математической лингвистики и обработки естественных языков.

Анализ структуры сегментов сети – хабы - из такой страницы ссылки идут на наиболее значимые

ресурсы; авторитеты - страницы, на которые ссылаются большое

количеством авторов по данной

Выявление знаний из веб-ресурсов – обработка с точки зрения автоматической классификации, составления оглавлений, выявления ключевых слов и общих тем.

Персонализация информации – адаптация навигации, контента, баннеров и т.д. под пользователя.

Page 18: Не забудьте начать запись доклада!

Web Usage Mining

Page 19: Не забудьте начать запись доклада!

Web Usage MiningПоиск шаблонов в поведении пользователей – поиск закономерностей в шаблонах взаимодействия пользователя с веб-ресурсом с целью прогнозирования его последующих действий.

С точки зрения применения алгоритмов интеллектуального анализа данных при поиске шаблонов пользовательского поведения чаще всего используются следующие методики:

Кластеризация - поиск групп похожих посетителей, сайтов, страниц и т.д.

Ассоциации - поиск совместно запрашиваемых страниц, заказываемых товаров.

Анализ последовательностей - поиск последовательностей действий. Наиболее часто применяется вариант алгоритма apriori, разработанного для анализа частых наборов, но модифицированного для выявления частых фрагментов последовательностей и переходов.

Page 20: Не забудьте начать запись доклада!

Анализ последовательностей действий

Модель предполагает, что все последовательности разбиты на некоторое количество групп (кластеров). В каждой группе последовательности представляют собой Марковскую цепь, т.е. вероятность перехода в следующее состояние в группе определяется только текущим состоянием и не зависит от более ранних состояний. Таким образом, алгоритм разбивает последовательности на похожие группы и вычисляет в каждой группе условные вероятности переходов. Это позволяет не только прогнозировать следующее значение состояния на основании его прошлых состояний, но и получить описание существующих шаблонов переходов.

Microsoft Sequential Clustering

Page 21: Не забудьте начать запись доклада!

Демо-проект по прогнозированию навигации на сайте

Page 22: Не забудьте начать запись доклада!

Описание проектаИсточник посещений – http://www.sitebuilder.ru

HTTP модуль на IIS, регистрирующий серверные переменные запросов в БД Access

Хранилище SQL Server’а, хранит всю историю навигаций по сессиям Пакет Integration Services, загружающий Access файл в БД SQL, дополняющий

данные (географией запроса и т.п.) Куб Analysis Services – анализ по требованию всех показателей навигации и

запросов. Модели Data Mining для анализа закономерностей навигации Сборки .NET – расширение запросов к моделям Фиксированные отчеты по навигации Веб-приложения, например калькулятор навигации.

Page 23: Не забудьте начать запись доклада!

Структура данных

Page 24: Не забудьте начать запись доклада!

Куб

Page 25: Не забудьте начать запись доклада!

Куб

Page 26: Не забудьте начать запись доклада!

Модель Data Mining

Page 27: Не забудьте начать запись доклада!

Фиксированные отчеты

Page 28: Не забудьте начать запись доклада!

ПрогнозированиеСтандартная реализация – двухходовка:

1. На основании истории кликов определить какому кластеру принадлежит пользователь.

2. Прогноз следующего клика – наиболее вероятный переход в данном кластере.

На самом деле есть еще такой подход: вычислить наиболее вероятный переход с учетом принадлежности пользователя ко всем кластерам с учетом вероятности принадлежности.

Page 29: Не забудьте начать запись доклада!

Калькулятор прогнозирования следующего шага

Page 30: Не забудьте начать запись доклада!

Запрос на прогнозированиеSELECT FLATTENED

(

SELECT

[Page Name] AS [Prediction],

PredictProbability([Page Name]) AS [PredictProbability],

(

SELECT

[Page Name] AS [PageName],

$PROBABILITY AS [Probability]

FROM PredictHistogram([Page Name])

WHERE $PROBABILITY >= 0.01

) AS h

FROM PredictSequence([Pages Visited], 1)

) AS d

FROM

[Pages Visit Order Model]

NATURAL PREDICTION JOIN

(

SELECT

(

SELECT 0 AS [Row Num], 'Портал в компании Адидас' AS [Page Name]

UNION SELECT 1 AS [Row Num], 'Портал компании BBK' AS [Page Name]

) AS [Pages Visited]

) AS t

Page 31: Не забудьте начать запись доклада!

Ответы на вопросы

Page 32: Не забудьте начать запись доклада!

Спасибо за внимание!

<Имя, Фамилия>

<Компания>

E-mail: <…@...>

Page 33: Не забудьте начать запись доклада!

9:30 Приветственный кофе

10:00 Ключевой доклад

11:45 Аппаратные решения HP для платформы Microsoft BI

Microsoft Excel как OLAP клиент.Преодоление ограничений

12:45 Обед

13:30 Методика построения хранилищ данных на FastTrack DW и PDW

Анализ «что-если» в Excel 2010 и OLAP write-back в планировании продаж

14:45 Реляционное моделирование для больших хранилищ данных

Прогнозирование навигации на сайте (Data Mining)

16:30 Кофе-брейк

17:00 Анализ вторичных продаж на базе SQL Server 2008 R2 SQL-клиника Некоторые сценарии практического

использования DAX в PowerPivot

18:00 Закрытие конференции

18:15 Кофе-брейк

18:30 Лабораторные работы