RFM-анализ в SPSS

RFM-АНАЛИЗ В SPSS

А.В. Груздев, исследовательская компания

«Гевисста», директор

RFM-анализ – метод анализа и сегментации клиентов по степени их лояльности. Применяют для определения доходности клиентов, изучения продуктовой линейки по частоте обращений, изучения лояльности клиентов и оценки вероятности их ухода.

Определение и основные положения

Метод происходит от английских слов Recency Frequency Monetary – недавность, частота и деньги. Метод является инструментом, позволяющим проводить сегментирование потребителей по уровню лояльности на основе их прошлых действий и прогнозировать их поведение. В основе RFM-анализа лежат следующие положения:

Recency (недавность или новизна сделки) – чем меньше времени прошло с момента последней активности клиента, тем больше вероятность, что он повторит покупку;

Frequency (частота или количество) – чем больше покупок совершит клиент, тем больше вероятность того, что он их повторит в будущем;

Monetary (деньги или сумма от продажи товара) – чем больше денег потратил клиент, тем больше вероятность того, что он сделает заказ повторно.

Как работает RFM-анализ

Метод предусматривает классификацию (ранжирование) клиентов в группы по недавности совершения последней транзакции, частоте покупок и денежной сумме покупок. По умолчанию для классификации используется 5 групп.

Сначала клиентам присваивается оценка недавности в зависимости от даты самой последней покупки или времени, прошедшего после самой последней покупки. Например, если используется 5 групп, покупатели, совершившие самую последнюю покупку, получают оценку новизны 5, а покупатели, совершившие самую давнюю покупку, получают оценку новизны 1.

Аналогичным образом клиентам назначается оценка частоты. Более высокие оценки соответствуют наибольшей частоте покупок. Например, если мы используем 5 групп, покупатели, совершающие покупки очень часто, получают оценку частоты 5.

На заключительном этапе клиенты ранжируются по суммам покупок. Более высокие оценки соответствуют наибольшим деенежным суммам покупок. Например, при использовании 5 групп покупатели, которые тратят наибольшие суммы на покупки, получают денежную оценку 5.

В результате для каждого покупателя выводятся 4 показателя: оценка недавности, оценка частоты, денежная оценка и RFM-оценка, составленная из оценок недавности, частоты и денежной оценки. «Наилучшие» покупатели (те, которые с большей вероятностью откликнутся на предложение) получают наивысшие значения RFM-оценки.

Например, если мы используем 5 групп, то можно получить 125 возможных RFM-оценок и высшее значение RFM-оценки будет равняться 555.

Требования к данным

Если строки файла данных представляют собой транзакции (каждая строка соответствует одной транзакции, при этом покупателю могут соответствовать несколько транзакций), то необходимо использовать Данные о транзакциях.

Если строки файла данных представляют собой покупателей с обобщенной информацией по всем транзакциям (со столбцами, которые содержат значения итоговой суммы покупок, общее количество транзакций и дату самой недавней транзакции), то необходимо использовать Данные о клиентах.

Рисунок 1. Данные о транзакциях и данные о клиентах Строки – это транзакции

Строки – это покупатели с обобщенной статистикой по транзакциям

RFM-оценки по данным о транзакциях Требования к данным Набор данных должен включать переменные, содержащие следующую информацию:

Переменная или комбинация переменных, идентифицирующая каждое наблюдение (покупателя).

Переменная даты каждой транзакции.

Переменная суммы покупки по каждой транзакции. Рисунок 2. Данные о транзакциях

Получение RFM-оценок по данным о транзакциях

► Выберите в меню Прямой маркетинг > Выберите задачу. ► Выберите Идентифицировать лучших клиентов (RFM-анализ) и нажмите Продолжить. ► Выберите Данные о транзакциях и нажмите Продолжить.

Рисунок 3. Данные о транзакциях, вкладка «Переменные»

► Выберите переменную, содержащую даты транзакций. ► Выберите переменную, содержащую денежную сумму для каждой транзакции. ► Выберите метод подведения итогов по суммам транзакций для каждого покупателя: по таблице(слою) или сумма всех транзакций, среднее, медиана и максимум (наибольшая сумма транзакции). ► Выберите переменную или комбинацию переменных, которая будет идентифицировать каждого покупателя. Например, наблюдения могут быть идентифицированы уникальным ID кодом или комбинацией фамилии и имени.

RFM-оценки по данным о клиентах Требования к данным Набор данных должен включать переменные, содержащие следующую информацию:

Дата самой последней покупки или временной интервал, прошедший с даты самой последней покупки.

Общее количество покупок. Данная переменная будет использована для расчета рейтинга частоты.

Итоговая денежная сумма по всем покупкам. Данная переменная будет использована для расчета рейтинга

суммы покупок. Обычно это сумма всех покупок, но можно выбрать среднее, максимум (наибольшая сумма покупки) или другую меру.

Рисунок 4. Данные о клиентах

Если вы хотите записать RFM-оценки в новый набор данных, то активный набор данных должен содержать также переменную или комбинацию переменных, идентифицирующую каждое наблюдение (покупателя).

Получение RFM-оценок по данным о клиентах

► Выберите в меню Прямой маркетинг > Выберите задачу. ► Выберите Идентифицировать лучших клиентов (RFM-анализ) и нажмите Продолжить. ► Выберите Данные о клиентах и нажмите Продолжить. Рисунок 5. Данные о клиентах, вкладка «Переменные»

► Выберите переменную, содержащую дату самой последней транзакции или временной интервал, прошедший с даты самой последней транзакции. ► Выберите переменную, содержащую общее количество транзакций по каждому покупателю. ► Выберите переменную, содержащую итоговую денежную сумму транзакций по каждому покупателю. ► Если вы хотите записать RFM-оценки в новый набор данных, то выберите переменную или комбинацию переменных, которая будет идентифицировать каждого покупателя. Например, наблюдения могут быть идентифицированы уникальным ID кодом или комбинацией фамилии и имени.

RFM-категоризация Процесс группировки большого числа значений по категориям иногда называют категоризацией или биннингом. Во вкладке Категоризация вы можете выбрать метод группировки значений недавности, частоты и денежной суммы. Рисунок 6. Данные о клиентах, вкладка «Категоризация»

Методы категоризации Вложенный. Во вложенном методе категоризации сначала производится группировка (ранжирование) по показателю недавности (этот показатель считается наиболее важным), затем - по показателю частоты внутри каждой из групп по недавности, затем - по показателю денежной суммы внутри каждого сочетания групп по недавности и частоте. Например, если для клиента мы видим значения R=1, F=5, M=5, это означает, что сумма покупок данного клиента входит в число 20% наиболее крупных покупок в подгруппе клиентов, относящихся к 20% клиентов в выборке, совершивших покупки давно и одновременно к 20% клиентов с наибольшей частотой покупок внутри этой группы давно ничего не приобретавших клиентов. Этот метод характеризуется более равномерным распределением RFM-оценок. Его недостаток заключается в том, что проранжированные оценки частоты и сумм покупок сложно корректно интерпретировать. Например, ранг частоты 5 для клиента с рангом недавности 5 не может обозначать то же самое, что ранг частоты 5 для клиента с рангом недавности 4, поскольку ранг частоты зависит от ранга недавности. Независимый. Данный метод разбивает каждый из трех показателей на квинтили (5 групп по 20% наблюдений в каждой) независимо друг от друга, таким образом, он придает одинаковую «важность» каждому из трех показателей. Например, что если для клиента мы видим значение M=5, то сумма покупок для данного клиента входит в число 20% наиболее крупных покупок во всей выборке клиентов. Интерпретация каждого из трех показателей является однозначной, не представляет сложности. Оценка частоты 5

для одного клиента обозначает тоже самое, что и оценка частоты 5 для другого клиента, независимо от их оценок недавности. На небольших выборках проявляется недостаток метода – распределение RFM-оценок становится менее равномерным. Количество интервалов Количество категорий, используемое для расчета оценок недавности, частоты и сумм покупок, чтобы затем вычислить RFM-оценку. Общее количество возможных RFM-оценок получается как произведение значений трех показателей. Например, 5 категорий недавности, 4 категории частоты и 3 категории денежной суммы дают в целом 60 возможных RFM-оценок в диапазоне от 111 до 543. По умолчанию для каждого показателя используется 5 категорий, что дает 125 возможных RFM-оценок в диапазоне от 111 до 555. Максимальное количество категорий для каждого показателя – 9. Совпадающие наблюдения Совпадающее наблюдения – 2 и более одинаковых значений недавности, частоты, денежной суммы. В идеале необходимо, чтобы примерно одинаковое число клиентов попадало в каждую категорию, но большое количество совпадающих значений может повлиять на распределение клиентов по категориям. Существует два метода обработки совпадающих наблюдений. Относить совпадающие наблюдения к одной группе. Этот метод относит совпадающие значения к одной категории, независимо от того, как они влияют на распределение

категорий. Тем самым обеспечивается последовательная группировка: если у двух клиентов – одно и то же значение недавности, то им всегда будет присвоена одна и та же оценка недавности. Однако в крайнем случае у нас может быть ситуация, когда есть 1000 клиентов и 500 из них совершили свою самую последнюю покупку в один и тот же день. При 5 категориях 50% клиентов должны получить оценку недавности 5 вместо желаемых 20%. Отметим, что вместе с вложенным способом группировки метод последовательного биннинга – немного более сложен для интерпретации оценок частоты и денежной суммы, поскольку оценки частот задаются внутри групп, сформированных по оценкам недавности, а оценки денежных сумм – внутри групп, сформированных по оценкам частот. Таким образом, два клиента с одним и тем же значением частоты не могут иметь одинаковую оценку частоты, если у них при этом разные оценки недавности, независимо от обработки совпадающих наблюдений. Разносить совпадающие наблюдения по соседним группам случайным образом. Метод гарантирует более равномерное распределение категорий. Метод не влияет на первоначальные наблюдения. Он лишь используется, чтобы устранить возможность различного толкования совпадающих наблюдений. Наряду с тем, что он обеспечивает равномерное распределение категорий (примерно одинаковое количество клиентов в каждой категории), метод позволяет получить разные оценки для клиентов, которые, по-видимому, схожи или идентичны по значениям недавности, частоты и/или денежной суммы – особенно, когда обшее количество клиентов относительно небольшое и/или число совпадающих наблюдений велико.

Рисунок 7. Сравнение методов: Относить совпадающие наблюдения к одной группе и Разносить совпадающие наблюдения по соседним группам случайным образом

ID

Самая последняя покупка (Недавность)

Ранжирование значений недавности

Относить совпадающие наблюдения к одной группе

Разносить совпадающие наблюдения по соседним группам случайным образом

1 10/29/2006 5 5

2 10/28/2006 4 4

3 10/28/2006 4 4

4 10/28/2006 4 5

5 10/28/2006 4 3

6 9/21/2006 3 3

7 9/21/2006 3 2

8 8/13/2006 2 2

9 8/13/2006 2 1

10 6/20/2006 1 1

В этом примере причисление совпадающих наблюдений к одной группе дает неравномерное распределение категорий: 5 (10%), 4 (40%), 3 (20%), 2 (20%), 1 (10%). Второй способ дает 20% наблюдений в каждой категории, но достигается это за счет того, что 4 наблюдения с датой 10/28/2006 разносятся по 3 разным категориям, а 2 наблюдения с датой 8/13/2006 отнесены к разным категориям.

Сохранение RFM-оценок по данным о транзакциях

RFM-анализ по данным о транзакциях всегда создает новый агрегированный набор данных, в котором каждая строка соответствует клиенту. Используя вкладку Сохранить, можно задать, какие оценки показателей необходимо сохранить и назначить имя новому набору данных.

Рисунок 8. Данные о транзакциях, вкладка «Сохранить»

Переменные ID переменные, которые должны уникально идентифицировать каждого клиента, автоматически сохраняются в новом наборе данных. В новом наборе данных сохраняются следующие переменные:

Дата самой последней транзакции по каждому клиенту.

Количество транзакций. Общее количество транзакций по каждому клиенту

Денежная сумма. Итоговая денежная сумма по каждому клиенту, вычисленная в зависимости от выбранного метода подсчета суммы.

Оценка недавности. Оценка, присваиваемая каждому клиенту на основе даты самой последней транзакции. Более высокие оценки соответствуют датам самых последних транзакций.

Оценка частоты. Оценка, присваиваемая каждому клиенту на основе общего количества транзакций. Более высокие оценки соответствуют большему числу транзакций.

Денежная оценка. Оценка, присваиваемая каждому клиенту на основе выбранного метода подсчета суммы. Более высокие оценки соответствуют более значительным денежным суммам.

RFM-оценка. Оценки по трем показателям (недавности, частоте и денежной сумме), объединенные в одну оценку: (недавность x 100) +(частота x 10) + денежная сумма.

По умолчанию все имеющиеся переменные включаются в новый набор данных. Можно деактивировать те переменные, которые не нужно включать в новый набор данных. По желанию можно задать имена переменных самостоятельно.

Положение RFM-анализ по данным о транзакциях создает новый агрегированный набор данных, в котором каждая строка соответствует клиенту. Можно создать набор данных в текущей сессии или сохранить данные с RFM-оценками во внешнем файле данных. Набор данных содержит по каждому клиенту следующую информацию:

ID клиента;

дата самой последней транзакции (новизна);

общее количество транзакций;

итоговая денежная сумма (по умолчанию вычисляется сумма по всем транзакциям);

оценки недавности, частоты, денежной суммы и RFM-оценки.

Рисунок 9. Набор данных с RFM-оценками (по данным о транзакциях)

Сохранение RFM-оценок по данным о клиентах Можно добавить RFM-оценки к активному набору данных или записать новый набор данных, содержащий отмеченные переменные. Используя вкладку Сохранить, можно задать, какие оценки показателей необходимо сохранить и назначить имя новому набору данных. Рисунок 10. Данные о клиентах, вкладка «Сохранить»

Настройки вкладки Сохранить для данных о клиентах во многом аналогичны настройкам вкладки Сохранить для данных о тразакциях, поэтому не будем здесь подробно останавливаться на них.

RFM Вывод результатов Рисунок 11. Данные о транзакциях, вкладка «Вывод»

Сгруппированные данные Диаграммы и таблицы для сгруппированных данных строятся по вычисленным оценкам недавности, частоты и денежной суммы. Тепловая карта средней (денежной) суммы транзакции по недавности и частоте. Она показывает среднее значение денежной суммы по категориям, которые заданы оценками

недавности и частоты. Более темные области указывают на более высокую среднюю денежную сумму. Рисунок 12. Тепловая карта средней суммы транзакции по недавности и частоте

Диаграмма для количеств наблюдений в группах. Она выводит распределение по группам для выбранного метода разбиения на группы. Каждый столбик представляет число клиентов, которым будет приписана каждая объединенная оценка RFM. Хотя вы, как правило, хотите получить довольно равномерное распределение со всеми или большинством столбиков с приблизительно одинаковой высотой, следует ожидать определенный разброс, когда используется принятый по умолчанию метод разбиения на группы, который относит совпадающие значения к одной и той же группе. Чрезмерные флуктуации в распределении по группам и/или наличие большого числа пустых групп может быть сигналом о том, что вам следует попробовать иной метод разбиения на группы (меньше групп и/или случайное размещение совпадений) или пересмотреть вопрос о пригодности RFM анализа.

Рисунок 13. Диаграмма количеств наблюдений в группах

Таблица количеств наблюдений в группах. Она выводит распределение по группам для выбранного метода разбиения на группы. Каждая ячейка представляет число клиентов, которым будет приписана каждая объединенная оценка RFM. Хотя вы, как правило, хотите получить довольно равномерное распределение со всеми или большинством ячеек, содержащими близкое число клиентов, следует ожидать определенный разброс, когда используется принятый по умолчанию метод разбиения на группы, который относит совпадающие значения к одной и той же группе. Чрезмерные флуктуации частот в ячейках и/или наличие большого числа ячеек с частотой, равной 0, может быть сигналом о том, что вам следует попробовать иной метод разбиения на группы (меньше групп и/или случайное размещение совпадений) или пересмотреть вопрос о пригодности RFM анализа.

Рисунок 14. Таблица количеств наблюдений в группах

Таблица сопряженности Оценка частоты * Денежная оценка * Оценка недавности Частота Оценка недавности Денежная оценка Итого

1 2 3 4 5

1 Оценка частоты

1 5 6 6 6 6 29 2 7 8 8 7 8 38 3 8 10 10 9 9 46 4 11 12 12 12 12 59 5 5 6 6 6 5 28

Итого 36 42 42 40 40 200


1 10 11 11 11 11 54 2 7 8 8 8 8 39 3 7 8 7 8 7 37 4 6 7 6 7 6 32 5 7 7 8 7 7 36

Итого 37 41 40 41 39 198


1 8 8 8 8 8 40 2 7 7 7 8 7 36 3 9 9 10 9 9 46 4 6 7 7 7 7 34 5 8 9 8 9 8 42

Итого 38 40 40 41 39 198


1 6 6 6 7 6 31 2 8 9 8 8 9 42 3 6 8 6 7 6 33 4 11 11 12 11 11 56 5 7 8 7 8 7 37

Итого 38 42 39 41 39 199


1 6 6 7 5 6 30 2 7 7 7 8 7 36 3 14 15 15 15 14 73 4 4 4 5 4 4 21 5 8 8 8 8 8 40

Итого 39 40 42 40 39 200

Итого Оценка частоты

1 35 37 38 37 37 184 2 36 39 38 39 39 191 3 44 50 48 48 45 235 4 38 41 42 41 40 202 5 35 38 37 38 35 183

Итого 188 205 203 203 196 995

Несгруппированные данные Диаграммы и таблицы для несгруппированных данных строятся по исходным переменным, используемым для расчета оценок недавности, частоты и денежной суммы. Гистограммы. Гистограмма показывает относительное распределение значений для трех переменных, используемых для вычисления оценок недавности, частоты и денег. Для таких гистограмм не является необычным показывать до некоторой степени скошенные распределения, а не нормальное или симметричное распределение. Горизонтальная ось каждой гистограммы всегда упорядочена от низких значений слева до высоких значений справа. Для недавности, однако, интерпретация диаграммы зависит от типа меры недавности: дата или временной интервал. Для дат столбики слева представляют более ранние значения в прошлом (более ранняя дата имеет меньшее значение, чем более поздняя дата). Для временных интервалов столбики слева представляют более поздние значения (чем меньше временной интервал, тем транзакция более поздняя).

Рисунок 15. Гистограммы

Диаграммы рассеяния для пар переменных. Эти диаграммы рассеяния показывают взаимосвязь между тремя переменными, используемыми для вычисления оценок недавности, частоты и денег. Обычным является увидеть заметные линейные группировки точек по шкале частот, поскольку частота часто представляет относительно малый диапазон дискретных значений. Например, если суммарное число транзакций не превосходит 15, то имеется только 15 возможных значений частоты (если не учитывать частичные транзакции), тогда как могут быть сотни возможных значений недавности и тысячи денежных значений. Интерпретация оси недавности зависит от типа меры недавности: дата или временной интервал. Для дат точки, более близкие к началу координат, представляют более ранние даты в прошлом. Для временных интервалов точки, более близкие к началу координат, представляют более поздние значения.

Рисунок 16. Диаграммы рассеяния

Data & Analytics

RFM-анализ в SPSS