40
Ретвит-каскады: предсказываем популярность контента в социальных сетях Андрей Купавский Исследователь, группа теории

Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

  • Upload
    yandex

  • View
    4.482

  • Download
    3

Embed Size (px)

DESCRIPTION

Научно-технический семинар «Ретвит-каскады: предсказываем популярность контента» в московском офисе Яндекса, 14 февраля 2013 г. Андрей Купавский, исследователь группы теории, Яндекс.

Citation preview

Page 1: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Ретвит-каскады: предсказываем популярность контента в социальных сетях

Андрей Купавский

Исследователь, группа теории

Page 2: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Содержание доклада

1. Зачем?

2. Каскады в Твиттере

3. Модели распространения информации

4. Модель, которая нам подошла =)

5. Рекламная стратегия

Page 3: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Социология

Page 4: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Отслеживание мнения о брендах

Page 5: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Персонализация сервисов

Page 6: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Зачем предсказывать популярность

контента?

1. Реклама, продвижение брендов

2. Социальный журнализм

3. Улучшение качества и свежести выдачи

Page 7: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Твиттер

• 500 млн. пользователей

• 150 млн. пользователей активны раз в месяц

• 340 млн сообщений в день

• теория 4-х рукопожатий

• среднее количество читателей – 150

• у 80% пользователей менее 50 читателей

Page 8: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Авторитетность пользователей

• Из топ-20 пользователей по числу читателей только

четверо есть в топе по числу ретвитов

• Практически отсутствует корреляция (0.1) между

списками топ-10% по этим ранжированиям

Page 9: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Ретвит-каскады

Page 10: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Ретвит-каскады

Page 11: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Ретвит-каскады

Page 12: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Ретвит-каскады

Page 13: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Ретвит-каскады

• ретвиты получает 5-6 % всех сообщений

• ретвиты составляют около 15 % сообщений

• за первый час происходит 90 % всех ретвитов

Page 14: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Ретвит-каскады

• Лента среднего пользователя наполовину состоит

из сообщений, написанных топ-20000

пользователями по числу читателей

• Популярность распределена в соответствии со

степенным законом

Page 15: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Распределение популярности

Page 16: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Модели распространения информации

1. Эпидемиологические

2. Линейная модель влияния

3. Машинное обучение

Page 17: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Эпидемиологическая модель

Page 18: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Эпидемиологическая модель

Page 19: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Модификации модели

• Вероятность заражения может зависеть от

времени.

• Вероятность заражения может зависеть от

пользователя.

• Вероятность заражения во второй раз может

быть ненулевой.

Page 20: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Анализ

+ :

• простота

• имеет физический смысл

– :

• слишком мало или слишком много параметров

• нужно обрабатывать данные о структуре сети

• подбор параметров?

• зависимость от контента?

Page 21: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Анализ

• Математическая модель, подходит для

качественного анализа распространения

• Слабо применима на практике

Page 22: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Линейная модель влияния

Page 23: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Линейная модель влияния

• Зная распространение на момент i, предсказываем

объем на момент i+1

• Фиксированные источники с функцией

влиятельности, зависящей от времени

• Объем – сумма влиятельностей зараженных до

этого источников

Page 24: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Анализ

+ :

• влияние источников явно вычисляется

• влияние зависит от времени

• не требуется структура сети

– :

• фиксированные источники

• вычислительная сложность

• не учитывается структура сети

• предсказание только на следующий момент

Page 25: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Анализ

• Подходит для моделирования распространения в

блогах и СМИ

• Для нашей задачи не очень подходит: мало

источников, краткосрочное предсказание

Page 26: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Машинное обучение

• Есть целевая функция

• Есть обучающая выборка, на ней вычисляются

факторы

• Алгоритм оптимальным образом разбивает твиты

на классы. В каждом классе предсказанная

популярность постоянна

Page 27: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Машинное обучение

Page 28: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Анализ

+ :

• малая вычислительная сложность

• дают хороший результат

• можно улучшать за счет новых факторов

– :

• отсутствие физической модели

• непонятно, как именно распространяется

сообщение

Page 29: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Машинное обучение

1. Факторы

2. Экспериментальные результаты

3. Важность факторов

Page 30: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Социальные факторы

• Число читателей

• Число читаемых

• Среднее число ретвитов

• Дата создания аккаунта

• …

Page 31: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Контентные факторы

• Длина сообщения

• Наличие хештегов

• Наличие ссылок

• Является ли сообщение ответом

• Настроение

• …

Page 32: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Начальное распространение

• Число ретвитов за начальный период

• Авторитетность пользователей, сделавших ретвит

• …

Page 33: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Экспериментальные результаты

• Предсказание точнее на короткие промежутки

• Предсказание на 20-30% точнее с данными за

первые 30 секунд

• Текстовые факторы почти не играют роли

• Предсказанное число ретвитов отличается от

реального в 2-3 раза.

Page 34: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Важность факторов

Page 35: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Важность факторов

• Популярность твита в первую очередь зависит от

авторитетности пользователя

• Начальное распространение определяет, насколько

удачен этот твит для пользователя

Page 36: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Модель рекламной стратегии

Page 37: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Модель рекламной стратегии

• Линейная стоимость сообщения

• Цель – набрать как можно больше ретвитов

Page 38: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Анализ

• Пусть стоимость одного читателя – 10 копеек

• При a = 10 рублей наиболее эффективны

пользователи, получающие менее одного ретвита

• Даже при а = 1000 рублей оптимальны

пользователи, получающие по несколько ретвитов

Page 39: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Дальнейшие исследования

• Предсказание других характеристик: клики по

ссылкам, просмотры видео и т.п.

• Учитывать контекст, тренды

• Применение в различных сервисах Яндекса

Page 40: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Л и т е р а т у р а

• E. Bakshy et. al., “Identifying 'Influencers' on Twitter”,

WWW'11

• A. Kupavskii et. al., “Prediction of Retweet Cascade

Size over Time”, CIKM'12

• H. Kwak et. al., “What is Twitter, a Social Network or a

News Media?”, WWW'10

• G.V. Steeg, R. Ghosh, K. Lerman, “What Stops Social

Epidemics?”, ICWSM’11

• J. Yang, J. Leskovec, “Modeling Information Diffusion

in Implicit Networks”, IEEE'10