Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»

Ретвит-каскады: предсказываем популярность контента в социальных сетях

Андрей Купавский

Исследователь, группа теории

Содержание доклада

1. Зачем?

2. Каскады в Твиттере

3. Модели распространения информации

4. Модель, которая нам подошла =)

5. Рекламная стратегия

Социология

Отслеживание мнения о брендах

Персонализация сервисов

Зачем предсказывать популярность

контента?

1. Реклама, продвижение брендов

2. Социальный журнализм

3. Улучшение качества и свежести выдачи

Твиттер

• 500 млн. пользователей

• 150 млн. пользователей активны раз в месяц

• 340 млн сообщений в день

• теория 4-х рукопожатий

• среднее количество читателей – 150

• у 80% пользователей менее 50 читателей

Авторитетность пользователей

• Из топ-20 пользователей по числу читателей только

четверо есть в топе по числу ретвитов

• Практически отсутствует корреляция (0.1) между

списками топ-10% по этим ранжированиям

Ретвит-каскады





• ретвиты получает 5-6 % всех сообщений

• ретвиты составляют около 15 % сообщений

• за первый час происходит 90 % всех ретвитов


• Лента среднего пользователя наполовину состоит

из сообщений, написанных топ-20000

пользователями по числу читателей

• Популярность распределена в соответствии со

степенным законом

Распределение популярности

Модели распространения информации

1. Эпидемиологические

2. Линейная модель влияния

3. Машинное обучение

Эпидемиологическая модель

Эпидемиологическая модель

Модификации модели

• Вероятность заражения может зависеть от

времени.

• Вероятность заражения может зависеть от

пользователя.

• Вероятность заражения во второй раз может

быть ненулевой.

Анализ

+ :

• простота

• имеет физический смысл

– :

• слишком мало или слишком много параметров

• нужно обрабатывать данные о структуре сети

• подбор параметров?

• зависимость от контента?

Анализ

• Математическая модель, подходит для

качественного анализа распространения

• Слабо применима на практике

Линейная модель влияния

Линейная модель влияния

• Зная распространение на момент i, предсказываем

объем на момент i+1

• Фиксированные источники с функцией

влиятельности, зависящей от времени

• Объем – сумма влиятельностей зараженных до

этого источников

Анализ

+ :

• влияние источников явно вычисляется

• влияние зависит от времени

• не требуется структура сети

– :

• фиксированные источники

• вычислительная сложность

• не учитывается структура сети

• предсказание только на следующий момент

Анализ

• Подходит для моделирования распространения в

блогах и СМИ

• Для нашей задачи не очень подходит: мало

источников, краткосрочное предсказание

Машинное обучение

• Есть целевая функция

• Есть обучающая выборка, на ней вычисляются

факторы

• Алгоритм оптимальным образом разбивает твиты

на классы. В каждом классе предсказанная

популярность постоянна


Анализ

+ :

• малая вычислительная сложность

• дают хороший результат

• можно улучшать за счет новых факторов

– :

• отсутствие физической модели

• непонятно, как именно распространяется

сообщение


1. Факторы

2. Экспериментальные результаты

3. Важность факторов

Социальные факторы

• Число читателей

• Число читаемых

• Среднее число ретвитов

• Дата создания аккаунта

• …

Контентные факторы

• Длина сообщения

• Наличие хештегов

• Наличие ссылок

• Является ли сообщение ответом

• Настроение

• …

Начальное распространение

• Число ретвитов за начальный период

• Авторитетность пользователей, сделавших ретвит

• …

Экспериментальные результаты

• Предсказание точнее на короткие промежутки

• Предсказание на 20-30% точнее с данными за

первые 30 секунд

• Текстовые факторы почти не играют роли

• Предсказанное число ретвитов отличается от

реального в 2-3 раза.

Важность факторов

Важность факторов

• Популярность твита в первую очередь зависит от

авторитетности пользователя

• Начальное распространение определяет, насколько

удачен этот твит для пользователя

Модель рекламной стратегии

Модель рекламной стратегии

• Линейная стоимость сообщения

• Цель – набрать как можно больше ретвитов

Анализ

• Пусть стоимость одного читателя – 10 копеек

• При a = 10 рублей наиболее эффективны

пользователи, получающие менее одного ретвита

• Даже при а = 1000 рублей оптимальны

пользователи, получающие по несколько ретвитов

Дальнейшие исследования

• Предсказание других характеристик: клики по

ссылкам, просмотры видео и т.п.

• Учитывать контекст, тренды

• Применение в различных сервисах Яндекса

Л и т е р а т у р а

• E. Bakshy et. al., “Identifying 'Influencers' on Twitter”,

WWW'11

• A. Kupavskii et. al., “Prediction of Retweet Cascade

Size over Time”, CIKM'12

• H. Kwak et. al., “What is Twitter, a Social Network or a

News Media?”, WWW'10

• G.V. Steeg, R. Ghosh, K. Lerman, “What Stops Social

Epidemics?”, ICWSM’11

• J. Yang, J. Leskovec, “Modeling Information Diffusion

in Implicit Networks”, IEEE'10

Documents

Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»