Upload
yandex
View
4.482
Download
3
Embed Size (px)
DESCRIPTION
Научно-технический семинар «Ретвит-каскады: предсказываем популярность контента» в московском офисе Яндекса, 14 февраля 2013 г. Андрей Купавский, исследователь группы теории, Яндекс.
Citation preview
Ретвит-каскады: предсказываем популярность контента в социальных сетях
Андрей Купавский
Исследователь, группа теории
Содержание доклада
1. Зачем?
2. Каскады в Твиттере
3. Модели распространения информации
4. Модель, которая нам подошла =)
5. Рекламная стратегия
Социология
Отслеживание мнения о брендах
Персонализация сервисов
Зачем предсказывать популярность
контента?
1. Реклама, продвижение брендов
2. Социальный журнализм
3. Улучшение качества и свежести выдачи
Твиттер
• 500 млн. пользователей
• 150 млн. пользователей активны раз в месяц
• 340 млн сообщений в день
• теория 4-х рукопожатий
• среднее количество читателей – 150
• у 80% пользователей менее 50 читателей
Авторитетность пользователей
• Из топ-20 пользователей по числу читателей только
четверо есть в топе по числу ретвитов
• Практически отсутствует корреляция (0.1) между
списками топ-10% по этим ранжированиям
Ретвит-каскады
Ретвит-каскады
Ретвит-каскады
Ретвит-каскады
Ретвит-каскады
• ретвиты получает 5-6 % всех сообщений
• ретвиты составляют около 15 % сообщений
• за первый час происходит 90 % всех ретвитов
Ретвит-каскады
• Лента среднего пользователя наполовину состоит
из сообщений, написанных топ-20000
пользователями по числу читателей
• Популярность распределена в соответствии со
степенным законом
Распределение популярности
Модели распространения информации
1. Эпидемиологические
2. Линейная модель влияния
3. Машинное обучение
Эпидемиологическая модель
Эпидемиологическая модель
Модификации модели
• Вероятность заражения может зависеть от
времени.
• Вероятность заражения может зависеть от
пользователя.
• Вероятность заражения во второй раз может
быть ненулевой.
Анализ
+ :
• простота
• имеет физический смысл
– :
• слишком мало или слишком много параметров
• нужно обрабатывать данные о структуре сети
• подбор параметров?
• зависимость от контента?
Анализ
• Математическая модель, подходит для
качественного анализа распространения
• Слабо применима на практике
Линейная модель влияния
Линейная модель влияния
• Зная распространение на момент i, предсказываем
объем на момент i+1
• Фиксированные источники с функцией
влиятельности, зависящей от времени
• Объем – сумма влиятельностей зараженных до
этого источников
Анализ
+ :
• влияние источников явно вычисляется
• влияние зависит от времени
• не требуется структура сети
– :
• фиксированные источники
• вычислительная сложность
• не учитывается структура сети
• предсказание только на следующий момент
Анализ
• Подходит для моделирования распространения в
блогах и СМИ
• Для нашей задачи не очень подходит: мало
источников, краткосрочное предсказание
Машинное обучение
• Есть целевая функция
• Есть обучающая выборка, на ней вычисляются
факторы
• Алгоритм оптимальным образом разбивает твиты
на классы. В каждом классе предсказанная
популярность постоянна
Машинное обучение
Анализ
+ :
• малая вычислительная сложность
• дают хороший результат
• можно улучшать за счет новых факторов
– :
• отсутствие физической модели
• непонятно, как именно распространяется
сообщение
Машинное обучение
1. Факторы
2. Экспериментальные результаты
3. Важность факторов
Социальные факторы
• Число читателей
• Число читаемых
• Среднее число ретвитов
• Дата создания аккаунта
• …
Контентные факторы
• Длина сообщения
• Наличие хештегов
• Наличие ссылок
• Является ли сообщение ответом
• Настроение
• …
Начальное распространение
• Число ретвитов за начальный период
• Авторитетность пользователей, сделавших ретвит
• …
Экспериментальные результаты
• Предсказание точнее на короткие промежутки
• Предсказание на 20-30% точнее с данными за
первые 30 секунд
• Текстовые факторы почти не играют роли
• Предсказанное число ретвитов отличается от
реального в 2-3 раза.
Важность факторов
Важность факторов
• Популярность твита в первую очередь зависит от
авторитетности пользователя
• Начальное распространение определяет, насколько
удачен этот твит для пользователя
Модель рекламной стратегии
Модель рекламной стратегии
• Линейная стоимость сообщения
• Цель – набрать как можно больше ретвитов
Анализ
• Пусть стоимость одного читателя – 10 копеек
• При a = 10 рублей наиболее эффективны
пользователи, получающие менее одного ретвита
• Даже при а = 1000 рублей оптимальны
пользователи, получающие по несколько ретвитов
Дальнейшие исследования
• Предсказание других характеристик: клики по
ссылкам, просмотры видео и т.п.
• Учитывать контекст, тренды
• Применение в различных сервисах Яндекса
Л и т е р а т у р а
• E. Bakshy et. al., “Identifying 'Influencers' on Twitter”,
WWW'11
• A. Kupavskii et. al., “Prediction of Retweet Cascade
Size over Time”, CIKM'12
• H. Kwak et. al., “What is Twitter, a Social Network or a
News Media?”, WWW'10
• G.V. Steeg, R. Ghosh, K. Lerman, “What Stops Social
Epidemics?”, ICWSM’11
• J. Yang, J. Leskovec, “Modeling Information Diffusion
in Implicit Networks”, IEEE'10