21
Как мы построили дешевую инфраструктуру для анализа трафика Sports.ru & Tribuna.com

Илья Салтанов, Олег Новиков (Sports.ru)

  • Upload
    ontico

  • View
    3.197

  • Download
    9

Embed Size (px)

Citation preview

Page 1: Илья Салтанов, Олег Новиков (Sports.ru)

Как мы построили дешевую инфраструктуру для анализа трафика

Sports.ru & Tribuna.com

Page 2: Илья Салтанов, Олег Новиков (Sports.ru)

О нас

Олег Новиков

ИльяСалтанов

Руководитель отдела аналитики,Аспирант кафедры «Кибернетики» ВШЭ

Директор по развитию,Ex-CTO Wikimart.ru, Sports.ru

Page 3: Илья Салтанов, Олег Новиков (Sports.ru)

Кто мы?

caйта sports.ruua.tribuna.comby.Tribuna.com

12 000 000 посетителей

400 000 000 хитов

мобильныхприложений

потоков в соцсетях

Page 4: Илья Салтанов, Олег Новиков (Sports.ru)

• Много разных источников данных

• Нужен интенсивный экспорт статистики• Нужны сырые данные• Нужны единые отчеты, система координат

и интерфейс• ПОТОМУ ЧТО МОЖЕМ!

Зачем?

Page 5: Илья Салтанов, Олег Новиков (Sports.ru)

Решение

Page 6: Илья Салтанов, Олег Новиков (Sports.ru)

Хранилище RedShiftСырые данные

– Кликстрим – Активность– Подписки + установки

Агрегаты– Сессии– По дням/неделям/месяцам– Профили пользователей

Page 7: Илья Салтанов, Олег Новиков (Sports.ru)

Как устроены сайты?Весь контент нанизан на теги:

– Новости, тексты, посты в блогах, фотографии, видео на «Спартак», «премьер-лига», «Станислав Черчесов»

Из тегов собираются: – Подсайты sports.ru/spartak– Мобильные приложения iPhone, Android «Спартак+»– Потоки в соцсетях twitter.com/fcspartaknews

Все посетители – clientID, все пользователи – userID

Page 8: Илья Салтанов, Олег Новиков (Sports.ru)

1 – Adhoc-анализ• SQL-интерфейс• Любые аналитические запросы OnDemand• Анализ сырых данных с точностью до

clientID• Без семплирования!

Page 9: Илья Салтанов, Олег Новиков (Sports.ru)

2 – Бизнес-анализПанели для всех отделов:

– Трафик– Пользовательская активность– Популярное #прямосейчас– Соцсети– Мобильные приложения– Инвентарь продаж– Редакционный процесс

Page 10: Илья Салтанов, Олег Новиков (Sports.ru)
Page 11: Илья Салтанов, Олег Новиков (Sports.ru)
Page 12: Илья Салтанов, Олег Новиков (Sports.ru)
Page 13: Илья Салтанов, Олег Новиков (Sports.ru)

3 – Регулярный обзорНедельный обзор деятельности всех отделов:

– Маркетинг– Продажи– Редакция– Продукт– Социальная редакция– Разработка– ИТ– Финансы– Кадры

Page 14: Илья Салтанов, Олег Новиков (Sports.ru)
Page 15: Илья Салтанов, Олег Новиков (Sports.ru)

4 – Почтовые рассылкиКомпейнинг подписчиков:

– По интересам (тегам)– По активности– По пользовательскому профилю

Page 16: Илья Салтанов, Олег Новиков (Sports.ru)

5 – Рекомендации• Единицы контента в конце текстов• Подписки на блоги• Часто используемые теги• Общие друзья• Общие интересы

Page 17: Илья Салтанов, Олег Новиков (Sports.ru)
Page 18: Илья Салтанов, Олег Новиков (Sports.ru)

6 – Поиск ботовПроблема:• Рейтинг контента (плюсы/минусы)• Карма пользователей• Ботнеты в экосистеме

Решение:• Простые эвристики над данными• Быстрый поиск коллизий

Page 19: Илья Салтанов, Олег Новиков (Sports.ru)

Расходы3 человеко-месяца разработки:

– Фронтенд счетчика piwik– Парсер кликстрима из логов nginx– Агрегирующие функции в Redshift– Экспорт/импорт данных– Визуализация Chart.io

Page 20: Илья Салтанов, Олег Новиков (Sports.ru)

РасходыЕжемесячно #прямосейчас:

$500 Chart.io 10 пользователей$180x4 ноды Amazon Redshift$300x2 фронтенд-сервера для логов----------------------

$1,820

Page 21: Илья Салтанов, Олег Новиков (Sports.ru)

Контакты«Как мы используем инфраструктуру обработки данных?», «Как устроена инфраструктура анализа данных?»http://habrahabr.ru/company/sports_ru/Илья Салтанов https://facebook.com/isaltanovОлег Новиковhttps://facebook.com/oleg.novikov.5074