Upload
ontico
View
477
Download
5
Embed Size (px)
DESCRIPTION
Доклад Олега Новикова и Ильи Салтанова на HighLoad++ 2014.
Citation preview
Обо мне
!
!Олег Новиков, руководитель отдела аналитики Sports.ru, автор кандидатской диссертации «Высоконагруженные рекомендательные системы» в Высшей Школе Экономики
Зачем?
caйта
мобильных приложений
потоков в соцсетях
sports.ru ua.tribuna.com by.tribuna.com
• Много разных сервисов для аналитики
!• Нет доступа к «сырым»
данным
• Нужны свои отчеты и метрики
• Нельзя делать запросы к данным из разных источников
Где хранить данные?
• Нужен удобный доступ (SQL)
• Возможность обрабатывать много данных, например, clickstream
• Простота внедрения
• Способность легко масштабироваться
Amazon Redshift – плюсы
Распределенная колоночная СУБД
Поддерживает много функций и типов данных из PostgreSQL
Очень быстро выполняет типичные аналитические запросы с группировками и агрегирующими функциями на небольшое число полей
Очень легко мастштабируется, стоимость зависит от объема данных
Amazon Redshift – минусы
Не поддерживает ограничения целостности и триггеры
Не поддерживает много функций и типов данных из PostgreSQL
Медленно выполняет запросы с участием нескольких полей
(select * from table where id=<> будет работать несколько секунд)
Медленно работают инсерты (они и не нужны), загрузка данных – пачками из файлов, загруженных в Amazon S3
Хранилище Сырые данные
• Clickstream
!• Активность
• Подписки + установки
(только за последний месяц, старые данные – в Amazon Glacier)
Агрегаты
• Сессии
• По дням/неделям/месяцам
• Профили пользователей
PROFIT!
• Adhoc-анализ • Дашборды для всех отделов • Персонализация • Поиск ботов в системе рейтингов на сайте
Adhoc-анализ
• SQL-интерфейс • Любые аналитические запросы • Анализ сырых данных • Без семплирования
2 – Бизнес-анализ Панели для всех отделов: • Трафик • Пользовательская активность • Популярное #прямосейчас • Соцсети • Мобильные приложения • Инвентарь продаж • Редакционный процесс
Хранение персональных данных
Федеральный закон № 242-ФЗ
• У Amazon нет серверов в России
• В Redshift не отправляются персональные данные, только id
• Chart.io запрашивает персональные данные из БД сайта и джонит на таблицы из Redshift
Расходы
Ежемесячно #прямосейчас: $500
$180x4
$300x2
_________
$1 820
!Chart.io 10 пользователей
ноды Amazon Redshift
фронтенд-сервера для логов
!
«Как мы используем инфраструктуру обработки данных» «Как устроена инфраструктура анализа данных?»
habrahabr.ru/company/sports_ru
!!
facebook.com/oleg.v.novikov