Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Операционный BI и
большие данные
tinkoff.ru
Business Intelligence
• Аналитический
– Комплексные бизнес-метрики
– Сложная интеграция
– Высокая актуальность данных не критична
• Операционный
– Отдельные бизнес процессы
– Простая интеграция – одна система
– Необходима высокая актуальность данных
2
Операционный BI – данные
• Строим отчет напрямую на базе бизнес-системы
3
Oracle Бизнес логика
Отчет
• Высокая нагрузка на бизнес-систему
Операционный BI – данные
• Строим отчет на данных DWH
4
Oracle Бизнес логика
Отчет DWH
• Высокая латентность данных – сутки
• Недостаточная гибкость
Операционный BI – данные
• Строим отчет на Operational Intelligence - Splunk
5
Oracle Бизнес логика
Отчет
• Не все данные доступны
• Не вся логика реализуема
Логи
Операционный BI – данные
• Используем реплики
6
Oracle Бизнес логика
Отчет Oracle ODS (реплика)
Greenplum (реплика)
• Высокая гибкость
• Приемлемая латентность (1-3 часа)
• База-источник не негружается
Репликация GoldenGate
Режим «Real time data warehousing».
7
Oracle Oracle ODS (реплика)
Oracle Golden Gate
Oracle
Oracle
• Минутная латентность данных в ODS
• Журнал изменения таблиц источников в ODS
Репликация O2G
Основная задача – переместить из Oracle в Greenplum десятки миллионов изменений в
час не создавая высокую нагрузку ни на Oracle, ни на Greenplum
8
Репликация O2G
Собственная разработка
Эффективный движок репликации из Oracle в Greenplum
9
Oracle ODS (реплика)
Greenplum (реплика)
O2G
• Допустимая латентность (~1-3 часа) в Greenplum
• Платформа для аналитических запросов
Репликация O2G
• Как делаем:
– «Батчевая» выгрузка + выгружаются только измененные данные
– Внутренний bulk-механизм загрузки Greenplum
10
O2G –факты
• Латентность данных не более 1-3 часов
• Невысокая нагрузка на Greenplum (~10% ресурсов max)
• Эффективное хранение данных в Greenplum – поколоночное сжатие
• Возможность выгрузки в несколько GreenPlum’ов
• Другие потребители данных ODS (DWH, шина)
• Храним все изменения по всем таблицам за все время
11
Большие данные – Velocity, Volume
• 14 TB – объем таблиц всех источников в ODS
• 3 TB - размер реплик ODS в GreenPlum: 3 Тб
• 500 миллионов операций в сутки
• 75 миллиардов операций за полгода
Контактная информация
tinkoff.ru