Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
DATA VAULT 2.0
13 декабря 2018 г.
Владимир Рузин
заместитель директора бизнес-направления
«Решения BI и отчетность»
ЗАЧЕМ ВАМ ЭТО НУЖНО?
3
Ишите более функциональную
альтернативу схеме «звезды» и
Третьей Нормальной Форме?
У Вас уже есть хранилище
данных, но его тяжело
дорабатывать?
Добавление мощностей для
текущего хранилища не
позволяет решить проблемы
скорости обработки данных?
Нужна хорошая поддержка
историчности, а текущая
архитектура для этого не подходит?
Возникают проблемы при
сборе данных из нескольких
источников?
01
02
03
04
05
DATA VAULT 2.0
4
Сокращается время на дальнейшее развитие ХД -
разработку новых витрин и отчётов.
Снижаются трудозатраты на расширение или изменение бизнес-модели.
Методология позволяет работать на любом
технологическом стеке.
ОСНОВНЫЕ ПРЕИМУЩЕСТВА DATA VAULT
ПРАКТИЧЕСКИЕ АСПЕКТЫ
МЕТОДОЛОГИИ DATA VAULT 2.0
Роберт Абаев
старший инженер-программист бизнес-
направления «Решения BI и отчетность»
DATA VAULT 2.0
6
Дизайн обеспечивает гибкость,
масштабируемость,
согласованность и адаптируемость
к потребностям предприятия.
Это детально ориентированный,
отслеживающий историчность и
уникально связанный набор
нормализованных таблиц, которые
поддерживают одну или несколько
функциональных областей бизнеса.
м
Набор нормализованных таблиц
Дизайн
MODEL - SCHEME
Raw Vault
Bsn Vault
Ref Vault
Meta Vault
Stage
Temporary zone
Витрины данных
ERP
CRM
СЭД
Other
Microsoft Office
Analytic
BI
7
Source ODS DDS (Core) Data Mart Report
DATA VAULT 2.0
DATA VAULT 2.0
9
CONCEPT
Business concept IT concept
DATA VAULT 2.0
10
COMPONENTS - HUB
Hub – основная таблица сущности. Содержит бизнес-ключ и
суррогатный ключ сущности.
Бизнес-ключ – уникальный набор атрибутов сущности, позволяющий её
идентифицировать.
Суррогатный ключ – число в шестнадцатеричной форме, полученное в
результате применения хэш-функции к бизнес-ключу (MD5).
DATA VAULT 2.0
11
COMPONENTS - LINK
Link – таблица связей между
сущностями.
Содержит суррогатные ключи
связываемых сущностей и ключ
самой связи.
Кроме явной связи, позволяет
интерпретировать транзакции или
зависимости типа «родитель-дочь».
DATA VAULT 2.0
12
COMPONENTS - SATELLITE
Satellite – таблица, хранящая
детальное описание (бизнес атрибуты)
сущности или связи.
Поддерживает сохранение истории
изменения состояний сущности.
Для отслеживания изменений в
входных данных используется хэш-
слепок (HashDiff).
HashDiff – хэш-функция, применённая
к набору бизнес атрибутов, входящих в
состав таблицы Satellite.
Использование хеш-ключей даёт возможность прямой интеграции с
NoSQL базами данных, в которых хеш-ключи также являются
идентификаторами объектов.
Использование суррогатного хеш-ключа - основной способ для
идентификации объектов (отказ от инкрементальных ID). Таким
образом идентификатор строится на основе входных данных, а не уже
имеющихся.
Возможность распараллеливания загрузки ядра хранилища, что
позволяет применять MPP принципы для увеличения производительности.
Добавление новых функциональных элементов в модель.
DATA VAULT 1.0 VS DATA VAULT 2.0
Главными отличиями Data Vault 2.0 от первоначальной задумки являются:
DATA VAULT 2.0
14
ADDITIONAL DATA VAULT OBJECTS (2.0)
Peg – one-to-many relationship (Peg-legged link)
Pit – Point in time
EffBF – Effectivity Business Flag
EffBP – Effectivity Business Period
EffSP – Effectivity Source Period
RTS – Record tracking satellite
DATA VAULT 2.0
16
В базе контрагентов (ФИО) ведется только текущее состояние, теперь нужно
отслеживать как менялись ФИО во времени.
ПРИМЕР ЗАДАЧИ
РЕШЕНИЕ
По Кимблу: По методологии Data
Vault 2.0:
Необходимо не простое
написание нового
запроса, а изменение
модели данных -
расширение.
Просто фиксируются изменения
дат ФИО.
Для работы с историей и с
версиями выделены отдельные
сущности. Эту логику можно
дополнять и изменять.
УПРАВЛЕНИЕ ПРОЕКТОМ ВНЕДРЕНИЯ
КХД ПО МЕТОДОЛОГИИ DATA VAULT 2.0
Марина Неупокоева
руководитель проектов бизнес-направления
«Решения BI и отчетность»
Есть определенная бизнес-цель,
для решения которой необходима
консолидация обработки
массива данных.
Возникла потребность объединения
текущих хранилищ данных для:
минимизации трудозатрат на
консолидацию информации для
формирования отчетности.
снижению трудозатрат на поддержку
множества КХД.
DATA VAULT 2.0.
После внедрения и решения поставленной
задачи, благодаря методологии
DataVault 2.0, модель данных можно
постепенно развивать и
масштабировать для решения
дополнительного функционала/других
задач.
Благодаря гибкости методологии
DataVault 2.0, существует возможность на
этапе проектирования модели данных не
учитывать все особенности существующих
ХД, а постепенно расширять и
интегрировать данные со всех КХД в
новое без потерь/простоя для бизнеса.
Задача Решение
18
ДЛЯ ЧЕГО НУЖНЫ ХРАНИЛИЩА?
DATA VAULT 2.0
19
О ПРОЕКТЕ «CONNECT». СОСТАВ ПРОЕКТНОЙ КОМАНДЫ
ТимЛид группы
+
4 человека
ТимЛид группы
+
2 человека
Разработчики Аналитики Тестировщики Администратор
2 человека 1 человек
Руководитель
команды
DATA VAULT 2.0
20
О ПРОЕКТЕ «CONNECT»
Было внедрено новое ХД для целей расчета резервов по МСФО 9 и передачи
данных в ЕЦБ.
Стек
технологий
В качестве хранилища
данных выступала база
Microsoft MS SQL server
В качестве ETL средства
для загрузки и
преобразования данных
было выбрано SQL Server
Integration Services
Использовалась
архитектура Data Vault
2.0
Выгрузка информации
производилась через
.csv файлы
DATA VAULT 2.0
21
построения мэпингов
данных
О ПРОЕКТЕ «CONNECT»
На проекте были использованы элементы Data Governance в части:
Data Governance - это обеспечение организационного процесса
управления корпоративными данными, «данные о данных».
ведения голоссария
данных
DATA VAULT 2.0
23
Можно с легкостью
переключиться на другую
задачу «заморозив старую»
без потери данных и
производительности.
AGILE + DATA VAULT 2.0
Моделировать хранилище по методологии Data Vault довольно просто.
Новые данные просто
«подключаются» к
существующей модели, не
ломая и не модифицируя
существующую структуру.
Мы решаем поставленную
задачу максимально
изолированно, загружая
только необходимый
минимум, и наша
временнáя оценка для
такой задачи точнее.
Планирование спринтов
будет проще, а результаты
предсказуемы с первой же
итерации.
DATA VAULT 2.0
24
Для ведения проекта была
использована система Jira. В ней
велись спринты, бэклог задач,
расставлялась приоритезация.
ВЕДЕНИЕ ПРОЕКТА
DATA VAULT 2.0
25
В конце проекта дополнительно
Заказчику был выдан пул
рекомендаций по обеспечению
стабильности и улучшению
производительности и
обслуживанию БД.
ОБСЛУЖИВАНИЕ БД
DATA VAULT 2.0
26
ПОЧЕМУ «ДИАСОФТ»?
У команды большой опыт
в построении КХД по
методологии Data Vault 2.0
Есть набор готовых
методологий и моделей
большинства финансовых
организаций для
минимизации трудозатрат на
первоначальную разработку
У компании большой опыт
успешной работы в
финансовом секторе - более
20 лет
Мультивендорность и
мультипродуктность
DATA VAULT 2.0
27
ПОЧЕМУ «ДИАСОФТ»?
команда «Диасофт»
может предложить
оптимальные технологии
для внедрения продукта
Данный продукт не связан с «коробочными» решениями.
Это означает, что:
не нужна лицензия работает на любом
стэке технологий
Заказчика
DATA VAULT 2.0
28
Старт проекта
Принять совемстное
решение о старте
проекта
КАК НАЧАТЬ?
Пригласить
представителей команды
для проведения
обследования Ваших
систем
Команда выдает
рекомендации
по наиболее
качественному внедрению
методологии
ОСОБЕННОСТИ СОПРОВОЖДЕНИЯ И
АДМИНИСТРИРОВАНИЯ
РАЗВИВАЮЩЕГОСЯ КХД
Артём Майстренко
руководитель отдела бизнес-направления
«Системная интеграция»
ПЕРВОНАЧАЛЬНЫЕ ДАННЫЕ ПРОЕКТА
30
требование по
гибкости и
оперативности
выгрузке данных из
различных источников
нефункциональные
требования по
оперативности построения отчетности
необходимость
нормализации данных,
полученных из
различных источников,
для дальнейшего
использования и
агрегации
3 ПУТИ РЕШЕНИЯ
31
Проведение аудита
Нормализация и адаптация данных из различных сред
Не оптимальная конфигурация серверов.
Запросы, приводящие к высокой утилизации RAM.
Не оптимальный план обслуживания БД.
Адаптация выгрузки данных из источников
Оптимизация кода загрузки данных, ускорение загрузки до 30%.
Изменения архитектуры БД, ускорение загрузки до 80%.
Выявлены сторонние системы, влияющие на производительность.
Переконфигурированы СХД и SQL Server, повышение производительности на 10-15%.
Оптимизация кода расчета ядра, снижение требований к серверам по RAM на 15%.
Разработка и внедрение регламентных работ, повышение стабильности работы системы, а так же сокращение времени расчета ядра на 20%.
ПОЧЕМУ МЫ?
32
У каждого заказчика
свои нефункциональные
требования по
производительности системы
Индивидуальные
требования
Различные
источники
Дальнейшая
поддержка
Это приводит к
необходимости
корректировки
решения под конкретного клиента
Мы принимаем активное
участие в работе по
поддержке и
сопровождению
разработанного решения
Спасибо
Россия, 127018, Москва,
ул. Полковая, д. 3, стр. 14
т: +7 (495) 780 7575; 789 9339
ф: +7 (495) 780 7576; 789 9338
[email protected], www.diasoft.ru