30

DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин
Page 2: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

DATA VAULT 2.0

13 декабря 2018 г.

Владимир Рузин

заместитель директора бизнес-направления

«Решения BI и отчетность»

Page 3: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

ЗАЧЕМ ВАМ ЭТО НУЖНО?

3

Ишите более функциональную

альтернативу схеме «звезды» и

Третьей Нормальной Форме?

У Вас уже есть хранилище

данных, но его тяжело

дорабатывать?

Добавление мощностей для

текущего хранилища не

позволяет решить проблемы

скорости обработки данных?

Нужна хорошая поддержка

историчности, а текущая

архитектура для этого не подходит?

Возникают проблемы при

сборе данных из нескольких

источников?

01

02

03

04

05

Page 4: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

DATA VAULT 2.0

4

Сокращается время на дальнейшее развитие ХД -

разработку новых витрин и отчётов.

Снижаются трудозатраты на расширение или изменение бизнес-модели.

Методология позволяет работать на любом

технологическом стеке.

ОСНОВНЫЕ ПРЕИМУЩЕСТВА DATA VAULT

Page 5: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

ПРАКТИЧЕСКИЕ АСПЕКТЫ

МЕТОДОЛОГИИ DATA VAULT 2.0

Роберт Абаев

старший инженер-программист бизнес-

направления «Решения BI и отчетность»

Page 6: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

DATA VAULT 2.0

6

Дизайн обеспечивает гибкость,

масштабируемость,

согласованность и адаптируемость

к потребностям предприятия.

Это детально ориентированный,

отслеживающий историчность и

уникально связанный набор

нормализованных таблиц, которые

поддерживают одну или несколько

функциональных областей бизнеса.

м

Набор нормализованных таблиц

Дизайн

Page 7: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

MODEL - SCHEME

Raw Vault

Bsn Vault

Ref Vault

Meta Vault

Stage

Temporary zone

Витрины данных

ERP

CRM

СЭД

Other

Microsoft Office

Analytic

BI

7

Source ODS DDS (Core) Data Mart Report

DATA VAULT 2.0

Page 8: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

DATA VAULT 2.0

9

CONCEPT

Business concept IT concept

Page 9: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

DATA VAULT 2.0

10

COMPONENTS - HUB

Hub – основная таблица сущности. Содержит бизнес-ключ и

суррогатный ключ сущности.

Бизнес-ключ – уникальный набор атрибутов сущности, позволяющий её

идентифицировать.

Суррогатный ключ – число в шестнадцатеричной форме, полученное в

результате применения хэш-функции к бизнес-ключу (MD5).

Page 10: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

DATA VAULT 2.0

11

COMPONENTS - LINK

Link – таблица связей между

сущностями.

Содержит суррогатные ключи

связываемых сущностей и ключ

самой связи.

Кроме явной связи, позволяет

интерпретировать транзакции или

зависимости типа «родитель-дочь».

Page 11: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

DATA VAULT 2.0

12

COMPONENTS - SATELLITE

Satellite – таблица, хранящая

детальное описание (бизнес атрибуты)

сущности или связи.

Поддерживает сохранение истории

изменения состояний сущности.

Для отслеживания изменений в

входных данных используется хэш-

слепок (HashDiff).

HashDiff – хэш-функция, применённая

к набору бизнес атрибутов, входящих в

состав таблицы Satellite.

Page 12: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

Использование хеш-ключей даёт возможность прямой интеграции с

NoSQL базами данных, в которых хеш-ключи также являются

идентификаторами объектов.

Использование суррогатного хеш-ключа - основной способ для

идентификации объектов (отказ от инкрементальных ID). Таким

образом идентификатор строится на основе входных данных, а не уже

имеющихся.

Возможность распараллеливания загрузки ядра хранилища, что

позволяет применять MPP принципы для увеличения производительности.

Добавление новых функциональных элементов в модель.

DATA VAULT 1.0 VS DATA VAULT 2.0

Главными отличиями Data Vault 2.0 от первоначальной задумки являются:

Page 13: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

DATA VAULT 2.0

14

ADDITIONAL DATA VAULT OBJECTS (2.0)

Peg – one-to-many relationship (Peg-legged link)

Pit – Point in time

EffBF – Effectivity Business Flag

EffBP – Effectivity Business Period

EffSP – Effectivity Source Period

RTS – Record tracking satellite

Page 14: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

DATA VAULT 2.0

16

В базе контрагентов (ФИО) ведется только текущее состояние, теперь нужно

отслеживать как менялись ФИО во времени.

ПРИМЕР ЗАДАЧИ

РЕШЕНИЕ

По Кимблу: По методологии Data

Vault 2.0:

Необходимо не простое

написание нового

запроса, а изменение

модели данных -

расширение.

Просто фиксируются изменения

дат ФИО.

Для работы с историей и с

версиями выделены отдельные

сущности. Эту логику можно

дополнять и изменять.

Page 15: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

УПРАВЛЕНИЕ ПРОЕКТОМ ВНЕДРЕНИЯ

КХД ПО МЕТОДОЛОГИИ DATA VAULT 2.0

Марина Неупокоева

руководитель проектов бизнес-направления

«Решения BI и отчетность»

Page 16: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

Есть определенная бизнес-цель,

для решения которой необходима

консолидация обработки

массива данных.

Возникла потребность объединения

текущих хранилищ данных для:

минимизации трудозатрат на

консолидацию информации для

формирования отчетности.

снижению трудозатрат на поддержку

множества КХД.

DATA VAULT 2.0.

После внедрения и решения поставленной

задачи, благодаря методологии

DataVault 2.0, модель данных можно

постепенно развивать и

масштабировать для решения

дополнительного функционала/других

задач.

Благодаря гибкости методологии

DataVault 2.0, существует возможность на

этапе проектирования модели данных не

учитывать все особенности существующих

ХД, а постепенно расширять и

интегрировать данные со всех КХД в

новое без потерь/простоя для бизнеса.

Задача Решение

18

ДЛЯ ЧЕГО НУЖНЫ ХРАНИЛИЩА?

Page 17: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

DATA VAULT 2.0

19

О ПРОЕКТЕ «CONNECT». СОСТАВ ПРОЕКТНОЙ КОМАНДЫ

ТимЛид группы

+

4 человека

ТимЛид группы

+

2 человека

Разработчики Аналитики Тестировщики Администратор

2 человека 1 человек

Руководитель

команды

Page 18: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

DATA VAULT 2.0

20

О ПРОЕКТЕ «CONNECT»

Было внедрено новое ХД для целей расчета резервов по МСФО 9 и передачи

данных в ЕЦБ.

Стек

технологий

В качестве хранилища

данных выступала база

Microsoft MS SQL server

В качестве ETL средства

для загрузки и

преобразования данных

было выбрано SQL Server

Integration Services

Использовалась

архитектура Data Vault

2.0

Выгрузка информации

производилась через

.csv файлы

Page 19: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

DATA VAULT 2.0

21

построения мэпингов

данных

О ПРОЕКТЕ «CONNECT»

На проекте были использованы элементы Data Governance в части:

Data Governance - это обеспечение организационного процесса

управления корпоративными данными, «данные о данных».

ведения голоссария

данных

Page 20: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

DATA VAULT 2.0

23

Можно с легкостью

переключиться на другую

задачу «заморозив старую»

без потери данных и

производительности.

AGILE + DATA VAULT 2.0

Моделировать хранилище по методологии Data Vault довольно просто.

Новые данные просто

«подключаются» к

существующей модели, не

ломая и не модифицируя

существующую структуру.

Мы решаем поставленную

задачу максимально

изолированно, загружая

только необходимый

минимум, и наша

временнáя оценка для

такой задачи точнее.

Планирование спринтов

будет проще, а результаты

предсказуемы с первой же

итерации.

Page 21: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

DATA VAULT 2.0

24

Для ведения проекта была

использована система Jira. В ней

велись спринты, бэклог задач,

расставлялась приоритезация.

ВЕДЕНИЕ ПРОЕКТА

Page 22: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

DATA VAULT 2.0

25

В конце проекта дополнительно

Заказчику был выдан пул

рекомендаций по обеспечению

стабильности и улучшению

производительности и

обслуживанию БД.

ОБСЛУЖИВАНИЕ БД

Page 23: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

DATA VAULT 2.0

26

ПОЧЕМУ «ДИАСОФТ»?

У команды большой опыт

в построении КХД по

методологии Data Vault 2.0

Есть набор готовых

методологий и моделей

большинства финансовых

организаций для

минимизации трудозатрат на

первоначальную разработку

У компании большой опыт

успешной работы в

финансовом секторе - более

20 лет

Мультивендорность и

мультипродуктность

Page 24: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

DATA VAULT 2.0

27

ПОЧЕМУ «ДИАСОФТ»?

команда «Диасофт»

может предложить

оптимальные технологии

для внедрения продукта

Данный продукт не связан с «коробочными» решениями.

Это означает, что:

не нужна лицензия работает на любом

стэке технологий

Заказчика

Page 25: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

DATA VAULT 2.0

28

Старт проекта

Принять совемстное

решение о старте

проекта

КАК НАЧАТЬ?

Пригласить

представителей команды

для проведения

обследования Ваших

систем

Команда выдает

рекомендации

по наиболее

качественному внедрению

методологии

Page 26: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

ОСОБЕННОСТИ СОПРОВОЖДЕНИЯ И

АДМИНИСТРИРОВАНИЯ

РАЗВИВАЮЩЕГОСЯ КХД

Артём Майстренко

руководитель отдела бизнес-направления

«Системная интеграция»

Page 27: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

ПЕРВОНАЧАЛЬНЫЕ ДАННЫЕ ПРОЕКТА

30

требование по

гибкости и

оперативности

выгрузке данных из

различных источников

нефункциональные

требования по

оперативности построения отчетности

необходимость

нормализации данных,

полученных из

различных источников,

для дальнейшего

использования и

агрегации

Page 28: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

3 ПУТИ РЕШЕНИЯ

31

Проведение аудита

Нормализация и адаптация данных из различных сред

Не оптимальная конфигурация серверов.

Запросы, приводящие к высокой утилизации RAM.

Не оптимальный план обслуживания БД.

Адаптация выгрузки данных из источников

Оптимизация кода загрузки данных, ускорение загрузки до 30%.

Изменения архитектуры БД, ускорение загрузки до 80%.

Выявлены сторонние системы, влияющие на производительность.

Переконфигурированы СХД и SQL Server, повышение производительности на 10-15%.

Оптимизация кода расчета ядра, снижение требований к серверам по RAM на 15%.

Разработка и внедрение регламентных работ, повышение стабильности работы системы, а так же сокращение времени расчета ядра на 20%.

Page 29: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

ПОЧЕМУ МЫ?

32

У каждого заказчика

свои нефункциональные

требования по

производительности системы

Индивидуальные

требования

Различные

источники

Дальнейшая

поддержка

Это приводит к

необходимости

корректировки

решения под конкретного клиента

Мы принимаем активное

участие в работе по

поддержке и

сопровождению

разработанного решения

Page 30: DATA VAULT 2 - Diasoft · 2018-12-26 · data vault 2.0 4 окращается время на дальнейшее развитие ХД - разработку новых витрин

Спасибо

Россия, 127018, Москва,

ул. Полковая, д. 3, стр. 14

т: +7 (495) 780 7575; 789 9339

ф: +7 (495) 780 7576; 789 9338

[email protected], www.diasoft.ru