13
OLAP ( англ. online analytical processing , аналитическая обработка в реальном времени) технология обработки данных, заключающаяся в подготовке суммарной (агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу Основоположник термина OLAP — Эдгар Кодд , предложил в 1993 году « 12 законов аналитической обработки в реальном времени ». Эдгар Франк «Тед» Кодд ( англ. Edgar Frank Codd ; 23 августа 1923 18 апреля 2003 ) — британский учёный, работы которого заложили основы теории реляционных баз данных .

AI&BigData Lab 2016. Константин Герасименко: MOLAP: Новые границы возможного

Embed Size (px)

Citation preview

Page 1: AI&BigData Lab 2016. Константин Герасименко: MOLAP: Новые границы возможного

OLAP(англ. online analytical processing, аналитическая

обработка в реальном времени) — технология обработки данных, заключающаяся в

подготовке суммарной (агрегированной) информации на основе больших массивов данных, структурированных

по многомерному принципу

Основоположник термина OLAP — Эдгар Кодд, предложил в 1993 году «12 законов аналитической обработки в реальном времени».

Эдгар Франк «Тед» Кодд (англ. Edgar Frank Codd; 23 августа 1923 — 18 апреля 2003) — британский учёный, работы которого заложили

основы теории реляционных баз данных.

Page 2: AI&BigData Lab 2016. Константин Герасименко: MOLAP: Новые границы возможного
Page 3: AI&BigData Lab 2016. Константин Герасименко: MOLAP: Новые границы возможного
Page 4: AI&BigData Lab 2016. Константин Герасименко: MOLAP: Новые границы возможного
Page 5: AI&BigData Lab 2016. Константин Герасименко: MOLAP: Новые границы возможного

Плюсы:

● Простая идеология выраженная двумя сущностями:

○ Измерения : ( группа товара, склад, поставщик, регион, время, продавец, клиент )○ Мера : (количество артиклей, стоимость проданных, объём артиклей … )

● Константная скорость обработки запросов

○ Не зависит от исходного объёма данных○ Не зависит от рассчитанного размера OLAP куба.○ Не зависит от количества размерностей и измерений.

Page 6: AI&BigData Lab 2016. Константин Герасименко: MOLAP: Новые границы возможного

Минусы:

1. Размер OLAP Куба○ Пример 1:

■ группа товара = 20 групп, поставщик = 10 ,продавец = 5, клиент= 100 : 20*10*5*100 = 100000 (сто тысяч)

■ * количество мер = 3 : 300000 ■ Время = 720 дней: 216 миллионов + Время = 24 месяца : 7.2 миллиона■ * средний размер меры в байтах : 220мил * 32Байта = 7ГБ

Page 7: AI&BigData Lab 2016. Константин Герасименко: MOLAP: Новые границы возможного

Минусы:

1. Размер OLAP Куба○ Пример 1:

■ группа товара = 20 групп, поставщик = 10 ,продавец = 5, клиент= 100 : 20*10*5*100 = 100000 (сто тысяч)

■ * количество мер = 3 : 300000 ■ Время = 720 дней: 216 миллионов + Время = 24 месяца : 7.2 миллиона■ * средний размер меры в байтах : 220мил * 32Байта = 7ГБ

○ Пример 2:■ группа товара = 20 групп, поставщик = 10 ,продавец = 5, клиент= 100 , регион

доставки= 5 : 20*10*5*100 * 5= 500000 ■ * количество мер = 3 : 1500000 ■ Время = 720 дней: 1080 миллионов + Время = 24 месяца : 36 миллиона■ * средний размер меры в байтах : 1104мил* 32Б = 35,7ГБ

2. Объём вычислений :-( :-(3. Отсутствие реал-тайма.

Page 8: AI&BigData Lab 2016. Константин Герасименко: MOLAP: Новые границы возможного

OLAP

Плюсы:

❏ Простая идеология ❏ Скорость обработки запросов

Минусы:

❏ Размер OLAP Куба❏ Объём вычислений❏ Отсутствие реал-тайма

HADOOP

Плюсы:

❏ “Неограниченный” объём данных ❏ Параллельная обработка❏ Вычислительная мощность

Минусы:

❏ Сложность алгоритмов❏ Монстрообразен (не для маленьких

задач)

Page 9: AI&BigData Lab 2016. Константин Герасименко: MOLAP: Новые границы возможного

OLAP

Плюсы:

❏ Простая идеология ❏ Скорость обработки запросов

Минусы:

❏ Размер OLAP Куба❏ Объём вычислений❏ Отсутствие реал-тайма

HADOOP

Плюсы:

❏ “Неограниченный” объём данных ❏ Параллельная обработка❏ Вычислительная мощность

Минусы:

❏ Сложность алгоритмов❏ Монстрообразен (не для маленьких

задач)

Page 10: AI&BigData Lab 2016. Константин Герасименко: MOLAP: Новые границы возможного

HADOOP + OLAP → EASY-OLAP

Плюсы:

● Простая идеология ● Скорость обработки запросов

Минусы:

● Отсутствие реал-тайма ● Сложность алгоритмов● Монстрообразен (не для маленьких задач)

Page 11: AI&BigData Lab 2016. Константин Герасименко: MOLAP: Новые границы возможного

Open Street Map:

DataSet: 1.4TB (bzip2: ~80GB), ~10YearsRecords: ~ 22.000.000.000 Target Record: ~ 40.000.000

Time: ~60MinCPU ressources: - 16,74 H IO ressources : - 580GBOLAP Cube Size: - ~7GB (gzip) ( ~1.200.000.000 cells, slice: 1 )

Меры:● Количество “Changeset’s” (Count)● Количество пользователей (Distinct count)● Std_stat изменений (Counter, Sum, Max, Min, Avg)● Распределение количества изменений (Медиана, все Децили)

Измерения:● Время: Год, Месяц, день, час, минута.● Пользователь

Page 12: AI&BigData Lab 2016. Константин Герасименко: MOLAP: Новые границы возможного

WebServer Request Log:

DataSet: 8.5GB ~4 YearsRecords: ~ 32.000.000Target Record: ~ 32.000.000

Time: - 48HCPU ressources: - 548HIO ressources : - 21TBOLAP Cube Size: - 120GB(gzip) ( 15.700.000.000 cells, slice: 2 )

Меры:● Количество запросов (Count)● Сумма размеров ответов (Sum)● Количество IP-Адрессов (Distinct count)● Распределение размера ответа (Медиана, все Децили)● ...

Измерения:● Время: Год, Месяц, День, Час, 5минута.● County, City, OS_Name, UserAgent, HTTPStatusCode, IP-Address, RequestType

Page 13: AI&BigData Lab 2016. Константин Герасименко: MOLAP: Новые границы возможного

BI Introduction - Taras Panchenko, Infosoft Global Co-owner & CTOhttp://de.slideshare.net/TarasPanchenko/bi-simple

Wiki:https://ru.wikipedia.org/wiki/OLAPhttps://ru.wikipedia.org/wiki/Кодд,_Эдгар