Upload
geekslab
View
99
Download
0
Embed Size (px)
Citation preview
OLAP(англ. online analytical processing, аналитическая
обработка в реальном времени) — технология обработки данных, заключающаяся в
подготовке суммарной (агрегированной) информации на основе больших массивов данных, структурированных
по многомерному принципу
Основоположник термина OLAP — Эдгар Кодд, предложил в 1993 году «12 законов аналитической обработки в реальном времени».
Эдгар Франк «Тед» Кодд (англ. Edgar Frank Codd; 23 августа 1923 — 18 апреля 2003) — британский учёный, работы которого заложили
основы теории реляционных баз данных.
Плюсы:
● Простая идеология выраженная двумя сущностями:
○ Измерения : ( группа товара, склад, поставщик, регион, время, продавец, клиент )○ Мера : (количество артиклей, стоимость проданных, объём артиклей … )
● Константная скорость обработки запросов
○ Не зависит от исходного объёма данных○ Не зависит от рассчитанного размера OLAP куба.○ Не зависит от количества размерностей и измерений.
Минусы:
1. Размер OLAP Куба○ Пример 1:
■ группа товара = 20 групп, поставщик = 10 ,продавец = 5, клиент= 100 : 20*10*5*100 = 100000 (сто тысяч)
■ * количество мер = 3 : 300000 ■ Время = 720 дней: 216 миллионов + Время = 24 месяца : 7.2 миллиона■ * средний размер меры в байтах : 220мил * 32Байта = 7ГБ
Минусы:
1. Размер OLAP Куба○ Пример 1:
■ группа товара = 20 групп, поставщик = 10 ,продавец = 5, клиент= 100 : 20*10*5*100 = 100000 (сто тысяч)
■ * количество мер = 3 : 300000 ■ Время = 720 дней: 216 миллионов + Время = 24 месяца : 7.2 миллиона■ * средний размер меры в байтах : 220мил * 32Байта = 7ГБ
○ Пример 2:■ группа товара = 20 групп, поставщик = 10 ,продавец = 5, клиент= 100 , регион
доставки= 5 : 20*10*5*100 * 5= 500000 ■ * количество мер = 3 : 1500000 ■ Время = 720 дней: 1080 миллионов + Время = 24 месяца : 36 миллиона■ * средний размер меры в байтах : 1104мил* 32Б = 35,7ГБ
2. Объём вычислений :-( :-(3. Отсутствие реал-тайма.
OLAP
Плюсы:
❏ Простая идеология ❏ Скорость обработки запросов
Минусы:
❏ Размер OLAP Куба❏ Объём вычислений❏ Отсутствие реал-тайма
HADOOP
Плюсы:
❏ “Неограниченный” объём данных ❏ Параллельная обработка❏ Вычислительная мощность
Минусы:
❏ Сложность алгоритмов❏ Монстрообразен (не для маленьких
задач)
OLAP
Плюсы:
❏ Простая идеология ❏ Скорость обработки запросов
Минусы:
❏ Размер OLAP Куба❏ Объём вычислений❏ Отсутствие реал-тайма
HADOOP
Плюсы:
❏ “Неограниченный” объём данных ❏ Параллельная обработка❏ Вычислительная мощность
Минусы:
❏ Сложность алгоритмов❏ Монстрообразен (не для маленьких
задач)
HADOOP + OLAP → EASY-OLAP
Плюсы:
● Простая идеология ● Скорость обработки запросов
Минусы:
● Отсутствие реал-тайма ● Сложность алгоритмов● Монстрообразен (не для маленьких задач)
Open Street Map:
DataSet: 1.4TB (bzip2: ~80GB), ~10YearsRecords: ~ 22.000.000.000 Target Record: ~ 40.000.000
Time: ~60MinCPU ressources: - 16,74 H IO ressources : - 580GBOLAP Cube Size: - ~7GB (gzip) ( ~1.200.000.000 cells, slice: 1 )
Меры:● Количество “Changeset’s” (Count)● Количество пользователей (Distinct count)● Std_stat изменений (Counter, Sum, Max, Min, Avg)● Распределение количества изменений (Медиана, все Децили)
Измерения:● Время: Год, Месяц, день, час, минута.● Пользователь
WebServer Request Log:
DataSet: 8.5GB ~4 YearsRecords: ~ 32.000.000Target Record: ~ 32.000.000
Time: - 48HCPU ressources: - 548HIO ressources : - 21TBOLAP Cube Size: - 120GB(gzip) ( 15.700.000.000 cells, slice: 2 )
Меры:● Количество запросов (Count)● Сумма размеров ответов (Sum)● Количество IP-Адрессов (Distinct count)● Распределение размера ответа (Медиана, все Децили)● ...
Измерения:● Время: Год, Месяц, День, Час, 5минута.● County, City, OS_Name, UserAgent, HTTPStatusCode, IP-Address, RequestType
BI Introduction - Taras Panchenko, Infosoft Global Co-owner & CTOhttp://de.slideshare.net/TarasPanchenko/bi-simple
Wiki:https://ru.wikipedia.org/wiki/OLAPhttps://ru.wikipedia.org/wiki/Кодд,_Эдгар