14
Copyright © 2015, SAS Institute Inc. All rights reserved. УНИФИКАЦИЯ ИТ ИНФРАСТРУКТУРЫ НОВЫЕ ИСТОЧНИКИ ДАННЫХ: ЗАГРУЗКА, ХРАНЕНИЕ, ОБРАБОТКА ИЗВЛЕЧЕНИЕ НОВЫХ ХАРАКТЕРИСТИК: ИЗ ТЕКСТА, ВЗАИМОСВЯЗЕЙ ИНТЕРАКТИВНОЕ ИССЛЕДОВАНИЕ ДАННЫХ/ ПРОВЕРКА КЕЙСОВ АНАЛИТИЧЕСКОЕ МОДЕЛИРОВАНИЕ/ ПРОТОТИПЫ УСКОРЕНИЕ РАБОТЫ BD ЛАБОРАТОРИИ И ТЕКУЩИХ СИСТЕМ ПОСТАНОВКА ПРОТОТИПОВ МОДЕЛЕЙ НА РЕГЛАМЕНТ/ ТЕСТИРОВАНИЕ МОНИТОРИНГ ЭФФЕКТИВНОСТИ SAS In-Memory Statistics for Hadoop Проверка кейсов в Big Data лаборатории: программный интерфейс работы Data Scientist 15.10 - 15.40 Олег Назаров, SAS

15.10 - 15€¦ · SAP HANA SAS Embedded Process Hadoop RDBMS Nonrelational Click Stream PC Files & more АРХИТЕКТУРА: MPP (ASYMMETRIC) МОД ПРОВЕРКА КЕЙСОВ

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 15.10 - 15€¦ · SAP HANA SAS Embedded Process Hadoop RDBMS Nonrelational Click Stream PC Files & more АРХИТЕКТУРА: MPP (ASYMMETRIC) МОД ПРОВЕРКА КЕЙСОВ

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

УНИФИКАЦИЯ ИТ

ИНФРАСТРУКТУРЫНОВЫЕ

ИСТОЧНИКИ

ДАННЫХ:

ЗАГРУЗКА,

ХРАНЕНИЕ,

ОБРАБОТКА

ИЗВЛЕЧЕНИЕ

НОВЫХ

ХАРАКТЕРИСТИК:

ИЗ ТЕКСТА,

ВЗАИМОСВЯЗЕЙ

ИНТЕРАКТИВНОЕ

ИССЛЕДОВАНИЕ

ДАННЫХ/ ПРОВЕРКА

КЕЙСОВАНАЛИТИЧЕСКОЕ

МОДЕЛИРОВАНИЕ/

ПРОТОТИПЫ

УСКОРЕНИЕ

РАБОТЫ BD

ЛАБОРАТОРИИ

И ТЕКУЩИХ

СИСТЕМ

ПОСТАНОВКА

ПРОТОТИПОВ

МОДЕЛЕЙ НА

РЕГЛАМЕНТ/

ТЕСТИРОВАНИЕ

МОНИТОРИНГ

ЭФФЕКТИВНОСТИ

SAS In-Memory Statistics

for Hadoop

Проверка кейсов в Big

Data лаборатории:

программный интерфейс

работы Data Scientist

15.10 - 15.40

Олег

Назаров,

SAS

Page 2: 15.10 - 15€¦ · SAP HANA SAS Embedded Process Hadoop RDBMS Nonrelational Click Stream PC Files & more АРХИТЕКТУРА: MPP (ASYMMETRIC) МОД ПРОВЕРКА КЕЙСОВ

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

ПРОЦЕСС (STEP-BY-STEP)

DWH

External Data

ETL

(Extract, Transform, Load)

1

Текстовая

аналитика

2.2

SNA

2.1

Новых факторы

3

Отбор значимых

факторов

Экспертно-

аналитическая

сегментация

5

ПРОВЕРКА КЕЙСОВ

В BIG DATA

ЛАБОРАТОРИИ

Построение

аналитических

моделей

6

Data Scientist Бизнес-аналитик

4

Page 3: 15.10 - 15€¦ · SAP HANA SAS Embedded Process Hadoop RDBMS Nonrelational Click Stream PC Files & more АРХИТЕКТУРА: MPP (ASYMMETRIC) МОД ПРОВЕРКА КЕЙСОВ

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

ПРОВЕРКА КЕЙСОВ

В BIG DATA

ЛАБОРАТОРИИ

БИЗНЕС-ПРОЦЕСС (STEP-BY-STEP)

Построение логистических

регрессий в разрезе текущих

сегментов

Оценка качества

полученных моделей

Добавление новых

факторов

Сегментация с учетом новых

факторов

Построение логистических

регрессий в разрезе новой сегментации

Сравнение исходных и

новых моделей в разрезе сегментов

Выявление значимых

новых факторов

Page 4: 15.10 - 15€¦ · SAP HANA SAS Embedded Process Hadoop RDBMS Nonrelational Click Stream PC Files & more АРХИТЕКТУРА: MPP (ASYMMETRIC) МОД ПРОВЕРКА КЕЙСОВ

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

КОНФИГУРАЦИЯ СИСТЕМЫ

Характеристики кластера

8 nodes (1 name_node, 7 worker_nodes), каждая из которых

имеет:

CPU speed: 16x2700 MHz (1x16)

RAM: 128 GB

Disk: 1.5 TB

Размер тестируемых таблицы

7 053 903 наблюдений

125 переменных

8,5 GB

ПРОВЕРКА КЕЙСОВ

В BIG DATA

ЛАБОРАТОРИИ

7 053 903 наблюдений

36 переменных

3,5 GB

Page 5: 15.10 - 15€¦ · SAP HANA SAS Embedded Process Hadoop RDBMS Nonrelational Click Stream PC Files & more АРХИТЕКТУРА: MPP (ASYMMETRIC) МОД ПРОВЕРКА КЕЙСОВ

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

ПРОВЕРКА КЕЙСОВ

В BIG DATA

ЛАБОРАТОРИИ

БИЗНЕС-ПРОЦЕСС (STEP-BY-STEP)

Построение логистических

регрессий в разрезе текущих

сегментов

Оценка качества

полученных моделей

Добавление новых

факторов

Сегментация с учетом новых

факторов

Построение логистических

регрессий в разрезе новой сегментации

Сравнение исходных и

новых моделей в разрезе сегментов

Выявление значимых

новых факторов

Page 6: 15.10 - 15€¦ · SAP HANA SAS Embedded Process Hadoop RDBMS Nonrelational Click Stream PC Files & more АРХИТЕКТУРА: MPP (ASYMMETRIC) МОД ПРОВЕРКА КЕЙСОВ

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

WED BASED CLIENT

BLADE ENVIRONMENT

АРХИТЕКТУРА: MPP (SYMMETRIC) МОД

HadoopHDFS

IN-MEMORY STORE

SAS® LASR ANALYTIC SERVER

SAS In-Memory STATISTICS, SAS Visual Analytics, SAS Visual Statistics

Not part of

IMSTAT

Can be separated

SAS

Server

Hadoop RDBMS Nonrelational Click Stream PC Files & more

ПРОВЕРКА КЕЙСОВ

В BIG DATA

ЛАБОРАТОРИИ

Page 7: 15.10 - 15€¦ · SAP HANA SAS Embedded Process Hadoop RDBMS Nonrelational Click Stream PC Files & more АРХИТЕКТУРА: MPP (ASYMMETRIC) МОД ПРОВЕРКА КЕЙСОВ

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

WED BASED CLIENT

ASYMMETRIC DISTRIBUTED SOURCE

BLADE ENVIRONMENT

IN-MEMORY STORE

SAS® LASR ANALYTIC SERVER

SAS In-Memory STATISTICS, SAS Visual Analytics, SAS Visual Statistics

Not part of

IMSTAT

Can be separated

HADOOP / TERADATA /GREENPLUM / DB2 / ORACLE / NETEZZA /

SAP HANA

SAS Embedded Process

Hadoop RDBMS Nonrelational Click Stream PC Files & more

АРХИТЕКТУРА: MPP (ASYMMETRIC) МОДПРОВЕРКА КЕЙСОВ

В BIG DATA

ЛАБОРАТОРИИ

SAS

Server

Page 8: 15.10 - 15€¦ · SAP HANA SAS Embedded Process Hadoop RDBMS Nonrelational Click Stream PC Files & more АРХИТЕКТУРА: MPP (ASYMMETRIC) МОД ПРОВЕРКА КЕЙСОВ

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

SINGLE MACHINE

WED BASED CLIENT

АРХИТЕКТУРА: SINGLE MASCHINE МОДЕ

Hadoop RDBMS Nonrelational Click Stream PC Files & more

IN-MEMORY STORE

SAS® LASR ANALYTIC SERVER

Not part of VS or

VA

Can be separated

ПРОВЕРКА КЕЙСОВ

В BIG DATA

ЛАБОРАТОРИИ

SAS In-Memory STATISTICS, SAS Visual Analytics, SAS Visual Statistics

SAS Server

Page 9: 15.10 - 15€¦ · SAP HANA SAS Embedded Process Hadoop RDBMS Nonrelational Click Stream PC Files & more АРХИТЕКТУРА: MPP (ASYMMETRIC) МОД ПРОВЕРКА КЕЙСОВ

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

ПРОВЕРКА КЕЙСОВ

В BIG DATA

ЛАБОРАТОРИИ

БИЗНЕС-ПРОЦЕСС (STEP-BY-STEP)

Построение логистических

регрессий в разрезе текущих

сегментов

Оценка качества

полученных моделей

Добавление новых

факторов

Сегментация с учетом новых

факторов

Построение логистических

регрессий в разрезе новой сегментации

Сравнение исходных и

новых моделей в разрезе сегментов

Выявление значимых

новых факторов

Page 10: 15.10 - 15€¦ · SAP HANA SAS Embedded Process Hadoop RDBMS Nonrelational Click Stream PC Files & more АРХИТЕКТУРА: MPP (ASYMMETRIC) МОД ПРОВЕРКА КЕЙСОВ

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

Функционал Размер выборкиHigh-Performance

среда

Классическая

вычислительная

среда

Прирост

производительности (во сколько раз)

Сводные статистики в разрезе сегментов +

сила взаимосвязи

203 переменных28 772 540 наблюдений

3 сек 7 мин 29 сек ~397

Кластеризация10 переменных

28 772 540 наблюдений23 сек 47 мин 37 сек ~124

Слияние 2-х таблиц203 переменных

3 000 000 наблюдений3 сек 19 мин 52 сек ~79

Корреляционная матрица

30 переменных28 772 540 наблюдений

5 сек 6 мин ~72

ПРОВЕРКА КЕЙСОВ

В BIG DATA

ЛАБОРАТОРИИ

РЕЗУЛЬТАТЫ ТЕСТИРОВАНИЯ В ОДНОМ ИЗ

КРУПНЕЙШИХ БАНКОВ

Page 11: 15.10 - 15€¦ · SAP HANA SAS Embedded Process Hadoop RDBMS Nonrelational Click Stream PC Files & more АРХИТЕКТУРА: MPP (ASYMMETRIC) МОД ПРОВЕРКА КЕЙСОВ

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

Функционал Размер выборкиHigh-Performance

среда

Прежняя

вычислительная

среда

Прирост

производительности (во сколько раз)

Ящичковая диаграмма

203 переменных28 772 540 наблюдений

5 сек 6 мин 15 сек ~75

Ящичковаядиаграмма+иерархия

4 сек 7 мин 37 сек ~114

Описательныестатистики

7 сек 6 мин 29 сек ~56

Корреляционная матрица

10 переменных28 772 540 наблюдений

30 сек 6 мин ~13

ПРОВЕРКА КЕЙСОВ

В BIG DATA

ЛАБОРАТОРИИ

РЕЗУЛЬТАТЫ ТЕСТИРОВАНИЯ В ОДНОМ ИЗ

КРУПНЕЙШИХ БАНКОВ

Page 12: 15.10 - 15€¦ · SAP HANA SAS Embedded Process Hadoop RDBMS Nonrelational Click Stream PC Files & more АРХИТЕКТУРА: MPP (ASYMMETRIC) МОД ПРОВЕРКА КЕЙСОВ

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

Функционал Размер выборкиHigh-Performance

среда

Прежняя

вычислительная

среда

Прирост

производительности (во сколько раз)

Кластеризация

10 переменных3 000 000 наблюдений

9 сек 2 мин 50 сек ~19

Логистическая регрессия в разрезе

сегментов 29 сек 2 мин 29 сек ~4

РЕЗУЛЬТАТЫ ТЕСТИРОВАНИЯ В ОДНОМ ИЗ

КРУПНЕЙШИХ БАНКОВ

ПРОВЕРКА КЕЙСОВ

В BIG DATA

ЛАБОРАТОРИИ

Page 13: 15.10 - 15€¦ · SAP HANA SAS Embedded Process Hadoop RDBMS Nonrelational Click Stream PC Files & more АРХИТЕКТУРА: MPP (ASYMMETRIC) МОД ПРОВЕРКА КЕЙСОВ

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

Data Manipulation• AGGREGATE

• COMPUTE

• UPDATE

• APPEND

• SET

• SCHEMA

• DELETEROWS

• DROPTABLES

• PURGETEMPTABLES

• WHERE

• GROUPBY

• TABLEINFO

• COLUMNINFO

• SERVERINFO

• PARTITION, BALANCE

• STORE, REPLAY, FREE

• TABLE, PROMOTE

Data Exploration/

Visualization• BOXPLOT

• CORR

• CROSSTAB

• DISTINCT

• FETCH

• FREQUENCY

• HISTOGRAM

• KDE

• MDSUMMARY

• PERCENTILE

• SUMMARY

• TOPK

Miscellaneous• EXTERNAL (C API)

• FREE

• SAVE

• STORE

Predictive Modeling• TRAINING / VALIDATION

• DECISION TREE

• FORECAST

• GEN LINEAR MODEL

• LINEAR REGRESSION

• LOGISTIC REGRESSION

• RANDOM FORESTS

• NEURAL NETWORKS

• ASSESS (misclassification matrix,

lift, roc, concordance)

Descriptive Modeling• ASSOCIATION

• PATH ANALYSIS

• CLUSTERING (K-MEANS)

• CLUSTERING (DBSCAN)

Recommender• ASSOCIATION

• CLUSTERING

• KNN

• SVD

• ENSEMBLE

Text Analytics• PARSING AND STEMMING

• SVD

• TOPIC GENERATION

• DOCUMENT PROJECTION

Deployment• SCORE

• CODE

* Будет доступно со следующей версии (лето 2015)

SAS IN-MEMORY

STATISTICS FOR

HADOOP

Page 14: 15.10 - 15€¦ · SAP HANA SAS Embedded Process Hadoop RDBMS Nonrelational Click Stream PC Files & more АРХИТЕКТУРА: MPP (ASYMMETRIC) МОД ПРОВЕРКА КЕЙСОВ

Copyright © 2015, SAS Institute Inc. All right reserved.

[email protected]

Контакты: