Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
PUBLIC
Елена Ганченко, SAP
30.05.2018
Big Data От пилота к практике
2PUBLIC©2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ
«Большие» данные изменили системный ландшафт
BW/4
HANA
ФайлыERP СУБД
Хранилище Данных
BI / Аналитика
Структурированные данных
ETL процесс
Аналитика/ Машинное обучениеРаспределенные данные
и вычисления
Структурированные и
неструктурированные
данные
ETL/ELT кросс-системные
процессы
S4
HANA
Озеро
Данных
Платформа SAP HANA
On-premise SCP
От централизованных, реляционных,
Хранилищ Данных…
…к распределённым платформам
обработки данных
Ключевые факторы:
• Появились новые источники, генерирующие большой объем разнородных данных – производственные сенсоры, фото и видео, журналы, web ресурсы и тп
• Появились новые типы данных – временные ряды, графы
• Разработаны новые технологии для хранения и обработки «больших» данных – Hadoop и его компоненты, как основа для Озер Данных
• Получили распространения новые научные способы исследования данных – модели машинное обучения
• Облачные сервисы в большинстве компаний стали неотъемлемой частью бизнес-процессов компании
AWS…
Задача управления данными в таком децентрализованном ландшафте является критически важной, но сложно решаемой.
3PUBLIC©2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ
SAP HANA Platform
ABAP AppSQL Tool
Mixed
SAP Big Data Warehouse
SAP BW/4HANA
Business WarehouseSAP HANA SQL
Data Warehousing
OrchestrationIngestion Governance Security
Federation Modelling Tiering Aging
SAP Data Hub
Data Lakes (SCP BDS & 3rd Party)
Подходы к построению Хранилищ Данных
4PUBLIC©2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ
SAP SQL Data Warehouse
Custom SQL approach
IN G E S T
& RE F IN E
SOURCES
BATCH STREAMING REPLICATION VIRTUALIZATION
PIPELINE
ORCHESTRATION
DATA STORE
& COMPUTE
SA
P B
ig D
ata
Wa
reh
ou
sin
g
On-Premises Cloud
Data Ingestion
& Onboarding
Data
Discovery
Data Refinery
& OrchestrationSAP Data HubData
Governance
CO N S U M E
& AC TANALYTICS SPATIAL MACHINE LEARNING LEONARDO
Хранилище Данных на основе SAP HANA SQL
Calculation View Procedures SQLCDS - NDSO Virtual Tables Flowgraphs
SAP HANA Web IDE
Git - Hub Scheduling & MonitoringData Model Temperature
data storeTime Series Data distribution
License perspective SAP HANA Enterprise / Standard with limitations
5PUBLIC©2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ
1
Ускорение проектов реализации Хранилищ Данных за счет параллельной
разработки, автоматического тестирования и развертывания решений в
продуктивной среде – Agile DevOps
23
Новые способы анализа данных: машинное обучение,
пространственная аналитика, семантический анализ текста, а также
анализ событий в реальном времени
45 Оптимизация стоимости владения с помощью температурного хранения
данных
Хранилище Данных на основе SAP HANA SQL
технологий - Преимущества
Высокая производительность за счет технологии in-memory
Новые типы данных : временные ряды, неструктурированный текст,
графы и другие.
Возможности SAP HANA SQL технологии позволяют использовать
Хранилище Данных для монетизации «больших» данных
6PUBLIC©2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ
SAP SQL Data WarehouseCustom SQL approach
INGEST
& REFINE
SO U R C E S
BATCH STREAMING REPLICATION VIRTUALIZATION
PIPELINE
ORCHESTRATION
DATA STORE
& COMPUTE
SA
P B
ig D
ata
Wa
reh
ou
sin
g
Data Ingestion
& Onboarding
Data
Discovery
Data Refinery
& OrchestrationSAP Data HubData
Governance
CONSUME
& ACTANALYTICS SPATIAL MACHINE LEARNING LEONARDO
SAP BW/4HANA
SAP BW/4HANA
On-Premises Cloud
Calculation View Procedures SQLCDS - NDSO Virtual Tables Flowgraphs
Git - Hub Scheduling & MonitoringData Model Temperaturedata store
Time Series Data distribution
License perspective SAP HANA Enterprise is required
7PUBLIC©2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ
1234
Оптимизация стоимости владения за счет концепции температурного
хранения данных
Бизнес-контент для S/4HANA и других SAP систем
BW/4HANA – Преимущества
Интеграция с Data Lake - хранилищем «больших» данных
Защита инвестиций в SAP BW
5
Использование решений SAP на основе BW/4HANA: BPC для
консолидации и бюджетирования, FSPER – для сложных расчетов и др.
8PUBLIC©2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ
Миграция SAP BW на BW/4HANA
SAP BW 7.x
on any DB
BW/4HANA
Сроки стандартной поддержки SAP
SAP BW 7.0
31.12.2017SAP BW 7.3
31.12.2019SAP BW 7.5
31.12.2021
Развитие BW on HANA
остановлено в 2016 году
SAP BW 7.x
on HANA
Автоматизированный процесс миграции на SAP BW/4HANA за исключением
авторизации и оптимизации ABAP
КО
НВ
ЕР
ТЕ
Р
9PUBLIC©2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ
SAP SQL Data WarehouseCustom SQL approach
INGEST
& REFINE
SOURCES
BATCH STREAMING REPLICATION VIRTUALIZATION
PIPELINE
ORCHESTRATION
DATA STORE
& COMPUTE
SA
P B
ig D
ata
Wa
reh
ou
sin
g
Data Ingestion
& Onboarding
Data
Discovery
Data Refinery
& OrchestrationSAP Data HubData
Governance
CONSUME
& ACTANALYTICS SPATIAL MACHINE LEARNING LEONARDO
SAP HANA SQL + BW/4HANA – гибридный подход
SAP BW/4HANA
On-Premises Cloud
Calculation View Procedures SQLCDS - NDSO Virtual Tables Flowgraphs
Git - Hub Scheduling & MonitoringData Model Temperaturedata store
Time Series Data distribution
License perspective SAP HANA Enterprise is required
Mixed Approach
10PUBLIC©2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ
Загрузка
SAP HANA
Extractors
ODQ
Пакетная загрузка
данных
Репликация в
реальном
времени
RDBMS
/HadoopEmailSystem Landscape
Transformation (SLT)
ABAP
CDS
SAP BW/4HANA
HIVE SPARK VORA
Hadoop
SAP EIM
Non-SAP DataSAP Data
File
Big Data File
Доступ к данным
Text
ODP Source System
Виртуальный доступ
к «большим»
данным
SAP HANA SQL + BW/4HANA – гибридный подход
Гибридное Хранилище Данных
BPC FSPER Machine Learning
Пример
11PUBLIC2018 © SAP SE or an SAP affiliate company. All rights reserved. ǀ
SAP SQL Data
WarehouseCustom SQL approach
INGEST
& REFINE
SOURCES
BATCH STREAMING REPLICATION VIRTUALIZATION
PIP E L IN E
OR C H E S T R A T I
ON
DATA STORE
& COMPUTE
SA
P B
ig D
ata
Wa
reh
ou
sin
g
Data Ingestion
& Onboarding
Data
Discovery
Data Refinery
& OrchestrationSAP Data HubData
Governance
CO N S U M E
& AC TANALYTICS SPATIAL MACHINE LEARNING LEONARDO
SAP Big Data Warehouse
SAP BW/4HANA
On-Premises Cloud
Calculation View Procedures SQLCDS - NDSO Virtual Tables Flowgraphs
Git - Hub Scheduling & MonitoringData Model Temperaturedata store
Time Series Data distribution
Требуется лицензия SAP HANA Enterprise is required
Data Lakes
SAP Cloud
Platform
Big Data
Services
Third-Party
Hadoop/
Object
Stores
Mixed Approach
Forrester’s Definition of Big Data Warehouse –
A specialized, cohesive set of data repositories and platforms that supports a broad variety of analytics running on-premises, in the cloud, or in a
hybrid environment. BDW leverages traditional and new big data technologies such as Hadoop, Spark, columnar and row-based data warehouses,
ETL and streaming, and elastic in-memory and storage frameworks.
12PUBLIC©2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ
Hadoop – Мировые тренды в 2018 году
В течение 2018 года 70% проектов Hadoop не достигнут цели
по соотношению стоимости и генерируемой ими
дополнительной прибыли. На это влияют несколько факторов в
том числе сложность интеграции и недостаток опытных ресурсов на рынке
За три последних года, несмотря на беспрецедентное распространение
Hadoop и массовые инвестиции в Open Source технологии, только 20%
проектов смогли выйти в промышленную эксплуатациюсогласно результатам обследований, проведенных Gartner.
Gartner Data & Analytics Summit
Summit 2018
22 – 23 May 2018 / Sao Paulo, Brazil
Hadoop and Spark: Understanding Open-Source Opportunities and Risks
13PUBLIC©2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ
Hadoop – Мировые тренды в 2018 году
Основные предпосылки:
Разрозненность open source компонент
Необходимость массового программирования и наличия
подходящих для этого ресурсов
Недостаток функциональности для обеспечения
безопасности доступа к данным и управления данными
Сложность встраивания в корпоративную среду
Возможности:
SAP не против Open Source
SAP взаимодействует с Open Source
SAP добавляет ценности ландшафту с Open Source
14PUBLIC©2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ
Процесс анализа «Больших» Данных
Сенсоры
Журналы
Бизнес-системы
Пакетная загрузка
и репликация в
режиме
приближенном к
реальному
времени
Хранение
неструктурирован
ных данных, те
данных в
первоначальном
виде
Структурирование
данных
Объединение
Фильтрация
Очистка данных
Машинное
обучение
HadoopKafka | SAP Data
ServicesSpark | HIVE PythonИсточники данных
Данные Сбор данных Хранение Обработка Анализ
15PUBLIC2018 © SAP SE or an SAP affiliate company. All rights reserved. ǀ
SAP
Cloud
Platform
Процесс анализа «Больших» Данных
Сенсоры
Журналы
Бизнес-системы
Пакетная загрузка
и репликация в
режиме
приближенном к
реальному
времени
Хранение
неструктурирован
ных данных, те
данных в
первоначальном
виде
Структурирование
данных
Объединение
Фильтрация
Очистка данных
Машинное
обучение
HadoopKafka | SAP Data
ServicesSpark | HIVE | VORA
Python | SAP
Predictive AnalyticsИсточники данных
Данные Сбор данных Хранение Обработка Анализ
BI |S/4HANA |
BW/4HANA | non-SAP
SAP DATA HUBКаталог
метаданных
Интеграция
данных
Потоки
данныхМониторинг
Поддержка
принятия бизнес-
решений
Потребление
AWS
16PUBLIC©2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ
SAP Data Hub – Data Hub Distributed Database
Vora Vora Vora
Vora Vora Vora
Vora Vora Vora
„База Данных“ для
HadoopРазные Данные
Relational
(OLAP)
In-
MemorTime
SeriesDoc
Store
Graph
s
Удобный интерфейсНативная интеграция с
SAP HANA
SQL & NoSQL
Улучшение
производительности
Бизнес-контент
0.1sec
∞
HANA
Hadoop
Распределенные
вычисленияАналитика и сервисы
Интеграция HANA-
Hadoop
SAP Data Hub Distributed Database обеспечивает интеграцию «больших» и данных бизнес-систем SAP и non-SAP
New Big Data
Hadoop
Enterprise IT Environment
SAP ERP
BW
SAP HANA Platform
CRM
Any DB
Non SAP
InnovationAPP
PdMS
Dashboards
R Integration
SAP Data Hub
Data Management &
Preparation
SAP VORA
Time SeriesEngine
Monitoring
Orchestration & Automation
BusinessAnalyst
BusinessUser
DataScientist
DataEngineer
ITOperations
CIO/CDO/CTO Интернет Вещей - Пример
18PUBLIC2018 © SAP SE or an SAP affiliate company. All rights reserved. ǀ
SAP Data Hub: преимущества
1 Каталог метаданных улучшает понимание основного актива предприятия
– данных
2 Система авторизации пользователей защищает данные от
несанкционированного доступа
3Единая среда разработки, встроенные операции потока данных
упрощают и микросервисная архитектура упрощают и ускоряют
реализацию решения на «болших» данных4
Централизованное управление потоками данных позволяют оперативно
реагировать на сбои и восстанавливать нормальную работу потоков
данных. На поддержку потребуется меньше ресурсов.5
Кодирование данных обеспечивает защиту конфиденциальной
информации и тем временем не препятствует анализу данных
6 Двунаправленная интеграция бизнес-систем ландшафта и «больших»
данных
19PUBLIC©2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ
SAP Big Data Warehouse
20PUBLIC2018 © SAP SE or an SAP affiliate company. All rights reserved. ǀ
“Hot”
“Warm”
“Cold”
This tier is used to store mission critical data for real-time processing and real-time analytics.
Data is retained “In-Memory”.
This tier is used to store data with reduced performance SLAs, which is less frequently accessed.
Data is stored on dedicated “In-Memory” nodes (Extension Nodes) with a relaxed sizing ratio.
This tier is used to store voluminous data for sporadic or very limited access.
Data is stored on disk, in columnar structures on SAP IQ or in Hadoop HDFS.
Data Tiering is the assignment of data to various tiers/storage media based upon data type, operational usefulness, performance requirements, frequency of access, and security requirements of the data.
SAP HANA In-Memory Store
Data Tiering with Scale-Out
Data Tiering with External StorageSAP IQ/Hadoop
Data Temperature Management
21PUBLIC©2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ
SAP HANA SQL
Data Warehouse SAP BW/4HANA
In-Memory Store
Extended Store (Disk)
SAP IQ
Data
Lifecycle
Manager
Memory
HANA
Database
Memory
load/unload
Extension
nodes
Hadoop (HDFS)
Data Tiering
Optimization
Extension Nodes (in-memory relaxed sizing)
Multistore
tables
DATA HUB
Vora disk
Data
Lifecycle
Manager
Data Tiering
Optimization
Data Tiering
Optimization
Data Temperature ManagementSAP HANA and BW/4HANA
New New
Data
Lifecycle
Manager
Dynamic
Tiering
22PUBLIC2018 © SAP SE or an SAP affiliate company. All rights reserved. ǀ
Data Centric Architecture
Задача До После
Понимание бизнесаОграниченн
ое Глубокое
Моделирование бизнесаОграниченн
ое
Глубокое (бизнес и
ИТ)
Понимание данных –
каталог метаданных
Ограниченн
оеГлубокое
Самообслуживание
бизнеса
Ограниченн
оеДоступно
Безопасность Ограничено
В соответствии с
корпоративным
стандартами
УправлениеОграниченн
оеГлубокое
Прослеживаемость
аналитик и показателей
Ограниченн
оНа высоком уровне
Централизованный
мониторинг
Ограниченн
оНа высоком уровне
Машинное обучение Ограничено Возможно
Сбор данных с задержками Пакетный В реальном времени
1 Of customer, supplier, product, employee, reseller, etc
Third-party
Finance and
Planning
Visualization
Tools
Statistical
AnalyticsSpreadsheets
SAP
Business
Objects
Decision
Intelligence
Systems
Third-party
Finance and
Planning
Visualization
Tools
Statistical
AnalyticsSpreadsheets
SAP
Business
Objects
Decision
Intelligence
Systems
Текущая ситуация
SAP HANA Data Management Suite
SAP HANA DATA MANAGEMENT SUITE
23PUBLIC©2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ
Спасибо!
Контактная информация:
Елена Ганченко
Эксперт Database & Data Management
Database & Data Management Center of Excellence Middle East & Europe
M +7 925 006 42 01 I E [email protected]