Решения Huawei для обработки больших данных...Партнерская конференция 2019 Система CRM-аналитики Exadata Teradata

Решения Huawei для обработки больших данных

Партнерская конференция 2019

Иван КровяковТехнический директор направления IT

Содержание


• Большие данные и Huawei

• Huawei FusionInsight HD: обзор

• Huawei GaussDB 200: обзор

Сложности традиционной работы с данными


Требуются новые способы работы с большими объемами данных

Все больше

исторических данных

Все больше

неструктурированных данных

Все больше

требования к оперативности

Все больше

источников данных

Рост стоимости

хранения

Медленная пакетная

обработка

Невозможность

потоковой обработки

Ограниченная

масштабируемость

Ограниченное

количество источников

Закрытая архитектура и

высокий TCO

Многоканальный слой представления и доступа

Служебные приложения и компоненты

ПО Отчеты Поиск KPI OLAPAd-hoc

анализ

Data

mining

Data

mgmt

Appframe SpringApplication framework

and platform

Middleware (например, Apache Tomcat)

Слой

данных DB2 Oracle Sybase Teradata

Слой

инфра-

структурыRISC-серверы Сеть СХД

Big Data: распространенные технологии


Единого решения нет

Для разных задач – четыре основные технологии:

Hadoop: неструктурированные и/ или пакетные

данные, non-real-time обработка, data mining

MPP СУБД: структурированные данные,

корреляционный / моментальный анализ

NoSQL: структурированные /

неструктурированные данные, real-time запросы

Потоковая обработка: обработка /

фильтрация / проверка данных на соответствие

правилам в реальном времени

0

1

2

3

4

5

6O&M

Cost

HA

Real-time dataprocessing

Data size

high performance

Unstructured data

Join process

Hadoop MPPDB NoSQL Steaming

Эволюция и развитие платформ Big Data


Традиционные

реляционные СУБД

Сервер(-ы) СУБД

MPP СУБД

Серверы СУБД

Централизованный доступ

Распределенное хранилище

Внутренняя скоростная

сеть

Приложение /

пользователь



Hadoop



Централизованный доступ

Общее хранилище

Стандартный SQL/ диалект SQL Стандартный SQL/ диалект SQLОсновной способ работы – API

SQL-like синтаксис как дополнение

Результат

1. Разработка

приложения

2. Развертывание

приложения

3. Параллельное

выполнение

4. Возврат результата

Внутренняя скоростная

сеть

Эталонная архитектура Big Data: DIKW


Центр

управления

Управление безопасностью

Управление планированием

Управление эксплуатацией

Управление

данными

Сл

ой

ПО

ПО NПО 5ПО 2 ПО 3 ПО 4ПО 1

WisdomМудрость

Knowledge

Знание

InformationИнформация

Data

Данные

Сбор данных

ELT/ETL

Structured data Unstructured data Third-party data Stream data

Structured conversion Unstructured conversion Multimedia conversion

Анализ полу-/неструкт. данных

Text analysis Internet analysis Multimedia

analysis

Анализ структ. данных

Classification Clustering

Prediction Association

Обработка

инцидентов

Специализированные СУБД

Real-time computing

Interactive

explorationThemed database

Data aggregation

Application computing

Хранение

данных

Basic data zoneReal-time

query zone

Original data zone

Word segmentation

Semantics

NLP

Search

Social network

Recommendation engine

Audio analysis

Video analysis

Image analysis

Statistics/

associationTextXML/JSON Audio to text

Video

synopsisFiltering/

matching

CEP

RTD

Сервис исторических данных

Сервис тематических запросов Сервис взаимосвязей Поведенческий анализ

Полнотекстовый поиск Статистический анализ

Обработка

потоковых

данныхMicro-batch

processing

Сл

ой

об

раб

отки

Дан

ны

еП

латф

ор

ма

Исто

ч-

ни

ки

Обработка данных: ландшафт


Объем хранения и количество пакетных задач

Тр

еб

ова

ни

я к о

пе

рати

вно

сти

и н

ад

еж

но

сти

Слабые Высокие

Традиционные OLTP СУБД

Вы

со

кие

Стек Hadoop

Cloudera

Hortonworks

Huawei

FusionInsight

HDНовые хранилища

данных на основе MPP

HPE Vertica

Pivotal

Greenplum

Teradata Huawei

GaussDB 200

Облачные сервисы

Amazon

RedshiftMS Azure

SQL DWH Huawei DWS

Большие данные

Гибридные

сценарии

Oracle ExadataIBM

PureData

(ex-Netezza)

При небольшом объеме

данных для построения

хранилищ используются

OLTP СУБД

Teradata

Huawei Big Data R&D: глобальные центры


Сиань:Hadoop products ELK/MPP DB

Шэньчжэнь/Гонконг:Big Data insight platform Big Data solution Data mining algorithm

Индия:Hadoop Data visualization MOLAP

США: Spark ELK/MPP DB Big Data acceleration

Европа: Distributed memory DB Distributed computing algorithm

Ханчжоу: Hadoop & Spark Stream computing

Канада: Yarn/large-scale schedulingHardware accelerationFinance Big Data analysis

Huawei анонсировал Big Data как одно из 4 стратегических направлений

развития компании

8 исследовательских центров по всему миру

1500+ человек

Эксперты data mining / ИИ мирового уровня, включаяApache PMC & Committers

и IEEE Fellows

Huawei Enterprise Intelligence: обзор


Большие кластеры с единым

управлением

Интеллектуальныйанализ с быстрым

откликом

Агрегированныеданные и совместная

обработка

ОператорыФинансовыйсектор

ПравительстваОбщественнаябезопасность

...

FusionMind*GaussDB

200FusionInsight

HD

Облачные сервисы больших данных, СУБД и ИИ

Серверы x86 ARM AtlasОблачная

платформа

HUAWEI

CLOUD StackСХД FusionStorage

* Пока доступно только в Китае






Вклад Huawei в сообщество Hadoop


ИспользованиеHadoop

Решение второстепенных

проблем

Разработка ключевых функций

уровня ядра

Организация долговременной

разработки ключевых функций сообществом

Создание новых ключевых проектов уровня сообщества и включение их в экосистему

Команды уровня ядра Hadoop предоставляют возможности разработки и внедрения продукта

Экосистема сообщества open-source разработки

Apache

Массивный код различных компонентов

Частые обновления компонентов

Неэффективная интеграция функций

Решение проблем уровня ядра командами

Решение проблем уровня ядра отдельными

специалистами

• 9+ лет непрерывных инвестиций• 3 место по вкладу в сообщество• Решены 600+ проблем, 80% - серьезные или критичные• 10+ долгосрочных разработчиков сообщества Spark

FusionInsight HD: архитектура


Atlas

Открытый код (небольшие доработки Huawei)

HDFS/HBase/HFS

Открытый код (глубокие доработки Huawei) Проприетарный код / разработка Huawei

Распределенное

хранение

Yarn / Zookeeper

Распределенные вычисления

Предметно-

ориентированные

языки (DSL)

MapReduce Spark Flink

Superior Scheduler

Loader

(Sqoop)

Kafka

FTP

Интеграция данных Пакетная

обработка

Elk

Интерактивные

запросы

Hive

Elasticsearch

Поиск Машинное

обучение

MLlib

Потоковая

обработка

Spark

Streaming

Онлайн-

запросы

Phoenix

Huawei O&M Tools,

IDE, Integrated

ConsoleАвторизация

Аутентификация

Kerberos

ORC File RC File Parquet CarbonData

SQL на Hadoop Multi-tenantГетерогенные

среды

Возможности

корпоративного

класса

Spark SQL

Упрощенная

разработка

Flume

Oozie

Redis

Графовая

СУБД

LDAPGraphBase

Pollux

x86 ARM FusionStorage HUAWEI CLOUD

StackСерверы Хранение

Облачная

платформа

FusionInsight HD: ключевые особенности


Серверы ARM и x86 Yarn+

Улучшенный SparkSQL Tagram GraphBase

HFS Хранение HDFS на основе меток Улучшенный Flink

Поддержка ARM / x86 серверов на уровне кластера и отдельных компонентов

• Рост утилизации на30%

• Рост эффективности планировки на 50%

• Поддержка multi-tenancy и изоляции ресурсов

• Рост производительности TPC-DS на 30%

Производительность массивных запросов тэгов увеличена в 10+ раз.

Tag1 & Tag2 Tag3|

0 1 0 1 0 0 0 0 1 0 0 0 1 0 ...

0 1 0 0 0 1 0 0 1 0 0 0 0 0 ...

1 1 0 0 0 0 0 0 0 0 1 0 0 0 ...

&

| HBaseES

GraphBase

Relationship

queryMulti-layer

expansionGang analysis

• Десятки миллиардов вершин и сотни миллиардов ребер

• Отклик за секунды

HBase FileStream (HFS)

HBase API

Meta File

HFile (MOB)

HBase

MOB

HD может хранить триллионы небольших файлов (таких как изображения).

• Экономия от 10% до 90% ресурсов памяти.

• Снижение задержки переключения с секунд до мс

Superior Scheduler

High Low

Tasks with high priority Tasks with medium priority Tasks with low priority

Task queue

High priority

application

Medium priority

application

Low priority

application

HDFS

Yarn

SLA для приложений

Выполнение ключевых задач на основе SLA

Online application

Offline application

On

line

ap

plic

ation

On

line

ap

plic

ation

Ba

tch

pro

ce

ssin

g

Ba

tch

pro

ce

ssin

g

• Изоляция ввода-вывода

• Рост производитель-ности

• Экономичное хранение

HDFS

Mgmt

control

RH2288 TaiShan

RH2288 TaiShan

...

Yarn RH2288 TaiShan

FusionInsight HD: управление корпоративного уровня


Мониторинг

событий


сервисами


тенантамиРезервное

копирование и

восстановление

FusionInsight HD: недавний пилот в России


Стенд # узловКонфигурация узлов

CPU RAM DISK

CDH Impala 6 E5-2699 v4 * 2 512GB72 disks

8TB SATA * 12

FI HD Elk 5 E5-2670 v3 * 2 256GB10 disks

4TB SATA * 2

Аппаратная

конфигурация

Результаты

тестирования

Тест TPC-DS Прогон# скрипта

19 60 72 82

Время выполненияCDH Impala

Холодный 1.44 1.75 146.6 4.31

Горячий 1.2 1.76 151.1 1.23

Время выполненияFI HD Elk

Холодный 5.8 1.8 9.8 8.2

Горячий 0.4 0.6 8.5 2.1






Huawei GaussDB 200: развитие


MPP архитектура

Строчное

хранение

HA механизм

Распределенная

структура

2012–2013

• Улучшение производительности: колоночное

хранение, улучшенное сжатие, LLVM, оптимизатор

запросов

• Масштабируемость: рост размера кластера,

онлайн-расширение, SQL on Anywhere

• Надежность: HA всех компонентов, динамическое

распределение, обнаружение сбоев

• Удобство и экосистема: Data Studio, Migration

Tool, multi-tenancy

2014–2017

• Безопасность: улучшенная гранулярность

доступа, расширенные возможности AuthN/AuthZ

• Отказоустойчивость: CN-Retry и узлы горячего

резерва

• Оптимизация «железа»: оптимизация под ARM-

архитектуру и RDMA-сети

• Гетерогенность: конвергентное хранение,

поддержка стандартного SQL для разнородных

данных (графы, потоковые данные)

2018+

Разработка

прототипа и

техническая

верификация

Успешное коммерческое использование:

• 200+ проектов в Китае: финансы, безопасный город,

телеком и др.

• Избранные проекты в Телекоме за пределами Китая

Коммерческое использование по всему

миру

Зрелые команды внедрения и сервисной

поддержки

Широкое использование в финансовом секторе, «безопасных городах» и телекоме

Технологическое

развитие

Развитие

рынка

GaussDB 200: КХД петабайтного уровня

Масштабирование Расширение до 2048 узлов

Линейность до 0.9

Производительность Рост производительности на 30% в

сравнении с существующими ПАК

Полный параллелизм, в 5-10 раз быстрее

традиционных СУБД

Надежность Отказоустойчивость всех компонентов

Толерантность к сбою любого узла

Простота использования Стандартный SQL и механизмы простой

миграции

Онлайн-расширение без остановки

бизнес-задач

Обновление 100 узлов за 1 час

Стандартные интерфейсы ANSI SQL, JDBC и ODBCСлой

интерфейса

Слой

приложений

Телеком

Анализ операций

Запрос

xDRКХД

Финансы Госсектор

КХДПоиск

информации

Кластер

MPP

…

Инструменты

Миграция

данных

SQL

разработка


кластером

…

…

Coordinator

node-1

X86/ARM X86/ARM X86/ARM

Строчное /

колоночное

хранение

Локальные

диски

Локальные

диски

Локальные

диски

Coordinator

node-2Coordinator node-

m(optional)…

Внутрикластерная сеть связи

Data Node-1 Data Node-2 Data Node-n

Строчное /


хранение

Строчное /


хранение


GaussDB 200: программная архитектура


Data Node-1

CoordinatorNode-n

Local disk

Data Node-2

Local disk

Data Node-3

Local disk

Data Node-n

Local disk

App2

…

CM GTM WLMCoordinator

Node-2OM …GDS Loader Coordinator

Node-1

OM

CM

GTM

WLM

Coordinator

Data Node

Storage

GDS Loader

App1

Network channel (10 GE)

• Operation Manager

• Cluster Manager

• Global Transaction Manager

• Workload Manager

• Узел доступа и планировщик

• Логическая сущность, на которой выполняются подзадачи запроса

• Ресурсы хранения

• Параллельная загрузка данных

GaussDB 200: процесс обработки


Data Node-1

CoordinatorNode-n

Local disk

Data Node-2

Local disk

Data Node-3

Local disk

Data Node-n

Local disk

App2

…

CM GTM WLMCoordinator

Node-2OM …GDS Loader Coordinator

Node-1

App1

Network channel (10 GE)

1

2

3

4

5

1 Бизнес-приложения отправляют SQL-выражения на координатор для вставки, удаления / удаления, обновления и выбора данных.

2 Координатор использует оптимизатор базы данных для генерации плана выполнения. Каждый DN будет обрабатывать данные в соответствии с планом выполнения.

3 Т.к. данные равномерно распределяются между узлами, им может потребоваться получить данные из других узлов данных во время обработки данных. GaussDB предоставляет три типа потоков (Broadcast, Aggregate и Redistribute) для уменьшения потока данных между узлами DN.

4Узлы данных возвращают наборы результатов координатору для агрегации.

5 Координатор возвращает агрегированный результат бизнес-приложениям.

GaussDB 200: ключевые особенности


Мультитенантность Строчное/колоночное хранение

Параллельная архитектура Интеллектуальный оптимизатор Быстрое обновление

Масштабирование без перерыва Физический и логический бекап Кросс-ЦОД/кластерный анализ

• Визуализированное многоуровневое управление

• Изоляция ресурса• Мониторинг и

планирование ресурсов

• Указание хранилище строк / столбцов на уровне таблицы

• Выбор тип хранения для конкретной задачи

• MPP: >1000 узлов• SMP: >64 ядер• SIMD: x86 и ARM• LLVM:

динамическая генерация кода

• Глобальная таблица подсказок• Автоматическая оптимизация• Встроенные механизмы RBO и CBO• Увеличение производительности до

1000 раз

• Обновление между основными версиями

• Сокращение времени обновления на 60%

• Автоматический откат при сбое обновления

• Линейность> 0,9• Нет простоя• Быстрое

перераспределение

данных• Данные могут

быть прочитаны и записаны во время расширения

• Унифицированный кросс-кластерный анализ

• Поддерживает Spark, Oracle и другие кластеры GaussDB 200

• Включает кросс-ЦОД корреляционный анализ

• Нет миграции данных

Совместимость со стандартным SQL

• Прозрачно для приложений

• Высокая производитель-ность и интер-активные запросы

• Локальный диск или NBU

• CLI и GUI• EXPORT /

IMPORT

Columnar storage

Row storage

Vector engine

Row engine

R2V

V2R

LFS

GaussDB 200

FOREIGN TABLE

Spark

Hive

ANSI SQL SQL/API- like

HDFS/HBase

Big d

ata analysis

platfo

rm Storm

FusionInsight HDD

N

D

NDN

D

N

D

N

D

ND

N

D

N

A

B

C D E

F G H

I J K

A

E

J

Compile

In

time

A

E

J

Optimize

In

time 2часа

Spark

Oracle

GaussDB

GaussDB

VM VM VM VM

SQL engine

SQL

PICC: замена Teradata и Oracle Exadata на GaussDB 200


Система CRM-аналитики

ExadataTeradata

Закрытая архитектура Открытая платформа

MPP СУБД

Обычные x86 серверы

ОС Linux

• От закрытой платформы – к обычным x86: рост

производительности в 5..20 раз

• Замена Exadata Customer Relationship Management

System емкостью 100 ТБ

• ТТМ новых услуг сокращен с 3 месяцев до 15 дней, или

в 6 раз.

OracleTeradata

Распределенная СУБД Huawei с открытой

архитектуройЕжемесячные отчеты

выполняются за 15 дней

3 дня

Быстрая поддержка бизнес-решений

ICBC: конвергентное КХД на GaussDB 200 и FusionInsight HD


КХД -> конвергентное КХД

Оценка производительности

Кредитныезапросы

Аналитическая платформа

Клиентские риски

Регуляторная отчетность

Основной отчет

Внешние финансовые активы

Интеллектуальный маркетинг

Teradata

Закрытая архитектура Открытая платформа

MPP СУБД

Обычные x86 серверы

ОС Linux

• При переходе к открытой архитектуре

производительность выросла на более чем 30%

• Завершен перенос всех сервисов TD, включая

пакетную БД и 49 витрин (объем данных – 1 ПБ)

• Время перерыва на масштабирование с 40 часов до

нуля без остановки бизнес-приложенийc

Время обработки улучшено в 2.6 разГотовность отчетности до открытия дняУлучшенная поддержка решений

СПАСИБО!

Documents

Решения Huawei для обработки больших данных...Партнерская конференция 2019 Система CRM-аналитики Exadata Teradata