Upload
others
View
10
Download
0
Embed Size (px)
Citation preview
Решения Huawei для обработки больших данных
Партнерская конференция 2019
Иван КровяковТехнический директор направления IT
Содержание
Партнерская конференция 2019
• Большие данные и Huawei
• Huawei FusionInsight HD: обзор
• Huawei GaussDB 200: обзор
Сложности традиционной работы с данными
Партнерская конференция 2019
Требуются новые способы работы с большими объемами данных
Все больше
исторических данных
Все больше
неструктурированных данных
Все больше
требования к оперативности
Все больше
источников данных
Рост стоимости
хранения
Медленная пакетная
обработка
Невозможность
потоковой обработки
Ограниченная
масштабируемость
Ограниченное
количество источников
Закрытая архитектура и
высокий TCO
Многоканальный слой представления и доступа
Служебные приложения и компоненты
ПО Отчеты Поиск KPI OLAPAd-hoc
анализ
Data
mining
Data
mgmt
Appframe SpringApplication framework
and platform
Middleware (например, Apache Tomcat)
Слой
данных DB2 Oracle Sybase Teradata
Слой
инфра-
структурыRISC-серверы Сеть СХД
Big Data: распространенные технологии
Партнерская конференция 2019
Единого решения нет
Для разных задач – четыре основные технологии:
Hadoop: неструктурированные и/ или пакетные
данные, non-real-time обработка, data mining
MPP СУБД: структурированные данные,
корреляционный / моментальный анализ
NoSQL: структурированные /
неструктурированные данные, real-time запросы
Потоковая обработка: обработка /
фильтрация / проверка данных на соответствие
правилам в реальном времени
0
1
2
3
4
5
6O&M
Cost
HA
Real-time dataprocessing
Data size
high performance
Unstructured data
Join process
Hadoop MPPDB NoSQL Steaming
Эволюция и развитие платформ Big Data
Партнерская конференция 2019
Традиционные
реляционные СУБД
Сервер(-ы) СУБД
MPP СУБД
Серверы СУБД
Централизованный доступ
Распределенное хранилище
Внутренняя скоростная
сеть
Приложение /
пользователь
Приложение /
пользователь
Hadoop
Приложение /
пользователь
Централизованный доступ
Общее хранилище
Стандартный SQL/ диалект SQL Стандартный SQL/ диалект SQLОсновной способ работы – API
SQL-like синтаксис как дополнение
Результат
1. Разработка
приложения
2. Развертывание
приложения
3. Параллельное
выполнение
4. Возврат результата
Внутренняя скоростная
сеть
Эталонная архитектура Big Data: DIKW
Партнерская конференция 2019
Центр
управления
Управление безопасностью
Управление планированием
Управление эксплуатацией
Управление
данными
Сл
ой
ПО
ПО NПО 5ПО 2 ПО 3 ПО 4ПО 1
WisdomМудрость
Knowledge
Знание
InformationИнформация
Data
Данные
Сбор данных
ELT/ETL
Structured data Unstructured data Third-party data Stream data
Structured conversion Unstructured conversion Multimedia conversion
Анализ полу-/неструкт. данных
Text analysis Internet analysis Multimedia
analysis
Анализ структ. данных
Classification Clustering
Prediction Association
Обработка
инцидентов
Специализированные СУБД
Real-time computing
Interactive
explorationThemed database
Data aggregation
Application computing
Хранение
данных
Basic data zoneReal-time
query zone
Original data zone
Word segmentation
Semantics
NLP
Search
Social network
Recommendation engine
Audio analysis
Video analysis
Image analysis
Statistics/
associationTextXML/JSON Audio to text
Video
synopsisFiltering/
matching
CEP
RTD
Сервис исторических данных
Сервис тематических запросов Сервис взаимосвязей Поведенческий анализ
Полнотекстовый поиск Статистический анализ
Обработка
потоковых
данныхMicro-batch
processing
Сл
ой
об
раб
отки
Дан
ны
еП
латф
ор
ма
Исто
ч-
ни
ки
Обработка данных: ландшафт
Партнерская конференция 2019
Объем хранения и количество пакетных задач
Тр
еб
ова
ни
я к о
пе
рати
вно
сти
и н
ад
еж
но
сти
Слабые Высокие
Традиционные OLTP СУБД
Вы
со
кие
Стек Hadoop
Cloudera
Hortonworks
Huawei
FusionInsight
HDНовые хранилища
данных на основе MPP
HPE Vertica
Pivotal
Greenplum
Teradata Huawei
GaussDB 200
Облачные сервисы
Amazon
RedshiftMS Azure
SQL DWH Huawei DWS
Большие данные
Гибридные
сценарии
Oracle ExadataIBM
PureData
(ex-Netezza)
При небольшом объеме
данных для построения
хранилищ используются
OLTP СУБД
Teradata
Huawei Big Data R&D: глобальные центры
Партнерская конференция 2019
Сиань:Hadoop products ELK/MPP DB
Шэньчжэнь/Гонконг:Big Data insight platform Big Data solution Data mining algorithm
Индия:Hadoop Data visualization MOLAP
США: Spark ELK/MPP DB Big Data acceleration
Европа: Distributed memory DB Distributed computing algorithm
Ханчжоу: Hadoop & Spark Stream computing
Канада: Yarn/large-scale schedulingHardware accelerationFinance Big Data analysis
Huawei анонсировал Big Data как одно из 4 стратегических направлений
развития компании
8 исследовательских центров по всему миру
1500+ человек
Эксперты data mining / ИИ мирового уровня, включаяApache PMC & Committers
и IEEE Fellows
Huawei Enterprise Intelligence: обзор
Партнерская конференция 2019
Большие кластеры с единым
управлением
Интеллектуальныйанализ с быстрым
откликом
Агрегированныеданные и совместная
обработка
ОператорыФинансовыйсектор
ПравительстваОбщественнаябезопасность
...
FusionMind*GaussDB
200FusionInsight
HD
Облачные сервисы больших данных, СУБД и ИИ
Серверы x86 ARM AtlasОблачная
платформа
HUAWEI
CLOUD StackСХД FusionStorage
* Пока доступно только в Китае
Содержание
Партнерская конференция 2019
• Большие данные и Huawei
• Huawei FusionInsight HD: обзор
• Huawei GaussDB 200: обзор
Вклад Huawei в сообщество Hadoop
Партнерская конференция 2019
ИспользованиеHadoop
Решение второстепенных
проблем
Разработка ключевых функций
уровня ядра
Организация долговременной
разработки ключевых функций сообществом
Создание новых ключевых проектов уровня сообщества и включение их в экосистему
Команды уровня ядра Hadoop предоставляют возможности разработки и внедрения продукта
Экосистема сообщества open-source разработки
Apache
Массивный код различных компонентов
Частые обновления компонентов
Неэффективная интеграция функций
Решение проблем уровня ядра командами
Решение проблем уровня ядра отдельными
специалистами
• 9+ лет непрерывных инвестиций• 3 место по вкладу в сообщество• Решены 600+ проблем, 80% - серьезные или критичные• 10+ долгосрочных разработчиков сообщества Spark
FusionInsight HD: архитектура
Партнерская конференция 2019
Atlas
Открытый код (небольшие доработки Huawei)
HDFS/HBase/HFS
Открытый код (глубокие доработки Huawei) Проприетарный код / разработка Huawei
Распределенное
хранение
Yarn / Zookeeper
Распределенные вычисления
Предметно-
ориентированные
языки (DSL)
MapReduce Spark Flink
Superior Scheduler
Loader
(Sqoop)
Kafka
FTP
Интеграция данных Пакетная
обработка
Elk
Интерактивные
запросы
Hive
Elasticsearch
Поиск Машинное
обучение
MLlib
Потоковая
обработка
Spark
Streaming
Онлайн-
запросы
Phoenix
Huawei O&M Tools,
IDE, Integrated
ConsoleАвторизация
Аутентификация
Kerberos
ORC File RC File Parquet CarbonData
SQL на Hadoop Multi-tenantГетерогенные
среды
Возможности
корпоративного
класса
Spark SQL
Упрощенная
разработка
Flume
Oozie
Redis
Графовая
СУБД
LDAPGraphBase
Pollux
x86 ARM FusionStorage HUAWEI CLOUD
StackСерверы Хранение
Облачная
платформа
FusionInsight HD: ключевые особенности
Партнерская конференция 2019
Серверы ARM и x86 Yarn+
Улучшенный SparkSQL Tagram GraphBase
HFS Хранение HDFS на основе меток Улучшенный Flink
Поддержка ARM / x86 серверов на уровне кластера и отдельных компонентов
• Рост утилизации на30%
• Рост эффективности планировки на 50%
• Поддержка multi-tenancy и изоляции ресурсов
• Рост производительности TPC-DS на 30%
Производительность массивных запросов тэгов увеличена в 10+ раз.
Tag1 & Tag2 Tag3|
0 1 0 1 0 0 0 0 1 0 0 0 1 0 ...
0 1 0 0 0 1 0 0 1 0 0 0 0 0 ...
1 1 0 0 0 0 0 0 0 0 1 0 0 0 ...
&
| HBaseES
GraphBase
Relationship
queryMulti-layer
expansionGang analysis
• Десятки миллиардов вершин и сотни миллиардов ребер
• Отклик за секунды
HBase FileStream (HFS)
HBase API
Meta File
HFile (MOB)
HBase
MOB
HD может хранить триллионы небольших файлов (таких как изображения).
• Экономия от 10% до 90% ресурсов памяти.
• Снижение задержки переключения с секунд до мс
Superior Scheduler
High Low
Tasks with high priority Tasks with medium priority Tasks with low priority
Task queue
High priority
application
Medium priority
application
Low priority
application
HDFS
Yarn
SLA для приложений
Выполнение ключевых задач на основе SLA
Online application
Offline application
On
line
ap
plic
ation
On
line
ap
plic
ation
Ba
tch
pro
ce
ssin
g
Ba
tch
pro
ce
ssin
g
• Изоляция ввода-вывода
• Рост производитель-ности
• Экономичное хранение
HDFS
Mgmt
control
RH2288 TaiShan
RH2288 TaiShan
...
Yarn RH2288 TaiShan
FusionInsight HD: управление корпоративного уровня
Партнерская конференция 2019
Мониторинг
событий
Управление
сервисами
Управление
тенантамиРезервное
копирование и
восстановление
FusionInsight HD: недавний пилот в России
Партнерская конференция 2019
Стенд # узловКонфигурация узлов
CPU RAM DISK
CDH Impala 6 E5-2699 v4 * 2 512GB72 disks
8TB SATA * 12
FI HD Elk 5 E5-2670 v3 * 2 256GB10 disks
4TB SATA * 2
Аппаратная
конфигурация
Результаты
тестирования
Тест TPC-DS Прогон# скрипта
19 60 72 82
Время выполненияCDH Impala
Холодный 1.44 1.75 146.6 4.31
Горячий 1.2 1.76 151.1 1.23
Время выполненияFI HD Elk
Холодный 5.8 1.8 9.8 8.2
Горячий 0.4 0.6 8.5 2.1
Содержание
Партнерская конференция 2019
• Большие данные и Huawei
• Huawei FusionInsight HD: обзор
• Huawei GaussDB 200: обзор
Huawei GaussDB 200: развитие
Партнерская конференция 2019
MPP архитектура
Строчное
хранение
HA механизм
Распределенная
структура
2012–2013
• Улучшение производительности: колоночное
хранение, улучшенное сжатие, LLVM, оптимизатор
запросов
• Масштабируемость: рост размера кластера,
онлайн-расширение, SQL on Anywhere
• Надежность: HA всех компонентов, динамическое
распределение, обнаружение сбоев
• Удобство и экосистема: Data Studio, Migration
Tool, multi-tenancy
2014–2017
• Безопасность: улучшенная гранулярность
доступа, расширенные возможности AuthN/AuthZ
• Отказоустойчивость: CN-Retry и узлы горячего
резерва
• Оптимизация «железа»: оптимизация под ARM-
архитектуру и RDMA-сети
• Гетерогенность: конвергентное хранение,
поддержка стандартного SQL для разнородных
данных (графы, потоковые данные)
2018+
Разработка
прототипа и
техническая
верификация
Успешное коммерческое использование:
• 200+ проектов в Китае: финансы, безопасный город,
телеком и др.
• Избранные проекты в Телекоме за пределами Китая
Коммерческое использование по всему
миру
Зрелые команды внедрения и сервисной
поддержки
Широкое использование в финансовом секторе, «безопасных городах» и телекоме
Технологическое
развитие
Развитие
рынка
GaussDB 200: КХД петабайтного уровня
Масштабирование Расширение до 2048 узлов
Линейность до 0.9
Производительность Рост производительности на 30% в
сравнении с существующими ПАК
Полный параллелизм, в 5-10 раз быстрее
традиционных СУБД
Надежность Отказоустойчивость всех компонентов
Толерантность к сбою любого узла
Простота использования Стандартный SQL и механизмы простой
миграции
Онлайн-расширение без остановки
бизнес-задач
Обновление 100 узлов за 1 час
Стандартные интерфейсы ANSI SQL, JDBC и ODBCСлой
интерфейса
Слой
приложений
Телеком
Анализ операций
Запрос
xDRКХД
Финансы Госсектор
КХДПоиск
информации
Кластер
MPP
…
Инструменты
Миграция
данных
SQL
разработка
Управление
кластером
…
…
Coordinator
node-1
X86/ARM X86/ARM X86/ARM
Строчное /
колоночное
хранение
Локальные
диски
Локальные
диски
Локальные
диски
Coordinator
node-2Coordinator node-
m(optional)…
Внутрикластерная сеть связи
Data Node-1 Data Node-2 Data Node-n
Строчное /
колоночное
хранение
Строчное /
колоночное
хранение
Партнерская конференция 2019
GaussDB 200: программная архитектура
Партнерская конференция 2019
Data Node-1
CoordinatorNode-n
Local disk
Data Node-2
Local disk
Data Node-3
Local disk
Data Node-n
Local disk
App2
…
CM GTM WLMCoordinator
Node-2OM …GDS Loader Coordinator
Node-1
OM
CM
GTM
WLM
Coordinator
Data Node
Storage
GDS Loader
App1
Network channel (10 GE)
• Operation Manager
• Cluster Manager
• Global Transaction Manager
• Workload Manager
• Узел доступа и планировщик
• Логическая сущность, на которой выполняются подзадачи запроса
• Ресурсы хранения
• Параллельная загрузка данных
GaussDB 200: процесс обработки
Партнерская конференция 2019
Data Node-1
CoordinatorNode-n
Local disk
Data Node-2
Local disk
Data Node-3
Local disk
Data Node-n
Local disk
App2
…
CM GTM WLMCoordinator
Node-2OM …GDS Loader Coordinator
Node-1
App1
Network channel (10 GE)
1
2
3
4
5
1 Бизнес-приложения отправляют SQL-выражения на координатор для вставки, удаления / удаления, обновления и выбора данных.
2 Координатор использует оптимизатор базы данных для генерации плана выполнения. Каждый DN будет обрабатывать данные в соответствии с планом выполнения.
3 Т.к. данные равномерно распределяются между узлами, им может потребоваться получить данные из других узлов данных во время обработки данных. GaussDB предоставляет три типа потоков (Broadcast, Aggregate и Redistribute) для уменьшения потока данных между узлами DN.
4Узлы данных возвращают наборы результатов координатору для агрегации.
5 Координатор возвращает агрегированный результат бизнес-приложениям.
GaussDB 200: ключевые особенности
Партнерская конференция 2019
Мультитенантность Строчное/колоночное хранение
Параллельная архитектура Интеллектуальный оптимизатор Быстрое обновление
Масштабирование без перерыва Физический и логический бекап Кросс-ЦОД/кластерный анализ
• Визуализированное многоуровневое управление
• Изоляция ресурса• Мониторинг и
планирование ресурсов
• Указание хранилище строк / столбцов на уровне таблицы
• Выбор тип хранения для конкретной задачи
• MPP: >1000 узлов• SMP: >64 ядер• SIMD: x86 и ARM• LLVM:
динамическая генерация кода
• Глобальная таблица подсказок• Автоматическая оптимизация• Встроенные механизмы RBO и CBO• Увеличение производительности до
1000 раз
• Обновление между основными версиями
• Сокращение времени обновления на 60%
• Автоматический откат при сбое обновления
• Линейность> 0,9• Нет простоя• Быстрое
перераспределение
данных• Данные могут
быть прочитаны и записаны во время расширения
• Унифицированный кросс-кластерный анализ
• Поддерживает Spark, Oracle и другие кластеры GaussDB 200
• Включает кросс-ЦОД корреляционный анализ
• Нет миграции данных
Совместимость со стандартным SQL
• Прозрачно для приложений
• Высокая производитель-ность и интер-активные запросы
• Локальный диск или NBU
• CLI и GUI• EXPORT /
IMPORT
Columnar storage
Row storage
Vector engine
Row engine
R2V
V2R
LFS
GaussDB 200
FOREIGN TABLE
Spark
Hive
ANSI SQL SQL/API- like
HDFS/HBase
Big d
ata analysis
platfo
rm Storm
FusionInsight HDD
N
D
NDN
D
N
D
N
D
ND
N
D
N
A
B
C D E
F G H
I J K
A
E
J
Compile
In
time
A
E
J
Optimize
In
time 2часа
Spark
Oracle
GaussDB
GaussDB
VM VM VM VM
SQL engine
SQL
PICC: замена Teradata и Oracle Exadata на GaussDB 200
Партнерская конференция 2019
Система CRM-аналитики
ExadataTeradata
Закрытая архитектура Открытая платформа
MPP СУБД
Обычные x86 серверы
ОС Linux
• От закрытой платформы – к обычным x86: рост
производительности в 5..20 раз
• Замена Exadata Customer Relationship Management
System емкостью 100 ТБ
• ТТМ новых услуг сокращен с 3 месяцев до 15 дней, или
в 6 раз.
OracleTeradata
Распределенная СУБД Huawei с открытой
архитектуройЕжемесячные отчеты
выполняются за 15 дней
3 дня
Быстрая поддержка бизнес-решений
ICBC: конвергентное КХД на GaussDB 200 и FusionInsight HD
Партнерская конференция 2019
КХД -> конвергентное КХД
Оценка производительности
Кредитныезапросы
Аналитическая платформа
Клиентские риски
Регуляторная отчетность
Основной отчет
Внешние финансовые активы
Интеллектуальный маркетинг
Teradata
Закрытая архитектура Открытая платформа
MPP СУБД
Обычные x86 серверы
ОС Linux
• При переходе к открытой архитектуре
производительность выросла на более чем 30%
• Завершен перенос всех сервисов TD, включая
пакетную БД и 49 витрин (объем данных – 1 ПБ)
• Время перерыва на масштабирование с 40 часов до
нуля без остановки бизнес-приложенийc
Время обработки улучшено в 2.6 разГотовность отчетности до открытия дняУлучшенная поддержка решений
СПАСИБО!