Курс "Хранение и Обработка больших данны". Лекция...

Павел МезенцевРуководитель отдела банка Тинькофф

pavel@mezentsev.org

История версий hadoop

● 2004 MapReduce: Simplified Data Processing on Large Clusters

● 2005 Начало разработки Hadoop

● 2005 Начало разработки Hadoop● 2007 Передача в ASF

● 2005 Начало разработки Hadoop● 2007 Передача в ASF● 2009 Версия 0.20

● 2005 Начало разработки Hadoop● 2007 Передача в ASF● 2009 Версия 0.20● 2011 Версия 1.0

● 2005 Начало разработки Hadoop● 2007 Передача в ASF● 2009 Версия 0.20● 2011 Версия 1.0● 2013 Версия 2.2

План лекции

• Архитектура hadoop 1.0

• Архитектура YARN

• Работа приложений на YARN

• Планировщики

• Yarn High Availability

• Roadmap

Недостатки ?

1. только mapReduce

2. неполное использование ресурсов

3. job tracker — узкое место

4. single point of failure

Решение Google

MapReduce: Simplified Data Processing on Large Clusters

Jeffrey Dean and Sanjay Ghemawat. 2004

Решение Google● One of the copies of the program is special - the � master. The rest

are workers that are assigned work by the master. ... The master

picks idle workers and assigns each one a map task or a

reduce task.

Решение Google● One of the copies of the program is special - the master. The rest

reduce task.

● .... The locations of ... pairs on the local disk are passed back to

the master, who is responsible for forwarding these locations to

the reduce workers.

Решение Google● One of the copies of the program is special �- the master. The rest

reduce task.

the reduce workers.

● When a reduce worker is notified by the master about these

locations, it uses remote procedure calls to read the buffered

data from the local disks of the map workers

Решение Google● One of the copies of the program is special �- the master. The rest

reduce task.

the reduce workers.

● When a reduce worker is notified by the master about these

locations, it uses remote procedure calls to read the buffered

data from the local disks of the map workers

● When all map tasks and reduce tasks have been completed, the

master wakes up the user program.

Устранение недостатков

Решение Facebook

● Кластер на 100 Pb

● Кластер на 100 Pb● 0.5 Pb в день новых данных

● Кластер на 100 Pb● 0.5 Pb в день новых данных● 60 000 джобов в день

● Кластер на 100 Pb● 0.5 Pb в день новых данных● 60 000 джобов в день● Corona

● Кластер на 100 Pb● 0.5 Pb в день новых данных● 60 000 джобов в день● Corona● Выложено в open source

https://github.com/facebookarchive/hadoop-20/tree/master/src/contrib/corona

• Roadmap

YARNYet Another Resource Negotiator

Еще один переговорщик о ресурсах

25й слайд

Нельзя просто так взять и договориться о ресурсах

Resource Manager UI

• Roadmap

Distributed shellhadoop

org.apache.hadoop.yarn.applications.distributedshell.Client \

-debug \

-shell_command find \

-shell_args '`pwd`' \

-jar ${HADOOP_HOME}/share/hadoop/yarn/*distributedshell-

*.jar \

-container_memory 350 \

-master_memory 350 \

-num_containers 3

А где же результат?

yarn.log-aggregation-enable=true

● Через yarn cliyarn logs -applicationId \

application_1388248867335_0003

● Через hdfs/tmp/logs/yarn/user/. \

./application/container

mapReduce на YARN

Совместимость с mr1

● на уровне кода

да● на бинарном уровне

да● на уровне скриптов

hadoop job …

да● на уровне конфигурации

Большинство настроек устарело

hadoop job …

большинство настроек устарело

mapReduce uber job

● Маленькая задача может выполняться целиком в контейнере application master

mapReduce uber job

● Маленькая задача может выполняться целиком в контейнере application mastermapreduce.job.ubertask.enable=true

mapReduce uber job

● Ограничения на объем мапперов и размер данных выставляются в конфиге

mapReduce uber job

● Ограничения на объем мапперов и размер данных выставляются в конфиге

● Не более 1го редьюсера

Что еще можно запускать?

● MPI● Интерактивные spark● Adhoc запросы impala● Реал тайм обработчики storm● Сервисы

● Требуется библиотека mpich2-yarn● Пример запускаhadoop --config ./conf \jar target/mpich2-yarn-1.0-SNAPSHOT.jar \-a mpi_example \-M 1024 \-m 1024 \-n 2

Интерактивные вычисления

● Spark● Команда запускаpyspark --master yarn --num-executors 3

Долгоживущие сервисы

● hBase на yarn

Долгоживущие сервисы

● hBase на yarn● Apache Slider

Real time вычисления

● Apache Storm

Data operating system

• Roadmap

Планирование задач

FIFO scheduler

Capacity scheduler

Fair scheduler

Очереди

● Распределение ресурсов происходит

между очередями

Очереди

● По умолчанию имя очереди =

имени пользователя

Очереди

● У очередей есть веса

Очереди

● Дочерние очереди

Очереди

● Дочерние очереди

root.dev => root.dev.science

Очереди

● Если в одной очереди 2 задачи?

Очереди

● fifo

Очереди

● fifo

● fair

Очереди

● fifo

● fair

● drf

Dominant resource fairness

Кластер 100 Gb 100 Cores

Контейнеры приложения А 3 гб 3% 2 cores 2%

Контейнеры приложения А 3 Gb 2 cores

Контейнеры приложения А 3 Gb 3% 2 cores 2%

Контейнеры приложения B 1 Gb 6 cores

Контейнеры приложения B 1 Gb 1% 6 cores 6%

приложение A получит в 2 раза больше контейнеров

Preemption

Delay● Для map задач требуется data locality

● Что лучше?

● Запустить сейчас на свободной машине

● Ждать место на машине с данными

● Ждет пока заданный процент машин

не пришлет сообщение о готовности

● Ждет пока заданный процент машин

не пришлет сообщение о готовности

● По умолчанию 50% машин кластера

• Roadmap

Как защититься от падения Resource Manager

● High Availability!● Появилось в Hadoop 2.4

• Roadmap

ROADMAP

● Накатываемые апгрейды

ROADMAP

● Накатываемые апгрейды● Поддержка Docker контейнеров

ROADMAP

● Накатываемые апгрейды● Поддержка Docker контейнеров● Диск как ресурс

ROADMAP

● Накатываемые апгрейды● Поддержка Docker контейнеров● Диск как ресурс● Конфигурируемая топология

ROADMAP

● Накатываемые апгрейды● Поддержка Docker контейнеров● Диск как ресурс● Конфигурируемая топология● Планирование по лейблам

Курс "Хранение и Обработка больших данны". Лекция...

Software

Электронные ресурсы: виды, формирование, хранение

Эффективное хранение данных

Лекция 9 Хранение водорода. Хранение в сжатом состоянии

Конспект лекций Часть 3e-learning.bmstu.ru/moodle/pluginfile.php/2978/mod_data/content/1… · 6. Хранение информации Хранение информации

Yarn Expo Spring

Azure - хранение данных в облаке

tekstil iplikleri textile yarn

Apache hadoop-yarn chap06

Город больших скидок

Победа в больших продажах

хранение информации

Yarn مروری بر

Город бОЛЬшИХ Скидок

Хранение данных приложений

GARNRUNDTEST YARN ROUND ROBIN TEST No. 89 · PDF fileGarnfeinheit / Yarn count 3 Optische Gleichmässigkeit / Optical evenness 17 Garndrehung / Yan twist 4 Garnhaarigkeitszahl / Yarn

2020 20 - gazprom.ru · Хранение газа – хранение добытого и приобретенного газа в подземных хранилищах; Добыча

Хранение медицинских карточек в больнице

Творческий проект "Хранение информации"

Хранение и обработка больших объёмов данных: PageRank и распределенные вычисления на графах

Polylana® Yarn Presentation