Защита данных и датацентров от катастрофМаксим Шапошников
Защита данных.Принципы (снизу вверх).
• Отказ от RAID, в особенности аппаратных• Интеллектуальная распределенная ФС (локализация I/O)• Двойное или тройное резервирование блоков данных• Резервирование путей доступа к данным• Распределение данных с учетом аппаратных компонент• Интегрированные снапшоты «на лету»• Полный контроль над расписанием и политиками• Минимизация RPO / RTO• Асинхронная и синхронная репликация VM и датасторов• Резервирование в публичные облака
Защита данных. Нюансы.• Общий принцип – приложение знает лучше как резервировать / реплицировать свои данные Существует множество приложений, не умеющих это делать или делающих плохо
• Синхронная репликация безопаснее всего, нулевая потеря данных На больших расстояниях (больше сотен километров) latency убьёт производительность
• Асинхронная репликация данных – потеря данных в случае аварии Да, поэтому проектируйте или бизнес-логику исходя из возможной потери данных, или датацентры располагайте рядом
Защита данных. Лучшие практики.
• Гибридная защита – уровень приложений там где возможно, асинхронная репликация как общее решение, метро-кластера для ключевых данных.
• Выбор правильного решения, большинство аппаратных средств (СХД) репликация не проектировались с учетом «облачных» реалий (работают на уровне архаичных LUN, не VM-centric)
• Репликация данных не заменяет бэкап. Как минимум – использовать регулярные снапошоты данных, в идеале – независимые бэкап решения
Nutanix Distributed File Systemбазируется на доработанной Cassandra
G DD G I EA B C
VM VM
ГипервизорКонтроллерная VM
ГипервизорКонтроллерная VM
ГипервизорКонтроллерная VM
D F HB A C
DEF GHI
VM
ABCданные данные данные
Резервирование данных внутри кластера
Первая копияВторая копия
Настраиваемый уровень защиты
100% программноRF-3 защищает от одновременного выхода из строя двух дисков, нодов и сетевых картВыбор RF-2 и RF-3Уровень репликации (защиты) выставляется на уровне контейнера
Динамическая настройка различных уровней защиты для разных приложений в одном кластере
VM
DEFданные
G DI E
ГипервизорКонтроллерная VM
ГипервизорКонтроллерная VM
D F HB A CD GA B C
ГипервизорКонтроллерная VM
VM
ABCданные
VM
GHIданные
A C
VM
ABCданные
Высокая доступность (HA)
Резервирование пустей доступа
Программное решениеАвтоматическое переключение
на другой виртуальный контроллер в случае сбоя
Прозрачно для гипервизора и виртуальных машин
Продолжает работать даже если недоступен виртуальный контроллер – обеспечение гарантированной доступности
Защищает от потери блока целиком (4 cервера / контроллера в кластере одновременно)
Доступно начиная с трех блоков
Распределение данных между аппаратными блоками
Распределение по аппаратным блокам
Интегрированная защита данных
Безлимитные локальные снапшоты с Time Stream
Восстановление данных «одним кликом»
WAN-оптимизированная репликация для DR
Работает с ESXi, Hyper-V и KVM
Управление расписанием cнапшотов данных - локальных и «на расстоянии» для целей резервного копирования и восстановления из аварий
vdisk
Локальные снапшоты
Снапшоты в другом ДЦ
DR Кластер
Основной кластер
Локальные бэкапы (вне кластера)
Он-сайт вторичные
Интеграция с бэкап ПО
Настройка политик удаления резервных копий локально и на
других кластерах (ДЦ)
Настройка расписания снапшотов для домена защиты (группы VM)
Управление расписанием защиты
Резервирование данных в облаках – ключевые параметры
RTORPO NutanixМинуты Минуты Time Stream
Часы Часы Cloud Connect
Ноль Минуты Metro Availability
Минуты Минуты Remote Replication
Незначительные инциденты
Cерьезные инциденты
Recovery point objective Recovery time objective
Аварийное восстановление
Максимальная скоростьЭффективные по месту снапшоты («слепки данных»)Передача только изменившихся данных с де-дупликацией
Гибкая защитаОдновременная двунаправленная репликация между дата-центрами (1 to 1, 1 to many, many to many)Модель «мастер-мастер» с множеством путей
Сценарии защиты VMГранулярные снапшоты и политики на каждую виртуальную машинуЗначительно лучше чем LUN или файловая система
Защита данныхВосстановление виртуальных машин и приложенийГибкие домены защиты для групп виртуальных машин и их политик
Metro Availability (синхронные датацентры)
Настройка за несколько минут, управляет один инженер
Не требуется идентичного оборудования в двух ДЦ
До 400 километров (5ms RTT) Любой L3 линк, не требуется
темная оптика
Cloud Connect
Nutanix поддерживает резервирование и восстановление данных на облачных провайдеров(в настоящий момент Amazon, в скором будущем Azure и другие).
Пример
• Проект федерального масштаба / государственного значения в РФ (вы точно читали о нем)
• Сотни нодов Nutanix, включая «тяжеловесы»
• Датацентры, разнесенные более чем на тысячу километров, 10 гигабит связность между ДЦ
• Десятки петабайт данных• Круглосуточная загрузка и обработка
данных с сотен тысяч объектов• Крайне высокие требования к
резервированию и доступности данных и сервисов
Cпасибо за внимание[email protected]