40
На пути к 100% uptime или что следует делать для достижения 100% uptime Игорь Мызгин Станислав Осипов 2015

Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

  • Upload
    ontico

  • View
    453

  • Download
    5

Embed Size (px)

Citation preview

Page 1: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

На пути к 100% uptimeили что следует делать для достижения 100% uptimeИгорь МызгинСтанислав Осипов2015

Page 2: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Докладчики

Игорь Мызгин

• XBT / Webzilla• 15+ лет в IT, опыт

работы как со стороны поставщика услуг, так и со стороны потребителя.

• Последние 10 лет - вопросы создания, развития и продаж дата-центров и услуг на их базе.

Станислав Осипов

• Системный администратор R&D департамента CityADS

• 15+ лет в IT• Более 10 лет -

специализация на развертывании, эксплуатации и развитии IT-инфраструктур.

Page 3: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Профиль CityADS• Холдинг из нескольких компаний,

специализирующийся на интернет-рекламе.

• 1+ млрд рублей оборота.• Две независимые рекламные платформы.• Присутствие

– офисной инфраструктуры в 10 странах– серверной инфраструктуры в 6 локациях:

RU, NL, BR, HK, CN, US• Чувствительны к задержкам, потерям,

полосе и профессиональности саппорта

Page 4: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

3 вида настоящих проблем

• На стороне хостера• Связность промежуточных

сетей• На стороне потребителя услуг

Page 5: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Причины сбоев связи

Faulty hardware change / updateDenial of Service attack

Cooling outageMalware and viruses

Software bugPower surges

OverloadCable theft

Policy / procedural flawFlood

Power cutCable cut

Hardware failureFire

Heavy windHeavy snow / ice

Faulty software change / update

256671012

1622

3134

4057

6172

100117

ENISA Annual Incident Report 2014

Page 6: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Типичное распределение проблем

1010

2060

На самом деле

10

70

1010

Как это выглядит для компании

Сбои связиСбои хостераОверхед от сбоев хостера и связиСбои на стороне клиента

Page 7: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Меняем хостера на качественного

+ OpEx на хостинг (фиксированная и предсказуемая сумма)- OpEx сбоев (уменьшаем риск и непредсказуемые расходы)

98.9

Стало

Сбои связиСбои хостераОверхед от сбоев хостера и связиСбои на стороне клиента

1010

2060

Было0.10.9

0.1

Page 8: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Что нужно, чтобы научиться различать типы сбоев?1. Навести порядок в инфраструктуре: SysOps2. Навести порядок в мониторинге: SysOps, DevOps3. Навести порядок в конфигурациях: SysOps,

DevOps4. Навести порядок в правах доступа людей к

системам: SysOps, Managers5. Навести порядок в процессах тестирования и

развертывания: DevOps, QA, Managers6. Навести порядок в обработке инцидентов и

решении проблем: SysOps, Managers7. Навести порядок в коде: R&D, DevOps, Managers

"Ordnung muss sein!"

Page 9: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Мониторинг• Инвестиции времени в мониторинг

- лучший способ избежать настоящих убытков.

• Чем больше видим у себя, тем больше различаем свое и чужое.

• Больше одной системы внутреннего мониторинга и больше одной - внешнего.

• Внешняя система не должна позволять стирать инциденты.

Page 10: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Чем мы пользуемсяВнешний мониторинг:

– NR Synthetics, Monit-it, Pingdom– NR Browser, Grabzit

Внутренний мониторинг:– Zabbix, NR APM– собственные скрипты

Бизнес мониторинг:– SimilarWeb, сервис собственной

статистики трафика с менеджерскими интерфейсами

Page 11: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Pingdom

Page 12: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

NewRelic Synthetics

Page 13: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)
Page 14: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Работа с инцидентами

Page 15: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Работа со статистикой инцидентов

Page 16: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Работа со статистикой инцидентов

Page 17: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

NR APM: общий вид

Page 18: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

NR APM: пример обнаруженной ошибки

Page 19: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Тестирование и развертывание: Continuous integration - карта

Page 20: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

HR аспектПуть не туда:• штрафы• психологическое давление• игнорирование фактов и аргументов

#ненуачо

Рассказать последствия такой политики?

Page 21: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

HR аспект

Uptime 146%

Page 22: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

HR аспектПочему так?

Люди двух типов:• Умеют скрывать проблемы

– мало мотивации решать проблемы.• Не умеют скрывать проблемы

– не задержатся при наличии негативных механизмов.

Рекомендация:

Фиксированный бонус (от 80 до 100% оклада) за каждый календарный месяц uptime выше 99.98%

Page 23: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Мы все исправили! Что теперь?• Может выясниться, что хостера

менять не нужно!• Выстраивайте отношения по

интересующим вас услугам и уровню сервиса.

• Имя и контакты Account Manager?• Делегируйте заботу поддержания

контакта тому, кто умеет.• Открывайте новые возможности без

дополнительной проблемы в виде переезда.

Page 24: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Взгляд со стороны хостераИгорь Мызгин

Page 25: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Как правильно начать• NDA – не надо так!• Невнятное поведение, путаница в

требованиях?• Специфические технологии?• Законодательные ограничения?• Сложный процесс отбора?

Решение: RFP (request for proposal)Переписка и общение:

Будьте тем, кто вы есть.

Page 26: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Про маркетинг«SLA» 100.00% uptime?Public offer / legal documents на сайте.«Мелкий шрифт» и «звездочки» (сноски) в договорах, условиях и КП.Имя владельца/оператора физической площадки?Хостер занимается всем подряд?Разведка через социальные сети (LinkedIn и т.п.):

– Сколько у них инженеров? – Сколько R&D? – Кто ключевые технари? – Давно ли они в компании? – Чем раньше занимались?

Page 27: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Адекватность запросаНе x86-64?

>$1M?

Надо было еще вчера?

Ежа с ужом?

Page 28: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Что поможет получить самые вкусные условия от хостера?Прозрачность политики выбора.Долгосрочные отношения.Открытость и честность.Деловая культура:

– Посвящать критериям и процессу отбора отдельный раздел в RFP.

– Уведомлять о статусе процесса отбора на этапе до конечного принятия решения с корректным пояснением причин отсева.

Page 29: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Как выбрать новый хостингчтобы потом не болела голова

Page 30: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Что учитывать? Часть 1 - DC• Класс датацентра по TIA-942 (все и в

частности - защита от блэкаутов?).• Удобство и скорость связи с:

– техподдержкой– эккаунт менеджером

• SLA (соглашение об уровне сервиса).• Физическое расположение

площадки/площадок, регламенты доступа, склады для клиентоского ЗиПа?

• Наличие услуги аренды места для бэкапа– скорость предоставления– максимальный объем бэкапа– его стоимость– максимальный объем должен быть не меньше самого

большого логического тома на этой площадке.

Page 31: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Что учитывать? Часть 2 - telco• Опорный телеком хостера

– Каналы: тип, суммарная емкость, текущая загрузка.

– Dedicated или shared полоса. Ее возможный максимум. Цена полосы и превышения.

– IP адреса (если у вас нет AS) и связность (пиры) телекома.

– SLA телекома по отношению к вам и хостеру.

– Механизмы защиты сети (в т. ч. Anti-DDoS)– География сети.

• Список доступных альтернативных телекомов на площадке.– Стоимость подключения к альтернативе.

Page 32: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Что учитывать?

Способность хостера признавать свои сбои.

У ВАС НЕТ ПОЛУГОДА-ГОДА НА РИТУАЛЬНЫЕ ТАНЦЫ!

Page 33: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Отношения с хостероми другие приключения uptime

Page 34: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Downtime и SLA в числах, в пересчете за месяц• Tier-4 ЦОД: 99.995% - до 2 мин 14 сек• Tier-3 ЦОД: 99.982% - до 8 мин 03 сек• Telecom: 99.95% - до 22 мин 20 сек

Tier-3 + Telecom: - до 30 мин 23 сек

Какова для вас цена часа простоя?

Page 35: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Пример SLA доступности и ответственности хостера

Availability 99.99% or higher: ok99.98% - 99.90%: 5% credit99.89% - 95.00%: 25% credit94.99% - 90.00%: 50% credit89.99% or below: 100% credit

Page 36: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Хостеры любят traceroute и mtr• За минуту может происходить несколько

перемаршрутизаций.• Делайте traceroute в обе стороны в момент

наблюдения проблемы.• Сразу добавляйте вывод traceroute в

тикет.

Пример того, как иногда выглядит изменение маршрута во время поиска проблемы:

Page 37: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Примеры. Бразилия.• SLA и класс по TIA 942?

Нет, не слышали.• 16 часов? Бывало и хуже!• AntiDDoS? Привет от Arbor.• Tier1 апстрим – победа?• BR-IX: связность по-

бразильски ;-)

Page 38: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Примеры. Европа и США.• Облако - 12 часов, Карл!!• 6 часов у Tier-2 оператора…• 7 часов у Tier-1 оператора…

Но как!?

Page 39: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Выводы• Чужие проблемы – всегда часть ваших

проблем! • Сначала – увидеть, изучить и решить свои

проблемы.• Вклад хостинга в uptime - фундаментален. • Выбирать следует системно и без спешки.

И главное:• Вы – один из участников рынка независимо

от того, поставщик вы или потребитель.• Обратная связь от вас необходима всегда.• Высокий uptime – результат совместной и

непрерывной работы.

Page 40: Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

Вопросы?http://bit.ly/1k0yGQUhttp://bit.ly/1NgK0nf

Станислав Осипов:Игорь Мызгин: