6 Марта 2014
Сетевые проблемы доступа к инфраструктуре Infobox 5-6 марта 2014
Хронология событий.
В районе 17 часов MSK 5 марта сетевая инфраструктура Infobox начала испытывать сильное воздействие DDOS атаки. На пике мощность атаки составляла до 4 GBIT/s.
Целью атакующих была инфраструктура Linux хостинга.
Сетевые инженеры устранили атаку к 17.50 MSK используя стандартные практики и взаимодействуя с нашими провайдерами (мы используем полное резервирование каналов – 5 провайдеров).
Технически предпринятые действия включали blackholing, но у части вышестоящих провайдеров правило не применилось, поэтому взаимодействие с ними продолжалось до получения результата (автоматической блокировки атакуемых).
Около 19.00 MSK мы начали фиксировать обращения Клиентов о недоступности узлов нашей инфраструктуры. Анализируя обращения и технические детали инцидентов, проблему удалось локализовать и идентифицировать как плохую сетевую проходимость через сети некоторых провайдеров.
Сетевые инженеры возобновили общение с апстримами, диагностика и применение возможных решений продолжалась без перерыва до 3.00 MSK 6 марта. Результаты показали, что не все Клиенты могли видеть все наши сети (основная масса потерь – Rascom, но определенные проблемы были и через RETN, и через Cloud-IX).
Продиагностировав доступность наших адресов, которые участвуют в обмене BGP маршрутами, из разных мест мы пришли к выводу, что корневая проблема лежит не только в плоскости проходимости каналов апстримов, но и в части нашего сетевого периметра.
К этому времени мы начали получать сообщения об ошибках в логах бордерного роутера (мы используем оборудование Cisco).
До утра 6 марта мы анализировали получаемые ошибки и планировали действия по их устранению.
В 11.00 MSK мы безопасно перезагрузили бордерный роутер и устранили ошибки в одном из модулей сетевой платы.
Хотим обратить внимание на тот, факт, что в течение всего времени инцидента все сервисы продолжали бесперебойно работать и были доступны для подавляющего большинства Клиентов.
Причины сбоя:
- побочные явления от DDOS атаки (повышенная нагрузка на оборудование)
- возникшие в результате этого проблемы на стыке нашего оборудования с оборудованием апстримов
- проблемы в одном из элементов нашего сетевого периметра
Мы осознаем всю важность работоспособности и круглосуточной доступности всех данных, которые вы доверили нам.
Что мы предпринимаем для не повторения ситуации?
Безотносительно того, что проблемы на каналах апстримов как происходили, так и будут происходить у любого хостинг-провайдера, с начала 2014 года мы занимаемся модернизацией сетевой архитектуры нашего ЦОД. Результатом этой работы станет как большая устойчивость периметра сети, так и существенно лучшая коммутация внутри ЦОД. Это позволит нам минимизировать точки отказа в пределах нашей зоны ответственности и существенно повысить отказоустойчивость.
В заключение, хочу принести извинения каждому Клиенту, которого в той или иной степени затронула описанная проблема.
Готовы ответить на все вопросы
Спасибо, что с нами.