Мы в социальных медиа:

Главная БлогСетевые проблемы доступа к инфраструктуре Infobox 5-6 марта 2014 | Блог

Сетевые проблемы доступа к инфраструктуре Infobox 5-6 марта 2014 | Блог

6 Марта 2014

Сетевые проблемы доступа к инфраструктуре Infobox 5-6 марта 2014

Хронология событий.

В районе 17 часов MSK 5 марта сетевая инфраструктура Infobox начала испытывать сильное воздействие DDOS атаки. На пике мощность атаки составляла до 4 GBIT/s.
Целью атакующих была инфраструктура Linux хостинга.
Сетевые инженеры устранили атаку к 17.50 MSK используя стандартные практики и взаимодействуя с нашими провайдерами (мы используем полное резервирование каналов – 5 провайдеров).
Технически предпринятые действия включали blackholing, но у части вышестоящих провайдеров правило не применилось, поэтому взаимодействие с ними продолжалось до получения результата (автоматической блокировки атакуемых).

Около 19.00 MSK мы начали фиксировать обращения Клиентов о недоступности узлов нашей инфраструктуры. Анализируя обращения и технические детали инцидентов, проблему удалось локализовать и идентифицировать как плохую сетевую проходимость через сети некоторых провайдеров.
Сетевые инженеры возобновили общение с апстримами, диагностика и применение возможных решений продолжалась без перерыва до 3.00 MSK 6 марта. Результаты показали, что не все Клиенты могли видеть все наши сети (основная масса потерь – Rascom, но определенные проблемы были и через RETN, и через Cloud-IX).
Продиагностировав доступность наших адресов, которые участвуют в обмене BGP маршрутами, из разных мест мы пришли к выводу, что корневая проблема лежит не только в плоскости проходимости каналов апстримов, но и в части нашего сетевого периметра.
К этому времени мы начали получать сообщения об ошибках в логах бордерного роутера (мы используем оборудование Cisco).

До утра 6 марта мы анализировали получаемые ошибки и планировали действия по их устранению.
В 11.00 MSK мы безопасно перезагрузили бордерный роутер и устранили ошибки в одном из модулей сетевой платы.
Хотим обратить внимание на тот, факт, что в течение всего времени инцидента все сервисы продолжали бесперебойно работать и были доступны для подавляющего большинства Клиентов.

Причины сбоя:
- побочные явления от DDOS атаки (повышенная нагрузка на оборудование)
- возникшие в результате этого проблемы на стыке нашего оборудования с оборудованием апстримов
- проблемы в одном из элементов нашего сетевого периметра

Мы осознаем всю важность работоспособности и круглосуточной доступности всех данных, которые вы доверили нам.

Что мы предпринимаем для не повторения ситуации?

Безотносительно того, что проблемы на каналах апстримов как происходили, так и будут происходить у любого хостинг-провайдера, с начала 2014 года мы занимаемся модернизацией сетевой архитектуры нашего ЦОД. Результатом этой работы станет как большая устойчивость периметра сети, так и существенно лучшая коммутация внутри ЦОД. Это позволит нам минимизировать точки отказа в пределах нашей зоны ответственности и существенно повысить отказоустойчивость.

В заключение, хочу принести извинения каждому Клиенту, которого в той или иной степени затронула описанная проблема.

Готовы ответить на все вопросы

Спасибо, что с нами.

Возврат к списку