Разбор сбоя Битрикс24: как мы расследовали нестандартный инцидент
Серия из 6 постов о том, как мы диагностировали нестандартный сбой Битрикс24, нашли частичную деградацию IP-адресов и за выходные собрали аварийное решение для клиентов.
- 1
Битрикс24 не работает: почему первая версия про массовый сбой оказалась неверной
Клиенты пишут, сервисы зависают — и первая мысль: массовый сбой Битрикс24. Но к вечеру картина начала ломаться.
- 2
Битрикс24: когда стало ясно, что это не обычный массовый сбой
Коллеги без проблем, у нас — нет. Часть продуктов работает, часть нет. Это уже не укладывалось в простой сбой платформы.
- 3
Ночная диагностика сбоя Битрикс24: частичная деградация IP-адресов пула
Авторизация жива, токены работают. Но пул из 13 IP-адресов — и часть из них стабильно ломается на уровне защищённого соединения.
- 4
Аварийный обход для Битрикс24: как обойти проблемный IP-адрес в рабочем режиме
Диагноз поставлен. Но клиентам нужна работающая система прямо сейчас. Пришлось собирать аварийное решение под утро.
- 5
Как масштабировать аварийное решение на 50 продуктов Битрикс24
Решение найдено. Но его ещё нужно раскатать на 50+ продуктов с разной архитектурной логикой.
- 6
Выводы после инцидента Битрикс24: что меняем в архитектуре
Сбой закрыт. Серверы вернулись. Главный итог — не героизм, а список того, что теперь меняем в архитектуре.