Технический разбор инцидента Битрикс24: диагностика сети и восстановление сервиса
Серия Серия завершена

Разбор сбоя Битрикс24: как мы расследовали нестандартный инцидент

Серия из 6 постов о том, как мы диагностировали нестандартный сбой Битрикс24, нашли частичную деградацию IP-адресов и за выходные собрали аварийное решение для клиентов.

  1. 1
    3 мин чтения

    Битрикс24 не работает: почему первая версия про массовый сбой оказалась неверной

    Клиенты пишут, сервисы зависают — и первая мысль: массовый сбой Битрикс24. Но к вечеру картина начала ломаться.

  2. 2
    3 мин чтения

    Битрикс24: когда стало ясно, что это не обычный массовый сбой

    Коллеги без проблем, у нас — нет. Часть продуктов работает, часть нет. Это уже не укладывалось в простой сбой платформы.

  3. 3
    3 мин чтения

    Ночная диагностика сбоя Битрикс24: частичная деградация IP-адресов пула

    Авторизация жива, токены работают. Но пул из 13 IP-адресов — и часть из них стабильно ломается на уровне защищённого соединения.

  4. 4
    3 мин чтения

    Аварийный обход для Битрикс24: как обойти проблемный IP-адрес в рабочем режиме

    Диагноз поставлен. Но клиентам нужна работающая система прямо сейчас. Пришлось собирать аварийное решение под утро.

  5. 5
    3 мин чтения

    Как масштабировать аварийное решение на 50 продуктов Битрикс24

    Решение найдено. Но его ещё нужно раскатать на 50+ продуктов с разной архитектурной логикой.

  6. 6
    4 мин чтения

    Выводы после инцидента Битрикс24: что меняем в архитектуре

    Сбой закрыт. Серверы вернулись. Главный итог — не героизм, а список того, что теперь меняем в архитектуре.