Когда в пятницу вечером мы начали проверять гипотезу о массовом сбое Битрикс24, картина начала ломаться. Коллеги по рынку работали без проблем. Коробочные порталы были стабильны, а облачные — нет. Это был сигнал: нужно копать глубже.
Когда первая версия перестала сходиться
После первых сообщений от клиентов у нас была самая очевидная версия: Проблема на стороне Битрикс24, и мы просто попали в общий сбой.
Но дальше картина начала ломаться.
Мы начали писать коллегам по рынку, которые тоже делают тиражные решения для Битрикс24. И выяснилось, что у части из них таких проблем вообще нет.
Это уже был плохой знак для нашей первой гипотезы.
50 продуктов и нет единого сбоя
Потом мы начали проверять свои продукты. У нас их больше 50, и оказалось, что:
- Часть сценариев работает, а часть нет.
- Сообщения шли не по одному приложению.
- Сообщения шли не по одному серверу.
То есть проблема выглядела шире, но при этом вела себя не как единый тотальный сбой.
Отдельно нас сильно сбивало то, что на коробочных установках всё продолжало работать. А вот облачные порталы вели себя нестабильно.
Это вообще не укладывалось в простую картину «платформа лежит».
Переход к поуровневой диагностике
К вечеру стало ясно: если продолжать думать в логике «ну, наверное, у них там что-то упало», мы просто потеряем время.
Поэтому вечером пятницы мы перестали спорить с гипотезами и начали проверять всё по слоям. Не приложение целиком, а каждый уровень отдельно:
- Разрешение имён.
- Сеть и соединение.
- Авторизацию.
- Ответы интерфейса программирования.
И вот именно в этот момент история перестала быть обычным сбоем и превратилась в полноценное техническое расследование.
В следующем посте расскажем, что именно мы нашли ночью, и почему проблема оказалась намного неприятнее, чем просто «что-то не отвечает».
Разбор сбоя Битрикс24: как мы расследовали нестандартный инцидент
- 1 Битрикс24 не работает: почему первая версия про массовый сбой оказалась неверной
- 2 Битрикс24: когда стало ясно, что это не обычный массовый сбой
- 3 Ночная диагностика сбоя Битрикс24: частичная деградация IP-адресов пула
- 4 Аварийный обход для Битрикс24: как обойти проблемный IP-адрес в рабочем режиме
- 5 Как масштабировать аварийное решение на 50 продуктов Битрикс24
- 6 Выводы после инцидента Битрикс24: что меняем в архитектуре