Это первый пост из серии о реальном инциденте, который занял у нас всё выходные. Начался он в пятницу днём — с сообщений от клиентов. А закончился только в воскресенье, когда мы наконец поняли, что именно произошло и как это не допустить снова.
Пятница, обед: первые сообщения
В пятницу, 3 апреля, с обеда нам начали писать клиенты: Часть наших решений, завязанных на Битрикс24, перестала нормально работать.
На первый взгляд это вообще не выглядело как наша локальная проблема. В тот день и так было много разговоров про сбои, нестабильный доступ к разным сервисам и странное поведение сети.
Поэтому первая мысль была простой: это очередная массовая проблема на стороне самой платформы.
Именно так мы сначала и трактовали ситуацию.
Почему версия про массовый сбой казалась логичной
Мы посмотрели на картину широко:
- Жалобы были не от одного клиента.
- Не по одному приложению.
- Не по одному сценарию.
Ошибки были похожи, а значит версия про внешний сбой казалась вполне логичной. Тем более что визуально всё выглядело именно так: где-то не открывается, где-то запросы зависают, где-то интеграция просто перестаёт отвечать.
В такие моменты очень легко принять первое объяснение и на этом успокоиться. Сообщить клиентам, что проблема на стороне платформы, и ждать, пока всё само восстановится.
Когда картина стала слишком неровной
Но к вечеру у нас начало появляться неприятное ощущение, что картина слишком неровная для обычного массового сбоя.
Если проблема действительно в Битрикс24, то почему часть сценариев ведёт себя не так, как должна вести себя единая поломка?
Именно в этот момент стало понятно, что выходные, скорее всего, уже отменяются. Нужно было не гадать, а разбирать проблему слой за слоем и проверять все гипотезы руками.
В следующем посте расскажем, в какой момент стало ясно, что это не просто «упал Битрикс24», а история гораздо неприятнее и глубже.
FAQ
Что делать, если Битрикс24 не работает у клиентов?
Сначала оцените масштаб: сколько клиентов пострадало и какие именно сценарии зависают. Если жалобы похожи, но не идентичны — это сигнал, что проблема может быть не глобальной. Проверьте, испытывают ли аналогичные проблемы другие команды, которые работают на той же платформе.
Как отличить массовый сбой Битрикс24 от локальной или частичной проблемы?
Признак массового сбоя — одновременный и однородный отказ по всем сценариям. Если часть клиентов работает, часть нет — значит проблема носит более специфичный характер и требует поуровневой диагностики, а не ожидания.
Сколько времени занимает диагностика сбоя в интеграциях Битрикс24?
В нашем случае первичная оценка заняла несколько часов. К вечеру того же дня стало ясно, что ситуация требует полноценного технического расследования. Чем раньше начать поуровневую проверку, тем меньше потерянного времени.
Разбор сбоя Битрикс24: как мы расследовали нестандартный инцидент
- 1 Битрикс24 не работает: почему первая версия про массовый сбой оказалась неверной
- 2 Битрикс24: когда стало ясно, что это не обычный массовый сбой
- 3 Ночная диагностика сбоя Битрикс24: частичная деградация IP-адресов пула
- 4 Аварийный обход для Битрикс24: как обойти проблемный IP-адрес в рабочем режиме
- 5 Как масштабировать аварийное решение на 50 продуктов Битрикс24
- 6 Выводы после инцидента Битрикс24: что меняем в архитектуре