Вечером пятницы мы перестали искать проблему на уровне ощущений и перешли к поуровневой проверке. Авторизация работала. Токены обновлялись нормально. Но дальше обнаружилась вещь, с которой раньше не сталкивались: один домен Битрикс24 вёл на пул из 13 IP-адресов, и часть из них стабильно зависала на этапе установки защищённого соединения.
Начали с очевидного
Вечером пятницы мы начали разбирать проблему не на уровне ощущений, а на уровне конкретных технических слоёв.
Сначала проверили самое очевидное:
- Авторизация жива.
- Обновление токенов работает.
- Служба выдачи доступа отвечает нормально.
Значит, проблема не в токенах, не в базе и не в том, что приложение «разавторизовалось».
Потом пошли глубже.
Пул из 13 IP-адресов
Мы начали смотреть, как именно идут запросы до облачных порталов Битрикс24, и обнаружили вещь, с которой раньше не сталкивались.
Один и тот же домен вёл на пул из 13 IP-адресов. При этом часть адресов работала штатно, а часть стабильно ломалась.
Это был самый важный поворот всей истории.
На проблемных адресах была доступность по сетевому протоколу. Проходило соединение на 443 порт. Но дальше соединение зависало на уровне установки защищённой связи.
То есть снаружи всё выглядело так, будто сервер «вроде доступен», но на реальном рабочем слое запрос умирал.
Почему сбой был «плавающим»
Именно поэтому ошибка была плавающей:
- Если запрос попадал на рабочий IP-адрес, всё шло нормально.
- Если на проблемный — приложение зависало по таймауту.
Именно ночью нам стало окончательно понятно, что мы ищем не баг в приложении и не обычный сбой платформы. Мы столкнулись с частичной сетевой деградацией, которая маскировалась под случайную нестабильность.
В этот момент стало ясно и другое: просто ждать восстановления бессмысленно. Нужно не только найти причину, но и прямо сейчас придумать, как обойти эту проблему в рабочем режиме.
В следующем посте расскажем, какое аварийное решение нам пришлось собирать уже под утро, чтобы клиенты вообще могли продолжать работать.
FAQ
Почему Битрикс24 может работать нестабильно без явного полного сбоя?
Причиной может быть частичная деградация на уровне сетевой инфраструктуры. В нашем случае один домен вёл на несколько IP-адресов, часть из которых зависала на этапе установки защищённого соединения. Внешне сервер выглядел доступным, но реальный рабочий запрос умирал по таймауту.
Что такое поуровневая диагностика при сбое Битрикс24?
Это последовательная проверка каждого технического слоя: разрешение доменных имён, сетевое соединение, установка защищённого соединения на транспортном уровне, авторизация, ответы интерфейса программирования. Такой подход позволяет точно локализовать проблему и не тратить время на код, если причина в сети.
Можно ли самостоятельно определить проблемный IP-адрес при сбое облачного Битрикс24?
Да. Нужно получить список IP-адресов домена, затем последовательно проверить каждый: доступность по протоколу сетевого уровня, открытый порт и прохождение защищённого соединения. Адреса, которые проходят первые два теста, но зависают на третьем — проблемные.
Разбор сбоя Битрикс24: как мы расследовали нестандартный инцидент
- 1 Битрикс24 не работает: почему первая версия про массовый сбой оказалась неверной
- 2 Битрикс24: когда стало ясно, что это не обычный массовый сбой
- 3 Ночная диагностика сбоя Битрикс24: частичная деградация IP-адресов пула
- 4 Аварийный обход для Битрикс24: как обойти проблемный IP-адрес в рабочем режиме
- 5 Как масштабировать аварийное решение на 50 продуктов Битрикс24
- 6 Выводы после инцидента Битрикс24: что меняем в архитектуре