Аварийная работа с серверными настройками Битрикс24 в ночное время: экраны с кодом и логами

Аварийный обход для Битрикс24: как обойти проблемный IP-адрес в рабочем режиме

Денис Логинов
3 мин чтения
Если, в двух словах ...

Четвёртая часть серии. К этому моменту мы уже знали, в чём проблема: часть IP-адресов из пула Битрикс24 зависала на уровне TLS. Но знание причины - это ещё не решение. Клиенты ждали. И нам нужно было что-то сделать прямо сейчас.

От диагноза к действию

Правильный диагноз ещё не решает проблему

Когда стало понятно, что проблема не в коде приложения как таковом, а в том, что часть IP-адресов из пула Битрикс24 фактически «битая» для нашего маршрута, ждать уже было нельзя.

Клиентам не становится легче от того, что ты правильно поставил диагноз. Им нужно, чтобы сервис работал.

Механика обхода

Что пришлось строить под утро

Поэтому вместо спокойного разбора мы начали собирать аварийное решение. Логика была простой по смыслу, но сложной в реализации:

  • Научить систему определять проблемные адреса.
  • Не упираться в них.
  • Идти дальше через рабочие.

Фактически нам пришлось на ходу делать свою механику проверки и перебора доступных точек входа. То, чего раньше в таком виде у нас не было, потому что раньше сама постановка задачи казалась избыточной.

До ночи это была история про поиск причины. Под утро это уже была история про отказоустойчивость.

Следующий барьер

После первого контура стало ясно: это только начало

После того как первый рабочий контур получился, на этом всё не закончилось.

Стало понятно, что пользователю нужно не только восстановить работу, но и показать, что вообще происходит. Поэтому следующим шагом мы пошли в сторону:

  • Отображения состояния.
  • Более понятного поведения приложения в таких сценариях.

Но тут нас ждала следующая проблема.

Одно дело - сделать обход для одного продукта. И совсем другое - быстро перенести это решение на целую группу приложений, которые развивались в разное время и с разной внутренней логикой.

В следующем посте расскажу, почему даже после найденного технического решения выходные не стали легче.

Серия

Разбор сбоя Битрикс24: как мы расследовали нестандартный инцидент

  1. 1 Битрикс24 не работает: почему первая версия про массовый сбой оказалась неверной
  2. 2 Битрикс24: когда стало ясно, что это не обычный массовый сбой
  3. 3 Ночная диагностика сбоя Битрикс24: частичная деградация IP-адресов пула
  4. 4 Аварийный обход для Битрикс24: как обойти проблемный IP-адрес в рабочем режиме
  5. 5 Как масштабировать аварийное решение на 50 продуктов Битрикс24
  6. 6 Выводы после инцидента Битрикс24: что меняем в архитектуре