29 марта 2026
Мы развиваем крупную распределенную инфраструктуру с большим парком серверов. Сейчас мы ищем инженера, который станет хранителем стабильности : будет не просто реагировать на алерты, а глубоко разбираться в причинах инцидентов и планомерно вычищать слабые места системы.
Входной фильтр: Начни свой отклик со слов Я работал в , а затем перечисли компании, где ты лично отвечал за доступность серверов и разруливал инциденты.
Твой главный вызов:
Обеспечить максимальный аптайм и прозрачность работы инфраструктуры. Тебе предстоит выстроить процесс так, чтобы инциденты либо предотвращались на подлете, либо купировались автоматикой. Ты тот, кто находит тонкие места раньше, чем они станут проблемой для пользователей.
Твои задачи:
Incident Response & Post-mortems: Оперативное реагирование на сбои и, что важнее, детальный разбор причин. Мы не лаем на алерты , мы устраняем корень проблемы.
Observability 2.0: Развитие мониторинга (Prometheus/Grafana/VictoriaMetrics). Твоя цель видеть состояние каждого узла и предсказывать деградацию сервисов.
Укрепление слабых мест: Поиск и оптимизация бутылочных горлышек в конфигурациях Nginx, Redis и ClickHouse.
Автоматизация эксплуатации: Написание Ansible-плейбуков и Terraform-манифестов для того, чтобы рутинные операции по восстановлению серверов выполнялись без участия человека.
Health Checks & Failsafe: Настройка и проверка механизмов переключения трафика и самовосстановления сервисов.
Требования (Hard Skills):
Опыт 3+ лет в эксплуатации Linux-систем (желательно в проектах с высокой нагрузкой).
Monitoring Expert: Ты понимаешь разницу между сервер пингуется и сервер работает корректно , умеешь строить сложные запросы и понятные дашборды.
Знание стека: Уверенная работа с Nginx (tuning), понимание репликации в Redis и базовое администрирование ClickHouse.
IaC: Опыт работы с Ansible (обязательно) и Terraform (желательно). Твой подход: сделал руками один раз запиши в код .
Troubleshooting: Умение быстро диагностировать проблемы в сети, дисковой подсистеме или потреблении ресурсов.
Желание расти: Ты готов разбираться в новых технологиях и постоянно улучшать текущие процессы.
Что мы предлагаем:
Минимум бюрократии: Прямое общение с командой разработки и возможность быстро внедрять свои идеи.
Сложная инфраструктура: Реальный Highload, где твои решения влияют на работу сотен серверов.
Профессиональный рост: Мы поддерживаем инициативу по улучшению системы если видишь, что можно сделать лучше, бери и делай.
Удаленка: Полный remote и гибкое начало рабочего дня.