Site Reliability Engineer ( Инженер по надежности сайта ) (удаленная работа)

12 мая 2026

Уровень зарплаты:
от 200 000 до 200 000 руб.
Требуемый опыт работы:
Не указан

Вакансия: Site Reliability Engineer ( Инженер по надежности сайта )

Описание вакансии

HOSTKEY ищет Site Reliability Engineer (SRE), который возьмёт на себя надежность сложной инфраструктуры. Нам нужен инженер, способный не просто реагировать на сбои, а выстраивать систему так, чтобы их предотвращать: от внедрения SLI/SLO до глубокой отладки сети внутри Kubernetes. Вы будете тем человеком, который сделает мониторинг прозрачным от фронтенда до очереди RabbitMQ, а деплой - бесшовным для тысяч WebSocket соединений.

Основные задачи:

  • Внедрение SLI/SLO, управление инцидентами, участие в on-call ротации, проведение постмортемов.

  • Построение сквозного мониторинга цепочки Фронт Бэк Очередь WebSocket. Стек: VictoriaMetrics + Grafana + Sentry.

  • Глубокая работа с Kubernetes (сетевые политики, лимиты, отладка подов).

  • Продвинутая настройка Nginx под долгоживущие WebSocket-соединения.

  • Администрирование MinIO в Distributed Mode (Erasure Coding, обновления без простоя).

  • Тюнинг производительности MariaDB / ClickHouse / Redis (индексы, тяжелые запросы, репликация).

  • Эксплуатация RabbitMQ : кластеризация, мониторинг лагов, ретеншн.

  • Развитие GitLab CI/CD (сложные пайплайны, канареечные деплои, blue/green).

  • Участие в миграции PHP-приложения с php-fpm на persistent runtime ( RoadRunner / FrankenPHP ).

Требования:

  • Опыт SRE/DevOps от 3 лет в production-среде с реальной нагрузкой.

  • Kubernetes не на уровне kubectl apply, а с пониманием сетевых политик и отладки проблем.

  • Nginx : уверенное проксирование WebSocket-трафика и балансировка долгих соединений.

  • Уверенный Linux : tcpdump, strace, анализ сетевой подсистемы.

  • Опыт работы с очередями ( RabbitMQ / Kafka).

  • Опыт администрирования объектных хранилищ ( MinIO / Ceph).

  • Понимание ограничений классического php-fpm и готовность работать с современными рантаймами (RoadRunner, FrankenPHP).

Мы предлагаем:

  • Полноценная удаленная работа из любой точки мира.

  • Работа в аккредитованной IT-компании.

  • Полный день 10:00 19:00 МСК, 5/2 (гибкое начало рабочего дня).

  • Интересные высоконагруженные задачи и дружный профессиональный коллектив.