SRE инженер (Надёжность сервисов, Kubernetes, Мониторинг) (удаленная работа)
(вакансия не опубликована)

8 сентября 2025

Уровень зарплаты:
з.п. не указана
Требуемый опыт работы:
Не указан

Вакансия: SRE инженер (Надёжность сервисов, Kubernetes, Мониторинг)

Описание вакансии

Наша команда ищет опытного SRE/DevOps инженера для развития и обеспечения надежности нашей микросервисной инфраструктуры. Если вы эксперт в Kubernetes, мониторинге и автоматизации и хотите внедрять лучшие практики SRE вы нам подходите!

Чем предстоит заниматься:

  • Сопровождение, обеспечение бесперебойной работы и развитие микросервисной архитектуры на базе Kubernetes и Nomad .

  • Разработка и реализация стратегии мониторинга, настройка алертов на основе SLO и error budgets .

  • Организация и проведение постмортемов инцидентов, контроль внедрения корректирующих мер.

  • Оценка доступности сервисов, анализ деградаций с привязкой к бизнес-метрикам.

  • Разработка и реализация мероприятий по повышению надежности и доступности сервисов в облаке Yandex Cloud (включая архитектурные решения).

  • Сопровождение и развитие стеков мониторинга ( Victoria Metrics ), визуализации ( Grafana ) и логирования ( GrayLog ).

  • Автоматизация рутинных операций мониторинга.

  • Внедрение практик SRE в команду.

  • Управление error budget .

Мы ждем, что у вас есть:

  • Опыт разработки и поддержки SLI/SLO/SLA .

  • Экспертные знания Linux (CentOS, Debian, Ubuntu, AlmaLinux).

  • Опыт администрирования Yandex Cloud, AWS или аналогичных облачных платформ.

  • Опыт работы с IaC и CI/CD инструментами ( Terraform, Helm, GitLab CI/CD ).

  • Опыт администрирования и траблшутинга высоконагруженных кластеров Kubernetes (managed/unmanaged).

  • Глубокое знание систем мониторинга: Victoria Metrics, Prometheus, Grafana, Zabbix .

  • Навыки скриптования (Bash, Python, Go).

  • Опыт расследования инцидентов на основе логов и метрик.

  • Понимание сетевых технологий (уровень не ниже CCNA).

  • Навыки командной работы , ответственность, готовность помогать коллегам.

Будет большим плюсом:

  • Опыт работы с RabbitMQ и Kafka .

  • Знание принципов Chaos Engineering .

  • Знание security best practices ( IAM , сетевые политики, шифрование).

  • Опыт работы с различными СУБД (MongoDB, PostgreSQL, Redis) настройка, базовая оптимизация.

  • Опыт донесения технических SRE-метрик до бизнеса.

Мы предлагаем:

  • Официальное трудоустройство с полным соблюдением ТК РФ, социальные гарантии.

  • Оплачиваемые переработки (возникают достаточно редко).

  • Удаленный формат работы .

  • Крепкая команда экспертов : взаимопомощь, поддержка и возможность учиться у лучших.

  • Интересные задачи с использованием современных технологий, реальная возможность влиять на инфраструктуру и развивать свои навыки.

  • Работа в стабильной официальной ИТ-компании .



Посмотрите похожие вакансии

SRE-инженер (Разработка и поддержка платформы)/ИТ
Компания: ДОМ.РФ
Зарплата: з.п. не указана
DevOps-инженер в команду Kubernetes
Компания: Wildberries
Зарплата: з.п. не указана
SRE-инженер
Компания: БУРГЕР КИНГ
Зарплата: з.п. не указана
Senior SRE/Site Reliability Engineer
Компания: Bazon
Зарплата: от 350 000 до 350 000 руб.