Вакансия: SRE-инженер
Описание вакансии
Мы ищем инженера, который поможет нам вывести надёжность и наблюдаемость систем на новый уровень не только на уровне платформы, но и во взаимодействии с продуктовыми командами. Ты будешь одним из двух SRE в платформенной команде.
Задач хватит: от построения инструментов для оценки надёжности сервисов, до настройки и развития системы мониторинга под десятки команд с разной степенью зрелости.
Технологии, с которыми ты точно столкнёшься: - Prometheus, VictoriaMetrics, Grafana, Grafana Tempo - Sentry, OpenSearch - Kubernetes, Terraform + Terragrunt, ArgoCD - Go, bash
И немного про нас: У нас нет дежурств, нет микроменеджмента, но есть много возможностей сделать среду лучше и для себя, и для команд. Мы не ищем фиксеров алертов , нам важны люди, способные влиять и развивать практики SRE.
ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ: - Помогать продуктовым командам делать их сервисы наблюдаемыми: метрики, дашборды, алерты, трейсинг;
- Развивать мониторинг всей платформы мы используем Prometheus, VictoriaMetrics, Grafana, Tempo, Sentry и OpenSearch;
- Создавать автоматические проверки для оценки качества и готовности сервисов например, юнит-тесты надёжности : насколько конфигурация деплоя соответствует best practices;
- Автоматизировать и систематизировать всё, что можно: у нас уже есть GitOps, ArgoCD, Terraform, Terragrunt;
- Помогать выстраивать SLI/SLO, проводить аудит текущих решений, участвовать в проектировании новых.
НАШИ ПОЖЕЛАНИЯ К КАНДИДАТУ: - Опыт работы SRE-инженером или похожей ролью на уровне senior или lead;
- Умение разбираться в чужих сервисах, не боясь пойти в чужой код или инфраструктуру;
- Практический опыт с Kubernetes, CI/CD, observability-инструментами;
- Автономность. У нас высокая самостоятельность нужно уметь брать ответственность, задавать направление и доводить до результата;
- Умение разговаривать с людьми. Много взаимодействия с командами важно объяснять, а не только настраивать.