Технический лидер SRE (удаленная работа)

Cloud.ru

12 мая 2026

Если информация в вакансии не соответствует действительности, или эта вакансия является мошенничеством, сообщите, пожалуйста, модератору, используя кнопку . Спасибо.

Уровень зарплаты:
з.п. не указана

Требуемый опыт работы:
Не указан

Вакансия: Технический лидер SRE

Описание вакансии

Чем предстоит заниматься:

Проектировать, разрабатывать, внедрять и поддерживать SLO/SLI для всех сервисов;
Участвовать в устранении инцидентов - в связке со смежными командами устранять сбои и предотвращать их повторение;
Участвовать в заполнении и разборе постмортемов;
Расследовать причины инцидентов (RCA);
Разрабатывать и выполнять меры, направленные на предотвращение повторных инцидентов;
Развивать мониторинг и алертинг - разработка, обогащение, настройка метрик, логов, трейсов, алертов, дашбордов, ранбуков (и их регулярный анализ/рефакторинг);
Автоматизировать рутинную работу;
Ревьюить и помогать дорабатывать DRP, участвовать в качестве координатора в DRT, поддерживать DRP в актуальном состоянии;
участвовать в разработке и оптимизации процессов, используемых в работе
Встраивать в процессы практики: observability by default, alerting as code, runbooks, SLO/SLA/SLI
Помогать командам строить отказоустойчивые сервисы: autoscaling, failover, chaos engineering
Обеспечивать внутреннюю экспертизу по стабильности, метрикам, инцидентам и error budgets

Что мы ждем от кандидата:

Экспертиза и практический опыт в SRE-практиках: глубокое понимание SLO/SLI, error budget, toil reduction, automation first... И умение применять это практически для обеспечения надежности сервисов;
Умение проводить code review для оценки готовности к выходу в production новых функций и сервисов с точки зрения надёжности, наблюдаемости и эффективности, понимание, как изменения в коде влияют на смежные системы и общую стабильность платформы;
Понимание, что такое load balancing, circuit breakers, disaster recovery, MTTR, RTO, и т.п.;
Экспертные знания в эксплуатации Linux, включая диагностику на уровне ядра (процессы, память, сеть);
Опыт работы с Kubernetes и понимание его internal'ов для диагностики сложных проблем;
Понимание, как работают сети и умение диагностировать проблемы в их работе;
Практический опыт IaаC (Terraform/Ansible) и понимание принципов;
Практический опыт построения CI/CD (Gitlab CI, Argo CD);
Умение писать автоматизацию и скрипты на Python/Go;
Опыт работы с системами мониторинга и логирования (Prometheus, Grafana, Loki, Tempo, ELK);
Практический опыт в SRE роли.

Будет плюсом, если вы:

Знаете, как сделать отказоустойчивый масштабируемый сервис;
Имеете опыт написания и ревью технической документации;
Имеете опыт коммуникации с разработчиками и бизнесом (объяснение trade-offs между reliability и feature dev);
Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения;
Имеете практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в production;
Знаете, как определять SLI для сервиса, у которого нет исторических данных о надежности;
Знаете, как рассчитать композитные SLO для сервиса, зависящего от 10+ микросервисов;
Имеете опыт внедрения observability-as-code и alerting-as-code.

Откликнуться на вакансию

Количество просмотров: 56

Посмотрите похожие вакансии

DevOps-инженер / SRE
Компания: SHEVEREV
Зарплата: з.п. не указана

SRE-инженер (направление автоматизации и эксплуатации)
Компания: БЮРО 1440
Зарплата: з.п. не указана

Ведущий инженер SRE
Компания: VS Robotics (ООО АБТ)
Зарплата: з.п. не указана

DevOps (SRE) engineer
Компания: Компэл
Зарплата: от 200 000 до 300 000 руб.

Добавить в закладки

Подтвердите действие

Список регионов

Технический лидер SRE (удаленная работа)

Cloud.ru

Вакансия: Технический лидер SRE

Описание вакансии

Посмотрите похожие вакансии