Платформенный SRE (удаленная работа)

Cloud.ru

27 июля 2026

Если информация в вакансии не соответствует действительности, или эта вакансия является мошенничеством, сообщите, пожалуйста, модератору, используя кнопку . Спасибо.

Уровень зарплаты:
з.п. не указана

Требуемый опыт работы:
Не указан

Вакансия: Платформенный SRE

Описание вакансии

На этой позиции тебе предстоит:

Участие в продуктовой RUN команде
Методология наблюдаемости формировать требования к данным и метрикам; внедрять стандарты надёжности данных и лучшие практики наблюдаемости
Анализ потоков и метрик работать с Prometheus, Loki, OpenTelemetry и др.; выявлять отклонения, узкие места и возможности оптимизации
Data QA (контроль качества данных) проверять полноту, корректность и соответствие требованиям; автоматизировать проверки через Quality Gates (правильность схемы, покрытие метрик, отсутствие дублирования, соответствие SLA/SLO) оценка качества перед попаданием в прод
Тестирование и R&D Ops - писать и поддерживать автоматические тесты компонентов мониторинга; проверять наличие и корректность метрик, логов, трассировок после деплоя; планировать тесты надёжности (отказы узлов, сетевые задержки, падения зависимостей) и канарейковые/теневые развертывания с автоматическим откатом; проводить нагрузочное тестирование, сравнивать результаты с базовым профилем; исследовать новые технологии, собирать метрики,готовить рекомендации; интегрировать Quality Gates в CI/CD каждый релиз проходит проверку качества и надёжности; отслеживать эффективность через SRE KPIs (MTTR, доля неудачных изменений, коэффициент успешных хаос тестов, переход PoC прод) и публиковать их в дашбордах
Разбор инцидентов и RCA анализировать логи, трассировки, метрики, ETL pipeline; документировать причины, фиксировать ошибки, предлагать решения; вести базу знаний (post mortem, операционные руководства)
Техническая документация создавать и актуализировать схемы потоков данных, инструкции, описания архитектуры платформы
Развитие внутренней платформы мониторинга улучшать функциональность и производительность; автоматизировать наблюдаемость и оповещения как код ); интегрировать пороги проверки качества в CI/CD для проверки перед деплоем
Обучение и передача знаний готовить обучающие материалы, проводить воркшопы. Способствовать принятию единых практик наблюдаемости

Что мы ждем от кандидата:

Знаете, как сделать отказоустойчивый масштабируемый сервис
Имеете опыт написания и ревью технической документации Имеете опыт коммуникации с разработчиками и бизнесом (объяснение компромиссов между надёжностью и разработкой функций)
Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения
Имеете практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в прод
Знаете, как определять SLI SLO для сервиса, у которого нет исторических данных о надежности
Знаете, как рассчитать композитные SLO для сервиса, зависящего от 10+ микросервисов
Имеете опыт внедрения наблюдаемости как код (observability as code), оповещения как код (alerting as code))

Откликнуться на вакансию

Количество просмотров: 30

Посмотрите похожие вакансии

Senior SRE Engineer
Компания: ScanFactory
Зарплата: з.п. не указана

Руководитель продукта Интеграционная платформа / Product owner Integration Platform
Компания: VVP Group
Зарплата: з.п. не указана

Руководитель группы разработки Go, Load Balancing
Компания: Ozon
Зарплата: з.п. не указана

Инженер платформы
Компания: Виртуальные инфраструктуры
Зарплата: з.п. не указана

Добавить в закладки

Подтвердите действие

Список регионов

Платформенный SRE (удаленная работа)

Cloud.ru

Вакансия: Платформенный SRE

Описание вакансии

Посмотрите похожие вакансии