20 декабря 2025
Вам предстоит:
Разрабатывать и поддерживать инструменты для автоматизации инфраструктуры и наблюдаемости;
Мониторить состояние систем, реагировать на инциденты и проводить анализ первопричин (RCA);
Сотрудничать с командами разработки для повышения масштабируемости и надёжности сервисов;
Определять и контролировать SLI, SLO и Error Budgets;
Руководить инцидентами: организовывать процесс восстановления, документировать RCA и проводить постмортемы;
Настраивать и администрировать Grafana стэк, проектировать информативные дашборды и оптимизировать алерты;
Интегрировать и мониторить внешние системы, взаимодействовать с технической поддержкой поставщиков;
Автоматизировать рутинные операции (toil elimination): развертывание, масштабирование, бэкапы, восстановление;
Тесно взаимодействовать с командой безопасности (DevSecOps) для обеспечения соответствия инфраструктуры;
Участвовать в планировании мощности (capacity planning) и оптимизации затрат на облачную/физическую инфраструктуру.
Мы ожидаем:
Отличное понимание принципов observability (metrics, logs, traces);
Практический опыт работы с Grafana(администрирование, настройка, оптимизация алертов);
Опыт работы с Kubernetes и контейнеризацией;
Знание и применение принципов SLI/SLO/Error Budgets на практике;
Опыт проведения и документирования инцидентов и постмортемов;
Навыки написания скриптов для автоматизации (Python, Bash или Go);
Понимание принципов работы распределённых систем и сетевых протоколов;
Понимание принципов и процессов CI/CD.
Будет плюсом:
Опыт построения отказоустойчивых multi-region или multi-cloud архитектур;
Знание паттернов resilience (circuit breaker, retry, backoff);
Знание: Clickhouse, Keycloak / LDAP / Authentic, kyverno, Rancher, php, kustomize.
Стек: Docker, Docker-compose, Grafana/Prometheus, ELK, Kubernetes, Gitlab + gitlab-ci, MySql, PostgreSQL, Ingress Nginx, KrakenD, php + Yii2, shell.
Мы предлагаем:
Дополнительные бонусы: