Наша команда ищет опытного SRE инженера для развития и обеспечения надежности нашей микросервисной инфраструктуры. Если вы эксперт в Kubernetes, мониторинге и автоматизации и хотите внедрять лучшие практики SRE вы нам подходите!
Чем предстоит заниматься:
Разработка и реализация стратегии мониторинга, а также настройка алертов на основе SLO и error budgets;
Организация процесса проведения постмортемов инцидентов и внедрения корректирующих мер командами;
Оценка доступности сервисов и анализ деградаций с привязкой к бизнес-метрикам;
Разработка и реализация мероприятий, направленных на повышение надежности и доступности сервисов компании в рамках инфраструктуры на базе облачных решений Yandex Cloud, включая архитектуру;
Сопровождение систем мониторинга Victoria Metrics, визуализации в Grafana и логирования в GrayLog;
Автоматизация рутинных операций связанных с мониторингом;
Внедрение практик SRE в команду мониторинга;
Участие в управлении error budget.
Мы ждем, что у вас есть:
Разработка и поддержка SLI/SLO/SLA;
Работы с Linux системами на уровне эксперта (CentOS, Debian, Ubuntu, AlmaLinux);
Работы с сервисами публичных облачных платформ, например Yandex Cloud, AWS или других;
Работы с инструментами IaC, а также CI/CD (преимущественно terraform, helm, gitlab CI/CD);
Работы с высоконагруженными кластерами Kubernetes (желательно иметь опыт работы с managed и unmanaged, а также траблшутинга проблем);
Работы с системами мониторинга Victoria Metrics, Prometheus, Grafana, Zabbix;
Написания скриптов (bash, python или golang например);
Расследований инцидентов на основании логов и метрик, а также восстановление картины произошедшего;
Работы с сетями на уровне не меньшем, чем CCNA;
Работы в команде.
Будет плюсом:
Умеешь работать с RabbitMQ и Kafka;
Знаешь принципы Chaos Engineering;
Знаешь security best practices (IAM, сетевые политики, шифрование);
Работал с разными СУБД, знаешь особенности Mongo, оптимизировал (может и не на уровне DBA) PostgreSQL, настраивал кластера Redis;