Опыт развертывания, администрирования и траблшутинга высоконагруженных систем оркестрации контейнеров, как on-prem, так и в публичных облаках (у нас Kubernetes);
Понимание подхода IaC и управления конфигурациями (у нас Ansible и Terraform) и умение его применять;
Опыт построения систем наблюдаемости, как системных, так и прикладных решений. Понимание, какие метрики собирать, куда смотреть при проблемах, какие дашборды для этого нужны (мы используем Prometheus/Grafana);
Понимание принципов и опыт построения отказоустойчивых сервисов и эксплуатации высоконагруженных систем (Web-серверов, СУБД, приложений);
Опыт построения процесса непрерывного резервного копирования инфраструктурных компонентов.
Будет плюсом:
Опыт администрирования: Kafka, RabbitMQ, PostgreSQL, Redis;
Знание и умение применять практики SRE;
Опыт в тестировании систем на отказоустойчивость и нагрузку (нагрузочное тестирование, Chaos Engineering);
Опыт в разработке планов аварийного восстановления (DRP).