Развитие и эксплуатация платформы геосервисов. Поддержка режимов HighAvailability и HighLoad. Система работает в нескольких средах: Kubernetes, облачные и виртуальные сервисы, bare-metall. Включает собственный CI/CD, систему наблюдаемости и высоконагруженные backend-сервисы. Основная задача роли - обеспечивать надёжную эксплуатацию инфраструктуры, автоматизацию процессов доставки и полноценную наблюдаемость сервисов, гармонизацию системы с общекорпоративными требованиями по эксплуатации и информационной безопасности.
Вам предстоит:
Проектировать и развивать CI/CD пайплайнов в GitLab для сервисов платформы (тестирование, деплой);
проводить диагностику и устранять проблемы в Kubernetes-кластере, Proxmox, Облаке и приложения х (ресурсы, сеть, конфигурации, rollout);
развивать и поддерживать системы мониторинга и метрик для сервисов и инфраструктуры (VictoriaMetrics stack);
развивать и поддерживать системы алертинга, оптимизация алертинга (victoriametrics+v male rts+alertmanager);
разрабатывать Ansible-ролей и автоматизировать инфраструктурные процессы;
реализовывать и поддерживать кастомные процессы деплоя приложений на виртуальные машины.
Вы нам подходите, если:
Владеете уверенным опытом эксплуатации Kubernetes, Proxmox, Облако: диагностика проблем, работа с ресурсами, сетями и rollout-процессами;
имеете опыт построения и поддержки CI/CD (GitLab CI), понимание процессов доставки приложений;
имеете опыт работы с системами мониторинга и метрик (Prometheus/VictoriaMetrics), настройка алертинга;
у вас был опыт автоматизации инфраструктуры с помощью Ansible и написания поддерживаемых ролей;
знаете Linux, контейнеризации и сетевые принципы работы сервисов на уверенном уровне;
имеете опыт анализа инцидентов и повышения надёжности сервисов (observability, postmortem).