обеспечивать доступность по SLA и устранять инциденты
вести техническую документацию
Что мы ждём:
Опыт работы с высоконагруженными системами и распределенными архитектурами (например, в банковской сфере, fintech, или финансовых платформах)
Понимание принципов обеспечения высокой доступности (HA), Disaster Recovery (DR) и работы в рамках SLA/SLO
Опыт внедрения CI/CD-пайплайнов, автоматизации деплоя
Знание Linux (группы и права доступа, сервисы systemd, анализ производительности)
Опыт работы с Docker, Kubernetes (администрирование кластеров, сетевые политики, CSI), Helm (управление релизами), Ansible и Terraform (автоматизация развертывания и управление инфраструктурой)
Опыт работы с Prometheus, Grafana, ELK (Elasticsearch, Logstash, Kibana), Jaeger (для трассировки)
Опыт настройки alerting и анализа метрик
Опыт работы с инструментами безопасности (SonarQube, Vault)
Знание одного из скриптовых языков (Python, Bash, Go);
Опыт работы с системами управления версиями (Git, GitLab, GitHub, Bitbucket)
Знание основ построения сетей передачи и хранения данных