Вакансия: Инженер инфраструктуры/DevOps Middle+
Описание вакансии
Мы в Kassir.ru усиливаем инфраструктурную команду и ищем коллегу, который уверенно чувствует себя на стыке классической инфраструктуры и DevOps-подходов. У нас большой парк сервисов и много живого железа, поэтому роль про реальную эксплуатацию: от стоек и сети до автоматизации и наблюдаемости.
Команда инфраструктуры это про стабильность, скорость реакции и здравую автоматизацию. Задачи разноплановые: Linux, сеть, Kubernetes, автоматизация, почему стало медленно , почему не встало после обновления . Мы за то, чтобы упрощать систему и уменьшать ручной труд, но при этом понимаем, что в живой инфраструктуре полностью без рук не бывает.
Задачи для нового сотрудника:
- Поддерживать и развивать инфраструктуру: физические серверы, виртуализацию и связанные сервисы.
- Администрировать Kubernetes-кластеры: базовая эксплуатация, обновления, контроль ресурсов, разбор инцидентов, взаимодействие с сетями/хранилищами, повышение стабильности.
- Работать с балансировщиками и фронтовыми слоями: HAProxy / Nginx (настройка, тюнинг, диагностика).
- Вести и развивать виртуализацию на Proxmox.
- Держать в порядке инвентаризацию и схемы: NetBox.
- Автоматизировать: Ansible, оркестрация через AWX / Semaphore.
- Разбирать инциденты и проблемы в Linux: диагностика, поиск узких мест, root cause.
- Работать с сетевым стеком: TCP/IP, маршрутизация/ACL/VLAN ы (на уровне уверенного понимания и практики).
- Развивать наблюдаемость:
- логирование ELK stack, Vector,
- метрики/алерты Prometheus stack.
- Взаимодействовать с разработкой и CI/CD: GitLab CI, помощь в приземлении пайплайнов на инфраструктуру.
- По необходимости задачи в серверной: стойки, кабели, замены, удалённые руки, взаимодействие с ДЦ.
Наши пожелания к кандидату:
- Уровень Middle+ / Senior.
- Уверенный Linux troubleshooting.
- Администрирование Kubernetes (не пощупал kubectl , а именно эксплуатация кластера и разбор проблем в проде).
- Практический опыт с:
- HAProxy и/или Nginx,
- Proxmox,
- Ansible (плейбуки, роли, идемпотентность),
- AWX / Semaphore,
- NetBox,
- Prometheus/Grafana/Alertmanager,
- ELK и/или потоками логов через Vector.
- Хорошее понимание сети: TCP/IP, диагностика (tcpdump, ss/netstat, traceroute), типовые проблемы.
- Опыт эксплуатации PostgreSQL на инфраструктурном уровне (бэкапы/мониторинг/базовая диагностика).
- Аккуратность с изменениями, привычка к git и документации.
Будет большим плюсом:
Опыт работы в среде с большим количеством сервисов и высокой ценой простоя.
Опыт выстраивания процессов эксплуатации: регламенты, on-call, постмортемы, SLO/алерты без шума .
Умение нормально взаимодействовать с разработкой: без это не ко мне , а по делу и на результат.
Мы предлагаем:
- Официальную оплату труда, оформление по ТК РФ.
- ДМС после испытательного срока.
- Формат работы - удаленка, но с возможностью иногда (по необходимости) приезжать в офис.