Вакансия: Senior SRE-инженер
Описание вакансии
Чем предстоит заниматься:
Команда разработки на платформе AlfaGen, направления - LLMOPS
- Эксплуатация и развитие Kubernetes кластеров (3+ года в проде): проектирование архитектуры, обновления, обеспечение отказоустойчивости, безопасности и multi tenant модели
- Внедрение и сопровождение ML/Inference платформ: развёртывание KServe/Kubeflow, автоматизация CI/CD для моделей через Argo Workflows / Argo CD, управление жизненным циклом моделей
- Развертывание AI облаков с GPU NVIDIA: дизайн и конфигурация приватных/публичных облаков, использование GPU operator, DCGM; планирование ёмкости и биллинг GPU h, tokens/sec
- Проектирование и оптимизация Infiniband фабрик: установка Mellanox коммутаторов, настройка и тюнинг OpenSM, RDMA, SR IOV, Multus
- Инфраструктура как код: разработка и поддержка модулей Ansible и Terraform для автоматического provisioning, конфигурации и DR
- Автоматизация и скриптинг на Go/Python: создание служебных утилит, интеграция с внешними API
- Управление хранилищами данных: эксплуатация и тюнинг NFS кластеров, объектных S3 хранилищ (MinIO/Ceph/S3 совместимых), бэкап и восстановление
- Эксплуатация сетевой и сервисной инфраструктуры: Istio, HAProxy, Calico, Kyverno, Vault, OpenSearch, Vector, Kafka, VictoriaMetrics, Patroni/PostgreSQL
- Наблюдаемость и алёртинг: экспорт метрик Prometheus/VictoriaMetrics, Grafana дашборды, Alertmanager и авто rollback через Argo
- Документация и knowledge sharing: подготовка технической документации, менторинг команды, использование англоязычных материалов
Чего мы ждем от тебя:
- Опыт сопровождения Kubernetes от 3 лет
- Опыт сопровождения, внедрения, использования инференс и ML платформ Опыт внедрения кластеров виртуализации, частных/публичных облаков с использованием GPU Nvidia для AI/ML, в т.ч. LLM
- Опыт внедрения и сопровождения систем с использованием сети Infiniband на базе коммутаторов Mellanox.
- Понимание работы, тюнинг и настрока OpenSM (настройка фабрик Infiniband)
- Навыки использования Go Python (создание скриптов, операторов K8S)
- Знание и применение Ansible/Terraform
- Понимание принципов работы NFS, S3 (опыт работы приветствуется)
Что мы предлагаем:
- Стабильный и прозрачный доход: размер заработной платы обсуждается по итогам собеседования + квартальная премия по результатам KPI
- Гибкий график работы: вы сможете планировать время так, как удобно вам и вашей команде
- Полную удалёнку или гибрид на выбор, а также уютный ИТ-хаб в Москве, Санкт-Петербурге, Екатеринбурге и сезонный коворкинг в Сочи
- Сложные и интересные задачи, современный стек технологий
- Заботу о вашем здоровье: программа ДМС с первых дней работы, куда входит стоматология, обслуживание в лучших клиниках города, страхование и компенсация 10-ти дней больничного
- Возможность вертикального и горизонтального карьерного роста: регулярно проходят тренинги, вебинары, митапы и демо-дни
- Оплату посещения профильных конференций и курсов, помогаем с подготовкой к публичным выступлениям и написанием статей на Хабр
- Доступ к бесплатным корпоративным библиотекам Alpina Digital, MyBook и бизнес-изданий
- Предложения от Банка только для сотрудников: собственные спортзалы (Москва, Санкт-Петербург, Екатеринбург), а также скидки на услуги туристических агентств, продукты питания, в рестораны, бары, магазины