Senior SRE-инженер (удаленная работа)
(вакансия не опубликована)

12 сентября 2025

Уровень зарплаты:
з.п. не указана
Требуемый опыт работы:
Не указан

Вакансия: Senior SRE-инженер

Описание вакансии

Чем предстоит заниматься:

Команда разработки на платформе AlfaGen, направления - LLMOPS

  • Эксплуатация и развитие Kubernetes кластеров (3+ года в проде): проектирование архитектуры, обновления, обеспечение отказоустойчивости, безопасности и multi tenant модели
  • Внедрение и сопровождение ML/Inference платформ: развёртывание KServe/Kubeflow, автоматизация CI/CD для моделей через Argo Workflows / Argo CD, управление жизненным циклом моделей
  • Развертывание AI облаков с GPU NVIDIA: дизайн и конфигурация приватных/публичных облаков, использование GPU operator, DCGM; планирование ёмкости и биллинг GPU h, tokens/sec
  • Проектирование и оптимизация Infiniband фабрик: установка Mellanox коммутаторов, настройка и тюнинг OpenSM, RDMA, SR IOV, Multus
  • Инфраструктура как код: разработка и поддержка модулей Ansible и Terraform для автоматического provisioning, конфигурации и DR
  • Автоматизация и скриптинг на Go/Python: создание служебных утилит, интеграция с внешними API
  • Управление хранилищами данных: эксплуатация и тюнинг NFS кластеров, объектных S3 хранилищ (MinIO/Ceph/S3 совместимых), бэкап и восстановление
  • Эксплуатация сетевой и сервисной инфраструктуры: Istio, HAProxy, Calico, Kyverno, Vault, OpenSearch, Vector, Kafka, VictoriaMetrics, Patroni/PostgreSQL
  • Наблюдаемость и алёртинг: экспорт метрик Prometheus/VictoriaMetrics, Grafana дашборды, Alertmanager и авто rollback через Argo
  • Документация и knowledge sharing: подготовка технической документации, менторинг команды, использование англоязычных материалов

Чего мы ждем от тебя:

  • Опыт сопровождения Kubernetes от 3 лет
  • Опыт сопровождения, внедрения, использования инференс и ML платформ Опыт внедрения кластеров виртуализации, частных/публичных облаков с использованием GPU Nvidia для AI/ML, в т.ч. LLM
  • Опыт внедрения и сопровождения систем с использованием сети Infiniband на базе коммутаторов Mellanox.
  • Понимание работы, тюнинг и настрока OpenSM (настройка фабрик Infiniband)
  • Навыки использования Go Python (создание скриптов, операторов K8S)
  • Знание и применение Ansible/Terraform
  • Понимание принципов работы NFS, S3 (опыт работы приветствуется)

Что мы предлагаем:

  • Стабильный и прозрачный доход: размер заработной платы обсуждается по итогам собеседования + квартальная премия по результатам KPI
  • Гибкий график работы: вы сможете планировать время так, как удобно вам и вашей команде
  • Полную удалёнку или гибрид на выбор, а также уютный ИТ-хаб в Москве, Санкт-Петербурге, Екатеринбурге и сезонный коворкинг в Сочи
  • Сложные и интересные задачи, современный стек технологий
  • Заботу о вашем здоровье: программа ДМС с первых дней работы, куда входит стоматология, обслуживание в лучших клиниках города, страхование и компенсация 10-ти дней больничного
  • Возможность вертикального и горизонтального карьерного роста: регулярно проходят тренинги, вебинары, митапы и демо-дни
  • Оплату посещения профильных конференций и курсов, помогаем с подготовкой к публичным выступлениям и написанием статей на Хабр
  • Доступ к бесплатным корпоративным библиотекам Alpina Digital, MyBook и бизнес-изданий
  • Предложения от Банка только для сотрудников: собственные спортзалы (Москва, Санкт-Петербург, Екатеринбург), а также скидки на услуги туристических агентств, продукты питания, в рестораны, бары, магазины


Посмотрите похожие вакансии

Senior SRE-инженер
Компания: Московская Биржа
Зарплата: з.п. не указана
Senior DevOps-инженер (Fintech / High-Risk)
Компания: Реал ИТ
Зарплата: от 250 000 до 300 000 руб.
Senior SRE-инженер
Компания: VK
Зарплата: з.п. не указана
Senior SRE/Site Reliability Engineer
Компания: Bazon
Зарплата: от 350 000 до 350 000 руб.