Вакансия: MLOps / ML Platform Engineer
Описание вакансии
MLOps / ML Platform Engineer
О проекте
Ищем MLOps / ML Platform Engineer в команду, которая развивает ML-платформу и выводит модели в production. Основной фокус построение полного жизненного цикла моделей: от обучения до деплоя, мониторинга и поддержки. Важно мыслить платформой и надёжностью, а не отдельными ноутбуками или экспериментами. Особое внимание уделяется интеграции AI-инструментов в ежедневную работу, выстраиванию гибридных процессов человек + AI и контролю качества LLM-инференса.
Чем предстоит заниматься
Строить и развивать ML-пайплайны (training, validation, deployment);
Разворачивать и поддерживать инфраструктуру для обучения и инференса моделей;
Организовывать model serving (API, batch/real-time inference);
Обеспечивать reproducibility и versioning моделей и данных;
Настраивать CI/CD для ML-сервисов;
Мониторить модели (drift, качество, стабильность);
Работать с инфраструктурой (Kubernetes, облака, IaC);
Оптимизировать ресурсы (включая GPU) и стоимость;
Взаимодействовать с ML-инженерами и data-командой.
Ключевое стратегическое требование
Native-пользователь AI-инструментов обязательно.
Мы ищем специалиста, который ежедневно использует ИИ-инструменты в инженерной работе: для исследования решений, подготовки черновиков документации, анализа логов и инцидентов, генерации технических артефактов, автоматизации рутинных задач и ускорения операционной работы. Важно уметь:
- писать и поддерживать промпты / шаблоны ;
- вести библиотеку полезных артефактов и рабочих паттернов;
- выстраивать hybrid-workflow (человек + ИИ) с обязательным review результата;
- понимать риски LLM: галлюцинации, утечки, ограничения контекста и закладывать проверки и контроли качества в инженерные процессы.
Наши ожидания
Обязательно:
- Коммерческий опыт от 4 лет в одном из направлений: MLOps / ML Platform / DevOps с production ML;
- Уверенный Python для автоматизации, пайплайнов, интеграций и работы с ML-инструментами;
- Практический опыт работы с Docker и Kubernetes : контейнеризация сервисов, деплой и сопровождение ML-workloads;
- Опыт написания и оптимизации Dockerfile , понимание контейнеризации ML-сервисов;
- Опыт построения и поддержки ML-пайплайнов: training, validation, deployment, retraining;
- Понимание полного жизненного цикла ML-моделей: training / inference / serving / monitoring;
- Практический опыт настройки CI/CD для ML-сервисов и ML-пайплайнов;
- Уверенная работа с Linux / bash;
- Опыт использования Terraform или других IaC-инструментов;
- Базовое понимание ML : что такое модель, признаки, метрики, обучение, инференс;
- Понимание и практический опыт обеспечения reproducibility и versioning моделей, данных и окружения;
- Опыт мониторинга ML-систем : стабильность сервисов, latency, качество модели, data drift / model drift;
- Опыт работы с production ML-инфраструктурой , а не только с экспериментами или локальными ноутбуками;
- Понимание различий между MLOps и классическим DevOps , интерес к ML-специфике и взаимодействию с DS/ML-командой.
Будет плюсом:
- Опыт работы с GPU-инфраструктурой и оптимизацией ресурсов;
- Практический опыт model serving: KServe, Seldon, Triton, BentoML, vLLM;
- Опыт работы с ML/MLOps-платформами: MLflow, Kubeflow, SageMaker, Vertex AI, ClearML;
- Опыт работы с оркестраторами и пайплайнами: Airflow, Prefect, Dagster, Argo Workflows;
- Опыт работы с Feature Store;
- Опыт работы с инструментами versioning данных и моделей: DVC, Delta Lake и др.;
- Опыт мониторинга качества моделей, drift и настройки alerting / retraining triggers;
- Опыт работы с LLM inference / GenAI workloads;
- Опыт проектирования и развития ML Platform для нескольких команд или большого числа моделей.
Этапы:
Скрининг (30 минут);
Техническое интервью (1 час 30 минут).
Условия:
Работу в аккредитованной IT-компании с сильной инженерной культурой;
Возможность не просто поддерживать инфраструктуру, а проектировать и развивать платформенные решения;
Конкурентный уровень дохода, обсуждаемый индивидуально по вашему опыту и экспертизе;
Гибкий график и полностью удалённый формат работы;
Высокий уровень автономности, минимум бюрократии и реальное влияние на архитектурные решения;
Сложные и интересные задачи на стыке ML, инфраструктуры и platform engineering.
-
Пожалуйста, прикрепите к отклику скрининг по требованиям: отметьте плюсы напротив навыков, которыми вы владеете, и минусы напротив тех, которых у вас нет. Это поможет улучшить и ускорить рассмотрение отклика.
Например:
- Коммерческий опыт от 4 лет в одном из направлений: MLOps / ML Platform / ML Engineering / DevOps с production ML; +
- Уверенный Python для автоматизации, пайплайнов, интеграций и работы с ML-инструментами; +
- Практический опыт работы с Docker и Kubernetes: контейнеризация сервисов, деплой и сопровождение ML-workloads; +