Вакансия: MLOps / ML-инженер
Описание вакансии
Компания
Мы крупная и динамично развивающаяся финтех-компания , работающая с большими объемами данных.
Ищем MLOps-инженера с сильной DS-насмотренностью, который понимает жизненный цикл моделей, говорит с дата-сайентистами на одном языке и при этом способен руками развернуть компонент в Kubernetes и настроить его мониторинг.
У нас большая свобода в выборе инструментов и огромный бэклог развития вы попадете в момент, когда платформа еще не устоялась, и сможете повлиять на ее архитектуру .
Направление
Строим одну из самых гибких и всеобъемлющих ML-платформ на рынке. На данный момент в ней уже есть 3-4 подсистемы, и мы активно их развиваем.
Ключевая особенность платформы в том, что она способна инференсить модели всех существующих классов : от классического ML и нейросетей до больших языковых моделей (LLM) и уникальной технологии федеративного обучения.
Стэк
- Платформа базируется на Kubernetes.
- Платформа для DS: JupyterHub, Airflow, Feast (feature store).
- Управление Lifecycle: MLflow.
- Инференс: KServe, Triton Inference Server, CUDA, TensorFlow Runtime.
- Хранилище данных: Hadoop, Greenplum, S3, PostgreSQL.
- Observability: Prometheus, Grafana, Opensearch, Apache Superset.
- CI/CD и Безопасность: Bamboo, Keycloak.
Спектр задач
В отличие от чистого DevOps или чистого DS, ваша роль будет гибридной. В команде уже есть сильный инженер с DevOps-уклоном, теперь нам нужен человек с экспертизой в моделях, чтобы восстановить баланс.
- Сопровождение E2E для модельных артефактов на всех этапах жизненного цикла: от эксперимента до продакшена и мониторинга.
- Организация инференса моделей . В ближайших планах реализация инференса для ансамбля нейросетей. Это включает выбор оптимального решения и его внедрение.
- Доработка Observability всей платформы : настройка сбора метрик, настройка централизованного сбора и анализа логов, настройка алертинга.
- Участие в R&D-активностях . Работа с федеративным обучением и другими инновационными направлениями по мере их появления в бэклоге.
- Разработка CI CD для ML-моделей и признаков , автоматизация выкатки сервисов и компонентов платформы.
- Внедрения моделей с использованием различных Model Runtime Services в онлайн и пакетном режиме.
- Развитие и поддержка инструментов тестирования моделей .
- Поддержка и развитие инфраструктуры : работа с Kubernetes для раскатки и поддержки компонентов в режиме высокой доступности.
Что ожидаем от вас
Что готовы предложить
- Роль с реальным влиянием . Вы не просто сопровождаете готовое решение, а участвуете в формировании архитектуры платформы на этапе её активного роста.
-
Уникальный опыт работы с федеративным обучением.
-
Сбалансированные задачи. Мы не требуем быть гуру DevOps, достаточно базового понимания (K8s, CI/CD, observability), чтобы эффективно взаимодействовать с инфраструктурой и доращивать компетенции в процессе.
- Система мотивации: фиксированный ежемесячный оклад + годовой бонус (10% от годового дохода, завязан на KPI/SLA).
- Оформление по ТК РФ. Компания входит в реестр аккредитованных ИТ-компаний.
- Удаленный формат работы. Офис расположен в г. Москва.
- ДМС со стоматологией (с 1 рабочего дня + полис путешественника).
- Частичная компенсация фитнеса / обучения / доп. мед. услуг (лимит 25 тыс. рублей в год) в том числе, распространяется на детей.
- Дополнительные дни к ежегодному отпуску (всего 31 день в году).
- Современное оборудование (техника Windows, Lenovo ThinkPad).
Как мы проводим собеседования
30 минут общение с рекрутером (Я.Телемост, видео встреча). Знакомство, проверка базового соответствия, рассказ о компании и проекте подробнее.
60 минут техническое интервью (Я.Телемост, видео встреча). Обсуждение вашего опыта, подходов к решению задач, глубокое погружение в экспертизу.
60 минут встреча с Head of Data Platform (опционально).
Проверка документов 1-2 дня (анкета в электронном виде).
Оффер, обсуждение даты выхода на работу.
Мы стараемся как можно быстрее принимать решения!