MlOps inference engineer (удаленная работа)

HeadHunter

27 марта 2026

Если информация в вакансии не соответствует действительности, или эта вакансия является мошенничеством, сообщите, пожалуйста, модератору, используя кнопку . Спасибо.

Уровень зарплаты:
з.п. не указана

Требуемый опыт работы:
Не указан

Вакансия: MlOps inference engineer

Описание вакансии

Мы строим платформу LLM инференса, обслуживающую как внутренние, так и продакшен-сервисы. Наша миссия обеспечить стабильный, масштабируемый и экономичный сервинг больших языковых моделей. Мы ищем инженера, который поможет в развитии инфраструктуры, оптимизацию latency и throughput, а также внедрение передовых подходов к распределенному LLM инференсу.

Обязанности:

Разработка и оптимизация инфраструктуры инференса LLM моделей.
Performance-tunning llm моделей, поиск точек деградации или кейсов оптимизации на основе реальных логов
Помощь в capacity-планировании командам-заказчикам
Обеспечивать масштабируемость и надежность LLM serving инфраструктуры, выбор инструментов для инференса (sglang, vLLM, TensorRT LLM).
Разрабатывать и внедрять механизмы оптимизации стоимости и производительности GPU нагрузок

Ключевые знания и навыки:

Глубокая экспертиза в архитектуре и инференсе больших языковых моделей.
Понимание устройства моделей (трансформеры, BERT, LLM и т.д.)
Опыт построения высокопроизводительных LLM сервисов с использованием vLLM, TensorRT LLM/FasterTransformer/Triton Inference Server/etc.
Знание методов оптимизации и ускорения LLM инференса: quantization (FP16, INT8, FP8), FlashAttention, paged attention, speculative decoding.
Понимание нюансов распределенных систем и GPU коммуникации (NCCL, MPI, RDMA, InfiniBand).
Опыт в управлении кластером для LLM нагрузок (Kubernetes, Ray, KServe, Kubeflow) в облаке или на своем железе.
Уверенное владение Python
Знание инструментов профилирования GPU (nvidia smi, Nsight, TensorRT Profiler).
Опыт участия в архитектурном дизайне крупных AI платформ
Опыт управления командой инженеров.
Продвинутые навыки работы в Linux, CI/CD и системах оркестрации моделей.

Будет преимуществом:

Опыт построения LLM сервисов с потоковой генерацией токенов (streaming inference).
Знание особенностей служебных компонентов LLM пайплайна: токенизаторы, KV кэш, контекстное окно.
Понимание внутренней архитектуры GPU (CUDA, cuDNN, Tensor Cores) для глубокой оптимизации производительности.
Участие в проектах по оптимизации инфраструктуры для LLM инференса на уровне платформы (multi tenant LLM serving, dynamic batching).
Понимание принципов векторных баз данных (Milvus/Qdrant/FAISS/pgvector) для RAG решений и не только.

Что предлагаем мы:

Возможность выбора формата работы: гибрид, удаленно или из офиса
Гибкий график
Корпоративный ДМС со стоматологией c первого месяца работы
Активная корпоративная жизнь: регулярно проводим неформальные оффлайн-встречи, возможность командировок из других городов
Хороший тренажерный зал в офисе и душ при нем, а также занятия йогой, настольный теннис и кикер
Кофе в кофемашинах, чай, печенье, фрукты на кухне
Электронная корпоративная библиотека
Молодой, профессиональный и дружный коллектив
Возможность профессионального развития, обучения за счет компании, участия в конференциях
Достойный уровень заработной платы
Совместную постановку целей и индивидуальный план развития

Откликнуться на вакансию

Количество просмотров: 21

Посмотрите похожие вакансии

MLOps Support Engineer
Компания: X5 Tech
Зарплата: з.п. не указана

MLOps инженер
Компания: ГНИВЦ
Зарплата: з.п. не указана

MLOps / ML Platform Engineer
Компания: Луна Кэпитал
Зарплата: з.п. не указана

Middle+ / Senior MLOps инженер
Компания: RedLab
Зарплата: от 250 000 до 450 000 руб.

Добавить в закладки

Подтвердите действие

Список регионов

MlOps inference engineer (удаленная работа)

HeadHunter

Вакансия: MlOps inference engineer

Описание вакансии

Посмотрите похожие вакансии